颜广杰 深圳市天威网络工程有限公司
HFC网络是以光纤为骨干网络,同轴电缆为分支网络的高带宽网络,HFC拥有高度的灵活性和强大的功能,这些特性使得其成为了电信服务供应商和有线电视的首选技术。HFC通信网由于拥有种类繁多的各种通信设备,所以更需要借助专用网管系统来对其加以管理。HFC通信机房由于地理分布较广,而CM、光发射模块、交换机、CMTS等设备运行信息都需要被监控,所以设计一个HFC网通信设备集中监控告警系统来集中管理各种通信设备的告警信息是非常有必要的。
本文设计的HFC网络设备集中告警系统主要通过集中告警平台实现对HFC网络相关通信设备实行集中告警。系统通过数据采集模块从系统中各设备采集各种设备告警、性能越限告警和网络告警等信息,通过将各孤立的设备、事件进行关联,根据设备关联关系、事件关联关系,消除状态闪烁变化而产生告警及关键节点引发的连锁告警,同时根据告警时间、阈值、持续时间、消除持续时间等技术参数对告警进行智能压缩,然后借助相关通讯手段呈现给系统运维人员,进而实现对告警信息的集中管理。借助本系统,系统运维人员能够迅速知道各系统故障发生的位置,以及导致故障发生的可能原因等信息。
数据采集主要是指系统从各网络设备中采集数据的功能。系统是通过SNMP接口自动采集各网元的设备告警、性能越限告警和设备数据等信息后,将越限告警/原始告警于数据库中存储,再通过过滤以及转换,统一为相同告警格式,然后及时通知应用服务层,以便对告警信息进行分析与处理。根据网管接口,告警采集方式可以分为以下两种:一是trap主动上报。各网络设备主动将各种告警信息上报给系统。二是被动采集。系统从各网络设备主动采集告警信息。正常情况下,系统主要是被动采集告警信息,但是限于一些需要进行告警同步和一些系统功能的应用场景,此时就需要系统采用trap主动上报。
采集的告警信息主要包含以下内容:告警源、告警级别、告警类型、告警名称、告警产生以及恢复时间等。按告警严重程度,在本系统中将其依次分为告警恢复、提示告警、次要告警、重要告警、紧急告警五个级别。按告警状态,在本系统中分为历史告警和当前告警两类。系统将根据不同级别、不同类型、不同设备的告警对过滤条件予以设置,针对同一告警信息重复出现的情况,系统会自动将其压缩为一条信息,但是会给出初次发生时间、最后发生时间以及告警次数。
告警合并是NMS通过相关信息将网络中各设备节点进行自动关联,将相同、类似、可能相关的告警能够自动合并。比如系统在分析光节点健康状态时,检查到市电丢失,同时检查到,UPS供电不稳,光功率低,端口SNR低,CM在线率低,此时,该光节点的故障会合并为一条告警,之后该光节点的将不再产生告警,直到此次告警恢复为止。系统告警通过过滤压缩之后,有效压缩率可以达到90%,极大地提高了告警信息的可读性和有效性。
例如告警:电压不稳
系统在分析光节点健康状态时,检查到市电丢失,同时检查到,UPS供电不稳,光功率低,端口SNR低,CM在线率低,此时,该光节点的故障会合并为一条告警,之后该光节点的将不再产生告警,直到此次告警恢复为止。
系统接收告警信息后,及时通知各告警终端,更新告警状态,并及时通知运维人员。
本文设计的HFC网络设备集中告警系统,实现了告警管理的前移,很好地解决了原网络系统存在的信息分散,无法将告警信息及时主动借助相关通讯手段通知系统运维人员这一缺陷,并将系统与BOSS系统、TMS系统、资源管理系统、GIS系统、工单管理系统实现数据交换,进而实现从告警检测、告警响应、告警处理、故障消除、告警报表管理的全过程管理,增加了HFC网络专业的管理水平,更好地为HFC网络生产服务。