一种智能调整工单流向的根因告警派单方法

2020-05-20 00:33中国移动通信集团广东有限公司彭友斌
网络安全和信息化 2020年5期
关键词:城域网工单流向

■ 中国移动通信集团广东有限公司 彭友斌

编者按:现有派单方案难以解决跨专业故障带来的次生告警工单压缩问题,本文提出一种根因告警派单方法,根据预处理结果智能调整工单流向,精准派发根因告警工单,可有效减少工单数量,提升派单精准度。

网络发展日新月异,网络规模日益扩大化复杂化,尤其是5G网络开始进入商用,进一步增加了全网复杂性、异构性和扁平性。

一个底层网络的故障,将在上层业务设备上扩散,产生大量的次生告警,并根据告警专业,派发工单到不同专业的维护人员。以某省城域网故障工单为例,约有98%的故障工单是由于传送网故障引起。在全网集中维护,工单直达一线的背景下,传送网和城域网的故障工单将分别达到传输和城域网一线维护人员,城域网维护人员往往只能等待传送网维护人员处理完故障后才能回复工单,造成维护资源的浪费。

图1 现有方案派单效果

图2 根因告警派单效果

本文提出一种基于预处理结果智能调整工单流向的根因告警派单方法,以城域网为例,该方法根据维护经验对城域网告警进行预处理,根据预处理结果对故障原因进行定位,如果定位到传输故障引起,则将该传输告警定位为根因告警,派主单至传送网维护;同时城域网告警定位为次生告警,派子单追加至根因告警工单。传送网维护人员处理完故障报结工单时,系统自动触发核查城域网故障是否恢复,如果恢复则主单子单一并报结,城域网维护人员无需介入;如果城域网故障未恢复,才需城域网维护人员介入。

根因告警派单与现有方案派单效果的区别

现有派单方案,城域网故障告警标准化后进行预处理,初步判断故障原因,并将该结论作为预处理意见附在工单上直派地市城域网维护人员,城域网维护人员最终定位故障原因,如果是传输故障引起则进一步与传送网维护人员沟通处理情况,待传输故障处理完毕再确认业务恢复情况进行工单闭环,效果如图1所示。

根因告警派单方案,城域网故障告警标准化后进行预处理,定位故障原因,并根据定位情况调整工单流向,如果是传输故障,则传输告警派主单,城域网告警作为子单进行追加派单。工单主派传送网维护人员,分派城域网维护人员,效果如图2所示。

对比两种派单方案,主要差别在于:现有派单方案对于满足派单条件的城域网告警均会派主单,无论是否传输故障引起,城域网维护人员都必须介入处理;而根因告警派单方案则根据故障原因定位进行派单,如果是传输故障引起,城域网维护人员不一定需要介入处理,可节约大量的维护资源。

根因告警派单关键技术

1.告警智能预处理

根因告警派单效果取决于故障原因定位的准确性。告警智能预处理定位故障原因,一方面依赖于资源的准确性,即城域网设备端口与承载电路的关联关系的准确性,另一方面取决于传输告警与电路关联算法的完备性。基于这两个先决条件,制定城域网智能预处理步骤,如图3所示。

图3 告警智能预处理流程

图4 工单流向调整流程图

(1)告警恢复确认。判断故障是否恢复,如果未恢复则进入下一步处理。

(2)业务影响评估。根据组网情况和容灾配置,判断业务是否中断,根据判断结果决定故障响应级别,并调用故障管控服务完成自动报障等功能。

(3)故障原因定位。关联综合资源数据,根据特征告警匹配规则,判断根因告警。

(4)对于软件类故障,尝试指令修复。

预处理完毕,将综合处理情况,回写处理结论,并调用派单服务完成工单流向调整。

2.工单流向动态调整

传统的派单方案中,告警智能预处理和派单规则是两套独立的服务分别实现,基于预处理结果派单方案则打通了两套服务接口,实现根据预处理结果智能调整工单流向,如图4所示。

预处理服务和派单服务接口采用HTTP传输协议,通过POST方式进行调用,数据格式采用JSON格式,共实现3种调整方式。

(1)正常派单。也是默认方式,即预处理服务不调整工单流向,仍然按照原有规则进行派单。

(2)抑制派单。预处理服务判断故障已经恢复,无需派发工单时调用,主要用于告警无法对告,或者漏告警清除消息等场景。

(3)关联派单。预处理服务判断该告警为次生告警,且已找到根因告警,则将根因告警和该次生告警进行主次关联派单。此时,派单队列按主告警派单时延进行派单,如果主告警提前恢复,则次告警单独派单。

接口样例数据如下:

3.子单自动回复

图5 工单回复流程图

传统的主次关联派单,要求故障处理完毕,子单回复后,主单才能回复,确保主次告警均闭环。该处理模式要求子单故障维护专业提前介入,达不到根因告警派单节约维护资源的目的。

为此,结合工单回复自动审核功能对该方案进行了调整,如图5所示。

故障处理完毕,主单维护人员回复工单时,工单系统自动调用预处理服务对子单告警进行预处理(仅执行第一步告警恢复确认操作),如果告警恢复,则子单自动回复,并允许主单回复;否则,不允许主单回复。如果主单维护人员确认故障已修复,则此时需要协调子单维护人员介入处理。

效能分析

根据某省城域网故障工单原因统计情况分析,98%的故障工单是传输故障引起,其中约有50%是传输系统承载,即传输侧会出现相应的LOS类告警,可定位到根因告警,根因告警派单可节约49%的城域网维护资源。目前该方案已在城域网得到广泛应用,并可方便拓展至承载网、无线网等,应用前景广阔。

总结

本文针对现有派单方法跨专业故障时精准度不高,压缩效果不佳的缺陷,提出一种基于预处理结果智能调整工单流向的根因告警派单方法。该方法基于预处理结果对故障原因进行定位,并找到根因告警,以根因告警派发主单,次生告警作为子单追加,实现一个问题只派一张单。故障处理时,根因告警维护人员主处理,次生告警维护人员视业务恢复情况决定是否需要介入,大大提升了派单精准度,压缩了工单数量,从而节约了维护资源。通过运维效能分析表明,该方法能有效提升跨专业故障处理效率,支撑深化集中故障转型。

猜你喜欢
城域网工单流向
客服工单监控技术的开发与研究
IP城域网/智能城域网BGP收敛震荡的分析方法
高职院校计算机类专业“工单制”教学的研究与探索
基于RPA技术的机器人在配网调度工单发布工作中的应用
基于分布式数据库Cedar的高效工单管理系统设计与实现
面向FTTH业务的IP城域网优化改造设计
基于IP城域网的优化策略及发展应用
100G波分技术在城域网中的应用研究
十大涨跌幅、换手、振幅、资金流向
十大涨跌幅、换手、振幅、资金流向