AI助力通信网提升故障的智能化处理能力

2021-12-27 09:40万宏谋蔡林峰王荣中国电信股份有限公司江西分公司南昌市330029
江西通信科技 2021年4期
关键词:云网网络故障工单

万宏谋 蔡林峰 王荣 中国电信股份有限公司江西分公司 南昌市 330029

关键字:智能化 网络故障 维护

0 引言

云网故障处理的第一个阶段主要以人工处理为主,工程师依靠经验进行逐段的网络分析、故障定位及处理。第二个阶段是人们依托综合网管系统,结合运维工程师经验和关联规则进行故障处理。近年来,人工智能(AI)技术迅速发展,Gartner 在2016 年提出AIOps的概念,基于AI的云网故障分析和处理,将成为网络故障运维的第三阶段。

1 问题描述

网络故障的维护存在以下短板问题:①网络告警故障工单的发起是自动的,而工单流转环节中的转派交互是人工的,需大量的人工阅读、判断、操作。②大量网络告警故障,集中在几类主要场景,其判断、处理简单重复,占用了大量人力操作时间。③告警故障恢复后,业务的恢复验证及回单需人工操作,工作量大,效率低。④用户申告内容的分析处理,由人工阅读判断,缺乏自动化处理能力。

2 解决措施

①应用AI技术,进行工单内容的NLP分析,实现自动化的故障工单识别转派,避免人工阅读、分析、转派的操作。②应用AI实现典型网络故障场景的自动处理,减轻人工处理量;同时,减少故障工单的总体处理时限。③故障恢复的验证,由AI执行,并自动推送处理人员,自动关闭工单;④针对申告故障内容,进行NLP自动分类、自动处理。

2.1 告警工单自动处理

梳理并实现动环停电、基站断站、小区退服、IP端口DOWN、IPRAN开环、智能片障等主要场景的告警自动处理流程,以下是动环停电、基站断站处理流程示例:

图1 动环停电工单自动处理流程

图2 基站断站故障工单自动处理流程

(1)自动处理的目的

① 告警派单后二次关联处理,自动合并有关联关系的多张工单。

② 主动调用网管能力帮助现场确认设备状态,辅助校验。

③ 规范现场工单回单。

④ 自动结单,减少人工质检归档工作。

(2)实现情况

工单自动处理,目前已完全实现6类工单自动处理目标,覆盖工单2.3万余张/月(占比75%),单张工单预处理时间1-2分钟。

2.2 工单智能转派

基于开源深度学习框架BERT模型对现场的故障处理回单内容进行NLP分类学习建模,识别回单是否符合规范。图3是Transformer模型结构。

图3 BERT TRANSFORMER模型结构

如图4所示,在工单处理建模的准确率达到了98%,实际生产环境中的线上准确率为93%,完全能够满足生产需求。

图4 回单质检模型准确率

◎应用场景:在故障工单现场回单后,根据回单内容智能分类,决策进行下一步工单处理的动作,自动进行工单调度(销障、转派或退单)。

◎完成情况:通过爬虫获取工单回单反馈数据70多万条,由于转派、退单等数据量和销障的数据量严重不均衡,销障的量占比99%以上,不能用来全部进行学习训练,最终选取了5515张销障数据、全部转派数据5249张、全部退单数据268张,进行训练,细分场景还是存在不均衡,通过上采样扩充较少的数据样本。

◎应用效果:月度覆盖工单3万余张,判断耗时十几秒左右。对于识别出的处理场景,结合后续的自动处理动作,实现工单的自动结单、 智能转派或自动退单等自动流转调度。

图5 结单、转派、退单场景的运行时长

图6 智能转派示例

2.3 告警工单恢复验证自动处理

针对告警恢复,故障是否真正恢复的问题,开发自动化验证程序,解决告警恢复需人工回单确认的问题,实现主动验证恢复工单120余张/天,主动关闭告警150余条/天,验证的工单覆盖100%在途的告警工单。

图7 全部在途告警工单验证一轮耗时5分钟以内

2.4 宽带用户申告工单的自动处理

每月有大约5000多宽带用户申告,由监控值班人员人工进行预处理后,再转派到地市维护岗位进行处理,耗费大量的预处理及转派时间。梳理自动预处理流程,通过整合 PON网管、3A能力及工单处理调度能力,自动进行预处理及转派,节省大量的重复工作,加快工单的流转效率,工单流转历时1分钟内,同时在处理过程中定期进行业务恢复自动测试,辅助现场处理。

图8 用户申告工单自动化处理流程

图9 用户申告工单的自动流转处理界面

3 成效总结

(1)时间节省

①网络故障工单自动预处理月均处理工单23000余张,单张2分钟预处理时间,合计768小时。相比人工平均40分钟/每张,需15360小时,节约大量时长。

②工单自动转派月均成功转派工单300余张,单张节约时间1分钟,合计5小时。

宽带客户申告单月均处理工单5000余张,单张节约处理时间2分钟,合计167小时。

合计节约时间489小时/月,按工作人员月均186小时折合计算,相当于2.6人/月的人工量。

(2)效率提升

自动转派流转耗时1分钟内,对比原先人工处置平均耗时38分钟,效率提升97%。

宽带用户申告工单自动预处理流转耗时1分钟内,对比原先人工处置平均耗时9分钟,效率提升89%。

宽带用户申告工单处理时长较年中下降11%,维护作业单处理时长较年中压降71%。

4 结束语

综上所述,本文中将AI和大数据技术应用于通信网络故障的自动化处理,提升了网络故障的自动化处理效率,缩短处理时长,提升了云网运营的效率、服务水平。当前,基于AI的网络智能运维方兴未艾,成为通信行业研究的技术热点,在应用AI技术进行网络故障的综合定位、故障隐患的智能预测、主动发现等方面,应用前景非常广阔,AI技术与云网运维的深入结合,将进一步提升云网智能化运营水平。

猜你喜欢
云网网络故障工单
下期要目
新型云网融合编排与调度系统架构与分析
客服工单监控技术的开发与研究
基于量化考核的基层班组管理系统的设计与应用
航天云网科技发展有限责任公司
VxWorks网络存储池分析在网络故障排查中的应用
基于信息流的RBC系统外部通信网络故障分析
基于HANA的工单备件采购联合报表的研究与实现
Wireshark协议解析在网络故障排查中的应用
电力95598热线全业务集中后的工单预警机制