基于“中台+应用”的5G网络故障处理中台化演进实践

2024-01-17 03:24宋文杰中国联通智网创新中心江苏南京210019
邮电设计技术 2023年12期
关键词:中台网管运维

朱 宏,邓 程,宋文杰,兰 婷(中国联通智网创新中心,江苏南京 210019)

0 引言

在传统网络管理模式下,网管系统分专业、分层级建设,导致在处理和解决与业务、网络相关的故障和问题时,需要在多个大小系统间频繁切换操作,严重影响了故障定位与处理的效率[1]。中国联通通信网络历经了从2G、3G、4G 到当下的5G 通信技术的发展过程,存在多张网络并存的情况。而且随着通信技术的不断发展,通信网络逐步呈现扁平化、融合化的趋势,专业间的边界趋于模糊。同时,中国联通还对集约化运维转型工作提出了更高的要求,从而对网络维护支撑工作也提出了更高的要求[2]。

结合中台技术、大数据技术、AI 技术,中国联通以全专业网络集中监控为目标,采用中台+应用架构模式,积极进行了5G时代网络故障处理中台化演进的创新探索和实践,以网络中台故障中心为核心,丰富各类故障处理应用,为运维集约化转型的支撑系统的演进指明方向。

本文以5G网络故障处理中台的建设为切入点,详细介绍中台建设的背景、思路和方案,分析中台+应用架构的转型方向。

1 网络运营现状及中台+应用架构模式的提出

在网络中台建设之前,中国联通采用分级、分专业的网管系统建设模式,这种网管系统的建设模式在很长一段时期内与运维组织管理职能及中国联通通信网络结构相匹配,符合当时运维管理工作的要求,提升了运维管理工作的效率。

随着公司战略转型,中国联通通信网维护支撑工作的重心逐渐由原来的“以网络为中心”转移到“以业务质量和客户感知为中心”[3]。在这种趋势下,面向业务和客户的故障和问题的处理,需要多个专业的协调分析和作业,运维人员在处理和解决与业务和网络相关的故障和问题时,需要在多个大小系统间频繁切换操作,严重影响了故障定位与处理的效率,同时,也无法很好地支撑当前集约化运维转型工作。

为解决传统IT 系统的烟囱式封闭建设、能力无法复用、新需求响应慢等问题,中国联通搭建了一级架构的智能网络中台,打造“中台+应用”新模式,提升网络运营核心能力,推动网络运营的数字化转型。

2 故障处理架构重构

2.1 重构目标

在“中台+应用”模式下,对包括5G 网络在内的全专业的网络故障场景进行梳理,将告警管理、资源管理等纳入中台层面,各种故障处理能力纳入应用层面,共同构成完整业务场景,供运维人员使用。

相比于原有模式,新架构增加了中台层,弱化了应用层的数据处理功能。重构后的网络故障处理架构如图1所示。

图1 网络故障处理中台+应用架构示意

其中,网络层指通信网络的各专业网络和专业网管,是告警、配置、性能等信息的上报或采集的数据源,也是网络运维的纳管对象。需要说明的是,各种集中监控平台也可以是数据源[4-7]。

中台层是指网络中台,包括了各种能力集,如故障中心、资源中心、数据中心、AI 模型中心等,这些能力集在逻辑上共同构成了网络中台。网络中台将网络层数据、能力进行整合,将上层应用共享能力进行沉淀,集中为上层应用提供支撑。

应用层指各种网络故障处理的应用系统,通过调用中台能力、数据,完成工单流转、调度、网络自动愈合、可视化等。面向用户,应用层完成故障发现、监控、诊断、派单、现场处理等操作。

2.2 重构过程

“中台”源于2015 年阿里巴巴启动的中台战略实践[8]。整个故障处理架构的重构是以网络中台的建设为核心,是为了有效提升复用能力而设计的企业架构方法。在本次实践中,网络中台尤其是故障中心的构建过程是对企业级能力复用的梳理过程[9]。

一般来说,基于数字中台的企业服务设计遵循自底向上与自顶向下相结合的设计原则。在网络中台尤其是故障中心的构建过程中,需要搜集各专业、部门的业务需求,进行角色化场景分析,对业务流程进行梳理优化,从而确定业务架构、技术架构、数据架构,并以此为基础,确定网络中台故障中心等的总体架构。

在整个故障处理架构重构过程中,主要遵循的原则如下。

a)能力共享原则。中台的服务基于最大化重用数据和能力资源进行设计,保障数据和能力的集中使用。正因为遵循了能力共享原则,5G 网络与2G/3G/4G网络的故障处理能力实现了最大程度的复用,降低了数据逻辑和业务流程的复杂性,避免了重复建设和分散管理。

b)松耦合原则。在应用层面及中台内部,各应用按功能和能力相对独立,实现细分业务领域内的业务逻辑闭环处理,从而以松耦合的方式实现相关业务应用的服务调用或数据传递,降低跨业务领域设计的复杂性。

c)持续优化原则。在初次设计的基础上,随着5G 建设、2G 退网等网络建设进程的推进和各领域业务应用实践,不断沉淀数据和业务能力,实现中台的深度和广度不断增加,使中台能力持续提升,从而推动中台设计的持续优化。

3 故障中心设计实现

在建设故障中心前,故障处理应用采用烟囱式系统建设,大量功能和业务在多个系统中同时存在。同时数据分布广,格式不统一,不同应用的数据难以互通。这导致技术能力难以积累,不利于业务沉淀和持续发展[10]。

中台化之后,故障中心将原来在各应用中的共同能力、共同数据进行集中处理,通过核心能力沉淀、微服务化,实现故障中心的能力高可用、高复用以及应用支撑的快速迭代,从而全面支撑未来网络及业务的运维与运营[11]。图2 给出了故障中心架构设计示意。

图2 故障中心架构设计示意

采用集中化建设之后,故障中心的告警信息流量将达到顶峰,日均处理告警达到1.5 亿条以上,峰值超过1 万条/s,支撑上层应用场景超过50 项。同时,系统在建设时可以方便地实现云化建设[12]。因此,高可靠成为最基本的要求。

3.1 高可靠性设计

a)分布式改造。中底层功能全部进行分布式改造,可以支持分布式部署。

b)支持线性扩容。中底层功能全部可以根据告警接口、数据变化进行线性扩容,不存在模块处理瓶颈。

c)引入引擎数据库。基于告警数据入库及查询要求,引入引擎数据库代替关系型数据库存储告警数据。

d)kafka 消息中间件。利用kafka 的commit 机制,解决异步带来的数据完整性问题,确保消息处理完整性。

e)取消告警全量缓存机制。取消告警全量缓存机制,通过引擎数据库的快速搜索能力替代告警全量缓存,保证实时告警和历史告警的一致性,提升告警流水和统计告警的一致性。

f)Redis缓存数据库。利用Redis缓存数据库加载资源数据缓存,实现快速告警资源补全。

g)优化告警处理环节。优化并减少告警处理环节,降低告警处理时延,提升告警准确率。

h)统一过滤分发服务。将告警订阅、告警关联、告警派单的过滤分发服务统一,减少整体告警处理数量,提升过滤分发服务能力。

i)优化清除告警处理机制。增加清除告警资源补全能力,取消清除告警广播通知,将清除告警纳入过滤分发服务,减少告警处理数量,提升后续处理模块处理能力。

3.2 能力沉淀设计

为了支撑上层应用,将各应用所需能力进行集中沉淀和提供。建设初期主要提供的能力如下。

a)实时告警订阅服务。外部系统通过告警订阅服务,订阅指定业务类型的实时告警,通过API获取故障中心的告警数据。

b)实时告警操作服务。接收告警订阅系统发送的实时告警操作信息,快速通知所有订阅相应告警的上层应用。

c)告警统计服务。构建多维数据立方体,实现多样化的告警统计能力。

d)告警查询服务。提供场景、派单、省份、地(市)、厂商及自定义等查询服务能力。

随着应用的建设,将会有更多的应用能力提出和沉淀到故障中心,从而更好地支撑上层应用的业务场景。

3.3 能力开放设计

在系统设计时,为了便于引入各应用、各省专家的智慧,丰富故障处理能力,融合合作伙伴,促进应用创新,支持应用百花齐放,系统具备能力注入接口,从而使大数据分析、机器学习形成的故障处理能力更方便地引入到系统中来[13]。故障中心能力开放示意如图3所示。

图3 故障中心能力开放示意

a)能力注入。通过规则能力开放,支持第三方通过能力调用实现各类规则的开发、验证和使用。这些规则包括告警处理、过滤分发、预处理、关联和派单等。

b)能力编排。通过服务编排,编排告警处理过程中的某个环节,通过界面化拖拽实现第三方自愈处理、派单、告警关联服务的增减,形成新的告警处理方案。该功能通过“方案调度”生效。

c)模型设计。故障中心对告警信息进行统一模型处理,其中原始告警模型如表1所示。

表1 故障中心原始告警模型设计

4 技术及落地实践要点

4.1 直采告警减少流转环节

故障中心从各专业网络采集告警信息。为了减少数据流转环节,5G 告警采集通过数据转发平台直接对接厂家OMC 网管北向告警接口[14]。直采方式的优点如下。

a)直连方式减少了告警消息流转环节,提升了告警消息的实时性。

b)直连方式提升了接口稳定性和可维护性,缩短了接口故障发现和修复时间。

c)直连方式避免了因中间环节系统数据处理造成的数据失真问题。

d)直连方式减少了中间环节系统和省内采集平台。

4.2 统一厂家网管北向接口规范

故障中心对接的网络设备多种多样。为了便于技术处理,中国联通集团制定了企标来统一告警信息的北向接口。华为、中兴、爱立信、诺基亚、大唐等5G设备厂家按照企标规范统一实现北向接口功能,实现了接口消息指标集定义、接口服务功能和接口方式的统一,为全国5G 厂家OMC 网管直连采集和大量接口集中管理提供了技术实现的基础。

4.3 增加告警完整性自动补采机制

告警消息丢失、告警数据完整性问题是运营商网管平台一直存在的问题。故障中心和厂家OMC 网管系统间基于直采接口规范制订了自动补采功能,实现了实时告警完整性校验和补采能力。针对网络丢包、网络闪断、接口功能瞬时异常等问题造成的少量告警丢失,可通过告警实时补采方式及时启动数据补采。针对接口服务定期升级、网络维护等长时间接口中断造成的告警丢失问题,可通过告警异步补采方式进行缺失告警的补采,从而保障故障中心和厂家OMC 网管数据的一致性和数据采集的完整性[15]。

通过数据自动补采等保障机制,故障中心在5G告警采集和处理过程实现了告警数据一致性,告警数据可用性达99.99%。

4.4 提升告警接口运维监控能力

故障中心采用直连采集方式后,全国厂家北向接口统一连接,接口数量庞大,难以以人工的方式维护接口的正常运行。因此,故障中心提供了监控功能对北向接口的状态和质量进行监控。

相关监控基于北向接口类型特点进行,可对接口连接性、接口数据质量等进行监控,并通过平台、短信、IVR 等运维工具支持运营工作人员使用该功能,具体实现的能力如下。

a)接口服务中断监控。

b)接口长时间无告警监控。

c)接口心跳中断监控。

d)接口采集异常监控。

通过以上手段,接口异常发现的平均时间从人工的2 h降低到1 min。同时,通过自动重启等手段,接口故障的平均恢复时间从4 h降低到5 min。

4.5 告警标准化与补全

各厂家数据内容、业务含义以及对业务的影响情况,是由各厂家内部分别定义实现的,例如告警级别、告警标题等。大部分设备上报的告警缺乏环境数据,导致故障处理所需信息不完整等[15],这些情况都不利于告警处理的统一。

为统一不同厂家对告警的业务定义,实现告警对业务影响的规范识别标准,中国联通集团组织梳理制定了5G告警标准化规范。基于业务维护的维度,对华为、中兴、诺基亚、爱立信、大唐这5 个厂家1 000+种类的告警进行了标准化,重新定义了统一的告警分类、告警级别、告警标题、告警对业务和对设备的影响程度等。通过故障中心对厂家原始告警进行解析,对标准化信息进行补全。

4.6 实现5G基站AAU故障定位能力

有别于传统的2G、3G 基站和小区告警只能按照基站定位,无法实现拉远小区精准定位的情况,故障中心在处理5G 告警时对AAU 告警进行了独立类型处理,并实现了小区告警关联AAU 定位信息的处理,将小区告警定位为AAU 所在位置,实现了拉远小区故障处理的精准定位。同时,在处理告警时实现了设备经纬度位置在告警中的补全,能够支撑上层应用系统直接通过告警信息实现故障基站、小区的GIS打点定位,辅助业务人员快速进行故障处理。

4.7 5G分布式部署和电联共建共享的资源模型

5G 的分布式部署使5G 基站有别于2G/3G/4G 基站的基站/小区、BBU/RRU 的模型,而是使用全新的基站/CU/DU/NrcellCu/NrCellDu/AAU 的资源模型。同时,由于中国电信和中国联通(简称电联)共建共享的建设方式,网络设备OMC 会同时发送中国电信和中国联通2种资源ID定义的告警数据。

为适配新的模型和建设方式,故障中心按照5G基站模型进行新的模型设计,将告警数据解析按照新模型架构进行解析以适配资源模型的变化。同时,为了满足电联不同的资源ID 的告警和资源适配,对资源数据实现了同一设备不同运营商数据的同时采集和处理,使告警可以自动识别所属运营商并关联对应运营商的资源,可用于实现告警资源关联和资源数据对告警模型丰富。

5 结论

本文开创性地通过故障能力中台化,将故障处理应用场景化,完成了网络故障处理中台化演进,形成了中台+应用的架构模式。为5G 时代通信网维护支撑工作重心向“以业务质量和客户感知为中心”转移提供了技术支持,为运维集约化转型支撑系统演进指明方向。

猜你喜欢
中台网管运维
中台是媒体转型必经之路吗?
——媒体中台建设的特点和误区
关于零售企业“中台”建设的研究
汽车制造企业质量中台研究
以技术开发中心为中台,数字化转型之见解
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
基于ITIL的运维管理创新实践浅析
“五制配套”加强网管
发射机房网管系统的设计原则及功能