基于立体协控的信令风暴防范方法研究及应用

2023-10-16 20:19陈东洋
中国新通信 2023年14期
关键词:智能终端

摘要:5G时代,万物互联,然而网络中总会有一些意外,面对网络暴雷,如何让核心网信令风暴的雪球越滚越小,从而达到自愈呢。本文以日本电信运营商KDDI网络事故为引题,尝试分析KDDI事故原因,找出网络共性问题,进而给出一种新的信令风暴防控思路-立体协控;并举例介绍实际效果,使信令风暴得到有效预防,网络安全得到保障。

关键词:拥塞;信令风暴;立体协控;智能终端

一、引言

随着移动无线网络技术的发展,全球将迈入5G时代,5G支持的增强移动宽带(eMBB)、海量连接(mMTC)和低时延高可靠连接(uRLLC)三大场景的部署和使用越来越多;电信网络作为国家的基础建设,在日常生活中发挥着越来越重要的作用。然而由于3GPP协议的发展总是快于物理世界网络的建设,我们要面对的是一张2G/3G/4G/5G融合的网络,其网络规模和网络复杂程度都是空前的,一旦网络有点风吹草动,如果应对不力或者不及时,随之而来的蝴蝶效应就会对网络产生巨大影响,会对网络设备造成信令冲击,导致设备过载、宕机甚至网络瘫痪,影响终端用户的业务体验和人们的生产生活。尤其是5G网络对于各产业数字化升级的影响更为明显。据工信部数据显示[1],截至2022年5月末,三家基础电信企业发展蜂窝物联网终端用户15.9亿户,比上年末净增1.96亿户(如下图1)。蜂窝物联网终端用户规模占移动网终端连接数的比重已达49%,可见物联网连接正在高速增长,很快将成为移动通信网络连接的主力。而这些物联网连接大多分布于各行业应用中,因而未来也将成为网络故障造成负面影响的主要領域。在这一背景下,网络的稳定性和可靠性就显得尤为重要。

根据C114资讯,日本KDDI运营商2022年共发生三次通信事故[2-4],其中2022年7月2日,KDDI的移动通信服务在日本全国范围内发生故障(详细事故过程可参考日本KDDI官网通报[5]),超过2018年的软银通信故障事件,成为日本史上最大规模的故障[2]。此次通信故障持续长达61小时25分钟,影响全国3915万终端用户和26万企业用户,包括电话、短信、上网、紧急呼叫系统、银行系统、天气数据的传输、包裹递送和网络连接运输等全部中断,其造成的直接影响如下:

股价下跌:4%(在紧接着的一周内);

市值损失:268M USD(原市值*股价下跌比例);

收入影响:42M USD(ARPU*中断时长);

品牌影响:日本首相亲自关注,全网负面报道。

二、信令风暴定义及发生场景分析

(一)什么是信令风暴

信令风暴(signaling storm)[6],是指网络收到的终端信令请求超过了网络各项信令资源的处理能力,当信令负荷达到系统极限时,会导致终端接入网络失败,进而又会引发终端的反复多次尝试接入,大量的信令超过了系统处理能力,引发网络拥塞并产生蝴蝶效应,导致网络不可用,我们称之为“信令风暴”。

(二)为什么会产生信令风暴

1.网络规模和拓扑空前庞大

当前是一个信息爆炸的年代,网络也在随着技术的日新月异而快速演进,5G SA网络已经成为网络演进目标,但运营商不可能抛弃已有的2G/3G/4G网络,所以当前看到的是一个庞大而复杂的通信系统[7]。如图2所示(3GPP网站公开信息)。

2.智能终端比例大幅增长

智能手机成本不断下降,功能不断增强,以及其天生的便携性,使智能机已经成为市场的主流。

3.数据业务大幅提升:

随着智能机终端上涌现出大量应用app,尤其是交互式、推送服务软件,引发大量信令开销。主要归结为以下几种情况:

(1)频繁的空口连接和寻呼

IM(QQ、MSN、wechat)、Social Media(Facebook/meta)、在线游戏类软件等,终端频繁在idle态与connected态之间转换。

(2)推送服务

为了提高用户体验,服务器会实时将好友的信息或用户预定的信息推送到用户的终端上,以便能让用户第一时间看到更新的信息。

(3)频繁小包业务

聊天信息、在线游戏发送的命令等,数据量小且频繁的业务。

(4)心跳

通过终端和服务器之间周期的频繁心跳,来维持用户的在线率;即使用户长时间不使用终端,也仍然会维持心跳。

4.其他导致信令负荷高的因素

(1)网络规划TAL规模过大导致的高信令负荷;

(2)网络架构变更引入的寻呼和业务接入的信令消息成百倍的增长;

(3)网络RF不够好,导致的频繁切换造成的信令额外开销。

(三)信令风暴的发生场景

触发信令风暴的场景是多方面的,从触发因素分类,可以分为外部因素触发和内部因素触发:

1.外部因素

UE触发:UE行为(开关机/移动/发送异常消息)、APP应用(建立会话、上传信息)

应用服务器触发:服务器行为(重启/发送异常消息)、APP应用(下行消息推送)

2.内部因素

5GC自身触发:故障处理(通知UE恢复PDU会话)、网络变更处理(触发UE重新注册)。

3.外部因素触发的信令浪涌场景

外部触发因素导致信令风暴的根因是:

(1)用户集中行为

①重大活动期间,话务量上升的冲击:

重大活动(世界杯、奥运会、HAJJ等)期间,活动片区用户增多,大量用户同时进行业务,以及大量用户同时位置移动(如进场、散场)造成的大量位置更新和切换,均会产生大量信令冲击核心网。

②节假日期间,话务量上升的冲击:

节假日(春节、圣诞节等)期间,活跃用户增多,春节电话、短信、微信拜年、抢红包、整点活动等,使得语音、短信、数据业务明显增多,给核心网带来信令冲击。例如:HAJJ朝觐期间,在麦加圣地中心区10平方公里聚集450万人,300万移动用户,其中包含大量国际漫游客户,导致漫游业务和呼叫业务的话务激增;朝圣活动有多个步骤,分布在不同的地点,大规模用户移动造成的大量位置更新和切换;每天五次礼拜后,两三百万用户同时开机、通话、收发短信、上网等,产生短时大量信令冲击。

③自然灾害发生后,话务量上升的冲击:

自然灾害(如地震)发生时,用户频繁移动导致位置更新和切换业务增多;自然灾害发生时,人们纷纷通过手机上网了解最新信息;语音主叫和被叫在某种场景下突然增多,大量的紧急呼叫求助电话、大量的打进灾区的关怀电话等。

(2)网络上的异常信令

外部网络行为/攻击:

智能终端为省电而快速休眠,导致频繁关闭与网络之间的连接。一些App应用出现同时集中向大量用户发送信息的业务,比如微信发红包、新闻/消息推送、抢票软件等,此类业务属于正常业务。Internet网络存在对IP地址恶意扫描的情况,并短时间内扫描大量连续的IP地址,此类情况属于恶意攻击。

(3)外部因素触发导致的信令风暴浪涌场景归纳如表1

4.内部因素触发的信令浪涌场景

内部因素导致信令风暴的根因是:

(1)网元设备、通信故障

断电、自然灾害等导致网元设备故障,容灾平面的话务突增;网元设备通信故障、闪断及恢复后的大话务冲击。

(2)网元设备故障

网元设备、通信链路故障,周边网元感知到后主动恢复受影响用户的业务,为减少用户业务损失,可能产生大量信令,由于各网元的处理能力不同,瓶颈网元会受到冲击。

(3)内部因素触发导致的信令风暴浪涌场景

内部因素触发导致的信令风暴浪涌场景如表2所示。

三、KDDI网络事故信令风暴形成过程分析

以引言提到的日本KDDI网络事故为例,不难推演出此次信令风暴事故并非单一故障,而是由内部因素(运维操作)造成某一故障点所引发的一连串外部因素(用户行为,重注册等),导致问题进一步恶化而产生的蝴蝶效应,使得故障持续了长达60多个小时。让我们尝试分析这次信令风暴事故为什么会成为超长事故?(分析内容基于媒体公开信息推演得出)

根据如图3拓扑进行信令冲击分析,结果如表3所示。

归纳总结为以下三点:

①网络设备抗冲击能力弱:单点路由器故障导致全路径设备承受信令风暴,无网络分级精准流控能力设计,导致核心数据DB节点遭受信令冲击。

②集中化数据节点造成影响雪崩:核心DB节点多区域共享,单大区故障带来集中DB风暴冲击,全国用户信令受损,海量终端重试带来全网风暴。

③无逃生打底数据语音同下线:4G语音不可用数据/语音同时下线,无CS逃生网,导致短时间内用户4G重新注册;数据/语音信令风暴进一步加剧。

以上三点可总结为:网络多点瓶颈,信令风暴导致网络崩盘。

四、一种多防线立体协控信令防范方案

如信令风暴发生场景所述,网络中总会由于一些内外部因素导致异常的发生,比如地震导致光纤中断,传输一旦恢复,故障期间积攒的大量信令消息会像火山一样突然爆发,哪怕是深更半夜,智能终端也会不停地反复自动尝试接入网络。面对如此雷暴,如何让信令风暴平息,让网络最终达到风平浪静的自愈效果呢?

根據KDDI网络事故的分析和总结,给出了一种网络信令风暴防控的方案。该方案基于如图4所示的分层网络,防控方案基于以下两个前提假设:

①假设网络有5个层级的网络节点。

②每个网络节点有请求、更新、终结,共3类消息流程。

为了能够尽快解除信令风暴,需要重点关注如下两点:

①避免做无用功:假如不在前端流控,比如在流控点5部署流控手段,用户一旦被拒绝后,那么在前4个点完成的工作就变成了无用功,只能从头再来。

②避免恶化事态:假如不是首消息流控,比如流控掉更新消息,那么本来已接入网络的稳态的用户也会逐步转变成非稳态的新用户,重新尝试接入网络,导致信令风暴持续加大。

因此,信令风暴流控思路如下:

①四道防线,立体协控,后端过载,前端流控,不做无用功,珍惜每一个信令资源。

②首消息流控,确保已经接入的稳态用户工作正常,绝不能恶化。

③提前部署流控,未雨绸缪比临时抱佛脚的效果更好。

以图5为例,在各流控点分层级部署防控防线。

防线一:PS域入口AMF/MME总控

①Inter SR/注册流控:新用户有序放通,老用户不掉线;

②统一HTR流控/Gr流控:保护后端UDM/HSS/HLR;

③AMF会话流控:保护SMF/UDM/PCF。

防线二:SMF/GW-C针对不同业务(语音/数据/行业用户)精准布控

①APN wal流控:针对数据/语音/行业用户区分流控;

②Gx/Gy wal流控:保护后端PCRF/OCS/AAA。

防线三:话音域入口SBC协控,进一步降低信令负荷

①SBC整形流控:流控初始注册,放通重注册,确保老用户不掉线;

②CSC流量整形:保护后端DRA/HSS。

防线四:信令汇聚点UDM/HSS/STP/DRA/SCP部署局向流控,保卫后方司令部

①融合数据域:UDM/HSS/HLR手工流控(区分消息类型);

②分组域:S6a/Gx/Gy局向流控(不区分消息类型);

③话音域:Cx/Dx流控(不区分消息类型)。

五、信令防范方案实际效果

以G省Y客户网络信令风暴为例说明,如图6所示。

故障概述:2022年7月22日10:06和10:42左右,J友商路由器发生两次双平面故障,导致现网发生网络注册冲击,信令冲击量为平时的29倍,引发PS/IMS等网元流控,两次冲击均在15分钟左右恢复。

业务故障分析如表4所示。

信令风暴冲击如图7所示。

系统流控及流控后对系统的影响如表5所示。

信令风暴产生原因:

①用户上网异常主动飞行;

②人网4G/5G交互异常,导致业务失败,触发终端重注册;

③物联网用户TAU切换异常,触发终端重注册。

故障恢复措施:

5GC/EPC/IMS领域均提前部署流控,数通路由器故障恢复后,流控预埋生效,快速消除信令风暴。

六、结束语

本文对KDDI的事故进行分析,引入信令风暴的立体防控方案,通过分析产生信令风暴的内外部因素和浪涌场景,理顺了立体防控的顺序,并在实际网络部署经历了网络事故的考验,证明立体防控方案效果明显,为网络安全防范提供了一个思路。总的来说,减少人为动网操作引入的风险可以降低大部分网络风险;但是对于不可抗拒因素,如地震等引入的網络风险,应当提前部署立体信令风暴防控方案,平时做到备战演练,以便网络极限逃生可用,这是对网络风暴消除最好的方法,当然我们期望的还是网络自动驾驶到来的那一天。

作者单位:陈东洋 华为技术有限公司

参  考  文  献

[1]https://mp.weixin.qq.com/s/SMnPTKEHHwZ6RBCzHlVmcg

[2]https://www.c114.com.cn/news/17/a1203260.html

[3]https://www.c114.com.cn/news/17/a1206611.html

[4]https://www.c114.com.cn/news/17/a1208894.html

[5]https://news.kddi.com/important/news/index.html

[6]3GPP TS 29.500 V16.12.0.3rd Generation Partnership Project;Technical Specification Group Core Network and Terminals;5G System;Technical Realization of Service Based Architecture;Stage 3(Release 16)[S]. 2022.09.

[7]https://github.com/nickel0/3GPP-Overall-Architecture/blob/master/diagram/3GPP_Overall_Architecture_and_Specifications.jpg

猜你喜欢
智能终端
基于大数据环境下的数字图书馆面向用户的服务组织研究
基层部队心理健康教育形式的新发展
微媒体研究现状综述
Wi—Fi环境下自助式点餐系统设计与实现
基于智能终端的移动电子商务商业模式探究
基于智能终端的照护保险服务管理系统的架构设计
《移动应用软件开发》实践教学改革与探索
在医院如何实现BYOD
大学生移动学习的理念和培养策略
智能变电站过程层二次设备调试技术研究进展