LTE小区的人工智能应用与探索

2019-10-18 09:43钱兵曹诗苑王兵
移动通信 2019年8期
关键词:无线网络人工智能

钱兵 曹诗苑 王兵

【摘  要】随着人工智能技术在各领域的迅速发展,无线网络日常运维领域也逐渐尝试借助人工智能技术提质增效降本。主要介绍在该领域性能指标异常数据诊断、指标趋势预测、LTE小区扩容预测三个方向应用人工智能技术进行探索研究的成果。异常诊断使用基于小区规模和时间周期改进后的LOF算法,结果较为理想;LSTM在平均激活用户数个别指标上预测效果较好;LTE扩容小区预测基于改进后的LR模型预测准确率可达99%以上。这些成果将逐渐经过大规模优化测试并最终落地,对运营商无线网络智能化、自动化运营将提供很大技术支撑。

【关键词】LTE小区;人工智能;无线网络;扩容预测

doi:10.3969/j.issn.1006-1010.2019.08.006      中图分类号:TN929.5

文献标志码:A      文章编号:1006-1010(2019)08-0031-06

引用格式:钱兵,曹诗苑,王兵. LTE小区的人工智能应用与探索[J]. 移动通信, 2019,43(8): 31-36.

[Abstract] With the rapid development of artificial intelligence technology in various fields, it has been gradually applied in daily operation and maintenance of wireless networks to improve quality, increase efficiency and reduce costs. This paper mainly introduces the results of artificial intelligence technology applied in abnormal data diagnosis and trend prediction of performance indicators and the prediction of LTE cell expansions. It is relatively ideal for abnormal diagnosis to adopt the improved LOF algorithm based on cell sizes and time cycles; LSTM performs well in predicting the average number of activated users; based on the improved LR model, the prediction accuracy of LTE cell expansions reaches more than 99%. These results will be commercialized after large-scale optimization and testing, which provides great technical support for operators intelligent and automated operation of wireless networks.

LTE cell; artificial intelligence; wireless network; capacity expansion prediction

1   引言

大數据给信息产业带来了挑战,也带来了机遇,对于无线网络优化来说,抓住了大数据的核心特征,加大扶持力度,就可以发挥其积极作用。运营商可以根据需求进行内部升级改造,针对用户、小区更好地进行运营和改造,在确保无线网正常运维工作的基础上,提高运维效率,降低运维成本。

互联网技术的飞速发展为人们的衣食住行带来了巨大的便利。运营商在给个人、国家、社会提供上网服务的同时,每时每刻都在产生大量的数据。其中,有些数据是由服务器或各种其他网络设备产生的,反映了服务器或网络的某些特性,符合一定的变化规律,挖掘这些数据背后的含义对监测网络安全具有一定的帮助。

本文尝试将人工智能技术应用到LTE小区日常运维工作中,试图解决当前几个主要困扰运维人员的重点问题,包括性能指标异常数据诊断、性能指标数据的未来趋势预测以及小区未来是否需要扩容预测这3个问题,结合高效的人工智能算法将对这几个方面的计算有极大的提高。

2  基于人工智能算法的无线智能运维

平台架构

大数据的关键技术包括数据存储和数据挖掘,其中数据存储主要是依靠分布式数据库实现的,数据挖掘是以大数据平台的搭建实现的,分布式数据挖掘技术就成为实现无线网络优化的核心技术之一。

系统架构如图1所示,主要包括数据层、计算架构层、分析应用层。这一平台的主要特点是利用不同节点上的自动部署来完成数据处理,这样能够对新数据进行实时更新,确保数据的稳定性和延续性。

(1)数据层主要包括数据来源、数据采集以及数据存储。数据来源主要包括来自于Mysql、Oracle等关系型数据库中的结构化数据以及一些文本等非机构化数据,数据信息在存储过程中进行了脱敏加密,保证数据的安全性。数据存储模块的算法结果数据主要存储在HDFS分布式存储文件系统和Mysql关系型数据库中,依托于Hadoop分布式架构,保证海量数据的存储与计算。在数据采集过程中,主要是依靠Sqoop、Flume等传输工具进行数据在来源与存储模块之间的转换。

(2)计算架构层主要体现在数据计算架构和算法计算架构等模块。在算法模块,主要采用Spark平台计算架构,专为大规模数据处理而设计的快速通用的计算引擎。在算法层面,主要结合传统的统计分析和深度学习方法,基于TensorFlow和Keras的计算架构,实现局部异常因子(LOF, Local Outlier Factor)、长短期记忆网络(LSTM, Long Short-Term Memory)、差分整合移动平均自回归模型(ARIMA, Autoregressive Integrated Moving Average Model)等模型。

(3)分析应用层主要面向用户,在页面上可视化展示算法输出结果,向用户展示具体的功能结果,主要包括指标分布、异常诊断、趋势预测和扩容预测这4个功能页面。

3   基于LTE小区智能运维平台关键技术

3.1 指标异常数据诊断

本研究通过对比当下在异常诊断流行的三西格玛、四分位差、聚类分析、主成分分析(PCA, Principal Components Analysis)、K-近邻法(KNN, K-Nearest Neighbors)等多种算法,综合计算结果最终发现:LOF算法与其他多种算法综合选取异常数据的结果一致性最高,表明该算法诊断结果最稳定,通过散点图显示诊断结果也最符合业务常识。图2为多种算法结果与LOF结果对比。

LOF算法的思想是通过比较每个点与其邻域点的距离来判断该点是否为异常点,距离越远,越可能被认定是异常点。由于LOF算法通过点的第k邻域,而不是全局来计算,因此得名为“局部”异常因子。而局部离群因子越接近1,则说明选取点的邻域点密度越接近,该点与邻域可以属于同一簇;如果这个比值小于1,说明选取点处的密度高于其邻域点密度,为密集点;如果这个比值大于1,说明选取点处的密度小于其邻域点密度,该点可能是异常点。

在LOF算法的基础上,综合考虑了LTE小区的大小类型和数据时间周期性两个重要因素,选取全部数据集约为200万条,按全部数据集的10%作为小批次处理,进行十字交叉验证,来比较算法的稳定性。

应用LOF算法诊断10次随机诊断的结果如表1所示:

从表1的结果可以看出,LOF在异常因子都选取-1.16时,异常率结果在8.5%附近徘徊,LOF对异常率结果的浮动性略微大些。但就总体表现而言,LOF对异常值估计的稳定性表现比较让人满意。

结果显示:该算法所确定的小区流量异常值在全部小区流量值中呈现出离散的状态分布,LOF算法并没有成片地将数据分为正常值和异常值,而是在数据集中找到相对离散于整体数据集的点,并将该离散于整体的点定义为异常值。

3.2  关键指标的未来趋势预测

通过对比机器学习中的ARIMA、小波分析以及深度学习中的LSTM这3种算法,选取某地区近2 000个小区进行对比实验。经研究发现LSTM算法准确率和稳定性更好。该算法是长短期记忆网络,是一种时间递归神经网络,适合处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM算法是一种特定形式的RNN(Recurrent Neural Network,循环神经网络),在RNN的基础上加了三个门,分别是输入门、输出门以及遗忘门。该模型首先需对数据进行处理,按照训练集训练好的参数,在测试集上测试,之后按照训练集等长投入数据的后半部分数据对之后的数据进行预测。

为了评价模型的效果,实验引入错误率(error)、精度(accuracy)、正确率(precision)三个指标。上述三个指标的计算公式如公式(1)~公式(3)所示:

yi是某一指标在某个时间点对应的真实值;y'i是模型预测的某一指标在某个时间点的预测值;m是错误率小于0.2的小时数量;n是预测总小时数量。

从原始数据中的145 464个小区中,根据小区场景类型进行分层随机抽样,从中选取1 953个小区作为实验的样本库,引入小区上行DRB数据调度时长、小区下行DRB数据调度时长、下行PRB平均利用率、PDCCH信道CCE占用率分子和用户面下行包平均时延分母这5个相关性较高的指标,分别对各小区RRC用户数、平均激活用户数和用户下行流量这三个目标指标进行趋势预测。然后在时间序列数据基础上构建实验所需数据集。对实验所用数据集包含的1 953个小区按照8:1:1划分训练集、验证集和测试集。

实验中的模型包括三个LSTM隐藏层,每个LSTM隐藏层中定义128个神经元,然后对每个隐层加入dropout层引入dropout率进行优化,避免过拟合,也即是神经元随即断开的比例为0.2。第四层为全连接层输出维度为168(7×24),激活函数用tanh表示。Compile方法是设置模型的训练参数,例如采用“adam”作为优化器,损失函数计算采用均方误差(MSE),每次迭代计算其误差和准确率。

模型预测方式为利用前30天指标数据预测第31~37天的指标数据。训练方式主要是选取90%的样本小区进行训练,训练完成后再取剩余10%的数据进行测试。图3为LSTM神经网络预测模型架构图。

结果显示:LSTM算法对平均激活用户数、空口下行用户面流量和平均RRC连接用户数的预测最大精度分别是92%、71%和67.5%。该模型在平均激活用户数量表现效果最好,主要是因为激活用户的数量无明显地区差异。相较而言,空口下行用户面流量在不同等级不同基站的小区差异明显,预测精度低于平均激活用户数指标的预测精度。此外,原始数据中平均RRC连接用户数的数值为0的占多数,相对平均RRC连接用户数的数据质量低,这或许是预测精度低的原因之一。除此之外,實验模型仅是根据前三十天的数据来预测未来七天的走势,历史天数不够长也可能是模型效果欠佳的原因。随着数据质量的提高和时间跨度的拉长,模型的效果很有可能得到进一步提升。利用该模型可以对样本数据集之外的其他小区的平均激活用户数、空口下行用户面流量和平均RRC连接用户数进行预测。该模型不仅可以预知未来一段周期或时间内流量的走向,还可以与上季度、上月或上周进行统计分析,为采取合适的方法进行流量控制、流量监测提供一个参考,能够帮助管理员更好地规划和管理网络。

将LSTM算法尝试应用在运营商4G无线网络性能指标优化领域,分别对平均激活用户数、下行用户面流量以及平均RRC连接用户数三个指标进行预测,并以具体省份为例展开研究。经分析发现,LSTM算法在平均激活用户数指标预测效果较好,因此,本文把平均激活用户数预测模型在14 016个小区进行推广实验。

3.3  LTE小区扩容预测

本研究属于分类预测问题,将选用现有经典的分类预测算法(KNN)、逻辑回归(LR)、决策树(DT)、随机森林(RF)和支持向量机(SVM)。KNN算法的主要原理是根据K值的选取,根据距离因素将不同点归为到K类。故该算法考虑三个重要要素,分别是K值的选择、距离度量和分类决策规则。需要采用交叉验证法来确定最合适本课题数据集的K值。对于距离的度量,常采用欧式距离法。对于分类决策规则一般采用多数表决法,即训练集里和预测的样本特征最近的K个样本,预测为K个样本中最多类别数的类别。

逻辑回归是一个分类算法,它可以处理二元分类以及多元分类。对线性回归的结果做一个在函数g上的转换,可以变化为逻辑回归。函数g一般取Sigmoid函数,二元逻辑回归模型的一般形式为:

hθ(x)=    (4)

其中,x为样本输入,hθ(x)为模型输出,可以理解为某一类别的概率大小,θ为模型需求出的参数。

分类与回归树(CART, Classification and Regression Trees)使用基尼系数来代替信息增益比,基尼系数代表了模型的不纯度,基尼系數越小,则不纯度越低,特征越好,这和信息增益是相反的。CART分类树算法每次仅仅对某个特征的值进行二分,而不是多分,这样CART分类树算法建立起来的是二叉树,而不是多叉树。

随机森林(RF)使用了CART决策树作为弱学习器,在使用决策树的基础上,RF对决策树的建立做了改进,随机选择节点上的部分样本特征,并从这部分特征中选择一个最优的特征来做决策树的左右子树划分。这样进一步增强了模型的泛化能力。

SVM分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开。

共选取扩容基站中980个小区,仅保留各小区扩容时间前的性能数据,作为扩容小区原始数据。在其他未扩容基站的小区中随机选取1 575个,并仅保留这些小区4月份性能指标数据,作为非扩容小区原始数据。

选取性能表中共50个字段,分别为RRC连接建立成功率_分子、RRC连接建立成功率_分母、RRC连接建立成功率、空口上行用户面流量、空口下行用户面流量、平均RRC连接用户数、平均激活用户数、最大RRC连接用户数等,分别计算这50个字段的平均值、最大值、标准差、25%分位点、50%分位点、75%分位点、大于均值样本比例、大于75%分位点样本比例,共生成450维新特征。添加小区属性信息,分别为:重要等级、应用类型、覆盖类型、频段指示标识。最终,数据集共2 555个样本,其中扩容小区980个,非扩容小区1 575个,每个小区共454维特征变量。

在本次实验中,还根据K-Means聚类的原理,对原始的2 555个样本进行了抽样,经过聚类分析后,选取分类准确的扩容小区样本110条,非扩容小区样本1 355条。

在特征工程过程中,将110个扩容小区的扩容前、扩容后各性能指标成对输入,分别进行T检验和卡方检验,得到各性能指标的P值,将P值大于0.3的性能指标滤除,被滤除的指标分别为最大RRC连接用户数、UE上下文异常释放次数、UE上下文掉线率、RRC连接重建成功率分母、RRC连接重建比例、系统内切换成功率等。在滤掉部分特征后,仍存在较高维度的特征,容易造成维度灾难,即过拟合现象,故再一次根据方差膨胀因子和因子分析的方法对特征进行降维。通过回归分析,计算各特征的方差膨胀因子(VIF, Variance Inflation Factor)。根据VIF值将特征分为三组分别进行因子分析,即VIF>1 000为第一组,100

第一组特征共109维,采用方差极大法对因子载荷矩阵实行正交旋转。本课题将因子载荷大于0.5规定为是否进行特征抽取的标准。从总方差解释表提取6个主成分,累计百分比为84.881%;第二组的94维特征中,从总方差解释表提取9个主成分,累计百分比为75.944%;第三组的78维特征中,从总方差解释表提取15个主成分,累计百分比为75.465%。

经过样本筛选、特征工程、特征降维后,本课题所用数据集的样本数共1 465条,其中,扩容小区样本110条,非扩容小区样本1 355条,98维特征。目标变量为是否扩容,其中,1表示扩容,0表示非扩容。本课题分别利用K近邻、逻辑斯特回归、决策树、随机森林、支持向量机分别对样本构建分类模型,通过比较准确率、混淆矩阵与ROC曲线,选择最佳分类模型。本课题采用Sklearn机器学习工具包实现上述5种分类算法,将数据集随机划分为训练集与测试集,训练集与测试集的比例为5:5。在测试集预测的结果如表2所示:

表2    5种算法混淆矩阵结果

KNN LR DT RF SVM

0 1 0 1 0 1 0 1 0 1

678 0 671 7 671 7 678 0 671 7

6 49 0 55 8 47 1 54 1 54

KNN算法中,当K=3时,模型预测效果达到最佳,此时准确率为0.991 8。LR算法中,当优化算法为Loglinear时,模型预测效果达到最佳,此时准确率为0.990 5。DT算法中,当最大深度为6时,模型预测效果达到最佳,此时准确率为0.979 5。RF算法中,当弱分类器个数为50,单个弱分类器最大深度为6时,模型预测效果达到最佳,此时准确率为0.998 6。SVM算法中,当核函数为rbf,惩罚系数C=0.6时,模型预测效果达到最佳,此时准确率为0.989 0。

利用上述5种分类算法在测试集得出的ROC曲线如图4所示,可以看出,LR算法和SVM算法最终的AUC值最大,均为0.99,但LR曲线高于SVM曲线,并且LR模型的测试集预测准确率高于SVM模型,故选取LR模型作为扩容预测算法的分类模型。

4   结束语

当前数据业务在移动运营商所提供的服务中占比越来越大,移動网络向混合多层网络进行转变。这对运营商的工作提出了巨大的挑战,因为这一转变意味着要提供更快、更灵活的管理和控制机制,提升运营效率,以创新的思维应对日益变化的市场需求。而高效地整合移动网络的各种数据资源,进而利用大数据技术进行深度关联分析成为应对这一挑战的关键。

随着人们对网络服务质量的敏感程度不断增加,使得无线网络的服务质量更为运营商所关注,网络质量已经成为影响运营商发展的重要因素,对经营的好坏具有重要影响。

运营商应借助于AI和大数据等前沿技术,降低人力成本,提高利润率。通过本文的初步探索与开发验证,可发现AI技术在LTE小区运维领域确实具有实际的应用价值,进一步结合运维人员的业务经验,具有很强的实际应用前景。

相比于大数据和人工智能技术在移动互联网领域的广泛使用,大数据和人工智能在运营商的应用还处于初期阶段,但应用领域已经逐步拓展。通过对网络从流量、终端、用户等多维度进行分析,不仅能够提升网络优化的效率,降低投入,如果能够进一步挖掘,还能够为精细化营销,改进客户体验提供有力的数据支撑。

参考文献:

[1] 张嗣宏,左罗. 基于人工智能的网络智能化发展探讨[J]. 中兴通讯技术, 2019(2): 57-62.

[2] 邓雄才. LTE无线网络优化思路探讨[J]. 现代信息科技, 2019(3): 55-56.

[3] 唐以鹏. 基于城市复杂环境的LTE无线网络优化方法[J]. 网络安全技术与应用, 2019(1): 60-61.

[4] 翟威. TD-LTE的网络优化研究[D]. 南京: 南京邮电大学, 2018.

[5] 李一喆. AI落地无线网络运维四大难题待破解[J]. 通信世界, 2018(29): 40-42.

[6] 张琰,盛敏,李建东. 大数据驱动的“人工智能”无线网络[J]. 中兴通讯技术, 2018(2): 2-5.

[7] 张家望. 基于S1-U接口信令的LTE性能分析与网络优化[D]. 北京: 北京邮电大学, 2017.

[8] 李晓辉,古炳松. 基于LTE MR数据建模的网优应用研究[J]. 中国新通信, 2016(19): 116-117.

[9] 李一喆,肖卫东,单丽雅,等. LTE数据预测方法研究[J]. 邮电设计技术, 2016(9): 11-14.

[10] 王磊,王西点,程楠. 基于大数据技术的智能化无线网络优化体系[J]. 电信科学, 2015(12): 167-171.★

猜你喜欢
无线网络人工智能
我校新增“人工智能”本科专业
滤波器对无线网络中干扰问题的作用探讨
2019:人工智能
人工智能与就业
基于信令分析的TD-LTE无线网络应用研究
数读人工智能
无线网络的中间人攻击研究
实验室中无线网络的组建与设计
数说无线网络:覆盖广 流量大 均衡差