基于机器学习的流量预测及基站配置选择研究

2021-06-26 08:25蒋俊康

科学技术创新 2021年16期

李超熊桢蒋俊康

(江西理工大学理学院,江西赣州341000)

随着移动通信技术的发展,移动端设备的大范围普及,4G、5G给人们带来了极大的便利。基站作为承载网络流量的基础设施,其流量负荷问题变得越来越重要。由于基站数量巨大,无法通过人工实时关注每个基站的流量变化,需要给每个基站设置根据时段开关自动载频的程序,这样就需要知道一段时间内基站流量关于时段的变化,特别是基站在每个小时的上下流量值,从而可以知道基站在每个时段需要的载频的数量,进而设置一定时间内基站载频自动开关的程序。

1 问题分析

基于python中pandas库对数据进行读取,根据信息进行相关统计分析,读取发现数据共有144138200条,其中指标分别为日期、时间、小区编号、上行业务量GB、下行业务量GB。为了对小区流量数据更好地统计描述,先对数据清理,采用季节性自回归综合滑动平均模型对流量进行预测,最后使用GOSS(基于梯度的单边采样)算法进行训练样本采样的优化。

2 基于机器学习算法 (LightGBM、SVR)对短期小区流量预测

2.1 RMSE(RootMeanSquardError)均方根误差

本文是利用模型来进行小区流量预测,对众多模型中得到一个最佳的,对常用的评价模型是RMSE(均方根误差),其定义如下:

其中,yi表示的是第i个样本的真实值,yi表示的是第i个样本的预测值,n表示的是样本的个数.RMSE使用的是平均误差,对模型的评价在本文中会较为准确。

2.2 LightGBM、SVR、XGBoost、模型预测效果对比

利用python读取选取附件二中小区,提取出该小区2018年3月1日至4月19日的数据作为数据集,分别提取“月”、“天”、“小时”为特征,定义“2018-03-0100:00:00”为初始日期,取80%的数据为训练集,20%的数据为验证集。

2.2.1 LightGBM算法预测

在jupyter notebook中导入lightgbm、LGBMRegressor进行预测,导入sklearn调用mean_squaered_error()函数计算均方根误差,导入小区的流量数据 (以221小区上行流量为例)进行预测,其均方差误差为0.0014008。为了提高模型的精度,同时提升模型的泛化能力,通过随机搜索最优参数来提升算法准确性,导入 sklearn.model_selection库中RandomizedSearchCV模块,来随机搜索最优参数,对于LightGBM算法,利用随机搜索参数训练1000次。一般来说,训练数值越大,获得参数精度越大,但是搜索时间越长,设置参数num_leaves为30至150迭代、参数min_child_sample为20至500迭代,最终通过超参数搜索后RMSE为0.0013629,准确度提升了2.70%。

2.2.2 SVR算法预测

导入sklearn.svm中SVR库,带入小区流量分别采用线性核函数初始化的SVR、多项式核函数初始化的SVR和径向基核函数初始化的SVR进行预测,由于三者RMSE误差效果较差,支持向量机的效果普遍较差,对算法下一步的参数优化也毫无意义。

3 基于深度学习算法(LSTM)对短期小区流量预测

3.1 LSTM模型

长短期记忆模型(Long-ShortTermMemory,LSTM)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题。LSTM是一种经过精心巧妙设计的RNN网络,尽管LSTM和原始RNN总的来看都会有三大层,即输入层、隐含层、输出层,但是LSTM和原始RNN在隐含层设计上有较大的差异,主要是LSTM是在隐含层具备特殊的cell结构(图1)。

图1 LSTM隐藏状态计算示意图

3.2 基于深度学习算法(LSTM)对短期小区流量预测

基于深度学习对短小区流量预测,采用LSTM算法,在jupyter notebook中导入keras.models库中的Sequential,导入keras.layers中的Dense、LSTM、Dropout模块。先将数据集重构为负荷LSTM要求的数据格式,即样本、时间步、特征,带入测试集数据和验证集数据设置参数epochs为2000,参数batch_size为32,参数verbose为2,测试221号小区流量输入,其RMSE误差为0.00016501 ,绘制出预测曲线效果图,如图2。

图2 LSTM预测效果图

4 基站动态选择配置研究

基于简单的蜂窝网络,设网络基站为BS,小区内的用户(流量使用者)为UE,记第m个基站为BSm和第i个小区的用户为UEi。将网络表示呈基站、用户以及它们联系关系的二部图,在此基础上建立基站动态选择配置算法,假设网络频率复用因子为1,则用户接收端UEi的SINR值为:

综上所诉,基于基站动态选择配置算法,将整个过程表示为基于预测流量的基站动态配置机制,基于小区用户的QoS和基站负载以及基站配置能耗综合,采取线性算法度量,帮助基站在未来某时刻选择最佳的模式,使得基站能耗最低,并且达到保证网络通信质量,能起到很好的节约能效的作用。

5 结论

本文预测模型从不同角度进行考虑,分别从传统时间序列模型、机器学习预测算法、深度学习预测算法进行研究,通过各种算法进行对比,得到最优的预测模型,其模型稳定性好,能较准确地得到短期小区预测的上下行流量。最后从传统时间序列模型入手,采用Stacking集成算法进行预测。