基于EMD.ARXG模型的网络舆情预测研究

2020-08-04 12:27于营刘开南杨婷婷刘小飞周雪
现代电子技术 2020年3期
关键词:经验模态分解

于营 刘开南 杨婷婷 刘小飞 周雪

摘  要: 针对复杂的网络舆情数据,传统的模型预测已经无法对大数据背景下的舆论趋势进行有效的预测,因此,提出一种基于EMD.ARXG(经验模态分解?自回归)改进的组合模型来应对复杂的网络舆情预测,该模型弥补了单一预测算法的缺陷,提高了预测模型的准确性。以“韩国萨德”事件和“全国两会”事件作为舆情热点对其进行预测实验,引入WNN(小波神经网络)与EMD?BPNN(BP神经网络)进行舆情预测,并与EMD.ARXG模型进行实验对比,实验结果证明,EMD.ARXG模型具有较好的预估准确度。

关键词: 网络舆情预测; EMD.ARXG模型; 经验模态分解; 短期预测; 组合模型; 预测实验

中图分类号: TN915?34                        文献标识码: A                           文章编号: 1004?373X(2020)03?0082?05

Research on network public opinion prediction based on EMD.ARXG model

YU Ying1, 2, LIU Kainan1, 2, YANG Tingting1, LIU Xiaofei1, ZHOU Xue1

(1. School of Information and Intelligent Engineering, University of Sanya, Sanya 572022, China;

2. Chen Guoliang Academician Workstation, University of Sanya, Sanya 572022, China)

Absrtact: Since the network public opinion data is complex, traditional model prediction has been unable to effectively predict the trend of public opinion under the background of large data. Therefore, an improved combination model based on EMD.ARXG (empirical mode decomposition?autoregression) is proposed to deal with complex network public opinion prediction. This model makes up for the shortcomings of a single prediction algorithm and improves the accuracy of the prediction model. Taking the events of "THAAD in Korea" and "NPC&CPPCC" as the hotspots of public opinion, WNN (wavelet neural network) and EMD?BPNN (BP neural network) is introduced to predict public opinion, and compares them with the EMD.ARXG model. The experimental results show that the EMD.ARXG model has better prediction accuracy.

Keywords: network public opinion prediction; EMD.ARXG model; empirical mode decomposition; short?term prediction; composite model; prediction experiment

0  引  言

互联网技术的快速发展让我国进入到了一个信息爆炸的新时代,游走于网络的用户成为信息的创造者。互联网用户趋向于低龄人群,年轻人喜欢通过微博、微信的方式获取新闻信息,使得传统媒体发布的信息内容逐渐被人们所忽视,权威信息越来越少。通过网络发布的信息真假难辨,网络言论没有法律约束容易产生舆论危机。社会上的舆论事件所引起的激烈语言对网民的价值观认知容易产生负面冲击,负面的网络舆论增加了社会管理的难度,当网络事件危害到政府形象时,对我国政府将会造成十分不利的影响。因此,研究网络舆情的演化,对网络舆情预测建立模型,对于社会的发展具有十分重要的现实意义。运用新技术、新平台引导网络舆论,迅速发现网络热点,并通过预测模型掌握网络舆论的发展趋势,对网络舆论进行正面的引导,从而促进社会文化产业的健康发展,维护国家的正面形象。

1  网络舆情

情绪是人们的基本需求表达;舆情是人们态度、情绪的集合;舆论是人们对事件持一致态度的体现。当舆情发展到一定程度将会转换为舆论。舆情需要通过特定的社会事件反映出社会民意对执政者的诉求,网络舆情需要网民借助某一热点话题进行多数一致性的表达,并带有很强烈的情感色彩。研究学者们对网络舆情的理解不同,本研究将微信、微博、百度作为舆情的量化指标,对网络舆情的走势进行分析,为政府治理网络舆情提供帮助。

2  网络舆情预测模型研究

2.1  WNN预测模型

小波神经网络(WNN)使用小波基代替激活函数,用于函数逼近,得到的效果比其他网络都好,小波神经网络多使用单隐含层结构,默认的输出节点只有一个,其结构如图1所示。

小波神经网络预测模型以小波分析理论为基础,能够避免神经网络在设计中存在的盲目性,通过尺度伸缩的方式进行多尺度分析,提取出重要的时间序列信息,引起具有自学习与容错性的特点,因而获得了广大研究学者的重点关注,并将该模型应用在语音信号处理、图像识别以及预测分析等领域中[1]。

2.2  EMD?BPNN预测模型

对于复杂的时间序列,需要通过EMD将其分解成有限的模态函数(IMF),所分解到的IMF序列可以更好地表现时间序列的信息。EMD?BPNN模型由EMD与BPNN两种算法组合而成,先分解,后预测。标准的BP算法会使得整个算法无法形成较好的收敛效果,容易陷入局部最小值。采用LM算法能够解决BP算法中存在的缺陷,从而对EMD?BPNN模型进行进一步的优化。

2.3  EMD.ARXG预测模型

EMD算法是将时间序列进行分解,分解出的分量代表因素,在进行时间序列建模时,需要将序列的特性考虑其中[2]。AR(自回归)模型作为时间序列预测的经典模型,适用于短期预测。XGBoost算法可以用于舆情时间序列的预测中,可以与AR预测模型进行拟合。结合EMD算法、AR模型、XGBoost算法,提出了一种新的预测模型,即EMD.ARXG预测模型,能够得到较高的预测精度。

2.3.1  AR模型

数学模型公式为:

2.3.2  XGBoost算法

GBRT(渐进梯度回归树)是一种决策树算法,同时也是Boosting算法的一种升级。该算法中所有回归树的输出值表示回归结果,每一颗回归树都可以参与迭代数的结果残差,通过权值组合形成最终的模型,模型公式为:

式中:[L(y,f(x))]為损失函数;[ρ]为变量个数;[h(x)]为基础分类器;[αm,ρm]为模型参数。

GBRT算法依赖于学习率,学习率越小,越逼近观测值[3]。

XGBoost算法的目标函数为:

式中:[L(yi,yi)]为损失函数;[Ω(ft)]为正则项;[c]为常数。

XGBoost算法所求得的目标函数依赖于数据点的一阶导数,比渐进梯度回归树得到的预测值更加准确。

2.3.3  模型建立

EMD.ARXG模型是EMD算法与XGBoost算法融合下的产物,通过EMD进行时间序列的分解,再利用AR模型对其进行预测,得到预测值,并将预测值与实际值进行对比,最后利用XGBoost算法降低误差[4]。算法流程为:

1) 找出EMD时间序列中的最大值和最小值;

2) 求出平均值;

3) 得到差序列;

4) 求解差序列的标准差,判断差序列是否为IMF分量,如果标准差值符合条件,则说明IMF分量不足;如果不符合,则重复上述步骤,直到曲线趋于0。

如果第[k]次筛选得到的数据序列满足IMF的条件,令imf1表示第一个IMF分量,移除[x(i)],得到差序列,重复该步骤,得到原始时间序列:

式中:[x(i)]表示高频成分;[rn(i)]表示残差项。

构建AR模型的目的就是利用时间序列值求解线性方程,得到方程后对AR模型进行求解,最后利用AR模型(如式(1))进行预测。得到预测值后,利用XGBoost算法进行残差拟合。XGBoost算法属于渐进梯度回归树的一种实现,可以通过决策树的方式进行构造学习。

构建EMD.ARXG模型的算法流程图,如图2所示[5]。

3  实验对比

3.1  实验环境

处理器为因特尔双核处理器;内存4 GB;硬盘500 GB;Win10系统。

3.2  数据来源

以微信、微博、百度为获取数据来源。以“全国两会”与“韩国萨德”事件为舆情热点,获取各自的百度指数、微信指数以及微博指数,舆情时间[6]为1个月。

3.3  实验分析

3.3.1  WNN模型的实验过程

根据构建的WNN模型,编写脚本语言实现模型预测,以randn函数进行初始化,学习率设置为0.01,当迭代次数到达1 000时,WNN模型能够获取较好的预测性能,如图3所示。舆情的趋势规律无法进行有效的掌控,其构造的时间序列结果也落后于初始值,一旦舆情的趋势发生变化,则出现的误差也较大。

3.3.2  EMD?BPNN模型的试验过程

对“萨德事件”的微信指数进行EMD分解,如图4所示。

使用signal图表示微信指数趋势,将微信指数信号进行分解,将其分解成三个模态函数与一个趋势项,原有的舆情序列没有明显的舆情趋势,而分解后的imf分量与res.趋势项能够代表总的舆情事件发展趋势,有利于提高准确性[7]。

将“萨德事件”中的微信指数分量与趋势项的预测结构进行重构,得到最终的萨德舆情事件预测结果,如图5所示,WNN模型的拟合效果较好,但是存在一定的误差,说明EMD?BPNN模型更适用于事件序列的预测。

3.3.3  EMD.ARXG模型的试验过程

EMD?BPNN模型与EMD.ARXG模型都是基于时间序列进行预测,因此,利用EMD?BPNN模型中的分量与趋势项对EMD.ARXG模型进行舆情预测。

EMD.ARXG模型中的AR模型属于线性回归模型,为了避免出现虚假回归问题,需要对EMD进行分解检验。如果ADF为0,即为非平稳序列。以“萨德事件”微信指数为例,对分量与趋势项进行ADF检验,得到的结果如表1所示。

根据表1结果可以看到:当Lag=0时,只有imf1的ADF为1,其余均为0,表示imf1为平稳序列,可以使用AR模型进行预测。

对EMD分解后的序列可以使用EMD.ARXG模型进行拟合预测。采用梯度提升模型,将学习率设置为0.3,学习率的值越大,收敛的可能性越小,因此需要采用默认值。将imf与res.进行EMD重构,获得“萨德事件”的目标预测值。对比目标预测值与实际数据值,如图5所示,由图5可知,本文模型的拟合结果走势更为平滑。

3.4  模型对比结果分析

3.4.1  “萨德事件”的微信指数、微博指数及百度指数的舆情预测

“萨德事件”的微信指数预测结果如图6所示。

对3月2日—26日的舆情趋势进行拟合预测,从图6中可以发现,WNN模型的拟合效果较差,EMD?BPNN和EMD.ARXG模型的拟合效果较好[8]。

使用三种模型对“萨德事件”的微博指数进行预测,如图7所示。

由图7可知,WNN模型的拟合效果最差,所得到的预测结果无法对舆情数据进行较好的拟合;EMD?BPNN模型的拟合效果与舆情走势差距较大,所得到的舆情走势效果一般;EMD.ARXG模型的拟合残差效果较好,舆情走势与实际的舆情走势较为接近。

使用三种模型对“萨德事件”的百度指数进行预测,如图8所示。

由图8可知,WNN模型的拟合效果较差,无法对舆情走势的变化规律进行较好的掌控,所得到预测结果也较为不稳定;EMD?BPNN模型与EMD.ARXG模型所得到的预测结果较好,但是EMD?BPNN的预测结果没有EMD.ARXG模型的预测效果好,EMD.ARXG的目标预测值是三个模型中预测结果最为准确的。

3.4.2  “全国两会”的微信指数、微博指数及百度指数的舆情预测

三种模型对于“全国两会”的微信指数预测结果如图9所示,微信指数的变化趋势在微博指数、百度指数中最难被预测,变化拐点多,容易出现极值。根据预测结果显示,WNN模型预测效果最差,EMD?BPNN模型次之,EMD.ARXG模型的误差最小。

三个模型对于“全国两会”的微博指数预测结果如图10所示。结果显示,三种模型的预测效果都较差,EMD?BPNN模型的拟合效果与EMD.ARXG模型的偏差小。

通过三个模型对于“全国两会”的百度指数预测的结果如图11所示。由图11可知,WNN模型的预测结果相对较好,但是总体的预测效果不如其他两种模型,而EMD.ARXG模型的拟合效果优于其他两种模型。

总之,根据舆情预测结果,微信指数、微博指数以及百度指数的舆情态势接近,微博的舆情发展态势高于微信舆情与百度舆情,是舆情传播的重要起源。

4  结  语

以网络舆情预测模型为研究对象,对网络舆情的模型选择进行论述,引入WNN模型和EMD?BPNN模型进行网络舆情的预测研究,并对两种模型进行优化。基于以上两种模型,本文重点提出了一种新的网络舆情预测模型EMD.ARXG,用于网络舆情的短期预测,该模型可以将网络舆情转换为时间序列,通过AR模型对序列进行拟合预测,进而达到预测精度。实验结果证明,该模型不管是拟合效果还是预测结果都较好,能夠为网络舆情预测提供可靠的数据。

参考文献

[1] 莫赞,赵冰,黄艳莹.基于经验模态分解?自回归组合模型的网络舆情预测[J].计算机应用,2018,38(3):615?619.

[2] 王玉振.基于EMD的小波神经网络模型预测大坝变形[J].水力发电,2018,44(8):109?112.

[3] 张倩,陈超,夏晴,等.基于EMD分解的极端学习机模型在衡水市乙肝发病率预测中的应用[J].现代预防医学,2018,45(10):11?14.

[4] 崔焕影,窦祥胜.基于EMD?GA?BP与EMD?PSO?LSSVM的中国碳市场价格预测[J].运筹与管理,2018,27(7):137?147.

[5] 史建平,张萌,李渊.基于ARX模型的笼型异步电机控制策略研究[J].电机与控制应用,2018,45(5):31?34.

[6] 马佳艳,王萍,夏伟,等.复杂网络下的网络流量预测和预警研究[J].计算机与现代化,2018(1):102?106.

[7] 杨雪林.基于大数据的网络舆情监管预测算法研究[J].现代电子技术,2017,40(24):28?30.

[8] 刘云花,黎泉.基于MVC模式的网络舆情管理系统的研究与应用[J].现代电子技术,2017,40(24):31?33.

猜你喜欢
经验模态分解
基于EMD的电弧反射电缆故障测距脉冲信号提取方法
基于经验模态分解的信号去噪
网络被入侵后的信号检测系统设计与优化
网络不稳定节点的动态特征挖掘模型
HHT和HMM在血细胞信号识别中的应用
基于联合采用EMD与高通低通滤波的信号分析
自适应最稀疏时频分析方法的分解能力研究
矿山动态轻轨衡系统称重信号处理的研究
基于EMD的运动想象脑电特征提取与识别