基于改进RBF神经网络的微博舆情预测研究

2017-08-10 21:40王阳

创新科技 2016年12期

王阳

[摘要]互联网的飞跃发展，既孕育着机遇，同时也带来了前所未有的挑战。网络舆情的特点使其成为一把双刃剑。为此，本文通过对微博文本的获取与处理，得到关于该微博热门话题的基于时间序列的离散数据序列，然后采用万有引力算法优化的RBF神经网络对微博舆情进行预测。通过微博舆情的时间序列进行实证研究，在预测性能上与现有的预测模型进行对比，证明该模型在该预测领域的可行性和有效性。

[关键词]RBF神经网络；微博舆情；万有引力算法；预测模型

[中图分类号]TP183 [文献标识码]A 文章编号：1671-0037（2016）12-32-4

1引言

随着网络的兴起和网络技术的普及，微博走人更多普通大众的生活，影响力越来越大。社会各界越来越重视微博上的舆情。由于在微博上发布消息具有及时性、任意性，并且信息传播很迅速，传播的范围广泛，造成微博上的信息既有真实的，也有虚假的。一些人利用微博传播谣言，污染社会环境，对人民生活造成很大的负面影响。但是，由于微博平台用户数量巨大、每天产生海量舆情信息量，靠人工被动检测无法满足监管要求。因此，研究微博舆情预测模型具有重要的现实意义。

目前，可以用于网络舆情发展趋势预测分析的方法有最小均方算法差分、混沌系统、自回归移动平均（ARIMA）、动力系统、支持向量机、神经网络等。由于网络舆情发展趋势的预测具有复杂性和非线性、采用传统统计学的方法具有一定的局限性，机器学习方法中支持向量机和神经网络是目前用于非线性系统预测最主要的两种方法。支持向量机是基于统计学习理论的一种机器学习方法，它在解决非线性问题中表现出很多优势，但是对比神经网络类的算法在预测准确性没有太大的优势，而且算法对参数的选择很大程度上依赖于人工。人工神经网络经过长时间的训练，对非线性函数可以达到任意精度。

目前RBF神经网络是应用最广泛和成功的神经网络之一，它结构简单、可塑性强，并且具有全局最优逼近能力与良好的推广能力，但是在进行舆情预测的时候，RBF神经网络预测的准确性与神经网络基函数的中心，方差（宽度）以及隐含层到输出层的权值有着密切的联系。传统的RBF神经网络的参数选择限制了在网舆情预测中的应用。

引力搜索算法（gravitational search algorithm，GSA）是伊朗科尔曼大学的Rashedi等于2009年底提出的一种种群优化算法，算法的提出基于万有引力定律和牛顿第二定律。文献[18]验证了相比遗传算法等，在全局寻优能力上，GSA的性能有明显的优势。目前，GSA已经成功应用于机器学习、电力系统优化、模式识别等领域。

在对微博舆情的预测中，本文引入了万有引力算法来优化RBF神经网络模型。网络隐层单元数通过聚类算法确定后，采用GSA优化神经网络的参数。仿真实验证明算法具有较好的非线性拟合能力和较高的预测精度。

2 RBF神经网络

RBF神经网络是一种前馈型式神经网络，其结果如图1所示。

图1 RBF神经网络结构图

类似于多层前向网络，RBF网络是由三层网络组成的。第一层输入层由感知单元组成；第二层为隐含层，根据实际问题的需要，隐单元的个数选取会相应不同，径向基函数是隐单元的转换函数；第三层为输出层，是对隐单元输出的线性加权和，学习速度快。

RBF神经网络主要由以下两个部分构成，如下式

（1）、（2）所示：

RBF神经网络的预测性能取决于对这些参数的选取。因此，必须采用合适的优化算法，选取最优的参数，以用来在预测时提高模型的性能。

3万有引力算法

3.1改进的万有引力算法

3.1.1改进引力系数。对于GSA来说，引力系数G（t）是一个重要的参数。在寻优的开始阶段，GSA需要一个较大的G（t）去引导种群快速地探索寻优区域；但是在寻优的后期过程中，算法需要较小的G（t）在搜索空间中执行局部搜索。在标准GSA中，G（t）是指数函数，下降速度很快，导致GSA的全局搜索能力迅速衰退，降低全局收敛速度。

为了使GSA探索最优解空间更快更准确，使用线性函数对引力系数G（t）进行改进，公式如下所示：

在每一代中，当一个新位置的适应度值小于原先的那个时，它就可以取代当前个体的位置。

4基于改进GSA算法的RBF神经网络算法的设计

将RBF神经网络的主要参数，编码成每个粒子的位置。种群按照引力算法寻优过程不断优化直至找到最优个体。将万有引力算法得到的最优个体对RBF神经网络的参数进行赋值。

算法的基本步骤如下：

①使用K-均值方法确定聚类中心的位置和个数；

②设定算法的参数：种群规模N，引力系数G₀以及β，最大迭代次数。并将神经网络参数作为GSA和IGSA的位置进行优化；

③计算每个个体此时的适应度值；

④计算个体的M_i（t），根据公式更新G（t）；

⑤计算每个个体所受力的总和，根据公式计算粒子的加速度；

⑥更新个体的速度和位置；

⑦判断是否满足收敛条件，满足，输出结果；否则，执行③。

5仿真实验

5.1微博舆情时间序列的获取

获取实验数据的步骤：首先通过调用新浪微博开放平台接口，采集微博数据，存入数据库；然后采用聚类方法获取时间段内的微博热点话题；最后统计出微博话题时间数据序列，得到实验数据。

5.2舆情预测模型验证

将“双十一”等网络舆情发展趋势时间序列数据从2015年11月1日到12月5日产生的35个分量的时间序列数据分成两个样本数据集，分别用来训练和预测神经网络模型。表1为各种算法的预测精度对比。图3给出了不同算法在“双十一”网络舆情发展趋势在10个预测样本中的预测实验结果分析。

实验主要分为两个部分，第一部分验证了文本聚类算法的有效性；第二部分验证改进万有引力算法优化的微博舆情预测模型的有效性。在实验中，通过对三个模型的实验结果进行对比发现，模型3对微博舆情的预测精度及速度最好。本文的算法模型可以更好地预测网络话题的发展趋势，预测结果有利于政府对舆情信息的监控和引导，也有利于社会的和谐稳定。

6结论

由于预测的目标、内容、范围不同，形成了多样化的预测方法。一般预测方法的模型構建是非常有难度的。本文运用改进神经网络构建预测模型，实现更好地描述网络舆情的发展趋势，预测结果利于政府对舆情信息的监控和引导，也有利于社会的和谐稳定。