基于人工神经网络的社交网站文章热度分类研究*

2016-01-27 02:10刘佳
通化师范学院学报 2015年12期
关键词:RBF神经网络BP神经网络主成分分析



基于人工神经网络的社交网站文章热度分类研究*

刘佳

(长春工业大学 基础科学学院,吉林 长春 130012)

摘要:社交网站作为一种新时期的交流平台,给人们的学习和生活带来了无尽的便利,逐渐成为人们获取知识,共享信息的主要渠道,但与此同时,网络文章纷繁复杂,造成用户浏览上的困扰,由此可见,对文章热度进行分类十分必要.针对这一问题,以Mashable社交网站为例,利用UCI中Online News Popularity数据集,提取文章相关属性,给出热度的评价标准.对60项属性进行了主成分分析,筛选出关键性影响因子.通过对BP神经网络和RBF神经网络两种算法进行对比研究,旨在选择一种速度更快、分类更精确的算法,结果表明,RBF神经网络的分类准确率达到94.5%,模型指标R2达到0.85,具有更好的分类表现.

关键词:社交网站;热度;BP神经网络;RBF神经网络;主成分分析

随着互联网技术的迅速兴起,涌现出大量的社交网站,这些网站已经成为广大网民获取知识,交流信息的主要平台,对人们的学习和生活方式产生了重大的影响[1].但是由于社交网站的文章质量参差不齐,内容纷乱繁杂,造成了很多用户在浏览上的困扰.为了将高质量、有价值、热度高的文章推荐给用户,方便用户有方向、高效率地去浏览文章,避免浪费学习和交流时间,对文章热度进行合理分类和预测是十分有必要的.近年来,针对该课题的研究已经引起不同学科学者们的广泛关注.由此可见,对网站文章的热度进行分类有十分重要的研究价值.

本文在人工神经网络和网站文章热度相关研究背景下[2],提出了基于人工神经网络的网站文章热度分类技术,在实际计算过程中,RBF神经网络模型对于网站文章热度的预测和分类准确度较高,为网站文章热度分类提供了更好的技术和方法.

1相关算法

人工神经网络作为一种基础的适应性模型和算法,在机器学习中有广泛的应用[3],是一种由大量简单的处理单元组成的高度复杂的大规模非线性自适应系统.神经网络是具有非线性特征且参数可以被调整的一种算法,利用这种算法可以广泛地处理非线性复杂数据系统.

1.1BP神经网络[4]

BP(Back Propagation)神经网络是一种误差反馈型神经网络,这种网络模型由三层构成:输入层,隐藏层和输出层,在同一层上的节点之间没有连接,相邻的网络层中所有节点全部相互连接.所有信息在各层中都是单向传播,传播从输入层作为开端,经过隐藏层,最终到达输出层.

BP神经网络的应用包括三个阶段[5]:训练学习、验证和预测.在网络训练中,同一数据集如果被处理多次,那么节点之间的权值会变得越来越精确.在网络学习中,BP神经网络利用有监督方式进行学习,模型可以自适应学习输入和输出之间的关系.在验证步骤中,利用测试集来对BP神经网络的功能进行测试,这种测试集可以看作是普遍现象的代表性数据.将测试集数据的特征输入已完成训练和学习的BP神经网络结构中,则神经网络可以根据输入自动地进行推理和对样本属性的识别.如果网络在测试中表现良好,这意味着已训练好的网络也可用于一般的情况.

1.2RBF神经网络[6]

RBF(Radial Basis Function)神经网络是一种三层前馈网络,包括一个输入层、一个隐藏层和一个输出层.输入层有一些源节点,例如与外部环境相连接的传感器单元.体系结构只有一个隐藏层,其作用是实现从输入空间到隐藏空间的非线性转换和从隐藏空间到输出空间的线性映射.

每个输入向量的维度都与对应的输入层神经元有关.输入层神经元对应连接到隐藏层神经元,组成RBF函数的神经系统,并把最恰当位置称为中心.中心点可以视为隐藏层中的节点,函数的中心和半径在RBF神经网络预测的准确性上有重要的影响.

本文RBF神经网络的径向基函数采用高斯函数:[7]

Φ(xp,ci)=φ(‖xp-ci‖)=

(1)

xp其中‖xp-ci‖-欧式范数;xp-第p个输入样本;p=1,2,…,p-样本总数;ci-网络隐藏层节点中心;则线性函数作为输出层的激活函数可作如下表示:(2)

(2)

其中c-函数中心;σ-函数方差;根据径向基函数中心选取方法的不同,RBF有多种学习方法[8],其中本文选取的是自组织选取中心学习法.在这一学习方法下,网络输出可以表示为:

j=1,2,…,n

(3)

wij-隐含层到输出层对应权值;i=1,2,…,h-节点数;yj-第i个节点的实际输出.

2数据来源及介绍

本文所用数据来源于UCI中的Online News Popularity数据集[9],该数据集是整合两年内刊登在Mashable (www.mashable.com)上的文章作为数据集,共计39 797条有效文章记录,其中每篇文章特征属性采集60项.

表1 社交网站文章主要属性表

注:文章全体属性详见http://archive.ics.uci.edu/ml/datasets/Online+News+Popularity

3主成分分析

主成分分析是将众多有相关性的属性指标重组成一组新的不相关指标作为综合评价指标的过程.由表1可以看出,影响社交网站文章热度的因素过于繁多,在没有进行深入地化简和分析的情况下,预测结果并不理想.针对这一问题,本文对数据进行了主成分分析,对多变量的问题组合成一个综合的评价指标,用这些综合指标来描述这组数据.

3.1利用SPSS软件进行主成分分析

步骤一:对表1的原始数据采集p(p=60)维的随机向量x=(x1,x2,…,xp)T的n(n=39 797)个样本xi=(xi1,xi2,…,xip)Ti=1,2…,n,构造样本矩阵并进行如下标准化变换:

步骤四:将标准化后的指标变量转换成主成分,其中Up对应第p个主成分.

步骤五:对主成分进行加权求和求得累计贡献率(权数为每个成分的贡献率).

结果如表2.

由表2可知,第一到第七主成分的累积贡献率分别为75.92%,77.73%,79.47%,81.1%,82.62%,84.06%,85.41%,因此,只需m取7就能很好地概括这组数据.由于8~60因子累计贡献率皆超过85%,故在表2中省略,并未列出计算结果.

3.2决定网站文章热度关键因素分析结果

本文利用SPSS软件对数据属性进行主成分分析后,结合网站文章热度实际背景合理的给出影响网站文章热度特征,经计算发现,60个因子中有53个因子的载荷接近于0,或很小可以忽略不计,因此,表3只列出主要影响因子.

表3 影响因子在各主成分上的载荷

由表3描述的主成分在不同因子上的载荷可知,7个主成分侧重方面有所不同,其中7个因子对第一主成分浏览次数影响都很大.第二主成分引用次数侧重于shares ,num_keywords因子,载荷分别为0.55、0.54,第三主成分跳转次数与num_self_hrefs息息相关, global_subjectivity,rate_positive_words两个因子在第四主成分语句极性与第五主成分评论极性上占有很大载荷.第六主成分相似率则侧重于num_keywords因子,第七主成分平均共享中num_hrefs因子载荷较大为0.64,shares因子与所有主成分都有密切关系.

3.2流行度评价标准[10]

本文对数据集共享数这一属性进行25%、50%、75%的四分位处理,得到对于预测结果的分类标准,[1,944]对应预测数为1(文章热度为差),[945,1400]对应预测数为2(文章热度中等),[1401,2700]对应预测数为3(文章热度良好),[2701,39465]对应预测数为4(文章热度为优).

4试验与结果分析

本文Mashable文章数据集包含39 797个,选择数据集中的85%为训练样本,剩下的15%为检验样本,利用两种神经网络对文章共享数进行预测分类对比结果如下.

表4 两种算法性能对比

由表4可见,RBF神经网络算法在文章热度分类中准确率达到了94.5%,模型指标R2达到了0.85,相比之下算法表现皆优于BP神经网络.

5结论

通过以上BP神经网络和RBF神经网络对网站文章热度的对比研究,结果表明,BP神经网络和RBF神经网络对训练样本皆有很好的仿真效果,但RBF神经网络算法在社交网站文章热度分类中具有更快的分类速度和更高的准确率(准确率达到94.5%,速度达到35s),相比BP神经网络显得更为优越.本文结论为基于人工神经网络对社交网站文章热度分类提供较好的技术和方法.

参考文献:

[1]Corporation H P. Impact of Bursty Human Activity Patterns on the Popularity of Online Content [J]. Discrete Dynamics in Nature & Society,2012,31(4):1293-1309.

[2]Szabo G,Huberman B.Predicting the popularity of online content[J].Social Science Electronic Publishing,2008,53(8):80-88.

[3]Zhong L, Liu L, Zou C, et al. The application of neural network in lifetime prediction of concrete[J]. Journal of Wuhan University of Technology-Mater Sci Ed, 2002, 17(1):79-81.

[4]Zhou X, Zhang S, Xie X, et al. Application of BP Neutral Networks to Water Demand Prediction of Shenyang City Based on Principle Component Analysis[C]// Intelligent Computation Technology and Automation (ICICTA), 2014 7th International Conference on. IEEEs, 2014:912-915.

[5]蔡兵.BP神经网络隐层结构的设计方法[J].通化师范学院学报,2007,28(2):18-19.

[6]袁景凌, 陶海征. Prediction of free lime content in cement clinker based on RBF neural network [J]. Journal of Wuhan University of Technology-Mater. Sci. Ed., 2012, 27(1):187-190.

[7]张德丰.MATLAB神经网络应用设计[M].2009.

[8]吴懋刚,潘永惠,范蕤.基于优化RBF神经网络的缝纫平整度客观评价[J].通化师范学院学报,2010,31(10):37-38.

[9]Szabo G,Huberman B A.Predicting the popularity of online content press,2008.

[10]De'Ath G,Fabricus K E.Classification and Regression Trees:A Powerful Yet Simple Technique for Ecological Data Analysis." Ecology[J].Ecology,2000,81(11):3178-3192.

(责任编辑:王前)

Research on Classification of the Popularity of Social Networking Sites' Articles

LIU Jia

(CollegeofBasicScience,ChangchunUniversityofTechnology,ChangChun,Jilin130012,China)

Abstract:In this paper,the social networking sites-Mashable is taken for an example.The Online News Popularity data-sets from UCI datasets is acquired and the relevant attributes is extracted. At the same time, the classification criteria is described. In order to analyze the correlations between the 60 features, the principal component analysis is used, and some most important features are extracted. In order to get the more accurate and faster algorithm, the two artificial neutral network separately is used and a comparison of the two algorithms is made. The experimental results indicate that RBF neutral network, whose classification accuracy rate is 94.5% and the R2 of the model is 0.85, get the better prediction performance .

Keywords:social networking

中图分类号:TP274

文献标志码:A

文章编号:1008-7974(2015)06-0056-04

作者简介:刘佳,女,吉林白城人,硕士研究生.

基金项目:国家自然科学基金项目 “基于三维随机模拟的傍河型水源地污染物迁移规律研究” (51278065);吉林省科技计划项目 “向量优化问题的路径跟踪算法研究” (20130101061)

收稿日期:*2015-06-20

DOI:10.13877/j.cnki.cn22-1284.2015.12.018

猜你喜欢
RBF神经网络BP神经网络主成分分析
无线Mesh网络发展
主成分分析法在大学英语写作评价中的应用
基于RBF神经网络的PID自校正控制研究
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用
复杂背景下的手势识别方法
BP神经网络在软件质量评价中的应用研究 
基于RBF神经网络的一回路核动力装置典型故障诊断
BP神经网络算法在数值预报产品释用中的应用
RBF神经网络在创业板新股定价问题上的研究