基于传染病模型的微博信息传播预测研究

2016-06-08 06:04游新年
计算机应用与软件 2016年5期
关键词:传染病预测用户

游新年 刘 群

(重庆邮电大学计算机科学与技术学院 重庆 400065)



基于传染病模型的微博信息传播预测研究

游新年刘群

(重庆邮电大学计算机科学与技术学院重庆 400065)

摘要随着微博的爆炸式发展,微博已成为消息扩散和舆论传播的重要平台。研究微博信息的传播对市场营销、舆情管控等方面都具有重要意义。根据微博信息传播特点,结合传染病动力学原理,提出基于经典SIR(Susceptible-Infectious-Recovered)传染病模型的微博信息传播预测模型。该模型考虑了微博用户转发行为对信息传播机理的影响,构建具有微博传播特性的演化方程组。实验结果表明,该模型比SISe模型的预测误差更小,可以更准确地拟合和预测微博信息的转发数,从而预测得出微博信息的传播趋势。

关键词微博信息传播传染病模型转发行为预测模型传播趋势

0引言

微博作为一种迷你博客,是通过关注机制分享简短实时信息的广播式的社交网络平台。用户可以通过手机短信、即时通信、邮件、Web网页或者第三方应用即时发布信息或转发、评论好友信息。在微博中,转发是微博信息传播的主要途径,微博信息通过用户之间的转发得以广泛传播。由于每个微博用户可以在不需要发布者的同意而即时地阅读、评论和转发微博信息,使微博信息比其他传统媒体信息传播速度更快、范围更广、效率更高,这导致了微博惊人的发展。微博已成为中国网民的主流互联网应用,微博中每个用户都是信息的传播源,这增加了人们获得信息的途径。微博对于人们的社会生活影响深远,因此对微博信息传播问题的研究逐渐成为国内外学者的关注热点,并且深入研究微博网络信息的传播机制。这些问题的研究在市场营销、舆情控制和热点话题发现等应用方面具有重要意义。

在微博信息传播研究中,如何预测微博信息传播趋势是现在需要解决的问题。虽然现在很多研究集中在基于微博各种特性上,例如利用机器学习中的算法预测微博是否转发的问题,然而都未能对微博信息传播趋势预测。文献[1]利用协同过滤算法预测微博的转发预测,得出影响微博转发的主要特性是微博的发布者和转发者的身份。文献[2]通过分析微博用户转发行为及转发影响因素等,提出因子图模型来预测微博的转发行为。文献[3]通过利用推文内容以及上下文特征来分析转发功能的影响因素,并且构建了转发预测模型,发现推文内容特征、URL、标签、上下文特征、粉丝数和朋友数等是影响推问转发的重要因素。文献[4]利用基于被动主动算法的机器学习方法预测一条微博是否被转发。文献[5]采用分类方法预测流行微博的转发范围。文献[6]利用机器学习中的分类算法对微博上下文特征的重要性进行分析,提出基于特征加权的预测模型,预测单条微博是否会被转发来研究微博客中转发行为的问题。这些研究都不能预测微博信息从发布之后随时间变化的转发总数和微博信息传播趋势,只是简单地预测微博信息是否被转发的问题。也有一些学者,发现微博信息传播过程与传染病传播过程具有相似性,将传染病模型应用到微博信息传播研究。文献[7]提出通用流行阀值条件,利用传染病模型的方法预测微博的转发规模,但模型只进行仿真验证,未进行真实数据的模型验证。Li等[8]利用扩展的传染病模型对腾讯微博信息的转发次数进行了准确的预测。Wang等[9]提出扩展的SIS(Susceptible-Infectious-Susceptible)疾病传染模型,但是没有考虑微博用户转发行为的免疫性,即微博用户不会再次转发自己已经发表或者转发过的微博信息。

针对上述研究,缺乏在微博信息传播过程中对微博信息转发总数的预测和微博信息传播趋势预测研究。本文根据微博信息传播与传染病传播的相似性,借鉴经典的SIR传染病传播模型,引入微博信息传播的开放特性,在SIR传染病模型的基础之上引入外来用户,构建微博信息传播预测模型。本文模型能较好地预测微博信息随时间变化的转发数,并预测微博信息的传播趋势。

1经典SIR传染病传播模型

从20世纪开始,研究者利用传染病模型研究病毒的传播,Hamer等[10]对麻疹的传播创建了离散时间模型。Ross等[11]研究蚊子和人群之间的疟疾的传播,提出了SI模型,并证明了如果蚊子数量限制低于某一阈值,疟疾是可以控制的。Kermack和Mckendrick[12]提出了著名的SIR隔离模型。到目前为止,传染病模型有5种:SI、SIS、SIR、SIRS和SIRSE[13]。文本主要阐述经典的SIR传染病模型。

在 SIR模型中,此假设环境中人口总数为N(t),将总人口分为以下三类:易感染者S,其数量记为S(t),表示t时刻未感染疾病但有可能被传染疾病的人数;感染者I,其数量记为I(t),表示t时刻已被感染成为病人而且具有传染力的人数;康复者R,其数量记为R(t),表示t时刻不再传播病毒的康复者的人数。

SIR模型的假设有:(1) 不考虑人口的出生率和死亡率,此环境中总人口数为不变的常数,即N(t)=K。(2) 当易感染者与感染者接触时,就有可能被感染。假设从t时刻起,单位时间内一个感染者能传染的易感者数目与此环境内易感者总数S(t)成正比,比例系数为β,从而在单位时间内新增感染人数为βS(t)I(t)。(3) 在t时刻,单位时间内从感染者中康复的人数与感染者数量成正比,比例系数为α,单位时间内康复者的数量为αI(t)。我们可以使用一下方程组来描述SIR模型:

根据微博信息传播特性,我们观察发现微博信息传播与传染病传播具有相似性。微博用户发布或转发某微博之后,其关注者将会在微博信息中看到此微博,并有可能转发。根据微博用户的免疫性,微博信息在传播过程中逐渐消亡,当关注者转发之后,随着微博在网络中不断传播,此关注者再次看到该微博就会具有免疫性则不会再次转发该微博。微博信息传播是一个从创建—转发—消亡的过程,与传染病的传播易感—感染—康复的过程具有相似性,由此启发我们将经典SIR传染病传播模型应用到微博信息传播研究中。其中微博信息传播与传染病传播类比关系,如表1所示。

表1 传染病传播和微博传播

由于SIR模型中假设此环境中人口的总数是不发生变化的,并且只是存在3种状态。但是微博信息传播具有开放性,外来用户可以在没有关注转发微博用户的时候,自主地阅读和转发此微博。所以本文对SIR模型进行改进并应用到微博信息传播研究中。

2微博信息传播预测模型

在微博网络中,微博信息传播的主要途径是通过微博用户之间的转发。一个微博用户发布的消息会被其粉丝看到,并可能转发该微博信息。当用户转发微博之后,用户不会再次转发自己已经转发过的微博信息成为“免疫用户”。由于微博信息传播的开放性,微博用户可能在没有关注转发用户的情况之下阅读且转发该微博而成为“外来用户”。因此本文在经典的传染病传播的SIR模型的基础之上引入外来用户,提出满足微博信息传播特性的微博信息传播预测模型,并定义为SIRE(Susceptible-Infectious-Recovered-External)模型。

在SIRE模型中,将微博用户定义为以下4类:感染用户(I)、易感染用户(S)、免疫用户(R)和外来用户(E)。微博用户的状态转变规则如下:

1) 假设微博用户A发布或者转发某条微博信息,则微博用户A的状态为感染用户(I),且微博用户A的直接粉丝的状态为易感染用户(S)。

2) 假设微博用户B为微博用户A的直接粉丝,则用户B转发该微博信息的概率是β,即微博用户从易感染用户成为感染用户的概率是β。

3) 假设用户B转发信息成为感染用户之后,不会再次转发该微博信息的概率为α,即微博用户从感染用户(I)成为免疫用户(R)的概率是α。

4) 假设微博用户C没有关注发布该微博信息的用户和任何转发该微博的用户,则用户C的状态为外来用户(E)。用户C自主阅读该微博并转发的概率为γ,即微博用户从外来用户(R)成为感染用户(I)的概率是γ。

微博用户的状态转变图,如图1所示。

图1 SIRE模型用户状态转变图

当给定某条微博,在t时刻,在SIRE模型中,易感染用户S,其数量记为S(t),表示t时刻易感染用户且可能转发该微博的人数;感染用户I,其数量记为I(t),表示已转发该微博的用户而且具有传播力的人数;免疫用户R,其数量记为R(t),表示t时刻不再转发传播该微博的人数。

SIRE模型的假设有:(1) 当某微博用户发布或者转发某条微博信息时,该用户的直接粉丝即易感染用户就有可能转发该微博。假设从t时刻起,单位时间内一个感染用户能传播的易感染用户数为S(t),转发传播的概率为β,从而在单位时间内新增感染用户数为βS(t)I(t)。(2) 在t时刻,单位时间内从感染用户成为免疫用户的概率是α,单位时间内增加的免疫用户的数量为αI(t)。(3) 在t时刻,单位时间内外来用户转发该微博的概率为γ,单位时间内由外来用户转变为感染用户的数量为γE(t)。外来用户占实时的感染用户的比例ω,则单位时间内增加的外来用户为ωI(t)。

根据上述定义,我们可以得出SIRE的表达式为:

(1)

由式(1),可以计算得出在单位时间内转发该微博的易感染用户数量、免疫用户数量、外来用户数量和感染用户数量。由感染用户数量得出单位时间内微博的转发总数,从而可得出微博在一定时间内的转发总数和传播趋势。

3对比实验与分析

本文是采用Win 7,CPU G3200,4 GB的电脑平台进行实验,与文献[9]中的SISe模型进行对比。提出的SIRE模型和SISe模型的模型系数均为定值,不随时间发生变化,使对比实验更具有合理性。本文实验采用两种指标对模型效果进行评估,首先是对模型的拟合效果评估,然后是对模型的预测效果评估。

3.1数据获取

目前,新浪微博是国内影响力最大,为了客观地验证本文提出的微博信息传播预测模型,本文通过新浪微博提供的API接口函数,首先获取从2014年3月到5月的“头条新闻”用户的原创微博信息,再获取这些原创微博信息的转发微博信息。微博信息传播传播速度衰减较快,后期的转发数基本不会有较大的改变,所以筛选出200条从微博发布开始转发行为持续2天时间的转发数在1000次到20 000次的微博信息作为本实验数据集。其中取100条微博的转发信息作为训练数据集。另外100条微博的转发信息作为测试数据集。

3.2模型的拟合对比实验

设置微博发布时刻为初始状态,假设为t0,此时只有微博信息的发布者为感染用户,其微博发布者的粉丝为易感染用户,即t=t0,I(t0)=1,E(t0)=0,S(t0)=K,K为微博发布者的粉丝数量,各参数数据获取见3.1节。其中模型的参数β、α、γ、ω的取值,采用了粒子群算法对训练数据集进行训练求解得出最优系数。根据其最优系数,可得出t时刻的感染用户I(t),表示该时刻微博信息的转发总人数。因此得出本文提出的SIRE模型和SISe模型的拟合效果对比图如图2所示。其中纵坐标为某微博信息的转发总数,横坐标为时间变量,数据取微博转发早期,持续转发2天的微博,以每小时为时间单位则t(0≤t≤48)。

图2 模型拟合效果对比图

从图2中可以看出:

1) 在初始阶段微博信息转发总数增长较快,说明微博信息传播初期的转播速度较快。随着时间的推移,微博信息的转发总数增长缓慢,微博信息的传播速度较慢,微博信息传播趋于衰减。一定时间段后转发总数趋于平稳状态,不再有用户转发该微博信息,微博信息传播结束。本文提出的模型能较好地拟合微博信息传播趋势。

2) 当t接近于0 时刻,模型的拟合值真实数据值相差较大,因为初始值和算法本身相关,粒子群算法初期易出现早熟等现象,随着迭代的增加,更逼近真实值。

3) 在微博传播的初始阶段,SIRE模型拟合值比SISe模型拟合值更接近真实数据。在微博传播的衰减阶段,SISe模型拟合值更接近真实数据。在微博的传播过程中,相比于微博传播的稳定期,其初期的快速传播拟合在谣言传播、舆情控制中的应用更具有意义。

为了对两个模型的建模效果进行分析,我们采用绝对误差和均方根误差(RMSE)来进行比较。绝对误差值和RMSE用来衡量拟合值和真实数据之间的误差大小,绝对误差越趋于零值,表示拟合效果越好。RMSE越小,表示拟合效果也越好。

RMSE的计算方法如下:

(2)

本文提出的SIRE模型和SISe模型的拟合绝对误差和RMSE分别如图3和表2所示。图3中纵坐标为模型的绝对误差值,横坐标为时间t,由比较结果可知,本文提出的SIRE模型拟合的绝对误差和RMSE值均更小,说明SIRE模型的拟合效果更好,能更好地拟合微博信息传播发展的趋势,符合微博信息传播规律。

图3 模型拟合绝对误差图

SIRE模型SISe模型228.4209369.9183

3.3模型的预测对比实验

为了客观衡量模型预测的效果,采用测试集数据对模型进行验证。利用前面训练得出的模型最优系数引入式(1)中预测得出微博信息随时间变化的转发总数。预测效果对比如图4所示。其中纵坐标为某微博信息转发总数,横坐标为时间变量t,数据取微博转发早期,持续转发2天的微博,以每小时为时间单位则t(0≤t≤48)。

图4 模型预测效果对比图

从图4中可以看出:

1) 在微博信息传播初期,t接近于0时刻,两个模型的预测效果均不太好,这与粒子群算法本身相关,初期易出现早熟等现象,随着迭代的增加,更接近于真实值。

2) 两个模型均能较好地预测微博信息的随时间变化的转发总数,本文提出的SIRE模型的预测值更接近真实数据,预测效果更好。

其中SIRE模型和SISe模型的预测绝对误差和RMSE分别如图5和表3所示。图5中纵坐标为模型的绝对误差值,横坐标为时间t。由比较结果可知,本文提出的SIRE模型的预测效果比SISe模型的预测效果更好,验证了从图上分析得出的结论。

图5 模型预测绝对误差对比图

SIRE模型SISe模型53.74357.9756

4结语

本文研究了微博信息的传播,提出一个微博信息传播预测的模型。该模型在经典的SIR传染病模型基础之上,结合了微博用户转发行为特性,并且与SISe模型进行对比实验。实验结果表明,本文提出的SIRE模型可以更准确地拟合和预测微博信息的转发总数,准确地预测微博信息的传播趋势。尽管如此,本文的工作中仍有需要改进的地方。比如,在微博信息传播过程中,随着传播用户的增加,微博信息传播的概率也可能有变化,如何提高模型的预测精度是本文的未来工作。

参考文献

[1] Zaman T R,Herbrich R,Van G J,et al.Predicting information spreading in twitter[C]//Whistler,Canada: Proceedings of Workshop on Computational Social Science and the Wisdom of Crowds,2010:1-4.

[2] Yang Zi,Guo Jingyi,Cai Keke,et al.Understanding retweeting behaviors in social networks[C]//Toronto,ON,Canada: Proceedings of the 19th ACM International Conference on Information and Knowledge Management,2010:1633-1636.

[3] Suh B,Hong L,Pirolli P,et al.Want to be retweeted? large scale analytics on factors impacting retweet in twitter tetwork[C]//Proceedings of IEEE 2nd International Social Computing Conference,2010:177-184.

[4] Petrovi S,Osborne M,Lavrenk O V,et al.RT to win! predicting message propagation in twitter[C]//AAAI Publications,Fifth International AAAI Conference on Weblogs and Social Media,2011:586-589.

[5] Hong Liangjie,Dan O,Davison B D.Predicting popular messages in twitter[C]//Hyderabad,India:Proceedings of the 20th International Conference Companion on World Wide Web,2011:57-58.

[6] 张旸,路荣,杨青.微博各种转发行为的预测研究[J].中文信息学报,2012,26(4):109-114.

[7] Chakrabarti D,Wang Y,Wang C,et al.Epidemic thresholds in real networks[J].ACM Transactions on Information and System Security,2008,10(4):1-26.

[8] Li Y,Feng Z,Wang H,et al.ReTweetp:Modeling and predicting tweets spread using an extended Susceptible-Infected-Susceptible Epidemic Model[C]//Wuhan,China:Database Systems for Advanced Applications:18th International Conference,2013:454-457.

[9] Wang H,Li Y,Feng Z,et al.ReTweeting analysis and prediction in microblog:An epidemic Inspired Approach[J].China Communication,2013,10(3):13-24.

[10] Hamer W H.Epidemic disease in engliand[M].London:Bedford Press,1906.

[11] Ross R.The Prevention of malaria[M].Dutton:NaBu Press,1910.

[12] Kermack W O,Mckendrick A G.Contributions to the mathematical theory of epidemics. II. The Problem of Endemicity[J].Bulletin of Mathematical Biology,1991,53(1-2):57-87.

[13] Hethcote H W.A Thousand and on epidemic models[C]//Davis,CA,USA:WorkShop of Lecture Notes in Biomathematics,1994:504-504.

RESEARCH ON MICROBLOGGING INFORMATION DISSEMINATION PREDICTION BASED ON INFECTIOUS DISEASE MODEL

You XinnianLiu Qun

(SchoolofComputerScienceandTechnology,ChongqingUniversityofPostsandTelecommunications,Chongqing400065,China)

AbstractWith the explosive growth of microblogs, it has become the important platform of news pervasion and public opinions dissemination. Research on the dissemination of microblogging information is of great importance for many different fields such as marketing management and public opinions control, etc. According to the features of microblogging information dissemination and in combination with dynamics principle of infectious diseases, we present a prediction model of microblogging information dissemination which is based on the classical susceptible-infectious-recovered (SIR) epidemic model. The model takes the influences of microblog users’ reblogging behaviours on information dissemination mechanism into account, and builds an evolution equation with the characteristics of microblogs dissemination. Experimental results show that the proposed model has lower predictive error compared with SISe model, and it can fit and predict the reblogging number of microblogging information more correctly, so that predict and get the dissemination trend of microblogging information.

KeywordsMicroblogging information disseminationEpidemic modelReblogging behaviourPrediction modelDissemination trend

收稿日期:2014-11-18。国家自然科学基金项目(61075019);重庆市自然科学基金项目(CSTC2014jcyjA40047);重庆市教委研究项目(KJ1400403)。游新年,硕士生,主研领域:智能信息处理,社交网络。刘群,教授。

中图分类号TP393

文献标识码A

DOI:10.3969/j.issn.1000-386x.2016.05.014

猜你喜欢
传染病预测用户
无可预测
《传染病信息》简介
传染病的预防
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
3种传染病出没 春天要格外提防
呼吸道传染病为何冬春多发
不必预测未来,只需把握现在
关注用户
关注用户