基于时序信息的话题动态演化模型及追踪算法

2015-05-26 08:16胡改丽陈福集
关键词:语料网页舆情

陈 婷,胡改丽,陈福集

(福州大学 经济与管理学院,福建 福州305106)

据中国互联网信息中心(CNNIC)发布的《第33 次中国互联网络发展状况统计报告》,截至2013年12 月底,我国网民规模已达6.18 亿,互联网普及率为45.8%[1]。人们可以在互联网上自由发表言论和观点,各种不同的观点、思想和言论碰撞交汇,形成一种强大的漩涡,即网络舆情。网络舆情是互联网上公众对某事件的认知、态度、情感和行为倾向的集合[2]。

对突发事件发生后的相关舆情话题的收集和追踪,是分析事态发展的重要依据。由于网络舆情的传播路径不确定,舆情话题在传播过程中可能朝任意方向发展,某一特定的舆情话题可以衍生出多个相关的新舆情话题。话题衍生性是网络舆情传播演化的一个主要特点,特别是在舆情衰退期,由于网民对原始舆情话题的相关元素已失去兴趣、诉求和需要,原始舆情话题失去生命力,被新的衍生话题所替代,这就是舆情对社会的“二次影响”。衍生话题与原始话题相互交织而形成动态的衍生网络会延长原始事件的生命周期,其持续期和消退期的持续时间均延长,加大了突发事件应急处理难度,有时衍生话题的社会影响远大于原事件,给社会环境带来极大的损失。因此,把握舆情话题及其衍生话题之间的交错复杂的迁移关系,构建话题演化动态模型,设计话题追踪方法,通过对舆情话题进行追踪了解,预测事件的发展态势,避免事件的无限衍生蔓延,能够为政府突发事件应急管理工作提供重要的决策支持。

1 相关工作

1.1 话题演化模型的构建

在舆情话题演化模型的构建方面,MATSUMURA 等提出的影响力传播模型即IDM 模型,该模型基于用户间交互模式的视角,发现网络论坛中有影响力的任务和话题[3]。文献[4]提出了一种基于小波分析和神经网络建模的非线性时间序列的预报方法,并基于该方法将话题分为不同序列构建模型以实现对热点话题的预测。文献[5]通过分析新闻报道中种子事件与后续新颖事件间的演化关系,强调命名实体词的贡献度,并及时调整话题的重心向量,建立了一种动态的话题检测和追踪模型。张晓艳等[6]使用一个基于话题的权重计算方法,在学习相关信息时尽可能减小伪相关报道中的噪音影响,并利用最新的话题无关报道来定位过滤当前话题模型中的动态噪音,提出一种能动态调整发生偏移的话题模型。文献[7]针对舆情信息的特点,建立网络舆情信息模型,进一步提出基于动态主题模型OLDA(online latent dirichlet allocation)的话题演化模型。

1.2 话题追踪算法的设计和实现

在话题追踪算法方面,马雯雯等针对传统的话题发现算法中仅基于关键词匹配而未考虑话题语义相关性的问题,引入隐含语义分析的方法对语料信息进行建模,通过两阶段的聚类策略发现网络上较受关注的话题[8]。文献[9]利用LDA模型对网络热点话题主题进行提取,利用时间标签发现热点话题,并设计了基于时序主题模型的网络热点话题演化分析系统。赵华等关注话题随时间的动态变化,提出了基于话题持续时间的动态阈值模型[10]。互联网舆情所具有的衍生性和动态性使得舆情呈现出复杂的演化特性,而以往学者构建的话题模型在话题演化的动态过程和微观结构方面缺乏有效的描述,导致其不足以揭示出舆情话题的演化机理,且舆情发展后期的话题漂移是话题追踪中不可忽视的问题,因此以往的话题追踪算法中基于话题内容相似度计算两者相关性的方法难以满足实际的应用需求。笔者在分析话题演化特性和拓扑结构的基础上,构建了基于时间片的舆情话题动态演化模型,该模型增加了对舆情话题的时序关联,为了克服话题演化中的话题漂移,话题相关度分析中对仅基于内容相似度的方法进行了改进,在内容分析的基础上结合对网页链接关系的分析,进而通过实验验证了改进方法的有效性。

2 舆情话题的动态演化模型

2.1 舆情话题的多维属性及衍生特征

舆情动态演变网络的组成要素包括原舆情话题、衍生子话题及话题的多维属性,研究突发事件的衍生机理,需要对热点话题进行评估。跟踪热点话题与发现话题之间的演化路径是构建话题演化动态网络的重要内容。话题关注度是评估话题热度的重要参考指标,因此将话题关注度作为话题的重要属性。而话题的内容和关注度均随时间的发展而变化,故时序信息是舆情话题的重要内容。此外,话题热度的变化具有一定的时序性和规律性,时序信息描述了衍生话题产生和发展的序列关系,时序性是舆情话题的重要属性。

动态性是网络舆情演化的一大特性,随着时间推进,话题关注的焦点不断变化,焦点子话题也不断变化,衍生出的新话题与原舆情话题在内容上发生了较大偏移。此外,在舆情衰退期的话题漂移现象是不可忽视的问题,随着突发事件的演进,与之相关的话题重心也在动态变化。

2.2 话题演化动态模型构建

舆情话题除了结构化的文本信息,还包括网页链接信息,话题的发布者(用户)之间的关联信息,话题之间的时序特性是描述话题演变关系的重要依据。通过对舆情话题微观组成和演化特征的分析,确定话题演化模型组成元素的映射关系:模型将话题抽象为节点,节点之间的连接弧表示话题之间存在关联,弧的权值表示话题的相关度。话题演化模型根据话题的多元信息组成确定其拓扑结构为层次结构,每个层次对应话题的一种信息。舆情话题动态演化模型如图1 所示。

图1 舆情话题动态演化模型

(1)话题信息层。将话题演变过程在时间上进行划分即形成了时间片。话题信息层是由不同时序信息的话题组成的体系结构,可表示为:

式中:T为某一特定的突发事件;ti为对应的时间片;eij为在时间片ti内产生的与突发事件相关的舆情话题;Ei为对应时间片ti的话题集合。

(2)网页信息层。网页信息层是具有特定时序信息的网页集合P={p1,p2,…,pT}及网页间的链接关系集合PR={PR1,PR2,…,PRT},pi为时间片ti产生的网页集合,PRt表示前t个时间片内的网页集合,且PRt={(pi,pj)|pi,pj∈∪t1pt},网页pi通过链接指向网页pj。

(3)用户信息层。用户信息层是网络用户的信息及其关系的集合UG=(UG1,UG2,…,UGT),UGi表示第i个时间片内的话题讨论者的关系集合。当大多数用户对某一用户的观点持否定态度时,该用户极有可能放弃该观点,当绝大多数用户对某一用户的观点呈现一边倒的支持态度时,该用户更有可能坚持自己的观点。因此,用户观点的转化受用户间交互关系和自身特质的综合作用。而网民观点的演化是舆情话题演化的主要动力,特别是在舆情衰退期,网民关注点的转移是衍生话题产生的主要原因。故在模型中引入用户信息层。

3 基于动态模型的舆情话题追踪方法

3.1 话题相关度计算

笔者构建的三层话题模型是一种动态的信息表示模型,随着时间的演进和与话题相关的网页的不断加入,话题模型要随着网页间的链接关系进行实时更新。由于模型的目的是探测新话题,因此判断新加入的网页与种子话题的相关度是首要任务,互联网中舆情报道语料与原始舆情话题的相关性是判断新报道是否为新话题的主要依据。分析突发事件的种子话题与新话题之间的演化关系可以得出,新的话题往往是在对前一个话题或种子话题的回顾性描述或评论中产生的,而这种描述或评论一般是通过网页链接进行互动的。因此,针对围绕突发事件的舆情话题的相关报道的语料信息,话题模型中话题信息层中的节点与舆情话题的相关度计算需要综合考虑节点网页之间的链接关系和内容相似度。基于网页间链接关系和内容相关度,笔者提出网页间话题相关度的计算公式:

式中:RC为根据网页内容计算得到的相关度,具体做法是计算互联网新闻报道语料的内容空间向量与舆情话题的内容空间向量两者之间的相似度;RL为根据网页间的链接关系,在区分链接性质的前提下计算出的网页主题之间的相关度;⊕表示RL与RC之间的运算是广义加法运算,即网页间的话题相关度R满足max(RL,RC)≤R≤min(1,RL+δRC),δ 是依据RL和RC的相对重要性设置的调节系数。

新入网页Pa与原舆情话题相关度RL(Pa)的具体计算公式为:

式中:RC(Pi)为网页Pa与原有报道的网页Pi的内容相似度;N(a)为网页Pa发出的链接总数。由于原话题可能涉及多个网页,而新入的舆情报道网页若与多个原有报道的网页之间均有链接关系,则新入网页的话题与原话题的相似度需取与原有网页报道的相关度总和的平均值。

3.2 话题模型动态更新策略

突发事件的互联网舆情报道是按时序连续更新的,对于一系列连续的报道,为了反映出舆情话题随时间的演化路径,先将时间轴划分为一定长度的时间片,然后按照舆情报道发布的时间将其划归到相应的时间片中,同时对与报道相关的新入网页进行特征抽取,获得特征项,用权重较高的特征项对报道进行描述,将报道转化为特征项形成的多元向量空间,然后计算其与原舆情报道话题之间的内容相似度。

定义Rnewc(S,T)为互联网舆情报道语料S和话题T的内容相似度,式(3)表示新舆情报道的内容相似度的调整。

由于话题的衍生和漂移现象常发生在时间距离较近的话题之间,时间相隔越久的话题存在衍生、次生关系的可能性越小,因此计算新的舆情报道话题的相似度时只需考虑同一时间片内的话题。对于RL,主要根据新入舆情报道的网页与原网页之间的链接指向关系进行调整。如果新入的网页Pa有指向原话题T的链接,则根据式(4)调整RL。

计算出新的舆情报道的RL,RC后,根据式(1)调整话题相关度R。为了判断新话题的产生,需要预先设定阈值θ,当R≤θ 时,则认为报道中出现了新话题,反之,则认为是对已有话题的重复报道。

3.3 基于动态话题模型的舆情话题追踪方法

互联网舆情报道随着时间的演进不断更新,新话题产生与否是未知的,因此话题的识别是一种增量式的聚类过程,并且话题挖掘过程是无监督的。首先,对于一系列的舆情报道,按照发布的时间信息将其划归到对应的时间片,在一个特定的时间片内对报道进行特征抽取。某特定时间的舆情报道中可能涉及多个话题,因此通过特征抽取形成多个话题向量,并将其转换为对应的话题向量矩阵。

话题追踪方法是从两个方面捕捉舆情报道的动态变化。①在模型的话题信息层中保存当前时刻的话题信息,主要是通过话题挖掘已经得到的聚类结果;②根据话题模型更新策略计算新入报道的话题相关度,用追踪到的舆情报道的话题挖掘结果动态扩充新的信息到话题模型。这种增量式的话题聚类过程相当于是对整个报道集的聚类算法,算法按照时间片的顺序,对报道集进行增量聚类,依次处理舆情报道信息流中的报道网页,该方法为神经网络学习使用较多的批处理学习算法[11]。具体算法步骤如下:

输入:R=(R1,R2,…,Rn)(舆情报道集合)

输出:T={T1,T2,…,Tn}(话题集合)

(1)T1={R1};num(T1)=1;k=1//将R1作为种子报道,对其进行特征抽取,得到种子话题T1,初始化话题模型;

(2)for eachRi//Ri为后续的舆情报道网页;

(3)if(RC(Ri)≥δ)then//判断Ri是否为与原始话题内容相关的报道;

(4)R=R.add(Ri)//若Ri为相关报道,则将Ri加入话题模型,并更新话题模型;

(5)to extract effective link fromRi//区分Ri发出的网页链接类型,去除友情链接和广告链接;

(6)for each linkLj

(7)if (Pj∉Ti)then //链接Lj指向网页Pj,且Pj不在已有的话题集中;Tj=Tj+{Pj};

(8)num(Ti)+ +;//将网页Pj加入话题模型;update(Tj);

(9)T=T.addLink(Ri,Pj)//更新话题模型的网页信息层,添加Ri指向Pj的链接信息;

(10)T=T.computeRL(Ri)//基于链接关系分析报道Ri的相似度;

(11)for each linkLj

(12)T=T.updateR(Ri,Pj);//根据式(4)调整与报道Ri有链接关系的所有网页Pj的相关度;

(13)if(R(Ri)≥θ)then

(14)Tj=Tj+{Rj};

(15)num(Ti)+ +;//报道Ri的相关度超过了预设的阈值,认为舆情报道Ri出现了新话题,更新话题集;

update(Tj);

(16)return{T1,T2,…,Tm};//返回追踪到的话题集;

(17)End。

从算法中可以看出,话题模型是随着新入舆情报道的更新而不断调整的,当突发事件发生后,将最初的舆情报道作为种子报道,种子报道中包含的话题为种子话题,在此基础上逐步构建和更新话题模型。

4 实验分析

4.1 原始数据提取与预处理

为对话题识别的性能进行实际测试,笔者进行了实证分析。实验以网易新闻为实验平台,选取发生于2014 年3 月8 日的“马航MH370 失联”事件作为分析的案例。

为了保证数据的稳定性,实验中语料信息选取的时间范围固定在2014 年3 月8 日至4 月15日,事件涉及的话题包括飞机失联、马航MH370搜救、马来西亚政府应对、失联原因分析、乘客名单公布、多国民众集体祈福、坠落地点预测、飞机残骸多国搜寻、国际赔偿程序和善后处理,以及澳政府拟建马航MH370 纪念碑等话题。实验语料的获取主要利用网易提供的API 接口,辅以网络爬虫的数据采集方式,通过输入以上话题的关键词对特定时间段内涉及到的10 多个话题的相关网络报道进行采集。

事件发生初期,网络报道数量相对密集,由于时间片的大小对话题演化分析的准确性具有一定的影响,为了更好地分析各话题之间的演化关系,实验中将时间片{t1,t2,…,tm}的时间跨度设置为3 天,实验将采集的语料集合S={S1,S2,…,Sn}按照其发布时间划归到对应的时间片,并按照先后顺序排序。经过这样处理的语料集可以模拟出真实网络舆情事件的报道信息流。通过对语料集中的报道进行聚类,得到报道中涵盖的话题集合E={E1,E2,…,Em},其中Ei为所有发生在时间片t的话题集合。根据报道频率排序,得到报道频率较高的10 个话题,表1 列出了前5 个时间片内的话题特征和报道分布情况。

由表1 可看出,在事件发生后的初期,舆情报道相对密集,报道频率较高,且事件的衍生话题较多,在以3 天为跨度的5 个时间片内出现了15 个报道频率较高的话题,从表1 中也可看出舆情话题的演化具有很强的时效性,一个报道频率较高的话题不会同时出现在两个相邻的时间片内。从而说明时序信息是舆情话题的重要属性,刻画了衍生子话题发生和发展阶段的序列关系,是话题追踪的重要依据,因此,笔者考虑了话题演化的时序特征和时间片对话题演化的影响,并通过链接关系和内容相似度两个因素计算话题之间的相关度。为了验证笔者提出的话题追踪方法的有效性,将该方法与传统的方法进行对比分析。实验中对算法的实现选择的编程语言是Java 语言,并通过开源的CRF 中文分词工具对文集进行分词、停用词过滤等预处理。将经过预处理后的这10 个话题的相关语料作为测试报道流,分别采用两种话题追踪方法对“马航MH370 失联”事件进行舆情话题追踪,进行对比实验,并对实验结果进行人工分析和判断。

表1 时间片的话题特征和分布情况

4.2 实验结果评价

话题追踪方法的评价是考察方法的话题检索能力的优劣,简而言之,相关的话题能被识别出来的正确率越高,说明方法的性能越好。话题识别效果一般借助于类别与话题双向表[12]表达,具体形式如表2 所示。

表2 话题识别评测的类别与话题双向表

实验采用准确率P、召回率R和模型综合指标F作为方法性能优劣的评价指标。根据话题识别双向表,对以上指标作出如下定义:

根据广义加法的定义域,有如下运算法则:

文献[13]的实验结果说明,进行多次实验,比较分析后,当运算法则选取式(5)时,综合指标F的平均值最大,说明不同的话题相关度计算公式确实会影响话题追踪结果,因此,在实验中,计算话题的相关度时,选取式(5)进行计算。

表3 基于测试语料集的实验结果

新话题出现与否的预设阈值大小直接影响到话题追踪的准确率和召回率,当阈值较大时,会导致实验结果的召回率均太小,当阈值较小时,又会导致准确率均较低,阈值过大或过小都会增大实验误差,因此实验中将阈值范围设定为[0. 1,0.4],每设定一次阈值,分别用两种方法进行多次实验,计算性能评价指标的平均值,实验结果如表3 所示。表3 的实验结果显示方案②的准确率平均值不及方案①,但是相差不大,说明在突发事件爆发后舆情演化初期,大部分的话题是围绕事件本身展开的,话题在内容上具有很高的相似度,因此在前3 组时间片{t1,t2}{t3,t4}{t5,t6}传统的话题追踪方法在准确率上高于笔者设计的方法,但是两者相差不大,基于内容相似度计算话题相关度的话题追踪方法的精准度要大于笔者提出的方法,在突发事件发生初期,各大媒体和网民对飞机失联的信息非常敏感,话题与事件具有较高的相似度,与事件无关的话题衍生率较低,话题的重心仍然是与突发事件所引发的原始话题相关的话题,尚未发生话题漂移。此时,话题之间的内容相似度仍可作为判断两者是否相关的主要依据。在时间片{t7,t8}{t9,t10}的方案②的P值超过了方案①,说明在舆情扩散期和高涨期,衍生话题大量出现,且衍生话题与原始舆情话题的内容相似度较低,这时如果仅仅将内容相似度作为话题相关的判断标准,会引起话题追踪查准率的降低,而原话题与衍生子话题之间往往会有链接指向关系,如果将话题之间的相似度和链接关系作为判断相关度的主要依据,会提高话题的查准率。在时间片{t9,t10}舆情的演化处于衰退期,此时话题的重心由原来的空难事故的相关话题转变为与其在内容上大相径庭的关于国家政治领土主权的政治敏感话题,在极易发生话题漂移现象的舆情衰退期,传统的话题追踪方法已经失去了生命力,而方案②的话题追踪性能显示出了很大的优势。当阈值较低时,方案②检索出了方案①中尚未检索出的两篇报道“马航引发中国安全战略思考”和“MH370 阴谋论再起:美澳同在演戏”,这是由于这两个话题是与飞机失事事件在内容上相关度甚小的两个衍生子话题。

实验结果还反映出方案②在召回率上明显高于方案①,方案②的F值要大于方案①,说明准确率和召回率虽然具有互逆性,但方案②比方案①更有效。在时间片{t1,t2}{t3,t4}中,当阈值设置为0.1 时,方案①的F值均大于方案②,这是由于此时两种方案的召回率R值均较高,而此时影响F值的主要指标成为准确率P,结果表现为方案①优于方案②。

5 结论

针对突发事件网络舆情中的话题漂移现象和衍生效应,通过分析话题的衍生路径和拓扑结构,构建了基于时间片的话题演化动态模型,根据衍生话题的特点提出了基于内容相似性和链接关系的话题相关度计算方法,并在此基础上提出了话题模型的动态更新策略,进而设计了话题追踪算法。由于话题模型随着网络报道动态更新而改变,由此提出的话题追踪算法能够实现对互联网舆情话题的实时追踪。实验证明,笔者提出的方法能够有效解决传统的话题探测算法中不能兼顾话题漂移和衍生问题的缺陷,但是实验结果也反映出在舆情发生期,当阈值较低时,该方法的优势较不明显,主要表现为召回率较低,进而造成综合指标较低。

[1] 中国互联网络信息中心.CNNIC 发布《第31 次中国互联网络发展状况调查统计报告》[EB/OL].[2014 -10- 17]. http://www. cnnic. cn/hlwfzyj/hlwxzbg/hlwtjbg/201301/t20135_38508.htm.

[2] 曾润喜.网络舆情管控工作机制研究[J].图书情报工作,2009 (18):79 -82.

[3] MATSUMURA N ,OHSAWA Y,ISHIZU K A M.Influence diffusion model in text - based communication[J]. Journal of the Japanese Society for Artificial Intelligence,2002,3(13):259 -267.

[4] 张虹,钟华,赵兵.基于数据挖掘的网络论坛话题热度趋势预报[J].计算机工程与应用,2013,57(9):96 -118.

[5] 胡耀斌,林培光,聂培尧,等.种子事件与新颖事件演化关系的话题检测与追踪[J]. 微型机与应用,2013,32(6):65 -71.

[6] 张晓艳.新闻话题表示模型和关联追踪技术研究[D].长沙:国防科学技术大学图书馆,2010.

[7] 胡艳丽,白亮,张维明.网络舆情中一种基于OLDA的在线话题演化方法[J]. 国防科技大学学报,2012,34(1):150 -154.

[8] 马雯雯,魏文晗,邓一贵.基于隐含语义分析的微博话题发现方法[J]. 计算机工程与应用,2014,50(1):96 -100.

[9] 廖君华,孙克迎,钟丽霞.一种基于时序主题模型的网络热点话题演化分析系统[J]. 图书情报工作,2013,57(9):96 -118.

[10] 赵华,赵铁军,赵霞.时间信息在话题检测中的应用研究[J].计算机科学,2008,35(1):221 -223.

[11] 许彪,李明楚.基于终身学习RBF 神经网络的网络安全态势预测[EB/OL].[2014-10-17].http://www.paper.edu.cn/html/releasepaper/2008/09/690/.

[12] 张思龙. 微博热点话题预判技术研究[D]. 郑州:中国人民解放军信息工程大学图书馆,2013.

[13] JANSEN B J,ZHANG M,SOBEL K,et al. Twitter power:tweets as electronic word of mouth[J]. Journal of the American Society for Information Science and Technology,2009,11(60):2169 -2188.

猜你喜欢
语料网页舆情
基于HTML5与CSS3的网页设计技术研究
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
基于URL和网页类型的网页信息采集研究
基于语料调查的“连……都(也)……”出现的语义背景分析
消费舆情
舆情
舆情
舆情
《苗防备览》中的湘西语料