微博环境下高校舆情情感演化图谱研究

2019-11-07 09:28:42 现代情报 2019年10期

张柳 王晰巍 王铎

摘 要:[目的/意义]掌握和了解微博环境下高校舆情情感的演化规律,对相关部门加强高校舆情监测监管,使高校适时采取措施应对负面舆情事件的恶性传播具有十分重要的意义。[方法/过程]本文通过文本挖掘并利用词云可视化展示对文本特征进行分析;基于朴素贝叶斯分类器将网络用户评论文本进行情感分类;结合用户情感演化与舆情事件发展周期的分析动态展示高校舆情情感演化图谱。[结果/结论]网民负向情感的占比在舆情蔓延期达到顶峰,中性情感的占比在舆情蔓延期最低,正向情感的占比在舆情周期中几乎没有变化。通过对微博环境下高校舆情情感演化图谱进行研究,为微博环境下高校舆情的研究提供新的理论支撑,在实践层面为舆情监管部门及时监测和有效引导高校舆情走向起到针对性的作用。

关键词:高校舆情;情感演化;情感图谱;微博;社交网络

Abstract:[Purpose/Significance]Mastering and understanding the evolution law of emotions in university under the microblog environment.It is great significance for relevant departments to strengthen the monitoring and supervision of university,so that universities can take measures to deal with the vicious transmission of negative public opinion events.[Method/Process]This paper analyzed text features through text mining and using word cloud visualization.This paper classified the online user comment texts based on the naive Bayes classifier.This paper combined the evolution of user emotions and the development cycle of public opinion events to dynamically display the emotional evolution map of university.[Result/Conclusion]The proportion of negative emotions of netizens reached its peak during the spread of lyrics.The proportion of neutral emotions was the lowest in the period of lyric spread,and the proportion of positive emotions barely changed during the lyric cycle.Through the research on the emotional evolution map of university in microblog environment,it provided new theoretical support for the research of university public opinion in microblog environment.At the practical level,it played a targeted role for the public opinion supervision department to timely monitor and effectively guide the public opinion of university.

Key words:university public opinion;emotional evolution;emotional map;Weibo;social network

依據中国互联网络信息中心(CNNIC)发布的第43次《中国互联网络发展状况统计报告》显示,截至2018年底,我国网民规模达8.29亿,全年新增网民5653万,互联网普及率为59.6%,较2017年底提升3.8个百分点[1]。随着互联网的快速发展,网民可通过互联网随时随地获取信息、发表言论,其中也包括信息的传播与情感的交流。其中,越来越多的高校舆情事件被曝光,网民对高校舆情的关注度与参与度也进一步提升。由于高校舆情的特殊性,有关舆情监管部门及相关学者愈发重视对高校舆情的管控与研究。

近年来,国内外学者相继展开了关于高校舆情的相关研究工作。国外学者Jamelske E等[2]通过调查中美大学生对待气候变化问题的态度差异,发现美国学生认为气候变化对人类有危害所占的比例较低,而对气候变化漠不关心所占的比例较高;Mancini C等[3]基于2015年对弗吉尼亚州居民的调查,评估了人们对制定惩治校园性侵罪犯的看法;Antonova N A等[4]通过对圣彼得堡州立大学的542名学生在线调查,发现74%的学生愿意成为生物银行的捐献者。早期国内学者邓尚民等[5]基于AHP构建高校网络舆情安全评估指标体系,并提出警源和警兆指标;徐萍[6]通过动态监测多平台网络舆情数据,建立高校舆情预警与应急处置机制;Li H等[7]针对网络环境下高校舆情管理的特点和高校舆情管理的现状进行研究,为高校管理学生舆情提供可靠的方法;陈福集等[8]通过对移动环境下高校网络舆情相关主体进行分析,建立移动环境下高校网络舆情演化的动力学模型。从国内外现有学者的研究现状来看,现有研究主要集中在高校学生对某些事件的看法,或是高校舆情的管理工作,然而,针对微博环境下高校舆情进行情感演化分析的研究成果相对较少。

本文在研究中试图解决以下3个方面的问题:1)微博环境下高校舆情情感文本特征是怎样的?2)如何对微博环境下高校舆情用户文本进行情感分类?3)如何构建微博环境下高校舆情情感演化图谱?通过对微博环境下高校舆情情感演化图谱进行研究,可为微博环境下高校舆情的研究提供新的理论支撑,在实践层面为舆情监管部门及时监测和有效引导高校舆情走向起到针对性的作用。

1 相关理论

1.1 网络舆情

舆情是指民众对于社会中出现的各种现象、事件所表达的态度、意见、观点和情感等的总和[9]。民众借助互联网平台表达出来的态度、意见、情绪与要求的集合形成网络舆情,可显著体现出社会民意[10]。

网络舆情具有互动性、即时性、自主性等传播特点。网络热点话题一旦触发,网络舆情就会以多渠道、“病毒式”的方式进行传播和扩散[11]。并且,网民作为网络舆情传播的重要参与者和推动者,由于其发布信息成本较低,较易产生线上线下相互联动的态势。目前,网络舆情的来源主要集中在微博,其次是微信、QQ和论坛等其他社交网络平台。微博因其高传播率的特点,已经成为网络舆情曝光和发酵的主要平台[12]。

1.2 高校舆情

高校网络舆情的主要受众是高校学生,其知识层次高、参与意识强,并伴随有好奇心理重、独立性强等特点[13]。与社会其他网络舆情相比,具有较强的特殊性。高校学生在关注一般社会网民所关注的热点、焦点问题时,往往具备比较强烈的主观意识。由于高校学生所处的特殊年龄阶段以及特定知识层次,其关注的网络舆情也具有一定的特殊性。与普通网民相比,高校学生往往更为关注社会敏感问题。相较于普通网民,高校学生扩散舆情的方式更为直接,传播舆情的渠道也更为广泛。

根据《2018年十大高校舆情负面案例汇总解析》,网民对涉及教育公平、校园安全、学术诚信、师德师风等热点事件分外关注,许多热点事件传播以“十万+”、甚至“千万+”为单位的相关讨论通过社交媒体进行扩散[14]。但社交媒体的舆情信息存在传播内容碎片化、情绪多而事实少、观点片面绝对化等问题,为相关舆情部门与高校如何监测、把控、引导、应对高校舆情事件发酵提出了新的难题与挑战。

1.3 情感演化图谱

情感是态度其中的一部分,是人们对某个事件的内在感受、意向的外在体现的生理评价。通过情感,人们可以传递出对事件的看法与评价,如赞同或否定[15]。而微博用户对某一话题事件的评价往往具有情感倾向性,即主体对某一客体客观存在的内心喜恶,主观评价的一种倾向[16]。

通常,随着网络舆情事件的发展,网络用户的情感在不同时期会发生显著的变化,即情感演化。将网络用户在话题事件下的评论信息进行情感分类,并嵌入微博网络中绘制动态变化的情感演化图谱,可直观展示网络用户对某一话题事件的情感的动态变化。

1.4 微博环境下高校舆情情感演化图谱问题的提出

由于网络舆情传播環境的复杂性,网民对于高校舆情负面事件具有较高的关注度与较低的包容度。而微博、微信等社交媒体平台相对于现实环境具有更强的开放性、时效性。高校舆情事件容易引发网民的集中讨论,形成强大的舆论压力。网民在开放性传播平台发布与之本身兴趣、情感和利益趋同的信息,其中难免包括缺乏理性思考的情感表达,从而影响其他网络用户。因此,掌握和了解微博环境下高校舆情情感的演化规律,对相关部门加强高校舆情监测监管,使高校适时采取措施应对负面舆情事件的恶性传播具有十分重要的意义。

通过文本挖掘并利用词云可视化展示,可初步界定舆情事件中出现频率较高的关键词,进而对文本特征进行分析;本文基于朴素贝叶斯分类器将网络用户评论文本进行情感分类,可进一步挖掘出网络用户情感演化对高校舆情传播的影响;结合用户情感演化与舆情事件发展周期的分析,可动态展示高校舆情情感演化图谱,从而全面了解高校舆情的发展与用户的情感变化规律。

2 微博环境下高校舆情情感演化图谱构建

情感演化图谱旨在动态直观地展示网络用户在高校舆情事件中的情感变化态势。掌握微博环境下高校舆情的情感演化规律,对相关部门进行高校舆情管控具有一定的借鉴意义。本文构建微博环境下高校舆情情感演化图谱模型,如图1所示。

该模型中,首先需要数据采集及处理,通过爬虫获取微博转发评论数据,并进行过滤文本处理;随后进行分词、去除停用词处理,在进行词频统计后,演染高频词以获取词云可视化图,并进行内容特征分析;然后进行人工标记文本、构建词向量矩阵训练朴素贝叶斯分类器对文本进行情感分类;最后确定高校舆情事件发展周期,构建情感演化图谱。

3 数据采集与处理

3.1 数据来源

微博作为一种新型的网络媒介形态,具有独特鲜明的传播模式,并逐渐成为各类新闻、热门话题事件的第一发布平台[17]。在社交网络综合评价网站Alexa中,新浪微博是众多平台中在线人数及影响力最为广泛的网络新媒体[18]。在信息源的选择上,本文选择高校舆情热点话题“湖南大学刘梦洁抄袭事件”作为信息源,采集转发评论数据,建立话题空间。同时,本文从“刘梦洁”微指数(见图2)可以看出,“刘梦洁”高校舆情爆发迅速,在较短的时间内即达到了传播峰值。

3.2 数据采集

本文以新浪微博“湖南大学刘梦洁抄袭”话题为例,采用网络爬虫火车头采集器获取用户数据。获取数据字段包括ID、用户昵称、用户资料、微博内容、转发评论及点赞数量、转发时间等。根据百度指数的统计数据,关键词“刘梦洁”高校舆情的生命周期为2019年3月27日至2019年4月13日,数据量在3月28日达到顶峰。因此,选择被抄袭者微博“科研狗的基金梦”作为原始信息源采集全部数据,共获取微博数据共计18 492条。在此高校舆情周期中,3月28日凌晨,刘梦洁的硕士毕业论文被湖南大学从知网撤下;4月3日,湖南大学微博发布撤销刘梦洁硕士学位的决定。因此,本文研究的舆情周期将分为3个阶段:3月27日的爆发期;3月28日~4月3日的蔓延期;以及4月4日~4月13日的衰退期。

3.3 数据处理

在数据的处理上,本文首先通过火车头脚本编辑器爬虫软件实现情感文本数据的爬取;其次过滤空白文本、网址链接等无关信息;最后根据微博话题内容进行人工判断,去除与“湖南大学刘梦洁抄袭事件”无关的微博数据,例如“!!!!!”等表达符号,还有一些广告内容,如“#改开40年成就展#”。最终获取有效数据18 104条。

4 讨论分析

4.1 基于词云统计的内容特征分析

首先将处理过的微博数据通过Jieba分词脚本对提取的文本进行分词、去除停用词,然后将统计出的高频词根据划分的不同时期进行演染,获得词云可视化图,如图3~5所示。

在舆情的爆发期,出现词频最高的词汇是“希望”,频次与之相似的词汇有“申请书”、“教育部”、“学术界”等。可見,“湖南大学刘梦洁抄袭”事件被曝光后引起了网民的高度关注,网民急切希望有关部门可以彻查此事件,告知大众真相;而且,由于学术界屡次出现学术不端事件,引发了网民对学术界、教育部、抄袭等的广泛讨论。

在舆情的蔓延期,出现词频较高的词汇是“转发”、“翟天临”、“剽窃”、“严厉打击”等。从3月28日知网撤下刘梦洁的论文,到4月3日湖南大学发出声明取消刘梦洁的硕士学位,都证实了刘梦洁抄袭事件的真实性,使得广大网民积极转发,支持维权,并且将此事与“翟天临”事件联系在一起,充分展示了广大网民对待剽窃论文的“零容忍”态度,并责令有关部门严厉打击。

在舆情的衰退期,除了在蔓延期中出现频率较高的“转发”、“剽窃”以外,出现词频较高的词汇有“湖南大学”、“博士论文”、“查重”、“学术”等。网民在积极转发传播事件的同时,也发表了对于湖南大学处理剽窃事件的看法,以及对存在于学术界的抄袭剽窃现象的批判态度,并希望学术界能够整改不良风气。

总体来看,在舆情初期,虽然网民对待“湖南大学刘梦洁抄袭”事件呈现几乎“一边倒”的消极态度,甚至有一部分极端的网民怀疑高校学术论文整体的真实性。但随着舆情进入蔓延期,湖南大学针对此事件及时采取了积极的处理办法,从而使多数网民在舆情衰退期表达了对高校整治学术不端的希望,并通过自身力量积极转发,支持被抄袭者维权。下面将通过情感分类做进一步分析。

4.2 基于朴素贝叶斯分类器的情感分类

微博评论为短文本数据,其主要的情感倾向集中在少数高频的情感词中,除情感词外的低频词汇很难在较短的文本信息中改变高频情感词所蕴含的情感倾向。因此,本文从舆情监管实时性的角度出发,通过词频统计,在微博文本信息中筛选出高、低频词,并去除评论语句中的低频词,只保留高频词,达到降维的作用,为后续训练朴素贝叶斯分类器提升效率。

朴素贝叶斯分类器需要预先在训练样本基础上进行训练,以建立分类模型,为此本文选择获得到的四分之一文本信息进行人工标记,用作训练样本[19]。若文本样本传达正向情感,如“希望得到一个公平的处理结果”、“翟天临事件刚过不久,学术抄袭屡禁不止,希望看到的朋友帮忙转发,维护学术正义。@人民网 @教育部”等,标记为“+1”;若文本样本传达负向情感,如“#论文抄袭# 国家自然科学基金项目申请书遭泄密,湖南大学再爆学术不端”、“每次看到学术不端都极其气愤!@湖南大学”等,标记为“-1”;若文本样本传达中性情感,如“转发微博”、“吃瓜”等,标记为“0”,人工标记样本总共为4 526个(总样本的1/4);人工标注正向情感、负向情感、中性情感计数如图6所示。

4.3 基于舆情周期构建情感演化图谱

为直观展示微博环境下高校舆情情感演化规律,本文通过Gephi可视化软件,以微博用户为节点,以用户间的转发评论关系为边,以节点颜色表示该微博用户的情感类别[20],绿色代表正向情感、红色代表负向情感、黄色代表中性情感,基于舆情周期构建微博环境下高校舆情情感演化图谱。

3月27日舆情爆发期情感图谱如图7所示,共有99个节点、96条边。在“湖南大学刘梦洁抄袭”话题爆发初期,由于原微博博主并未获得微博认证,且微博昵称并无辨识度,导致微博发布初期所受关注度不高。网民对此事件的真相持怀疑态度,因此,中性情感的占比较多,为57%,多数网民的做法表现为单纯地转发微博,评论信息无明显的情感倾向性。负向情感占比为33%,略低于中性情感,网民爆发出负向情感是由于部分网民也有过类似被抄袭的经历,博主发出的微博引发了共鸣。况且前有翟天临事件,后又曝出湖南大学学术不端事件,更激发了网民的负面情绪。舆情爆发期的中性情感占比为10%,部分网民并没有发表过多的个人观点,仅希望此事件尽快得到公平的处理结果。

此外,在舆情爆发期情感图谱中,权重高的边颜色较深,从图7中可以看出,“科研狗的基金梦”为信息源节点,“Stata_Tips”节点的转发权重较高。此外,虽然“科研狗的基金梦”节点本身带有负向情感,但部分节点转发此节点信息后,其情感倾向逐步转为中性情感(如“Stacybear”节点);甚至部分节点的情感倾向出现了反转,变为积极的正向情感(如“LMQ相信勇敢”节点);同时观察到,“Stata_Tips”节点转发“Stacybear”节点、“LMQ相信勇敢”节点后,其情感倾向仍为负向,可见情感倾向在节点间有一定的独立性,受其他中继节点情感倾向的影响不大,主要受源节点情感倾向的影响较大。因此,在高校舆情事件中,应该重点把控和引导信息源节点的情感倾向。

3月28日至4月3日的舆情蔓延期情感图谱如图8所示,共有11 887个节点、12 537条边。从图8中可以看出,红色节点(负向情感)和黄色节点(中性情感)远远多于绿色节点(正向情感),且红色节点居多。在3月28日凌晨,知网撤下刘梦洁硕士毕业论文后,网民对刘梦洁抄袭事件的负向情感持续增加,超过了正向情感和中性情感,并在4月3日湖南大学发布取消刘梦洁硕士学位的决定后达到顶峰。网民的中性情感,由爆发期的57%递减为蔓延期的38%。网民在转发原微博的同时也在表达对抄袭事件的愤慨,并建议原微博博主更改昵称以提高关注度。而负向情感由爆发期的33%上升到蔓延期的52%,多数网民认为应该对学术不端实行“零容忍”,并对湖南大学、刘梦洁发表了负面的言论。部分网民将此事件与翟天临事件联系在一起,这更激化了网民对高校学术不端行为的负面情绪;正向情感由爆发期的10%到蔓延期的11%,基本上无变化,还是有少部分网民站在理智的角度上,支持博主维权,并希望该事件尽快严肃、公平地处理。

因此,在高校舆情蔓延期,有关部门需重点管控情感走向,特别是出现“知网撤下论文”、“湖南大学发布通告”等处理措施后,网民情感的变化尤为明显,需要及时把控。

4月4日~4月13日舆情衰退期的情感图谱如图9所示,共有94个节点,82条边。负向情感由蔓延期的52%下降到衰退期的28%,中性情感由蔓延期的38%上升到衰退期的61%,由于涉及抄袭事件的相关部门知网和湖南大学及时做出相关决定和通知,让部分网民由负向情感转向为中性情感,从而理智地评价话题。但由于近期频频发生学术不端事件,网民依然存在质疑态度;正向情感占比在衰退期仍为11%,其数值相较于蔓延期没有发生变化。纵观舆情的爆发期、蔓延期、衰退期,正向情感占比几乎没有改变,说明一部分网民在舆情周期中可以保持自己的情感倾向。舆情监管者要积极引导正向情感的网民来影响其他网民,使得网民能够理智地表达自己的情感倾向。

综上所述,网民负向情感的占比由舆情爆发期的33%上升到舆情蔓延期的52%,之后下降到舆情衰退期的28%,在舆情蔓延期达到顶峰;中性情感的占比由舆情爆发期的57%下降到舆情蔓延期的38%,随后上升到舆情衰退期的61%,在舆情蔓延期占比最低;正向情感的占比在舆情周期中几乎没有变化。

5 结 论

本文在理论层面,基于词云统计进行内容特征分析,获取微博用户评论高頻词,利用高频词进行特征降维,高效训练朴素贝叶斯分类器,完成对词频文本的情感分类。再结合微博用户基于舆情周期,构建微博环境下高校舆情情感演化图谱,为微博环境下高校舆情情感演化规律研究提供新的研究理论模型;在实践层面,结合微博热点高校舆情“湖南大学刘梦洁抄袭”话题进行实证分析,得到完整的舆情爆发期、蔓延期以及衰退期情感演化图谱,为舆情监管部门实时了解高校舆情情感走向,在舆情周期内及时采取管控措施,提供了实践参考。

本文在研究方法做了一定的创新,但研究中仍存在一定的局限性:本文只分析了微博数据,数据来源较为单一;情感分类效果受人工标记影响较大。在未来的研究中,将选取微信、论坛等多个平台作为信息来源,多角度分析网民对高校舆情事件的情感变化,并尝试更多的情感分类模型,以提高情感分类精度。

参考文献

[1]中国互联网络信息中心.第43次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.cn/gywm/xwzx/rdxw/2017 2017_7056/201902/t20190228_70651.htm,2019-05-15.

[2]Jamelske E,Boulter J,Jang W,et al.Examining Differences in Public Opinion on Climate Change Between College Students in China and the USA[J].Journal of Environmental Studies and Sciences,2015,5(2):87-98.

[3]Mancini C,Pickett J T,Call C,et al.Sexual Assault in the Ivory Tower:Public Opinion on University Accountability and Mandatory Reporting[J].Sexual Abuse:A Journal of Research and Treatment,2017,31(3):344-365.

[4]Antonova N A,Eritsyan K Y,Tsvetkova L A.Attitudes Towards Biobank Donation Among University Community[J].Social Psychology and Society,2019,(10):169-181.

[5]邓尚民,董亚倩.基于AHP的高校网络舆情安全评估指标体系构建研究[J].情报杂志,2012,31(8):31-36.

[6]徐萍.大数据在高校网络舆情应急处置中的应用探讨[J].图书馆工作与研究,2016,(5):55-58.

[7]Li H,Yan K.The Research of the University Public Opinion Management on Internet[C]//International Conference on Intelligent Networking & Collaborative Systems.IEEE,2016.