新冠疫情数据变化引发的中国舆情演变趋势研究

2020-12-24 15:03李金名刘佳莉陆立萍贡玮晨通讯作者
时代人物 2020年31期
关键词:词条文档舆情

胡 靖 李金名 刘佳莉 陆立萍 贡玮晨通讯作者

(天津理工大学 天津 300384)

前言

随着疫情发展,公众对疫情关注度有显著变化。从初期迫切需要相关消息,再到全民隔离后信息传播全部依托于社交媒体平台,信息可视化致使各种舆论层出不穷,对舆论的引导管控格外重要。引用模型是处理海量信息的关键。DW模型可存储大量数据方便检索且保持数据的一致完整性、安全可共享,通过组合分析可产生新数据。LDA模型可以精准定位到主题词汇,从文本中分析和挖掘出隐含的结构信息,且不依赖任何提前标注的信息。

理论基础

DW模型。数据仓库DW是一个庞大的数据集合,用于支持企业管理决策,长期保存且不会修改所有从ODS来的数据。

DW多种特征:①效率高;②扩展性;③面向主题;④不可更新;⑤大容量。

LDA主题模型原理。LDA主题模型是由文档、主题、词汇组成的文档生成模型[1]。运用词袋模型的方法将文本向量化表示,文档为词频向量,文本信息为建模所需的数字信息,从众多文本信息中提取出便于理解的关键词,使文本中的降维问题得到解决。计算过程涉及狄利克雷分布(Dirichlet 分布)、多项分布、以及Dirichlet-Multinomial 共轭分布[2]。

Dirichlet分布是多项式分布的共轭先验概率分布,按照贝叶斯推理的逻辑得到Dirichlet-Multinomial 共轭分布的一般表达式为:

LDA主题模型中所有变量的联合分布结果为:

针对舆情演变趋势的DW-LDA混合模型及算法。在LDA模型的基础上引入DW,将基础信息按时间序列进行主题和词的分类,利用Gibbs采样算法[3]将数据进行降维处理,对新数据库进行可视化分析,得到事件的总体发展历程及高热度发展主题和词汇,综合结果与事实发展状态还可以有效预测事件的未来演变趋势。

确认研究主体为微博热搜词条,将数据库基础信息进行分类预处理,以月为单位分为M篇文档,每篇文档含有K个潜在主题,每个主题为N’个单词的集合分布。将每篇文档看作热搜词条潜在主题的一个随机混合,其中每个主题看作若干个单词的随机混合。在每篇文档中,根据由Dirichlet先验α控制的多项式分布选择潜在主题,确定一个主题,根据由Dirichlet先验β控制的另一个多项式分布来提取单词。对整个资料库来讲,每篇文档生成过程都是互相独立的,即共形成M+K个互相独立的Dirichlet-Multinomial共轭结构。由模型参数K=5可知,α=10,β=0.01。最终得到DW-LDA混合模型的概率表达式为:

全球新冠疫情风波网络舆情演变趋势实证分析

疫情期间国内外疫情相关数据收集。以微博热搜词条时间与话题讨论次数为关键词,构建基于Python的爬虫框架,对2020年1月1日至2020年10月31日的内微博热搜话题进行采集,最终得到27862条信息。

将原始数据进行预处理,剔除无关信息,关键信息分为医疗应急管理、政府舆情治理、自媒体引导、国际舆情走向、社会舆情发展5大主题[4],每个主题包含10个单词。分别为医疗应急管理:口罩、医护人员、核酸检测、钟南山、传染源、治疗药物、隔离、新增病例、发热门诊、消毒;政府舆情治理:武汉疫情、医院建设、封城、免职问责、复工复产复学、大连疫情、新疆疫情、干部响应、掌控市场价位、确诊者活动范围;自媒体引导:丁香医生、晚安短信、封城日记、云监工、云聚会、钉钉、健康码、疫情知识科普、在一起、直播助力武汉;国际舆情走向:境外输入、国际支援、中国外交、世界卫生组织、最新疫情地图、国外疫情、归国留学生、国际航班、外国人入境、全球携手战疫;社会舆情发展:活动取消、快递、野生动物、网课、献爱心、社区服务、企业转型、疫情防护、红十字会、疫情拐点。

利用DW-LDA混合模型进行数据可视分析。以时间为横轴,热度为纵轴,利用DW-LDA混合模型对数据进行验证。假设微博热搜词集为一个整体的语料库[5],其中共有D条信息,包含M=10篇文档、K=5个潜在主题、N=N′×K=50个单词。对于每条热搜词条d∈D,由Dirichlet分布θm~Dir(α)得热搜词条d的主题分布参数θm,θm代表文档-主题概率分布;对于每个主题z∈K,由Dirichlet分布φz~Dir(β)得主题z上单词的多项式分布参数φK,φK代表主题-词概率分布;对于每条热搜词条d对应的单词N,由多项式分布zm,n~Mult(θm)得主题zm,n;由多项式分布wm,n~Mult(φk)得词汇wm,n。结果见图1。

图1 数据库主题热度变化

国内舆情演变趋势的动态研究。2020年1月新冠肺炎以武汉为中心向全国范围内爆发,引起社会广泛关注,网络舆论随之发酵。目前为止,舆论主题热度变化是相同的走向趋势[6],先增后降再急速降低,疫情反复使主题热度再度飙升后又显著降低。政府对疫情把控良好,舆论控制在一定的范围内,暂无较大波动。随着国际疫情的发展,新冠肺炎疫苗的研发以及有效治疗药物再次被提及,引起群众的广泛讨论。

综上所述,疫情舆情仍处于波动阶段,政府和相关部门一定要做好研判工作,防止二次爆发。疫情并未走远,舆情尚未结束,只是进入了常态化防护阶段,有一定的发酵程度,政府要做好应对准备。

新冠疫情引发的网络舆情仍处于波动阶段,关于疫情的话题依然占比较大。很多信息经过网络发酵,稍有不慎就会引发二次舆情,做好舆情研判工作,防止舆情爆发是现阶段网络舆情监管工作的重点。

党和政府高效有序的开展疫情防控工作并取得了巨大成绩,网络舆论随着战“疫”的不断成功,变得积极向上充满能量。更多人在社交平台上自发进行谣言驳斥,将舆论往正方向引导。可见,网络舆情需要政府和管理者的积极干预与调控。

对相关疫情舆情,建立舆情监测体系,加强监测力度,建立疫情应对体系,对网上的舆论及时处置;加强舆情风险防范的宣传,培养公众舆情风险防范意识;加强对公众的管理和监督,及时解决问题;建立良好的外部沟通机制,延缓舆情的扩散速度,为采取应对措施争取时间。

猜你喜欢
词条文档舆情
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
轻松编辑PDF文档
利用简单的公式快速分隔中英文词条
数字舆情
Word文档 高效分合有高招
数字舆情
消费舆情