基于模糊推理的微博新冠舆情分析

2021-09-24 06:12孙凯强王乐豪
科技与创新 2021年18期
关键词:关注度舆情程度

管 健,孙凯强,王乐豪

(南京信息工程大学自动化学院,江苏 南京210044)

1 引言

据CNNIC最新发布的《第45次中国互联网络发展状况统计报告》统计[1],中国网民规模为9.04亿,网络舆情是以网民为主体,以互联网为平台,所产生的具有一定影响力的表现。2020年,新冠疫情对中国造成巨大的损失,网络成为民众接收信息的主要方式,疫情期间发生的事件在庞大的网络群体中产生了巨大的舆论,带来的影响不可小觑。负面的新冠舆情会引导民众走入歧途,导致一些极端的事件发生,也会对社会和经济造成不小的威胁。笔者从事新冠疫情研究与预测方向,新冠舆情是研究的重点,所以设计了有效的方法实现对新冠舆情事件预警等级的快速评价,及时地作出预警,制定出有效的应对策略非常重要。本文基于模糊推理方法,以微博为平台,通过对新冠舆情事件的分析,快速并准确地对新冠舆情事件作出预警等级的评价,可以准确并且迅速地辅助引导新冠舆论方向,从而使得负面的新冠舆论对社会和经济等造成的损失最小化。

2 新冠微博舆情指标的构建

网络舆情的研究一直是舆情研究的热点,目前网络舆情研究主要是指标的建立和模型的建立。指标的建立途径如下:①从舆情整体出发,对指标进行筛选;②从舆情事件的性质出发,比如突发性事件等,确定特定的指标;③从不同的媒体平台出发,比如新闻、微博、论坛等;④从不同的主体出发,比如国家、高校等多角度来建立[2-3]。对于指标权重的确立,本文运用熵权法确定指标权重,从而构建模型,建立预警等级,实现对微博上新冠事件的监测和预警,最后根据案例的分析使得所提出的方法具有有效性和科学性。

本文针对舆情预警的基准,以微博为平台,从新冠本身出发。新冠期间,发生的舆论事件本身对社会造成的影响程度,构造危机评估体系。微博是舆论爆发极为明显的一个平台,汇聚了各个明星、媒体、知名博主等许多可以推动舆论发展的载体,但明星与知名博主本身由于情感的掺杂,存在复杂的情况。相对来说热门微博带有准确的信息表达能力,对于舆论的发展主题强调明确,相对客观,所以有更多民众参与讨论,表达观点。

通过明确指标的设计规则,构造事件关注度、事件传播速度、民众情感倾向、民众参与程度、累计点赞率和累计转发率6个舆情二级指标,如图1所示。

图1 舆情指标

2.1 事件重要程度

事件发生后,事件的关注度与传播速度是从事件本身出发,给社会造成的影响直接展示了事件的影响程度。事件关注度是事件发生日到微博当天发帖量最高的日期的天数,天数越多代表影响程度越高。关注度的表达式为:

式(1)中:S1为关注度;d1-d2为发帖量最高的日期与事件发生日期间隔天数。

事件传播速度表达式为:

式(2)中:S2为传播速度;S(t1)为截至6月份总发帖数;t1为事件发生天数。

2.2 民众关注度

微博上民众对舆论事件关注度直接反映为参与评论的人数以及对事件的评论的情感倾向。本文中,针对4个事件运用scrapy框架爬虫,从微博上爬取了截至6月份为止所有的微博博文和评论,爬取评论近80万条。通过自然语言处理包HanLP对数据进行清洗,去除停用词、表情、符号等,筛选评论近64万条,采用重复二分法对数据进行训练,训练正向与反向情感的微博语料库各2万条用作测试集,对每条评论进行情感分类。民众的负面情感越多,舆论的社会影响也随之越深,表达式为:

式(3)中:S3为负面情感比例;∂为有效的负面情感数量;ρ为有效的正面情感数量。

民众关注度最直接的体现为民众参与话题讨论的程度,对6月份之前所有的相关微博的评论数量S4进行统计,直接反映了民众的关注度。

2.3 事件发展态势

事件的持续发展是舆论的持续的表现,事件的累计点赞与转发尤为体现,累计点赞率与累计转发率表达式为:

式(4)(5)中:S(t2)为截至6月份总点赞数;t2为事件持续传播天数;S(t3)为截至6月份总点赞数;t3为事件持续传播天数。

3 基于模糊推理的微博新冠舆情分析模型建立

3.1 推理的基本流程

对微博新冠舆情的分析,首先建立合适的指标来描述分析对象。然后建立隶属度函数据进行模糊化。利用给定的规则进行推理,将模糊数据合成出模糊推理值。最后对模糊推理值进行解模糊处理。主要分为5个流程,如图2所示。

图2 模糊推理基本流程图

3.2 指标权重的确立

本文采用基于模糊熵权法来确定指标权重,相较于目前针对多属性权重确定方法,比如层次分析法(AHP)、德尔菲法等方法,采用熵权法拥有更多的客观性,降低了主观带来的误差[4-5]。

得出属性权重ω=(ω1,ω2,…,ωn)T。

3.3 舆情分析指标模糊隶属度

模糊子集由其隶属函数定义,对给定的论域U,U中的任一元素u,都有一个数μA(u)∈[0,1]与之对应,则称A为U上的模糊集,μA(u)称为A对U的隶属度。

首先对舆情分析中的一级指标进行模糊化,建立事件重要程度模糊集、民众关注度模糊集、事件发展态势模糊集三个一级指标通过模糊综合评判的方式获得其隶属度。

3.3.1 事件重要程度

事件重要程度主要是由事件的影响程度以及事件的传播速度融合来获取的,利用模糊综合加权平均作为该指标的隶属度,权值为ω1、ω2。取事件重要度论域为A=[0,1],x1∈[0,1]为归一化的影响程度,x2∈[0,1]为归一化的传播速度,则将重要程度的评价程度模糊子集分为A1={重要},A2={不重要}。为了更好地表示指标的特性与隶属关系,本文选用平滑的Gauss型隶属函数。事件的重要程度评价模糊隶属函数为:

式(7)(8)中:σ为宽度,根据实际情况取值为0.141 4。

3.3.2 民众关注度

民众关注度主要由民众情感倾向与民众参与程度融合获取的,权值为ω3、ω4。取民众关注度论域为B=[0,1],x3∈[0,1]为归一化的情感倾向,x4∈[0,1]为归一化的关注度,则将关注度评价程度模糊子集分为B1={高},B2={低}。则民众关注度评价程度的模糊隶属函数为:

式(9)(10)中:σ为宽度,根据实际情况取值为0.141 4。

3.3.3 事件发展态势

事件发展态势由累计点赞率与累计转发率融合来获取的,权值为ω5、ω6。取事件发展态势论域为C=[0,1],x5∈[0,1]为归一化的点赞率,x6∈[0,1]为归一化的转发率,则将事件发展态势评价程度模糊子集表示为C1={严重},C2={不严重}。则事件发展态势评价程度模糊隶属函数为:

式(11)(12)中:σ为宽度,根据实际情况取值为0.141 4。

为了提升算法的精度,将指标数据进行归一化处理,本文采用L2范数归一化,具体步骤如下:

对一组向量X=[x1,x2,x3,…,xn],其L2范数定义为,则归一化表达式为:

3.4 计算微博舆情预警等级模糊隶属度

将舆情预警等级论域Z=[0,1],取模糊子集为Z1={轻级},Z2={中级},Z3={重级},Z4={特重级}。模糊隶属度函数依旧选取Gauss型隶属函数表达式为:

式(14)(15)中:σ为宽度,根据实际情况取值为0.07。

3.5 模糊推理规则

对舆情事件等级进行评估时,每个一级指标下的二级指标经过计算得到的模糊评判值,基于模糊推理规则,结合专家经验,提出如下规则库[6-7]:

由于三个一级指标对于整体舆情等级的判定属于串联叠加的关系,所以用“and”或者“并且”来连接条件规则,所以本文模糊规则如下所示:

R(k):假如a是Aia并且b是Bib并且c是Cic那么z是Zjz

其中,i=1,2,j=1,2,3,4。输入变量参数个数为NA=2,NB=2,NC=2,所以规则数量k=NA×NB×NC为8个,a、b、c为输入变量,z为输出变量,Aia、Aib、Aic为前提条件项,分别为:

Zjz输出变量的一个模糊子集zm(m=1,2,3,4),即,z∈Z。

3.6 合成模糊集

最终的舆情等级的评判是由所有指标共同完成的,每个一级指标由其所有二级指标计算而来的舆情模糊隶属度都会对最终的等级评判产生比较大的影响,等级评判的目的是选出所有前提条件下的最优值。所以,选取“min-max”运算合成模糊集[8]。现将所有的条件与规则合成模糊集:

3.7 计算舆情等级

需要对每个事件给出舆情等级的评估,本文利用模糊集的贴近度来将等级对应的模糊集与属性所对应的模糊集进行分类,给定论域U上的模糊集P与Q,贴近度d(P,Q)定义为:

采用在论域Z=[0,1]上,有Z1={轻级},Z2={中级},Z3={重级},Z4={特重级},若存在1≤j≤4,则:

d(Z′,Zi)(i=1,2,3,4)=max{d(Z′,Zj)}(19)

则表示该微博事件舆情与Zi等级最贴近,则将Zi作为该微博事件的舆情等级[9]。

4 案例分析

4.1 获取的数据进行归一化处理

选取国内4个新冠期间热门微博事件韩红基金会、李文亮事件、武汉封城、双黄连口服液事件。根据指标获取的数据,进行归一化处理。从获取的微博数据中,例如,事件的影响程度体现在微博热门发帖数从事件出现开始到发帖数最高的一天持续的天数,持续时间如图3所示。

图3 4个新冠微博舆情事件微博发帖数日变化

表1为处理好的4个新冠微博舆情事件的数据,4个微博舆情事件日发帖数持续时间最长的是武汉封城。

由于是国内新冠疫情最严重的城市,武汉一直是人们关心的热点,所以持续时间最长为76 d。李文亮舆情事件在发生之后,在李文亮先生去世之后,微博发帖数飞速升高,2020-03-19,国家监委发布《关于群众反映的涉及李文亮医生有关情况调查的通报》,日热门微博数达到最高,日热门微博数189个,日热门点赞数达到2 278 339个,之后微博日发帖数小有波折,但一直处于下降趋势,06-14,日热门微博数有突然增长趋势,因为李文亮先生孩子出世,但并没有超过顶峰,所以持续时间为48 d。韩红基金会事件,在司马三忌发帖针对韩红基金会开始,日发帖数迅速长高,但由于民众大多不相信,且政府官方及时澄清,所以微博影响程度不高,为7 d。双黄连口服液事件从提出开始,立即有专家出来澄清,所以在微博上信息接收及时,该事件没有得到较好的发酵,影响程度不高,2 d之后,日热门微博数达到最高。

通过公式(13)对指标数据进行归一化处理,得到具体数据如表1所示。

表1 新冠微博舆情事件的归一化数据

4.2 计算指标权重

根据指标以及指标数据等各种舆情事件信息,邀请了同专业不同年级30名同学分别对二级指标对该指标的一级指标的影响程度作出评价,综合评价结果如表2所示。

表2 模糊评价表

通过公式(13)给出的权重计算方法,得出所有事件重要度、民众关注度、事件发展态势的评价权重为ω1=[0.749 3,0.250 7]T,ω2=[0.669 2,0.330 8]T,ω3=[0.768 1,0.231 9]T。

4.3 计算舆情等级

根据3.5的推理规则中,每一条规则Rk都对应一个单值输出,本文共8个规则,结合公式(7)~(12)计算模糊隶属度,根据公式(16)(17)合成出最优的模糊集,根据公式(18)(19)与公式(14)(15)计算4个舆情等级贴近度,每个事件利用计算贴近度的方式,计算结果如表3所示。

表3 各事件的舆情等级评判

5 结语

网络信息化条件越加丰富化的今天,网络舆情分析及预警是目前一项重要的工程,需要多个因素指标共同研究,舆论的防控工作才会更能成为一个整体,舆情分析和预警工作是相关部门提高处理舆论的能力的重要基础。基于模糊推理的微博新冠舆情分析模型对指标的研究有非常大的优势,理解起来很容易,具有比较高的价值。

猜你喜欢
关注度舆情程度
男女身高受欢迎程度表
日语程度的类型与程度副词的对应关系
雄安新区媒体关注度
数字舆情
全国两会媒体关注度
数字舆情
消费舆情
暴力老妈
你是如何认识能源的
摩擦力的利用与防止