基于SVM的企业舆情分级及预警研究

2022-10-27 10:37万丽雯
现代商贸工业 2022年19期
关键词:关注度舆情网民

万丽雯

(武汉理工大学管理学院,湖北 武汉 430000)

1 企业网络舆情的定义及影响因素

1.1 企业网络舆情的定义

方付建定义企业网络舆情是指一些企业突发事件经过网络传播形成强大的“井喷型”舆情,喷涌的网络舆情直接影响到企业发展和存续。本文定义企业网络舆情是指在各种事件的刺激下,群众对在网络上传播的企业事件所有认知、态度、情感倾向等的集合。

1.2 企业舆情的影响因素

1.2.1 主体因素

主体是指舆情事件的参与者,包括网民和当事主体。网民的情感倾向、关注度,企业的类型、参与度、回应的及时性等都对企业舆情事件的发展和变化有着巨大的影响。例如2020年的“华为剥离荣耀业务”,在网络情绪的表达方面,基于华为品牌的认知度,很多人仍然支持华为的决定,积极态度占87%。因此对企业并未造成危机。在企业舆情危机事件中,一些事件由于相关企业的参与和及时响应,舆情才平息下来。因此本文认为主体因素主要包含网民情感倾向、网民的关注度以及企业的参与度三个方面。

1.2.2 客体因素

客体是指舆情事件本身,是客观存在的属性。引发舆论危机的常见敏感因素包括产品或服务质量、消费者权益等类型。如“上汽大众4S店破坏好零件再修理”“三只松鼠薯片致癌物”等事件排名前十。这些舆情事件大多与企业潜在或存在的侵犯消费者权益行为有关,也是社会舆论的敏感点,群众的关注焦点也聚集在这些事件上,容易引发负面的公众情绪,加剧舆论纠纷。舆情真实度主要是因为在网络空间里,大多数言论都难以分辨真假,虚假的言论极易导致与该企业相关的舆情事件危机的发生。本文认为客体因素包含舆情的真实度和敏感度两个方面。

1.2.3 媒体因素

媒体,是网络舆情传播的渠道和手段,主要表示的是事件传播与扩散的态势。网络舆情媒体关注度与网民关注度的含义类似,媒体关注度指的是媒体参与企业网络舆情的程度。媒体在网络环境中也是一个重要因素,李纲认为舆情在进入爆发期之后,会受到媒体相关因素的进一步放大。信息化时代,许多舆情话题首先由媒体曝光出来的提供给网民,并且舆情的演化也往往随着以媒体的信息披露而发展的。本文认为媒体因素主要是媒体的关注度。

1.2.4 本体因素

本体指的是与企业相关网络舆情事件的信息,包括舆情事件在网络中传播的文字、图片、视频等。互联网时代,舆情事件以多种多样的形式传播,和单调的文字描述相比,以图片和视频为主的传播形式让信息变得更为直观,更具有煽动性。例如2018年,被某位网友曝光的一段拍摄了近20家五星级酒店卫生混乱的视频,直接影响了该行业的整个声誉。网络舆情本体作为舆情传播的一种形式,对舆情事件危机等级的影响程度较大。本文认为本体因素主要是舆情的传播形式。

2 企业网络舆情预警模型的构建

2.1 指标量化

2.1.1 网络舆情主体

网络舆情主体对舆论的发展有着关键性的作用,通过网民情感倾向、关注度,企业参与度来进行衡量。

(1)网民的情感倾向。

网民的情感倾向是指网民对舆情事件的态度,如赞成、中立、反对。这一指标主要用负面微博占所有微博的比例来表示。比例越大,企业网络舆情危机发生的可能性越大。

(2)网民的关注度。

关注度表示网民对某个舆情事件的关注程度,用舆情热度来表示。网络舆情热度越高,就表明网民的关注度越强。本文采用原创微博发布量(O)、转发量(A)、评论量(B)、点赞量(C)这4个指标对舆情热度进行描述。

(3)企业参与度。

企业参与度就是企业相关人员在舆情事件发生后参与处理的程度。用来评判企业参与面广不广、程度深不深,采用专家打分法进行赋值。企业参与程度越高,发生舆情危机的可能性就越小。

2.1.2 网络舆情客体

网络舆情的客体是触发网络舆情的刺激因素和网络舆情的对象,直接导致了网络舆情的发生和传播。可以通过舆情信息的真实度和敏感度来进行衡量。

(1)舆情真实度。

舆情真实度指的是与企业有关的舆情事件的真实程度,本文在该指标的选取上采用定量分析的方法,主要通过某件企业舆情事件中微博认证用户占全部微博用户的比率来确定。比率越大,说明舆情信息的真实性越高。

(2)舆情敏感度。

舆情的敏感度可以直接影响舆情的未来发展。企业相关的网络信息能够引起网络舆情的产生,舆情涉及敏感因素的程度作为舆情敏感度来衡量网络舆情的可能发展情况。本文通过定性分析的方式来确定,舆情信息的敏感性越高,造成的危害越大,企业网络舆情危机发生的可能性就越大。

2.1.3 网络舆情媒体

和普通网民用户传递的舆情信息质量较低的特点相比,媒体的参与减弱了舆情信息的不确定性,从而使得企业产生舆情危机的可能性增强,媒体的关注度通过媒体发布微博量来确定。

2.1.4 网络舆情本体

本体是指网络舆情在互联网上传播的图片、文字和视频。本体作为在网络上传播和发酵的一种舆情事件形式,对舆情事件的危机程度有较大的影响。网络舆情本体表现为舆论传播的形式,本文借鉴舆情热度的计算公式来确定传播形式的表达式。

2.2 企业网络舆情预警指标体系构建

前文对企业网络舆情危机的影响因素进行分析和量化处理,尽可能地以最少指标达最优预测目标的准则来选取,并进行量化处理,构建企业网络舆情预警指标体系见表1。

表1 企业网络舆情预警指标性质和量化方法

2.3 企业网络舆情分级和预警模型构建

2.3.1 基于K-均值聚类的分级过程

K-均值聚类算法属于聚类方法中的基于划分的方法,是聚类方法中最常用的方法之一。本文选择K-means方法对企业网络舆情事件危机等级分类和分级。采用事件危机程度值为聚类指标,通过信息熵计算各指标权重,累加即得各个时间点的危机程度值。依据聚类中心把各时刻舆情事件进行归类、分级。

2.3.2 企业网络舆情预警模型

本文采用支持向量机进行企业网络舆情危机预警模型的构建。对于多分类问题,传统的一对一算法将不能完成,可以间接的利用一对一,即采取一对多的算法(ovr),其主要原理是利用最大输出法将多个SVM分类器的输出进行组合,实现多类分类。SVM关键是选取核函数的类型,主要有线性核函数、多项式核函数、RBF核和sigmoid核。

3 实证分析

3.1 数据处理

本文通过爬虫软件、爬取微博平台企业舆情事件数据。将“网易裁员”事件按照网络监测情况选取35个时间点的测试指标数据作为样本,起始时间为2019年11月23日,到12月5日基本平息。本文通过K-means方法评价舆情事件的预警等级,最后通过比较不同核函数SVM来确定最优的预警模型。对原始数据进行预处理后,选取75%的样本组合成训练集,25%组成测试集,以此验证支持向量机模型对网络舆情预警识别的可行性。

由于不同指标,是通过对不同的数据进行量化处理得到的,所以经常会造成数据量纲差异较大,本文采用min-max变换对原始数据进行无量纲化处理。

将数据集作为信息熵计算中的评价对象,原创微博量、转发量、评论量和点赞量作为指标,进行权重计算得到舆情热度中权重分别为0.1417、0.2897、0.2695和0.2991。同理,计算得舆情传播形式中含图片微博数量占比和含视频微博数量占比的权重为0.4311和0.568。

3.2 聚类分析

本文通过SPSS23.0完成K-均值聚类,得到该舆情事件不同时间段的分类情况和与聚类中心的距离情况。将“网易裁员”事件按照不同时间点的事件危机程度值分为安全、一般、警告、严重。通过K-means方法最终得到四个聚类中心,安全的事件取值范围为[0,0.09723],一般级别取值范围[0.09723,0.22417],警告级别取值范围[0.22417,0.59187],严重级别取值范围[0.59187,1]。

3.3 基于支持向量机的预警模型结果分析

本文采用python3.0中的LIBSVM工具箱建立企业网络舆情危机预警模型。SVM模型类型选用C-SVM,采用Grid Search调参来提高SVM预测的准确度,在最优参数的选择中,K折交叉验证采用5折交叉验证法。

在未调参情况下,评分非常低,测试集精确度只有42.86%,调参后最佳C值为3,但是测试集精确度只有71.43%,说明数据是线性不可分的,需要尝试其它非线性核函数,本文选择应用最广泛的RBF核函数。在未调参的情况下,模型测试集的精确度是42.86%,调参后最佳C值为3,此时测试集的精确度达到100%。根据精确度可以看出,支持向量机在企业舆情预警方面比较适用,RBF核函数在企业舆情事件预警识别上效果更为理想。

猜你喜欢
关注度舆情网民
网民低龄化 “小网虫”的明天谁来守护
有关公路,网民有话说
雄安新区媒体关注度
全国两会媒体关注度
暴力老妈
舆情
舆情
舆情
微博的舆情控制与言论自由
2.9亿