基于超网络的新冠肺炎舆情关键节点识别研究*

2023-05-12 02:26涂贵宇潘文林张天军
计算机与数字工程 2023年1期
关键词:子网帖子舆情

涂贵宇 潘文林 张天军

(1.云南民族大学数学与计算机科学学院 昆明 650504)(2.云南民族大学软件工程研究所 昆明 650504)

1 引言

随着新浪微博网络社交平台的兴起,许多网民、媒体等蜂拥而至的在网络社交平台上对某一舆论发表观点、实时交流,无形之间加快了信息传播的速度和广度。任何一个网络中,或多或少都存在着占有不可或缺地位的节点,这些节点一旦被移除或是攻击,整个网络很有可能会在连通性、稳定性等方面受到一定程度的影响。例如在微博舆情传播网络中,通过控制关键人物就能把握舆情的走势。因此,关键节点识别的理论研究意义和应用价值不可估量。

针对舆情超网络及关键节点的识别,国内有不少研究。例如,赵剑华[1]等将SIR 传播模型运用于社交网络舆情传播的分析中;王晰巍[2]等基于SNA阐述了移动环境下网络舆情传播;蒋侃[3]等分析了舆情关键节点识别及扩散;杨伊帆[4]发现加快网络舆情消退的关键在于对次意见领袖实施干预;魏莹[5]等阐述用主路径分析法鉴别关键节点和控制舆情扩散;周丽娜[6]等通过邻接结构熵确定了超网络关键节点;王日芬[7]等研究了社会网络关键节点的识别及应用;张磊[8]等基于超网络建立语义社会网络并对其关键节点识别进行了研究;马宁[9]等利用超边排序算法对网络舆情领袖进行识别;高俊峰[10]对舆情内的舆论领袖所起到的号召能力进行测度研究;詹天成[11]等将微博内网络领袖间的关联用社会网络分析法进行分析;胡亚雪[12]对面向微博舆情用户挖掘及消息传播预测关键技术进行研究;许鹏程[13]等对知识超网络中的领域专家进行识别;Zlatic Vinko[14]等对超网络中的超边进行排序提出舆情超网络模型中的SuperEdgeRank算法等。

本文将在前人研究的基础上,对新冠肺炎舆情超网络中的重要节点加以识别,更好地为有关政府机构在新冠肺炎舆情传播中对关键用户的干预提供依据,以控制新冠肺炎的网络舆情走势。

2 舆情超网络模型构建

2.1 超网络形式

超网络“Supernetwork”方法是由Nagurney[15]最先明确的,将超越而又超出现有网络的网络定义为超网络。根据模型构建基础,超网络模型可分为基于网络的超网络模型(Supernetwork)和基于超图的超网络模型(Hypernetwork)[16]。基于网络的超网络更倾向于梳理网络层次关系,基于超图的超网络更倾向于体现节点之间的复杂关系,当因素、层级涉及的越多的时候,基于网络的超网络模型应用优势越明显。因此,本文将利用基于网络的超网络模型进行后续的研究。

2.2 舆情超网络

马宁[17]等阐述微博舆情网络由社交子网、环境子网、心理子网、观点子网4 个子网构成;梁晓贺[18]等将微博舆情网络分为社交子网、观点子网、时序子网和情感子网;张连峰[19]等认为微博舆情网络由环境子网、社交子网、内容子网、情感子网和时序子网5 个子网构成等。结合前人的研究思想及超网络理论基础,将舆情超网络划分为IP 属地子网、主体子网、内容子网、观点子网和时序子网,见图1(a)。在舆情超网络中,主体子网、内容子网、观点子网三个核心层子网是相互贯通的,是舆情生命周期存在的主要条件。为了更精准地识别关键节点,将内容子网拆分成信息子网和话题子网以及暂且隐去IP 属地子网和时序子网,剩下的主体子网、信息子网、话题子网、观点子网间的关联,见图1(b)。

图1 舆情超网络和舆情节点关联

2.3 舆情超网络模型子网络

2.3.1 主体子网

以微博用户为节点,用户间的评论关系为边连接节点,从而建立主体子网。

定义:节点为微博用户,以用户之间的评论关系构造有向边,由此构造的用户评论关系网络见式(1)。

其中P={P1,P2,P3,…,Pn} 是微博用户的有限集合,EP−P的计算方法见式(2)和式(3)。

其中,P1,P2,P3,…,Pn是微博用户,是SP网络中点的集合;(Pi,Pj)为SP网络中边的集合。

2.3.2 信息子网

以用户发布的帖子内容为节点,围绕该帖子参与讨论的话题为边连接节点,从而建立信息子网。

定义:节点为用户发布的帖子内容,以用户围绕该帖子参与讨论的话题为关系构造无向边,由此构建的信息子网见式(4)。

其中C={C1,C2,C3,…,Cn} 是帖子内容的有限集合,EC−C的计算方法见式(5)和式(6)。

其中,C1,C2,C3,…,Cn是帖子内容,是SC网络中点的集合;(Ci,Cj)为SC网络中边的集合。

2.3.3 话题子网

以用户讨论的话题为节点,话题包含着的关键词相似度为关系连接节点,从而建立话题子网。

定义:节点为用户讨论的话题,以话题包含着的关键词相似度为关系构造无向边,由此构造的话题子网见式(7)。

其中T={T1,T2,T3,…,Tn} 是用户讨论的话题的有限集合,ET−T的计算方法见式(8)和式(9)。

其中,T1,T2,T3,…,Tn是用户讨论的话题,是ST网络中点的集合;(Ti,Tj)为ST网络中边的集合。

2.3.4 观点子网

观点态度倾向可以分为三类:正面观点、中立观点和负面观点。以用户对某一话题发表的观点中提取出的态度词词汇本体为节点,态度词的倾向性为关系连接节点,从而构建观点子网。

定义:节点为用户对某一话题发表的观点中提取出的态度词词汇本体,以态度词的倾向性为关系构造无向边,由此构造的观点子网见式(10)。

其中K={K1,K2,K3,…,Kn} 是态度词词汇本体的有限集合,EK−K的计算方法见式(11)和式(12)。

其中,K1,K2,K3,…,Kn是态度词,是SK网络中点的集合;(Ki,Kj)为SK网络中边的集合。

2.4 舆情超网络模型子网间映射关系

在多重因素共同作用下的舆情超网络模型中,不同因素之间存在着不同类型的关系,其中包括同质因素之间的关联关系(即层内关系)和异质因素之间的映射关系(即层间映射关系)。主体子网到信息子网的映射表示某微博用户发布了哪些帖子,可能同一个用户发布多条帖子,也可能多个用户发布了同一条帖子(即转发);信息子网到话题子网的映射表示用户在某一条帖子中选择自己感兴趣的一个话题或是多个话题展开讨论;话题子网到观点子网的映射表示用户对某一个话题发表了观点。4层子网络层内和层间映射唇齿相依,由此构建舆情超网络模型。舆情超网络模型超边的定义见式(13)。

其中,超边SEP−C−T−K表示用户Pi发布了帖子Cj,参与讨论话题Tm发表了包含态度词Kn的观点。

因此构建的舆情超网络模型(CPH)见式(14)。

3 舆情超网络关键节点识别方法研究

3.1 舆情超网络模型示例

模拟舆情超网络模型使文中的研究思路和方法清晰易晓。主体子网P、信息子网C、话题子网T和观点子网K中分别包含了6 个微博用户、3 个信息节点、5 个话题及20 个态度词。表1 展示了4层子网络层间节点的映射关系。

表1 舆情具体超网络模型示例

3.2 超网络测度指标

1)节点超度

超网络中的节点超度是指包含这个节点的超边数量。在舆情超网络模型中节点超度值越大,其影响力就越大,该节点越可能成为活跃用户。如在上述建立的舆情具体超网络模型中,SDP1=2 ,SDP6=3 等。

2)超边连接度

超网络中的超边连接度是指某条超边所相邻的其它超边的数目。超边连接度越大,该节点越可能成为核心人物。如在上述建立的舆情具体超网络模型中,L(SE3)=5,L(SE7)=2 等。

3)平均最短距离

超网络中平均最短距离是指某个节点到达其它所有节点的平均距离,平均最短距离越小的节点影响力越大,该节点越可能成为意见领袖。如在上述建立的舆情具体超网络模型中,=0.25 ,=0.17 等。

4 新冠肺炎舆情超网络关键节点识别仿真分析

4.1 数据收集与处理

首先基于python 爬取以#新冠肺炎#为主题的微博数据,获取用户名称、帖子及评论内容;其次将jieba 分词模块运用于微博文档以及评论的分词处理,去除无关的内容,例如标点、“回复:”、“@”等样式的;最后用python进行LDA[20]模型话题生成。

4.2 新冠肺炎舆情超网络模型

根据微博用户之间的评论关系、对应用户发布的帖子、参与讨论的话题以及发表的观点为关系,建立主体子网、信息子网、话题子网和观点子网,然后根据各子层间的映射关系,最终建立新冠肺炎舆情超网络。主体子网络共有341 个用户节点,信息子网包括258 条有效网民帖子及评论,话题子网包含47 个话题核心关键词,观点子网络中共包含提取出的30个态度词汇,见表2。

表2 新冠肺炎舆情超网络各子层网络

4.3 关键节点识别的结果分析

在构建完成的新冠肺炎舆情超网络中,以微博用户为研究对象,计算微博用户的节点超度值、超边连接度、平均最短距离以及超边排序值。

1)节点超度

在构成该舆情主体子网的341 位用户中,大多数用户的节点超度值是1,表3 中列出了节点超度值排名前10 的微博用户,这10 位用户很有可能成为该新冠肺炎舆情超网络中的活跃人物。

表3 超度值排名

2)超边连接度

计算上述10 位预备活跃人物的超边连接度,表4 中列出超边连接度排名前7 的微博用户,这7位微博用户很有可能成为该新冠肺炎舆情超网络中的核心人物。

表4 超边连接度排名

3)平均最短距离

计算这7 位预备核心人物到达其他微博用户的平均最短距离,识别出新冠肺炎舆情超网络中的关键节点,即该新冠肺炎舆情超网络中的舆情领袖,见表5。

表5 平均最短距离

从表5 中可知,平均最短距离最小的4 位分别是桥组、Real 厉害财经、努力在搞机以及李青大夫。这四位关键节点用户在新冠肺炎舆情超网络中的部分超边组成情况如表6所示。

表6 超边组成情况

其中,在观点态度词列Ki中,0 表示用户未发表观点,1 表示用户发表了观点。C1表示内容为“接种过疫苗,第三次甚至第四次感染…”的帖子,该帖子包含话题#新冠肺炎#;C2表示内容为“r/co⁃vid19positive 版有13 万人,每天有人发表自己得了新冠…”的帖子,该帖子包含话题#新冠肺炎#;C5表示内容为“新冠、选举、经济,韩国正在进行一场逆天的实验,新冠疫情日增破40 万,7 天均增世界第一…”的帖子,该帖子包含话题#韩国#、#新冠肺炎#和#尹锡悦当选韩国总统#;C15表示内容为“海外疫情不断走高,全球经济…”的帖子,该帖子包含话题#新冠肺炎#;C31表示内容为“十天前获批首款国产新冠口服药的河南真实生物科技有限公司…”的帖子,该帖子包含话题#科技#、#医药#、#新冠肺炎#和#首款国产新冠口服药公司赴港上市#;C74表示内容为“疫情大时代背景下,为了应对潜在的经济下行压力…”的帖子,该帖子包含话题#苹果放缓部分招聘#;C17表示内容为“主动感染新冠会怎么样?34 人挑战实验结果发布…”的帖子,该帖子包含话题#新冠肺炎#;C14表示内容为“韩国把新冠降级为乙类传染病”的帖子,该帖子包含话题#视频星计划#、#疫情#和#韩国#。

5 结语

本论文将超网络理论运用于新冠肺炎舆情传播中的各个子网建模,应用Matlab、python 仿真分析方法识别新冠肺炎舆情中的关键节点。介绍了舆情超网络模型子网络,主要包括主体子网、信息子网、话题子网以及观点子网4 层子网络,并依据层间的映射关系构建舆情超网络模型;还介绍了用于识别关键节点的超网络测度指标;最后通过仿真分析,证明了超网络分析法在关键节点识别中的可靠性。

在新冠肺炎舆情超网络中识别出关键节点,有助于相关部门实施相应的引导和干预政策,避免因消息在传播过程中出现“信息失真”现象而引起群众恐慌,进而妨碍疫情防控工作。在应对突发的公共卫生事件舆情传播方面,要针对该类舆情事件对群众进行网民教育,切记不信谣不传谣、有意识地培养正面意见领袖等,这需要在公共卫生事件舆情超网络中进行更加深入的仿真分析。

猜你喜欢
子网帖子舆情
一种简单子网划分方法及教学案例*
子网划分问题研究及应用
暴力老妈
子网划分的简易方法
舆情
舆情
舆情
基于安全协议的虚拟专用子网研究
微博的舆情控制与言论自由
高手是这样拍马屁的