基于分层社区的社交网络异常事件检测模型研究

2020-04-14 04:54王龙
电脑知识与技术 2020年4期

王龙

摘要:社交网络的数据中蕴含着大量有关现实中各种事件的信息。使用异常事件检测模型准确及时地发现社交网络上传播的异常事件信息,对于实现智慧城市感知社会异常动态事件,有效提高社会管理应对效率具有关键作用。本文定义了基于社交网络的有权无向图,根据异常事件的特征对社交网络中事件进行了主题分类和筛选,构建了一个基于分层社区的异常事件检测模型,从而可以实现对城市区域异常事件的检测。

关键词:社交网络分析;异常事件检测;分层社区

中图分类号:TP393

文献标识码:A

文章编号:1009-3044(2020)04-0017-03

Research on anomaly Detection Model of Social Network Based on Hierarchical Community

WANG Long

(Guangdong Medical University,Zhanjiang 524023,China)

Abstract:Social network data contains a lot of information about various events in reality.Using anomaly event detection model to accurately and timely discover the information of abnormal events spread on social networks plays a key role in realizing smart cities' percep-tion of social abnormal dynamic events and effectively improving social management response efficiency.This paper defines a hierarchical community of social network abnormal events Based on the weighted undirected graph,classifies and filters the events in social network according to the characteristics of abnormal events,constructs an abnormal event detection model,and realizes the detection of abnormal events in urban areas.

Key words:social network analysis;abnormal event detection;hierarchical community

1 概述

隨着以微博、微信为代表的社交网络的广泛应用,已经取代了传统媒体和个人网站等手段,成为人们发布和分享信息的主要平台。每天都有大量社会事件通过社交网络进行传播,这些事件主题的性质类别多种多样,包含娱乐动态,社会事件,政治新闻以及自然灾害等。社交网络用户在发现有兴趣的事件发生时习惯于在社交网络平台上发表自己的观点或报告事件的发生,分析和挖掘社交网络中积累的大量数据中的事件主题特征,对于在智慧城市感知建设中社会异常事件的检测具有极大的价值。

目前各类流行的社交网络应用中的信息都具有碎片化、数据量大、时效性高,用户聚合度不平衡的特点,且讨论主题不受时空的限制,使用人工检测方式不能及时有效地发现和挖掘相关事件。因此,面向社交网络中的讨论主题实现异常话题检测,借助事件检测技术来及时、准确地获取网络中传播的异常事件描述,对于建设智慧城市感知系统,高效地获取信息,掌握社会环境的实时动态具有现实意义。

2 异常事件检测

社交网络上传播的文本数据简短,且多为不规范的网络用语,往往带有大量噪音数据。利用网络爬虫技术可以实现对社交网络页面信息的爬取,获得原始文本数据集。将获得的文本数据按照时间空间序列排列,然后根据异常事件特征对文本数据进行预处理,滤除干扰和无用信息,可以构造异常事件特征文本库。

在现有事件检测相关研究多在热点事件发现,没有明确异常事件的时空特征,忽略了两者的特点。异常事件的特点是在事件发生前的相关话题强度很低,基于时间空间序列的话题强度突然升高,在单位事件区域内的升高频率明显很高。而热点事件,类似娱乐新闻事件,具有一定的持续度和话题强度,单位事件区域内频率升高较为平稳。

完成异常事件检测,首先要识别出关键的异常特征词,完成事件词向量的构建。同时识别社交网络中的权威活跃节点用户,然后根据相关词语出现的关联度来描述话题主题的倾向,根据发布信息的社交网络用户活跃性和权威性来描述话题聚合程度,构建事件分层社区来归类事件类别。而现有社交网络检测事件中监测节点没有区分权威性和活跃度指标、面对所有节点检测效率不够、非活跃用户对结果产生噪音数据影响,存在识别错误情况。因此需要高效判别社交网络中信息发布的权威活跃节点,还要识别非活跃用户和划分基于事件信息的分层主题社区、异常事件过滤等问题,从而建立一个相对实用的异常事件检测方法。实现了社交网络中异常事件话题的发现,使得在异常事件发生时能够对事件全局有更好地掌握。

3 异常事件检测模型

一般的,描述一个事件可以用一组可唯一描述事件的相互密切关联的特征词的集合。这样事件检测的工作就演变为从若干段文本中将可以描述特定事件的一组特征词找出来。当某一或某一类特定事件发生时,与此事件相关的特征词在事件发生的单位时间内出现频率会迅速增加,与此事件相关的一组特征词组的出现频率也会同时迅速增加。从词之间的语义和关联性看,词组在社交网络文本中同时出现的频率必定很高,且其中一个词的出现对另一个词地出现影响非常大,存在着强关联关系。为了描述事件的这些特征,可建立有向加权图,以子图或社区的形式表示事件。

虽然社交网络的文本数据数量大且噪声多,但通过异常特征词的共现关系能够很好地捕捉特征词之间的语义关系,以特征词共现关系构建的加权有向图为基础,可选用其中的关键节点来检测事件信息,实现基于权威活跃节点用户的事件分层社区发现算法。算法舍弃了大量噪声文本构成的主题社区,降低了事件发现的复杂度。同时,不同事件社区的检测互不干扰,能很好地处理异常事件社区发现。该模型中可用LDA分布作为用户在事件上的分布,事件初始LDA分布,事件在词语上为多项式分布。LDA分布和多项式分布互为共辄分布,可简化模型的推导。

3.1 基本概念

事件数据:

实体间在特定时间地点发生的相互作用称为事件。事件数据包括主体、客体、行为、时间、地点等信息。

异常事件:

基于智慧城市感知中的异常事件是指异于平常发生,造成或者可能造成社会影响或危害,需要采取处置措施予以应对的自然灾害、事故灾难、公共卫生事件和社会安全等事件。

社交网络中事件异常特征:

社交网络中的异常事件具有突发特征,是在社交网络中先前若干时间段内该事件很少被用戶讨论或者被讨论频次呈现平稳分布,但是在当前时间段内以高频次出现的事件,与热点事件应当有所区分。社交网络中的热点事件往往是在一段时间内受到持续关注和讨论的事件,具有一定的持续性,与异常事件有很大区别。

基于主题关联度的分层社区分类:

设有描述社交网络的有向无权图G=(V,E),其中V代表用户节点集合,且共有n个用户节点,E代表用户有向关系集合,eij代表连接Vi、Vj两节点的有向边。若将网络G划分成K份,G即为K个节点集合。若划分成具备对于每个都满足节点集合p内的节点主题关联强度密集、和节点集合p外主题关联强度稀疏的特点,那么就叫p为G的基于主题关联程度的社区分类。

3.2 基于词频组共现关系的有向加权图

设G是一个有向加权图,G=(V,E,W),V是G的特征词节点,表示可以描述一段文本的特征词组,E是图中有向边的集合,表示各词组之间语义的共现关系,W是权值集合,表示词组节点之间的关联强度。当使用向量空间模型描述图G时,可构建文本特征词组矩阵。词组矩阵的一行表示一段描述一个话题的相关文本,矩阵的列表示特征词库中的一个词,矩阵元素则是对应特征词的语义关联度权值。矩阵中每一行文本向量的维度都等同特征词库的规模。若行向量空间中有D个文本向量,则D是描述事件话题的文本集合。di是第i个文本向量,V的绝对值是事件特征词库的大小。Sij则是对应的第j个词出现在第i个文本中的权值。

其中,vfkj是词vj出现在文本中的频率,dvfj是词vj的逆频率。L为平滑因子。

利用权值阈值判断可将G中低频词和常用词节点过滤掉,将剩余的词组节点构建为G。若任意两个词在同一或多段文本中出现,则在两个节点词之间添加一条有向边,边的方向从关联强度大的节点i指向关联强度小的节点j,这一有向边的权值是关联强度系数pij。

nij表示含有特征词i和j的文本数量。ni表示包含特征词i的数量。nj表示包含词组j的数量。N是特征词库中的总文本数量。

在计算关联强度系数pij的公式中,反映了一个特征词出现在文本中时引起另一个特征词在同一段文本中出现的可能性。公式的第一项会随着含有特征词Vi和Vj的文本数量的增大而增大,第二项会随着含词组Vj的文本数量的增加而减小。关联强度系数的大小也描述了词组之间的语义相关程度和关联强度,这对事件的分层社区划分很有意义。

3.3 分层社区的耦合程度

每一个包含权威节点的词组集合都是一个事件社区,因为G,是一个加权有向图网络,可以标识出G中的权威节点。可以釆用类似计算网页排名的算法来寻找G中的权威节点。对于G中的节点,可计算节点权威指数:

其中Wjj为节点为vi和vj间的权值,In(vi)为从节点vi指向的节点集合,Out(vi)为指向vi的邻居节点集合。d在0到1的开区间取值,取0.85。在描述一个事件的词语集合中,越是权威的词出现的频率越高,和集合中其他词共现的频率也越高,同时和其他词的关联强度也会越强。G,结构中,计算岀的词语节点权威指数ws(v)也越高。因此可以根据网络节点的得分ws(vi)排序来标识权威节点序列。

基于G图的分层社区检测就是将紧密连接的节点划分到同一个社区,使得社区内部节点耦合紧密,社区间的节点耦合稀疏。可以用社区分层指数来衡量社区的耦合程度,社区分层指数取值介于-1和1之间,衡量了社区内部节点与社区节点相比的耦合程度。社区分层指数越高,说明社区内部的节点耦合越紧密,社区间的节点耦合越稀疏。定义G,图社区分层指数:

Aij表示有向边的权值,k是与节点i相连的所有边的权值之和。是阈值参数,m是G中所有边权值之和。

3.4 基于分层社区的事件检测

分别初始化每一个关键节点为一个只包含节点自身的事件社区,然后考察每一个事件社区Ck的相邻节点Vj,尝试将其加入社区。若该节点加入能使社区的分层指数增大,则将Vj加入,否则不加入,如此循环直到没有节点加入为止。这样实现基于K个权威节点的事件社区发现,减少了非权威无关节点的事件社区检测工作量,不会提取包含大量噪声的事件社区。同时K个事件社区的提取可以同时进行,提高了效率。由于考察节点加入某个社区,社区分层指数的变化量计算为:

其中,∑in是社区C内部所有边的权值和,∑tot是社区C内部节点与外部节点直连边的权值和。kin是与节点i相邻边的权值和,虹是节点i与社区C内部节点相连边的权值和。

算法实现:

输入:有向加权图G=(V,E,W),关键节点序列:KV={v1,v2,……vk}

输出:事件社区向量:C={C1,C2,……C})

根据K个节点初始化生成K个事件社区;C1={v1},C2={v2,……Ck={vk};

for Ci(i=l,......k)do

for Ci的每一个邻居节点vj do

if ?S〉阈值 then

Ci=Ci U Vj

endif

endfor

endfor

算法输入为K个节点序列,输岀是K个事件社区向量。由于在有向图中,若描述同一事件的词语之间关联程度强,将会划分到同一社区,若不同事件的描述词语之间关联性较强,将会划分到不同社区。算法通过考察K个关键节点,以社区分层指数来划分事件社区。有利于使社区内部紧密耦合,社区间尽量松散,从而使描述相同事件的关联性强的词语划分到相同事件社区中。

通常一个事件很可能有多个关键节点,导致不同的事件社区很有可能描述的是同一事件。因此在检测出异常事件的社区后,要合并重复的事件社区。这部分工作可以利用通过有监督学习的转换模型将事件社区转换为词向量,使用余弦相似度来衡量两个向量之间的相似程度:若两个向量的相似度大于0.5,则合并向量。

4 结束语

本文对社交网络的事件发现算法模型进行了研究。分析了一种基于加权有向图的分层社区异常事件检测算法,通过关键特征词的共现关系构建一个加权有向图,特征词之间的分层指数作为其权值,边的权值则反映了它们之间的关联强度。描述相同事件的词在图中会聚合为事件社区。每一个事件视为该有向图的一个子图或者社区。实现了基于关键节点的事件分层社区检测,图中有向边权值量化了词语的关联程度,更利于事件检测。在检测事件之前先标识了图中的权威活跃节点,只分析提取k个关键节点的事件子图,有效降低了复杂度。通过指定关键词节点的方法很容易将算法修改为指定事件检测的算法。

参考文献:

[1] 李洋,陈毅恒,刘挺.微博信息传播预测研究综述[J].软件学报,2016,27(2):247-263.

[2] 李彪.微博中热点话题的内容特质及传播机制研究——基于新浪微博6025条高转发微博的数据挖掘分析[J].中国人民大学学报,2013,27(5):10-17.

[3] 丁晟春,龚思兰,李红梅.基于突发主题词和凝聚式层次聚類的微博突发事件检测研究[J].现代图书情报技术,2O16(Z1):12-20.

[4] 叶川,马静.多媒体微博评论信息的主题发现算法研究[J].现代图书情报技术,2015(11):51-59.

[5] 曾金,陆伟,丁恒,等.基于图像语义的用户兴趣建模[J].数据分析与知识发现,2017(4):76-83.

[通联编辑:光文玲]