基于关键词共现和社区发现的微博热点主题识别研究

2018-03-14 05:46丁晟春吴靓婵媛

现代情报 2018年3期

丁晟春王楠吴靓婵媛

(南京理工大学经济管理学院，江苏南京 210094)

微博作为国内主流社交媒体之一，具有使用便捷、时效性强、交互性强、传播迅速等特征，在信息传播中占据十分重要的地位。近年来，越来越多的用户使用微博，成为网络舆情事件的参与主体，以致网络上每时每刻都在产生海量信息，孕育出各种各样的话题。由于用户的参与既可以形成热点话题，又可以进一步推动已形成的热点话题，这使得在隐匿、开放的网络背景下，虚假信息极易得到扩散、蔓延，形成负面的舆论倾向，给社会安定带来极大隐患。因此，如何从海量网络舆情数据中准确、高效发现当前的热点主题，帮助政府和企业进行良好的舆情管理，对于主题识别领域来说仍然是研究的重点和热点。

早期热点主题识别的研究对象主要为传统的新闻媒体报道，对此学者们提出了向量空间模型及文档主题生成模型等主题发现方法。但随着自媒体时代的来临，这些传统方法已无法满足热点主题识别的要求。近年来，社会网络分析方法逐渐被应用到多个学术领域中，其高效应用也得到学界的广泛认可。本研究将该方法引入微博热点主题识别领域，同时综合考虑微博的用户属性和传播特征，挖掘热点主题，以期为政府和企业监控网络舆情方向及应急预警分析提供良好的信息基础。

1 网络舆情热点主题识别相关研究

热点主题，即热门话题，是指一定时间、一定范围内，公众最为关心的热点问题。现有的热点主题识别研究大致可分为两种研究思路：一种是基于聚类思想；另一种是利用主题模型。

基于聚类思想的网络舆情热点主题识别多通过计算文档相似度，对文档进行聚类，以识别热点主题。如路荣等[1]提出了一种层次聚类和K均值结合的混合聚类算法，以检测微博文本中的新闻话题。郑斐然等[2]则利用相关度模型和增量式聚类算法实现了微博话题检测。谌志群等[3]利用共词分析和bisecting K-means聚类算法检测BBS热点话题。王伟等[4]使用OPTICS聚类算法获取网页热点簇，根据热点簇特征向量进行二次聚类，以获取舆情网页热点。也有学者通过抽取主题特征词来进行聚类分析，如王小华等[5]利用TF-IDF关键词抽取技术抽取主题词串，再结合K-means算法对关键词抽取结果进行聚类分析。迟呈英等[6]利用TF-IDF算法分别对新闻标题和新闻正文进行特征词抽取，并针对新闻标题与正文对主题的表达程度不同，对上述抽取的特征词赋予了不同的权重，实现了对网络新闻热点主题的识别。高继平[7]采用关联规则挖掘中的频繁项集抽取算法，实现了多词间的共现分析，以挖掘领域研究热点。此外，还有学者将增长率的概念引入主题特征词的抽取，王勇等[8]从词频统计、词频增长率和TF-IDF三方面计算词语的权重，提出的“绝对聚类”算法能够较准确地检测突发事件。赵文清等[9]使用相对词频和词频增长率抽取主题词，基于词语间的共现图聚类，识别微博热点事件。

基于主题模型的网络舆情热点主题识别多考虑文本信息中潜在的语义关系来进行热点主题识别。如毕凌燕等[10]提出了基于概率模型的微博热点主题识别模型，比较了基于词频统计的聚类方法在微博主题识别中的优劣，发现LDA主题模型的可解释性更好且效果更加稳定。曹通[11]利用LDA和BTM主题模型分别对新闻正文和新闻标题进行主题特征抽取，在融合两种语义特征的基础上，引入改进的聚类算法及新闻热度计算公式，实现了对热点新闻的识别。吴永辉等[12]将LDA模型和仿射传播聚类算法(AP)相结合，实现网络主题的发现和热点新闻推荐。唐晓波等[13]提出微博热度的概念，将其引入LDA模型中以挖掘热点主题。聂文汇等[14]构建了一种基于热度矩阵的主题模型，通过获取各潜在主题的热度和主题—词概率分布,以词间的共有热度来挖掘热点主题。但主题模型对词频依赖度很高，主题抽取效果与文本长度有关，对微博等短文本信息的主题抽取效果并不理想。

因此，越来越多的学者开始注重社交媒体的网络化特性，将社会网络的思想引入到主题识别研究中。J Deng等[15]提出了一种动态调整聚类以更准确地匹配文档的改进模型，为进一步研究复杂网络热点话题演化奠定了基础。P Bródka等[16]认为现有的社会网络分析方法仅适用于单层网络，因此提出了一种动态的多层次社会网络分析方法。吴小兰等[17]根据用户关系网络的社区结构特性发现网络社区，并在社区内部有针对性地追踪社区话题及其演化过程。段炼等[18]综合考虑了潜在地理区域、连续时间和社区三要素，实现了基于主题相似性的社区发现方法。王林等[19]提出了“极大社区”的概念，通过反复挖掘极大社区，实现热点主题的发现。此外，还有学者利用基于社会网络分析思想的关键词共现分析以实现热点分析，将关键词视作是关系网络的节点，词间共现现象视作是网络节点间的关系，通过“关键词—关键词”共现以发现领域主题、研究热点与趋势[20]。

基于对上述研究成果的分析，本文设计了一种综合词频、词频增长率和主题权重三种特征的关键词抽取算法，引入基于社区发现的关键词共现分析，充分考虑微博传播过程中的用户属性和传播特征，实现微博热点主题的识别。

2 微博热点主题识别研究框架

2.1 总体流程

本文借助微博研究平台，选取微博内容和微博用户为研究对象，提出图1所示的研究流程。

2.1.1 数据预处理

分析微博平台数据特征，设定数据过滤机制，对数据进行繁简体转换、分词及停用词过滤、词性过滤处理，最终通过数据预处理及垃圾信息过滤获得高质量的有效实验数据集。

2.1.2 主题模型构建

依据微博特性，从维度、特征和度量三方面综合考虑，构建“帖子—主题”二模网络模型，对能够表达主题的关键词进行抽取研究。其中“关键词—关键词”单模网络模型利用关键词共现发现主题社区，“帖子—关键词”二模网络模型得到每个帖子与之对应的关键词集，将二者联立得到“帖子—主题”二模网络模型，即发现每个帖子所映射的主题社区，以支撑主题的热度计算。

2.1.3 主题识别

该部分主要包括两阶段：一是种子主题的识别；二是子主题的识别。在第一阶段，由于基于话题标签“#*#”发布的微博通常具有明确性，发表内容多为对话题标签中的内容进行讨论，可以认为其讨论的大主题即为微博话题标签内的内容，即“种子主题”，由于“种子主题”存在表述不同意思相同的现象，故需要将这些相同或相似的话题标签进行合并，因其多为短文本，故采用编辑距离算法进行相似度聚类，以此聚出各个种子主题。与此同时，由种子主题衍生的微博内容在讨论的过程也会分化出不同的言论观点，分裂成各个子主题，因此在第二阶段，本文对包含种子主题的微博内容进行更细粒度的子主题挖掘，通过对内容中抽取出的关键词进行共现网络分析，运用社区发现算法实现种子主题下的子主题识别。

2.1.4 热度分析

主题识别后，利用“帖子—主题”二模网络模型对各主题下的帖子的热度实行叠加计算，帖子的转发数、评论数、点赞数一定程度上表征了该主题的参与度，而发帖用户的认证情况、日微博数和粉丝数一定程度上表征了该主题的影响力，本文引入用户影响力及传播影响力的双重度量，来确定主题热度，实现热点主题的检测。

2.1.5 热度迁移

该部分选取实例，将某一热点主题下的所有微博数据划分成以“天”为粒度的多个单位时间片，按时间轴顺序依统计热点主题在每个时间片上的主题热度，分析该主题的舆情生命周期，即其的生成期、扩散期、削减期和消亡期，实现舆情主题的动态监测。

2.1.6 情感分布

选取实例，利用课题组已成熟的SVM算法分析和挖掘关于该热点主题下所有微博文本中的主观性信息判断其情感极性，阐明该主题的情感分布，并以“天”为时间单位，梳理舆情主题生命周期中的整体情感走势，为获晓网民舆论支持度和进一步引导舆情方向提供有价值的信息。

2.2 关键技术

2.2.1 基于关键词的社区发现方法

1)关键词主题贡献度

微博中的关键词简洁、时效性强，是热点主题识别的重要线索，它的提取质量直接决定了主题识别的准确性。本文在微博中文文本分词的基础上，基于词频、词频增长率、主题权重，定义了一个词项在单位时间窗内的主题贡献度[21]，如公式(1)所示为该词3个特征计算分别归一化后的加权和，即：

(1)

Fij=fij

Fij代表第j个时间窗内的第i个词项的词频，fij即为词频数值。

FKij表示词项wi在时间窗j内的词频增长率，fij为其词频，fij′为相对时间窗内的词频。

2)关键词抽取算法

微博文本通常十分简洁，为避免使用传统特征选择方法(如卡方选择)提取词语表示特征向量而导致的向量稀疏和高维空间问题，本文提出如下所示的一种关键词抽取算法：

第一步：将微博数据按照时间划分，以天为单位，进行文本预处理，获得每个时间窗的词项集合w；

第二步：对所有词项进行词频统计及帕累托分布，设置阈值S1；

第三步：选取词项wi；

第四步：判断该词项的词频是否大于S1，大于则保留该词项，执行下一步；否则，过滤该词项，返回第三步，同时i=i+1，以执行下一个词项的判断；

第五步：计算该词项的词频增长率，判断是否大于阈值S2，大于则保留该词项，执行下一步；否则，过滤该词项，返回第三步，同时i=i+1，以执行下一个词项的判断；

第六步：计算该词项的主题权重及主题贡献度，设定所有词项主题贡献度的平均值为阈值S3；判断该词项的主题贡献度是否大于S3，大于则保留该词项，执行下一步；否则，过滤该词项，返回第三步，同时i=i+1，以执行下一个词项的判断；

第七步：将wi添加到关键词列表中，最终输出符合条件的所有词项，作为该时间窗内的主题特征关键词。

本文设定了不同的阈值对比实验，以确定更准确、有效的特征计算方法，最终将阈值S1定为100，S2定为4。

3)主题社区发现

本研究采用社区算法中的FN算法——凝聚法做主题社区发现。该算法是Newman在GN算法上改进优化提出的一种快速算法，它克服了传统社区算法效率低、研究规模不大的局限性，可以用于分析结点数达100万的复杂网络，其基本思路是：首先将网络中的每个节点自定义成一个独立的社区，再依次合并有边相连的社区，计算合并后的网络模块度增量，如果增加，则合并，否则撤销；如此循环，到网络的模块度无法提高时停止。

基于此，本文将抽取出的关键词视作网络中的节点，关键词与关键词在微博中的共现情况为边，构建关键词共现网络，运用FN算法识别出最佳网络社区结构，以此挖掘出各主题。由于微博分为带话题标签的微博和不带话题标签的微博两大类，针对第一类微博，本文首先利用短文本聚类方法进行种子主题的识别，其次运用社区发现实现种子主题下的子主题识别；而针对第二类微博，本文直接通过社区发现方法进行主题识别。

2.2.2 基于热度分析的热点主题识别

本研究基于用户影响力和传播影响力两个热度因素，认为某主题的热度等于其所有发布该文本的用户影响力加上该信息的传播影响力[21]。定义主题热度计算公式为：

EH(e)=α∑UIi+β∑WIj

(2)

其中，EH(e)是主题e的热度值，UIi是第i个用户影响力，WIj是第j条微博的传播影响力，α和β分别是用户影响力和传播影响力的调节因子，且α+β=1。

UIi=log(Fli+1)×log(Twi+1)×(1+Vi)

其中Fli是用户的粉丝数，Twi是该用户平均每天发布的微博数量，Vi是判断用户是否为VIP认证用户，若是取值为0.5，否则取值为0。

其中Fcj是微博的转发数，Ccj是微博的评论数，Acj是微博的点赞次数。

1)当α=1，β=0时，该公式用于计算该主题在该时间段内的用户影响力，即用户参与度。

2)当α=0，β=1时，该公式用于计算该主题在该时间段内的传播影响力，即主题扩散程度。

3)当α=0.5，β=0.5时，该公式用于计算该主题在该时间段内的热度值。

3 实验结果与分析

3.1 数据集及评价指标

本文利用课题组已成熟的基于新浪微博开放平台的API接口实现的爬虫进行数据获取，抓取了2016年08月12日至2016年08月19日八天的微博数据，共102多万条数据，其分布如表1。由于存在着大量的噪声及垃圾数据，根据上一章节的研究，首先进行包括“@***”、“//@***”、表情符号、URL链接、影音图片等噪声符号的过滤，然后引用简体——繁体对照词典将繁体微博转换为简体微博，在此基础上保留微博文本字数大于5的数据，然后基于NLPIR分词处理技术进行中文分词处理，过滤停用词，最后仅保留名词、动词及缩略词。

表1 微博数据分布

3.2 主题识别实验结果与分析

3.2.1 带话题标签的微博

首先运用正则表达式识别带话题标签的微博，提取标签内容进行相似度计算并聚类，以数据集中8月13日的微博数据为例，共识别出了5个种子主题，如表2所示：

表2 带话题标签微博主题表(2016-08-13数据)

从表1可以看出，关键词能够较完整的描述该主题，所以本文选用关键词表述主题特征是可行的。对比新浪微博自身的舆情检测平台“微舆情”，发现本文识别的带话题标签类主题皆符合微舆情热点主题情况。然而这类微博属于特殊文本，其自身可能是基于当下热点主题进行的带话题标签文本发布，因此，其识别的准确性虽高，但并不具备很高的代表性，例如主题1“2016里约奥运会”，其在特殊的时间段内(奥运会开展期间)，数量呈现出指数增长式爆发，不论是各类官方媒体还是明星大V们，都在关注并参与到该主题的传播中，其成为热点主题属于必然现象。但针对包含主题标签的所有微博而言，大多数微博所发布的内容并不完全与主题词直接相关，如主题1“2016里约奥运会”，用户发表的微博内容并不一定聚焦于“2016、里约、奥运会”这些主题词，其发布的主题可能只是该主题下的一部分。

因此本文选取主题2“孙杨”为例，进行该种子主题下的子主题识别，实行基于核心节点的局部社区发现，结果如图2所示：

图2 主题2“孙扬”局部社区发现结果

其中，位居图2中心位置的关键词社区所表述的主题即为种子主题，社区1～9表示9个子主题，其具体表述如表3所示：

表3 主题2“孙杨”下的子主题识别结果

表3(续)

对比表2和表3我们发现，通过话题标签识别出来的种子主题更具概括性，并不能准确表示用户真正想表达的主题，如主题2“孙杨”仅表示用户发布的微博与孙杨有关，而通过子主题的识别可准确发现有的用户关注的是孙杨带病参赛所表现出的奥林匹克精神，有的则更关心孙杨的身体状况，愿其能养好身体，因此有必要对种子主题进行进一步的子主题识别，实现更细粒度的主题发现。

2.2.2 不带话题标签的微博

对于该类微博，直接采用研究提出的关键词特征抽取方法，获取符合条件的有效关键词集。以上述数据集中2016年8月13日的微博数据为依据，针对不带话题标签的微博做基于关键词共现网络的社区发现，结果如图3所示：

图3 不带话题标签微博主题识别情况

一共识别出10个主题，见表4：

表4 不带话题标签主题识别表

由图3可以看出，因采集数据时段为里约奥运会开展期间，期间的大部分微博内容均提及关键字段“2016”、“巴西”、“奥运会”等等，这使得社区1与其他社区的连接非常紧密，出现图3中的社区1“2016里约奥运会”位居社区中心的现象，与上节中出现的种子主题十分类似，究其原因是由数据集的特殊性造成的。此外除了社区1是巴西奥运会主题，社区2～10涵盖了帆船、蹦床、接力、乒乓球、拳击、竞走、自行车、举重、游泳各项体育赛事，很好地将用户关于奥运会的谈论主题划分开来，分门别类，说明公众在奥运会期间对各类体育项目均有关注，无论是拿下了“首金”、获得“银牌”还是“无缘决赛”，大众纷纷发表了自己的言论观点并参与了讨论。进行用户发布的微博主题识别，不仅能直观地了解讨论的主题分布，还为进一步热点主题的识别奠定了基础。

3.3 主题热度分析实验结果与分析

为了获晓主题的热度，发现民众的关注、讨论焦点，实验对上述不带话题标签的微博中识别出的10个主题分别做热度度量，得出该时间窗内各主题热度值占比，结果如图4所示：

图4 不带话题标签微博各主题热度排序

从图4中可以看出，实验检测出的当前最热的主题为“2016里约奥运会”，占当前时间窗热度值的31%左右，随后9个主题按热度从大到小排序依次是：孙杨带病参赛1 500米无缘决赛；男子4*100米接力；女子团体自行车竞速赛首金；蔡泽林、王镇包揽男子竞走冠亚军；奥运黑点：拳击黑幕，国旗弄错；田涛获得85公斤级举重银牌；中国乒乓球队小组赛事；徐莉佳帆船名次下跌；何雯娜蹦床比赛。对比微博平台热点主题的实际情况，基本检测正确，证明本文热点主题识别方法是可行且有效的。其中，“孙杨带病参赛1 500米无缘决赛”排在热度值的第二位，这可能是因为赛前澳大利亚运动员霍顿对我国游泳运动员孙杨进行了言语挑衅，指责孙杨是一位“吃药的骗子”并强调孙杨将无缘金牌，该言论一经曝光立刻引起网民的高度重视，大规模参与到孙杨赛事的讨论中，事关国家的荣誉与尊严，更能使民众的情绪高涨、讨论呈爆点趋势，使得最终孙杨无缘1 500米决赛这一憾事的关注度超过了排名第三的当日“男子4*100接力决赛”，甚至超过了紧跟其后的自行车团体拿下首金、竞走包揽冠亚军两大喜事的关注度。同时，排名第五的“奥运黑点：拳击黑幕，国旗弄错”也排在了“田涛获得85公斤级举重银牌”的前面。表明较于国家正面的拿下奖牌事项，公众可能对来自外界对我们国家的寻衅事项更为敏感，易于发表言论，使其蔓延成为热点主题。因此，越早准确地发现和识别热点主题，不仅有利于政府和企业掌握社情民意、把握舆情动态，还能为相关部门监控、疏导网络舆论提供有价值的方向。

3.4 主题2“孙杨”热度迁移分析

经过上述的主题热度计算，可以得到每个主题在单个时间窗内的热度值。现以“天”为时间单位，以4.2小节里数据集中的主题2“孙杨”为例，采集了2016年8月12日至2016年8月19日关于该主题的微博数据236 716条，共包含62 757个用户，考察该主题在不同时间窗的热度值变化，得出该主题的生命周期和热度迁徙情况。

3.4.1 用户影响力

取热度度量中的α=1，β=0，得主题2“孙杨”的用户影响力，如图5：

图5 主题2“孙杨”的用户影响力变化曲线图

3.4.2 传播影响力

取热度度量中的α=0，β=1，得主题2“孙杨”的传播影响力，如图6：

图6 主题2“孙杨”的传播影响力变化曲线图

3.4.3 主题热度

取热度度量中的α=0.5，β=0.5，得主题2“孙杨”的热度，如图7。

由以上3张图可看出，无论是用户影响力、传播影响力还是主题热度，三者走势基本是一致的，即：无论是用户参与度还是主题扩散程度均能体现主题热度的变化。梳理主题2“孙杨”的关键舆情信息，如表5所示。

图7 主题2“孙杨”的热度变化曲线图

时间主题2016-08-12孙杨即将参赛1500米自由泳2016-08-13孙杨带病出战1500米自无缘决赛2016-08-14孙杨加油2016-08-15孙杨东京奥运会再见2016-08-16中国游泳队抵京2016-08-17奥林匹克精神重在参与2016-08-18伦敦奥运孙杨表现2016-08-19孙杨感冒好了重赛

主题热度走势梳理如下：

8月12日，孙杨将出战卫冕冠军项目——1 500米自由泳，因此，绝大部分媒体均参与了预告孙杨赛程并给予祝福的信息传播；8月13日，里约奥运会男子1 500米自由泳预赛，孙杨带病出战排名第七，无缘决赛，这一情况一经出现，立刻引起网民的高度关注，呈现热点爆发现象；8月14日，对孙杨的讨论减少，这一时间段内，人们基于“孙杨带病参赛”的情况发布了其余的内容，主题迁移为“孙杨加油”；8月15日，人们对孙杨的讨论继续减少，少部分的人发布了孙杨关于再战下一届奥运会的信息，而绝大多数网民参与到了其他主题的传播中；8月16日，出现一个小峰值，因为中国游泳队顺利飞抵北京，包括孙杨、傅园慧等等，许多网民不仅在微博上发布了相关消息，甚至亲自去到机场一睹运动将风采，使得关于孙杨的讨论出现增高；8月17日，热度再次下降，部分媒体发布孙杨相关采访信息，宣言孙杨带病参赛的奥林匹克精神，得到少数网民传播；8月18日，少数网友对比了孙杨在本次里约奥运会以及上一届伦敦奥运会的表现，表达了对孙杨的支持与理解；而8月19日，热度再次出现上升趋势，原因是女子4*100米美国队掉棒申诉成功，破例获得重赛资格，挤掉中国队，该事件一出现即引起网民广泛讨论，其中一些网友由此联想到孙杨事件，纷纷表达“让孙杨申诉，感冒好了重新比赛”，使得关于#孙杨#的主题热度出现回温趋势。

对该主题的生命周期进行分析，结果如图8所示。

由图8可看出，8月12日至8月13日，主题2“孙杨”处于生成扩散阶段，在微博上引起网民关注，期间事件迅速升温，出现舆情热度的首次峰值；8月14日至8月15日处于消减阶段，该主题的舆情热度开始降低；8月16日又处于扩散阶段，这是该主题出现了新的关注转折点，舆情热度回升上一个小波峰；8月17日至8月18日再次进入消减阶段，该主题的舆论慢慢降温，舆情热度逐渐降低；8月19日处于扩散阶段，该主题的热度有稍许回温，大体呈现平稳状态。不难发现，该舆情主题的生命周期的波动较大，舆情热度升温迅速、降温也很快，整个生命周期呈现的时间比较短暂。且到最后该舆情主题也没有完全消亡，而是伴随其他主题的热度被网友再次联想提及，这可能是因为，在舆情网络中主题与主题之间并不是孤立存在的，许多主题由于存在一定的相关性或相似性，在其中一个爆发成热点主题后网民对此的讨论和联想会加深加剧，从而引发另一波主题的复现。因此在网络舆情中如果短期内出现多起类似的负面新闻主题，政府和企业更应该注意，避免舆论的连带效应引发到不可收拾的地步。

图8 主题2“孙杨”的生命周期阶段划分

3.5 主题2“孙杨”情感分布分析

现实中常常存在归到一个主题下的微博表达的却是截然不同的情感的现象，为了避免将两个情感极性相反的微博归为一类，本研究对主题进行情感倾向性分析。还是以主题2“孙杨”为例，将该主题下的所有微博按其情感倾向分为正、负两类，分析该主题的情感分布及走势，如图9所示：

图9 主题2“孙杨”的情感分布及走势

由图9可看出，8月13日到8月19日期间，关于主题2“孙杨”，大部分网民的微博评论均为正面情感，如“孙杨带病参加资格赛，展现奥林匹克精神”、“孙杨养好身体”、“孙杨下次亚运会加油”；极少部分为负面，且多属于网民个人负面情感的宣泄，如“孙杨服用兴奋剂”、“孙杨说大话打脸自己”。总体来看，关于这一主题的舆论是比较正面和积极的，且在这一周内波动不大，较为良好。在实际的舆情监控工作中，当通过分析情感分布发现负面情感占比过多时，应及时进行正面的舆论引导，避免大规模负面舆论的爆发。

4 总结与展望

本文从关键词本身与所属主题两方面综合考虑，提出了一种全新的基于主题特征的关键词抽取算法，同时，不仅考虑了微博传播过程中的用户行为和微博特征，还结合了用户属性进行主题的热度分析，最后引入社区发现等方法体系发现热点主题，最终实验结果理想，可较为准确地识别微博中的热点主题。此外，本文还对热点主题的热度迁徙和情感分布进行了分析，期望起到一定的预警作用，但是研究仍存在一些不足，一是实验部分采集的数据量有限，可能会导致部分热点主题的遗漏；二是主题识别依赖关键词集及人工总结，缺少能直接表达主题的完整语句。在接下来的研究中，将考虑通过采用自动摘要技术，提高主题识别效率，避免人工总结带来的主观性错误。

[1]路荣,项亮,刘明荣,等.基于隐主题分析和文本聚类的微博客中新闻话题的发现[J].模式识别与人工智能,2012,25(3):382-387.

[2]郑斐然,苗夺谦,张志飞,等.一种中文微博新闻话题检测的方法[J].计算机科学,2012,39(1):138-141.

[3]谌志群,徐宁,王荣波.基于主题演化图的网络论坛热点跟踪[J].情报科学,2013,(3):147-150.

[4]王伟,许鑫.基于聚类的网络舆情热点发现及分析[J].现代图书情报技术,2009,(3):74-79.

[5]王小华,徐宁,谌志群.基于共词分析的文本主题词聚类与主题发现[J].情报科学,2011,(11):1621-1624.

[6]迟呈英,李红.基于改进TF* PDF算法的网络新闻热点话题检测和跟踪[J].计算机应用与软件,2013,(12):311-314.

[7]高继平,丁堃,潘云涛,等.多词共现分析方法的实现及其在研究热点识别中的应用[J].图书情报工作,2014,58(24):80-85,98.

[8]王勇,肖诗斌,郭跇秀,等.中文微博突发事件检测研究[J].现代图书情报技术,2013,29(2):57-62.

[9]赵文清,侯小可.基于词共现图的中文微博新闻话题识别[J].智能系统学报,2012,7(5):444-449.

[10]毕凌燕,王腾宇,左文明.基于概率模型的微博热点主题识别实证研究[J].情报理论与实践,2014,37(2):112-116.

[11]曹通.一种基于语义分析的热点新闻发现方法[J].计算机与现代化,2017,(6):30-33,39.

[12]吴永辉,王晓龙,丁宇新，等.基于主题的自适应、在线网络热点发现方法及新闻推荐系统[J].电子学报,2010,38(11):2620-2624.

[13]唐晓波,向坤.基于LDA模型和微博热度的热点挖掘[J].图书情报工作,2014,58(5):58-63.

[14]聂文汇,曾承,贾大文.基于热度矩阵的微博热点话题发现[J].计算机工程,2017,(2):57-62.

[15]J Deng,K Deng,Y Li,et al.Hot Topic Detection Based on Complex Networks[J].Fuzzy Systems and Knowledge Discovery(FSKD),2013 10th International Conference on,2013:1055-1059.

[16]P Bródka,P Kazienko,K Musial,et al.Analysis of Neighbourhoods in Multi-Layered Dynamic Social Networks[J].International Journal of Computational Intelligence Systems,2012,5(3):582-596.

[17]吴小兰,章成志.基于突发事件特征网络的用户社区发现与社区主题演化研究——以新浪微博H7N9事件为例[J].情报理论与实践,2017,40(5):94-98,60.

[18]段炼,朱欣焰.基于社区时空主题模型的微博社区发现方法[J].电子科技大学学报,2014,43(3):464-469.

[19]王林,戴冠中.基于复杂网络社区结构的论坛热点主题发现[J].计算机工程,2008,34(11):214-216,224.

[20]邱均平,王菲菲.基于共现与耦合的馆藏文献资源深度聚合研究探析[J].中国图书馆学报,2013,39(3):25-33.

[21]吴靓婵媛.基于社区发现的网络舆情热点主题识别研究[D].南京：南京理工大学,2017.