面向微博平台的谣言识别技术＊

2022-11-16 10:47陈蕾邹仪

科技与创新 2022年8期

陈蕾，邹仪

（中国人民警察大学，河北廊坊 065000）

1 研究背景

“谣言识别”被赋予了非比寻常的时代意义。目前，信息以互联网为载体在网民之间飞速传播，“话语权”也向普通民众转移，自媒体时代的到来深刻地影响着人们的生活。更需重视的是，网络在极大方便信息交互的同时，一些无中生有或粉饰事实的信息，由于难以识别、不易发现，导致其在传播网络中被歪曲放大不断蔓延，造成消极的社会影响甚至危害社会秩序和国家安全。例如，2013-04-23，黑客入侵美联社的Twitter 账号，散布美国总统奥巴马被炸伤的谣言，引起资本市场的震荡，令美国股市蒸发2 000亿美元[1]。微博凭借其多样性、共享性、实时性、互动性在各类社交媒体平台中脱颖而出，即使是用户覆盖度最高的微信系统，其微信公众账号中超过60%的推广信息也是通过微博进行发布的[2]，识别微博平台中的谣言也具有相当重要的意义。

目前关于谣言的识别方法可以分为2 大类，一类是基于人工的识别方法，另一类是基于计算机技术的自动识别方法。

2 人工谣言识别

人工谣言识别法是各大网络社交平台普遍使用的一种谣言识别方法。由于社交媒体中谣言难以一一辨认，各类平台都鼓励其用户进行监督投诉，开设专门的投诉通道，甚至对能准确投诉监督的用户有一定奖励；此外，平台也会在其用户中或社会上选择一些行业专家，利用专家的领域知识对相关谣言信息的真实性进行鉴定识别。前者利用普通网民进行谣言识别，可称为网民谣言识别；后者认定相关专家进行谣言识别，可称为专家谣言识别。

2.1 网民谣言识别

关于网民谣言识别的研究较少，且在行政管理领域被讨论较多。郑洁等[3]认为要培育全民“把关人”，使其自觉加入到处理相关事件的队伍里，只有这样才能有效规避技术弊端所带来的监管缺失问题。林鸿潮[4]认为要发挥集体智能在网络空间探寻真相，通过“众包”协作的方式，集合“数字志愿者”的力量。相关研究大多停留在探讨广泛发动网民的重要意义上，至于如何更加高效、科学地发动网民的力量较少讨论。

2.2 专家谣言识别

专家谣言识别在社交媒体上一般作为网民谣言识别的一种补充。张淳艺[5]针对新冠肺炎期间“粮慌”的谣言提出政府等权威机构要及时澄清、辟谣，民众也要做到“不信谣，不传谣”。高玉君等[6]通过研究微博辟谣机制，说明了专家谣言识别的过程。微博网民通过“举报”功能向平台举报可疑信息，微博平台的相关专家会再次对这些信息进行一个再判别，并在平台上公布鉴别结果，这些专家或权威机构也可以在网络中直接搜寻相关“谣言”并加以判断，平台会通过公众号“微博辟谣”对用户进行发布。

人工谣言识别法有着较高的识别率，但亦存在着一些缺点。其一是人力耗费多。无论是网民谣言识别还是专家谣言识别，都需要对相关信息进行逐条甄别并以此识别出其是否为谣言，这就意味着将产生极大的人力消耗。其二是专业依赖强。谣言复杂多样，单个谣言可能包含着跨度极广的专业知识，某些特定领域的专家依赖其知识背景或专业知识有很大概率作出错误的判断。其三是遗漏率高。社交媒体平台对做出正确举报行为的用户没有“实质”性的奖励，导致网民对监督举报的积极性低，仅靠其自觉又难以达到相应效果，加之专家等专职人员数量有限，所以无法对谣言进行全方位的网罗、识别。

3 自动谣言识别

自动谣言识别包括基于机器学习的谣言识别和基于深度学习的谣言识别。本节将对2 种方法在谣言识别领域的研究作出归纳说明。

3.1 基于机器学习的谣言识别

目前应用于谣言识别的机器学习算法主要有支持向量机、决策树、贝叶斯算法、随机森林等。用其进行谣言识别的一般过程是：在谣言发布初期，结合自然语言敏感词、情感词等分析手段识别话题，进行初步筛选。具体步骤是：用爬虫软件获取微博原始数据，并进行数据清洗，去除无关信息；对获取的微博数据进行分词、去停用词，并结合微博的内容增加新词汇，然后对文本特征按权值进行转换，最后进行聚类和降维，实现输出。

3.1.1 数据获取

数据获取是进行谣言检测的前提，现在一般借助网络爬虫程序实现数据获取。其大体流程是：根据微博等社交软件的特点，分析登录协议、数据请求过程和每个请求的URL 与数据的对应关系；然后，通过获取cookie 并创建session，使用程序模拟网页登录的过程；实现模拟登录后，以登录用户的信息为种子集合，通过HTTP 协议使用GET 方法对数据进行采集并对获得的数据进行解析。这种模拟用户登录的方法，不需要官方授权和APⅠ，很灵活，可以全面、高效地获取数据。

3.1.2 数据处理

对于获取的微博数据，需要进行相关的文本分析和特征提取，以方便机器学习算法处理。主要步骤有：①噪声过滤。去除噪声是数据清洗的一部分，主要目的是去除无用的数据，提升后续环节的检测效率。一般设定一个阈值，将粉丝数量低于该阈值的微博用户的微博数据删除。②分词。微博文本都删除是短文本，对短文本进行分类，是进行预处理的关键步骤之一。目前比较常用的中文分词方法主要基于统计学、字符串匹配或者人工智能方法，实现将连续文本转换成词的序列，方便进行去除停用词、词性转换等，从而为后续的文本向量化打下基础。③向量表示。为了方便计算，一般需要将微博的文本信息按照其特征项（比如字符、词语）转换为特征向量的形式。有效地为微博消息的文本内容建立结构化向量，计算文本之间的相关性，是提升识别效率的重要手段。

3.1.3 特征选择

目前用于谣言识别的机器学习算法大都属于监督学习，严格意义上来说仍然需要人工对其训练数据进行标注，但造成不同算法甚至相同算法间巨大差异的原因在于其训练分类器的数据特征不同。如何取舍相关特征用以表征数据，就成为谣言识别成效的关键所在。现在研究比较多的特征类型如下。

3.1.3.1 基于用户特征

谣言发端于用户，用户是社交网络的重要组成部分，将其作为谣言识别的特征亦是值得研究的课题。针对该特征，LⅠANG 等人[7]基于微博平台用户的行为，选取发帖用户和传播用户每日关注的好友数、每日发布的博文数、可能的消息源数、质疑评论占比和更正数这5 个特征，结合用户认证人数、粉丝人数、转发及评论数等特征数据训练决策树模型，并获得了86.5%的精确度和85.4%的召回率。WU 等[8]认为谣言归根结底是由普通用户发布，再被意见领袖转发，最后被大量普通用户转发，这是区别于非谣言的一个重要特征，其选取信息发布者和转发者的行为特征与消息内容特征相结合，利用混合SVM 模型以识别谣言。

3.1.3.2 基于内容特征

在社交平台中，内容是谣言的表现形式，其包括文字、图片、视频、表情符号等，在各类文献的研究中，实验结果均表明基于内容特征的谣言识别模型在性能上明显优于基于用户特征、基于网络特征的谣言识别模型[9]。贺刚等人[10]选取文本符号、链接、关键词分布、时间差4 类特征，使用SVM 模型进行训练并获得81.2%的准确率，训练结果表明，这4 类特征中关键词分布特征对准确率影响最大。ZHANG 等人[11]选取流行度取向、内外一致性、情感极性、评论观点4个基于内容的隐式特征，并用SVM 模型进行训练获得了72.4%的精确度和58.6%的召回率。

3.1.3.3 基于传播特征

谣言的传播和非谣言的传播存在着极大的不同，用户在接触谣言时会有不同的反应，而这些反应亦会被映射到传播过程中。KWON 等人[12]观察到非谣言在传播过程中会有一个显著峰而谣言则会有多个峰，基于该特征建立了周期性外部震动模型以捕获谣言的周期性爆发，最后结合结构和内容特征训练随机森林模型获得93.5%的精确度和89.2%的召回率。MA 等人[13]提出传播树内核（PTK），主要选取传播结构中的非时间特征，实验结果显示，PTK 谣言识别模型分别比基线方法中表现最好的GRU 模型检测精确度提高6.4%、8.9%。

综合来说，基于机器学习的谣言识别关键在于选择合适的特征，特征的选择在一定程度上比算法模型的选择更为重要，所以其本质还是人工性的，存在着一些不足。其一，对于一些复杂数据难以处理，社交媒体谣言数据特征一般是高维、抽象的，人工难以完全拆解识别。其二，使用人工标注的特征集合用以训练模型，并试图得到一个通用的谣言识别机器，难以保证模型的泛化性能。

3.2 基于深度学习的谣言识别

深度学习作为机器学习一个发展迅猛的分支，在自然语言处理等方面应用越来越广泛。深度学习主要有卷积神经网路（CNN）和循环神经网络（RNN）2大类组成，比较灵活，一般只需要修改参数就可以实现模型修改，但是需要大量数据和训练的支撑。

相比于机器学习需要人工进行特征筛选，深度学习可以自动习得相关数据特征，且其学习得到的特征比人工标注的更加有效，达到更好的谣言识别效果[14]。MA 等人[15]提出利用循环神经网络（RNN）检测微博谣言，并分别在Twitter 和微博数据集上进行实验，并与SVM-TS 等手工制作特征模型进行比较，其中GRU-2 在Twitter 和微博数据集上的准确率分别为88.1%和91.0%，准确率大幅提升。刘政等人[16]采用卷积神经网络（CNN）检测微博谣言，并使用Doc2Vec训练向量矩阵，此模型与RNN 模型进行比较，精确率提高了10.2%。WANG 等[17]通过研究各类谣言事件的共性，提出事件生成对抗网络（EANN）模型以识别谣言，实验显示该模型比att-RNN 模型的准确率提高了10.3%，F1 提高了16.5%，表明事件共性特征进一步提高了模型的泛化能力。刘钟山[18]提出的基于LSTM 的谣言检测模型作为改进的RNN 模型，对公开的微博谣言数据集进行检测，实验显示该模型比GRU 模型的准确率提高了12.0%，F1 值提高了11.3%，整体识别效果良好。

综合来看，基于深度学习的谣言识别的效果优于机器学习的模型，它很好地避免了人工特征选择的缺陷，但是由于其比较复杂，需要大量的数据作为支撑，因此如何获得大量且完整的数据也成为了一个关键问题。

4 结语

人工识别和机器自动识别2 类谣言识别的方法各有其优缺点和存在的意义。人工识别的方法由于其准确性等优点有着不可替代的作用，但应该提出更为有效、科学的方法来促进发挥其作用。基于机器学习的谣言识别技术如何取舍相关特征用以表征数据是谣言识别成效的关键。目前多采用支持向量机（SVM）模型，在特征选取上内容特征有着很高的准确度，但是还应关注这些综合性特征在不同算法模型甚至不同模型组合中的训练精度，以及模型的泛化能力。基于深度学习的谣言识别可以自动习得相关数据特征，且其学习得到的特征比人工标注的更加有效，存在很多优势，但较为复杂，未来亦会有更多在此方面的研究。