一种基于深度学习模型的常识类谣言自动检测方法

2021-05-28 12:37李郭钰叶奕李金玲
现代计算机 2021年10期
关键词:语料常识谣言

李郭钰,叶奕,李金玲

(南华大学计算机科学与技术学院,衡阳421000)

0 引言

随着互联网的出现和迅速发展,Web网络为我们提供了信息传播与共享,个人对新闻意见表达的平台,在国家安全、经济、现代信息服务等领域中的作用日益凸现。近几年我国乃至国际通过网络爆发的重大舆情事件激增,如三鹿奶粉事件、突尼斯的茉莉花事件等,都不同程度地掀起了网络舆情浪潮,对事件发展、政府公信力、社会舆论安全以及国家安全造成了巨大的压力[1]。借助互联网这一当前规模最宏大、尺度最开放、参与门槛最低的公共舆论空间,不仅有寻求利益诉求的普通民众,也有不怀好意散播谣言的不良分子。例如非典时期民众对于板蓝根、抗病毒口服液、醋等商品的抢购行为,就是因为听信了这类犯了常识性错误的网络谣言。随着越来越多的“凭空捏造式”曝光事件不断浮出水面,网络中的常识性谣言已严重影响了民众的正常生活。为了避免网络舆论空间被人利用,人为制造伪谣言引发群体性事件,如何检测和监控谣言成为目前净化网络环境迫切需要考虑的问题。

传统的谣言检测方法通常是从谣言的特征分析入手,然后利用机器学习算法根据建立的特征空间,把网络舆情分为谣言和非谣言两类。Castillo等人[2]从文本、用户、话题、传播等四个维度总结了15项关键特征,并采用J48算法实现了谣言的自动检测。此后,学者们发掘了多种网络谣言的特征[3-4],如位置特征、时间序列特征、语言结构特征、网络转发度等多种特征,然后再利用SVM、决策树、随机森林等多种传统机器学习算法进行谣言的自动识别[5]。上述基于特征的机器学习方法虽然在谣言检测性能上取得了较好的成果,但是特征分析所耗费人力、物力和时间以及鲁棒性不足等问题仍无法较好地解决。

随着深度学习技术在图像领域获得的成功,不少学者开始在谣言检测领域使用深度学习算法,旨在提升谣言检测的自动化程度。Ma等人[6]首次将深度学习模型应用在社交媒体谣言检测问题上,利用TF-IDF计算得到各个时间段的微博文本向量,并输入双层的门控循环单元GRU网络学习事件的特征表示。廖祥文等人[7]考虑到微博问的时序特征,融合注意力机制和双向GRU网络模型,时间段序列的隐层表示,进而对微博事件进行分类。深度学习算法的不断改进,谣言自动化监测性能也在逐步提升,但是在已有的研究中,谣言的内容特点并未被考虑。刘勘等人[8]首次提出了利用Multi-BiLSTM模型解决不同领域的谣言检测问题,研究结果表明分领域进行谣言检测性能较已有方法有较大提升。不过,该方法在应用过程中,必须对数据集进行细分,而现实生活中把数据集分为较多的子类别,既不现实也耗费时间。因此,本文把网络上的谣言进行分类,重点针对常识类的谣言,根据其特征提出一种基于深度学习模型的常识类谣言自动检测方法。

1 深度学习模型概述

1.1 LSTM模型结构

长短期记忆网络(Long Short-Term Memory,LSTM)[14]是一种时间循环神经网络,要是为了解决普通循环神经网络(Recurrent Neural Network,RNN)模型中训练长序列数据的梯度消失或梯度爆炸问题。从图1所示的LSTM内部结构图中可以看出LSTM与RNN的区别在于,LSTM模型中设立了三个门(gate)来决定上一层的input值是否重要到能被记住及能不能被输出output。每个门(gate)都是由一个Sigmoid函数单元控制,其中输入门(input gate)如果产生的值近似于零,则将把这里的值挡住,不会进到下一层;遗忘门(forget gate)产生值近似于零,将把区块里记住的值忘掉;输出门(output gate)可以决定在区块记忆中的input是否能输出。

图1 LSTM模型结构图

1.2 Attention机制

近年来,注意力(Attention)机制在自然语言处理领域许多问题的解决上得到了广泛的应用。2017年,Google机器翻译团队发表的Attention is all you need中大量使用了自注意力(self-attention)机制来学习文本表示。自注意力机制也成为了近几年深度学习的焦点之一,并在各种NLP任务上进行探索。Attention函数其本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射。在计算Attention时主要分为三步,首先是将query与每个key进行相似度计算得到权重,常用的相似度函数有点积、拼接、感知机等;接下来一般是使用一个Softmax函数对这些权重进行归一化;最后将权重和相应的键值value进行加权求和得到最后的Attention。目前在NLP研究中,key和value常常都是同一个,即key=value。具体计算过程如图2所示。

图2 Attention机制计算原理图

2 基于深度学习模型的常识类谣言检测

2.1 常识类谣言检测技术框架

本文主要是针对常识类谣言检测方法的研究,目标是得到一个对常识类谣言识别准确率高,且各方面表现优异的模型。主要过程有数据获取,语料预处理、模型训练、数据可视化四个步骤。数据获取主要通过网络爬虫爬取中国互联网联合辟谣平台等多个网站上经过官方权威辟谣过的谣言信息,以及使用复旦大学文本分类数据集中的相关数据。对已有语料的预处理包括语料清洗、分词、标注、去停用词这四个步骤,处理后的数据集被分为谣言类,非谣言类。然后使用SVM、KNN、朴素贝叶斯这三种机器学习模型以及CNN、LSTM、MLP这三种深度学习模型进行训练,并且在此基础上衍生出了四种模型,进行对比实验,最后利用Python中的plot将数据可视化处理。技术路线如图3所示。

图3 常识类谣言检测技术路线图

2.2 基于LSTM+Attention的常识类谣言检测模型

由于LSTM的特征提取能力不够理想,因此我们使用嵌入Attention机制的LSTM模型实现对常识类谣言的检测,如图4所示,具体步骤如下:

步骤一:首先使用Word2Vec模型,并加入Adam优化器,实现输入文本的向量化。本文的语料库p由n个句子组成,每个句子又由m个单词组成,即,p={p1,p2,...,pn},pi={si1,si2,...,sin},si={wi1,wi2,...,wim}。使用经过预训练的向量集替换后的embedding矩阵形状为365076×300,最后,设定embedding层的参数固定,不参加训练,把预训练的Word2Vec嵌入LSTM模型之中,接着利用LSTM_Layer进行词语特征信息提取。

步骤二:由于LSTM的特征提取能力不够理想,我们在此嵌入注意力机制,在文本信息向量化的前提下,提取文本的局部特征,然后将这些特征导入LSTM模型,通过注意力机制对LSTM模型的输入与输出之间的相关性进行重要度计算,根据重要度获取文本整体特征。在此模型中,注意力层的效果可以看作是一个自动加权,它链接了两个不同的模块,这两个模块通过加权来链接。以获得更好的特征提取效果。

步骤三:最后,融合局部特征和整体特征,通过分类器输出分类结果。

图4 基于LSTM+Attention的常识类谣言检测模型图

3 实验

本文在各个模型对比实验中用到的指标有四个,分别是准确率(Accuracy)、召回率(Recall)、精确率(Precision)、F1值。首先,语料被分为四类:

TP:样本为正,预测结果为正,即样本为谣言,实际被检测为谣言;

FP:样本为负,预测结果为正,即样本为非谣言,实际被检测为谣言;

TN:样本为负,预测结果为负,即样本为非谣言,实际被检测为非谣言;

FN:样本为正,预测结果为负,即样本为谣言,实际被检测为非谣言。

为了验证本文所提出模型的有效性,把提出的LSTM+Attention模型与传统的机器学习模型和主流的深度学习模型进行对比,实验结果如表1所示。

表1 深度学习与机器学习模型对比分析

从表1我们可以看到LSTM_Word2Vec_Attention神经网络模型的检测准确率达到了92.2%,并且召回率也达到了93.5%,说明该模型在处理常识类谣言检测问题上有着非常优异的表现。加入Attention机制以及Adam优化器使得LSTM模型进行了再一次的提升,这是由于Attention层更好地获取语料中的特征,实现了对贡献度不同的词语进行提取,并且抓住样本中本身存在的关系,同样也体现出了Adam优化器的一些优点:①参数的更新没有受梯度的伸缩变换的影响;②超参数的解释性较好,一般情况下无需调整;③很适合应用于大规模的数据及参数的场景。

同时从表1中我们也能直观地发现,实验中所用到的深度学习模型对于常识类谣言检测的表现,普遍优于机器学习模型。虽然深度学习模型对于数据的依赖性较大,执行时间普遍长于机器学习模型,但是大多数机器学习算法的性能依赖于所提取的特征的准确度,然而深度学习会尝试从大量数据中直接获取高等级的特征,这也是深度学习模型在处理常识类谣言识别这类问题上普遍强于传统机器学习模型的一个重要因素。通过实验数据的对比,我们也可以发现无论是对于机器学习模型还是深度学习模型,引入预训练的Word2Vec模型会给训练和测试结果带来明显的提升,所以文本向量化在处理这类问题上起着至关重要的作用。

4 结语

本文以准确、高效地识别常识类网络谣言为目的,利用网络爬虫获取了大量谣言信息,对语料进行了预处理之后,在LSTM_Word2Vec模型基础上进行优化,并嵌入注意力机制,提出了一种LSTM_Word2Vec_At-tention神经网络模型用于常识类的谣言检测。

通过实验数据的对比,本文得到了以下结论:首先相较于传统机器学习模型,深度学习模型在常识类谣言检测的任务中有着很好的表现;其次,加入预训练的Word2Vec模型给模型准确率带来了3-7.6%的提升,这说明文本向量化在处理这类问题上起着至关重要的作用;最后,在LSTM模型基础上进行优化,并嵌入注意力机制和Word2Vec词向量得到的LSTM_Word2Vec_Attention神经网络模型达到了92.2%的准确率,这证明该模型对于常识类谣言任务有着比传统深度学习模型更好的表现。

猜你喜欢
语料常识谣言
中国使馆驳斥荒谬谣言
靠不住的常识
不信谣言 科学防“疫”
健康常识我知道
浅谈视频语料在对外汉语教学中的运用
常识:哪杯更冰凉
可比语料库构建与可比度计算研究综述
你被养生谣言忽悠过吗?
谣言π=4!
英语教学中真实语料的运用