基于混合神经网络的中文隐式情感分析

2020-04-01 09:02赵容梅琚生根李中志
关键词:向量卷积注意力

赵容梅, 熊 熙, 琚生根, 李中志, 谢 川

(1.成都信息工程大学网络空间安全学院, 成都 610225; 2.四川大学计算机学院, 成都 610065)

1 引 言

情感分析是自然语言处理领域的一个热点研究问题,可以理解为通过识别文本观点以分析情感的倾向性,文本情感分析不同于文本分类和文本挖掘之处在于:情绪具有抽象性,仅以字面意思判断文本所表达的情绪是片面的,这种方式只适用于带有明显的情感词或者是能够充分表达情绪的表情符号的文本.

现今越多越多的人愿意在微博、微信等社交平台上通过发表纯文字或者是带有图片的动态信息表达自己的生活状态和情绪状态,少部分的动态信息可以直接表达自己当前情绪,而大量动态语言则较含蓄,没有出现明显的情感词,无法直观判断所表达的隐式情感.如表1的三句话,分别表达了褒义、贬义和客观(中性)的隐式情感.

表1 隐式情感句

显式情感分析的研究成果目前已经比较丰富,隐式情感分类的研究仍处于起步的阶段.隐式情感分析在知识嵌入、文本表示学习、用户建模和自然语言理解等方面的研究起着重要作用,可以更全面地提高文本情感分析效果,推动文本情感分析在相关领域的应用.

近年利用机器学习方法进行情感分析的研究提升了实验性能.王进等人[1]针对行人属性分类受行人属性不均衡影响的问题,提出了一种基于属性敏感卷积神经网络的行人属性分类方法.Hu等人[2]将卷积神经网络应用于语义匹配任务中,陈波等人[3]提出一种基于循环结构的神经网络文本分类方法,该方法对文本进行单次正向及反向扫描,能够在学习单词表示时尽可能地捕获上下文信息.Gu等人[4]将SVM嵌入到卷积神经网络中代替传统的softmax分类器,该模型在中文句子分类任务中有比较好的实验性能.

Chen等人[5]提出了一种RNN模型,在多任务学习框架下同时进行手写体识别和文本行识别.罗帆等人[6]提出一种多层网络H-RNN-CNN,模型是CNN和RNN的简单结合,用于处理中文文本情感分类任务.彭嘉毅等人提出一种基于字符特性,双向长短时记忆网络(Bi-LSTM)与条件随机场(CRF)相结合的信息安全领域命名实体识别方法.目前有关文本的研究应用比较广泛的模型是LSTM和GRU和基于这两个模型的改进算法.Tran等人[8]将GRU模型应用在对话系统中,实验表明该算法的实验性能高于原有的算法.

注意力机制逐渐被广泛应用于各类自然语言处理任务中.杜天宝等人[9]将文本中的每个词语映射成情感词向量, 进而将其作为卷积神经网络的输入, 并加入注意力机制对输出结果进行优化.Huang等人[10]提出了用于语音情感识别的深度卷积神经网络,同时在该网络中引入了注意力机制,用于学习与任务相关的话语结构.刘广峰等人[11]针对文档水平情感分析传统模型存在先验知识依赖以及语义理解不足问题,提出一种基于注意力机制与层次网络特征表示的情感分析模型TWE-ANN.

一些研究者通过组合各类神经网络解决单一神经网络中存在的不足.Chen等人[12]提出了一种基于CNN、BiLSTM和条件随机场CRF的组合模型,该模型采用分而治之的句子分类方法.赵勤鲁等人[13]针对当前文本分类神经网络不能充分提取词语与词语和句子与句子之间的语义结构特征信息的问题,提出一种基于LSTM-Attention的神经网络实现文本特征提取的方法.Li等人[14]提出了BiLSTM-CNN方法研究了自然语言处理在文本分类中的应用问题,该模型在新闻文本分类方面具有很大的优势.

目前关于情感分析方面的研究工作主要可以分为两大类:基于规则与词典的情感分析方法,以及基于机器学习的情感分析方法.基于规则和词典的情感分析方法的分类灵活性较低、可迁移性差;利用机器学习方法进行情感分析解决了情感词典适应性差的问题,传统的机器学习方法的实验性能还有待进一步提高;基于深度学习方法可以提取文本中更深层次的句子级特征,因而提高文本分类的准确率.

本文在深度模型的基础上加入了注意力机制,在中文隐式情感分析上表现出了良好性能.本文提出的模型利用双层卷积神经网络对文本级和句子级的特征进行提取,结合双向长短期记忆网络BiLSTM结构注意其上下文信息,BiLSTM替换了传统卷积神经网络中的池化层,并且在其中加入注意力机制,分析中文文本中包含的隐式情感,将其分为不含情感、褒义隐式情感和贬义隐式情感三类.

2.1 LSTM

长短期记忆网络LSTM是RNN的一个变体,用于解决RNN网络中存在的梯度爆炸和梯度消失问题.LSTM中包含遗忘门、输入门和输出门三种类型的门,这三种门也分别对应LSTM的内部实现的忘记阶段、选择记忆阶段和输出阶段.LSTM网络如图1所示.

图1 LSTM原理图Fig.1 Long Short Term Memory network

遗忘门主要是选择性的忘记上一个节点传进来的数据,忘记门控ft计算方式如下.

ft=σ(Wf·[ht-1,xt]+bf)

(1)

其中,ht-1表示上一个cell的输出;xt表示当前cell的输入;σ表示sigmoid函数.

it=σ(Wi·[ht-1,xt]+bi)

(2)

(3)

(4)

输出门决定模型中最终输出的值,首先经过sigmoid对输入数据进行二次选择,保留需要输出的部分记为ot,再将最终更新的细胞状态输入tanh做一个非线性化处理,将两个部分相乘则得到了最终的输出ht.

ot=σ(Wo·[ht-1,xt]+bo)

(5)

ht=ot*tanh(Ct)

(6)

Wf,bf,Wi,bi,Wo,bo分别表示遗忘门、输入门和输出门对应三个阶段的权重参数和偏置参数.

2.2 注意力机制

在NLP中,注意机制允许模型根据输入文本和到目前为止生成的文本来学习应该注意什么,而不是像标准RNN和LSTM那样将整个源文本编码成固定长度的向量注意力机制原理如图2所示.

图2 注意力机制原理图

在自然语言处理中注意力机制首先用于机器翻译任务中,在机器翻译过程中注意力机制为每个单词都赋予了一个权重,而这个权重则是通过计算出来的注意力,实现在翻译下一个单词时可以只关注局部对自己比较重要的信息,注意力计算公式如下.

(7)

其中,aij是一个softmax模型输出,概率值的和为1;eij表示一个对齐模型,在机器翻译中表示的是在翻译第i个词时,受encoder端第j个词的影响程度.常见的对齐计算方式有点乘(Dot product),权值网络映射(General)和concat映射三种方式.注意力机制本质上还是一个Encoder-Decoder结构,早期应用在机器翻译任务的sequence-to-sequence结构在翻译单个单词时需要关注整个原句,不能只关注与之对应的单词和上下文.Attention机制就解决了上述问题,这也是在自然语言处理任务中被广泛应用的一个原因.

3 本文模型

3.1 模型简介

本文使用的混合神经网络包括卷积神经网络(CNN),双向长短期记忆网络(BiLSTM)和注意力机制,模型结构如图3所示.模型结构的第一层是预处理过程中的词嵌入层,第二层是一个包括三个卷积核的卷积层,使用混合卷积核的主要目的是尽可能多的提取更有意义的抽象化特征,用BiLSTM代替卷积神经网络中的池化层,利用Droupout防止过拟合.

图3 混合神经注意力网络(CLA)Fig.3 The mixed neural attention network(CLA)

BiLSTM的输出序列结合注意力机制注意贡献率较大的词向量,第三层也就是我们的句子嵌入层,第四层和第二层结构一样,用于提取句子的抽象化特征.在经过特征提取的句向量中加入注意力后作为最后一层softmax分类器的特征进行分类.词嵌入层的词向量大小为100维,每篇文档最大的句子数量设置为15.利用卷积神经网络处理文本信息时卷积核的宽度与词向量的大小一致,因此卷积核每次覆盖的上下文的范围就与卷积核的大小一致,因此可以通过设置卷积核的尺寸来决定将几个连续词的特征表示出来.传统的CNN除了有卷积层之外,还通过池化层再次提取较为重要的特征简化网络,本文选择利用双向的LSTM来代替池化层,在双向LSTM输出的序列基础上加入注意力机制,进一步的将序列中对于分类具有较大贡献率的单词和句子给予更多的注意力.

3.2 BiLSTM模型编码

本文使用的BiLSTM最终对得到的两个方向的ht进行简单的拼接即可,BiLSTM对句子的编码模型如图4所示.

图4 BiLSTM对“我爱编码这句话进行双向编码”Fig.4 BiLSTM’s bidirectional coding of “I love coding”

前向LSTM依次输入“我”,“爱”,“编码”得到三个向量,如图3蓝色部分表示的向量,后向的LSTM依次输入 “编码”,“爱”,“我”得到三个向量如图3灰色部分表示的向量,将前向和后向LSTM得到的隐向量进行拼接就得到了BiLSTM编码的向量.在本文的方法中,BilSTM并不是针对原始词经过词嵌入后得到的向量进行编码,而是在经过卷积神经网络对其进行特征提取之后,对含有重要意义的抽象特征的向量进行编码,BiLSTM编码中含有向量的上下文信息,分类时能充分利用上下文信息,提高分类性能.

3.3 本文注意力机制

BiLSTM将卷积后的提取的特征从两个方向进行汇总,充分保留特征中包含的上下文信息.注意力机制使得模型能够将更多的注意力放在对情感分类有较大贡献的单词和句子中,学习局部重要性.

本文中的注意力机制中采用的对齐模式是点乘模式,将BiLSTM输出的向量hit经过tanh变换得到隐向量表示wit,再计算每个单词对于情感分类的注意力,最后通过简单的加和得到一个句子中的所有注意力si,uw表示单词的上下文向量.某一句语言所表达的情感总是与上下句密切相关,本文提出的方法能充分利用上下文信息,对语句的情感分析不仅仅对单个语句进行编码,将这个语句的上下文一起编码成为一个简单的文档,将有标记的情感句置于文档中部,前后填充上下文语句.因此在进行特征提取时句子的上下文语义和结构信息也被包含其中,丰富了特征信息、提高了实验性能.

wit=tanh(Wwhit+bw)

(8)

(9)

si=∑aijhit

(10)

4 实验结果与分析

4.1 数据集

实验所用数据集是全国社会媒体处理大会(SMP2019)公开的由山西大学提供的数据集[15],主要是来源于产品论坛、微博、旅游网站等平台的数据.本文主要的工作是对中文的隐式情感句进行评测,数据集中包含显示情感词的文本已经通过大规模情感词典进行过滤处理.处理后的数据集中将隐式情感句进行了部分标注,分为褒义隐式情感句(1),贬义隐式情感句(2)和中性情感句(0)三类.数据以切分句子的文档形式发布,其中包含有句子的完整上下文信息,数据集的详细数据如表2所示.

表2数据集详细数据

中性句表示数据集中标注的不含情感句的数量,褒义句表示数据集中标注的含褒义隐式情感句的数量,贬义句表示数据集中标注的含贬义隐式情感句的数量,总数表示含有标注的语句总数.

4.2 评价指标

实验中所用的评价指标为准确率、精确度(P)、召回率(R)、准确率(Acc)、F1值[16]和汉明损失,汉明损失(Hamming_loss)[17]用来计算多标签分类模型的精度,可以衡量预测所得标记与样本实际标记之间的不一致程度,其各个评价指标的计算公式如下.

(11)

(12)

(13)

(14)

(15)

其中,TP表示将正类预测为正类的数量;FN表示将正类预测为负类的数量;FP表示将负类预测为正类的数量;TN表示将负类预测为负类的数量;N是样本的总数;L是标签的个数;Yi,j是第i个预测结果中第j个分量的真实值;Pi,j是第i个预测结果中第j个分量的预测值;XOR表示异或操作.

4.3 实验结果分析

卷积神经网络的卷积层将单词和句子的表示中有意义的抽象特征抽取出来,在卷积核大小分别为3,4,5以及三个卷积核的混合四种情况下进行对比实验,此时实验的epoch设置为8,实验结果如图5所示,图5的(a)~(d)图就分别代表卷积核大小为3、4、5和混合卷积核四种情况.从图5中可以发现,在训练了8个epoch的情况下,结果开始收敛,训练得到的精度比较高能达到0.9,测试的精度就在0.7上下浮动,可以明显看出的是在epoch为3或者4的时候,训练和测试的拟合情况达到最好,因此在后面的实验中的所有epoch都设置为3.

通过比较图5(a)~(d)的4组图可以看出,图5(a)中精度和损失变化波动比较大,没有收敛的趋势,这是因为当卷积核为3时,每次提取到只是相邻三个单词的特征,此时的句子中的语义和结构信息没有全部包含进去,所以实验效果相对较差,卷积核为4和5的时候曲线明显趋于缓和,当使用混合卷积核的时候,实验效果达到最好.卷积核为3时能够充分提取相邻单词之间的特征信息,卷积核为5时,提取特征的前后跨度增大,可以将语句中的语义及结构特征提取出来,将混合卷积核提取的特征结合起来就可以确保卷积神经网络在卷积过程中充分提取单词或语句中有意义的特征信息,因而提高了分类效果.

运用混合卷积核,epoch设置为3的实验结果如表3所示.

表3混合卷积核下的实验性能

Tab.3Experimentalperformanceunderthemixedconvolutionkernel

情感句精确度召回率F1值标记样本数汉明损失中性0.770.970.862554-褒义0.760.810.781233-贬义0.770.750.761358-整体0.770.840.8051450.23

从表3可知,对于中性句(不含情感)的分类F1值达到了0.86,明显优于含情感的语句分类效果.这是由于中性情感语句的语句结构和语言表达方式相对简单,而含情感的语句表达方式则比较含蓄.实验的整体准确率达到0.77,汉明损失为0.23,在隐式情感分类任务中达到了良好的分类效果.

5 结 论

在本文中,我们将传统的卷积神经网络CNN中的池化层用BiLSTM代替,作用是能够更加完整的保存提取特征中的上下文信息,并且在模型中加入了注意力机制,注意力机制使得模型能够将更多的注意力放在对情感分类有较大贡献的单词和句子中,学习局部重要性.实验结果表明该方法可以显著提高隐式情感句的分类效果.隐式情感分析的难点在于语义表达含蓄,隐式情感句的语义特征、上下文结构特征的信息提取直接影响到最终的分类结果,在接下来的隐式情感分析研究中,最主要的工作就是从更细粒度的角度提取隐式情感句的特征信息.现在情感分析研究工作存在的数据稀缺性、类别不平衡、领域依赖性和语言不平衡等难点,因此基于多媒体融合、领域自适应、深层语义和社交网络的情绪分析将是之后研究工作的一个重点和热点.

猜你喜欢
向量卷积注意力
向量的分解
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
聚焦“向量与三角”创新题
如何培养一年级学生的注意力
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
A Beautiful Way Of Looking At Things
向量垂直在解析几何中的应用