多目标依存建模在特定目标情感分类中的应用

2022-06-21 07:47肖志勇
中文信息学报 2022年5期
关键词:权重向量注意力

张 立,肖志勇

(江南大学 人工智能与计算机学院,江苏 无锡 214122)

0 引言

特定目标情感分类作为情感分析领域中的一项子任务[1-3],其目的在于分析社交网络短文本中用户对于不同事物所发表观点的情感倾向。不同于分析整个句子的情感倾向,特定目标情感分类目的在于分析特定目标背后所包含的情感极性(包括积极、中性和消极)。例如,在句子“Great food but the service was dreadful !”中,目标“food”表达的是积极情感,目标“service”表达的是消极情感,所以相较于分析整个句子,特定目标情感分类能更好地挖掘用户对特定事物的观点。

早期的研究工作中使用的是传统的机器学习方法[4-6],通过使用大量的人工特征来提升模型性能,这些人工特征需要对输入进行大量的预处理和复杂的特征工程,人工特征的设计优劣在很大程度上决定了模型的性能。

近年来,随着深度学习的发展[7-8],大量使用神经网络的方法被提出[9-12],Tang等[9]提出Target-Dependent Long Short Term Memory(TD-LSTM),使用两个LSTM分别对包含目标的左半部分和包含目标的右半部分建模,再将两部分的输出拼接,以此来充分考虑句子的上下文。Wang等[10]提出Attention-based Long Short Term Memory with Aspect Embedding(ATAE-LSTM),通过使用注意力机制[13-14]来关注目标在句子中的重要信息。梁斌等[11]将卷积神经网络和注意力机制结合来获得目标更深层次的情感特征。Xue等[12]提出基于门控机制的卷积神经网络来提取目标在句子中的情感信息。

由于简单的注意力机制会使注意力涣散,一些使用复杂的多注意力机制的方法[15-19]被提出,Ma等[15]使用两个注意力网络,分别获取目标在句子中和句子在目标中的关键信息后,再将两者拼接。Huang等[16]使用Attention Over Attention(AOA)机制来更好地从句子中获取目标相关的深层信息。Tang等[17]通过使用外部记忆单元来改善注意力网络。Chen等[18]使用多层注意力机制来获取较长距离的情感信息,从而增强模型对复杂情况的表达能力。Song等[19]使用注意力编码目标和上下文,同时在损失函数中引入了标签平滑正则项。

由于图卷积网络(Graph Convolutional Network, GCN)[20]能高效处理图结构信息,近年来在自然语言处理领域得到了广泛的应用[21-23],一些基于依存句法树的图卷积网络模型被提出[24-27],Zhang等[24]使用图卷积网络建立目标和上下文的依存关系,再利用注意力机制进一步提取目标在上下中的情感特征。Zhao等[25]使用全相连和邻近相连两种情感图对同一句子中多个目标建模,来获取更有效的情感信息。Huang等[27]使用图注意力网络(Graph Attention Network, GAT)[28]来建立目标和上下文之间的依存关系。

上述方法中采用的图卷积网络虽然能建立起目标和上下文的依存句法关系,但大都忽略了同一句子中不同目标之间的依存关系,直观地看,同一句话的不同目标之间往往存在一定的联系,若能综合考虑目标之间的依存关系,结果也将更准确。Zhao等[25]使用全相连和邻近相连两种情感图对同一句子中多个目标建模,但仅讨论了目标全相连和邻近目标相连两种情况。实际上,根据句子中目标之间的不同距离,应该考虑赋予边权重,并探索割断不同权重的边对结果的影响。基于该思想,为了能够有效建模同一句子中多个目标之间存在的依存关系,本文提出一个基于多目标依存建模的图卷积网络模型(Model Multi-aspect Dependencies with Graph Convolutional Network, MDGCN),模型首先对输入句子进行语义编码,再通过GCN、Attention层得到目标的隐层表示,最后通过MDGCN层对多个目标之间的依存建模,得到目标的最终表示后,预测目标情感极性。本文模型相较于其他模型,有以下几点优势:

(1) 根据句子的依存句法树,构建多目标依存图来表示目标之间的关系。

(2) 提出一个全新的MDGCN模型来建模同一句中多个目标之间的依存关系。

(3) 通过割断多目标依存图中不同权重的边来提高对包含特定数量目标句子的结果准确性。

本文在SemEval 2014 Task4[3]Restaurant和Laptop两个数据集上进行实验,实验结果表明,本文模型相比标准图卷积网络模型性能有显著提高,准确率分别达到85.45%和79.62%,F1值分别达到78.58%和76.53%。

1 相关工作

1.1 基于依存句法树的图卷积网络

依存句法树可以建立目标与上下文之间的依存句法关系,使目标可以获取相邻词的信息,从而更容易获取关键情感信息。依存句法树的例子如图1所示,句子为“The owner and staff go to great lengths to make you feel comfortable”,其中包含两个目标“owner”和“staff”,情感极性均为积极,从中可以看出两个目标在图中的距离十分接近。

图1 依存句法树例子

图卷积网络能高效处理图结构信息,图中每一个点都能获取其相邻点的信息,通过将图转换为邻接对称矩阵进行计算,对于一个l层GCN,计算如式(1)所示。

Hl=σ(AWlHl -1+bl)

(1)

其中,Wl,bl为可训练参数,σ为非线性函数,A为邻接对称矩阵,Hl-1为l层输入向量,Hl为l层输出向量。

1.2 注意力机制

注意力机制其本质在于筛选出重要信息,忽略不重要的信息,筛选的过程体现在权重系数的计算上,对于向量组H={h1,h2,…,hi,…hn},i∈[1,n],向量ht在向量组H中注意力计算式(2)~式(4)所示。

其中,βi为注意力权重,ai为注意力分数,ho为输出向量。在特定目标情感分类中引入注意力机制,可以使模型更多地关注句子中与目标相关的情感特征词。本文模型在构建目标隐层表示时,利用注意力机制来生成更为准确的目标情感特征表示。

2 本文方法

为了能够有效建模同一句子中多个目标之间存在的依存关系,本文提出一个基于多目标依存建模的图卷积网络模型(Model Multi-aspect Dependencies with Graph Convolutional Network, MDGCN),模型总体框架如图2所示,主要由以下五个部分组成:

图2 MDGCN模型总体框架

(1) 输入层: 对输入进行词嵌入操作。

(2) Bi-LSTM层: 对输入进行正向和反向的语义编码,得到句子的隐层表示。

(3) 构建目标向量的隐层表示: 使用图卷积网络和注意力机制生成与目标相关的情感特征向量,得到目标的隐层表示。

(4) MDGCN层: 对多个目标之间的依存建模,得到目标的最终表示。

(5) 输出层: 使用目标的最终表示进行情感极性预测。

2.1 输入层

2.2 Bi-LSTM层

2.3 构建目标向量的隐层表示

2.3.1 图卷积网络

图卷积网络是一种作用于图,并能利用其结构信息的网络,图中的每一个点都会受到其相邻点的影响,本文使用图卷积网络,在句法上混合目标与句子中其他词的信息。首先构建句子的依存句法树,树上每一个词都与该词句法上有联系的词相连接,再根据树构建邻接对称矩阵At,At∈Rn×n,与文献[29]相同,每一个词都与它自身相连,所以矩阵At的主对角线元素均为1,然后对矩阵At进行归一化,具体为At的每个元素均除以该元素所在行的和,如式(5)所示。

(5)

与文献[24]相同,由于目标的情感极性由其周边词决定,其本身并不包含情感极性,所以将目标置为零向量,方便目标下一步混合在句法上有联系的词的信息,如式(6)如示。

(6)

(7)

2.3.2 注意力机制

(8)

(9)

然后,通过将注意力分数αt和Bi-LSTM层的输出隐层表示Hs加权求和,得到与目标相关的上下文表示ha,实现如式(10)所示。

(10)

2.3.3 池化与拼接

2.4 MDGCN层

2.4.1 多目标依存图

同一个句子中可能存在多个目标,考虑到目标之间可能存在联系,本文提出多目标依存图来表示目标之间的关系,通过对目标之间情感依存性的处理,使情感预测更为准确。

多目标依存图由该句的依存句法树转换而来,图3为依存句法树转换为多目标依存图的一个例子,由于目标通常是由多个词组成的短语,为了选定一个词来代表整个短语,本文选择将由短语生成的依存句法树中的根节点词来代表整个短语,图3中的A1、A2、A3、A4均为对应目标的根节点词。多目标依存图中的节点仅保留了依存句法树中的目标的根节点词,图中的边存在权重,其值由依存句法树中相对应点之间的距离决定。

图3 依存句法树转换为多目标依存图的例子

之后再构建多目标依存图的邻接对称矩阵Ag,Ag∈Re×e,其中e为句子中目标的个数,算法1描述了构建过程,首先给出该句中所有的目标aspecti,i∈[1,e]和句子的依存句法树的邻接对称矩阵At∈Rn×n,然后求出目标的根节点词,最后根据目标的根节点词之间的距离得到Ag。

算法1: 构建多目标依存图的邻接对称矩阵的伪代码Input: aspecti,i∈[1,e],adjacency matrix of dependency tree At∈Rn×nOutput: adjacency matrix of multi-aspects dependency graph Ag∈Re×eBeginfor i=1 to e do aspectiroot=get_aspect_root(aspecti)fori=1 to e do forj=1 to e do ifi==jthen Agij=1 else Agij=distance(aspectiroot,aspectjroot,At) end if end forend forreturnAg

最后再对Ag做归一化处理,根据相近节点其情感更为接近的想法,使权重越小的边占比越大,权重越大的边占比越小,具体实现如式(13)所示。

(13)

2.4.2 基于多目标依存图的图卷积网络

(14)

2.5 输出层

用一个全连接层将输出最终表示转换为与情感类别相同的维度,再通过softmax函数将其转换为概率表示,实现如式(15)所示。

(15)

其中,W、b为本层可训练的参数。

2.6 模型训练

本文模型使用交叉熵误差函数和L2权重衰退共同作为损失函数,实现如式(16)所示。

(16)

其中,pij为向量pi第j个特征,labelij为one-hot表示的labeli的第j个值,λ是L2权重衰退的超参数,Θ为模型中所有可训练的参数, 3是情感极性的类别个数(积极,中性,消极)。

3 实验与分析

3.1 数据集与实验设置

本实验使用的数据是从SemEval 2014 Task4中获得的,包含两个领域的文本数据集: Restaurant,Laptop,数据集中包含句子、目标和目标的情感极性,情感极性分为积极、中性、消极三种,Restaurant数据集中还包括矛盾(conflict)的情感极性,由于以前的工作均不考虑此类情感,所以本文也删除了此类情感,数据集的具体统计信息如表1所示。

表1 实验数据统计

本文模型的词向量采用预训练好的GloVe[30]词向量和BERT[31]词向量。GloVe词向量维度选用300,此时隐层维度为600,使用Adam作为优化器,学习率设置为0.001;BERT词向量维度为768,此时隐层维度为768,使用随机梯度下降(SGD)作为优化器,学习率设置为0.005;权重矩阵初始化为服从glorot分布的随机值,偏置初始化为0,L2正则化参数设置为0.000 01,dropout设置为0.3,批大小设置为16,使用准确率(Accuracy)和F1值作为评价指标。

3.2 对比模型

TD-LSTM[9]: 使用两个LSTM分别对包含目标的右半部分和包含目标的左半部分建模,然后将两部分的最终输出拼接来预测目标的情感极性。

ATAE-LSTM[10]: 将均值池化后的目标向量分别和输入层表示、LSTM层隐层表示进行拼接,然后利用注意力机制获取目标在句子中的相关重要信息。

IAN[15]: 使用两个LSTM分别对句子和目标进行编码,然后分别获取目标在句子中和句子在目标中的关键信息,最后拼接进行情感极性预测。

MemNet[17]: 使用外部记忆单元来改善注意力网络。

RAM[18]: 使用多层注意力机制来获取较长距离的情感信息,增强模型对复杂情况的表达能力,从而生成更加准确的目标情感特征向量。

AEN[19]: 使用注意力编码目标和上下文,同时在损失函数中引入了标签平滑正则项。

CDT[26]: 使用Bi-LSTM对句子进行编码,然后使用图卷积网络在句法上混合句子中的相关信息,最后对目标向量进行池化得到目标的最终表示。

ASGCN[24]: 使用图卷积网络建立目标和上下文的依存关系,再利用注意力机制进一步提取目标在上下文中的情感特征。

SDGCN[25]: 使用全相连和邻近相连两种情感图对同一句子中多个目标建模,来获取更有效的情感信息。

BERT[31]: BERT模型上游先预先训练出一个对自然语言有一定理解的通用模型,再将该模型对下游具体任务进行微调。本文使用句子输入BERT模型后得到的[CLS]标志位的向量,再将该向量经过全连接层转换维度后进行情感分类。

3.3 结果与分析

本文模型在Restaurant和Laptop数据集上与上述模型进行比较,实验结果如表2所示。

从表2的实验结果可以看出:

(1) 基于多注意力机制的模型(IAN, MemNet,RAM,AEN)实验结果好于基于RNN的模型(TD-LSTM,ATAE-LSTM)的实验结果,表明注意力机制能有效捕获句子中与目标相关的情感特征词。

(2) 基于图卷积网络的模型(ASGCN,SDGCN,CDT)实验结果好于基于多注意力机制模型(IAN,MemNet,RAM,AEN)的实验结果,表明在依存句法树上相关联的词存在着较高的情感相关性,相比注意力机制,从整个句子中筛选出情感特征词,从依存句法树的关联词中筛选情感特征词,更为准确高效。

(3) 对比本文模型和同样使用图卷积网络的ASGCN、CDT模型,本文模型的实验结果更好,表明对同一句子中多个目标之间的依存性进行建模,能构建与目标相关度更高的情感特征向量,从而取得更好的实验效果。

(4) 对比本文模型和同样对多个目标之间的依存性建模的SDGCN模型,本文模型的实验结果更好,相较于SDGCN保留了目标之间所有的边和只保留目标之间邻近边的两种情况,本文根据目标之间的距离远近,给边赋予相应的权重,同时对权重过大的边进行割断,并对割断边的权重进行了多组实验来找出效果最好的情况,通过割断权重过大的边,来避免引入不必要的噪声,使模型能关注到更为准确的情感特征,从而取得更好的实验效果。

(5) 对比使用BERT作为词向量的本文模型(MDGCN-BERT)和其他使用BERT作为词向量的模型(SDGCN-BERT,BERT_CLS),MDGCN-BERT在Restaurant数据集上的实验结果最好,表明使用预训练模型作为词向量可以让单词获取更加符合句子语境的隐层表示,从而构建更为准确的情感特征向量;在Laptop数据集上的实验结果好于BERT_CLS和MDGCN-GloVe,但不及SDGCN-BERT,这可能有以下原因: Laptop数据集包含较多专有词,使用BERT对其进行词嵌入和使用GloVe对其词嵌入差别不大,以及Laptop数据集相对于Restaurant数据集对句子的句法信息并不敏感。

3.4 不同权重的边对情感分类的影响

考虑到多目标依存图中的目标节点之间的边权重(Edge Weight,EW)过大时,其情感关联性实际很小,所以本文将通过割断EW大于n(n≥1)的边来探索其对情感分类的影响,统计了两个数据集中所有目标节点之间的权重值情况(图4),EW取值从0到14不等,其中EW=0表示两端的节点在依存句法树中未连通的情况。另外,由于EW≥8的边数量过少,所以本文不对EW≥8的边进行单独比较。实验结果如表3所示,从中我们可以看出多目标依存图保留权重较小的边时,实验效果最好,表明距离相对较近的目标节点之间存在较为密切的依存关系,随着多目标依存图中保留边的权重增大,实验效果变差,表明距离相对较远的目标节点之间的情感关联性很小,保留权重过大的边会给模型引入不必要的噪声,干扰模型的判断。

图4 SemEval 2014数据集中边权重统计情况

表3 不同权重的边对结果的影响 (单位: %)

3.5 不同权重的边对多目标句子的影响

数据集中存在大量包含不同目标数量的句子,统计情况如图5所示。从图中可以看出,句子中包含多个目标十分普遍,句子中包含目标的数量从1到13不等。考虑到包含不同目标数量的句子,其对多目标依存图中权重的敏感性也不同,所以本文通过割断多目标依存图中不同权重的边来探索其对包含特定数量目标的句子的影响。由于两个测试集中包含目标数量大于或等于6的句子过少,参考意义不大,所以本文实验时将其去除。实验结果如图6所示,从图中可以看出:

图5 SemEval 2014数据集中包含不同目标数量的句子中的目标数量统计情况

图6 不同权重的边对多目标句子结果的影响

(1) 当多目标依存图中的EW≤1时,单目标句子的准确率最高,而EW≤n(n≥2)的模型,其对单目标句子的准确率相对较低,说明当多目标依存图保留较小的边权重时,其对单目标句子的拟合效果最好,而保留较高边权重的模型,在对单目标句子分类时,会由于拟合了目标之间较长距离的依存性而带来了额外的噪声。

(2) 对于多目标句子来说,其准确率最高的情况均为EW≤n(n≥2)的模型。这说明当多目标句子中目标数量较多时,其目标之间的距离相对较远的概率也越大,而当多目标依存图保留较高的边权重时,其对图中相对较远的两个目标节点之间的依存性进行了有效建模,所以其对多目标句子分类效果较好,虽然整体的准确率会下降,但其对特定目标数量的句子的准确率会上升,从而说明了保留高边权重值的模型对多目标句子分类的有效性。

(3) 从图中还可以看出,由于包含5个目标的句子数量相对较少,所以保留不同边权重的模型在分类该类别时准确率波动较大。

3.6 MDGCN层数影响

为了探索包含不同MDGCN层数的模型对结果的影响,本文对层数从0到7进行了实验比较,以准确率和F1值为评价指标,探究其在Restaurant和Laptop数据集上的效果。其中层数为0表示去除MDGCN的情况,此时,构建完的目标向量的隐层表示,将会直接通过一个全连接层转换维度,再通过softmax层转换为概率表示进行分类。

词向量使用GloVe词向量,边权重值取为3.4节中结果最好的参数,其余超参数与3.1节中选用GloVe作为词向量时的设置一致。

实验流程设置为连续20个世代没有出现更高的测试精度时结束本次实验,实验结果包含准确率和F1分数,均取该次实验中在测试集上出现的最高精度,结果如图7所示。从图中可以看出:

图7 MDGCN层数对结果的影响

(1) 层数为1时比层数为0时有了较大的性能提升,两个数据集的准确率分别从81.96%和78.14%提升到了83.48%和79.47%,分别提升了1.52%和1.33%,F1值分别从74.42%和74.80%提升到了76.56%和76.11%,分别提升了2.14%和1.31%,表明MDGCN对目标之间的情感依存性进行有效建模,构建了与目标相关度更高的情感特征向量。

(2) 层数为1时结果最好。层数大于1时,模型性能开始下降并波动;层数大于5时,模型性能进一步加速下降,这可能由以下的原因引起: 随着层数的增加,模型参数变多,表达能力增强,模型开始变得难以训练和拟合。

3.7 注意力可视化

为了对MDGCN有一个直观的理解,从Restaurant-test数据集中选取一个包含两个目标的句子“First walking in the place seemed to have great ambience .”(目标为“place”和“ambience”), 来做注意力可视化说明,如图8所示,颜色越深,代表注意力分数越大。

图8 注意力分数可视化结果

可以看出,去除MDGCN的模型在预测“place”时,主要关注了“walking”“seemed”“have”“ambience”这些非关键信息,因而错误地将情感预测为中性;预测“ambience”时,几乎把所有注意力都集中到了“great”词上,虽然预测正确,但是对单个词存在过高的关注度,忽略了句中的其他有效信息。

带有MDGCN的模型在预测“place”时,由于MDGCN对多目标之间的依存性进行建模,使模型在预测时不仅关注到当前目标的相关信息,还能关注到同一句中其他目标的相关信息,关注度的大小由目标之间依存性的高低决定,所以带有MDGCN的模型在关注“place”的相关信息时,同时也关注到了目标“ambience”的相关信息“great”,从而正确将其预测为积极。预测“ambience”时,同样也关注到了目标“place”的相关信息,从而降低了原先对“great”的过高关注度,使模型能关注到句子中的其他有效信息。

MDGCN能根据目标之间的依存性从全局上关注到更多的有效信息,使模型能更准确地识别出目标的情感极性。

4 结论

本文提出了基于多目标依存建模的图卷积网络模型,该方法可以对同一句子中多个目标之间的依存性进行有效建模。首先根据句子的依存句法树构建多目标依存图来表示目标之间的关系,然后再根据多目标依存图使用图卷积网络对目标之间的依存性建模,在SemEval 2014 Task4数据集上的实验结果表明,本文模型可以构建与目标相关度更高的情感特征向量,本文还对MDGCN对模型的作用进行了验证,不同权重的边对结果以及对多目标句子的影响进行了实验,通过这些对比实验,证明了本文模型对多目标之间依存性建模的有效性。

猜你喜欢
权重向量注意力
权重望寡:如何化解低地位领导的补偿性辱虐管理行为?*
向量的分解
让注意力“飞”回来
聚焦“向量与三角”创新题
权重常思“浮名轻”
如何培养一年级学生的注意力
为党督政勤履职 代民行权重担当
权重涨个股跌 持有白马蓝筹
A Beautiful Way Of Looking At Things
向量垂直在解析几何中的应用