基于注意力编码网络的细粒度文本情感分析研究

2020-01-06 10:21颜孝为

网络安全技术与应用 2020年1期

◆颜孝为肖化

◆颜孝为肖化

（华南师范大学物理与电信工程学院广东 510006）

传统文本情感分析，通常从文本（可以是文档、段落或句子）整体出发，只能给出一整句话的情感值，无法准确表达用户对不同目标（情感附着物）的情感倾向。因此，本文以深度学习算法为基础进行细粒度情感分析研究。通过分析注意力编码网络的结构和算法原理，提出相应的情感分析框架，以及文本预处理和文本表示方法。该模型在公开数据集SemEval 2014上进行了实验，结果显示基于注意力编码网络的情感分析模型可以获得更高的准确率。

情感分类；注意力机制；深度学习，细粒度

1 引言

在现今移动互联网和大数据的时代背景推动下，人们喜欢在网络上发表自己的观点，这种带有个人主观态度的文本在网络舆情监控，电商评论分析等方面具有很大的信息挖掘价值[1]。如何利用自然语言处理技术分析网络评论文本的情感倾向，逐渐成为学术研究热点领域。

随着近年来深度学习的发展，许多研究人员将深度学习算法用于细粒度情感分析并取得显著的成果[2]。刘全等人[3]提出了基于方面情感分析的深度分层网络模型。Dong等人[4]提出一种自适应RNN的用在特定目标的Twitter文本情感分类任务中。文本的细粒度文本情感分析是指，判断一个句子中对应目标词的情感极性。例如，“这家餐馆的食物味道很好，但是环境太差了。”，对“食物”这个目标词，它的情感极性是正面的，而对于“环境”这个目标词，它的情感极性是负面的。因此，本文提出基于一种自注意力机制的编码网络，用于提取句子的隐藏特征。再把隐藏特征进行更高级的特征运算。实验证明，该模型取得了不错结果。

2 相关工作

深度学习的出现，极大减少了模型对人工规则和特征工程的依赖。把深度学习结合注意力机制，能在方面情感分类任务上取得更好的效果。梁斌等人[5]使用一种基于多注意力机制的卷积神经网络来解决方面情感分析问题，该网络结合了三种注意力机制，使模型能通过多种渠道获取文本有关特定方面的情感特征，判别出对应的情感极性。Wang等人[6]提出了一种基于注意力机制的 LSTM 网络模型，该方法在输入层和 LSTM 隐藏层上同样加入了方面信息，也在加入了方面信息的 LSTM 隐藏层上使用注意力机制，高度关注有关特定方面的特征信息，在方面情感分析任务中能得到较好的情感分类效果。Ma等人[7]提出一种交互式神经网络IAN（Interactive Attention Networks），使用交互式学习的方法分别学习属性与其上下文的表示。

本文的研究内容受上述文发表文章的启发，将深度神经网络和注意力机制相结合，提出了一种新的模型以实现细粒度文本情感分析。

3 提出的算法

本文通过使用自注意力机制替代传统的长短记忆网络（LSTM）来实现对句子的特征抽取，并为自注意力机制抽取的特征设计了相应的后续网络结构。模型结构如图1所示。

图1 模型结构图

3.1 任务定义

3.2 词嵌入层

3.3 注意力编码层

注意力网络编码层是可以代替长短记忆网络（LSTM）的结构层，我们使用它来获取词嵌入层的隐藏状态。我们采用多头注意力（Multi-headed attention）机制的方法对embeeding层的输出进行编码，使得句子中的每个单词与其余所有词进行self-attention计算[8]，获取句子的内部结构，得到上下文的隐藏状态。

使用下面的注意力计算函数计算一个key句子序列:

其中，f为对齐函数，通过学习q和k的语义相关性：

3.4 交互注意力层

同理，对于每一个目标词，句子中每个隐藏状态的影响不一样。可以得到：

3.5 输出层

把前面的层输出拼接起来，得到输出，再接一个全连接层映射为特定的个类别的子空间。

在我们的模型训练中，最小化交叉熵loss并使用L2正则法。

4 实验

4.1 实验数据和环境

数据源采用的实验将采用SemEval2014 任务42，包含restaurant和laptop两个领域的数据，数据的情感极性分为三类：正面的、中立的、负面的。实验环境为Ubuntu操作系统、16G内存、CPU为Inter酷睿i7-8700、GPU是NVIDIA GeForce GTX1080Ti，4G显卡。编程语言为python3.6，开发工具为Pycharm，使用的深度学习框架为Tensorflow-1.12。

4.2 超参数设置

4.3 对比实验

为了验证我们在文中提出的模型AE-IAN，选出下面的经典情感分析模型做比较：

LSTM：基于文献[5]提出的 LSTM 网络模型，该模型可以保留句中词语的时序关系，获取词语间一定的语法和语义信息。

ATAE-LSTM：文献[6]提出的融合了方面信息和注意力机制的 LSTM 网络模型，该模型在训练过程中高度关注特定方面，有效识别情感极性。

IAN：文献[7]用两种LSTM和注意来学习目标和上下文的表示，从而生成目标和上下文的相互对应的表示。

在我们模型的训练过程中，实验的预测准确率有一定的浮动，因此，我们的结果是取n次试验的平均值。对于其他的经典模型，我们选取他们的论文中的最好的值进行比较。从表1可以发现在Restaurant和Laptop两个数据集上，我们的模型比所有的基线模型的准确率都要高。

表1 模型的准确率对比

5 结束语

本文提出了一种基于深度神经网络的细粒度情感分类模型，我们的模型使用了多头注意力机制去获取句子和目标词的隐藏状态，设计了句子和目标词之间的交互注意力，将我们关注的相关结果拼接起来。在SemEval2014数据集上训练，结果显示我们的模型明显优于以前的基础模型。

本文仅涉及自然语言处理应用和领域需求分析研究的主要部分，这是一个复杂而广泛的主题。未来，我们不仅将对产品评论数据的方面词抽取和分类的准确性再进一步深入的研究，同时也会研究构建以用户需求为导向的评价体系。

[1]王仲远，程健鹏，王海勋，等.短文本理解研究[J].计算机研究与发展，2016，53（02）：262-269.

[2]刘全，梁斌，徐进，等.一种用于基于方面情感分析的深度分层网络模型[J].计算机学报，2018，41（12）：2637-2652.

[3]余凯，贾磊，陈雨强，等.深度学习的昨天、今天和明天[J].计算机研究与发展，2013，50（9）：1799-1804.

[4]Dong L，Wei F，Tan C，et al. Adaptive Recursive Neural Network for Target-dependent Twitter Sentiment，Classification[C]// Meeting of the Association for Computational Linguistics. 2014.

[5]梁斌，刘全，徐进，等.基于多注意力卷积神经网络的特定目标情感分析[J].计算机研究与发展，2017，54（8）： 1724-1735.

[6]Wang Y，Huang M，Zhao L，et al. Attention-based LSTM for Aspect-level Sentiment Classification[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Stroudsburg，PA：ACL，2016：606-615.

[7]Ma D，Li S，Zhang X，et al. Interactive attention networks for aspect-level sentiment classification[J]. arXiv preprint arXiv：1709.00893，2017.

[8]Vaswani A，Shazeer N， Parmar N，et al. Attention is all you need[C]//Advances in neural information processing systems. 2017：5998-6008.