基于改进CNN的文本情感分析

2021-11-04 10:09杨会成徐姝琪
平顶山学院学报 2021年5期
关键词:卷积向量神经网络

何 野,杨会成,潘 玥,徐姝琪

(安徽工程大学 电气工程学院,安徽 芜湖 241004)

0 引言

随着电子产品及互联网技术的不断进步与革新,包含人们情感评论的大量文本信息已经出现在网络平台上.在自然语言处理(NLP)领域中,寻找一种有效的数据挖掘和分析方法是一项非常重要的研究,这被称为文本情感分析[1].文本情感分析主要包括文本分类、信息提取和文本生成技术,情感分析是一个过程,用于识别和分类意见、观点(从文本到特定主题或产品).这些评估可以是正面、负面或中立的.分析可以在文档级别、句子级别或单词级别执行.目前,基于统计机器学习的情感分析在各种应用中都取得了良好的效果.然而,机器学习方法中使用的函数非常简单,这可能导致它们在处理复杂分类问题时对新的模型的适应能力较差,并且在样本和计算单位比较少的情况下,表达复杂函数的能力在一定程度上受到限制.

历年来,情感分类方法发生了许多变化,最早是基于初始情感词典的方法, Bengio等[2]最早使用神经网络构建语言模型.Mikolov等[3-4]于2013 年提出了 Word2Vec 技术,推动了词向量的快速发展.然后再到机器学习方法,例如支持向量机(SVM)[5]、朴素贝叶斯(NB)、决策树、逻辑回归等.尽管某些机器学习方法可以在某些任务上取得良好的结果,但是由于特征工程的复杂性,这些方法的效果非常依赖于特征表示,并且难以获得可接受的分类结果.随着人们对深度学习算法的进一步研究与认识,许多深度学习方法被应用于情感分类任务.与机器学习方法相比,深度学习则更加侧重于取代人工使用自动提取语料特征的方式,这样可以使文本的特征更加广泛和丰富.但是,深度学习模型的鲁棒性和泛化能力在很大程度上取决于训练阶段可用的数据量,而基于机器学习的分类系统的性能则主要取决于语料库中的标记训练及其有效特征的选择.

卷积神经网络[6](CNN)和递归神经网络是两个广泛使用的用于情感表达的深度学习模型.Yann LeCun在1998年提出的CNN具有很强的适应性,并且非常善于从文本中提取局部特征.由于其独特的权重共享结构,它可以显著降低计算复杂度以及训练参数的数量.对于句子建模,Kalchbrenner等人提出了动态卷积神经网络,它能够获得短时和长时关系.作为另一个流行的网络,循环神经网络[7](RNN)可以处理序列数据并了解长期依赖性.RNN将当前输出和网络的上一级输出联系在一起,这意味着当前隐藏层的输入不仅包括输入层的输出,而且还包括先前隐藏层的输出.当RNN学习到对信息的长期依赖时,它将产生梯度衰减或爆炸.为了解决这个问题,研究人员提出了一种LSTM[8]单元,其中包含一个可以长时间保持状态的存储单元,这样可以确保结构更准确地提取情感信息.笔者在研究CNN和LSTM的基础上,将这两种框架的部分结构结合在一起,CNN仅提取本地特征,而LSTM是一种网络类型,其网络内存可以记住输入中的先前数据,并根据该知识做出决策.因此,LSTM更适合直接输入文本,因为句子中的每个单词都具有基于周围单词的含义.充分利用了它们各自的优势,弥补了单个网络框架的缺陷,并通过实验证明了该网络模型对提高文本情感分析具有较为高效的作用.

1 相关技术与概念

1.1 CNN模型

CNN是卷积神经网络(Convolutional Neural Network)的简称,它本质上是一个多层感知机.该模型主要由3个部分构成:卷积层、池化层和全连接层(输出层).结构如图1所示.

图1 CNN模型结构

它是一个具有多个隐层的人工神经网络.卷积和池化是网络中的最关键的操作,也是网络进行局部和全局特征提取的主要方式.CNN采用梯度下降法,通常都能够得到最优解,经过多次的训练调整提高网络的参数的合理性.

1.2 长短时记忆LSTM模型

在处理时间序列问题上,无论是分类还是预测的问题,循环神经网络(RNN)都有着很好的优势.它的神经单元经过运算输出结果后,继续将其作为下一个单元的输入并循环往复,这样可以有效利用前面的信息.在文本处理以及情感分析的问题上,循环神经网络能够贯穿全文,利用上下文的信息,从而使分类问题变得更加精准.然而,传统循环神经网络难以对长文本进行处理,因其容易造成梯度爆炸和消失的问题.

长短时记忆网络(Long Short Term Memory Network,LSTM),是一种改进之后的循环神经网络,可以解决RNN无法处理长距离的依赖的问题,在涉及长时间滞后的任务上,其性能将优于RNN.

LSTM网络结构由4个主要部分组成:输入门、自循环链接、遗忘门和输出门.

对于输入门i、遗忘门f和输出门o,在t时刻分别有如下操作:

it=σ(Wixt+Uiht-1),

(1)

ft=σ(Wfxt+Ufht-1),

(2)

ot=σ(Woxt+Uoht-1),

(3)

(4)

(5)

ht=ot·tanh(ct).

(6)

其中Wi、Wf、Wo、Wc、Ui、Uf、Uo、Uc均为权重矩阵,网络结构如图2所示.

图2 LSTM模型结构

2 基于LSTM-CNN的模型

LSTM-CNN 模型由一个初始LSTM层构成,它将接收词向量输入矩阵作为输入,LSTM层为原始输入生成一个新的编码.然后将LSTM层的输出紧接着输入到期望可以提取局部特征的卷积层中.最后卷积层的输出将被汇集到一个较小的纬度,最终输出为正或负标签.它的结构如图3所示.

图3 LSTM-CNN组合网络

2.1 文本的词向量表示

对于情感分析来说,英文和中文存在着差别,即英文一般都是以单词来表达意思,而中文则以词组来表达情感.所以在进行中文情感分析之前,首先得对数据集进行预处理,即对句子进行分词,去除无用符号和停用词等,其次将处理好的文本用词向量表示.

2.2 Word2Vec

Word2Vec是一个非常有效的工具,可以在无须人工干预的情况下提取特定域的功能.另外,对于太小的文本或单个词语,它都可以很好地工作.通过提供庞大的语料库上下文并使用Word2Vec,可以创建具有正确意义的词语并在大型数据集上更快地运行.

单词含义是深度学习的最终视角,使用Word2Vec对较大的实体进行分类可以完全满足单词的含义.在提出的方法中,数据集是在向量上训练的.具有相同情感标签的单词具有相同的向量,因此可以轻松指定单词相似度.

2.3 LSTM-CNN网络搭建

该网络由以下3个部分组成:

1)卷积神经网络的输入矩阵.所有的词向量都被连接成二维矩阵,作为卷积神经网络的输入矩阵.

2)卷积神经网络.在本文模型中,由4层卷积层构建卷积神经网络模型,以提取句子中的重要特征信息.卷积由卷积内核执行.对于长度为l的内核,有:

ci=f(ω·xii+l-1+b).

(7)

式中,ω∈Rl×d是内核的权重矩阵,xii+l-1被用于内核嵌入基质的字.而对于长度为n的句子,则得到特征向量c=[c1,c2,…,ci,cn].

(8)

2.4 模型的训练

该模型训练的损失函数是通过反向传播算法更新参数的形式得到的,损失函数如式(9)所示:

(9)

3 实验结果与分析

笔者使用电子商务网站的产品评论为数据集,共20 065条数据,使用数字1代表积极情绪,数字0代表消极情绪.其中,积极评价数据10 212条,消极评价数据9 853条.模型中,文本长度为29,词向量维度为128,Adam的学习率为0.002,dropout 为0.5,批次大小设置为100.

为了验证模型的性能,本次实验另外训练了两种其他模型作为对比数据,分别是CNN和LSTM模型,通过对比各个模型的准确率(accuracy)、精确率(precision)、召回率(recall)和F-measure的值来判断优化程度.

实验结果如表1所示.

表1 模型测试结果

通过模型 1 和模型 2 的实验对比,发现CNN模型在处理文本的各方面均优于LSTM模型.

对以上3种实验结果进行分析,LSTM-CNN模型相比其他两种单个模型,在对评论文本情感分析上有着更好的表现,它的F-measure值均高于其他两种模型.

4 结论

综上所述,针对文本情感分析问题,在研究了CNN和LSTM模型的基础上,笔者提出的基于LSTM-CNN算法的文本情感分析模型在各方面数据显示其具有较为优异的处理能力,实验结果验证了该模型的可行性和有效性.将来,可以尝试将模型与其他自然语言处理技术串联起来,以期在NLP问题中获得更好的结果.

猜你喜欢
卷积向量神经网络
基于全卷积神经网络的猪背膘厚快速准确测定
基于神经网络的船舶电力系统故障诊断方法
向量的分解
MIV-PSO-BP神经网络用户热负荷预测
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
聚焦“向量与三角”创新题
三次样条和二次删除相辅助的WASD神经网络与日本人口预测