基于深度学习的社交网络舆情分类

2018-04-26 08:51郑州轻工业学院金保华
电子世界 2018年7期
关键词:文档卷积向量

郑州轻工业学院 金保华 王 睿 周 兵

1.引言

近年来,网络发展迅速,信息传播手段也在更新换代。微博平台自诞生起便发展迅猛,逐渐形成一个很大的网络自媒体形式。国外的微博平台Twitter由埃文·威廉姆斯(Evan Williams)正式成立于2006年,从那时起,微博数据时代的大门被彻底打开。本研究引入深度学习方法,本文将对基于主题融合的深度学习模型展开研究。首先介绍了两种融合主题特征的深度学习情感分类模型--融合主题向量的双向LSTM情感分类模型和融合主题向量的CNN情感分类模型。最后通过设计对比实验,对本章所提出了两种模型的中文文本情感分类能力进行验证,并给出实验分析。

2.基于主题融合深度学习的情感分类算法

通常将深度学习模型用于情感分类时只考虑词作为特征,并没有考虑到外部知识(如主题信息)。而外部知识对于模型效果的提升是有用的,如文献[2]在构建深度学习模型时,将句子语法特征与词向量特征相融合作为模型输入,得到了比单一特征更为显著的效果。文本主题与文本情感往往存在一定的共生性,主题与情感伴随而生,不同的主题会表现出不同的情感倾向,那么深度学习模型是否能够通过融合主题向量产生更好的释义。进而提升中文文本情感分类模型准确率?为此,本文提出了两种基于主题融合的深度学习情感分类模型。

2.1 面向中文文本的LDA概率主题分析模型

LDA主题模型是对离散文本数据集进行建模的概率主题模型。它有3层生成式贝叶斯网络结构,分为文档集层、主题层及词层,每层都有对应的参数控制,基于这样一种前提假设:文档集中包含多个隐含主题,各个主题是由文档中多个词语构成。如图2.1所示,LDA模型是一种典型的有向概率图模型。其中TK为主题数,TM为文档总数,tmN为第tm篇文档中单词的总数。α是每篇文档主题的多项分布的Dirichlet先验参数,表征的是文档集合中隐含主题间的相对强弱;β是每个主题下词的多项式分布的Dirichlet先验参数,刻画所有隐含主题自身的概率分布;tm,tnz是第tm篇文档中第tn个词的主题;tm,tnw为第tm篇文档中第tn个词。tmθ为文档主题的概率分布,是维度为TK的向量;tk表示特定主题下特征词的概率分布,是维度为v的向量(v为词典中词总数)。

图2.1 LDA概率图模型

图2.2 TB_LSTM结构图

2.2 基于主题融合的双向LSTM情感分类算法

本文考虑到中文舆情文本的复杂性和海量性,提出了基于主题融合的双向LSTM情感分类算法,其原因有两点:第一,虽然LSTM算法克服了传统RNN的梯度消失(爆炸)问题和历史信息损失问题,但是LSTM中只能较好融合上文信息,缺乏对下文信息的融合。因此,在面对复杂的文本时,LSTM模型的文本表示能力有限,故引入双向LSTM网络实现词语的上下文信息融合,以此获得更为优质的文本特征。第二,外部特征被证明能够提升文本分类性能,其外部特征通常是句子的结构特征,如词性特征、词语权重等方法。这些特征仅仅只是增加了提升了句子中关键词的表达能力,没有考虑到文本主题特征对于文本分类的作用。因此,本文通过融合文本的主题特征,以此获取更具备中文文本情感分类能力的文本特征。最终构建了如图2.2所示的基于主题融合的双向LSTM情感分类模型(TB_LSTM)。

如图2.2所示,TB_LSTM在输入时融合了主题向量,并通过两个单层LSTM模型组合,得带得到包含上下文信息的高层文本特征向量,并实现中文文本情感分类。TB_LSTM共有6层(如图2.3所示),F0是模型的输入层,其输入词向量和该词的主题向量;F5是模型的分类层;F1,F2,F3,F4分别对于模型的四个隐层,W1、W2、W3、W5分别是层间或者层内的连接权重集合;4ω、6ω、7ω、为模型层间连接权重。TB_LSTM模型的具体结构如下:

2.3 基于主题融合的CNN情感分类算法

在利用深度学习模型进行情感分类任务时,其巨大的参数规模和节点数量会增强对数据的刻画能力,但是同时会增加模型训练的复杂度和训练成本。为了减少模型训练成本,本章提出了基于主题融合的CNN情感分类模型(TCNN)。CNN是一种共享权值的深度学习模型,通过权重共享和局部连接减少参数变里,是一种很好的特征提取方法,能够提取局部上下文信息。但是,当句子中信息较少时,需要文本的全局信息作为补充。而主题向量能够对在一定程度上表征句子的全局特征。因此本模型结合主题向量为全局信息补充句子特征,构建了如图2.3所示的TCNN情感分类模型。

图2.3 TCNN模型结构图

如图2.3所示,TCNN主要由四部分组成:模型的输入层、卷积层、采样层和模型输出层。

(1)输入层

输入层的功能是将文本的词向量特征和文本的主题特征融合,并作为输入数据传入卷积神经网络模型,同时与卷积层相连接。卷积神经网络模型最早是用来处理图像数据,而图像特有的像素可以直接作为二维数据使用。因此,当采用卷积神经网络对文本数据进行处理时,需要先将文本通过CBOW模型转换为词向量矩阵形式。

如图2.4所示,设文本长度为n,即每条文本中包含n个词,分别为第t个词的词向量和主题向量,其维度为m,则卷积神经网络输入数据应为一个n×2m的二维矩阵,即由文本中n个词向量和主题向量连接后纵向堆叠而成。

图2.4 文本特征组合方式图

TCNN的输入向量TCNNHI包括两部分(见式(4.10)),一个是词向量,代表词语的语义信息;另一个是主题向量ts,代表文本的主题信息。

(2)卷积层

考虑到计算的复杂性,本文只使用一个输入特征图,即只有一个输入矩阵。在输入层后,需由公式(2.7)对进行卷积操作。通常,在传统卷积神经网络中,每个卷积层中只有一种类型的卷积核,但面对文本情感分类任务时,为尽可能考虑每个词的前后文信息,从而提取多种粒度的文本局部特征,本文使用多种卷积核进行卷积操作。设定有u种规格卷积核,其规格分别为,同时设定每种卷积核的个数相同都为nm。则经过卷积操作将会得到个不同的特征图集合。其中第i种特征图的规格为:。

(3)采样层

(4)全连接层和非线性变换层

经采样层得到的特征图需在全连接层进行向量连接,以得到连接后的特征向量,其计算过程见式(2.9)。

(5)Softmax分类层

将得到的高层文本特征向量TCNNh输入一个Softmax分类器中,得到文本情感类别向量,其公式为:

3.实验结果与分析

本章实验分为两组。第一组实验是当输入词向量分别为静态词向量(static-w2v)、非静态词向量(non-static-w2v)、字符向量(characher)时的各个模型情感分类效果对比,以验证本文提出的TB_LSTM和TCNN的中文文本情感分类有效性。第二组实验是所有模型都融合主题特征作为输入时的情感分类效果对比,以验证主题特征对提升中文文本情感分类的有效性。

3.1 实验数据来源

(1)情感分类评价标准

目前国内外的研究中,通常是从精度(Precision)、召回率(Recall)、F1值进行分析和准确率(Accuracy)等指标对文本情感分类的效果进行分析,这三个指标也是信息检索、人工智能和自然语言处理等领域进行分析的主要指标,其中精度是指检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;召回率指的是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是查全率;而F1值则是精度和召回率综合值;准确率是不同类别精度的综合值,衡量模型在整体样本下的精确度。

在进行情感分类任务评价时,针对情感二元分类情形(分类结果为正向情感或负向情感),可构建二元情感分类问题列联表(表3.1所示)。其中,TP为情感分类中被正确判断的正向文本数量;FN为情感分类中被错误判断的正向文本数量;FP为情感分类中被错误判断的负向文本数量;TN为情感分类中被正确判断的负向文本数量

表3.1 二元情感分类问题列联表

由此,可以确立相应的评判标准量化计算方式:

准确率为:

正向情感精度:

负向情感精度:

正向情感召回率:

负向情感召回率:

正向情感F1值:

负向情感F1值:

(2)词语向量化

本文随机选择2017年5月新浪微博12,000余篇新闻文章作为语料集,利用Python的gensim工具进行词向量计算,设定上下文窗口为10、迭代次数为5次、词向量维度设定为300维,得到了词向量矩阵。该词向量矩阵中各词向量间具有一定的语义相关性,如以“中国”为例,得到图3.2所示的“中国”语义相似词表。

表3.2 “中国”语义相似词表

随后经过分词、停用词过滤后,训练集中文本长度的众数为55,因此设定m=60,对长度不足60的短文本在首尾分布增加相应数量的空词,对长度大于60的短文本则在尾部截去相应的长度的词。将经上述中文文本预处理后的文本数据合并、去重,得到26180条训练数据集,涉及到四个主题:“书籍”、“酒店”、“牛奶”,“手机”,随后利用Python编写LDA模型,设定主题数为4、α=β=0.1、迭代次数为200次,训练得到每条文本和词语的主题类别和如表3.3所示的每个主题下的高频特征词。

表3.3 主题特征词表

在这四个主题的26180条训练数据集中,共有正向情感语料12276条、负向情感语料13904条。按照9:1的比例,使用正负向情感语料23562条作为训练集,剩余2618条情感数据作为测试集,实验数据集分布情况如表3.4所示。

表3.4 二元情感分类实验数据集分布情况表

(3)实验配置

在本文实现深度神经网络的时候,考虑到实验室资源不足,没有采用GPU方式提高深度学习训练效率,而是采用传统的CPU方式实现。表3.5展示实验的软硬件环境和工具。

3.2 实验比较分析

在进行基于主题融合的深度学习情感分类实验前,对2000条数据集在不同中间层维度的准确率进行研究,以优化获取TB_LSTM的中间层的最佳维度,其结果如表3.6示。

表3.5 二元情感分类对比实验软硬件环境配置表

表3.6 不同中间层维度的TB_LSTM二元情感分类准确率表

表3.7 二元情感分类对比实验相关模型的参数设置表

本文设计了两组实验来验证基于主题融合的深度学习情感分类模型的有效性:

第一组实验对比了输入特征为静态词向量(static-w2v)、非静态词向量(non-static-w2v)时TB_LSTM和TCNN与CNN、LSTM、RAE三个模型在相同实验环境下的二元情感分类任务的精度、召回率和准确率。表3.8列出了实验的对比结果,其中“本文模型1”代表TB_LSTM、“本文模型2”代表TCNN。

根据表3.8和表3.9所示的各模型的文本情感分类实验结果,针对本文提出的基于主题融合的深度学习情感分类模型,我们不难得到以下三点结论:

(1)TB_LSTM和TCNN在静态和非静态词向量下相对于CNN、LSTM、RAE模型在正、负中文文本情感分类上都能达到最优的精度、召回率和准确率。两种模型的准确率比次优的CNN模型高出0.4%-2.1%,比最差的RAE模型高出2.3%-4.2%。

(2)采用非静态词向量下中文文本情感分类准确率比静态词向量下的中文文本情感分类准确率平均高出0.2%-1.5%。这说明词向量在模型中通过不断的优化将会有助于中文文本情感分类。

(3)相同条件下TCNN的各项指标整体要优于TB_LSTM的各项指标,并且在时间复杂度上TCNN也优于TB_LSTM,这表明TCNN能够有效的提取文本情感分析的关键特征。而TB_LSTM模型的结构相较而言过于复杂,需要大量样本和成本进行充分训练。

表3.8 静态词向量下不同模型的二元情感分类实验结果

表3.9 非静态词向量下不同模型的二元情感分类实验结果

4.结语

本文首先给出BLSTM中文分词模型、停用词过滤技术、词语向量化技术,以此实现将非结构化的舆情文本转换为结构化文本向量。而后,提出了两种基于主题融合的深度学习情感分类模型:基于主题融合的双向LSTM情感分类模型和基于主题融合的CNN情感分类模型,经实验对比分析,验证两种模型能在一定程度上提升情感分类准确性。

[1]Whitelaw,C,Garg,N,Argamon,S.Using appraisal groups for sentiment analysis.the 14th ACM International Conference on Information and Knowledge Management,2015.

[2]Ni Xiao-chuan,Xue Gui-rong,Ling Xiao,et al.Exploring in theweblog space by detecting informative and affective articles.The 16th International World Wide Web Conference,2017.

[3]Socher R,Pennington J,Huang E H,et al.Semi-supervised recursive autoencoders for predicting sentiment distributions.Empirical Methods in Natural Language Processing,2011.

[4]Richard Socher,Brody Huval,Christopher D.Manning,et al.Semantic Compositionality through Recursive Matrix-Vector Spaces.Joint Conference on Empirical Methods Computational Natural Language Learning,2012.

[5]Socher R,Perelygin A,Wu J Y,Chuang J,Manning C D,Ng A Y,Potts C.Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank.Conference on Empirical Methods in Natural Language Processing EMNLP,2013.

[6]陈力丹.关于舆论的基本理念[J].新闻大学,2015(05).

[7]谢耘耕,刘锐,徐颖.当前互联网管理和舆论引导工作存在的问题及对策建议[J].科学发展.2016(08).

[8]贾爽.“一带一路”∶Twitter网络舆情分析与对策建议[D].南京大学,2016.

[9]巨慧慧.针对网络舆情的情感倾向性研究[D].哈尔滨工业大学,2015.

[10]谢宜瑾.网络舆情分析与管理技术的研究与实现[D].广东工业大学,2016.

猜你喜欢
文档卷积向量
浅谈Matlab与Word文档的应用接口
向量的分解
基于3D-Winograd的快速卷积算法设计及FPGA实现
有人一声不吭向你扔了个文档
聚焦“向量与三角”创新题
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
基于RI码计算的Word复制文档鉴别
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线