基于深度学习的情感类文本数据蕴含关系识别方法

2021-03-10 09:20赵海燕杜丽娟刘琨王廷梅刘建国

电子技术与软件工程 2021年20期

赵海燕杜丽娟刘琨王廷梅刘建国

（北京联合大学北京市 100012）

情感类文本数据的识别和挖掘是一种跨领域研究，包括心理学、自然语言信息处理、机器学习等，具有重要的价值。情感类文本数据是大众对产品、服务、组织等对象评价观点、情感认可态度的描述。随着观点信息的快速增加，需要借助计算机来处理那些人工无法处理的海量信息，对电商平台及社交网络的文本数据进行分析和识别，从而挖掘出其背后巨大的商业价值[1]。情感类文本数据蕴含关系的识别和挖掘，决定了其在互联网信息时代具有重要的研究意义。为此，本文对基于深度学习的情感类文本数据蕴含关系识别方法进行研究

1 基于深度学习的情感类文本数据蕴含关系识别方法

1.1 基于CNN与BiLSTM融合的文本数据对象识别

为了实现对情感类文本数据蕴含关系的有效识别，本章采用将CNN 与BiLSTM 进行融合的方式，对文本数据对象进行初步识别。其中CNN 表示为卷积神经网络；BiLSTM 表示为双向长短记忆网络[2-3]。其中CNN 包括文本数据词汇嵌入层、网络卷积层、操作池层，当前端输入情感类文本数据时，需要先对词向量进行参数分析。假定数据量为100.0 维度时，可在终端增加一个3.0×100.0 维度的分类器，设定分类器数量为128.0个，识别的步长为1.0。按照卷积操作，对情感类文本数据中的关键特征进行针对性提取，并在此基础上，删除数据集合中存在的冗余特征值，以此种方式，生成一个具有固定维度的情感类文本数据特征向量。在上述提出内容的基础上，将终端输出的数据集合输入BiLSTM 网络，数据在此过程中会经过隐藏层与处理层，相比单独使用CNN 提取对象的过程，此种融合方法识别数据对象可以兼顾到文本中所有数据的特征。此过程可用如图1 表示。

按照图1所示的流程，将存在情感的文本数据作为分析对象，识别具有价值的情感信息，在此过程中，具有一定价值的情感评价信息主要由终端评价主体对象、观念或看法持有者、评价短语、评论语句等搭配过程。其中，针对评论词汇或断句的识别，可以将其作为对文本内容中具有情感描述特征词汇的提取，例如：漂亮、美好等。

图1：基于CNN 与BiLSTM 融合的文本数据对象识别

调用语料库可以更加直接地实现对文本数据对象的识别[4]。但在此过程中需要全面考虑的是，调用语料库需要提前掌握库内存储空间的大小，一旦语料库存储空间不足，便会影响对文本数据对象识别的准确度。为此，在开展此方面的细化研究时，可结合词典的应用，提取情感词汇，并根据词汇之间的情感联系，生成一个文本数据情感结构图。图中每个点均可表示为一个“评价词语”，连接图像的每个“线”可表示为两个顶点间的关系。以此种方式，实现对文本数据对象的识别。

1.2 情感类文本信息与数据分类

在完成对文本数据对象的识别后，对情感类文本信息与数据进行分类处理。基于情感感受层面分析，可以将情感表达强度划分为：无情感、弱情感、普通强度、中等强度、高强度等情感[5]。在此过程中，提出将语义规则与深度学习相结合的方法，解决在线评论文本情感分类问题，在分类时，结合不同语句中上下词汇的关联性与同义性，使用两个目标词汇在文本中存在一定的长期记忆，根据记忆结果，可以得到一个基于识别目标的LSTM 情感数据集合。在此基础上，引入支持局部情感分类的深度记忆网络，使用多个计算层对词汇的情感深度进行，并在每个计算层上使用神经网络注意力机制模型，便可以成功推断出局部情感极性。

为了实现多层分类目标的实现，需要在两个情感文本层之间，使用一个组件，用于生成句子中某个单词的特定目标描述。同时，需要保留一个机制，用于存储来自CNN 网络中RNN 层的原始上下文信息。此外，使用弱监督学习方法，评价不同词汇的正面和负面含义，通过将每个单词表示为连续向量的方式，构建针对每个词汇的情感表达矩阵，矩阵中，每行中表达的信息对应句子中使用的单词向量，并将词汇矩阵作为分类器输入量，将情感标签作为输出量，反复训练数据集合，以此达到对情感类文本信息与数据分类的目的。

1.3 基于深度学习模型的文本数据情感推理

在完成上述相关研究的基础上，引进深度学习模型，对文本数据的情感进行推理，推理的过程便是一个对文本数据蕴含关系的描述。因此，在进行文本数据推理过程中，需要引进一个文本数据样本作为前提条件与参照，在此基础上，将另一个文本数据样本作为假设。倘若在情感推理中，通过前提条件P，可以得出假设H，那么便可以认为两个文本数据是存在情感蕴含关系的。

为了实现推理过程，可参照深度学习过程，在卷积神经网络的支撑下，判别两个文本数据中是否存在相似度匹配的数据。只有定位到这些可以用于描述文本的数据信息，才能够对文本的蕴含关系进行识别[6]。因此，在此次研究中，提出了一种以学习数结构作为支撑的数据提取器，将神经网络中每一个信息节点作为一个子节点，根据子节点的从属关系，提取对应的父节点，构建一个针对情感文本数据的学习数。在此基础上，按照网络中节点信息之间的关系，对不同信息节点进行对接，使用TBCNN 作为前提，使用数据信息拼接、差值计算、累加、相乘等方式，对构造的情感学习树进行语义信息描述，再使用softmax 对语义信息进行分类，以分类结果作为前提条件，对语义信息进行文本情感的软对齐。在完成对信息的对其处理后，匹配存在相似度关系的文本信息，并使用深度学习中的词汇库，对每个特征词汇进行赋权，按照深度迭代理论，对情感词汇权值进行计算。计算公式如下。

公式（1）中：λ 表示为情感类文本数据或词汇代表的权值；f表示为词汇之间的相似度；s 表示为词汇在神经网络中的子节点信息；d 表示为词汇长度或字符串长度；k 表示为卷积神经网络层数；i 表示为词汇在文本中的排序；j 表示为学习树层数。在完成对与此方面相关内容的计算后，按照权值大小依次输出，根据数据权值对应的信息，进行文本数据匹配，提取匹配结果，以此作为情感类文本数据蕴含关系的识别结果。

2 实验论证分析

本文通过上述论述，实现对识别方法的理论设计，为验证该识别方法在实际应用中是否能够实现对其相互蕴含关系的精准识别，将其与传统基于篇章主题的识别方法应用到同一情感类文本资料当中，并开展如下对比实验：

共选择五个情感分类当中经常使用的数据集作为实验研究对象，每个数据各自具备独特的特点，以此确保实验结果能够更加全面地对两种识别方法应用效果进行反映。每个数据集平均句子长度为25 个单词，总共包含12006 条数据，随机选择数据集当中1000条数据识别结果，并将其绘制成如表1所示对照表。

表1：两种方法识别结果对照表（单位：条）

从表1 中得出的实验结果可以看出，本文识别方法得出的结果与实际数据消极条数和积极条数完全一致，而传统方法识别结果与实际情况存在较大差异。因此，通过对比实验证明，本文方法的识别准确性更高，能够针对文本的消极情感和积极情感进行更加准确的识别，并且使识别结果更具有实际利用价值。将该方法应用于实际能够为文本数据的挖掘和处理提供科学依据。

3 结束语

近几年，情感类文本数据的识别和挖掘技术方面的研究，已趋近一种白热化趋势，由于计算机技术的飞速发展，人工智能、自然语言处理等领域更重视发表会议论文，能够通过会议及时交流最新的进展，因此，本文在早期研究成果的基础上，引进深度学习算法，对情感类文本数据蕴含关系识别方法展开设计与研究，希望通过此次的研究，为我国工业界、京东、淘宝、唯品会等各大电商购物网站和微博等社交软件，提供情感分析技术的支撑，并引导终端商户将此项技术与方法应用到用户评论分析当中，厂家通过用户评论挖掘，发现产品存在的问题并加以改进，以此提升客户使用体验，从而实现增加产品销量的目的。