基于多语义特征的农业短文本匹配技术

2022-06-21 08:22赵春江吴华瑞缪祎晟王海琛杨宝祝
农业机械学报 2022年5期
关键词:相似性正确率卷积

金 宁 赵春江 吴华瑞 缪祎晟 王海琛 杨宝祝

(1.沈阳农业大学信息与电气工程学院, 沈阳 110866; 2.沈阳建筑大学研究生院, 沈阳 110168;3.国家农业信息化工程技术研究中心, 北京 100097; 4.北京农业信息技术研究中心, 北京 100097;5.沈阳建筑大学信息与控制工程学院, 沈阳 110168)

0 引言

农业信息咨询服务是农业技术推广的途径之一。“中国农技推广APP”搭建了高效、便捷的手机移动端农业信息咨询服务平台,至今已完成农业技术问答超过了千万次,涵盖了蔬菜、粮食作物、牲畜等10个品种,涉及病虫草害、栽培管理、动物疫病等18个种植、养殖方面问题[1]。面对平台问答社区飞速增长的提问数量和大量重复、相似提问的存在,仅依靠农业专家及农业技术人员的人工回答已无法满足农户快速、准确获得答案的需求。利用大数据和文本挖掘技术的文本匹配计算可有效解决上述问题。文本匹配作为文本挖掘技术的重要组成部分,是实现智能问答最关键、最基础的技术之一[2],是农业大数据智能研究领域的重点研究方向。

文本匹配即构建一个模型来学习和计算2个文本的相似度,判定2个句子是否相似[3]。文本匹配方法包括基于字面相似匹配、基于语法结构相似匹配和基于语义相似匹配等方法[4]。基于字面相似匹配一般利用重复词、同义词、公共字符串等词型表面特征,采用N-gram[5]和Jaccard[6]算法进行相似度判断。此方法仅提取了文本相同词型或词数量等浅层特征,忽视了文本语言结构、语义等深层特征的提取。基于语法结构相似匹配通常利用标注的词语属性计算文本间相似性[7],但是由于在特定领域内缺少带有词语属性标注的文本,并且专业领域内涵盖的专属词语较多,影响了此方法相似度计算的准确性。近年来基于语义相似匹配方法在文本匹配研究中应用广泛[8-10]。随着深度学习技术的发展,将文本转换为Word2vec[11-12]、GloVe[13]等由神经网络生成的词向量,运用深度学习文本匹配模型[14-16]计算文本相似度已成为当前主要研究方法。深度学习方法能够从文本中自动学习、抽取特征,可有效解决人工设计特征泛化能力差,提取特征数量少的问题。卷积神经网络是常用的深度学习方法,其卷积核结构能够有效提取文本局部的信息,通过堆叠卷积层的方法提取文本不同粒度的特征[17-19],但在文本序列化特征提取,特别是长距离依存关系提取表现不佳。相比卷积神经网络,循环神经网络更适用于文本序列化建模[20-22]。循环神经网络可将历史信息保存并作用于后续的计算进而提高匹配的精确度。但此方法也存在对关键信息不敏感,训练时间长,内存消耗大等问题。注意力机制[23]可有效解决上述问题,其通过赋予关键词语更高的权重,帮助模型快速获得最有效的信息,从而节省计算资源。在农业领域,深度学习方法在文本分类[24-26]、文本信息提取[27-28]、命名实体识别[29-31]、实体关系抽取等方面取得了一定研究成果。但现有研究仍存在文本特征提取模型结构简单,短文本特征提取不丰富、不全面等不足,对于农业领域中大量存在的专有名词、词语搭配方面的短文本挖掘仍不够深入。

本文针对农业问答社区产生的提问文本词汇总量少、专有名词多,语句规范性差,特征稀疏性强的特点,从深度语义、词语共现、最大匹配度3个层面提取短文本特征。根据不同层面文本特征的特点,利用孪生长短期记忆网络、卷积神经网络和密集连接神经网络,搭建基于多语义的农业短文本匹配模型Co_BiLSTM_CNN,以实现提问文本相似性判断。

1 多语义特征文本匹配模型

本文提出的基于多语义特征文本Co_BiLSTM_CNN模型如图1所示。该模型主要由文本预处理层和文本匹配层2部分组成。与一般文本匹配模型相比,本文提出的模型在文本预处理层构建了词语共现关系网,可计算每个词语共现对的权重,进一步丰富了短文本特征;再根据不同文本特征的特点,利用双向长短期记忆网络、卷积神经网络和密集连接网络搭建文本匹配模型,可实现文本特征的多角度提取。

图1 Co_BiLSTM_CNN模型结构图Fig.1 Schematic of Co_BiLSTM_CNN

1.1 文本预处理

(1)文本分词及词性标注

为了进一步提高文本特征提取的精确度,提升文本处理效率,更加全面、完整地保留文本语义,首先运用加载停用词表方法,删除文本包含的停用词、特殊字符、标点符号等冗余信息,减少噪声对文本语义的干扰;然后利用jieba中文分词库对文本进行分词,针对文本中农业领域专有词语识别难的问题,加载搜狗农业词汇字典作为分词字典,以提高专有名词的识别度;为了更加深入地提取文本特征,将分词结果的词性作为文本特征,按照北京大学词性标注规范[32],对分词结果的词性逐一进行标注,利于提取更能体现文本语义的名词、动词。对于具有语义代表性的农业领域专有词语,在词性标注时专门自定义了词性,更加方便模型学习、提取文本特征。

(2)词向量转换

由于文本分词结果无法被模型直接读取,需将中文分词结果转换为数字向量形式表示。Word2vec[33]是近年来常用的基于神经网络的文本向量化表示方法,包括根据上下文预测当前单词和根据目标词语预测上下文信息2种模式,通过文本数据特征可学习得到连续、低维词向量,有效解决了传统词向量模型带来的语义孤立和维度爆炸问题。

(3)文本特征增强

文本词语共现关系是指在同一文本内,几个词语频繁共同出现构成的关系,是一种基于统计学的重要文本特征。在一个问句内,几个词语在固定窗口范围内多次共同出现,寓意其很可能表述相同的主题,在语义上具有一定的关联性。对于2个不同的问句,相同词语共现关系的数量越多,代表着两者之间语义相似度越高。问句一般属于短文本,具有词语数量少、语义特征不明显的特点,利用文本词语共现关系可有效增强文本语义特征。为了进一步突出文本核心语义,减少噪声干扰,在构建词语的共现关系时,先对词语的词性进行初步筛选,仅统计更能代表文本语义的名词、动词以及农业字典中包含的专有名词;再对词频进行限定,仅统计高于3次的词语,在保留了原有问句核心词语的基础上,使文本语义特征更加丰富。

1.2 多特征文本匹配模型

(1)孪生网络模型

孪生网络(Siamese network)是一种双边的网络模型架构,多用于判断2个输入的相似性,具体结构如图2所示。左右2个输入首先经过LSTM或者CNN等神经网络模型训练而映射到新的空间,形成输入在新空间中的表示;其次通过距离度量的方式可计算左右2个神经网络输出的距离。训练参数包括左右参数共享及左右参数不等2种模式,在判断2个问句相似性问题上,由于2个问句结构基本相同,因此选择左右参数共享模式,即利用相同的参数提取2个问句的特征,该模式具有训练参数少,训练效率高,避免过拟合等优势。本文在构建文本匹配模型时均使用左右参数共享的孪生网络模型。

图2 孪生网络模型结构图Fig.2 Schematic of siamese network

(2)BiLSTM模型文本特征提取

长短期记忆网络(Long short-term memory, LSTM)在标准循环神经网络(Recurrent neural network, RNN)结构基础上,增加了遗忘门、输入门、输出门和细胞状态,能够在有效保存长序列的历史信息同时,规避了标准RNN梯度消失和梯度爆炸等问题,具体结构见图3。

图3 LSTM结构图Fig.3 Schematic of LSTM

ft=σ(Wf[ht-1,xt]+bf)

(1)

it=σ(Wi[ht-1,xt]+bi)

(2)

(3)

(4)

ot=σ(Wo[ht-1,xt]+bo)

(5)

ht=ottanh(Ct)

(6)

式中σ——Sigmod函数

tanh——双曲正切函数

Wf、Wi、WC、Wo——遗忘门、输入门、细胞状态及输出门权重矩阵

bf、bi、bC、bo——遗忘门、输入门、细胞状态及输出门偏置

在中文文本中,词语的前后组合顺序会直接影响文本语义。为了更全面地提取文本特征,深入挖掘词语相关联的上下文信息,利用BiLSTM模型提取文本的特征,解决了LSTM单向传输问题。BiLSTM由前向LSTML和后向LSTMR组成,双向LSTM共享权值,所有神经元内的权重参数均相同,具体结构如图4所示。

图4 BiLSTM结构图Fig.4 Schematic of BiLSTM

当输入文本词向量为{x0,x1,x2,x3}时,LSTML训练得到向量{hL0,hL1,hL2,hL3},LSTMR训练得到向量{hR0,hR1,hR2,hR3},最后将生成的向量拼接得到{[hL0,hR0],[hL1,hR1],[hL2,hR2],[hL3,hR3]}。在计算文本相似度任务中,由于[hL3,hR3]包括了前向与后向的所有特征信息,一般将其作为文本的特征表示。

(3)CNN模型文本特征提取

由于在文本预处理阶段选择了文本词语共现关系作为文本的特征,原文本已由分词结果表示更改为词语共现对表示,改变了原来的文本语序特征,因此CNN模型更适合提取以词语共现对表示文本的语义特征。CNN模型主要由卷积层和池化层组成,卷积层按照设定尺寸的卷积核对文本向量进行卷积计算得到更高级的特征表示。

池化层包括平均池化和最大池化两类,可将卷积层得到的高阶特征进行稀疏处理以及下采样,在降低维度的同时,保留了关键的特征信息,舍弃了不显著的信息,有效减少了模型参数及数据计算量,降低了模型过拟合。为了遴选辨识度更高的特征,本文选择最大池化方法,即在每个池化窗口内,取每一维的最大特征。

(4)DNN模型文本特征提取

根据统计的文本词语共现情况,本文构建了词语共现网络,网络中的点是数据集中词频数大于3的词语,网络中的边是词语和词语之间的共现关系,边的权重计算公式为

(7)

式中fi,j——词语共现对〈i,j〉边的权重

ni,j——词语共现对〈i,j〉的词频

k——与词语i组成词语共现对的词语数量

ni,k——词语共现对〈i,k〉的词频

为了进一步丰富文本特征,使模型更好地适应小规模数据集,本文将2个问句词语共现对的最大匹配度和权重作为文本特征。文本特征表示为{l1,l2,g,w},其中l1和l2表示2个问句包含的词语共现对数量,g表示2个问句的词语共现对最大匹配度,w表示词语共现对的权重之和。将文本特征输入到DNN网络模型中,映射成新空间向量。

2 试验与结果分析

2.1 试验数据

试验数据来源于“中国农技推广APP”中的问答社区,共有20 000对问题组合,并通过人工标记的方法,标注了问题组合对中2个问句是否相似。表1中为部分样例试验数据,语义相同的2个问句,其标签值为1,共有9 233个,占46.2%;语义不同的,标签值为0,共10 767个,占53.8%。

表1 试验数据样例Tab.1 Sample of test data

试验数据随机划分为训练数据、验证数据和测试数据3部分,其中训练数据占试验数据量的80%,用于学习文本特征;验证数据占10%,用于调整模型的超参数,用于对模型的能力进行初步评估;测试数据占10%,用于评估最终模型的泛化能力。

2.2 评价指标

试验选择精确率、召回率、F1值、正确率以及时间复杂度作为评价指标,全面衡量模型性能。精确率、召回率、F1值以及正确率是统计学以及信息检索相似性判断领域的标准指标。精确率计算的是模型判断相似且实际也相似的句子数量,即正样本与数据集中全部句子数量的比值,代表着模型对正样本结果的查准程度。召回率计算的是正样本与数据集中全部相似句子总数的比值,代表着模型对正样本的查全程度。F1值同时考虑精确率和召回率,让两者同时达到最高并取得平衡。正确率表示预测正确的结果占全部句子数量的比例。时间复杂度包括对训练时间和测试时间的统计,用于衡量模型的效率,取10次试验耗时的平均值作为试验结果。

2.3 参数设置

问句中包含的有效词语使用128维的词向量表示,包含词语数量最大为30个,包含词语共现对数量最大为50个。BiLSTM模型输出特征维度是128维,CNN模型卷积核数量是128,孪生神经网络的2个子网络共享参数。为了避免过拟合,模型使用dropout函数,随机让一些神经元失活,失活率设定为0.5。

2.4 对比模型

本文模型与近年在文本相似度计算领域常用的4种深度学习模型进行比较,对比模型包括基于孪生网络的MaLSTM[34]、ESIM[35]、ABCNN[36]、CDNN[37],其中MaLSTM模型利用2个共享权重的LSTM提取文本特征,使用Word2vec方法将长度不同的句子转换为长度相同的向量,运用曼哈顿距离计算文本相似度;ESIM利用BiLSTM提取2个句子的文本特征,计算2个句子的相似性矩阵,对文本特征进行加权,得到新的文本特征表示向量,最后利用全连接层预测文本是否相似;ABCNN在CNN基础上,分别在卷积计算前和池化计算前引入了注意力机制,判断文本相似情况;CDNN利用CNN提取文本特征,利用文本特征相似度矩阵对2个句子特征进行加权计算后,判断文本相似性。

2.5 结果分析

表2展示了5种试验模型针对农业问答短文本数据集的试验结果。本文提出的Co_BiLSTM_CNN模型的正确率、精确率、召回率及F1值均超过了94%,较对比模型均有大幅提高。在对比模型中,MaLSTM模型的4项指标均接近90%。对比正确率和F1值可知,Co_BiLSTM_CNN模型相对于其他模型提高了近5个百分点,说明该模型能够较为全面地提取文本特征,模型在相似性计算方面的总体性能较好。此外,以LSTM模型框架为基础的MaLSTM和ESIM的评价指标明显高于以CNN模型为基础的CDNN和ABCNN。对比精确率可知,Co_BiLSTM_CNN仍为最优,说明该模型对于相似性文本的判断比较准确,MaLSTM和ESIM在预测文本为相似文本的表现明显优于CDNN和ABCNN。对比召回率可知,4种对比试验模型表现较为接近,均超过了89%,ESIM召回率达到91%,但是与Co_BiLSTM_CNN模型仍有较大的差距。

表2 5种试验模型的试验结果对比Tab.2 Comparison of five models %

为了进一步验证词语共现特征对于本文相似性计算的有效性,将4种对比模型进行改进,融合了文本词语共现特征。图5展示了4种对比试验模型原模型与融合了词语共现特征模型在相似性计算正确率方面的对比结果。如图5所示,针对农业短文本数据集,本文提出的融合词语共现特征的文本表示方式在4种试验模型的相似性计算正确率明显高于原模型,其中MaLSTM正确率最高,达92.4%。特别对于以CNN为基础的试验模型,正确率提升效果更加明显,最高增幅达到10.2个百分点。4种对比模型在融合了词语共现特征后,正确率虽明显提高,但仍低于本文提出的Co_BiLSTM_CNN模型。

图5 不同模型文本相似性计算正确率对比Fig.5 Comparison of accuracy by different models

为了验证试验模型对不同规模数据集的适用性,本文将Co_BiLSTM_CNN与MaLSTM、CDNN,以及对应的融入词语共现特征的CO_MaLSTM和CO_CDNN模型,分别在10 000、15 000、20 000组问句对数据集中进行试验。图6展示了5种试验方法在不同规模数据集下的相似度计算正确率。由图6可知,全部试验模型在较大规模数据集中取得的试验结果均优于小规模数据集,Co_BiLSTM_CNN在不同的规模数据集中均取得了最优的试验结果,特别在小规模数据集中,Co_BiLSTM_CNN优势更为突出,体现了该模型具有较强的鲁棒性。融合了词语共现特征的3个试验模型在小规模数据集中的正确率仍在90%左右,明显高于未融合词语共现特征的MaLSTM和CDNN。

图6 不同数据集的文本匹配正确率Fig.6 Text matching accuracy for different datasets

表3展示了5种试验模型在20 000组问答对数据集中的训练和测试所用时间。CDNN和Co_CDNN在训练时间上优势明显,MaLSTM、Co_MaLSTM训练时间较长,融合了 CNN、BiLSTM和DNN多种模型的Co_BiLSTM_CNN由于结构组成复杂,导致其训练时间最长。在实际应用中,由于文本匹配模型的训练一般采取离线方式运行,因此模型对时间复杂度要求不高,更注重相似性判断的正确率及结果反馈时间。此外,融合了词语共现特征的Co_CDNN和Co_MaLSTM的训练时间与基础CDNN、MaLSTM训练时间基本相同,可见在文本相似性判断任务中,融合词共现特征对模型时间复杂度影响较小。

表3 各试验模型的离线训练时间Tab.3 Offline training time comparison of models

3 结论

(1)Co_BiLSTM_CNN模型满足问句相似性判断实际需要。Co_BiLSTM_CNN能够多角度提取文本特征,在农业问答问句判断方面具有良好的试验效果,相似性判断正确率明显提高,正确率达到94.15%,并且在小规模数据集上的表现仍然良好。

(2)利用文本词语共现关系增强文本特征,可在保证时间效率的基础上,有效提高相似性判断的正确率,有效解决特征稀疏文本相似性判断难的问题。该方法在多个试验模型中针对不同规模的数据均取得了最优的试验效果,具有广泛的适用性。

猜你喜欢
相似性正确率卷积
基于全卷积神经网络的猪背膘厚快速准确测定
个性化护理干预对提高住院患者留取痰标本正确率的影响
基于图像处理与卷积神经网络的零件识别
隐喻相似性问题的探讨
课程设置对大学生近视认知的影响
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
12个毫无违和感的奇妙动物组合
基于隐喻相似性研究[血]的惯用句
生意