基于词向量+BiLSTM+CRF的农业技术需求文本实体提取

2021-04-22 16:11宋林鹏刘世洪王翠
江苏农业科学 2021年5期

宋林鹏 刘世洪 王翠

摘要:农业技术需求文本实体提取是农业技术转移工作中需求分析能够量化、特征化的关键技术。基于主流农业技术转移网站上的农业技术需求文本进行分析,提出农业技术需求文本中需求主体对象、需求意图、需求程度3种关键实体成分;分别使用传统的CRF和基于神经网络的词向量+BiLSTM+CRF 2种模型对关键实体进行识别提取。试验结果表明,词向量+BiLSTM+CRF在正确率、召回率指标上分别能达到88.51%和82.28%以上,均优于CRF模型。

关键词:农业技术需求挖掘;命名实体识别;条件随机场;双向长短时记忆网络

中图分类号: S126文献标志码: A

文章编号:1002-1302(2021)05-0186-08

农业创新链是一个以农业研发活动为基础,以农业科技成果转化为渠道,以实现农业科技成果产业化应用、市场化推广为目的的产业链[1]。在这个产业链中,农业科技成果转化起到了枢纽的作用,其上游是农业研发活动的主体,包括各大高校和科研院所,下游是进行直接农业生产的农民或农业企業,他们希望应用农业技术来改进生产活动,提高生产效益,但由于经济等方面的限制,只能借助于上游研发机构的成果,而农业科技成果转化正是起到了“中间人”的作用,其效果发挥的质量影响着整个产业链的通达程度。农业科技转移平台正是农业科技成果转化的承载实体,完善农业科技转移平台建设是破解农业科技成果转化难的关键。

当前,我国农业技术转移主要依赖政府主导,农机推广人员作为技术供需双方的中间人,进行线下推广。这种方式存在成本高、效率低、时效性差等问题。一方面,农民或农企(特别是中小农企)对农业技术获取渠道、技术应用状况、收益等方面的信息掌握十分薄弱,许多农企当前依然依靠传统技术甚至过度的人力资源投入进行生产经营,导致农业生产过程成本高昂、效益低下;另一方面,许多高校和科研机构的成果应用不到实际的生产上,形成了技术拥有者和技术需求者脱节的现象。农业技术本质上也是商品,会受到市场规律的影响,市场的需求是主导市场资源配置和生产的主导力量,农业技术的市场需求同样也是农业技术转移市场的主导因素。许多学者也对当前农业技术转移机制脱离市场需求的问题进行了深入研究,并给出了相应的对策,但这些研究大多是从政策、理论方面给出建议,很少有在具体技术层面提出优化农业技术需求信息挖掘的。

随着线上商品交易模式的日益成熟,我国政府和非政府机构也建立了各种形式的线上农业技术交易平台,这些平台积累了很多技术相关数据,其中技术需求描述文本是技术需求方对自身需求的简要描述,这些文本数据多是非结构化的,对需求文本中命名实体的提取是精准获取需求信息的基础环节,是技术转移系统构建技术推荐、技术供需匹配、企业需求画像等工作的关键技术。

1 相关技术

1.1 序列标注任务

序列标注是对1个给定的序列中的每个元素进行标记,或者说给每个元素打1个标签,标签的具体形式取决于不同的任务,常见的系列标注任务包括分词、词性标注、关键词抽取、命名实体识别[5]、词义角色标注等。在做序列标注时只要针对特定给定的标签集合,就可以进行特定的序列标注任务。

序列标注任务的一般形式:对于待标注的一段序列X={x1,x2,…,xn},需要给每个预测一个标注,先定义Tag集合是T={t1,t2,…,tn},比如,分词的标注可以定义为{Begin,Middle,End,Single},命名实体识别的标注可以定义为{形容词,名词,动词,…},假设预测序列是Y={y1,y2,…,yn},要计算P(Y|X)从而得到序列Y,再定义对应的真实标签序列是 L={l1,l2,…,ln},那就对Y和L使用交叉熵计算损失函数,通过梯度下降来求解参数。和普通分类不一样的是,这些预测的标注之间可能是有关联的,可能须要通过上一个标注的信息去预测下一个标注。

在深度学习被广泛应用之前,序列标注问题的解决方案大多借助于隐马尔科夫模型(HMM)、最大熵模型(ME)、条件随机场模型(CRF)等。尤其是CRF,是解决序列标注问题的主流方法,但是这些方法依赖于人工定义大量的特征,工作量大,但模型的可解释性好。随着深度学习的发展,循环神经网络(RNN)在序列标注问题中取得了很大的进步,且随着RNN里门控机制、注意力机制的成功应用,在系列学习里能捕获到更关键、更宽泛的上下文信息,大幅提升了系列标注的应用效果[6]。而且深度学习中的端到端学习(end-to-end),也让序列标注问题变得更简单了。

1.2 词嵌入

文本是一种非结构化的数据信息,是不可以直接被计算的,文本表示的作用就是将这些非结构化的信息转化为结构化的信息,这样就可以针对文本信息作计算,来完成日常所能见到的文本分类,情感判断等任务。词嵌入(word embedding)是文本表示的一类方法,简单的说是将高维空间(空间的维度通常是词典的大小)中表示词的高维向量(比如独热one-hot表示)映射到低维连续空间中的向量,映射后的向量称为词向量,在低维的词向量有更好的语义信息。词向量可以作为最终结果来使用,也可以作为神经网络层的输入来进一步学习有用信息。

Word2vec是由Google提出的一种词嵌入方法和工具,是基于统计方法来获得词向量,这种算法有2种训练模式:(1)通过上下文来预测当前词,即CBOW(Continuous Bag-of-Words Model);(2)通过当前词来预测上下文,即Skip-gram (Continuous Skip-gram Model)。

在基于神经网络命名实体标记中,使用Word2vec对词级别或者字级别进行向量表达时,每个词向量会带上一定的语义关系,比如临近关系。把这些带有语义关系的向量作为模型的输入,能有效优化模型效果。

1.3 长短时记忆模型

长短时记忆模型(LSTM)[7]是一种特殊类型的RNN,是为了解决传统RNN中梯度消失和难于学习长距离的依赖信息的问题。如图1是传统RNN和LSTM概览结构,RNN输入只有1个隐藏状态(hidden state,h),LSTM有隐藏状态和细胞状态(c)2个传输状态,y是模型最终的输出单元。c是LSTM的核心,细胞状态就像一条传送带,会沿着模型链一直传递,且只有一些少量的线性交互,信息在上面流传保持不变会很容易,易于长距离依赖状态的保存和更新。

LSTM 通过一种名为门(gate)的结构控制cell的状态,并向其中删减或增加信息。1个LSTM有3个这样的门:遗忘门、输入门和输出门。以语言翻译任务来举例:cell状态可能会需要考虑主语的性别,这样才能找到正确的代词。笔者设定如果看到1个新的主语,遗忘门就用来忘记旧的主语所代表的性别,然后利用输入门将新主语的性别信息加入细胞状态中,以替换要忘记的旧信息。最后,须要确定输出的内容,当它只看到1个主语时,就可能会输出与动词相关的信息,比如它会输出主语是单数

还是复数,这样的话,如果后面真的出现了动词,就可以确定它的形式。LSTM模型的详细结构和计算过程见图2、式(1)。

it=σ(Wxixt+Whiht-1+Wcict-1+bi)

ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)

ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)

Ct=ftCt-1+ittanh(Wxcxt+Whcht-1+bc)

ht=ottanh(Ct)。(1)

式中:σ即激励函数Sigmoid函数;xt是模型在t时刻的输入;it、ft、ot、Ct、ht分别是t时刻输入门、遗忘门、输出门、记忆细胞、隐藏门的激活向量;W、b是模型学到的参数权重和偏置。

LSTM中信息是单向流动的,如果能像访问过去的上下文信息一样,访问未来的上下文,这样对于许多序列标注任务是非常有益的。例如,在序列标注的时候,如果能像知道这个词之前的词一样,知道将要来的词,这将非常有帮助。双向循环神经网络(Bi-LSTM)的基本思想是提出每一个训练序列向前和向后共是2个LSTM,而且这2个都连接着1个输出层。这个结构提供给输出层输入序列中每一个点完整的过去和未来的上下文信息。

1.4 条件随机场

条件随机场模型(CRF)是给定一组输入序列条件下另一组输出序列的条件概率分布模型,其本质是一个条件序列无向图模型[8],在给定观察序列的条件下,CRF会计算整个观察系列对应标记序列的联合概率分布,而不是像HMM那样在给定当前状态条件下,标记下一个状态的分布。CRF综合了HMM和最大熵模型的优点,对于观测序列并没有做马尔科夫独立性假设,这使得CRF能更好地拟合标记序列相互作用的特征信息。CRF虽然改善了临近相互作用的特征信息,但对于长距离的依赖信息并不能利用,且CRF的应用效果依赖于人工对特征的选取,不能很好地进行端到端进行学习。CRF的参数化定义如下:

P(y|x)=expi,kλktk(yt-1,yi,x,i)+∑i,lulsl(yi,x, i)〗Z(x);(2)

Z(x)=∑yexpi,kλktk(yt-1,yi,x,i)+∑i,lulsl(yi,x,i)〗。(3)

式中:Z(x)為规范化因子;P(y|x)为在给定随机变量序列x的条件下,随机变量序列y的条件概率分布;tk(yt-1,yi,x,i)是转移特征函数,表示在给定观测x的情况下从上个节点yt-1转移到这个节点yi的情况;sl(yi,x,i)是状态特征函数,表示当前节点yi是不是标记x的情况;λk和ul是特征函数分别对应的权值;Z(x)为规范化因子,求和时在所有可能的输出序列上进行的。

CRF的精准使用正是依赖于对特征的使用以及特征函数的定义和学习,在某个具体领域使用CRF有时候需要在大量的语料里总结结构特征,并转化为CRF的特征函数,比如CRF用于词性标注时,对标注系列2个动词不同紧邻出现这一特征可以给予正向打分。CRF对最终系列的判定就是基于所有特征函数对潜在系列的所有单词的打分值。

注意在CRF的定义中,并没有要求X和Y有相同的结构。而实现中,一般都假设X和Y有相同的结构,CRF就构成了线性链条件随机场(linear chain conditional random fields,简称linear-CRF),其结构见图3。

1.5 基于词嵌入+BiLSTM+CRF模型的命名实体识别

相对于CRF,BiLSTM能利用更远距离的上下文信息,目前在系列标注任务里基本都是以神经网络的形式进行,但是某些任务中,一些强限制特征,BiLSTM并没有好的机制进行保障,而CRF可以以特征函数的形式来利用这部分信息,比如在词性标注任务中,2个动词不可能紧邻出现这一强限制特征。而使用词向量来代替传统one-hot(独热编码)稀疏表示,也能有效提升输入的语义关系,因此,在系列标注任务中常结合词向量、BiLSTM和CRF进行建模,其模型结构见图4。

2 结果与分析

2.1 数据集

试验采集技E网(https://www.ctex.cn/)、三泰百科(http://www.3tbest.com/)、中国科学院北京国家技术转移中心(http://www.nttc.ac.cn/)等农业技术交易网站的共2500条技术需求描述文本,原始数据例子见表1。

使用jieba分词系统解析出文本的词语特征和词性特征,以胖姜下脚料高效利用加工技术研究为例,结果见表2。

2.2 标注

2.2.1 实体分析

目前存在诸多农业技术交易网站,用户可以在网站发布自己的技术需求,通常只是一段话的形式,为了对用户技术需求进行深层次分析, 必须得从这段技术需求描述里挖掘出定性定量的特征实体。经分析,一段农业技术需求描述通常会包括3个特征:需求主体对象、需求意图、需求程度,具体含义如下:

以寻找一种农药残留的秒级检测方法为例,特征实体见图5。

2.2.2 标注集选择

试验使用CRF++工具进行CRF模型训练测试,CRF++有2种标注模式,BIO标注模式见表4,BIOES标注模式见表5。

因为农业技术需求描述文档所要识别的特征均有比较明显的结束特征(如很多技术需求描述文档均以技术结尾)识别,所以选择BIOES标注模式。对需求主体对象、需求意图、需求程度 2个特征标注就共需要3×4+1=13个标注方式,详见表6。

2.2.3 标注结果

词语料词级别标注例子见表7。词语级别语料主要用来进行CRF模型训练,在CRF模型中,对特定领域实体识别,词语级别进行建模相较于字符级别精度更高。语料字符级别标注例子见表8。字符级别语料主要用于BiLSTM+CRF模型训练。

2.3 训练环境

试验使用CRF和词向量+BiLSTM+CRF 2种模型分别进行训练测试,并对比2种模型的效果。

用CRF++工具进行试验,CRF++是由谷歌工程师研发开源,是目前综合性能最佳的CRF工具。词向

其中CRF模型使用了词汇和词性2个标注特征,使量+BiLSTM+CRF模型是基于Python环境的Gensim和TensorFlow(TF)工具包搭建,使用gensim的word2vec对象构建字符向量,TF搭建BiLSTM和CRF层。

2.4 评价指标

正确率、召回率和F值是评测中文命名实体识别系统性能的指标,也是本研究采取的评测指标,定义如下:

P=系统识别出且正确的命名实体个数系统识别出的命名实体个数×100%;

(4)

R=系统识别出且正确的命名实体个数测试集中所有的命名实体个数×100%;

(5)

F值(综合标准)=2×R×PR+P×100%。(6)

式中:P表示正确率;R表示召回率。试验判别正确识别命名个体的标准是基于整个实体粒度,而不是字符粒度。

2.5 结果

试验将2 500条标注按照8 ∶2的比率分为训练集和试验集,表10是使用CRF和词向量+BiLSTM+CRF 2个模型识别效果得出的评估结论:

各选取3条测试数据实体识别结果见表11。

3 讨论与结论

本研究阐明了中文命名实体提取相关技术在农业技术需求挖掘中的作用,收集了主流农业技术转移网站中2 500条技术需求描述文本,并分析了农业技术需求描述文本中3种关键实体(技术需求实体对象、技术需求意图、意图程度),使用传统的CRF模型和基于神经网络的词向量+BiLSTM+CRF模型分别对这3种实体对象进行提取。试驗结果表明,词向量+BiLSTM+CRF模型在实体提取上有着更好的效果,其正确率和召回率均优于CRF模型,从试验结果分析来看,CRF模型对一些训练语料中未出现的实体识别效果不佳,难于做到神经网络对特征高度抽象的效果。当然,本试验仅使用词汇和词性2个特征,CRF模型往往依赖于较大量级的人工特征定义,这也限制了CRF模型的实用性。而词向量+BiLSTM+CRF模型end-to-end的训练方法减少了模型对于人工特征定义的依赖,并且神经网络有很好的特征抽象能力,因此对一些语料中未出现的实体对象也有较好的识别作用,但模型需要更多的数据才能最大化发挥其效果。因此人工特征数据的增加都是继续优化农业技术需求命名实体提取任务的方向,接下来也会朝这个方向进一步试验。

Word2Vec的使用,虽然在一定程度上解决了词语上下文关系的问题,但Word2Vec本身是一种浅层结构价值训练的词向量,所学习到的语义信息受制于窗口大小,不能解决词语在不同语境下具有不同含义这个多义词问题。BERT(bidirectional encoder representation from transformers)是一个基于Transformers的预训练模型,通过前期大量语料的无监督训练,为下游任务学习大量先验的语言、句法、词义等信息,使用BERT替代Word2Vec作为BiLSTM输入层语言特征提取与表示方法,能获取到训练文本丰富的语法、语义特征。当前,许多学者研究了基于BERT+BiLSTM+CRF模型来优化系列标注任务的性能,并取得不错的收益。本研究尝试把BERT用于农业技术需求文本命名实体任务,也是接下来一个优化的方向。

试验收集了诸多线上农业技术转移平台的技术需求描述文本,但这些文本都还是冰山一角,目前我国农业从业者整体还是以教育背景较低的传统农民为主,这些农民对技术需求大部分只能以很口语化的形式进行描述,收集这些口语化的数据,对其实体特征进行提取也是试验的一个发展方向。

农业现代化关键在科技进步和创新,而技术转移是给农业插上科技的翅膀。构建以需求为导向的转移机制能有效缩小技术需求者与技术生产者之间的信息鸿沟,加速技术转移速度,提升农业领域技术成果转化率,对促进国家现代化农业发展具有重要的意义。目前,建立的诸多农业技术转移线上平台积累了大量的技术需求描述文本,使用命名实体相关技术对文本进行实体提取,使农业技术需求分析能特征化、量化,是进一步进行农业技术供需匹配、个性化推荐以及企业需求画像等工作的关键技术,对国家农业技术转移工作具有重要意义,这是一项艰巨,但也很值得去做的工作。

参考文献:

[1]朱晴晴,胡春阳. 基于创新链视角的农业科技成果转化机制研究. 衡水学院学报,2016,18(1):40-44.

[2]李 响. 构建市场主导型的农业科技推广体制. 乡村科技,2019(26):16-17.

[3]焦 源. 需求导向型农技推广机制研究. 青岛:中国海洋大学,2014.

[4]倪向东,费红琳,严艳红. 企业技术需求的挖掘、评价与对接研究. 江苏科技信息,2017(20):39-42.

[5]Chinchor N. MUC-6 named entity task definition (version 2.1) . Columbia:Proceedings of the 6th Conference on Message Understanding,1995.

[6]Li J,Sun A,Han J,et al. A survey on deep learning for named entity recognition. (2020-03-22). https://arxiv.org/pdf/1812.09449.pdf.

[7]Gers F. Long short-term memory in recurrent neural networks. Lausann:Swiss federal Institute of Technology in Lausanne,2001.

[8]Wallach H M. Conditional random fields:an introduction. (2004-02-24). http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=1C65BB8417A63996952E1A 5388208760?doi=10.1.1.64.436&rep=rep1&type=pdf.

[9]翟社平,段宏宇,李兆兆. 基于BILSTM_CRF的知識图谱实体抽取方法. 计算机应用与软件,2019,36(5):269-274,280.

[10]李德玉,王 佳,王素格. 基于cw2vec-BiLSTM-CRF的汽车名称和属性识别方法. 山西大学学报(自然科学版),2020,43(2):267-272.

[11]Lin B Y,Xu F F,Luo Z,et al. Multi-channel bilstm-crf model for emerging named entity recognition in social media. Copenhagen:Proceedings of the 3rd Workshop on Noisy User-generated Text,2017.

[12]Devlin J,Chang M W,Lee K,et al. Bert:pre-training of deep bidirectional transformers for language understanding. (2019-05-24). https://arxiv.org/pdf/1810.04805.pdf&usg=ALkJrhhzxlCL6yTht2BRmH9atgvKFxHsxQ.

[13]Yang H. BERT meets chinese word segmentation. (2019-09-20). https://arxiv.org/pdf/1909.09292.pdf.

[14]Dai Z J,Wang X T,Ni P,et al. Named entity recognition using BERT BILSTM CRF for Chinese electronic health records. Suzhou:12th International Congress on Image and Signal Processing,Biomedical Engineering and Informatics (CISP-BMEI),2019.

[15]王子牛,姜 猛,高建瓴,等. 基于BERT的中文命名实体识别方法. 计算机科学,2019,46(增刊2):138-142.