基于深度学习的作战文书命名实体识别

2019-08-21 08:44张晓海操新文
指挥控制与仿真 2019年4期
关键词:字符语料文书

张晓海,操新文,高 源

(国防大学联合作战学院,河北石家庄 050084)

为适应信息化战争的特点,指挥文书信息数据化的概念被提出,并且取得了一定的研究成果。指挥文书信息数据化,是解决指挥文书信息的内容如何转变为更利于指挥信息系统直接使用的数据的问题,其核心任务是信息抽取。作战文书是指挥信息的一种重要载体,面向作战文书的命名实体识别,是作战文书信息抽取的基础性研究工作,对于指挥文书信息数据化具有重要的研究价值。命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。作战文书命名实体识别中,主要是针对部队编制、作战编成、武器装备、地点、坐标、时间等实体进行识别。

随着深度学习的快速发展,文书信息抽取领域取得较大突破。然而,由于中文自身的特殊性,该领域的发展始终落后于国外的相关研究。在早期的作战文书命名实体识别的相关研究中,均是基于规则、模板等传统方法。这类方法较难对语料全面覆盖,且规则和模板库的设计和维护异常困难,因此基于统计的机器学习方法成为主流。其中,统计机器学习主要模型有:条件随机场(Conditional Random Fields,CRF)、隐马尔科夫(Hidden Markov Model,HMM)、支持向量机(Support Vector Machine,SVM)等。冯蕴天[1]、单赫源[2]、姜文志[3]等人的研究比较具有代表性。单赫源等人针对组合嵌套特征较为明显的实体类别进行分析,提出的小粒度策略下的基于CRF的军事命名实体识别方法,提高了实体识别准确率;姜文志等人将CRF模型与基于规则的方法进行了结合,并说明了方法的可行性,为后续的研究打下了一定的基础。然而这一类统计模型普遍存在一个不足,即需要有经验的人员进行特征选取,且识别结果非常依赖选取特征的质量,使得人工特征和领域知识在提高模型性能的同时也导致整个模型的鲁棒性和泛化能力大大下降。

近年来,基于深度学习的军事命名实体识别的相关研究越来越多,它们使用双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)和条件随机场结合的神经网络模型,来完成命名实体识别的序列标注问题。神经网络模型可以大大减少复杂的人工特征,从大量的语料中,自动学习特征表示。目前已有的研究中,使用的方法和所解决的问题虽如出一辙,却又不尽相同。如:游飞[4]等人利用一个四层神经网络,进行了面向武器装备名称的识别研究,对深度学习解决该类问题进行了初步探索;王学峰[5]等人提出的基于BiLSTM-CRF的军事命名实体识别,利用预训练的字向量作为输入,在自建语料库的测试中,F值达到98%;朱佳晖[6]等人面向网络军事文本,提出了15种命名实体类别的体系,与王学峰等人工作类似,使用BiLSTM-CRF模型进行命名实体识别,并提出军事命名实体的链接框架。

1 CNN-BiLSTM-CRF模型

1.1 模型总体框架

如图1所示,本文的模型框架主要由三个部分组成,CNN、BiLSTM和CRF模块。其首先对军事领域语料进行分词和词性标注,将输入的句子转换为词向量序列;其次通过CNN模块对每个词内的字向量进行卷积操作,以此作为字符级的特征,并采用独热编码对词性特征进行向量表示;再将每个词的词向量、字符级向量、词性向量进行拼接,输入BiLSTM网络,最终通过CRF模块输出预测标注序列。

图1 CNN-BiLSTM-CRF模型框架

1.2 CNN模型

卷积神经网络(Convolutional Neural Networks, CNN)主要包含卷积层和池化层,可以更好地表示数据的局部特征。Collobert[7]等人以整个句子作为当前预测词的输入,引入词在句中的相对位置特征,它使用了一层卷积神经网络结构进行特征的提取。Santos[8]等利用CNN获取字符级特征,使得词性标注的效果得到提升。以上是较早将CNN用于自然语言处理任务的两项研究工作,均证明了CNN在字符级特征提取中的优势。本文采用CNN提取字符级特征向量,与词向量、词性向量进行拼接作为输入,以提高模型性能。

图2 字符级CNN模型

2.3 BiLSTM模型

长短期记忆模型(Long Short-Term Memory,LSTM)[9]是一种循环神经网络(Recurrent Neural Network,RNN)模型[10],该模型可通过输入、输出和遗忘三个控制门,对上下文的信息进行选择性记忆传递,从而捕获到长距离依赖信息。而记忆机制最大的贡献,则是解决了传统RNN中存在的梯度消失和梯度爆炸的问题。公式(1)为LSTM网络的形式化表示。

(1)

LSTM网络很好地解决了RNN梯度弥散的问题,但单向LSTM只能通过前文信息对结果进行预测,双向LSTM对词序列分别采取正序和逆序两个方向进行递归,如图3所示。进行正向计算时,隐层t时刻的状态与t-1时刻相关,而反向计算时,又与t+1时刻状态相关,最终将两个向量拼接得到最终的隐层表示,因此可以更好地利用上下文信息。

图3 双向LSTM(BiLSTM)模型

2.4 CRF线性层

CRF模型是一种基于条件概率分布的无向图模型,它可以在给定输入观测序列的前提下,输出最大概率的预测序列,常用在序列标注任务中。

P表示BiLSTM的输出,其中n为序列长度,k表示不同的标签个数。P为n×k的矩阵,Pi,j表示矩阵中第i行第j列的概率。那么,对于给定序列X={x1,x2,.…,xn},和预测标注序列Y={y1,y2,.…,yn},该模型可定义为

(2)

Ai,j表示由标签i到j的状态转移概率,y0,yn为句子开始和结束的标记,由此,矩阵A是一个维度为k+2的方阵。最后通过softmax计算得到标签序列Y的概率

(3)

训练中,标记序列的似然函数

(4)

(5)

3 训练方法与步骤

3.1 预处理及训练集标注

分词及词性标注采用中科院开发的ICTCLAS工具进行处理,词向量采用Word2vec工具进行训练。根据Ratinov[11]和Lample[12]的研究,语料库采用效果更好的“BIOES”策略进行手工标注。其中,B表示实体的开始,I表示实体内部,E表示实体结尾,O表示非实体部分,S表示该词独立成为实体。

对照组患者采用氯氮平片联合碳酸锂进行治疗:患者开始服用的剂量为每天50mg,14天内增加药物剂量至每天150mg到300mg之间,具体根据患者病情状况进行调整。整个治疗过程中,氯氮平片的平均剂量为每天(210±31.5)mg,碳酸锂的平均剂量为每天1g。

为了更好地表达不同实体的特征,本文将命名实体类别进行了细分类,最终将位置、部队、人员、物品、数量五大类细分为13个小类进行标注,标注方法如表1所示。

表1 实体类别及标注方法

例如对句子[合成预备队由合成第2营编成,配置在王庄(22,34)东北100米。]经预处理和实体标注后,得到标注序列如表2所示。

表2 训练集样本示例

3.2 参数设置

CRF模型在序列标注任务中效果较好,而在神经网络中,通常在BiLSTM隐层输出的基础上,用CRF层代替softmax方法来计算上下文的联合概率,从而得到最优的预测序列。本文在此基础上,利用CNN对分词后的字符级向量特征进行提取,从而在词嵌入阶段,更好地表示词的语义信息。训练过程中,优化器采用SGD,学习率0.1。同时,为减轻过拟合问题,在BiLSTM的输入和输出中使用Dropout,取值0.5。

3.3 评价标准

模型训练完毕后,通过测试集进行识别效果的测评。采用召回率R、精确率P和F值3个指标评判模型的性能,计算方法如下:

(6)

(7)

(8)

4 结果分析

4.1 样本集

收集作战文书100篇,通过分词和手工标注得到作战文书语料库,共计830句、39 347字。按照3:1的比例,随机选择207句作为测试集,其余作为训练集。

4.2 实验结果分析

1)识别结果及模型对比分析

表3为CNN-BiLSTM-CRF模型实验结果,考虑到实体类别较多,因此仅选取几个具有代表性数据进行分析。

表3 CNN-BiLSTM-CRF作战文书命名实体识别结果

得分相对较高的实体类别主要有编制、地名、坐标、时间、职务等。首先,这类实体大多以相对规范的格式出现,其次,地名实体一般紧邻坐标实体,编制实体通常以“旅、团、营”等字结尾,这些实体的边界特征比较明显。作战编成、姓名、武器装备等类别得分较低,可能是由于该类别的训练语料不足所导致。

表4为不同模型的对比实验结果。首先,BiLSTM模型的精确率为89.49%,召回率为88.30%,F值为88.89%,F值比单向LSTM模型高出了2.91%。可见,双向LSTM由于能够更好地利用上下文信息,效果要优于单向LSTM网络。其次,增加CRF层后,BiLSTM的精确率、召回率、F值分别提高了2.32%、1.83%和2.07%。这是由于CRF模块能够通过联合概率的计算,更加充分地利用标签的相邻信息,比如“155自行加榴炮第1营”这类长度较大的编制实体在增加CRF后的模型可以正确识别,而在LSTM中则识别错误。因此,通过增加CRF层来计算BiLSTM隐层输出的联合概率,可以一定程度上解决长距离实体的识别问题。为使词向量能够更好地表示语义信息,使用独热编码对词性(POS)进行向量表示,将词性向量与词向量进行拼接作为输入。结果显示,增加词性特征的模型F值提高了1.25%。并在此基础上,通过CNN对字符级特征进行提取,由于字符级向量对于中英混合、包含特殊符号、边界模糊等实体的特征获取能够更加充分,提升了如武器装备类别的实体识别效果,精确率、召回率和F值最终分别达到94.40%、93.43%和93.91%。

表4 各模型对比实验结果

2)标注策略的影响

作战文书中,对于编制、作战编成等类别的实体,常常出现复杂的嵌套组合现象。如:“集团军炮兵群/ORG”中,“集团军”是编制实体,“炮兵群”为作战编成实体。因此,本文对于长度最小的可独立成为实体的序列进行标注,即“集团军/ORG-BZ 炮兵群/ORG-BC”,这样可以一定程度上避免对组合实体的错误识别。通过模型预测出标注序列后,再根据预先设定的规则对组合实体进行连接,从而得到最终的实体名。根据这个思路,本文将最初的位置、部队、人员、武器装备及时间共5个类别的实体,细分成13类。将位置细分地名、坐标、方位、作战地域4类,部队细分编制、编成和机构部门3类,人员细分职务、姓名2类,数字细分时间、数、量3类。

表5 不同标注语料结果对比

本文对相同的生语料,分别按5类和13类进行手工标注,得到两个内容相同但实体标注类别不同的样本集,并使用CNN-BiLSTM-CRF对两个样本集进行对比实验,结果如表5所示。细分类的语料集对模型性能有不小的提升,分析主要有两方面原因:一方面,由于对实体类别进行了细分类,使得实体特征更加突出;另一方面,这样的标注方法可以充分利用邻近实体间的语义关系,对于嵌套组合现象突出的实体识别效果有所提升。

5 结束语

本文针对作战文书的命名实体识别,使用CNN获取字符级特征,并将字符级特征向量、词性向量拼接到词向量中,进而构建了CNN-BiLSTM-CRF模型,在自建语料上取得了较好的效果,结论如下:

1)传统的统计机器学习中,模型的效果非常依赖人工特征的选取,而选取合适的特征需要丰富的经验和大量的人工处理,导致成本较高;并且,由于需要根据特定任务选取不同的特征,泛化能力较弱。因此,采用神经网络模型可以自动学习到特征信息,代替了人工选取,在语料充足的情况下,能够获得更好的效果。

2)通过CNN模块,对字符级向量进行卷积操作,提高了原BiLSTM-CRF模型对于包含特殊字符、中英混合等实体的识别效果;另外,将词性向量作为外部特征,与字符级向量一起拼接到词向量中,可以一定程度表达出更多的语义信息,对于模型性能的提升有一定帮助。

3)细分类的标注策略,能够更好地表现实体特征,一定程度减轻数据稀疏问题;同时,还能更充分的表达相邻实体间的语义关系,从而提高模型的整体性能。

猜你喜欢
字符语料文书
面向低资源神经机器翻译的回译方法
一种优化的手写字符自动分割算法
论高级用字阶段汉字系统选择字符的几个原则
徐谓礼文书——南宋官制百科全书
英藏文书Or.8212/1224号为星禽占卜文献考
字符代表几
可比语料库构建与可比度计算研究综述
图片轻松变身ASCⅡ艺术画
我的小天地
Personal Statement