基于知识库对齐的命名实体识别方法

2021-03-22 02:53鲁佩佩

电脑知识与技术 2021年4期

鲁佩佩

摘要：训练语料库的贫乏对低资源语种的命名实体识别效果有很大影响，高资源语种向低资源语种进行标签投影解决了低资源语种的语料问题。但由于词典的投影昂贵且单一，而Wikidata提供多语词条，一对多的标注投影极大地减少了投影产生的噪声，通过易获得的双语平行文本，基于Wikidata词条可构建多语种知识库，完成标签投影，构建训练语料库，提升低资源语种实体的识别功能。

关键词：低资源语种;知识库;命名实体识别;标签投影

中文图书分类号：TP393 文献标识码：A

文章编号：1009-3044（2021）04-0184-03

命名实体识别任务的研究从基于规则、基于统计到基于深度学习，虽然深度学习的研究方法在英文等语种的实体识别中有极优的效果，但是对于没有足够多标注数据的低资源语种来说，深度学习模型效果不理想。

对于低资源语种的命名实体识别，文献[1]主要实现了基于统计与规则相结合的人名通过条件随机场识别;文献[2]提出了基于学习的实体识别学习框架，向已有特定领域的模型进行学习，并迁移到任意神经网络模型，避免受到数据噪声的干扰;文献[3]使用并行数据将词性信息从资源丰富的语言传输到资源贫乏的语言使用少量带注释的数据来学习纠正错误，使用少量带标注的训练数据通过单词对齐进行标签投影来进行半监督学习。

本文将关系抽取中使用较广泛的远程监督方法应用到命名实体识别中，通过Wikidata[4]构建多语种知识库，基于知识库词条对实体标签投影。对于投影产生的标注数据，使用BILSTM处理输入，输出层后连接CRF对输出结果进行约束。

1数据预处理及远程监督知识库构建

远程监督是由Mintz[5]提出的一种弱监督学习方法，多用于进行信息抽取中的關系抽取领域，它主要是通过现有的知识库对齐大量的无标注语料库来构建监督学习所需的知识关系语料，可以用来解决监督学习中标注语料不足的问题，则对于本文涉及的低资源语种的标注数据量不足的问题，可通过远程监督，通过对齐知识库，构建低资源语种的实体标注语料库。

1.1Wikidata构建知识库

在Wikidata知识库中，词条数目超过四千万，数据存储以三元组的“主谓宾”方式。对于语句“新裤子乐队的成员有彭磊、庞宽、赵梦和Hayato”则有三元组“name（entity）-member（relationship）-Hayato（entity）”。对Wikidata的数据查询使用SPARQL[6]语言，它的主要操作是根据给定的关系，从三元组中获得关系两侧的实体。

1.2基于Selenium的爬虫翻译

目前，谷歌翻译支持109种语言，在构建知识库时，因为实体的全称或简称有多种，但都代表此实体，如表1所示，Wikidata中，新疆这个词条对应的各语言个数存在多个，其中，西班牙语（Spanish）对应21个。此外，为了投影覆盖率，本文基于谷歌翻译，通过Selenium爬虫工具，优化补足知识库。

1.3基于知识库的标注投影

根据前面的操作步骤，可以完成基本知识库构建，主要存储在neo4j数据库中，如图1所示：

对于平行语料的双语文本，基于知识库的投影如图2所示，之后对目标语言投影结果分解，就可得到命名实体标注序列：B-PEROOB-LOC I-LOC I-LOCI-LOCI-LOC。

2命名实体识别模型

实体识别模型主要采用BILSTM-CRF[7]，如图3所示，其中BILSTM是由双向的LSTM组成，此构造可以充分利用上下文信息，把正向和反向两个方向计算的值拼接作为CRF层的输入，BILSTM的输出是标签的概率值，在BILSTM后接入CRF层主要是预测标签时可以充分考虑上下文关联，规避如“B-ORG”后接“I-PER”的情况。

其中，长短期记忆网络（long short-term memory， LSTM）结构如图4所示，图中G1，G2，G3表示门单元结构。G1通过sigmod激活函数处理上一隐藏状态以及当前输入来决定是否忘记上一隐藏状态。G2通过sigmod和tanh来处理当前序列位置的输入，G3则通过序列输入和控制参数的输出，决定需遗忘和需记忆的信息，得到当前位置的状态。计算如下：

3实验

3.1实验数据集

本文双语平行语料库主要采用欧洲议会平行语料库1996-2011，它包括21种欧洲语言，实验中选取西班牙语-英语的平行语料，测试集采用CoNLL2002数据集，该数据集包含西班牙语和荷兰语两个语种，本文选取西班牙语的测试集进行测试。实验数据详情见表2：

3.2标注方式和评价标准

本文采用的是BIO标注，对人名、地名和机构名三类实体进行识别操作。评价标准采用精确率（P）、召回率（R）和F1值，定义如下：

3.3知识库构建及训练文本生成

对于平行文本，首先使用StanfordCorenlp工具对英语文本进行命名实体识别，该工具主要识别八种类型：O、MISC、LOCATION、GPE、FACILITY、ORGANIZATION、DEMONYM和PERSON，本文主要进行PERSON、LOCATION和ORGANIZATION的识别。源语种文本实体数如表3所示。根据实体识别生成的词条，从Wikidata中获得相应实体的西班牙语表示，再投影至西班牙语文本，形成训练数据。

3.4基于BILSTM-CRF模型进行西班牙语命名实体识别

为了对比不同方法对低资源语种命名实体识别的效果，本文对比CRF模型、BILSTM模型和BILSTM-CRF模型对于只有少量训练数据的语言进行训练的结果，选取CoNLL2002语料库中的200条数据进行训练。之后再将本文生成的投影数据单独使用BILSTM-CRF模型进行训练，参数设置如下：学习率为0.01，dropout为0.5，训练周期为20，词向量维度100，隐藏层维度为100，优化器为SGD（Stochastic Gradient Descent）。实验结果如表4所示：

实验结果表明，对于只有少量训练语料数据的低资源语种来看，测试中识别效果很差，对比CRF、BILSTM和BILSTM-CRF模型， BILSTM获取了词语前后的历史信息，融入了词语的上下文信息，相比于CRF模型，精确率却下降了18%，因为训练数量过少，命名实体少，但相对于测试集，命名实体多了很多，所以在召回率和F1的值中效果就会较差。输出层后通过CRF约束可实现16.42%的改进。通过平行文本进行实体投影的语料来说，虽然投影中会产生不必要的噪声，但可以在没有训练语料的情况下，仅仅通过平行文本，就可达到11%的提升。

4 结束语

在命名实体识别的研究中，对于训练语料库丰富的高资源语种可以达到几近完全正确，而对于低资源语种，由于训练数据的贫乏，深度学习无法学习实体分布。基于词典投影是获得大量低资源训练语料最直接的方法，但是词典构建较为昂贵，并且双语为一对一对应。

本文提出了基于知识库来完成标签从高资源语种向低资源语种的投影，为实体标签投影提供了新的思路，在实验中对比直接对少量的低资源语种进行训练。但是在标签投影的过程中会出现投影丢失的情况，未来可通过跨语种词向量对齐来优化知识库，并且投影产生的噪声不能忽略，直接影响训练模型，未来可对投影数据进行降噪处理提升识别率。

参考文献：

[1] 塔什甫拉提，尼扎木丁. 维吾尔语文本信息中人名实体识别研究[D].乌鲁木齐：新疆大学，2016.

[2] 张宁. 面向特定领域的命名實体识别技术研究[D].杭州：浙江大学，2018.

[3] Duong L，Cohn T，Verspoor K，et al.What can we get from 1000 tokens？A case study of multilingual POS tagging for resource-poor languages[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing （EMNLP）.Doha，Qatar.Stroudsburg，PA，USA：Association for ComputationalLinguistics，2014：886-897.

[4] Vrande?i?D，Kr?tzsch M.Wikidata：a free collaborative knowledgebase[J].Communications of the ACM，2014，57（10）：78-85.

[5] Mintz M ， Bills S ， Snow R ， et al. Distant supervision for relation extraction without labeled data[C]// International Joint Conference on Acl. Association for Computational Linguistics， 2009.

[6] Catherine COMPAROT，OllivierHAEMMERL?，Nathalie HERNANDEZ. Generation of SPARQL queries from keywords and query patterns[J]. Technique et Science Informatiques，2013，32（7-8）.

[7] Huang Z ，Xu W ， Yu K . Bidirectional LSTM-CRF Models for Sequence Tagging[J]. Computer ence， 2015.

[8] Yarowsky D，Ngai G，Wicentowski R.Inducingmultilingual text analysis tools via robust projection across aligned corpora[C]//2001：1-8.

[9] Wang M Q，Manning C D.Cross-lingual projected expectation regularization for weakly supervised learning[J].TransactionsoftheAssociation for Computational Linguistics，2014，2：55-66.

[10] Fang M，Cohn T.Learning when to trust distant supervision：an application to low-resource POS tagging using cross-lingual projection[EB/OL].2016：arXiv：1607.01133[cs.CL].https：//arxiv.org/abs/1607.01133.

【通联编辑：光文玲】