基于多通道神经网络的命名实体识别

2022-03-01 01:21
池州学院学报 2022年6期
关键词:命名标签实体

陶 露

(皖江工学院 电气信息工程学院,安徽 马鞍山 243000)

命名实体识别是自然语言处理中一项非常基础的任务。其任务是从自然语言文本中识别具有特定意义的实体,主要包括人名、地名、组织名称、专有名词等。例如,“王小强将参加由大观数据主办的‘大观杯’数据挖掘大赛”,其中“王小强”和“大观数据”是待识别的命名实体。命名实体识别主要包括实体边界识别和实体类别确定两部分。它的识别效果对于后续问答系统、句法分析、机器翻译和知识库构建的研究与应用具有重要意义。

研究人员提出了许多应用于命名实体识别任务的方法:从早期基于规则和字典的方法,到基于统计机器学习的方法,再到近年来的基于神经网络的方法。这些方法在生物医学、新闻、渔业、军事等许多领域的命名实体识别中都取得了一定的成效。基于规则和词典的方法需要自定义规则模板和词典,这需要大量的语言知识。此外,不同语言的识别规则并不相同,规则之间的冲突需要谨慎处理且所构建的规则是不可移植的。基于统计机器学习的方法中比较常用的是特征模板与条件随机场(CRF)的结合,此方法识别效果虽优于前一种方法,但是特征模板的构建也是一件费时费力的事。结合上述两种方法的不足加上深度学习的深入,神经网络成为一种能够有效处理NER任务的方法。这种方法将NER视为序列标签任务,把每一个自然语言转换成词向量映射在低维空间中,然后输入句子的词向量嵌入到神经网络中,并自动提取神经网络特性,Softmax或CRF预测每个自然语言标签。该方法使模型训练成为一个独立于特征工程的端到端的过程。综合上述三种方法所包含的优缺点,本文拟提出一种多通道神经网络的命名实体识别模型,首先使用不同的词向量将语句进行映射作为模型不同通道的输入,其中词向量中还融合了基于上下文的字词向量,然后结合BiLSTM+CRF在1998年1月份的人民日报语料库中进行实验。

论文共由五部分组成:第1部分介绍国内外有关命名实体识别的研究现状;第2部分阐述使用的词向量训练模型;第3部分阐述基于多通道神经网络的命名实体识别模型;第4部分通过实验验证所提MNN-NER模型的识别效果;第5部分对全文做出总结。

1 相关工作

命名实体识别(Named entity recognition,NER)是自然语言处理任务的一项基础工作,它的主要任务是自动识别出信息文本中具有特定意义的实体,从狭义上来说就是识别出文本中包含的人名、地名、组织机构名等专有名词。目前存在的NER方法主要有:基于规则和词典的方法、基于统计的方法和基于神经网络的方法。

1.1 基于规则和词典的方法

基于规则的方法较多的是语言学家手工构造规则模板,以模式和字符串匹配为主要手段,这些系统主要依靠知识库和词典的建立。赵哲焕等[1]提出了一种基于句法模板和字典匹配的方法来提取表示蛋白质之间关系类型的关系词。该方法在目标语料库上F值达到83.02%。龙光裕等[2]提出了一种结合CRF和字典的疾病命名实体识别方法。他们利用网络资源构建了包含语义信息的医学术语字典,利用字典识别医学术语,然后结合CRF进行命名实体识别。

1.2 基于统计的方法

统计机器学习方法将命名实体识别作为一个序列标记任务,利用大规模语料库学习标记模型,从而对句子的各个位置进行标记。常用的NER任务模型有生成模型HMM、判别模型CRF等。目前比较流行的方法是特征模板与CRF相结合。孙晓等[3]提出基于深层条件随机场的生物医学命名实体识别,利用增量式学习选择最优特征集然后通过错误纠正算法修正识别效果,F值达到了72.87%。于楠等[4]提出将多种特征融合识别出电子病历中的疾病实体和症状实体,F值分别达到了92.80%、94.17%。

1.3 基于神经网络的方法

近年来,随着硬件能力的发展和词嵌入的出现,神经网络已经成为一种能够有效处理许多NLP任务的模型。主要模型包括NN/CNN-CRF、RNNCRF及其改进结构。李丽双等[5]提出了一种基于CNN-BLSTM-CRF的神经网络模型,在两种生物医学语料库中均取得了良好的效果。冯彦红等[6]使用了基于上下文的词向量和基于词的词向量,并利用标记序列中标签的相关性来进行识别,约束BLSTM的代价函数。由于某些特定领域获取标注数据的成本较高,许多学者提出引入迁移学习技术[7-9],以减少对大量标注数据的需求。此外,许多研究者将注意机制[10-12]集成到神经网络中,以提高识别效果。

2 词向量模型

词向量也称为词嵌入,是目前深度学习在自然语言处理领域中最常用的方法。文中所提的词向量是使用两种不同的词向量工具得到的。一种是Google提供的Word2vec,另一种是由斯坦福大学提供的Glove。这两种词向量模型有各自的优点。

2.1 Word2vector

Word2vec有两种训练模式:CBOW和SKip-Gram。其中,根据窗口的上下词使用CBOW预测当前中心词,根据当前中心词使用skip-gram预测当前上、下窗口词。训练Word2vec使用的是SGD优化器,因此输入每一个句子,其需要根据滑动中心词与其窗口词定义其对数似然函数,求取极大值从而更新向量。使用中文维基百科训练word2vec,得到的词向量表记为V1。

2.2 GloVe

相比于利用局部上下文信息的词向量模型,斯坦福大学Pen-nington等人提出的GloVe模型更加充分利用全文上下文信息,该模型构造了一个利用全局统计信息的全局单词共现矩阵。GloVe结合全局矩阵分解方法和局部窗口方法,融合文本的全局信息和局部上下文信息。使用搜狗实验室的新闻语料训练GloVe模型,得到的词向量表记为V2。

3 基于多通道神经网络的命名实体识别

多通道指的是模型输入层使用Word2vec和GloVe两种不同的词向量工具分别将输入的语句映射成对应的词向量表示并作为不同通道的输入,目的是为了使文本的输入带入更多的语义信息,从而使模型学习出区分度更强的特征,而且还能提高计算速度。

3.1 基于多通道神经网络的命名实体识别模型

由于现有命名实体识别模型输入只考虑特定的单一词向量,导致输入语义信息不丰富从而模型不能学习出区分度明显的特征信息。针对这一问题,拟提出基于多通道的神经网络命名实体识别模型(MNN-NER),该模型采用两种词向量工具将要识别的数据集转换成对应的词向量序列,并作为MNN-NER模型输入通道1和输入通道2的数据。如图1所示,MNN-NER模型主要分为输入层、BiLSTM层、CRF层。

图1 多通道神经网络的命名实体识别模型

3.1.1 输入层 此层主要将已标注的1998年前6月份的《人民日报》语料输入MNN-NER模型中。通过已训练好的Word2vec和Glove两种词向量工具将语料映射成低维的稠密向量并作为通道1和通道2的输入。

3.1.2 BiLSTM层 长短时记忆网络(Long Short Term Memory network,LSTM)是基于RNN的一种改进结构。它引入了一个存储单元和“门”机制来实现句子中更长距离信息的使用,并解决了RNN中的梯度消失或梯度爆炸问题。设计的门结构可以有选择地保存上下文信息,因此它更适合于序列标记问题,例如命名实体识别。LSTM的存储单元如图2所示。

图2 LSTM结构图

在图2中,LSTM网络在t时刻的输入由输入层et、上一个LSTM单元的输出LHt-1和上一个LSTM单元的记忆单元cst-1决定,在t时刻的输出为该单元的隐藏层LHt和记忆单元cst。其网络形式可以用式(1)-式(6)进行表示:

其中σ表示sigmoid激活函数,tanh表示双曲正切激活函数,W表示连接两层的权重矩阵,b表示偏置向量,ig、fg和og分别表示输入门、遗忘门和输出门。

但是,LSTM结构仅考虑语句的上文信息,而无法获得该语句的下文信息。在NER任务中,下文信息同样对NER任务提供关键性作用。基于这一问题,采用双向LSTM(BiLSTM),BiLSTM可以有多地获取双向上下文信息,即从每个句子的正向和反向捕获两种不同的特征表示。然后将二者合并以获得一条语句完整的上下文特征。图3为BiLSTM工作结构的示意图。

图3 BiLSTM结构示意图

图3中,xt表示模型在t时刻的输入,表示前向LSTM在t时刻的输出,表示反向LSTM在t时刻的输出,则BiLSTM在t时刻的输出可以表示为。

3.1.3 CRF层 BiLSTM输出特征序列后,可以通过分类函数获得序列标记结果。但是,在NER的任务中,输出序列标签具有很强的限制和依赖性。例如,“B-Person”不能出现在“I-Person”之后,“BPerson”后不应是“I-Location”。CRF是无向图模型。通过考虑相邻标签之间的关系,可以获得全局最优标签序列。论文在BiLSTM的输出层之后添加了CRF层,进行句子级的序列标注,这样不仅可以组合上下文信息,而且可以有效地考虑输出标签之间的依赖性。

对于输入句子S={s1,s2,……,sn},输出标签序列L={l1,l2,……,ln},则该标签序列的概率为:

概率矩阵p是BiLSTM运算之后的输出,其中p的大小为n⊗s。n表示实验集分词后的总数,s表示标签类别的数量。Pij是句子中第i个词第j个标签概率的预测。A是大小为s+2的传递矩阵。例如,从标签i到j的过渡概率可以表示为Aij,其中l1和ln表示预测句子的开头和结尾的标签。

因此,在归一化下生成所有可能的标签序列y的概率为:

bs表示可以通过似然函数公式获得的所有有效标签序列。在预测阶段,总概率最大的输出标签序列的公式为:

4 实验结果与分析

4.1 实验语料

实验语料来自于1998年1月份《人民日报》数据集,该数据集是由北京大学计算语言学研究所和富士通研究所发展中心有限公司共同制作的标注语料库。利用已经训练好的word2vec和Glove工具,将数据集中的每个词进行向量化得到相应的词向量表,对于未出在字典里的词,采取随机初始化向量进行赋值。

4.2 实验设置

表1列出了各种超参数值的设置,参数值的设置是根据大量相关文献分析得到。词向量的维数设置为100,表示将分词后实验数据集中的每个词转换成100维的词向量;LSTM的个数是100,设置两层;Dropout率设置为0.5,表示在模型每次训练的过程中随机让50%的LSTM停止前向传播计算与参数更新;学习速率为0.001;batch-size指网络训练一次读取的句子数量,根据读取句子数量的多少对上下文的影响也存在着差异,实验设置为20。另外标签集合采用BIEOS,B表示该单词是命名实体的开头,I表示该单词在命名实体的中间,E表示该单词在命名实体的尾端,O表示该单词不是实体,S表示该词本身就是一个实体。

表1 实验超参数列表

采用正确率P、召回率R和F作为命名实体识别模型实验的评价指标。具体公式如下:

其中,r表示正确识别的实体个数,s表示识别出的所有实体个数,c表示样本中所有实体个数,α的值设置为1,表示准确率和召回率同等重要。

4.3 结果与分析

为了验证提出的MNN-NER模型识别性能,主要通过几组对比实验验证,分别为:

实验1词向量维度对命名实体识别模型效果的影响。

为验证词向量的维数是否会影响识别模型的性能,设置了四个不同的词向量维数,分别为50、100、200和300。

根据图4的结果,当词嵌入维度等于100,最高F1分数是89.08%。从实验结果分析得出,词向量用维度表达语义信息和特征并不是维度越大越好。例如,当维度为300时,三类实体的F1值却处于下降趋势,这是因为词向量所表达的语义信息被模型充分学习,模型拟合度太高导致测试数据中有些实体没有被识别。因此,将训练词向量的维数设置为100。

图4 不同词向量维度的命名实体识别结果

实验2 LSTM神经元数量对命名实体识别效果的影响。

LSTM单元的数量可以更改模型的训练参数,从而影响识别模型整体性能和计算复杂性。为了获得最佳的超参数值,设置了不同数量的LSTM单元,包括50、100、150和200。

从图5中可以看出,当隐藏单元维度为100时,模型获得的最高F1得分为89.08%。隐藏的单元太少会导致捕获特征的能力不足。随着神经元数量的增加,训练参数的增加导致计算复杂度的增加。因此,将LSTM的隐藏单元数量设置为100。

图5 不同LSTM单元数量的命名实体识别结果

实验3 Dropout率的大小对命名实体识别结果的影响。

为了验证Dropout的有效性,建立了另一组比较实验。实验结果示于图6。该实验用于比较使用Dropout前后识别模型的效果差异。

图6 是否使用Dropout对识别模型结果的影响

实验结果表明:使用Dropout后,MNN-NER模型的整体性能显著提高,表明提出使用的正则化方法是有效的。

实验4多通道识别模型与单输入识别模型对比。

为了验证多通道模型的高效性,设置了四组模型不同输入值对比实验。MNN-NER模型的输入分别设置为:随机初始化单词向量、只使用word2vec词向量、只使用Glove词向量、同时使用两个词向量,为保证实验结果有效,模型其他参数值设为一致。实验结果如表3所示:

表3 多通道模型与单输入识别模型对比结果

实验5与已发表论文识别模型对比。

最后,将MNN-NER模型的性能与已发表的模型进行了比较。实验结果根据F1值排列,如表4所示。

表4 与已发表论文识别模型对比结果

5 结语

针对命名实体识别任务中依赖单一词向量表示能力和规则特征构建费时费力的问题,提出了一种多通道神经网络命名实体识别模型。该模型使用不同的词向量工具将文本映射为词向量作为不同渠道的输入,从而引入更多的语义信息,然后结合BiLSTM与CRF完成命名实体识别任务。实验结果证明,提出的模型在中文命名实体识别任务中获得了较好的实验性能,具有一定的有效性。未来的工作包括以下两个方面:一方面引入更多的特征作为模型的第三个通道,例如句法依存树特征、词性特征等。另一方面将模型运用到无监督领域,因为标注语料库难以获得,而且某些特定领域标注数据的获取代价十分高昂。在未来的研究工作中,围绕命名实体识别领域可以考虑引入迁移学习技术。

猜你喜欢
命名标签实体
命名——助力有机化学的学习
前海自贸区:金融服务实体
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
有一种男人以“暖”命名
为一条河命名——在白河源
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
让衣柜摆脱“杂乱无章”的标签