地理信息服务领域的实体自动化识别

2022-01-25 05:53独凌子肖桂荣
关键词:语料卷积向量

独凌子,肖桂荣

(福州大学空间数据挖掘与信息共享教育部重点实验室,福州大学数字中国研究院,福建 福州 350108)

命名实体识别作为自然语言处理的主要研究内容之一,也是GIServices领域知识图谱、知识推理研究的核心问题;其任务是找出一套有效的识别算法,抽出文本中的关键实体,并将其应用于关系抽取、知识图谱构建中[1].早期主流命名实体识别方法包括基于规则的方法和基于统计的方法,基于规则的方法需要人工建立知识规则,这类技术成本高,泛化能力差;基于统计的方法,如最大熵[2]、隐马尔可夫[3]、条件随机场[4],需要复杂的特征设计,投入成本大.近年来,基于神经网络的命名实体识别方法取得了重大进展,其主要思路是利用卷积神经网络[5],循环神经网络[6-7]学习文本的上下文信息,将命名实体识别转换为序列标注问题,再利用CRF约束,增强实体上下文依赖性,提高了实体识别准确率,这类模型具有较强的泛化能力和鲁棒性.为提高字词向量表示能力,传统深度学习模型在词嵌入层加入静态语言模型,如word2vec[a][a]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].arXiv preprint arXiv:1301,3781,2013.[b]Peters M E,Neumann M,lyyer M,et al.Deep contextualized word representations[J].arXiv preprint arXiv:1802.05365,2018.[c]Devlin J,Chang M W,Lee K,et al.Bert:Pretraining of deep bidirectional transformers for language understanding[J].arXiv preprint arXiv:1810.04805,2018、glove[8],然而这些单层神经网络训练出的词向量与上下文无关,只能表示单一的字符语义,面对一词多义的现象则力不从心,为解决此问题,陆续出现了Elmo[b][a]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].arXiv preprint arXiv:1301,3781,2013.[b]Peters M E,Neumann M,lyyer M,et al.Deep contextualized word representations[J].arXiv preprint arXiv:1802.05365,2018.[c]Devlin J,Chang M W,Lee K,et al.Bert:Pretraining of deep bidirectional transformers for language understanding[J].arXiv preprint arXiv:1810.04805,2018、GPT[9]、BERT[c][a]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].arXiv preprint arXiv:1301,3781,2013.[b]Peters M E,Neumann M,lyyer M,et al.Deep contextualized word representations[J].arXiv preprint arXiv:1802.05365,2018.[c]Devlin J,Chang M W,Lee K,et al.Bert:Pretraining of deep bidirectional transformers for language understanding[J].arXiv preprint arXiv:1810.04805,2018等动态语言模型.BERT模型使用Transformer编码器与自注意力机制(Self-Attention)真正实现双向捕获语义信息,能够更好地结合文本上下文语义,在医疗[10]、科技[11-12]、警务[13]等领域都有不错的表现.目前有关地理信息服务的命名实体识别[14-15]只针对于通用的地名、机构名、人名识别.大量的地理信息服务领域知识广泛存在于学术文献中,这些知识包含大量专业术语,存在实体嵌套,中文、英文、数字混合现象,已有的分词工具无法识别此类实体,同时地理信息服务领域缺乏必要的训练语料,加大了地理信息服务实体识别难度.

针对以上地理信息服务领域实体识别问题,本文通过构建地理信息服务语料库,提出了BERT-CNNBiLSTM-CRF模型来提升地理信息服务领域实体识别效果,该模型以传统深度模型BiLSTM-CRF为基础,在模型词嵌入层引入BERT预训练语言模型,用于字向量训练,以便提升文本语义表示能力,在BiLSTMCRF之前加入CNN层能够更好地训练提取文本局部特征.

1 语料数据集构建

1.1 文献实体分类本文以CNKI中国知网文献数据库中2010—2020年之间以“地理信息服务”为主题的文献作为实验数据,通过分析已获取文献结构,以地理信息服务构建过程为主线,结合崔铁军在《地理信息服务导论》[16]中对地理信息服务研究内容的划分构建适用于本文研究数据的知识体系.尽可能涵盖地理信息服务文献研究内容中的重要知识点,研究认为这些文献主题以地理信息服务应用研究与技术研究为主,围绕如何构建与空间位置相关的地理信息服务展开,依照地理信息服务构建流程划分知识体系更能涵盖本文数据重要信息,该分类体系遵循文献思路结构,保留崔铁军等人对技术体系、服务类型以及应用领域的划分方式,在此基础上扩展出文献研究背景、研究数据、服务标准规范等重要信息,同时地理信息服务文献中大量出现基础设施、服务功能相关词汇,因此将其作为大类纳入分类体系.参考《GB/T 25529—2010地理信息分类与编码规则》分类原则按照线分类法,将地理信息服务文献实体划分为九个大类要素:服务、数据、基础设施、服务类型、服务功能、政策法规、技术、行业标准、应用领域.图1为本文对地理信息服务文献研究的知识体系划分示意图.

图1 本文地理信息服务知识体系

数据:地理信息数据是地理信息服务面向用户最终呈现的内容或提供的产品,地理信息服务的构建的数据基础.本文参考《GBT13923—2006基础地理信息要素分类与代码》将这些地理数据概括为水系、居民地及设施、交通、管线、境界与政区、地貌、植被与土质、地名与空间定位基础八种数据类型.

地理信息服务类型:分类为地图服务、位置服务、功能服务,地图服务即为用户提供包含基础地理要素的可视化电子地图.位置服务主要以卫星定位获取位置信息,功能服务包括数据分析、空间分析、路径规划等服务功能.

技术体系:为地理信息服务构建的方法基础,地理信息服务为多学科交叉领域,实现技术主要以计算机技术、地理信息技术为主.计算机技术用以实现服务框架构建,地理信息技术用以获取数据、数据处理、分析以及数据可视化.

服务功能:多以系统或API形式为用户提供地理信息系统功能,如地图浏览标注、空间位置查询、空间分析、数据交换、二次开发等等.

政策背景:地理信息服务研究驱动力多以国家政策主导,同时地理数据的严密性与保密性都需要明确的国家政策作为规范约束.

基础设施:是地理信息服务构建的硬件基础,包括构建服务所需的计算机硬件环境以及获取数据以及数据可视化的设备(如卫星、车载导航仪、各类无人机、手机).

应用领域:地理信息服务应用领域包括政府企业、公众生活的方方面面,涉及空间活动的行业皆能成为其服务对象,主要涉及交通、矿产、生态环境、旅游、物流、城市规划等行业.

服务标准:是地理信息服务构建必须遵循的标准,遵循统一的服务标准能够解决数据交换、信息孤岛问题.具体涉及数据规范、服务规范、开发技术规范,数据规范规定地理信息的分类编码、数据质量控制、数据处理与维护更新流程;服务规范如OGC服务接口规范、服务分类规范、服务元数据内容、服务质量管理等方面;开发技术规范包括系统或接口的数据交换、界面美观性、安全性等方面的技术规范.

地理信息服务:围绕上述八类实体构成了地理信息服务研究内容完整体系,实际上地理信息服务还包括许多元数据信息,如服务url、目的描述、发布单位、发布时间等,但由于本文研究数据为GIServices文献文本,并不涉及上述信息,因此不列入研究之列.

由于文献研究仅以理论构建进行讨论,未涉及具体实现,本文仅针对其理论上的技术类的名词进行提取,而未涉及具体技术实现内容,如矢量数据存储的具体属性.

1.2 语料库构建利用格式转换工具将文献格式统一由CAJ格式转为TXT格式,编码统一设为UTF-8.去除原始数据中多余空行、空格识别错误的标点字词.按照1-294序号依次命名文本,形成源数据文件source_data.采用BIO三段标记法,对每个实体的第一个字标记为“B-(实体类别)”,之后统一标注为“I-(实体类别)”,其余未出现在字典的实体均标注为O.依照表1设计的标注规范标注数据得到标注后的文本,将其按照6:2:2的比例划分为训练集、验证集、测试集.由于文献大多以CAJ、PDF格式文件存储,经过格式转换之后存在内容缺失,导致句子边界模糊,造成少量单条语料长度过大,部分单个词汇之后也存在句号,因此以句号作为句子分割标准做法不妥,若以固定长度切割会导致一个实体可能被分为两个部分,采用滑动窗口切割句子,设置固定长度的窗口值WINDOW_SIZE=75,窗口大小采用句子长度的平均值,左右各延伸10个字符宽度作为填充,可以保证每条句子长度相等,且每条语料留有一定的上下文内容.经过语料切分,得到训练语料8 758条,验证语料2 109条,测试语料2 541条.

表1 地理信息服务领域实体类型

2 实体识别方法

2.1 融合BERT模型的实体识别方法本文模型在BiLSTM-CRF模型基础上进行改进,词嵌入层采用能够动态表示文本语义特征的BERT模型,相对于以往采用Word2vec、GLOVE等静态模型的方法,该方法能够表示更丰富的语义信息,解决句子多义性问题;为了降低句子语义稀疏性对模型识别的干扰,在BERT模型之后加入一维卷积层,提取句子特征.模型分为四层,第一层加入BERT预训练词向量模型,提高字向量语义表征能力,第二层卷积层,用于提取文本字符级特征,第三层Bi LSTM模型,能够学习长文本上下文信息,有效解决传统RNN模型梯度爆炸或者梯度消失的问题,之后采用CRF层计算实体所属类别概率,输出分类结果.模型结构如图2所示.

图2 BERT-1DCNN-BiLSTM-CRF模型

2.2 BERT语言模型中文存在字与词的区分,中文文本表示方法主要有三种,分别是基于字的向量表示、基于词的向量表示以及字词拼接的表示方法,结合以下因素,本文最终采用基于字向量的方法:(1)本文模型应用对象为科学文献,这类文本专业术语较多,多为嵌套实体,通用领域的分词结果并不适用于该领域同时基于词级别方法会对后续模型训练产生干扰;(2)文献[17-18]通过字级别和词级别统计方法对比,表明基于字符的命名实体识别方法一般具有更好的表现.

现有可利用的地理信息服务文献语料较少,难以通过现有数据训练出具有丰富语义的字向量,而字向量训练很大程度影响模型性能,因此在向量表示中引入预训练字向量.预训练字向量已在许多任务中表现出色[19-20],如词袋模型(Continuous Bag-of-Words Model,CBOW)、Skip-gram(Continuous Skip-gram Model,Skip-gram),但在地理信息服务文献中一词多义现象广泛存在,单一的字嵌入(Token Embedding)无法解决一词多义问题,同时静态语言模型采用从左到右单向的编码方式,无法获取更多上下文信息.动态语言模型的出现解决了中文多义性问题,实现真正意义的深度双向编码.基于以上分析本层采用BERT模型解决一字多义问题,丰富句子语义信息.

该层首先在语料中增加具有特殊作用的标识符:在句子首位加入[CLS]标志,在两个句子之间加入[SEP]用于分隔两个句子,[MASK]标志遮盖句子中部分字符.以one-hot方式编码处理后的语料序列[w1,w2,w3,…,w n]得到高维、稀疏的字向量矩阵(Token Embedding)[e1,e2,e3,…,e n],每个字符的位置向量(Position Embedding)[p1,p2,p3,…,p n]及句子向量(Segment Embedding)[s1,s2,s3,…,s n];将每个字符对应的三个Embedding叠加,形成BERT模型的输入向量[E1,E2,E3,…,E n].结构如图3所示.

以往的标准语言模型均为从左到右的单向模型或者双向浅层拼接模型,只能获取文本单向信息,为训练深度双向语言模型,BERT模型采用MLM的方法随机遮蔽输入的字符(以下称token),预测被遮蔽的token,默认遮蔽15%的字符.

其中80%被遮挡词用符号masked token代替,10%用随机词替换,剩余10%保持不变.BERT模型结构如图3所示,其中,E1,E2,…,E N表示模型输入向量,T1,T2,T3,…,TN为模型输出向量,Tr m代表模型采用双向Transformer作为编码器,BERT模型结构如图4所示.

图3 BERT预训练语言模型词向量构成

图4 BERT模型

2.3 字间特征卷积模型Kim Y[d][d]Kim Y.Convolutional neural networks for sentence classification[J].arxiv preprint arXiv:1408.5882,2014.于2014年提出TextCNN概念,将卷积神经网络应用到文本分类中.其结构包括:向量表示层、卷积层、池化层、全连接层.不同于文本分类任务,常规的CNN模型直接应用于命名实体任务会导致特征损失,同时池化操作会造成大量信息丢失[21],因此在考虑字向量维度的完整性同时将卷积层实现局部特征提取的优势应用于向量输入与BiLSTM-CRF模型之间,本层接收BERT模型训练后的字向量[T1,T2,T3,…,T n]作为输入向量,通过固定窗口的一维卷积层与填充设置,在不改变字向量维度前提下将字向量特征与上下文信息深度结合,更好地结合句子语境.经过卷积计算获得特征向量[C1,C2,C3,…,C n],结构图5所示:

图5 字间卷积模型

2.4 BiLSTM-CRF模型该模型接收经过卷积层计算后的字向量[C1,C2,C3,…,C n],将字向量[C1,C2,C3,…,C n]输入到BiLSTM完成上下文信息提取,最后结合条件随机场(Conditional Random Field,CRF)完成实体标注.

分析地理信息服务文献实体发现,其命名实体长度较长,即使同一实体在不同语境表示意义也不同;实体对上下文依赖性强,而长短时记忆神经网络(Long Short Term Memory,LSTM)能够在当前时刻保留上一时刻信息,同时解决了循环神经网络梯度消失或梯度爆炸的问题,使模型能够获取更远距离的信息.

命名实体识别方法通常以归一化方法处理BiLSTM输出层计算每个时刻所属概率最高的类别.这类方法将标签看作相互独立个体,不考虑标签之间依赖性,导致解码出现非法标签如实体头尾颠倒的识别结果.CRF模型为预测标签添加约束以保证预测标签的合法性.通过公式(1)计算出BiLSTM层输出Y=[y1,y2,…,y n]的标记序列T=[t1,t2,…,t n]的得分[18].

其中A为转换矩阵,Pi,yi表示该字符第yi个标签得分.

利用公式(2)中Softmax函数得到归一化后的概率分布,选取最大概率集合.得到CRF层最终标注序列.

3 实验与结果

3.1 实验参数设置基于BERT-1DCNN-BiLSTM-CRF的实验,BERT层采用BERT-Base Mutilingual Cased,是BERT模型中多语言版本,层数12,768个隐藏层,自注意机制采用12头,110M参数.CNN层卷积核大小为3×3,输出张量大小为32,激活函数采用relu函数;LSTM层隐藏单元设为128,优化器采用Adam.双向LSTM输出神经元数128;全连接层,输出神经元数64,激活函数采用tanh;CRF层输出向量大小为20,即分为20类,每类为20×1的one-hot向量.

经过调整超参数,模型在迭代次数达到100,训练批次大小为64,学习率为0.000 5,丢弃率0.4能达到最好效果.

3.2 结果分析实验采用通用评估指标系统来评价本文模型的识别效果,此评估体系包括精确度、召回率、F1值.精确度(Precision)用于衡量所有样本中预测正确的样本正确率、召回率(Recall)用于衡量实际为正样本中被正确预测的样本概率、F1值则综合精确度和召回率两项指标,F1值越大模型识别效果越好,具体指标计算公式如下所示:

其中,TP表示识别正确的实体个数,FP表示识别错误的实体个数,FN表示没有被识别出的实体个数.

实验1

目的:研究BERT模型对地理信息服务文献实体识别的影响,分别进行三组对比实验,实验在CNN-BiSLTM-CRF模型词嵌入层分别采用随机初始化字向量的方法、Word2Vec、BERT,为控制参数对实验的影响,每组实验超参数设置相同.从表2看出BERT语言模型的表现效果最好,对比Word2vecF1值提升3.3%,对比随机初始化向量(BareEmbedding),F1值提升了8.1%,说明BERT模型对文本的语义表征能力更强.

表2 不同嵌入层实体识别结果

为了更好地分析词嵌入层对模型的影响,表3列出九类实体的识别结果.其中BERT模型明显提高了服务名称的识别效果,说明加入预训练语言模型可以大大提高模型长实体类型识别准确率.在标准识别上BERT模型F1值相比Bare提高了7.4%,由于预训练的Word2vec模型完全采用维基百科中文语料训练,因此Word2Vec模型无法有效表示英文类实体.

表3 不同词嵌入层各类实体识别结果

实验2

目的:研究CNN层的加入对模型识别效果的影响.在加入BERT模型的基础上对CNN-BiLSTM-CRF、BiLSTM-CRF模型进行对比实验,从表4可以看出在加入CNN层之后模型效果明显提高,精确度相比BiLSTM-CRF模型提高了1.7%,召回率提高4.74%,F1值提高3.39%,说明CNN能够有效捕捉字符形态特征.

表4 加入CNN前后模型实验结果

实验3

目的:对比本文方法与传统命名实体识别方法的识别效果.选取CNN-LSTM与BiGRU-CRF模型作为对比模型.CNN-LSTM与BiGRU-CRF模型采用随机初始化字向量的方法.从表5的结果来看,本文所用方法效果最好.而CNN-LSTM的表现欠佳,其F1仅有0.432 4,由于双向LSTM单元可以学习到文本上下文信息,而单向LSTM单元只依赖于当前时刻前向的文本信息,因此双向LSTM单元在长文本识别中的表现相较于LSTM更好.

表5 不同模型实验结果

以上三组实验表明BERT模型的加入可以有效提高文本语义表征能力,CNN模型能够获取文本局部特征,基于BiLSTM-CRF改进后的方法能够有效提高BiLSTM-CRF实体识别精度,对比传统深度学习模型,本文构建的模型能够有效提高实体识别能力,模型总体识别精确率达到0.80以上,具有较好的鲁棒性.

4 结语

本文针对GIServices文献实体种类多样,表述方式多样,存在嵌套实体、中英文混合等难点,提出一种面向地理信息服务领域的实体识别方法,该方法解决了地理信息服务领域实体识别语义稀疏、实体复杂等问题,提升了中文长实体识别精度,实现了地理信息服务文献自动化实体识别.通过选取随机初始化向量的方法BareEmbedding、Word2VecEmbedding作为对照组,测试BERT语言模型对传统深度学习模型识别效果的影响.实验结果表明:引入BERT模型能够充分发挥BERT模型在语义特征表示上的优势,显著提升了实体识别的准确率;通过在BiLSTM-CRF模型加入CNN层,有效提高了字符特征的捕捉能力和识别能力;本文构建的BERT-1DCNN-BiLSTM-CRF模型识别效果最优,F1值达到0.824,能够较好地实现GIServices领域实体识别.下一步工作将此模型标注后的实体应用到实体关系抽取,为构建GIServices领域知识图谱提供有效方法.

猜你喜欢
语料卷积向量
基于全卷积神经网络的猪背膘厚快速准确测定
向量的分解
海量标注语料库智能构建系统的设计与实现
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
聚焦“向量与三角”创新题
浅谈视频语料在对外汉语教学中的运用
可比语料库构建与可比度计算研究综述
向量垂直在解析几何中的应用