实体语义关系分类及应用研究

2019-03-18 02:14李枫林柯佳
现代情报 2019年2期
关键词:深度学习神经网络

李枫 林柯佳

摘要:[目的/意义]实体语义关系分类是信息抽取重要任务之一,将非结构化文本转化成结构化知识,是构建领域本体、知识图谱、开发问答系统、信息检索系统的基础工作。[方法/过程]本文详细梳理了实体语义关系分类的发展历程,从技术方法、应用领域两方面回顾和总结了近5年国内外的最新研究成果,并指出了研究的不足及未来的研究方向。[结果/结论]热门的深度学习方法抛弃了传统浅层机器学习方法繁琐的特征工程,自动学习文本特征,实验发现,在神经网络模型中融入词法、句法特征、引入注意力机制能有效提升关系分类性能。

关键词:实体语义关系;关系分类;神经网络;深度学习

DOI:10.3969/j.issn.1008-0821.2019.02.006

〔中图分类号〕TP391〔文献标识码〕A〔文章编号〕1008-0821(2019)02-0047-10

近年来,云计算、大数据迅猛发展,如何快速有效地从海量异构的非结构化数据中抽取出有价值的信息成为文本挖掘的主要任务。文本表达具有复杂性、多样性、歧义性等特点,实体语义关系分类一直是学术界和工业界的关注热点。1998年,美国消息理解会议MUC(Message Understanding Conference)首次引入实体语义关系分类任务,Culotta A等[1]对实体关系分类任务定义为“输入一段文本,发现每句话中的实体及其之间的语义关系”,其包括两个子任务:1)判断实体对是否存在关系;2)若存在关系,将其划分到预先定义的类别中。实体关系分类是建立知识库的基础工作,对开发知识图谱、信息检索系统、智能问答助手都具有重要意义。

本文的研究主要是指从一句话中抽取出两个实体及语义关系,用三元组(实体1,关系,实体2)表示,不涉及高阶、跨句子、多元实体语义关系分类及关系推理。传统的知识工程方法和机器学习方法需要大量费时耗力的“特征工程”,近几年,随着深度学习方法在多个NLP任务的广泛应用,学者也开始尝试将深度学习方法应用到实体语义关系分类任务中,研究领域也从限定领域发展到开放领域,本文从研究方法和研究领域两方面入手,梳理和回顾近5年实体关系分类的研究进展,以求把握其研究方向与趋势,为今后学者的研究提供参考和帮助。

1实体语义关系分類评测会议

为了推动实体语义关系分类的发展,多年来国内外知名会议(见表1)组织了不同的关系分类竞赛。

1.1国际评测会议

1998年,第七届美国消息理解会议MUC首次引入了实体语义关系分类(模板关系,Template Relation)任务。会议语料主要来自限定领域的新闻语料,飞机失事事件和航天器发射事件,预先定义了3种实体关系:Location-of、Employee-of和Product-of。

2000年,美国国家标准技术研究院开始组织自动内容抽取ACE(Automatic Content Extraction)评测,任务之一就是实体关系识别(Relation Detection and Recognition,RDR)。会议语料主要来源于新闻,预先定义了人物、组织机构、物理位置、局部与整体等7大类关系。与MUC相比,ACE评测不针对某个具体场景,ACE2008还增加了跨文档关系抽取,用来发现全局实体间的关系。

2009年,美国国家标准与技术研究院组织的国际文本分析会议(Text Analysis Conference,TAC),将关系分类任务并入到构建知识库的槽填充(Slot-Filling)任务,涉及关于PER(人物)的25种属性和ORG(组织)的16种属性,使用英语维基百科作为知识库,要求参赛者从大规模文本中找到指定实体及其属性。

2010年,国际语义评测会议SemEval(Semantic Evaluation)引入了实体语义关系分类任务,SemEval 2010-task8预先定义了9种有方向的关系和other类(不属于9种类别)。

2017年,国际语义评测会议SemEval引入了科技文献(计算机、材料科学、物理学期刊论文)实体语义关系分类任务,实体分为3大类:过程Process(包括模型、算法、过程)、任务Task(包括目的、问题、任务)、材料Material(包括资源),实体关系分为3种:下义词Hyponym-of、同义词Synonym-of、无关系unrelated。

2018年,国际语义评测会议SemEval也引入了科技文献(ACL论文集)实体语义关系分类任务,包括两个子任务:1)关系抽取;2)关系分类,预先定义了5种不对称的关系:“方法Usage”、“结果Result”、“模型—特征Model-feature”、“部分—整体Part-whole”、“主题Topic”和对称关系“比较Compare”和关系“Order-independent”。

1.2国内评测会议

国内实体语义关系分类研究起步较晚,公开的中文评测语料是第八届中文情感倾向性评测(The Eighth Chinese Opinion Analysis Evaluation)会议标注的微博语料COAE2016-task3,其包括两个子任务:1)识别出包含实体关系的句子并完成实体关系分类;2)抽取出每个包含实体关系的句子中具有特定关系的实体对。

实体语义关系分类研究是以MUC、ACE、SemEval评测会议提出的任务展开的,其技术方法也由人工标注语料、基于机器学习的“特征工程”方法发展到无需人工标注,机器自动学习、抽取特征的深度学习[2]方法。

2任务描述及评测标准

实体关系分类的研究领域主要包括限定领域和开放领域。根据对标注数据的依赖程度,关系分类方法可分为有监督方法、弱监督方法、无监督方法。近几年,限定域的实体关系分类主要采用有监督的深度学习神经网络模型完成,开放域的实体关系分类采用弱监督远程监督方法结合神经网络模型完成。限定域的实体关系分类评测采用信息检索领域的F1值(召回率和准确率)作为评价标准。远程监督的实体关系分类除了F1值,还需要进行留出法(Held-out)评价和人工(Manual)评价。

留出法评价:将知识库中每种关系的所有关系实例分为互斥的两部分:一部分用于自动标注训练实例;另一部分用于测试新发现的关系实例,评估模型的泛化能力。例如以知识库Freebase中存在的关系三元组作为标准,没有出现在知识库中的关系实例都认为是负样本。留出法评价的优点在于:速度快、无需人工介入,可用来调试算法的参数;缺点在于:无法处理知识库不完备导致的“伪正例(False Positive)”情况,采用人工评价修正。

人工评价:人工检查关系实例,找出那些标签为无关系(NA)但实际有关系的实体对,判定每种关系中置信度最高的K个(Top-K)新发现关系实例,对前N个抽取的关系实例评分(按照置信度排序),计算“前K个实例的准确率”,使用Top-K作为评测指标,判断模型预测的准确率。

3热门研究方法—深度学习方法

深度学习是机器学习的一个分支,是一种表示学习(Representation Learning)方法,区别于传统浅层机器学习,通过含有多个隐藏层的神经网络建模海量数据,自动学习文本特征,能够在保证准确率的前提下大幅减少人工标注和复杂的特征工程,具有较强的泛化能力,近几年被广泛应用于实体语义关系分类任务。

深度学习方法与传统浅层机器学习方法相比,具有3个特点(见表2):

1)模型能够无监督学习,直接将组成句子的词向量序列输入到神经网络,无需自然语言处理工具预处理文本,也可以有监督学习,预先标注语料,引入外部特征用于提高性能。

2)多层特征表示。深度学习模型以原始文本作为输入,将训练样本的特征变换到一个新的特征空间,在输入层和输出层之间包含若干个隐藏层(Hidden Layer),包含更多的非线性变换,模型逐层抽取特征,将当前层的输出作为下一层的输入,用于分类或预测。

3)模型用低维、实数词嵌入表示单词(词语),一方面解决了高维0~1词向量带来的数据稀疏问题;另一方面词嵌入每一维度代表了一定的语义信息,能够帮助神经网络学习特征。

神经网络模型按照模型结构的不同分为4大类:递归神经网络RecNN[3](Recursive Neural Network)、卷积神经网络CNN[4](Convolutional Neural Network)、循环神经网络RNN[5]( Recurrent Neural Network)及RNN改进模型长短时记忆网络LSTM[6](Long Short-Term Memory Network)和门控循环单元 GRU[7](Gated Recurrent Unit)。

3.1限定域关系分类

限定域的关系分类需要人工预先定义关系类别,使用不同的机器学习分类器将实体对划分到预先定义好的关系类别中。目前限定域的公开评测语料主要包括ACE2005、SemEval 2010-task8。在ACE 2005数据集中,90%的实体对不存在语义关系,任务要点在于实体关系判别(是否存在关系),在SemEval 2010 task8数据集中,83%的实体对存在语义关系,任务要点在于实体关系分类,所以本文涉及的关系分类任务大多是在SemEval 2010-task8语料上完成。

根据神经网络模型融入特征的不同,将融入神经网络模型的特征分为词法特征和句法特征。

3.1.1引入词法特征(Lexical  Feature)

1)语义词典WordNet

借助语义词典Wordnet,对同义词关系聚类,同时指明了实体类型。2013年,Liu C Y等[8]首次提出将语义词典WordNet中的同义词关系、词性、实体类别等词汇特征融入到卷积神经网络中,完成关系分类任务。

2)词汇相对位置特征(Position Feature)

2014年,Zeng D等[9]首次提出将句子每个单词与实体对的相对位置、实体上位词(语义词典WordNet)输入到CNN模型中,实验发现语义词典的上位词、相对位置特征能显著提高关系分类性能,后来的学者大多沿用了此方法。尽管Zeng D提出的相对位置特征显著提升了性能,但由于CNN模型只能学习窗口内局部词序特征,为了捕获更长的单词序列特征,Zhang D等[10]嘗试直接使用标签表示两个实体的位置,使用RNN模型更好的学习当前句子的前文特征。实验对比RNN模型与CNN模型发现,RNN对于长文本建模更有优势。由于RNN模型存在梯度消失和梯度爆炸的问题,后来的学者尝试使用RNN模型的改进模型—长短时记忆网络LSTM和门控循环单元GRU研究关系分类问题。Zhang S等[11]提出使用双向长短时记忆网络(Bi-LSTM)建模句子,实验发现双向LSTM相比单向LSTM优势在于能捕获句子上下文特征。

3.1.2引入句法特征(Syntactic Feature)

1)依存句法

依存句法通过分析语言单位内成分之间的依存关系揭示句子中各词语的语义修饰关系,分析出句子的主谓宾、定状补结构。

2012年,Socher R等[12]首次使用矩阵—矢量递归神经网络模型MV-RNN(matrix-vector Recursive Neural Network)对依存句法树建模实现关系分类。Hashimoto K等[13]不同于前人使用隐性权重赋予重要短语的RecNN模型,而是采用平均参数的RecNN模型建模句法树。Xu Y等[14]提出了深度循环神经网络模型DRNN(Deep Recurrent Neural Networks),句法树的两个子树输入到多层RNN中。Li J等[15]对比树状模型(Tree-LSTM)和双向序列模型(Bi-LSTM)在实体关系分类任务上的结果发现,树状模型能建模实体对远距离依赖关系,性能优于序列模型,序列模型实体对之间的干扰词影响了抽取结果。

2)最短依存树

句子最短依存路径反映了句子实体之间的依赖关系,通常最短依存路径上的词都是句子的关键词。

在英文研究方面,Xu K等[16]使用CNN建模句子最短依存路径,在模型中引入负样本(Negative Sampling),提升关系分类性能。Xu Y等[17]提出利用SDP-LSTM模型对句子的实体对进行关系分类。模型充分利用最短依赖路径SDP(Shortest Dependency Path)确定实体对的有向关系,将句法依存树分成两个子树,每个实体作为子树的祖先节点,再拼接子树的特征进行关系分类。为了提高准确率,作者还使用了多通道的循环神经网络。Liu Y等[18]使用递归神经网络建模句法依存树子树,使用卷积神经网络建模句子最短依存路径。Cai R等[19]将最短依存路径上词与词之间的依存关系分别编码输入到LSTM的两个通道,将句子相邻词对应的LSTM输出和它们的依存关系LSTM输出连结起来作为CNN模型的输入,经过最大池化操作使用3个softmax分类器从正向和反向预测关系。

在中文研究方面,刘燊[20]提出使用SDP-LSTM模型(Short Dependence Paths LSTM),从百度百科文本中抽取实体对关系。孙紫阳等[21]在SogouCA新闻语料上,采用Bi-LSTM建模句子最短依存路径,模型融入词性特征,将LSTM模型的输出作为CNN模型输入。

利用句法树进行实体关系分类的不足之处在于关系分类性能受限于句法分析的正确性,一旦句法分析错误,必然影响关系分类,所以这一方法一般适用于短句子较简单句子的建模。

3.1.3句子层面的注意力机制[22](Attention)

神经网络模型将单词序列无差别的输入到模型中进行表示学习,无法反映句子关键(动)词特征,例如句子中的单词“Work(工作)”对描述“Employ-of”雇佣关系有重要作用,如果在模型中引入注意力机制,模型为单词“Work(工作)”赋予更高的权重,提升关系分类的性能。

李博等[23]使用CNN模型建模最短依存路径,并引入注意力机制,针对实体关系具有方向性的特点,提出了一种正向和反向实例结合的分类方法。Xiao M等[24]将句子按两个实体对分段,使用多层注意力的RNN模型建模上下文,完成关系分类。Zhou P等[25]在Zhang S[11]基础上,引入注意力机制,通过权重向量连结LSTM中的每一个时间节点信息,在没有使用NLP工具和任何词法特征的情况下,取得了不错的性能。王红等[26]在LSTM模型中引入注意力机制,并加入单词位置特征,词性特征、句法信息,融合句子局部特征和整体特征。

3.2开放域关系分类—引入注意力机制

远程监督方法实现实体语义关系分类优势在于无需人工预先定义关系类别,利用外部知识库已有的关系实例自动标注训练样本,一定程度上解决了标注语料不足的问题。不同于前文使用限定领域语料SemEval 2010-task8,数据规模较小,关系类别有限且只有正例。

2009年,Mintz M等[27]首次提出利用已有的外部知识库三元组启发式的训练大规模语料,自动标注训练样本,使用远程监督的方法实现开放域实体语义关系分类。

Zeng D等[28]首次提出将卷积神经网络应用到远程监督实体语义关系分类任务上,借鉴多实例学习的方法,从训练集中选取置信度最高的关系实例训练模型,实体对将句子分成3段,每段做最大池化(Max-pooling),增强特征学习能力。Lin Y等[29]针对Zeng D[28]只选取包(含有同一实体对的所有句子)内概率最大的关系语句训练模型,未充分利用语料中包含同一实体对的所有语句,提出在CNN的全连接层引入句子级别(Sentence-level)的注意力机制(Attention),为含有同一实体对的每个句子分配权重,通过赋予关系标签正确实例更大的权重,错误实例较小的权重,减少噪声,提高关系预测准确度。Ji G等[30]在Lin Y[29]模型基础上,将外部知识图谱的实体描述信息添加到模型中,强化语义表示能力,改变Lin Y[29]注意力权重的计算方法,通过计算实体间关系与句子间的相似度赋予句子不同的權重。Liu T等[31]针对之前的模型在训练过程中,关系实例标签保持不变的缺点,提出在实体对层面(Entity-pair Level)的标注方法,模型训练过程中动态的修正错误标签,在Lin Y[29]模型基础上,通过联合得分函数(Joint Score Function)计算实体对表示的合理程度和关系标签(Hard Label)的置信度,这个得分函数描述关系实例软标签(Soft-label)的置信度。

黄兆玮等[32]提出基于GRU和注意力机制的远程监督关系分类方法,使用GRU神经网络学习文本特征,在实体对层面构建句子级的注意力机制,减小噪声。蔡强等[33]针对大多数关系分类模型没有充分利用局部特征及全局特征的问题,引入多层次注意力(Multi-level Attention)GRU模型。词语层面的注意力通过在池化层构建权重矩阵衡量实体词与关系词的语义相关度,句子层面的注意力比较待预测关系与语句的相关性。

在中文研究方面,黄蓓静[34]将中文“互动百科”和新闻“Sogou CS 2008”作为训练语料,利用远程监督方法,组合CNN和LSTM,提出LSTM_PCNN模型实现中文人物关系分类。尚琪[35]使用CNN模型和远程监督方法,抽取云南旅游领域实体及其属性之间的关系。

远程监督方法避免了人工预先定义关系类别的问题,但该方法依赖知识库的完备性与准确性,并且训练语料与知识库对齐会产生噪声,目前对于此方法的研究主要从引入注意力机制,降低训练数据噪声方面展开(见表3),以求提高关系分类的性能。

4实体关系分类应用领域

生物医学文献急剧增长,学者迫切希望从这些海量的科学前沿信息中抽取出有价值的知识进行结构化的组织和管理,推动生物医学更快发展。所以生物医学实体语义关系分类是目前最热门的研究领域。

4.1生物学领域

生物学实体(基因、蛋白质、化合物、药物、疾病)语义关系分类对于生命科学研究、生物学数据库的构建、药物开发和疾病防治都具有重要意义。生物学领域国际公开评测会议多次发布实体关系分类任务(见表4),主要涉及蛋白质与蛋白质相互作用关系(Protein Protein Interaction Extraction,PPIE)、药物与药物相互作用关系(Drug Drug Interaction Extraction,DDIE)、化合物(药物)与疾病关系(Chemical Disease Relation,CDR、Chemical Induced Diseases,CID)等等。

4.1.1蛋白质与蛋白质相互作用关系分类

科学实验证明,蛋白质与蛋白质相互作用与许多疾病(例如癌症)有关。研究蛋白质与蛋白质相互作用关系对于疾病治疗、药物开发、生命科学研究等领域都具有极其重要的意义。从生物医学文本中抽取蛋白质与蛋白质之间的关系一直是生物医学领域文本挖掘的热点任务之一。

国际著名生物文献信息挖掘标准评测会议BioCreative在2007年、2009年、2010年分别发布了蛋白质与蛋白质相互作用关系分类任务。

Quan C等[36]实验发现多通道CNN神经网络关系分类性能优于单通道CNN。Sung[37]使用DCNN(Deep Convolutional Neural Network)将多种特征(词汇、句法、语义特征)融入到CNN模型中,探索了词汇位置特征对蛋白质与蛋白质关系分类性能的影响。Hua L等[38]使用sdpCNN模型建模句子蛋白质之间的最短依存路径。Peng Y等[39]提出了基于依存关系的多通道卷积神经网络模型McDepCNN(Multichannel Dependency-based Convolutional Neural Network Model)完成关系分类任务。一个通道输入词向量及词汇特征(词性、词块、命名实体、依存关系、位置向量),另一个通道输入依存树句法特征,实验发现,依存关系CNN模型较适合抽取长句子的蛋白质相互作用关系。Zhang H等[40]在CNN模型中引入注意力机制,赋予句子重要词汇更大的权重提升关系分类性能。

4.1.2药物与药物相互作用关系分类

研究药物与药物相互作用能减少药物安全事故,降低医疗成本。2013年,国际语义评测会议SemEval发布药物与药物相互作用关系分类任务——DDIExtraction 2013,DDIExtraction任务将药物相互作用的关系定义为机制(Mechanism)、影响(Effect)、建议(Advice)、相互作用(Int)4大类关系和无任何关系。

Quan C等[41]实验发现多通道CNN优于单通道CNN模型和基线标准模型。Zhao Z等[42]提出1个新颖的句法词向量(Syntax Word Embedding),将词法特征融入到SCNN(Syntax Convolutional Neural Network)模型中。劉胜宇[43]对比序列CNN与依存(树)结构CNN关系分类性能。实验表明:序列CNN模型参数较少,训练相对简单,时间较短,适用于长句子关系分类,依存CNN模型由于将句法依存信息建模到模型中,参数较多,训练相对复杂,时间较长,适用于短句子关系分类。Suárez-Paniagua V等[44]从3个方面比较CNN模型药物相互作用关系分类性能:1)同一模型在2个不同的药物数据库DDI-DrugBank和DDI-MedLine上的分类性能;2)9种不同大小的卷积核关系分类性能;3)6种不同的词向量关系分类性能,深入分析了语料、卷积核尺寸、词向量对关系分类性能的影响。

4.1.3化合物与疾病的关系分类

研究化合物(药物)与疾病的关系在疾病治疗、药物开发方面具有极其重要的作用,识别化合物和疾病之间的不良反应ADRs(Adverse Drug Reactions)、依从关系(治疗关系),对于病人用药安全、药物毒性研究、药物生存筛选等方面都具有非常重要的作用,药物上市之后,ADRs也是药物监测重要内容之一。

Le H Q等[45]对比3种不同的CNN模型:1)无依存关系的化合物——疾病关系分类模型;2)有依存关系、无方向的化合物—疾病关系分类模型;3)有依存关系、有方向的化合物——疾病关系分类模型,探索最短依存路径对关系分类性能的影响,实验在标准评测语料BioCreative Ⅴ数据集上取得了不错的结果。Gu J等[46]使用卷积神经网络抽取句子内的化合物疾病实体关系。冯钦林[47]利用CNN模型建模药物与疾病的最短依存路径,考虑不同语义特征的差异,对句子特征和单词特征赋予不同的权重,突出重要特征。Huynh T等[48]使用4种不同的CNN模型:1)普通CNN;2)Convolutional Recurrent Neural Network;3)Recurrent Convolutional Neural Network;4)Convolutional Neural Network with Attention在社交媒体Twitter语料和MEDLINE数据集上实现药物与不良反应的关系分类,实验发现,普通卷积神经网络模型优于其他改进CNN模型。

Lee K等[49]设计了多个弱监督的CNN模型(Semi-supervised Convolutional Neural Network),在社交媒体Twitter语料上抽取药物与不良反应的关系,实验表明,弱监督机器学习性能要优于有监督的分类方法。

4.2医学领域

4.2.1临床电子病历的实体关系分类

在临床医学领域,学者大多使用I2B2-2010(Integrating Biology and the Bedside-2010)人工标注的英文语料库完成关系分类任务,训练语料将临床医疗电子病历的实体划分为3大类:1)医疗问题(Medical  Problem)(Uzuner O[50]把医疗问题又划分为疾病和症状两种实体);2)检查(Test);3)治疗(Treatment),16种具体的实体关系,研究实体识别和关系分类方法。

Sahu S K等[51]提出了一个从英文出院小结中抽取Medical Problem,Treatment 和Test 3类实体关系的CNN模型,实验从3个方面展开:1)不同尺寸的卷积核;2)模型加入不同的外部语言特征(例如词性、词块、词位置);3)CNN模型与传统支持向量机机器学习方法对比。实验发现:(4,6)大小的卷积核分类效果最好、加入外部语言特征能改善关系分类的效果,CNN模型的抽取效果优于支持向量机。刘凯等[52]提出基于卷积神经网络的弱监督关系分类方法。利用人工定义的规则标注训练语料实体关系,再转换为向量矩阵输入到CNN模型中。文章定义了5类具有方向性的临床医疗实体关系,实体分别是症状、疾病、检查、并发症和治疗。

5总结与展望

本文阐述了实体语义关系分类研究的发展历程,从技术方法、应用领域两方面回顾和总结了近5年国内外的最新研究成果。限定域的关系分类通过在神经网络模型中融入词法、句法特征(见表5)、添加注意力机制提升性能,开放域的关系分类利用外部已有知识库(三元组)使用远程监督方法提升性能。

虽然神经网络作为热门研究方法提升了实体语义关系分类的性能,但目前的研究还存在几方面的不足:

5.1研究主题方面

目前关系分类的研究对象大多针对二元实体,多元、跨句子的实体语义关系分类研究相对较少。近几年特定领域的关系分类主要集中在生物医学领域、人物关系[53-56],原因在于这两个领域实体关系相对固定,变化较少,易于开展。实际上,关系分类在金融领域、公共安全、食品安全、农业领域都有广泛的应用,学者下一步可从这几个领域展开研究。

从目前已有的研究成果来看,开放域关系分类除了采用前文提到的远程监督方法还可以采用基于模板的方法,在国际上取得领先地位的谷歌、微软公司,其知识图谱、信息搜索产品都是建立在实体语义关系分类基础上的,工业界的优势在于拥有海量的用户日志和搜索数据;学术界华盛顿大学图灵研究中心开发了5代开放域关系分类原型系统(TextRunner、ReVerb、R2A2、WOE、OLLIE)、美国斯坦福大学DeepDive系统,卡内基梅隆大学开发的NELL(Never-Ending Language Learning)系统,也都在开放域关系分类任务上做了大量有益的探索。

5.2语料方面

训练语料的数量和质量是决定性能的首要前提。目前大部分实体语义关系分类的研究主要集中在英文数据集——SemEval 2010-Task 8、NYT10、ACE2005、ACE2008、TAC-KAP上,这几个语料的缺点是数据量偏小,关系类别不够丰富,难以达到神经网络模型海量训练数据的要求,模型容易出现过拟合。若要增强深度学习方法的泛化能力,需要領域专家建设高质量的海量语料。

5.3模型方面

深度学习方法处理自然语言问题的研究处于初级阶段,对于模型本身仍有许多问题值得深度思考。

神经网络处理文本缺乏理论依据和完备的数学解释,模型类似一个黑盒(Black Box),可解释性差。目前基于神经网络的实体语义关系分类主要集中在模型结构的设计和参数的调整上,深度学习方法虽然避免了传统机器学习方法繁琐的特征工程,但增加了调整参数、网络层数及激活函数等大量工作,需要在实验中不断累积经验优化模型。

目前完成关系分类任务在模型中融入的特征主要还是句法特征,对语言先验知识(如语义词典WordNet,HowNet、网络众包百科Wikipedia)的运用相对较少。如何将更多的先验知识融入到神经网络模型中,强化特征表示能力,实现数据与知识的双重驱动,是一个值得深入研究的方向。

本文回顾总结了近5年实体语义关系分类研究方法、应用领域,并指出了未来的研究方向,希望能对研究者提供有益的参考和帮助,相信在学者的不断努力下,还会有更多、更有效的方法被提出。

参考文献

[1]Culotta A,Mccallum A,Betz J.Integrating Probabilistic Extraction Models and Data Mining to Discover Relations and Patterns in Text[C]//Main Conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics.Association for Computational Linguistics,2006:296-303.

[2]Hinton G E,Osindero S,Teh Y W.A Fast Learning Algorithm for Deep Belief Nets[J].Neural Computation,2006,18(7):1527-1554.

[3]Goller C,Kuchler A.Learning Task-dependent Distributed Representations By Backpropagation Through Structure[J].Neural Networks,1996,(1):347-352.

[4]LeCun Y,Boser B,Denker J S,et al.Backpropagation Applied to Handwritten Zip Code Recognition[J].Neural Computation,1989,1(4):541-551.

[5]Elman J L.Distributed Representations,Simple Recurrent Networks,and Grammatical Structure[J].Machine Learning,1991,7(2-3):195-225.

[6]Hochreiter S,Schmidhuber J.Long Short-term Memory[J].Neural Computation,1997,9(8):1735-1780.

[7]Chung J,Gulcehre C,Cho K H,et al.Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[EB/OL].https://arxiv.org/pdf/1412.3555.pdf,2014-12-11.

[8]Liu C Y,Sun W B,Chao W H,et al.Convolution Neural Network for Relation Extraction[C]//International Conference on Advanced Data Mining and Applications.Springer,Berlin,Heidelberg,2013:231-242.

[9]Zeng D,Liu K,Lai S,et al.Relation Classification Via Convolutional Deep Neural Network[C]//Proceedings of COLING 2014,the 25th International Conference on Computational Linguistics:Technical Papers,2014:2335-2344.

[10]Zhang D,Wang D.Relation Classification via Recurrent Neural Network[EB/OL].https://arxiv.org/pdf/1508.01006.pdf,2015-04-05.

[11]Zhang S,Zheng D,Hu X,et al.Bidirectional Long Short-term Memory Networks for Relation Classification[C]//Proceedings of the 29th Pacific Asia Conference on Language,Information and Computation,2015:73-78.

[12]Socher R,Huval B,Manning C D,et al.Semantic Compositionality Through Recursive Matrix-vector Spaces[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning.Association for Computational Linguistics,2012:1201-1211.

[13]Hashimoto K,Miwa M,Tsuruoka Y,et al.Simple Customization of Recursive Neural Networks for Semantic Relation Classification[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing.2013:1372-1376

[14]Xu Y,Jia R,Mou L,et al.Improved Relation Classification By Deep Recurrent Neural Networks with Data Augmentation[EB/OL].https://arxiv.org/pdf/1601.03651.pdf,2016-10-13.

[15]Li J,Luong T,Jurafsky D,et al.When Are Tree Structures Necessary for Deep Learning of Representations[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015:2304-2314.

[16]Xu K,Feng Y,Huang S,et al.Semantic Relation Classification via Convolutional Neural Networks with Simple Negative Sampling[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015:536-540

[17]Xu Y,Mou L,Li G,et al.Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015:1785-1794.

[18]Liu Y,Wei F,Li S,et al.A Dependency-Based Neural Network for Relation Classification[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing,2015:285-290.

[19]Cai R,Zhang X,Wang H.Bidirectional Recurrent Convolutional Neural Network for Relation Classification[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers),2016,(1):756-765.

[20]劉燊.面向《大词林》的中文实体关系挖掘[D].哈尔滨:哈尔滨工业大学,2016.

[21]孙紫阳,顾君忠,杨静.基于深度学习的中文实体语义关系抽取方法.计算机工程[J/OL].http://www.ecice06.com/CN/abstract/abstract28113.shtml,2017-10-17.

[22]Treisman A,Sykes M,Gelade G.Selective Attention and Stimulus Integration[J].Attention and Performance Ⅵ,1977,333.

[23]李博,赵翔,王帅,等.改进的卷积神经网络关系分类方法研究[J].计算机科学与探索,2018,(5).

[24]Xiao M,Liu C.Semantic Relation Classification Via Hierarchical Recurrent Neural Network with Attention[C]//Proceedings of COLING 2016,the 26th International Conference on Computational Linguistics:Technical Papers,2016:1254-1263.

[25]Zhou P,Shi W,Tian J,et al.Attention-based Bidirectional Long Short-term Memory Networks for Relation Classification[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics(Volume 2:Short Papers),2016,(2):207-212.

[26]王红,史金钏,张志伟.基于注意力机制的LSTM的语义关系抽取[J].计算机应用研究,2018,(5).

[27]Mintz M,Bills S,Snow R,et al.Distant Supervision for Relation Extraction Without Labeled Data[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP:Volume 2-Volume 2.Association for Computational Linguistics,2009:1003-1011.

[28]Zeng D,Liu K,Chen Y,et al.Distant Supervision for Relation Extraction Via Piecewise Convolutional Neural Networks[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015:1753-1762.

[29]Lin Y,Shen S,Liu Z,et al.Neural Relation Extraction with Selective Attention Over Instances[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers),2016,(1):2124-2133.

[30]Ji G,Liu K,He S,et al.Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions[C]//Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence,2017:3060-3066.

[31]Liu T,Wang K,Chang B,et al.A Soft-label Method for Noise-tolerant Distantly Supervised Relation Extraction[C]//Conference on Empirical Methods in Natural Language Processing,2017:1790-1795.

[32]黄兆玮,常亮,宾辰忠,等.基于GRU和注意力机制的远程监督关系抽取[J].计算机应用研究,2019,(10).

[33]蔡强,郝佳云,曹健,等.采用多尺度注意力机制的远程监督关系抽取[J].中文信息学报,2018,32(1).

[34]黄蓓静.深度学习技术在中文人物关系抽取中的应用研究[D].上海:华东师范大学,2017.

[35]尚琪.特定领域实体属性关系抽取方法研究[D].昆明:昆明理工大学,2017.

[36]Quan C,Hua L,Sun X,et al.Multichannel Convolutional Neural Network for Biological Relation Extraction[J].BioMed Research International,2016.

[37]Choi S P.Extraction of Protein-protein Interactions(PPIs)from the Literature By Deep Convolutional Neural Networks with Various Feature Embeddings[J].Journal of Information Science,2016:0165551516673485.

[38]Hua L,Quan C.A Shortest Dependency Path Based Convolutional Neural Network for Protein-Protein Relation Extraction.[J].BioMed Research International,2016.

[39]Peng Y,Lu Z.Deep Learning for Extracting Protein-protein Interactions from Biomedical Literature[EB/OL].https://arxiv.org/pdf/1706.01556.pdf,2017-06-07.

[40]Zhang H,Yang M Q,Feng X,et al.Protein-Protein Interaction Extraction Using Attention-Based Convolution Neural Networks[C]//ACM International Conference on Bioinformatics,Computational Biology,and Health Informatics.ACM,2017:770-771.

[41]Quan C,Hua L,Sun X,et al.Multichannel Convolutional Neural Network for Biological Relation Extraction[J].BioMed Research International,2016.

[42]Zhao Z,Yang Z,Luo L,et al.Drug Drug Interaction Extraction from Biomedical Literature Using Syntax Convolutional Neural Network[J].Bioinformatics,2016,32(22):3444-3453.

[43]刘胜宇.生物醫学文本中药物信息抽取方法研究[D].哈尔滨:哈尔滨工业大学,2016.

[44]Suárez-Paniagua V,Segura-Bedmar I,Martínez P.Exploring Convolutional Neural Networks for Drug-drug Interaction Extraction[J].Database,2017,(1).

[45]Le H Q,Can D C,Dang T H,et al.Improving Chemical-induced Disease Relation Extraction with Learned Features Based on Convolutional Neural Network[C]//International Conference on Knowledge and Systems Engineering,2017:292-297.

[46]Gu J,Sun F,Qian L,et al.Chemical-induced Disease Relation Extraction Via Convolutional Neural Network[J].Database the Journal of Biological Databases & Curation,2017,(1).

[47]冯钦林.基于半监督和深度学习的生物实体关系抽取[D].大连:大连理工大学,2016.

[48]Huynh T,He Y,Willis A,et al.Adverse Drug Reaction Classification with Deep Neural Networks[C]//Proceedings of COLING 2016,the 26th International Conference on Computational Linguistics:Technical Papers,2016:877-887.

[49]Lee K,Qadir A,Hasan S A,et al.Adverse Drug Event Detection in Tweets with Semi-Supervised Convolutional Neural Networks[C]//Proceedings of the 26th International Conference on World Wide Web.International World Wide Web Conferences Steering Committee,2017:705-714.

[50]Uzuner O,Mailoa J,Ryan R,et al.Semantic Relations for Problem-oriented Medical Records[J].Artificial Intelligence in Medicine,2010,50(2):63-73.

[51]Sahu S K,Anand A,Oruganty K,et al.Relation Extraction from Clinical Texts Using Domain Invariant Convolutional Neural Network[EB/OL].https://arxiv.org/pdf/1606.09370.pdf,2016-06-30.

[52]劉凯,符海东,邹玉薇,等.基于卷积神经网络的中文医疗弱监督关系抽取[J].计算机科学,2017,44(10):249-253.

[53]珠杰,洪军建.基于SDAs的人物关系抽取方法研究[J].计算机科学,2017,44(s1):141-145.

[54]黄卫春,徐力,熊李艳,等.基于信息增益的Web人物关系抽取[J].计算机应用研究,2016,33(8):2286-2289.

[55]刘锦文.基于新闻数据的中文人物社会关系抽取研究[D].合肥:中国科学技术大学,2016.

[56]潘云.基于中文在线资源的人物关系抽取研究[D].上海:华东师范大学,2015.

(责任编辑:郭沫含)

猜你喜欢
深度学习神经网络
神经网络抑制无线通信干扰探究
有体验的学习才是有意义的学习
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于支持向量机回归和RBF神经网络的PID整定
基于神经网络分数阶控制的逆变电源
基于GA-BP神经网络的光伏阵列MPPT研究