基于句法分析的实体关系抽取

2018-05-14 09:39李真张优敏夏冬梅靳冲
科技风 2018年15期
关键词:支持向量机

李真 张优敏 夏冬梅 靳冲

摘 要:针对领域本体构建中实体关系种类不明确,以及中文文本中多出现复杂句式,复杂句子中实体关系的获取比较难的问题,提出基于句子语法分析的实体关系获取方法,通过对句法结构的分析,加入句法特征。以旅游领域的实体关系获取为模型分别进行二组实验。实验表明,基于SVM关系抽取实验中,加入了句法特征的那组实验结果的F值提高了15个百分点,证明句法特征对基于SVM的实体关系获取的有效性。

关键词:实体关系;句法特征;支持向量机

中图分类号:TP391文献标识码:A

国内外对实体关系的抽取都做了相关的研究,蔡鸿博[1]采用挖掘频繁项集关联性与分析词结构信息相结合的方法来自动挖掘上位词之间的上位关系,达到了较好的层次化效果;郭剑毅[2]提出一种改进的径向基核函数融合多项式核函数及卷积树核函数。本文前期也做过基于SVM(支持向量机)的概念、属性及属性值的对应关系获取[3],但都没有考虑复杂句式的问题,句法分析在处理复杂句式时有明显的优势,因此,本文在进行关系抽取时,通过对句法结构的分析,加入句法特征。以云南旅游领域实体关系获取进行试验验证,结果表明该方法具有良好的可行性。

1 基于句法分析的實体关系抽取

特征的选择。

在使用SVM进行实体关系获取时,最核心的步骤就是构造特征向量,特征向量的构造需要选取合适的特征,特征选取不合适会直接影响到实验的结果。由于中文文本中特征具有多样性,在考虑到常用的词特征、实体类型特征等的基础上,引入一种句法特征。下面重点介绍一下句法特征。

(a)父类成分特征。父类特征主要表示在同一个句子中,两个实体在句法分析树中的结点是在哪个句法位置处显示的。本文主要考虑五个句法成分:pp,np,zj,dj,vp。从离两个实体最近的父结点开始,依次向上搜索,如果出现最近的公共句法成分为pp,np,zj,dj,vp中任一个,则其为父类特征。其中pp,np,zj,dj,vp在句法成分中分别表示动词短信、名词短语、整句、单句句型和介词短语。

(b)两个实体间的路径特征。两个实体在句法分析树中的路径,由两个实体对应的结点间的句法成分构成。例如句子“滇池位于云南省昆明市的西南。”它的句法树为[jd[np滇池/ns] [vp位于/v [sp云南省/ns昆明市/ns 的/u 西南/nl 。/wp]]],如下图所示,两实体之间的路径为np+dj-vp-sp。

(c)中心词之间以及中心词到实体之间的路径。在分析了“云南省昆明市的西南”和“滇池”这两个实体在语法分析树中充当的成分后,发现它们都和动词“位于”的关系比较密切,从句子的语义角色这方面来看,“云南省昆明市的西南”是“ 位于”的受动者,“滇池”是“位于”的施事者, 同时本文发现句子中的大部分关系都有这样的一个角色依赖关系和中心词。因此,本文在原有特征的基础上加了两个新特征:两个实体分别到中心词的句法分析路径特征和中心词特征。中心词为“位于”,实体E1到中心词的路径为:np+dj-vp,实体E2到中心词的路径为:vp-sp。

2 试验数据以及结果分析

(1)试验数据以及评价指标。

为了证明SVM在实体语义关系抽取上具有可行性和有效性,本文分别设计了两组相关的实验室,其中第一组实验是只有基础特征实体关系抽取实验;第二组是不断加入句法特征的基于SVM的实体关系抽取实验。由于本文在做实体关系抽取的实验时,缺乏相关的权威语料,本文利用网络爬虫工具从互联网上搜集了相关旅游领域的语料,主要包括酒店、景点、文化、小吃四类,文档3000余篇,其中有2000篇是作为训练语料,其余1000篇则作为测试语料。

在对实验结果的评测中,本文采用信息抽取任务中比较权威的评测标准。即用召回率(R)来反映实验结果的查全率,用准确率(P)来反映实体关系抽取的精度,用F值来表示实验结果的最终性能指标,即:

(2)结果及分析。

由下表可知,每次加入的句法特征都起到了改进系统性能的作用,其中父类成分以及中心词和实体距中心词的路径两个特征对实验的结果有很大的影响,提高了实体关系抽取的性能。

3 结论

实体关系的获取是近年来文本信息处理领域的一个研究热点。本文通过对两个实体在句法结构树中的位置进行分析,获取实体之间的依存特征,在基于SVM的实体关系抽取中不断地加入这些句子结构特征,实验证明,句法分析对基于SVM的实体语义关系抽取具有显著的效果。

参考文献:

[1]蔡鸿博.基于上位词的中文实体关系图谱构建[D].哈尔滨工业大学,2014.

[2]郭剑毅,陈鹏,余正涛,等.基于多核融合的中文领域实体关系抽取[J].中文信息学报,2016,30(01):24-29.

[3]郭剑毅,李真,余正涛,等.领域本体概念实例、属性和属性值的抽取及关系预测[J].南京大学学报(自然科学版),2012,48(04):383-389.

[4]付瑞吉.开放域命名实体识别及其层次化类别获取[D].哈尔滨工业大学,2014.

作者简介:李真(1983-),女,硕士,讲师,高级工程师,研究方向为信息抽取。

猜你喜欢
支持向量机
基于支持向量回归机的电能质量评估
基于智能优化算法选择特征的网络入侵检测
数据挖掘技术在电厂经济性分析系统中的应用Q
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
管理类研究生支持向量机预测决策实验教学研究