实体一属性抽取简介

2019-01-08 03:16刘媛媛

电脑知识与技术 2019年33期

关键词：模式匹配机器学习

刘媛媛

摘要：本文介绍了实体一属性抽取的相关概念，分析了规则抽取的方法，模式匹配的抽取方法，基于关系分类的抽取方法和基于聚类的抽取方法，最后对几种抽取方法进行了比较，为后续数据结构化的研究奠定基础。

关键词：属性抽取;模式匹配;机器学习

中图分类号：TP311 文献标识码：A

文章编号：1009-3044（2019）33-0234-01

1信息抽取简介

随着云计算、大数据、移动互联网等信息技术的飞速发展，互联网上保存了海量的数据。信息抽取就是对海量的，非结构化或半结构化的数据进行处理，从而根据一定的目的结构化的抽取出相关的实体和属性。所谓实体也就是事物或者对象，属性就是事物或者对象的特征或者特性。通过实体一属性抽取从网络中海量的非结构化信息中获得事物对象及其特征，从而利用和理解这些非结构化信息。目前实体一属性抽取已经成为理论研究者和产业实践者关注的热点领域。

2基于规则匹配的实体一属性抽取方法

基于模式匹配的抽取方法也叫基于规则的抽取方法，顾名思义就是基于事先构造一系列规则来抽取文本中实体一属性的方法。这种方法首先定义相关抽取规则，如，在网页中定义相关的规范的tag标记，或人工编写正则表达式，然后将这些规则与文本进行匹配，通过匹配的结果得到抽取的实体及其属性。基于规则的抽取方法接近于人的思维方式，其对知识的表示方法看起来相对直观。基于规则的抽取系统一般由两部分组成，一个是一系列关于抽取规则的集合，第二是一系列定义匹配策略的集合。基于规则的抽取系统运行速度比较快，维护和优化相对比较容易。

3基于模式匹配的实体一属性抽取方法

基于模式匹配的方法根据其定义模式的方法可以分成三种：基于手工定义的抽取、基于有监督学习的抽取和基于迭代的抽取。基于手工定义方式就是具有通过相关领域专业知识的人员进行人工的定义一系列模式。基于学习的方式就是，首先收集相关语料组成大规模的语料库，然后通过人工标准的非结构化例子训练自动获得模式，构建具有大量实体一属性的知识库。基于迭代的方法是首先定義模板元组，让后对这些模板元组进行迭代，自动产生模式，从而进行对实体一属性的抽取。

4基于关系分类的实体一属性抽取方法

基于关系分类的方法就是将属性抽取问题转化成关系分类问题。首先将抽取的两个实体视为一个样本，实体直接的关系视为标签，然后通过手工的方式构建样本特征，最后依据这些特征对样本进行分类，分类的结果便是实体之间的关系，也就是属性。基于关系的抽取方法通常借助机器学习的方法来进行，如支持向量机（SVM）、神经网络等，通过对大量语料库的训练来学习分类模型，从而对实体一属性进行抽取。基于关系分类的方法按照其语料库的建设方式可以分为远程监督的方法和全监督的方法。基于远程监督的方法基本由机器构建语料库，而基于全监督的方法则由人工构建语料库。由于由人工来构建语料库耗费大量的时间和精力，因此通常目前更热衷于使用远程监督的方法构建语料库。

5基于聚类的实体一属性抽取方法

基于聚类的方法就是将属性抽取问题转化成聚类问题。首先构建实体特性向量，然后基于相关方法对这些特征特征向量进行聚类，最后得到的聚类就是实体的属性。例如对于类别属性可以采用弱监督的聚类方法，对应产品属性可以采用无监督的聚类方法等。不过聚类的方法需要首先构建聚类的中心点，所以用来构建初始化中心点的种子实体一属性的选择好坏直接影响到抽取的结果。

6各个方法的比较

从当前的应用广泛程度来看，基于规则的方法是早期使用的方式，由于其理解简单，易于操作，准确率高，一直到现在都比较流行。但是这种方法需要专业的人员来定义规则，随着技术的发展慢慢正被其他方法取代。基于模式匹配的抽取方法和基于关系分类的抽取方法是当前应用比较广泛的方法。基于模式匹配的方法可以看作基于规则的升级方法，既可以人工构建模式，也可以借助机器构建模式，所以既拥有准确率高的有点，也在一定程度上克服了召回率低的缺点。基于关系分类和聚类的方法不需要专业人员或太多的背景知识，但是需要构建用来训练的语料库支持，在大数据时代，这种方式能充分利用数据，减少人工，保证准确率和召回率，是未来实体一属性抽取的发展方向。

【通联编辑：梁书】