多文档自动文摘综述

2016-07-13 07:58刘柏清
大科技 2016年36期
关键词:文摘文档自动

刘柏清

(河南省平顶山市鲁山县第一高级中学 467300)

多文档自动文摘综述

刘柏清

(河南省平顶山市鲁山县第一高级中学 467300)

随着社会发展进入信息时代,海量信息的到来,自动文摘技术的诞生和发展为人们进行文献处理提供了便利。本文主要介绍了自动文摘技术的诞生背景及多文档自动文摘的定义,并就目前主要的多文档自动文摘技术方法做了介绍和简要分析。

多文档自动文摘;自然语言处理;情报科学

当今信息时代的一大特点是信息爆炸,信息数量呈现指数级增长趋势,但是噪声和冗余信息也相应的增多。为了获取有用的信息,对信息的进一步加工处理就尤为重要。如何让用户直接获取同一主题下经过提炼和浓缩并能全面概括该主题下各方面主要信息的简要信息,多文档摘要成为解决这一困境的方法之一。

1 多文档文摘的定义

多文档集合是同一主题下不同文档的集合,各文档包含的信息虽然与主题相关但并不相同,其中也具有较多的重复信息和冗余信息。以多文档集合为处理对象的自动文摘技术称为多文档自动文摘。其目的是将多文档集合中重复和冗余的信息进行合理的凝练、整合和抽取,生成一篇能充分表达该主题的文摘,以方便用户快速准确地获取该文档集合表达的主题信息。

相比较而言,多文档集合的冗余信息更多,句子的时序和逻辑矛盾甚至是相反信息的处理更为复杂。但与单文档自动文摘相似,多文档自动文摘也需要对文本进行分析和理解。因此,可以利用单文档自动文摘的方法对多文档集合进行初步的聚类处理,然后将多文档集合作为一个文本根据文本的形式特征,如词频、标题、位置、句法结构、提示词、指示性短语等,抽取文本单元。换句话说,多文档摘要技术可以看作是单文档文摘技术的扩展。

2 研究现状

多文档自动文摘方法的研究最早在20世纪80年代开始,国内外相关的研究不胜枚举,但基本沿袭了单文档自动文摘,经历几十年的研究,按照摘要的生成方式大致可以分为以下两类:

(1)抽取式,即摘要中的内容都是从原文中直接抽取现成的句子。此类方式下常用的方法有两种:基于统计的自动文摘和基于结构的自动文摘。①基于统计的自动文摘此方法也称自动摘录,其核心思想是以处理线性序列的方式处理文本,即将文本视为句子的线性序列,将句子视为词的线性序列。在处理过程中,首先对输入到计算机的原始文本进行词频统计,并根据词频赋予词一定的权重。然后根据句子中包含的词的情况计算句子的权重。在确定句子的权重之后,对所有句子按照权值高低降序排列,选取权值较高的若干句子作为文摘句输出,形成文摘;②基于结构的自动文摘又称基于多文档集合特征的自动文摘方法,即将多文档集合作为一个整体进行研究,将其视为多文档集合中句子的关联网络,按照句义进行聚类,然后从中抽取文摘句。

(2)生成式,即摘要中的内容并非全部来自原文,也包括原文中没有出现的词或句子。生成式的方法对自然语言处理技术要求非常高,此类方式下,目前常用的方法有两种:基于理解的自动文摘和基于信息抽取的自动文摘。①基于理解的自动文摘是以自然语言处理技术为核心,借助一定的分析工具和方法,在对文本进行语法结构分析的同时,结合背景领域知识,通过一定的推理判断,得到文摘句的语义描述,根据语义描述自动生成摘要。其中,最重要的环节包括语法分析、语义分析和句法分析,这种方法采用了复杂的自然语言理解和生成技术,对文献意义把握更准确,因此生成的摘要更接近人工处理的摘要水平,质量较好,具有简洁精练、全面准确、可读性强等优点。但该方法需要对文章进行全面的分析,生成详尽的语义表达,还需要事先表达和组织各种背景、领域知识,这对于大规模真实文本处理来说难度巨大。因此,目前这种方法的应用领域十分局限;②基于信息抽取的自动文摘是将自然语言处理技术与信息抽取技术结合,并基于人工制定的模板而实现的,相比于单纯基于自然语言理解的自动文摘技术,基于信息抽取的自动文摘方法只需要对部分文本进行有限深度的分析,具有较高的效率和更强的灵活性。但是人工制定模板需要较大的人力,并且不易更新,仅适用于特定领域,不宜推广,且利用模板生成的文摘语言千篇一律,十分呆板。目前该方法的发展方向是融合单文档自动文摘技术,研究自动获取模板的方法,但是这要求计算机进行较多的语料学习,且可以预见到该方法最终生成的文摘会存在较多的语法问题。

3 总结

从纷繁复杂的信息中提炼出有用的信息是一项极富挑战性的工作。尽管单文档文摘的研究已经进行了几十年,但多文档自动文摘技术目前还是一个相对较新的研究领域,对于该技术的研究,无论是对于文献处理,还是搜索技术的发展,都具有重要意义。目前,学界主要的研究精力集中于对已有方法的细化和改进。但是也应看到,“自动文摘的研究是跨学科领域的,它的诞生源于情报科学发展的需要,它的发展受到语言学、人工智能、数学和逻辑学的影响。”多文档自动文摘脱胎于自动文摘技术,因此与各学科的发展进步密不可分。而多文档自动文摘技术的进步也将反哺各学科的发展。

[1]马慧芳,祁云平,杨小东.一种基于文本关系图的多文档自动摘要技术[J].情报杂志,2007,26(3):67~69.

[2]刘德喜,何炎祥,姬东鸿,等.一种基于演化算法进行句子抽取的多文档自动摘要系统 SBGA[J].中文信息学报,2006,20(6):48~55.

[3]程娟.中文文档自动摘要技术[D].山东大学,2006.

[4]秦 兵,刘 挺,李 生.多文档自动文摘综述[J].中文信息学报,2005,19(6):15~22,58.

[5]曹 洋,成 颖,裴 雷.基于机器学习的自动文摘研究综述[J].图书情报工作,2014,58(18):122~130.

TP391.1

A

1004-7344(2016)36-0268-01

2016-11-20

刘柏清(1999-),汉族,鲁山一高高三学生,学习成绩优异,爱好钻研理工科类课题。

猜你喜欢
文摘文档自动
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
IAPA文摘
自动捕盗机
让小鸭子自动转身
自动摇摆的“跷跷板”
文摘
基于RI码计算的Word复制文档鉴别
关于自动驾驶
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat