基于多特征融合模型的自动摘要

2020-04-24 03:07吴世鑫黄德根张云霞
计算机工程与设计 2020年3期
关键词:语义向量利用

吴世鑫,黄德根,张云霞

(大连理工大学 计算机科学与技术学院,辽宁 大连 116000)

0 引 言

现有的文本自动摘要方法主要采取两种方法,即从文本中抽取现有的若干句子作为文本摘要的抽取式方法和通过对文本进行理解后生成新的句子作为文本摘要的生成式方法[1]。近年来,虽然生成式方法取得了长足进步,但在简单、快速、可靠地产生语义和语法准确的句子等方面一定程度上不如抽取式方法[2]。多特征融合模型作为一种常用模型在抽取式摘要上表现突出,但目前基于该模型的方法很大程度上还存在特征挖掘不充分的问题。本文提出一种基于多特征融合的自动摘要系统(multi-feature extractive summarization system,MFESS)。选取能够有效指示文本核心信息的4个特征,即基于句法树的词汇特征、句子在篇章中的相对位置特征、句子长度特征和基于平滑逆向频率句嵌入的句间相似度特征。首先对各个特征进行精细化分析并赋值,然后对4个特征分配权重,将加权求和的分数作为候选摘要句的得分,最后根据得分高低选取若干句并进行后处理去除冗余信息。实验结果表明,该系统可以有效提高摘要生成质量,在评价结果上有了显著提升。

1 相关工作

目前,抽取式方法仍然是自动摘要领域的重点研究方向,基于句子包含关键词比例越高重要性越高的假设,Mahmood Yousefi-Azar使用词汇的TF-IDF表示作为输入,通过深度自编码构建单文档抽取式摘要模型[3]。Fang等充分挖掘句子与词之间重要性相互影响的高阶信息,构建了基于图模型的词-句协同排序摘要抽取方法[4]。这些抽取式方法考虑使用摘要句的词汇特征,较大程度地依赖TF-IDF、textrank等工具抽取关键词的质量,具有一定的局限性。张聪等则从摘要的语义特征出发,将语义相似度作为图模型的边,基于句子间的语义相似度构造图优化算法,实现对微博语料的观点摘要抽取[5]。Zhang Hui等将词向量扩展为短语、句子和文本的语义向量表示,然后利用句子和文本间的语义相似度结合贪心算法抽取句子生成摘要[6]。这些方法一定程度上取决于语义相似度计算质量,对语义相似度的计算提出了较高的要求。而且值得注意的是,以上方法都仅利用了摘要句的个别相关特征,虽然取得了一定效果,但是对特征的使用还较为单一。为了充分利用摘要的多个特征,程园等考虑词频、标题、句子位置、线索词和提示性短语等特征,构建特征加权函数进行摘要句抽取[7]。Liu等选取句子权重、语义相似度、句子位置和长度等特征,对句子进行打分,根据得分排序抽取摘要句[8]。余珊珊等提出改进的TextRank模型,将标题、段落、特殊句子等特征信息引入到TextRank图的构造中,提高了摘要抽取的质量[9]。虽然使用特征数量有所提升,但特征利用的质量还比较粗糙。随着机器学习方法的更新,庞超等将抽取式摘要转化为二分类问题,利用摘要句的情感特征、评论质量等特征,结合最大熵模型判断句子是否为摘要句[10]。有监督的机器学习模型均需要带分类标签的训练语料,依赖人工专门构建,且领域可扩展性不强。受神经网络和强化学习等模型的启发, Nallapati和Cheng等将抽取式摘要概念化为一个序列标记任务,其中每个标记指定是否应该将句子包含在摘要中[11,12]。Wu等利用强化学习模型解决抽取式摘要问题[13]。神经网络和强化学习模型虽然一定程度上可以提高抽取式摘要的质量,但这些模型都是数据驱动的,需要庞大的训练语料。而且复杂模型的引入直接导致计算复杂度和计算量的急速上升,对计算机的硬件提出了很高要求。

前期工作主要集中在使用更多的特征和更复杂的模型,却很少关注特征利用质量,本文提出的系统细化了特征挖掘过程,充分将特征利用数量和质量相结合。

2 MFESS自动摘要系统

这一节将从系统结构、数据预处理、多特征融合模块以及后处理4部分展开。

2.1 系统结构

本文所提系统主要包括以下3个模块:预处理模块,多特征融合模块,后处理模块。系统生成摘要的流程如图1所示。

图1 MFESS系统流程

2.2 数据预处理

数据预处理是对训练数据进行的前期处理,主要用以修正不规范内容、去除一些噪音和作数据准备等,方便后续实验的进行。本文首先对数据降噪,然后利用斯坦福分词器将降噪后的文本进行分词处理。最后,将新闻内容按照子句拆分标点进行分割,分割后的句子即为候选摘要句。

2.3 多特征融合模块

多特征融合模块是对候选摘要句进行处理,包括通过4个特征(基于句法树的词汇特征、句子在篇章中相对位置特征、句子长度特征和基于SIF句嵌入的句间相似度特征[14])计算候选摘要句得分,以及根据得分排序选出若干候选摘要句合并为所要抽取的摘要句。

2.3.1 基于句法树的词汇特征

词汇特征表示句子包含关键词的情况,核心在于抽取文本的关键词,传统方法通常是利用TF-IDF、TextRank等获取关键词。但是这些方法并没有充分利用语法信息,具有很大的局限性。

事实上,摘要句大都仅使用主要语法成分(如:主谓宾),用词精炼、包含无关修饰较少。基于以上考虑,系统使用主要语法成分作为关键词以提高摘要抽取质量。利用句法树对句子主要成分进行分析和抽取作为关键词以提高摘要抽取质量。本文使用斯坦福句法分析工具,将以完整句意结束标识符(本文采用“。?!”)分割的句子传入句法分析器,通过剪除所得句法树的修饰部分得到句子主要成分。本文仅抽取其中的名词、动词、形容词和副词作为关键词,并将抽取出的关键词放入文本关键词列表keywords。有了文本的关键词列表利用式(1)对基于句法树的词汇特征进行赋值

(1)

其中,lexi是第i个候选摘要句的词汇特征值;tfw是关键词w的词频,计算方式如式(2)所示;nw表示关键词w在候选摘要句中出现的次数

(2)

其中,mw代表关键词w在文本中出现的次数。

2.3.2 句子在篇章中相对位置特征

摘要候选句在文本中出现的位置也是一个不可忽视的特征,尤其是新闻文本。事实上,反应新闻主要内容的句子一般会在靠近文本的开头的位置出现,而如果有总结概括性的句子则通常会在文本末尾的位置出现。在以往文献中,基本都直接采用线性函数对位置特征进行赋值[8,9],这样做仅仅利用了位置特征的低阶信息却忽略了其高阶信息。

针对这一问题,本文通过对位置特征进行统计来获取位置特征的高阶信息。具体统计方法如下:首先将原文本通过句子分割得到候选摘要句,然后根据最终的评价指标(本文采取ROUGE评价工具)分别计算各个候选摘要句的得分,将得分高的若干(本文选取3个)候选摘要句在篇章中的相对位置作为摘要句特征位置。对句子相对位置进行记录并计算摘要句出现在相应位置的频率,将相对位置和频率分别作为横坐标和纵坐标。可视化后如图2所示。

图2 不同位置候选摘要句出现频率

显然,由图2可知摘要句出现在文本靠前位置的概率要大于靠后位置,且摘要句的位置呈现非线性变化特征。本文选取简单的二次函数拟合摘要句所在位置的统计结果,以便利用位置特征非线性变化的高阶信息,同时简化计算。最终选用式(3)对相对位置特征进行赋值

(3)

其中,i表示候选摘要句在篇章中的位置,sen_len表示候选摘要句的总数,θ为调整因子。

2.3.3 句子长度特征

句子长度一定程度上代表了句子的复杂程度,摘要句特点是简单精炼,过长的句子一般不合适当摘要句。同时句子长度也会反应信息量的大小,过短的句子信息量一般都很小。假设句子的长度特征权值服从正态分布,正态分布的期望为参考摘要的长度,方差近似使用样本方差,此假设的含义是越接近参考摘要的长度包含的信息量越大,相应的权值就越大。利用式(4)函数计算句子长度特征权值

(4)

其中,μ代表参考摘要平均长度,xi代表第i个候选关键句长度,σ2代表方差,方差可用式(5)进行计算

(5)

其中,n代表句子的数量。

2.3.4 基于SIF句嵌入的句间相似度特征

句子相似度可以衡量两个句子之间的语义相似程度,在文本摘要任务中,如果某个候选摘要句与其它的候选摘要句有较高的相似度,则可以表示该候选摘要句最大程度地融合了文本中其它句子的意思,这正是摘要句需要具备的特征。本文采用性能较好的SIF句嵌入方法构造句向量,利用向量夹角余弦距离衡量句子之间的语义相似度。

(1)构造句向量

首先利用数据预处理获得的分词结果训练词向量。然后利用SIF句嵌入方法,以SIF(smooth inverse frequency)为权重,对词向量进行加权求和得到句向量,再从中去除主成份得到最终的句向量。句向量生成的细节如伪代码所示:

# 输入为分词后的文本

# 输出为句向量列表

begin

1) word_vec = word2vec.Word2Vec(file, vec_dim); //训练词向量

2) for art in all_doc_list

3) art_vec_list = []

4) for sen in art

5) sen_vec = get_vec(sen,word_vec) //计算句向量

6) art_vec_list.append(sen_vec)

7) end for

8) art_vec_list = remove_pc(aart_vec_list) //去除主成分

9) all_vec_list.append(art_vec_list)

10) end for

end

(2)计算句子相似度

利用句向量的夹角余弦值来衡量两个句子的相似度,计算方式如式(6)所示

(6)

其中,veci、vecj分别表示第i和第j个候选摘要句的句向量。

(3)句间相似度特征表示

有了相似度公式,接下来将某一候选摘要句与其它所有候选摘要句的相似度之和再除以句子数量(N)作为该候选摘要句的相似度特征权值,利用式(7)进行计算

(7)

2.3.5 句子抽取

首先通过以上方法得到候选摘要句的4个特征值,然后采用加权求和的方式求取句子最终得分,计算方式如式(8)所示

sen_scorei=λ1lex_scorei+λ2loc_scorei+λ3len_scorei+λ4sim_scorei

(8)

其中,λ1、λ2、λ3、λ4分别代表各项特征的权重。通过上式计算出句子最终得分后,对得分进行排序,最后根据排序情况选出若干句子作为摘要句。

2.4 后处理

对抽取出的文本分析发现,存在一些诸如时间表达、各种括号等现象,例如:“陈女士在昆明市龙泉路云南国防技术学院(现已并入云南开放大学)的两套房子去年6月被学校‘偷拆’了。”这些信息对最终的摘要来说都是属于无效信息,本文采用基于规则的方法,在后处理阶段对此类数据进行删除。

3 实 验

实验的数据集为50 000篇NLPCC-2017单文档摘要评测语料。实验首先需要解决的问题是确定抽取多少个候选摘要句作为最终的摘要,根据所用语料中候选子句平均长度的统计结果,候选摘要句平均长度为19.74个字符,摘要句的平均长度为45个字符,故本系统先抽取3句候选摘要句,再进行适当后处理作为最终的摘要。选取的评价工具为Chopra S等[15]所用的ROUGE。实验中调整因子θ设定为0.0001;特征权重参数λ1、λ2、λ3、λ4通过贪婪算法分别确定为2、9、2、4。实验分为以下3个部分展开:抽取式摘要理论性能上限评估;实验结果;实验结果分析。

3.1 抽取式摘要理论性能上限评估

如果对每一篇测试语料文本都直接利用选定的摘要评价工具抽取最优结果,最后就能得到整个测试语料的抽取式方法最优结果。基于上述假设得到的最优结果即为抽取式摘要的理论性能上限。本文对抽取式摘要的理论性能上限的具体评估方法如下:首先参考最终评价指标(如本文采用rouge1、rouge2和rougeL),对单篇文档的每个候选摘要句计算评价指标的平均F值(mean_f)作为候选摘要句得分;然后根据得分排序选取其中得分最高的若干句进行简单合并作为单篇文档最终的摘要句;最后再对所有文档抽取出的摘要句进行评价。

本文采用rouge1、rouge2和rougeL作为评价标准,抽取3句候选摘要句作为最终的摘要句,将该实验标记为TUD(theoretical upper bound),结果如图3所示。

图3 抽取式摘要理论性能上限

3.2 实验结果

本文选取3种抽取式摘要的代表性方法作对比,分别是LEAD_3、TextRank和NLP@WUST。LEAD_3是直接抽取文本前三句摘要候选句作为摘要;TextRank是经典的图排序算法,该方法选取句子作为顶点、句子间的相似度作为边构造图模型,利用投票机制对句子进行重要性排序,最后根据重要性得分选取前三句作为摘要。NLP@WUST是在NLPCC-2017评测任务中得分最高的抽取式自动摘要方法。本文所提MFESS系统与以上方法以及理论性能上限比较实验结果见表1。

本文所提系统与NLP@WUST均是基于多特征的,为了进一步验证本文对特征的挖掘质量,采用控制变量法将两者进行对比实验,实验结果见表2。

表2中第1列表示选用的评价指标;第2列表示NLP@WUST的实验结果;第3列our_loc表示将NLP@WUST中的位置特征替换为本文所提表示方法,可以看到结果有了不小提升,说明摘要句的相对位置特征呈现非线性变化的特征,利用非线性计算公式可以有效提高摘要句的抽取效果;第4列our_simi表示将NLP@WUST中的相似度特征替换为本文所提表示方法,可以看到结果也有了提升,说明本文所提基于SIF句嵌入的句间相似度可以更好的指示摘要句;第5列both则表示将两者均进行替换,最后一列表示本文所提方法的最终结果。通过对比实验可以发现本文对摘要特征的挖掘质量要优于对比方法。

表1 对比实验结果

表2 特征挖掘质量对比

3.3 实验结果分析

从表1实验结果不难看出,经典TextRank算法在Rouge1/r、Rouge2/r和RougeL/r值是所列实验方法中最高的,也就是召回率最高,原因是TextRank算法是基于语义相似度,通过图运算会选出文本中与剩余句子语义相似度最高的句子,一般会包含较多的文本主题词,在这方面与摘要句特征契合。但仅利用语义相似度特征会造成严重的信息冗余,必然导致精确率偏低,实验结果也证实了这一点。从NLP@WUST和NEW-FEA的实验结果可以看出,综合利用多个特征可以减少召回率和精确率的单向倾斜,在F值上也较TextRank有所提高。另外,虽然本文所提系统和NLP@WUST均利用了多个特征,但是由于特征挖掘充分、利用质量高,表2的实验结果显示rouge1、rouge2和rougeL指标上的召回率、精确率和F值均高于后者。显而易见,本文提出的系统在所有实验方法中效果最优,甚至较评测中抽取式摘要效果最好的NLP@WUST方法在平均F值上提高了近两个百分点,充分验证了本文所提方法的可行性和有效性。

4 结束语

本文就单文档抽取式文本摘要问题,提出了一个基于多特征融合系统,该系统综合了句子抽取和后处理的优点,句子抽取通过合理选取4个摘要句特征、科学进行特征分析和表示,最后选取合适的特征权重无监督地进行文本摘要抽取。后处理则通过句子压缩的相关方法进行。实验结果表明,文本所提系统能够有效提取文本摘要。

该系统虽然较传统的基于特征方法和经典的图排序方法有了较大提升,但是离抽取式摘要的最佳性能还存在一定差距,并且文本所挖掘的特征主要针对新闻文本,扩展性有待提高。未来将尝试挖掘更多的特征加入该模型,扩大特征维度,例如增加篇章级语义特征等。另外,如何将抽取式方法与生成式方法相结合[16],也是未来探索的一个方向。

猜你喜欢
语义向量利用
利用min{a,b}的积分表示解决一类绝对值不等式
向量的分解
聚焦“向量与三角”创新题
利用一半进行移多补少
语言与语义
利用数的分解来思考
Roommate is necessary when far away from home
批评话语分析中态度意向的邻近化语义构建
“社会”一词的语义流动与新陈代谢
向量垂直在解析几何中的应用