基于词向量包的自动文摘方法

2017-02-27 00:03白淑霞鲍玉来张晖
现代情报 2017年2期

白淑霞 鲍玉来 张晖

〔摘要〕[目的]利用向量空间描述语义信息,研究基于词向量包的自动文摘方法;[方法]文摘是文献内容缩短的精确表达;而词向量包可以在同一个向量空间下表示词、短语、句子、段落和篇章,其空间距离用于反映语义相似度。提出一种基于词向量包的自动文摘方法,用词向量包的表示距离衡量句子与整篇文献的语义相似度,将与文献语义相似的句子抽取出来最终形成文摘;[结果]在DUC01数据集上,实验结果表明,该方法能够生成高质量的文摘,结果明显优于其它方法;[结论]实验证明该方法明显提升了自动文摘的性能。

〔关键词〕词向量;词包向量;自动文摘

DOI:10.3969/j.issn.1008-0821.2017.02.002

〔中图分类号〕G25437〔文献标识码〕A〔文章编号〕1008-0821(2017)02-0008-06

〔Abstract〕[Purposes]This work focused on automatic summarization by utilizing vector space to describe the semantics.[Methods]proposed a new representation based on word vector,which is called bag of word vector(BOWV),and employed it for automatic summarization.Words,phrases,sentences,paragraphs and documents could be represented in a same vector space by using BOWV.And the distance between representations was used to reflect the semantic similarity.For automatic summarization,the paper used the distance between BOWVs to measure the semantic similarity between sentences and document.The sentences similar with the document are extracted to form the summary.[Findings]Experimental results on DUC01 dataset showed that the proposed method could generate high-quality summary and outperforms comparison methods.[Conclusions]The experiment showed that this research improved the performance of automatic summarization significantly.

〔Key words〕vector;bag of word vector;automatic summarization

随着Internet的快速发展,电子文本数量呈现出指数增长的趋势。为了更好地利用这些信息,人们迫切需要信息压缩手段对大量的信息进行提炼、浓缩。文摘可以概括原始文档,让用户快速理解文本信息。而手工编写文摘费时费力,因此利用计算机自动生成文摘已经成为自然语言处理领域的一个重要研究课题。

文摘也称摘要,是简明、确切地记述原始文献中重要内容的短文。自动文摘就是使用计算机自动生成文摘。从生成方式来看,自动文摘可分为抽取型文摘和生成型文摘。抽取型文摘从原文中抽取句子形成文摘。生成型文摘则使用“自己的话”来概括原文。相比于抽取型文摘,生成型文摘难度更大。目前,生成型文摘尚难以付诸实践,抽取型文摘是现阶段主要的研究方向[1]。

文摘抽取方法大体可分为3类:①将其视作一个句子排序问题,主要任务是给句子打分,得分高的句子被纳入到最终的文摘之中,得分低的则被排除在外。打分的依据一般包括词频及分布特点[2]、句子在段落中的位置[3]、句子的相似性[4]等;②将其视作一个二元分类问题,将文档中的摘要句作为正例,非摘要句作为反例,使用的分类模型主要有朴素贝叶斯模型[5]、决策树[6]、支持向量机[7]、人工神经网络[8]等;③将其视作一个序列标注问题,将文档中的摘要句标注为1,非摘要句标注为0,使用的模型主要有隐马尔可夫模型[9]和条件随机场[10]。

抽取型文摘是由文档中的句子组成,因此句子的表示是一个关键问题。句子是词的序列,句子的表示又建立在词表示的基础上。常用的一种方法是建立一个与词表等长的二值向量,向量中的元素与词表中的词一一对应。要表示一个词则将向量中的对应位置设为1,其它位置均设为0。这种方法最大的问题是向量长度由词表规模决定,而词表一般规模巨大,这就带来维数灾难和數据稀疏问题。解决这一问题的主要思路是降维。最简单的方法是去除停用词,这可以减小词表规模,但效果十分有限。而浅层语义索引(Latent Semantic Index,LSI)[11]方法引入了语义概念,它将词表中的词聚合成一个个“主题”(Topic),向量的长度与主题数量相同,从而达到了大幅度降维的目的。目前被广泛采用的浅层狄理赫雷分配(Latent Dirichlet Allocation,LDA)[12]是对浅层语义索引的改进。要得到句子的表示,需要将词的表示组合起来,词包模型(Bag of Words)是最常用的方法[13],它忽略了句子中词的顺序,词的表示经过简单的代数运算(如加和、取平均值等)即得到了句子的表示。

显然,词的表示对句子的表示有重要影响。词向量(Word Vector)或词嵌入(Wordembedding)被认为可以捕捉到诸如同义词、近义词和词义对应关系(如“国王”-“男人”+“女人”=“王后”,“King”-“man”+“woman”=“Queen”[14])等语言现象。词向量已经成功地应用在语言模型[15]、自然语言理解[16]、信息检索[17]、命名实体识别[18]、关系抽取[19]、机器翻译[20]、图像理解[21]等领域。

本文将词向量与词包模型结合,提出一种文本表示方法,称为“词向量包”。词向量包是词向量的推广,可以在同一个向量空间中表示词、短语、句子、段落和篇章。在自动文摘研究中,文摘与原文具有相同的语义,本文采用词向量包之间的距离来衡量句子与原文语义相似度,并提出一种自动文摘抽取方法。在DUC01数据集上,实验表明,本文提出的方法能够生成较高质量的文摘,ROUGE-N指标明显高于现有方法。

1语义表示方法

11词向量:词的语义表示

词向量是一种用向量表示词的方法,向量中的每一维都在实数范围内取值。词向量最早在文献[15]中被提出。词向量的总体思想是:完成一个自然语言处理任务,将任务目标定义为词向量V(x)的函数,其中x代表一个词。为了实现任务目标就需要优化V(x),优化得到的V(x)就是词向量。在文献[15]中定义的任务是生成语言模型,采用的学习器是人工神经网络。词向量的研究发展迅速,主要关注于学习任务和学习器的改变。如文献[16]提出要同时完成多个自然语言处理任务,包括学习语言模型、词性标注和命名实体识别等;如文献[22]提出使用递归神经网络(Recursive Neural Network,RNN)作为学习器等。

词向量方法可以实现词的聚类,语义相近的词在其表示空间中也相互接近,这样就可以捕捉到诸如同义词、近义词关系。图1给出了一个词向量表示的示例,图中语义相关的词(关于运动的词)聚集在一起。

此外,词向量还可以捕捉到词与词之间的对应关系,如图2显示,妹妹(sister)和哥哥(brother)的关系,就像是姑姑(aunt)和叔叔(uncle)的关系一样。这种关系也可以表示成一个代数关系:“姑姑”-“妹妹”+“哥哥”=“叔叔”(“aunt”-“sister”+“brother”=“uncle”)。词向量的这些特点反映了自然语言中的语义特征。

12词向量包:句子、篇章的语义表示

我们将词向量与词包模型结合起来,将句子或文档中所有的词向量进行合并,从而形成句子或文档的语义表示,我们称之为词向量包(Bag of Word Vector)。

定义:若S=w1,w2,…,wN是一个句子或文档,wi是其中的词,N是词的总数。则其词向量包的表示V(S)为:

V(S)=1N∑Ni=1V(wi)(1)图2词向量表示体现词的对应关系

显然,当词包里只有一个词时,词向量包就是词向量。

词向量包有语义聚类效果,它能够将语义相近的句子聚集在一起,而使语义不同的句子相互远离。图3给出一个例子,我们任意选取了20篇文档,将其中的每一个句子用词向量包表示,并使用文献[28]中的方法对其进行可视化。图3上的每一个点对应一个句子,来自相同文档的句子用同种形状标记。可以看出,同篇文档中的句子聚在一起。一般而言,同一篇文档中的句子都围绕相同的话题,有较接近的语义,因此词向量包能够较好地反映语义。(来自相同文档的句子用同种颜色标记)图3词向量包的语义表示效果

此外,因为词向量包是词向量代数运算的结果,词向量中“国王”-“男人”+“女人”=“王后”这样的代数关系在词向量包中也得以保持。词向量包继承了词向量的语义表示特性,是一种语义表示。我们利用词向量包表示之间的距离反映语义相似性。

2基于语义表示的自动文摘抽取方法

文摘是对原文主要内容的摘述,是原文的一个简短版本,文摘的语义与原文一致。因此可以通过比较文摘与原文之间的语义相似性来评价文摘质量的优劣,语义越接近则文摘质量越好。我们可以将其视为一个优化问题:

argmaxASemanticSim(A,D)-αAD(2)

其中,A表示文摘,D表示原始文档,A、D分别表示文摘和原文中句子或词的个数,α是可调节参数。SemanticSim(a,d)是两者的语义相似度,本文利用词向量包之间的距离反映语义相似性,即:

SemanticSim(A,D)=-V(A)-V(D)2(3)

其中,V(X)是X在词向量包空间中的表示,SemanticSim(A,D)为A和D在该空间中的欧氏距离。如果限定文摘的篇幅,则(2)式的后一项可被省略,变为:

argminAV(A)-V(D)2(4)

对于抽取型文摘,文摘中的句子来源于原始文档:原始文档D定义为一个句子序列s1,s2,…,sN,文摘A定义为D的子序列sj1,sj2,…,sjK,其中ji∈{1,2,…,N},K

为求解这个组合优化问题,根据句子排序思路,我们采用贪心方法求得一个近似解。首先,将整篇文档和每一个句子投射到词向量包空间中,度量它们之间的距离,再由小到大排序,取前K个句子形成最终的文摘。具体来说,我们首先去除文本中的标点和停用词,再将每个词转换为其对应的词向量表示,不在词表中的词忽略不计。然后,根据公式(1)计算整篇文档和每一个句子的词向量包表示,并计算它们之间的欧氏距离,将其从小到大排序。最后根据长度要求,取前K个句子,按照其在原文中出现的顺序连接起来,形成最终的文摘。

3实验与分析

这一节介绍本文实验的过程,实验使用开放评测数据集,并将文献[23]报告的结果作为基限,采用的实验设计和评估方法都与之严格一致。

31数据集

为了评估本文提出方法的性能,我们使用DUC01作为测试数据集。DUC01由文档理解会议(Document Understanding Conference,http:∥duc.nist.gov)提供,是使用較为广泛的开放评测数据集。它包含有147篇新闻文本,文中每一个句子是否被当作摘要句都由人工标注。该数据集是专为测试单文档抽取式文摘而设计的,并且做了很好的预处理,基限系统也采用了该数据集进行系统性能评价。

32評价标准

为了评价系统性能,本文使用两种指标。一种是准确率(Precision)、召回率(Recall)和F1值(F1-measure),这一指标广泛使用在信息检索领域中。我们将人工抽取的文摘作为参考,记做Aref。自动抽取得到的文摘称为候选,记做Acand。则准确率(P)、召回率(R)和F1值(F1)按照公式(5)计算[9]。

P=Aref∩AcandAcand,R=Aref∩AcandAref,

F1=2PRP+R(5)

简便起见,我们只报告F1值。我们使用ROUGE工具包[24]作为另一个评价指标,ROUGE工具包是文档理解会议所采用的摘要质量评估方法。ROUGE-N通过计算N元语法单元(N-gram)的召回率来评估摘要性能。文献[24]指出,当N=1时,即ROUGE-1指标与人类专家给出的评价结果相当一致。ROUGE-N按照公式(6)计算。

ROUGEN=∑s∈Aref∑gramN∈sCountmatch(gramN)∑s∈Aref∑gramN∈sCount(gramN)(6)

其中,s表示Aref中的句子,N表示N元语法单元的长度,Countmatc(gramN)表示gramN在候选摘要和参考摘要中都出现的次数。Count(gramN)表示gramN只在参考摘要中都出现的次数。为了与文献[23]统一,我们报告ROUGE-1和ROUGE-2两个指标。

33词向量

本文提出的方法基于词向量表示,词向量表示用文献[25]提出的方法,并使用维基百科60亿词的语料进行训练,分别得到50、100、200、300维的词向量表示,记做W506B、W1006B、W2006B和W3006B。此外,我们还使用Common Crawl网页数据库(http:∥commoncrawl.org/420亿词和8 400亿词的语料训练得到300维的词向量表示,分别记做W3006B和W300840B。这些词向量表示的训练结果可以在http:∥www-nlp.stanford.edu/projects/glove/处下载得到。

34实验对比

我们将提出的方法与现有的5种方法相比较,分别是:①基于语义相似性的方法[23],记做Sim;②基于神经网络的方法[26],记做Net;③基于条件随机场的方法[6],记做CRF;④基于支持向量机的方法[9],记做SVM;⑤基于数据流形排序的方法[27],记做Rank。表1列出了性能比较的结果,可以看出本文提出方法的F1值和其它系统表现相当,仅比Sim方法略低。F1值是句子一级的指标,它的测评粒度偏大,忽略了文摘句和非文摘句的语义相似度。因此,研究者通常选用ROUGE-N作为评价指标,它的测评粒度是N元语法单元,粒度小于F1值,能够更准确评价自动抽取文摘的质量。从表1可以看出,本文提出的方法在ROUGE-1、ROUGE-2上的表现远优于其它方法。我们分析原因,在句一级准确率和召回率相当的情况下,与其它方法相比,用本文方法挑选出来的未被标注为文摘的句子与人工文摘更为接近。

35分析与讨论

我们认为摘要中的句子应该与原始文档有相同的语义,反映在语义表示上它们的距离应该较小。图4给出了几个例子,图中实线是文档中所有句子和文档本身在词向量包空间中的距离,我们圈出了人工标注的摘要句。可以看出,摘要句与文档的距离相对较小。

(其中圈出了人工确定的摘要句)图4文档中的句子和文档的语义表示距离

4总结与展望

本文将词向量与词包模型结合起来,提出一种称为词向量包的表示方法,词向量包可以用于表示词、短语、句子、段落和篇章。我们将词向量包应用到自动文摘研究中,用词向量包的表示距离衡量句子与整篇文档的语义相似度,将与文档语义最相似的句子抽取出来形成文摘。实验证明本文提出的方法具有很好的性能。

本文提出的词向量包延续了词包模型的思路,忽略了词的顺序关系。而自然语言中词的顺序十分重要,忽略了这种关系会带来较大的语义损失,如何将词的顺序关系纳入到语义建模中是一个需要解决的问题。文献[29]提出段落向量表示,考虑了小窗口内的顺序关系,文献[30]提出用递归神经网络为词的顺序建模。未来可以将这方面的研究成果纳入到我们的框架中,更好的刻画句子和文档的语义,从而产生更好的文摘输出。

参考文献

[1]曹洋,成颖,裴雷.基于机器学习的自动文摘研究综述[J].图书情报工作,2014,58(18):122-130.

[2]Luhn H P.The automatic creation of literature abstracts[J].IBM Journal of research and development,1958,2(2):159-165.

[3]Baxendale P B.Machine-made index for technical literature:an experiment[J].IBM Journal of Research and De-velopment,1958,2(4):354-361.

[4]Gong Y,Liu X.Generic text summarization using relevance measure and latent semantic analysis[C]∥Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval.ACM,2001:19-25.

[5]Conroy J M,Oleary D P.Text summarization via hidden Markov models[C]∥Proceedings of the 24th annual in-ternational ACM SIGIR conference on Research and de-velopment in information retrieval.ACM,2001:406-407.

[6]Shen D,Sun J T,Li H,et al.Document summarization using conditional random fields[C]∥IJCAI,2007,(7):2862-2867.

[7]Kupiec J,Pedersen J,Chen F.A trainable document summarizer[C]∥Proceedings of the 18th annual international ACM SIGIR conference on Research and development in information retrieval.ACM,1995:68-73.

[8]Lin C Y.Training a selection function for extrac-tion[C]∥Proceedings of the eighth international conference on Information and knowledge management.ACM,1999:55-62.

[9]Yeh J Y,Ke H R,Yang W P,et al.Text summarization using a trainable summarizer and latent semantic analysis[J].Information Processing & Management,2005,41(1):75-95.

[10]Kaikhah K.Automatic text summarization with neural networks[C]∥Intelligent Systems,2004.Proceedings.2004 2nd International IEEE Conference,2004:40-44.

[11]WBFrakes,RBaeza-Yates.Information retrieval data structures and algorithms[M].Prentice Hall PTR,New Jersey,1992.

[12]Deerwester S C,Dumais S T,Landauer T K,et al.Indexing by latent semantic analysis[J].JAsIs,1990,41(6):391-407.

[13]Blei D M,Ng A Y,Jordan M I.Latent Dirichletallocation[J].the Journal of machine Learning research,2003,(3):993-1022.

[14]Mikolov T,Yih W,Zweig G.Linguistic regularities in continuous space word representations[C]∥HLT-NAACL,2013:746-751.

[15]Bengio Y,Ducharme R,Vincent P,et al.A neural proba-bilistic language model[J].The Journal of Machine Learning Research,2003,(3):1137-1155.

[16]Collobert R,Weston J.A unified architecture for natural language processing:Deep neural networks with multitask learning[C]∥Proceedings of the 25th international conference on Machine learning.ACM,2008:160-167.

[17]Salakhutdinov R,Hinton G.Semantic hashing[J].Inter-national Journal of Approximate Reasoning,2009,50(7):969-978.

[18]Turian J,Ratinov L,Bengio Y.Word representations:a simple and general method for semi-supervised learn-ing[C]∥Proceedings of the 48th annual meeting of the association for computational linguistics.Association for Computational Linguistics,2010:384-394.

[19]Socher R,Chen D,Manning C D,et al.Reasoning with neural tensor networks for knowledge base comple-tion[C]∥Advances in Neural Information Processing Sys-tems,2013:926-934.

[20]Zou W Y,Socher R,Cer D M,et al.Bilingual word em-beddings for phrase-based machine translation[C]∥EMNLP,2013:1393-1398.

[21]Frome A,Corrado G S,Shlens J,et al.Devise:A deep visual-semantic embedding model[C]∥Advances in Neural Information Processing Systems,2013:2121-2129.

[22]Luong M T,Socher R,Manning C D.Better word repre-sentations with recursive neural networks for morphology[J].CoNLL-2013,2013,104.

[23]Aliguliyev R M.A new sentence similarity measure and sentence based extractive technique for automatic text summarization[J].Expert Systems with Applications,2009,36(4):7764-7772.

[24]Lin C Y,Hovy E.Automatic evaluation of summaries using n-gram co-occurrence statistics[C]∥Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1.Association for Com-putational Linguistics,2003:71-78.

[25]Pennington J,Socher R,Manning C D.Glove:Global vectors for word representation[J].Proceedings of the Empiricial Methods in Natural Language Processing(EMNLP 2014),2014,12.

[26]Svore K M,Vanderwende L,Burges C J C.Enhancing single-document summarization by combining ranknet and third-party Sources[C]∥EMNLP-CoNLL,2007:448-457.

[27]Wan X.A novel document similarity measure based on earth movers distance[J].Information Sciences,2007,177(18):3718-3730.

[28]van der Maaten L,Hinton G.Visualizing data using t-SNE[J].Journal of Machine Learning Research,2008,(9):2579-2605.

[29]Le Q,Mikolov T.Distributed representations of sentences and documents[C]∥Proceedings of the 31st International Conference on Machine Learning(ICML-14),2014:1188-1196.

[30]Kalchbrenner N,Blunsom P.Recurrent continuous trans-lation models[C]∥EMNLP,2013:1700-1709.

(本文責任编辑:郭沫含)