基于TextRank算法的联合打分文本摘要生成*

2021-03-21 04:33朱玉佳祝永志董兆安
通信技术 2021年2期
关键词:词频余弦权值

朱玉佳,祝永志,董兆安

(曲阜师范大学,山东 日照 276826)

0 引言

进入大数据时代,人们获取信息的方式日趋多样化,接收到的信息也呈指数级爆炸式增长,获取海量信息中的有效信息变得更加艰难。面对信息过载,为了管理海量的信息,人们迫切需要有效的方法和工具[1]。自动文本摘要减少了文档的冗余文本,同时能够保留文档中的核心信息,极大提高了人工阅读的效率。

一般来说,按照采用的技术方法分类,可将文本摘要方法分为两种类型:抽取式文本摘要[2]和生成式文本摘要[3]。抽取式文本摘要是从源文本中抽取出最为重要的top-N个句子作为摘要,而生成式文本摘要是根据源文本表达的思想进行总结,更类似于人们的思维方式,因此比抽取式文本摘要更为有效。但是,生成式文本摘要需要更为复杂的自然语言生成技术来重写句子,还需要更高规模的数据集训练,相比生成式文本摘要,抽取式文本摘要则不需重写句子,对训练集规模也无严格要求[4]。目前,抽取式文本摘要仍是自动文本摘要的主流。

抽取式文本摘要包含三个独立的任务:文档的中间表示、基于不同参数的句子评分、摘要句子的选择策略[5]。其中文档的中间表示任务尤为重要,而随着人工智能的发展,除了词频表示[6]之外,文本向量化也受到了广泛应用[7-8]。TextRank算法[9]是基于文本的图模型排序算法,但是此算法并没有考虑到词语表示、语义等信息,本文采用抽取式文本摘要中改进的Textrank算法,并针对算法中的句子表示、句子评分和句子选择的不足之处做了改进。

1 TextRank算法

TextRank是由网页排序算法PageRank启发产生的一种图排序算法。在PageRank算法中,重要的网页会与其他网页链接。同样,在TextRank算法中,假设把句子当作网页,重要的句子会与文本中其他的句子链接。

TextRank在抽取式文本摘要中有以下步骤:

(1)给定文档D,为了识别句子,首先要切分句子。将输入文档D转换成句子{S1,S2,…,Sn},即D={S1,S2,…,Sn}。以句子为节点构建图G(V,E),其中,V是句子的集合,E是边的集合。

(2)求句子间的相似度,计算好的句子相似度作为句子间构成图的边的权值。根据式(1)可得:

(3)根据公式(2)迭代得到句子得分。公式如下:

式中,d为阻尼系数,值在0到1之间,通常取值为0.85。in(vi)表示所有指向顶点vi的集合,out(vj)表示从vj出发指向其他顶点的集合,wji表示两个顶点之间的边的权值,S(vi)表示顶点分数。

(4)对所有句子分数进行降序排列,选出前top-N个句子作为摘要。

TextRank作为提取摘要的一种算法,因其方便简洁,得到了广泛使用,但是这种算法也有很大不足,传统的计算句子间相似度的方法只是对词进行了简单的统计,然后建立句子之间的联系,而这种方法忽略了词语之间的语义、词性等重要因素。

2 基于Textrank的联合打分算法

为提高摘要提取的准确度,本文提出了一种基于TextRank的联合打分算法,并与MMR相融合提取摘要模型。与传统的TextRank相比,在文档的中间表示上,采用Word2Vec对文本进行向量表示。在句子评分上,采用改进的词频逆文档频率(Term Frequency-Inverse Document Frequency,TFIDF),即词频逆句频余弦相似度(Term Frequency-Inverse Sentence Frequency,TF-ISF)和词向量余弦相似度综合评分。在摘要句子的选择上,采用MMR算法去除冗余,得到多样性的摘要。

2.1 基于TF-IDF改进的TF-ISF的句子相似度得分

为了定义句子间的相似性,将给定文档D的每个句子表示为单词向量,接下来,构建输入文档的完备加权图G=(V,E,W),其中V是顶点的集合,每个顶点对应由单词向量表示的句子。E是每对顶点之间的边的集合。W是分配给图G的边的权值集合。边(u,v)∈E,相关的权值W按以下逻辑分配:

假设给定文档D,是对应顶点u的句子,是对应顶点v的句子,这里考虑了句子中每个单词的词频(tf)和逆句频(isf)。逆句频由式(3)计算如下:

式中,||{S∈D∶w∈S}||是单词w出现的句子数,||D||是输入文档中出现的句子数。

现在,衡量每对句子间的相似度有词频逆句频余弦相似度为:

传统的余弦相似度只注意词在文本文档中的频率,而词频逆句频余弦相似度考虑到不同层次相应的单词在句子中的重要性,还考虑到不同文档中的句子的长度。

2.2 基于Word2Vec的句子相似度得分

Word2Vec[10-11]主要包含两个模型:跳字模型(skip-gram)和连续词袋模型(Continuous Bag of Words,CBOW)。

TF-ISF虽然考虑了词频和句子长度,但是忽略了关键的语义信息,Word2Vec词向量可以较好地表达不同词之间的相似和类比关系。它可以将所有的词向量化,这样词与词之间就可以定量地度量,挖掘词与词之间的联系。从这一点上说,它可以很好地弥补TF-ISF的缺点。

2.3 句子综合得分

通过两种方式求得句子相似度之后,采用取平均值的方式即可求得最终得分。通过这种方法,可以得到每个句子的最终得分。通过降序排列抽取前top-N个句子,即为摘要。

这样做虽然能够得到重要性比较高的句子,但是这些句子中可能会有冗余,我们理想的结果不仅是让摘要重要,而且还要呈现出多样性和全面性。因此,可以在摘要选择策略中加入MMR算法去除冗余[12-13]。

3 MMR算法

MMR(Maximal Marginal Relevance)算法又叫最大边界相关算法,此算法在设计之初是用来计算文本与被搜索文档之间的相似度。本文模型中,将它用作去除冗余。首先,从候选摘要集中选择一个最重要的句子,然后每选取一个候选摘要句,都计算它的MMR分数,其MMR分数计算为:

式中,λ是一个可调节参数,当λ偏高时,注重的是摘要的准确性描述;当λ偏低时,注重的是摘要的全面性描述。

textrank只取全文的重要句子进行排序形成摘要,忽略了其多样性。加入MMR算法之后则均衡考虑了文章摘要的重要性和多样性。

4 实验结果

ROUGE作为一种自动摘要评价方法,现已被广泛用于摘要评测任务中。本文使用了从BBC新闻源生成的新闻文章,运用ROUGE-1进行评分,确定了整个文档的10%和15%作为摘要的大小,评价结果如表1所示。

表1 ROUGE-1算法准确率、召回率及F值统计

实验结果表明,本文算法在准确率和召回率上都有所提升,当抽取10%作为摘要时,TF-IDF算法准确率是0.635 00,本文算法是0.716 42,TF-IDF算法召回率是0.642 11,本文算法召回率是1.000 01,TF-IDF算法的F-score是0.700 05,本文F-score是0.854 17,准确率、召回率及F-score都有所提升。当抽取15%作为摘要时,TF-IDF算法的准确率是0.721 32,本文算法是0.786 57,TF-IDF算法的召回率是0.723 85,本文算法是0.688 27,TF-IDF算法的F-score是0.728 95,本文算法是0.735 29,准确率和F-score都有所提升,从而验证了该方法的有效性。

猜你喜欢
词频余弦权值
一种融合时间权值和用户行为序列的电影推荐模型
旋转变压器接线故障分析法的研究
基于词频比的改进Jaccard系数文本相似度计算
基于5G MR实现Massive MIMO权值智能寻优的技术方案研究
词汇习得中的词频效应研究
强规划的最小期望权值求解算法∗
程序属性的检测与程序属性的分类
两个含余弦函数的三角母不等式及其推论
实施正、余弦函数代换破解一类代数问题
分数阶余弦变换的卷积定理