融合关键词的中文新闻文本摘要生成*

2021-01-05 09:20徐广义

计算机工程与科学 2020年12期

宁珊，严馨，徐广义，周枫，张磊

(1.昆明理工大学信息工程与自动化学院，云南昆明 650504;2.昆明理工大学云南省人工智能重点实验室，云南昆明 650504;3.云南南天电子信息产业股份有限公司,云南昆明 650040)

1 引言

随着互联网的发展，大量的互联网信息每天快速地更新，人们每天都能接触到海量的文本信息，如新闻、博客、聊天、报告、论文、微博等，快速提取需要的信息成为当前亟待解决的问题。文本摘要是能够从大量的信息源中提炼出关键信息的方法，用户可以通过阅读文摘信息获取文本的关键信息而无需阅读整个文档，从而帮助用户节省时间。随着计算机科学的发展和自然语言处理技术的不断进步，自动摘要技术已经广泛地应用到其他相关领域，比如文本分类、信息检索、问答系统等。

现有的关于文本摘要自动生成的研究，主要是通过对文本分析，提取出其中的重要信息组成摘要信息。Hou等人[1]在名词词汇链的基础上，增加了谓语词汇链和副词词汇链，将三者结合，考虑的文档信息更全面、准确，可提取出更完善的摘要信息;Erkan等人[2]提出基于句子图形表示中的特征向量来计算句子重要性,以提取摘要信息;Vanderwende等人[3]提出用句子中所有词在文本集中出现的概率之和来表示句子重要程度，然后选择最重要的句子组成摘要；Wan等人[4]提出了一个邻近文档的概念，即在考虑本文档信息的基础上，综合考虑与其相邻近的文档信息，在邻近文档信息的补充下得到更完整的文本信息；Wei等人[5]提出一种文档图，将图模型从文档的层次分离开，不仅仅计算句子之间的相关性，同时也计算文档与文档之间的差别，强调了文档对句子的影响程度。其后，李蕾等人[6]提出了基于神经网络的中文文摘算法，通过设计语义块组匹配的方法避开了传统的语法语义分析系统所遇到的各种难题；Cao等人[7]设计出了一个联合学习的摘要生成系统，共同学习查询相关性和句子重要性，通过注意力机制增加细致阅读，生成了以查询为中心的摘要信息;Zhou等人[8]用分层编码器读取文档句子以获得句子的表示，将选择策略整合到评分模型中，评分模型根据已选择的句子，获得当前句子的相对重要性，通过逐句提取句子来构建输出摘要。以上研究方法通过文本分析、增加外部信息等方法抽取出重要的句子作为文本摘要信息，但是这些方法生成的摘要信息可读性差且存在信息冗余。

随着深度学习的发展，越来越多的深度学习模型应用到自然语言处理中，相应的自动文摘技术研究也结合了深度学习模型，从抽取式摘要演变为基于深度学习模型的生成式摘要。Nallapati等人[9]将注意力机制融合到基于循环神经网络的(RNN)的端到端(seq2seq)模型中，通过注意力机制根据解码器的需求，为每个时刻的输出向量表示赋予不同的权重值；Hu等人[10]提出带有注意力机制的RNN 编码器和解码器的序列到序列的基本模型；Chopra等人[11]利用卷积神经网络(CNN)作为编码器，然后利用长短期记忆神经网络作为解码器解码摘要信息，取得了较好的效果；Nallapati等人[12]通过对关键词建模并且捕获逐字结构的层次结构，通过将文本特征融入端到端模型的输入层，使编码器获得信息更加完善的编码表示，从而解码出质量更好的摘要信息；Gehring等人[13]将CNN和端到端模型相结合，通过CNN提取文本深层次特征，将这些特征应用到基于长短时记忆神经网络的端到端模型，生成的文档摘要达到了当时最好的效果；Liu等人[14]利用对抗学习，提出了一个文本摘要自动生成的对抗模型；Li等人[15]提出具有深度复现生成解码器的DRGD(Deep Recurrent Generative Decoder for abstractive text summarization)模型，生成摘要信息;Tan等人[16]提出一种基于图注意力机制的编码器-解码器模型，在原有的编码器-解码器模型中增加图注意力机制，提高了模型对句子显著性的适应能力，同时利用分层解码器，使得生成的摘要信息更加准确；Zhang等人[17]提出了一种基于预训练的编码器-解码器框架生成摘要，将bert预训练模型应用于摘要生成任务中；Lin等人[18]提出一种基于全局编码的文本摘要生成方法，利用自注意力机制从全局信息出发，得到了较好的摘要信息；Wang等人[19]将文本的主题信息融入到端到端模型，获得更好的摘要生成效果；Lin等人[18]通过卷积门控单元以及全局编码改进源端信息的表示，得到质量更高的摘要信息；Cao等人[20]提出使用现有的摘要作为软模板来指导seq2seq模型，生成质量更好的摘要信息；吴仁守等人[21]提出根据文档的层次结构对文档进行编码，分别在字、句和文档层面进行编码，获得了较好的文本摘要生成结果;苏放等人[22]针对评论摘要的样本特征，改进了局部注意力模型，使其对特殊部位的注意程度更大，获得了较好的评论摘要；侯丽微等人[23]提出利用主题关键词信息，将关键词与文本语义信息综合起来实现对摘要的引导生成，获得了较好的效果。李晨斌等人[24]在融入词性、词频等特征的基础上，利用原文本词来处理低频词，解决了未登录词的问题；王侃等人[27]将先验知识作为动态词向量融入原文本句向量中，以获得更好的编码效果，得到了更好的摘要生成结果。以上研究方法通过融合多信息来改进端到端模型，生成质量更好的摘要信息。但是，以上研究方法没有考虑关键词信息在文本摘要生成中的作用。特别是新闻文本的短文本信息往往隐含丰富的背景知识，造成无法对其文本语义进行准确分析，所以关键词信息作为辅助信息对新闻文本语义分析具有重要意义。同时，本文通过滑动卷积网络和自注意力机制，从不同层次对语言进行建模，获得具有层次性的局部结合全局的词特征表示，更符合语言的本质特征。

Figure 1 Overall framework图1 整体框架图

在借鉴以上研究的基础上，针对现有基于seq2seq模型在生成摘要时容易出现语义无关的摘要词，同时没有考虑关键词信息对摘要生成的影响，造成生成的摘要信息质量不佳的问题，本文提出一种融合关键词的中文新闻文本摘要生成方法。首先利用Bi-LSTM(Bi-directional Long Short-Term Memory)模型对新闻文本序列进行建模，得到新闻词的隐藏状态；再通过设置每个词的邻域长度，以每个词作为中心词进行滑动卷积，对语言序列的局部n-gram特征进行建模，获得融合邻域词特征的向量表示；其次利用关键词信息和门控单元，将文本信息过滤，进一步提取新闻文本主要信息；然后通过自注意力机制，得到每个词与文本中其他词的相关性，获得新闻词全局特征信息，最终编码得到具有层次性的局部结合全局的词特征表示；最终将得到的词编码信息输入到带有注意力机制的LSTM(Long Short-Term Memory)模型中解码生成摘要信息。

2 研究方法

本文提出的融合关键词的中文新闻文本摘要生成方法由2个模块构成：融合关键词信息的层次编码器和带有注意力机制的解码器，如图1所示。

在本文中，编码器模块的主要作用是利用关键词信息、门控单元、卷积网络、自注意力机制对文本信息进行编码，获得具有层次性的局部结合全局的词特征表示；解码器的主要功能是根据编码得到的表示特征，利用注意力机制解码得到摘要信息。

2.1 融合关键词信息的层次编码器

融合关键词信息的层次编码器，通过Bi-LSTM模型和滑动卷积网络模型得到每个词与邻近词之间的局部特征。在本文中，通过设置每个词的邻域长度，以每个词作为中心词进行卷积，得到融合邻域词特征的向量表示，丰富了词特征信息；同时利用关键词信息和门控单元，将文本信息过滤，进一步提取其主要信息；然后通过自注意力机制，计算每个词与文本中其他词的相关性，得到新闻词的全局特征信息，最终获得具有层次性的局部结合全局的词特征表示，如图2所示。

Figure 2 Hierarchical encoder fusing keyword information图2 融合关键词信息的层次编码器

对于输入的源文本信息d={x1,x2,…,xn}，其中xi表示源文本中的第i个词，n表示源文本中词的总数。首先将源文本信息依次输入到Bi-LSTM模型中，得到每个词的隐藏状态表示：

(1)

(2)

(3)

g′i=conv(W3[hi-k/2,…,hi+k/2]+b3)

(4)

其中,conv()表示卷积操作；[]表示向量的拼接操作，W3、b3是卷积网络的可训练参数。对于第1个和最后2个词，空余部分分别添加起始标志〈start〉和结束标志〈end〉。在本文中，为了将邻域内不同时间步的隐藏状态进行拼接组成词语的邻域上下文信息，在向量拼接时，对卷积的第1维度进行拼接。同时，为了对中心词邻域内隐藏状态的每一维进行卷积，以提取中心词整个邻域的特征信息，本文设置卷积核W∈Rk×1，其中k为邻域长度。得到融合词语邻域多特征信息的向量表示:

(5)

G=conv(WcA+bc)

(6)

ge=σ(We[G,g′i]+be)

(7)

gi=g′i·ge

(8)

其中,A为源文本的关键词信息表示矩阵；{Wc、bc、We、be}分别表示卷积网络和门控单元的可训练参数;conv()表示卷积操作，通过对关键词表示矩阵的卷积操作，得到源文本的关键词特征表示；σ表示sigmoid函数，通过sigmoid函数将输出向量的每一维归一化规划到[0,1]，如果相应维数元素接近0，则表示控制门将删除原表示g′i对应维数上的大部分信息；如果相应维数元素接近1，则表示控制门将保留原表示g′i对应维数上的大部分信息。本文对门控单元的输出表示设计了自注意机制。参考Transformer模型[26]，自注意力机制能够提取词的全局相关性，学习其长期依赖并且不会产生太多的计算复杂性。通过自注意力机制，得到每个词与文本中其他词的相关性，获得新闻词全局特征信息，最终编码得到具有层次性的局部结合全局的词特征表示：

(9)

P=WattV

(10)

其中,Q和V分别为门控单元生成的表示；Watt为可训练的参数矩阵；dP为P的向量维数。通过自注意力机制，最终编码得到具有层次性的局部结合全局的词特征表示R。

2.2 带有注意力的解码器

解码器部分由带有注意力机制的LSTM模型构成，如图3所示。

Figure 3 Decoder with attention mechanism图3 带有注意力机制的解码器

将编码得到的具有层次性的局部结合全局的词特征表示R输入到解码器中，本文方法由带注意力机制的LSTM模型构成解码器单元：

Pvocab=softmax(Wz[ct;st])

(11)

st=LSTM(yt-1,st-1)

(12)

(13)

(14)

(15)

其中,st表示解码器t时刻的隐藏状态；yt-1表示t-1时刻解码器生成的摘要词表示；ri表示第i个新闻词的编码向量表示；Wa、Wz表示可训练参数矩阵。通过注意力机制和解码器，将编码得到的词表示特征解码成每个时刻的摘要词，通过训练最大似然损失函数，得到最终的摘要生成信息：

(16)

3 实验

3.1 实验数据

本文使用来自搜狗实验室的全网新闻数据，数据包含了来自全网的2012年6月～7月期间国内、国际、体育、社会、娱乐等 18 个专题的新闻数据，共 1.4 GB，作为Skip-gram模型的训练集，获得词表示向量作为模型的词嵌入初始化；为了获得新闻文本的关键词信息，我们对18个专题随机分别抽取100篇新闻，采用人工标注的方式抽取每篇新闻文本的关键词信息，在本文中，对每篇新闻文本抽取5个关键词。对于标准摘要信息，我们对抽取出的新闻文本人工撰写标准摘要信息，同时针对新闻文本的特点，规定标准摘要信息的长度为25。对抽取出的1 800篇新闻文本随机分成训练集和测试集，其中训练集样本数为1 440篇新闻文本，测试集样本数为360篇新闻文本。

3.2 实验设置

本文的实验过程包括融合关键词信息的层次编码过程和带有注意力机制的解码过程。本文采用Skip-gram模型作为语义词向量训练的基本模型,窗口大小设置为 5，词向量维数设置为200；编码器Bi-LSTM的隐藏单元向量维度设置为100；上下文卷积网络的卷积核的大小设置为W∈R3×1；卷积层数设置为5层，每层卷积核个数为100,200,200,100,100；解码器LSTM隐藏单元向量维度设置为100；模型每次训练的最小样本数设置为64；使用Adam优化器，学习速率设置为0.000 1；模型迭代次数设置为1 000。

选择摘要生成的基准评价指标ROUGE评分来评估本文方法的表现。ROUGE分数用于计算生成的摘要和参考之间的重叠程度。在本文中选择ROUGE-1(R-1)，ROUGE-2(R-2)和ROUGE-L(R-L)的F1分数用作评估指标。

3.3 基线方法

为了验证本文方法的有效性，从近年的相关工作中选择了5种具有代表性和较高学术影响力的方法作为实验比较的对象，分别介绍如下：LexRank[2]将句子余弦相似度的连通矩阵用作句子图形表示的邻接矩阵，然后基于句子图形表示中的特征向量来计算句子重要性,提取摘要信息；SumBasic[3]提出用句子中的词在文本中出现的概率之和来表示句子重要程度，然后选择最重要的句子组成摘要；RNN-context[10]提出带有注意力机制的RNN 编码器和解码器的序列到序列的基本模型;DRGD[15]提出了一个具有深度复现生成解码器的摘要生成模型；CGU[18]通过卷积门控单元以及全局编码改进源端信息的表示，得到质量更高的摘要生成信息。

3.4 实验结果与分析

3.4.1 实验设计

实验1验证不同的滑动卷积窗口长度对摘要生成的影响。

实验2验证不同特征信息对摘要生成的影响。

实验3本文方法与基线方法的对比实验。

3.4.2 实验结果与分析

实验1为了验证不同的滑动卷积窗口长度，即不同上下文长度卷积对摘要生成结果的影响，选取不同的窗口长度进行对比实验。表1所示为不同上下文长度卷积对实验结果的影响。

Table 1 Comparison of experimental results of convolution lengths in different contexts表1 不同上下文卷积长度的实验结果对比

在不同的滑动卷积窗口长度的对比实验中，使用搜狗全网新闻数据集，同时考虑关键词门控单元、全局编码信息。表1的实验结果表明，不同的上下文卷积长度对摘要生成的影响不大。同时，实验结果表明，当上下文卷积长度大于或等于3时，摘要生成的各项评价标准改变不大，只是略有波动，本文考虑到上下文卷积长度的增加对实验运行时间的影响，在后面实验中均采用卷积长度为3的设置。

实验2为了验证不同特征信息对摘要生成结果的影响,选取不同的特征组合进行对比实验。表2所示为不同特征组合对实验结果的影响。

在进行特征组合对比实验时，使用搜狗全网新闻数据集，滑动卷积窗口长度设置为3。表2的实验结果表明，在端到端框架的基础上，增加上下文卷积、关键词门控单元以及全局编码信息对摘要生成质量的提高都有不同程度的影响。其中上下文卷积特征信息对R-2和R-L的影响更大，分别提高了5.3和6.2。关键词门控单元对R-1的影响更大，提高了5.9。全局编码信息在R-1、R-2和R-L方面分别提高了4.4,3.2和2.3，表明在端到端框架的基础上编码得到具有层次性的局部结合全局的词特征表示，对生成的摘要质量的提高有重要意义。

Table 2 Comparison of experimental results of different feature combinations表2 不同特征组合的实验结果对比

实验3为了验证本文方法在摘要生成中的有效性，本实验从近年的相关工作中选择了5种具有代表性和较高学术影响力的方法作为实验比较的对象，实验结果如表3所示。

Table 3 Comparison of the method of this paper and the baseline methods表3 本文方法与基线方法的对比实验结果

在搜狗全网新闻数据集上将以上基线方法复现,其中参数设置与其相关论文相同。表3中的实验结果表明,本文方法与传统的基于句子重要性排序的摘要生成方法LexRank[2]和SumBasic[3]相比，在各项评价指标上均有很大提升，表明基于深度学习的端到端框架在摘要生成方面与传统的统计机器学习的方法相比较有很大优势。与RNN-context[10]和DRGD[15]方法相比较,本文方法在各项评价指标上均有较大提升。分析原因在于本文方法综合考虑了每个词不同的上下文表示，并结合关键词信息、门控单元和全局编码，不仅考虑了每个词的局部信息，还经过关键词信息过滤重要信息，再通过全局编码得到每个词的全局信息，最后获得具有层次性的局部结合全局的词特征表示，所以得到了质量更高的摘要生成信息。与CGU相比较，前者利用的是最新的神经网络模型，与它相比较各项评价指标均有较小提高，表明本文方法达到了较高水平，也表明了本文方法在摘要自动生成任务上的可行性。

4 结束语

本文针对现有基于seq2seq模型在生成摘要时容易出现语义无关的摘要词，同时没有考虑到关键词在摘要生成中的作用，提出一种新的方法，融合关键词的中文新闻文本摘要生成方法。本文方法利用滑动卷积网络、关键词信息、门控单元以及全局编码获得具有层次性的局部结合全局的词特征表示，然后通过带注意力机制的LSTM作为解码器得到摘要生成信息。本文方法综合考虑每个词不同的上下文表示，考虑到每个词不同的冗余信息以及全局信息。实验结果表明，本文方法的效果与目前最佳方法的效果相比较有所提升。下一步将通过融合外部知识信息，在背景知识的指导下生成质量更高的摘要信息。