基于文本类别的文本自动摘要模型

2018-02-02 13:12谢鸣元
电脑知识与技术 2018年1期
关键词:文本分类神经网络

谢鸣元

摘要:目前大部分基于序列到序列生成模型的生成式摘要研究未充分考虑文本类别对于最终摘要结果的影响。然而往往同一类别的文本的摘要具有类似的格式与措辞。因此该文提出基于文本类别的文本自动摘要模型,先利用卷积神经网络对文本进行分类,然后在传统的序列到序列模型的基础上结合文本的类别特征进行摘要生成。实验结果表明,基于文本类别的文本自动摘要模型相对于传统的文本自动摘要模型取得了更好的ROUGE值。

关键词: seq2seq;神经网络;文本自动摘要;文本分类

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2018)01-0206-03

1 概述

随着大数据时代的来临,如何对大量信息进行压缩表示,解决信息过载问题已成为一个迫在眉睫的需求,而文本自动摘要无疑是一个高效的解决方法。文本自动摘要旨在捕获原文的中心思想,生成覆盖原文重要信息但又尽可能简短的自然语言表示。大部分的文本自动摘要研究可以归为抽取式和生成式两类。其中抽取式为简单的从原文中抽取部分句子组合形成新的摘要;而生成式则是用自然语言加以概括精炼,相对来讲质量更高但研究难度也相对较大。如今绝大部分生成式摘要的研究基于序列到序列模型[1](sequence to sequence,以下简称seq2seq),并已经取得了一定的效果。例如:Loptrev.K[2]等人在传统的传统的seq2seq模型上引入不同的注意力机制已改善效果;Alexander[3]等人使用卷积神经网络替换编码器部分常规的循环神经网络。JiaoTao.Gu[4]用拷贝机制解决文本摘要问题中出现的未登录词现象。但是以上的研究均存在着一些不足,其中一点就是未充分利用文本本身的类别信息。例如对于新闻文本,大部分具有明确的类别标签,例如体育新闻、军事新闻或者财经新闻。同一类的新闻通常具有类似的新闻格式和措辞。例如体育类新闻的摘要通常是“某某队以几比几的比分战胜了某某队”,事故类新闻通常包含事件的时间、地点、原因等。因此在本文中,我们提出了类别相关的文本摘要模型(Topic Senstive Seq2seq,简称TS-seq2seq)。首先我们利用卷积神经网络对输入的文本进行分类,得到文本的类别;然后在编码器端利用文本类别进行编码,最终生成文本类别相关的摘要。本文选用大规模中文文本摘要数据集LCSTS[5] 作为实验语料,通过实验发现我们的模型较之传统的文本自动摘要模型取得了更好的ROUGE值。證明了方案的可行性。

2 背景

2.1 长短记忆神经网络

长短记忆神经网络[6](Long Short Term Memory,以下简称LSTM)是循环神经网络(Recurrent Neural Network,RNN)的一种特殊类型,可以很方便地学习长距离依赖信息。其神经单元由一个输入门、一个记忆门以及一个输出门所构成,我们分别使用,,表示时间步时三个门的输出向量。另外使用和分别表示神经单元的输入和输出,向量的维度设置为。那么的计算公式如下:

2.2 编码器-解码器模型

Sutskever等人在2014年提出seq2seq模型,即编码器-解码器(Encoder-Decoder)模型。用以解决对话生成,文本摘要,机器翻译等序列到序列生成问题。

seq2seq模型使用两个神经网络,通常是循环神经网络(Recurrent Neural Network,RNN)来分别构建编码器与解码器。给定输入序列,在编码器部分逐个读入词语,经过循环神经网络(RNN),最终转化成固定长度的中间语义向量;解码器部分在中间语义向量的基础上进行解码并生成目标序列。其中编码器生成第t个词的生成概率如下:

其中为softmax激活函数,为t时刻编码器的隐藏层状态,计算公式如下:

2.3 注意力机制

Bahdanau[7]在2014年提出了注意力机制,使得解码器在t时刻,能动态并线性的组合输入序列中的不同部分来构建中间语义向量:,其中表达了b编码器在第阶段的和解码器第阶段的相关性。计算公式为:

确切说,我们首先将输入词语的最后隐藏层状态通过单层MLP获得,然后通过softmax函数,得到归一化的注意力权重。因此式(6),式(7)变为:

3 基于文本类别的文本自动摘要模型

文本类别相关的文本自动摘要模型分为两部分:文本分类模型与文本摘要模型。给定文本,假设表示全部可能的类别集合。在文本分类模型中,通过基于卷积神经网络的文本分类模型得到输入文本的分类。然后在文本摘要模型中,基于类别生成与文本类别相关的摘要。

3.1 基于卷积神经网络的文本分类模型

目前,使用基于卷积神经网络(Convolutional Neural Network)的文本分类模型已经取得了较好的效果[8]。本文同样在此基础上,使用CNN构建简易的文本分类模型。

具体来说,我们使用表示对于句子中第个词的维向量表示,表示第个词到第个词的词向量集合,使用卷积窗口矩阵(为卷积核个数,为卷积窗口大小)进行卷积操作后得到在该卷积窗口下的特征向量。具体计算公式如下:

然后使用最大池化得到每句句子的特征向量表示,希望捕获句子中的关键位置信息:

文本由句子构成,我们在得到句子特征向量的基础上,进行均值池化,得到文本的特征向量表示:

最后通过softmax分类器得到最终的文本类别。

3.2 基于文本类别的文本自动摘要模型

基于文本类别的文本自动摘要模型基于经典的seq2seq模型,结合注意力机制。不同在于编码器部分结合了文本的类别特征。

具体的结构如图1所示。我们将每个类别转化成维向量,即。然后在标准的seq2seq模型中,编码器与解码器部分均采用LSTM,在解码器部分的每个时间步上结合前一时间步的隐藏层输出,当前时间步的输入以及文本类别。因此式(1)-(4)变为如下形式:endprint

4 實验

4.1 实验数据集描述

实验数据集的选取分为文本分类模型的训练数据集以及文本摘要模型的数据集。首先对于文本分类的数据集,我们使用搜狗中文分类语料库[9]。选取其中教育、体育、政治、科技、军事、财经6个类别。每个部分选取500篇新闻作为训练语料。考虑到每篇新闻字数较长,因此每篇新闻均截取前两句话(以句号分隔)作为训练语料。

其次对于文本摘要模型的数据集,我们使用大规模的中文短文本摘要语料LCST0S作为训练集和测试集[5]。LCSTS分为三部分:其中第二部分和第三部分根据摘要质量,人工评为了1-5分。我们使用第一部分作为训练集,选取第二、三部分中分数大于等于3分的作为测试集。各部分的文本-摘要对个数如表1所示:

4.2 实验参数设置

在文本分类模型中,我们设置卷积窗口的大小设置为8,卷积核个数设置为128;在文本摘要模型中,编码器和译码器使用500个LSTM单元,词表大小设置为10000。另外使用word2vec生成词向量,维度数固定为300维,激活函数采用RelU,梯度算法使用均方根传播,使模型能够在训练过程中自适应的调整学习速率。

4.3 实验结果

首先是利用文本分类模型进行文本分类,分类结果如表2所示:

文本摘要模型部分我们采用ROUGE-1、ROUGE-2、ROUGE-L作为评价指标。基准系统我们选取基本的带有注意力机制的seq2seq模型与jiatao.Gu[4]等人在2016年提出的带有拷贝机制的文本自动摘模型,分别用seq2seq+context和copyNet进行表示。我们的类别相关的文本自动摘要模型使用TS-seq2seq进行表示。实验结果如表3所示:

我们可以看出,基于文本类别的文本自动摘要模型取得了比基准系统更好的指标效果。证明了文本类别对于摘要效果改善的作用。

5 结束语

本篇文章在传统的seq2seq模型结合注意力机制的基础上,针对文本摘要的特点:大部分文本有明确的类别特征,并且同一类的文本的摘要格式,措辞也大致相似。提出基于文本类别的文本自动摘要模型,先对文本进行分类;然后在编码阶段引入文本类别特征,最终生成类别相关的摘要。当然模型还存着一些不足:由于LCSTS数据集的新闻文本较短,使用本文的基于CNN的文本分类器进行分类的效果并不是很理想;另外本文的做法实在编码器阶段直接在每个时间步上注入文本类别向量,如何更合理地将文本的类别信息与seq2seq模型相互结合也将成为后续的研究重点。

参考文献:

[1] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[J]. 2014, 4:3104-3112.

[2] Lopyrev K. Generating News Headlines with Recurrent Neural Networks[J]. Computer Science, 2015.

[3] Rush A M, Chopra S, Weston J. A Neural Attention Model for Abstractive Sentence Summarization[J]. Computer Science, 2015.

[4] Gu J, Lu Z, Li H, et al. Incorporating Copying Mechanism in Sequence-to-Sequence Learning[J]. 2016:1631-1640.

[5] Hu B, Chen Q, Zhu F. LCSTS: A Large Scale Chinese Short Text Summarization Dataset[J]. Computer Science, 2015.

[6] Hochreiter S, Schmidhuber J. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8):1735.

[7] Bahdanau D, Cho K, Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate[J]. Computer Science, 2014.

[8] Kim Y. Convolutional Neural Networks for Sentence Classification[J]. Eprint Arxiv, 2014.

[9] http://www.sogou.com/labs/resource/list_news.phpendprint

猜你喜欢
文本分类神经网络
神经网络抑制无线通信干扰探究
基于组合分类算法的源代码注释质量评估方法
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于支持向量机回归和RBF神经网络的PID整定
基于神经网络分数阶控制的逆变电源
基于GA-BP神经网络的光伏阵列MPPT研究