基于概率分布的图卷积文本分类模型

2022-06-18 01:58张文轩殷雁君

中文信息学报 2022年4期

张文轩，殷雁君，智敏

(内蒙古师范大学计算机科学技术学院，内蒙古呼和浩特 010022)

0 引言

文本分类是自然语言处理NLP(Natural Language Processing)的基本任务之一，其目的是组织和分类文本资源，为句子、段落和文章等文本单位分配标签[1]，为包括垃圾邮件过滤[2]、情感分析[3]、意图识别[4]等自然语言处理任务提供了广泛的技术支持。文本分类任务的关键步骤之一是文本表示学习，即如何从表示为向量的文本中提取对分类任务有利的特征信息。

早期的文本分类模型大多基于机器学习方法，包括朴素贝叶斯、K近邻和支持向量机等[5]。然而这类方法通常依靠人工提取文本特征，需要耗费大量时间和人力资源。同时对高维数据的处理和泛化能力较差，并忽视了词与词之间的关系，难以对文本进行有效建模。

随着深度学习的发展，神经网络模型因其出色的特征提取能力而被广泛应用于自然语言处理领域。Kim等[6]提出了基于卷积神经网络CNN(Convolutional Neural Networks)的文本分类模型TextCNN，该模型利用多尺寸的一维卷积核从文本中提取局部语义信息，并利用池化操作得到文本表示并用于分类。Liu等[7]使用长短时记忆网络LSTM(Long Short-Term Memory)对文本序列进行建模，并将网络输出的最后一个隐藏状态作为文本表示参与分类。这类模型大多将文本视为词语组成的序列进行特征学习，难以捕捉潜在和非连续的词语间的依赖关系。

注意力机制[8]是一种为潜在和非连续依赖关系进行建模的有效方法。Vaswani等[9]提出的Transformer模型应用多头自注意力机制来处理词语间的依赖关系，极大地促进了词语间的信息交互。然而在文本序列中，并非所有的词语间都存在语义关联，因此使所有的词语都参与到注意力中会引入过多的噪声。

近年来，基于图神经网络GNN(Graph Neural Networks)的方法逐渐成为文本表示学习的研究热点，逐渐在文本分类[10]、机器翻译[11]和语义角色标注[12]等众多自然语言处理任务中得到应用。基于图神经网络的文本分类模型将文本当作一组共同出现的词，从全局角度对词语间的依赖关系进行建模，在促进信息交互的同时有效减少了噪声。然而，当前基于GNN的方法在实际应用中依然存在一定缺陷。第一，由于文本数量的持续增长，利用词和文本作为节点构建异构文本图的方法最终会导致图的尺寸过大，难以存储和训练，也导致模型在面对新文本时难以做出相应调整[13]；第二，现有的基于GNN的方法虽然能够对整个语料库中的全局依赖关系进行建模，但对于如何描述这种依赖关系，及其是否适用于分类任务缺乏充分探索。

为弥补以上缺陷，本文提出了一种基于概率分布的图卷积网络模型PDGCN(Probability Distribution based Graph Convolution Network)并将其应用于文本分类任务。不同于过去的基于GNN的方法，本文模型重点关注语料库中的词与标签之间的依赖关系，构建了文本-词关系图和标签-词异构关系图。其中，文本-词关系图由文本和词构成，反映文本对词的包含关系。标签-词异构关系图则以词和标签为节点构成，反映词-词关系和标签-词关系。此外，在图的构建阶段，提出利用概率分布描述节点间的关系，即基于词在各标签上的概率分布定义图中词节点和标签节点之间的边权重，并利用概率分布间的相似度定义词节点之间的边权重。在模型训练阶段，本文提出利用得到的标签-词异构关系图进行图卷积操作以学习词节点和标签节点的特征表示。

本文的主要贡献有：

(1) 针对当前基于GNN的文本分类方法中文本图的构建方法中存在的问题，即图尺寸难以控制和节点间依赖关系的定义方式不完全适用于分类任务，提出构建文本-词关系图和标签-词异构关系图，以增强基于GNN的文本分类方法在面对新文本时的可扩展性；

(2) 为探寻更适用于分类任务的图节点间依赖关系的定义方式，提出利用词在标签上的概率分布定义节点间的边权重，相比于当前常用的基于词共现关系的定义方式，本文方法能更有效地捕捉节点间潜在的依赖关系；

(3) 在5个公开数据集上进行的大量实验验证了本文模型所用的文本表示方法的有效性，以及本文模型的可解释性。

1 相关研究

图作为一种非欧氏数据结构，由一系列的对象(节点)和关系类型(边)组成。图神经网络则是一种基于图域分析的深度学习方法，可以有效地对非欧氏空间的数据进行建模，并捕获数据内部的依赖关系[14]。尽管传统深度模型在处理欧氏结构数据时展现出优秀的特征提取能力，然而现实生活中存在大量非欧氏结构的数据，如社交网络[15]、化学分子结构[16]、知识图谱[17]等，更适合利用图神经网络进行特征提取。GNN的基本思想是利用消息传递机制进行节点表示学习，即图中节点基于一些确定性的规则将自身信息传播至其邻域，同时从邻域聚集信息以更新自身。例如，Hamilton等[18]提出的GraphSAGE模型通过对邻域信息进行随机采样和聚集以学习节点表示。Kipf和Welling等[19]则结合了卷积操作的局部感知和参数共享思想，提出了图卷积网络GCN(Graph Convolutional Networks)并将其用于半监督分类任务中，以简便的形式将卷积操作扩展到图结构数据上。在节点信息的聚合与传播阶段，GCN采用的规则如式(1)所示。

(1)

在Kipf和Welling等[19]的研究基础上，Yao等[21]提出了TextGCN模型，正式将图卷积网络引入文本分类任务。该模型基于词语间的共现关系以语料库中的词和文本为节点共同构建了一个异构文本图，并利用该异构文本图进行图卷积操作，使得词节点与文本节点能够在全局范围内进行信息交互，并将文本分类问题转化为图节点分类问题。

尽管TextGCN已经在文本分类任务中取得较为先进的结果，但其采用的构图方法具有图尺寸不可控和难以适应新文本等缺陷，导致分类模型的可扩展性较差。为解决以上问题，Zhang等[22]提出了一种基于图神经网络的归纳文本分类模型TextING(Text classification method for INductive word representations via Graph neural networks)。该模型基于词共现关系，能够为语料库中的每篇文档建立一个独立的文本图并进行归纳分类，有效缩减了数据规模，使得模型对新文本的适应能力大大增强。

此外，TextGCN基于词共现关系对节点间依赖关系进行建模，其本质上依然是基于文本中词语的局部语序建立依赖关系，而这种依赖关系对文本分类任务的作用缺乏可解释性。为探索描述节点间依赖关系的新方法，Liu等[23]提出的TensorGCN模型分别利用词共现关系、语义相似度和语法依存关系定义词节点间的边权重，以此建立起三通道文本图，并取得了先进的分类性能。

因此，提高基于GNN的文本分类模型可扩展性的重点在于改进传统的文本图构建方法，使得图尺寸规模可控，并对新文本具有较强的适应能力。同时，为进一步增强基于GNN的文本分类模型的分类性能，仍需继续探索更加适用于分类任务的节点间依赖关系的描述方法。

2 基于概率分布的图卷积文本分类模型

本文提出的基于概率分布的图卷积文本分类模型PDGCN包含三个关键部分，分别是构建关系图、图卷积神经网络和标签匹配模块。本节将详细介绍如何实现这三者以及它们的运行流程。

2.1 构建关系图

在以往的基于图卷积的文本分类研究中，通常以将文本和词作为节点的方式构建统一的文本-词异构关系图，并基于词共现关系在节点间建立图结构，随后利用图卷积操作进行特征学习。考虑到这种构图方法具有难以适应新文本的缺陷，本文在肖驰等[13]的研究基础上，提出将词-词关系和文本-词关系拆解，根据词是否在文本中出现来构建文本-词关系图，提高了模型的可扩展性。为探索更加适合分类任务的图节点间边权重的定义方法，本文同时将词和标签作为节点，通过统计每个词在各个标签上的概率分布以定义标签节点与词节点间的边权重，并利用概率分布间的相似性定义词节点间的边权重，构建标签-词异构关系图。

给定一包含M篇文本的文本集合Doc={D1,D2,…,DM}和包含L类标签的标签集合Y={Y1,Y2,…,YL}的文本分类语料库，语料库中的每篇文本Di∈Doc都具有标签yk∈Y，其中k∈[1,L]。通过统计语料库中所有不重复的单词，可以获得包含N个不重复词语的词表集合V={w1,w2,…,wN}。本文将基于以上信息分别构建文本-词关系图和基于概率分布的标签-词异构关系图。

2.1.1 文本-词关系图

本文根据词语在文本中出现与否来构建文本-词关系图G∈RM×N，其流程如图1所示。

图1 文本-词关系图构建流程

文本-词关系图G中的任意元素gi,j表示文本Di∈Doc和词wj∈V之间的关系，其定义如式(2)所示。

(2)

这种构图方法的优点是，当模型面对未登记的新文本时，只需要根据词表为其构建文本-词关系图，无须更改或重新训练模型就可以对新文本进行分类，大大提高了模型的可扩展性。

2.1.2 标签-词异构关系图

标签作为对某一类型文本的概括性定义，必然与相应文本中的某些词语存在一定的语义关联。例如，当提到词语“足球”时，显然更容易联想到“体育”标签，而不太可能联想到“金融”标签。换言之，相较于出现在标签为“金融”的文本中的概率，词语“足球”出现在标签为“体育”的文本中的概率显然更大。

为了探究词语和标签间潜在的语义关联，本文提出如下假设：一个词语基于一定的概率分布出现在具有不同标签的文本中。为了验证这一假设，本文以词和标签为节点构建了基于概率分布的标签-词异构关系图A∈R(N+L)×(N+L)，构建流程如图2所示。

图2 标签-词异构关系图构建流程

本文将根据以下步骤实现基于概率分布的标签-词异构关系图的构建：

(1)定义词表：根据语料库中的训练样本及测试样本构建已知词词表Vknown和未知词词表Vunknown，其中，已知词指在训练样本中出现的词，未知词则指未在训练样本中出现而只在测试样本中出现的词。

(2)构建共现关系图：对于具有大小为N1的已知词词表Vknown和大小为N2的未知词词表Vunknown的语料库，其中，N1+N2=N，统计所有未知词与所有已知词的共现关系并建立关系图U∈RN2×N1，并使用逐点互信息(PMI)定义词节点间的边权重。具体来说，对于未知词wi∈Vunknown和已知词wj∈Vknown，U中的相应边ui,j定义如式(3)～式(5)所示。

其中，#Doc(wi)指语料库中包含wi的文本数量，#Doc(wi,wj)则指同时包含wi和wj的文本数量。

(6)

(4)构建未知词的概率分布矩阵：由于无法得知测试数据的标签信息，无法直接获取未知词在各标签上的分布概率，因此本文利用已知词的概率分布矩阵Pknown以及未知词同已知词的共现关系图U来拟合未知词在各标签上的近似分布概率。未知词在各标签上的概率分布矩阵Punknown∈RN2×L的形式化定义如式(7)所示。

Punknown=UPknown

(7)

(10)

(7)定义词-标签关系：将P中相应的随机向量进行单位化处理，用于定义词节点与标签节点之间的边权重。对于A中元素ai+N,j及ai,j+N，其形式化定义如式(11)所示。

(11)

(8)定义标签-标签关系：标签节点间除自连接之外没有其他连接。对于A中元素ai+N,j+N，其形式化定义如式(12)所示。

(12)

(9)构建标签-词异构关系图：由步骤(6)～步骤(8)对标签-词异构关系图中三种关系的定义可知，利用概率分布矩阵P快速生成标签-词异构关系图A的方式如式(13)、式(14)所示。

2.2 图卷积神经网络

本文采用两层图卷积神经网络(GCN)进行图节点的表示学习，其流程如图3所示。

在完成文本图的构建后，本文参考Kipf和Welling等[19]提出的GCN架构，将标签-词异构关系图送入一个两层的GCN中学习节点表示。首先利用一个线性映射层对节点表示进行线性变换，再利用图完成节点信息的聚合与传播，并在每个GCN层中加入残差连接[24]以缓解GCN中存在的过平滑现象。本文的GCN层的形式化定义如式(15)～式(17)所示。

(15)

(16)

(17)

图3 图卷积神经网络流程

2.3 标签匹配模块

为达到分类目的，本文设计了一个标签匹配模块，用于为每个文本生成预测结果，其流程如图4所示。

图4 标签匹配流程

该模块首先将两层GCN输出的节点表示H2按照节点类型进行分割，得到词节点表示向量HW和标签节点表示向量HY。随后将文本-词关系图G和词节点表示向量HW相乘得到文本表示向量HD，如式(18)所示。

HD=GHW

(18)

计算文本表示向量与标签节点表示向量的内积，并将其送入softmax分类器，得到文本和标签的匹配结果，具体实现如式(19)所示。

(19)

本文使用所有标记文档的交叉熵损失作为模型的分类损失函数Lc，如式(20)所示。

(20)

其中，ZDi是模型对文本Di∈Doc的预测标签，yi是文本Di的真实标签。

为使得不同的标签节点间具有可区分性，本文添加了正交化损失Lorth对更新后的标签节点表示向量HY进行监督，使得HY中的节点向量能够趋于相互正交。利用均方误差损失定义正交化损失Lorth，如式(21)～式(23)所示。

(21)

(22)

(23)

模型训练的最终损失Ltotal定义如式(24)所示。

Ltotal=Lc+λLorth

(24)

其中，λ为用于调节损失函数平衡性的超参数。

3 实验

本文在多个公开文本分类数据集上对提出的PDGCN模型进行了实验。本文主要关注实验结果的两个方面：一是本文模型相对于其他分类模型的性能优势；二是本文模型的可解释性。

3.1 数据集

为保证实验具有参考价值，本文在常用的5个文本分类数据集上进行了实验，包括R8，R52(1)https://www.cs.umb.edu/～smimarog/textmining/datasets/，Ohsumed(2)http://disi.unitn.it/moschitti/corpora.htm，20NG(3)http://qwone.com/jason /20Newsgroups/和MR(4)http://www.cs.cornell.edu/people/pabo/movie-review-data/。其中，MR数据集是对电影评论的二元情感分类，R8、R52和20NG数据集均为新闻分类，Ohsumed数据集则是医学文献分类。对于上述所有数据集，本文参照Yao等[21]对数据集的处理方法，从训练集中随机选择10%的文本来构建验证集。数据集的详细信息如表1所示。

表1 文本分类数据集统计信息

3.2 对比模型

实验将本文的基于概率分布的图卷积文本分类模型与多种具有代表性的基于传统神经网络的或基于图卷积的文本分类方法进行了比较。相关方法介绍如下：

CNN： Kim等[6]将CNN引入文本分类领域，利用一维卷积核对文本中的词序列特征向量进行整行的卷积操作以提取文本的局部特征，利用池化得到文本的向量表示并用于分类。

LSTM： Liu等[7]提出使用LSTM网络对文本序列信息建模，并将输出的最后一个隐藏状态作为整个文本的向量表示用于分类。

Bi-LSTM：双向LSTM模型，常用于自然语言处理领域。

fastText： Joulin等[25]提出的一种简单有效的文本分类方法，将文本词向量的平均值视为文本表示向量并用于分类。

Transformer： Vaswani等[9]提出的一种基于多头自注意力机制的编解码器模型，添加了一个全连接层用于文本分类。

TextGCN： Yao等[21]提出的文本图卷积分类模型，将语料库中的词和文本作为节点参与图的构建，利用词共现关系和TF-IDF描述节点间的依赖关系，并使用图卷积神经网络对文本节点进行分类。

TensorGCN： Liu等[23]提出的对TextGCN的改进方案，分别利用词共现关系、语义相似关系和语法依存关系定义词节点间的边权重以建立三通道文本图，使用图卷积神经网络对文本节点进行分类。

LCGCN：肖驰等[13]提出的松耦合图卷积文本分类模型，以语料库中的词和标签作为节点参与图的构建，使用词共现关系和TF-IDF描述节点间的依赖关系，采用图卷积神经网络学习节点表示，并利用训练得到的标签节点表示辅助分类。

3.3 参数设置

本文设置了两组不同的节点初始表示方式对提出的PDGCN模型进行实验。一组使用预训练的300维GloVe词向量(5)http://nlp.stanford.edu/data/glove.6B.zip作为初始表示。另一组则使用one-hot编码作为初始表示，以保证节点表示之间，尤其是标签节点之间的可区分性。

GCN层的中间层维度设置为200，并在每个GCN层中设置dropout为0.5。值得注意的是，本文将第二层GCN的输出维度设置为dL，其中d为大于1的整数，这种设计能够增强后续的标签匹配模块得到的分类结果的稳定性。在实验过程中，对于给定的L分类任务，设置d=10。此外，设置损失函数的平衡参数λ=1.0。在每个数据集上，设置学习率为0.01，并使用Adam优化器进行训练。

关于对比模型，本文使用其原研究中默认的参数设置，并选择预训练的300维GloVe词向量作为对比模型的初始向量表示。

3.4 实验结果

表2展示了本文提出的PDGCN模型相对于其他对比模型的结果，其中对比模型的实验结果来自Liu等[23]、肖驰等[13]和Li等[26]的研究，PDGCN和PDGCN*分别表示使用GloVe词向量和独热编码作为初始表示的本文模型。表2中的数据是各模型在数据集上分别进行了10次实验得到的平均准确率。

表2 模型分类准确率

从表2中可以观察到，使用GloVe作为节点初始表示的PDGCN几乎难以收敛，而使用one-hot编码的PDGCN*则在全部5个数据集上取得了较为先进的性能。本文认为原因如下：一是基于one-hot编码的节点表示具有很强的可区分性，而这是预训练GloVe词向量所不具备的。二是使用预训练GloVe词向量的模型参数量相对较少，不能充分对文本信息进行拟合。

实验结果显示，TextGCN等基于图结构的模型分类性能明显优于以CNN、LSTM为代表的传统神经网络模型和以Transformer为代表的基于注意力机制的模型，说明基于图结构的模型更加适合文本分类任务。

同时可以看出，PDGCN*在Ohsumed和20NG数据集上均达到了最先进的水准，且相较于对比模型取得显著的性能提升。本文认为，这是由于Ohsumed和20NG数据集中测试样本数量较大，未知词数量较多，为分类任务带来困难。本文模型则在构建标签-词关系图的过程中有效拟合了未知词和标签间的关系，有力提高了模型在陌生文本数据上的分类性能。这说明相较于其他模型，本文模型在面对大量未知文本时具有更强的鲁棒性。

3.5 消融实验

为进一步验证利用概率分布描述节点间依赖关系的节点表示方法在分类任务中的有效性，本文设计了两个用于消融实验的对比模型，分别记为PDGCNcol和PDGCNnone。

PDGCNnone模型则将原PDGCN模型中的标签-词异构关系图替换为一个维度相同的单位矩阵，即去除了利用图进行信息聚合与传播的过程。

PDGCNcol和PDGCNnone同样使用one-hot编码作为初始节点表示，并分别在全部5个数据集上进行10次实验。表3展示了两种对比模型和PDGCN*模型的实验结果。

表3 消融实验准确率

如表3中所示，PDGCN*和PDGCNcol在所有数据集上的分类性能均超过PDGCNnone，证明了基于图的信息聚合与传播过程对于特征表示学习的贡献作用。同时，PDGCN*在大部分数据集上的表现也优于PDGCNcol，特别是在Ohsumed和20NG数据集上。这表明相较于传统的基于词共现关系的构图方法，本文提出的构图方法更加契合分类任务，并能够在未知样本数量较多的情况下保持较高的分类准确率。

3.6 图尺寸对比

为验证本文模型有效改善了图尺寸过大且不可控的问题，基于全部5个数据集将TextGCN模型、肖驰等[13]的LSGCN模型和本文的PDGCN模型所需存储的图尺寸大小进行了对比。如2.1.2节所述，本文所使用的标签-词异构关系图A可由概率分布矩阵P快速生成，因此分别考虑了存储标签-词异构关系图PDGCN-A和概率分布矩阵PDGCN-P两种情况，结果如表4所示。

表4 图尺寸对比

从表4中不难看出，相较于TextGCN模型的图尺寸，LSGCN和本文PDGCN模型的标签-词异构关系图的尺寸均明显缩减，且语料库中文本数目越多，缩减效果越明显。具体来说，对于给定的文本数量为M，词表大小为N，标签类别数为L的语料库，TextGCN模型构建的文本-词异构图大小为(M+N)×(M+N)，而LSGCN和本文模型所构建的标签-词异构关系图大小则均为(N+L)×(N+L)。另外可以观察到，本文构建的概率分布矩阵的尺寸缩减效果更为明显，尤其是在标签类别数较少时，其尺寸仅为(N+L)×L，大大节省了存储空间。

在实际应用中，词表和标签集合的规模往往变化幅度有限，而文本数量则时刻保持增长。对于本文模型所构建的标签-词异构关系图和概率分布矩阵，其尺寸只取决于词表大小和标签类别数，数据规模较为稳定，因而具有更高的应用价值。

3.7 参数研究3.7.1 输出维度参数d

如3.3节所述，本文模型中的图卷积神经网络的输出维度由当前语料库的标签类别数L和超参数d共同决定。这种设计使得每个标签类别平均可以保存d位信息参与分类。若d的取值过小，可能导致节点无法保留足够的分类信息。若d的取值过大，可能因信息稀疏导致文本表示与标签节点表示难以匹配。以上两种情况均会对分类性能产生不利影响。

为探究本文模型输出的节点表示维度对分类性能的具体影响，本文在PDGCN*的基础上设置不同的d取值并分别在R8、R52和Ohsumed数据集上进行了10次实验，结果如表5所示。

从表5可以观察到，对于R8、R52和Ohsumed数据集，分别在d=12、10、8时达到最高分类准确率。这说明对于不同的分类任务，最合适的节点表示维度是不同的。

表5 参数d对分类准确率的影响

3.7.2 正交化损失系数λ

如2.3节所述，本文模型同时使用分类损失Lc与正交化损失Lorth进行训练。为探究正交化损失系数λ对模型分类性能的具体影响，本文在PDGCN*的基础上设置不同λ的取值并分别在R8，R52和Ohsumed数据集上进行了10次实验，结果如表6所示。

表6 参数λ对分类准确率的影响

从表6中不难看出，在全部3个数据集上都存在λ=0.0时模型分类性能最差的现象，证明了正交化损失在本文模型中的必要性，即具有区分性的标签节点表示更有利于分类任务。此外，对于R8数据集，当λ=1.0时分类性能最好。对于R52和Ohsumed数据集，则在λ=1.5时达到最高分类准确率。这可能是由于相较于R8数据集，R52和Ohsumed数据集的标签类别数更多，使得标签节点表示趋于相互正交的难度更大，因此需要更高的λ值才能为模型学习到满足分类任务的标签节点表示提供充分的监督。

4 总结

本文提出了一种基于概率分布的图卷积文本分类网络PDGCN，该模型将文本与词的关系分离，利用语料库中的词和标签共同构建了标签-词异构关系图，能够在保证分类性能的基础上，有效缩减图尺寸大小，并且对未知文本的适应性更强，提升了基于图卷积网络的文本分类模型的可扩展性。此外，为探究更适合于分类任务的图节点间依赖关系的描述方法，该模型首次利用词语在标签上的概率分布及其相似度来描述节点间的依赖关系，有效提升了基于图卷积的文本分类模型的分类性能。在5个常用数据集上的大量实验验证了本文模型在分类任务上的有效性和可解释性。

本文所采用的网络结构是较为基础的图卷积网络，未来的工作中，希望探索将这种新的构图方法与其他更加先进的图神经网络架构相结合，并将其运用于更复杂的文本分类任务，如多标签分类和细粒度情感分析任务当中。