基于主题-词向量的多粒度特征协同表达多义词研究

2021-09-09 08:19汪静徐昶王莹莹

现代计算机 2021年19期

汪静，徐昶，王莹莹

(1.湖北广播电视大学软件工程学院，武汉 430074；2.湖北广播电视大学导学中心，武汉 430074)

0 引言

随着移动终端的普及和网络的高速发展，人们在媒体平台上自由发表评论，由此产生了大量文本数据。如何从爆发式增长的文本中筛选出有效信息是当前的研究热点，而文本自动分类可以适当解决这一问题。因此，如何通过文本分类技术挖掘文本的潜在价值，成为目前广泛关注的一项任务。

文本分类是计算机依据对文本内容的分析，将其判别为提前确定好的类别中的一类或几类[1]。其中文本表示是文本分类的前提保障，其质量的好坏对分类效果造成直接影响，传统的文本表示方法大多基于空间向量模型(VSM)[2]和主题模型[3]。近几年随着深度学习理论的逐渐成熟和硬件设备的有力支撑，新兴模型Word2Vec[4]进入行业大众视野，其根据上下文语义关系映射出词语在空间中的位置，成为文本表示的新方法。2013年Word2Vec工具的开源使词向量受到界内研究者的追捧，并在各类自然语言处理任务中展现了巨大的应用潜力。如Fan[5]、Yao[6]等人分别将Word2Vec应用于问答系统中多标签文本分类问题和大规模新闻文本分类问题中，分类效果较传统的文本分类方法均有较大提升。

然而汉语词汇中存在大量一词多义的现象，Word2Vec模型单纯用唯一的词向量混合表示词语的多重语义显然是不合理的，业内学者对此展开了相关研究。Tian[7]假设所有的单词具有相同的语义个数，通过Skip-Gram模型使用概率混合模型学习词向量的表达，但这种假设与实际情况相违背，可借鉴性不大。为解决上述问题，Neelakantan等人[8]提出一种名为NP-MSSG的非参模型，训练出不同个数的向量对多义词进行表示。而Chen等人[9]依据提前定义好的多义词列表，自动学习多义词的多个向量表达，但其过度依赖外部资源库的质量。因此，如何通过合适的语言模型有效表达多义词是一个值得深究的问题。

通过以上分析，本文区别于当前主流的神经网络分类方法仅将词向量局限于文本预处理过程[11]，在词向量文本表示法的基础上研究对词向量的优化和改进。

1 Skip-Gram模型训练过程及其局限性

鉴于Mikolov等人在文献[4]中指出Word2Vec模型中的Skip-Gram训练模型针对数据稀疏问题更有效，且适用于语料库较大的情况，因此本文优先选择Skip-Gram训练模型作为后期改进算法的基础模型。

为优化传统线性Softmax函数计算复杂度高的问题，Skip-Gram模型采用基于霍夫曼树的层次Softmax(Hierarchical Softmax)函数[12-14]。其输出层对应一棵二叉树，数据集中的词语作为叶子结点，各个词语出现的次数作为权值构造Huffman树[11]。则目标函数表达式如公式(1)所示：

(1)

通过Skip-Gram模型训练，一个词语仅对应唯一的词向量[17-18]，则多义词对应的词向量混杂表达了多重语义，造成词向量在不同语境中代表的含义不明确，进而对文本分类的效果造成一定影响，侧面体现出Skip-Gram模型在一词多义问题上的局限性。

2 基于主题-词向量的多义词表示

2.1 多粒度协同表达的主题-词向量

针对上述Skip-Gram模型存在的问题，本文提出“主题-词向量”的概念，并在Skip-Gram模型的基础上引入LDA主题模型[19]，提出Topic-SG语言模型计算主题-词向量，利用细粒度的语义特征和粗粒度的主题特征协同表达主题-词向量，使词向量结合主题特征向量区分多义词词向量在特定主题下的含义。如公式(2)所示，“锤子”的词向量与代表“电子设备”类主题的主题向量融合即可得到“锤子”在“电子设备”主题下的主题-词向量，同理通过公式(3)可得到“锤子”在“工具”类主题下的主题-词向量。二者依据主题向量的特征区分多义词“锤子”的词向量，其中“锤子”对应的向量是细粒度的语义特征，“电子设备”、“工具”对应的向量则是粗粒度的主题特征，两者协同表达，可以更准确地定位每个词语在具体上下文的精确语义。

锤子电子设备

[v11v12…v1m]⊕[z11z12…z1m=[v11v12…v1mz11z12…z1m]

(2)

锤子工具

[v11v12…v1m]⊕[zk1zk2…zkm]=[v11v12…v1mzk1zk2… zkm]

(3)

2.2 主题-词向量的训练过程

本文借助LDA主题模型的训练得到“文档-主题”概率分布Θ和“单词-主题”关联性概率分布Φ，以及每个潜在主题下概率最大的前n个词语。对于某一文档d={w1，w2，…，wl}中的单词wi，可依据概率分布P(ti|wi，d)∝P(wi|ti)P(ti|d)分配一个主题ti[20]。最终LDA训练模型呈现收敛效果后，每篇文档中的每个词语w将被赋予一个或多个特定的主题t，每个词语和对应的一个或多个主题组合成一个或多个词语主题对(w，t)用于后续主题-词向量的训练。

Topic-SG模型首先需将文本形式的词语主题对(w，t)初始化为计算机可以理解的向量形式，则先将每个词语随机初始化为固定维数的m维向量，并通过Skip-Gram模型根据上下文语义关系训练出每个词语对应的词向量vw。同时，将每个单词所属的主题同样进行向量初始化，初始化的主题向量需依据LDA模型的输出结果，每个初始化的主题向zw由分配给同一主题的前n个单词的词向量求平均所得，且主题向量维数与词向量相同。LDA模型最初预设定的主题数k决定主题向量个数，将已初始化的主题向量zw输入Topic-SG模型训练，并保持词向量不变。Topic-SG语言模型示意图如图1所示。

不同于Skip-Gram模型，Topic-SG语言模型同时考虑当前词及其所属的主题信息对上下文进行预测。将当前词所属的主题理解为具有相同主题的词语集合，同样用一个向量进行表示。借鉴词向量的训练机制映射文本的主题信息，最终学习出文本层面粒度较粗的主题向量，代表该主题下所有单词的语义信息的集合。

图1 Topic-SG语言模型示意图

采用层次Softmax方法优化学习过程，Topic-SG模型的目标函数如公式(4)所示：

(4)

(5)

(6)

(7)

Topic-SG模型收敛后计算出的词向量vw和主题向量zw拼接即可得到词语w在主题z下的主题-词向量wz。词向量在词语层次进行细粒度的语义特征描述，主题向量在文档的主题层次进行粗粒度的抽象描述，二者拼接融合，从多粒度特征协同表达多义词在特定语境主题中的主题-词向量，由此缓解了传统Skip-Gram模型存在的多义词词向量在具体语境下指代不明的问题。主题-词向量wz的组成如公式(8)所示：

wz=vw⊕zw

(8)

3 实验

3.1 实验数据集

本文实验选用搜狗实验室提供的中文新闻文本分类数据集。在预处理阶段对原始文本进行格式化处理，并从中抽取新闻内容用于主题-词向量的训练和文本分类的数据集。采用jieba分词工具对格式化处理后的新闻语料进行分词[21]。

3.2 多义词的主题-词向量实验

此处将本文所提的基于Topic-SG语言模型的主题-词向量与基于Skip-Gram模型训练的词向量进行词语相似性的比较，相似性的衡量标准由词向量之间的余弦距离决定[22]。

首先使用Skip-Gram模型训练语料库中的所有词向量，在训练之前需初始化系列参数，其中，词向量的维数设定为100，模型中上下文窗口大小默认设置为5，神经网络的学习速率设定为0.05，训练完成后得到如表1所示的结果。

表1 与“苹果”最相似的前10个词语(Skip-Gram)

针对本文所提的Topic-SG模型计算主题-词向量，先利用GibbsLDA++工具对大规模语料库训练得到每篇文档中单词的主题标签，其中设置隐含主题数k为50，超参数取值α=50/k、β=0.01，迭代次数为1000次。随后通过Topic-SG模型学习出词向量及其所属的主题向量，模型参数与上述Skip-Gram模型的参数设置一致。对主题-词向量计算相似词的实验结果如表2所示。

表2 与“苹果”最相似的10个词(Topic-SG)

由表1中的实验结果可以看出，Skip-Gram模型训练出的词向量混杂了多重语义，而表2中的结果显示Topic-SG模型能计算词向量“苹果”分别在“电子设备”和“水果”两个不同主题下的相似词。将多义词“苹果”的相似词进行降维及聚类可视化展示，如图2所示，“苹果”相似词分别形成的聚类簇呈现出较明显的分隔区。由此验证了Topic-SG模型能识别并训练出多义词在不同主题下的词向量的有效性。

图2 “苹果”多义词的聚类可视化

3.3 文本分类实验

本文借助最经典的TF-IDF算法计算单个词语的权重，通过对主题-词向量的加权求和转化为文本向量用于文本分类。将提出的Topic-SG模型与VSM模型、LDA模型以及TF-IDF加权的Word2Vec模型的文本分类效果进行对比，分类器均采用SVM分类算法[23]。所有实验采用五折交叉验证评估模型的分类效果，并用准确率P、召回率R和F1综合指标进行测评，测试结果如表3所示。

表3 四种分类方法的测试结果(%)

将表中各类别的平均F1值以柱状图的形式展现，如图3所示。

由图3可以直观看出，唐明等人[10]提出的TF-IDF加权的Word2Vec模型的文本分类效果较VSM模型和LDA模型两种基础方法有较明显的提升，由此验证了Word2Vec模型应用于文本分类的可行性。

本文提出的文本分类方法与加权Word2Vec模型相比又有一些提升，原因在于本文是基于Topic-SG模型计算出的主题-词向量表示文本向量，而加权的Word2Vec模型中文本向量由Skip-Gram训练出的词向量与TF-IDF计算出的权重组合表示，其中主题-词向量相比于单纯的词向量嵌入了主题特征，同一多义词

图3 F1值对比图

可结合语境主题产生不同的主题-词向量，从而增大了文本向量的区分度，进一步提高文本分类效果。

图4利用箱形图展现了四种文本分类方法的分类结果。基于SVM模型和TF-IDF加权Word2Vec模型应用于文本分类的实验结果显示，此两种方法的F1值四分位距较大，稳定性有待进一步提高。基于LDA模型的文本分类方法虽然正常值分布较集中，但F1值却整体偏低且有出现异常值的概率。而本文所提的文本分类方法相比于其他三种方法表现得更稳定，F1平均值相对最高。综合考虑上述文本分类方法的准确性与稳定性，本文所提的基于Topic-SG模型计算出的主题-词向量更适用于文本分类。

图4 F1值对比箱形图

4 结语

当前主流的自然语言处理研究仅将词向量简单地作为一种文本预处理环节，缺乏对词向量本身特点的深入分析。本文的工作以词向量本身的不足作为切入点，有助于进一步深刻理解和扩展词向量这一新型语言模型的应用深度和广度。

针对词向量无法较好解决文本中普遍存在的多义词问题，本文深入研究基于Skip-Gram模型的词向量的生成机制，提出“主题-词向量”的概念，试图定位词汇在上下文中的精准含义，利用多粒度特征协同表达多义词在不同语境中所表示的含义，并将主题-词向量概念应用于文本分类问题。实验结果表明，本文提出的“主题-词向量”概念及其实现模型Topic-SG，能更好地完成混合了多种语义的文本分类问题。

后续将对“主题-词向量”这一概念及其训练过程进行更深度的剖析，考虑使用不同类型的大规模语料库，借助多元化数据理解特定环境下的语言特点，提高主题-词向量在各类应用中的普适性。