Skip-Gram结构和词嵌入特性的文本主题建模

2020-07-13 06:16夏家莉曹中华彭文忠张守胜
小型微型计算机系统 2020年7期
关键词:中心词主题词一致性

夏家莉,曹中华,2,彭文忠,张守胜

1(江西财经大学 信息管理学院、财政大数据中心,南昌 330032) 2(江西师范大学 软件学院,南昌 330022)

1 引 言

从大量文本中获取主题,一直是文本挖掘领域的研究热点.主题挖掘相关模型常采用无监督的学习方式,可以从文本语料挖掘具有不同语义的主题,并将文本表示为不同主题的混合分布,从而帮助人们理解大量文本所描述的主要内容.

随着神经网络和词嵌入方法在许多NLP任务中取得成功,近年来,出现了许多应用词嵌入向量和神经网络结构的文本主题模型研究,这些研究结果显示,使用词嵌入的主题模型能够极大地提高文本主题的挖掘效果.早期的主题效果评价多采用困惑度的方法,然而后续的一些研究也表明,困惑度的评价和人们对主题词的理解结果并不一致,由此研究者提出了主题一致性的评价标准,主题代表词的一致性可以更好的评价主题模型的效果.

常见的词嵌入向量获取模型[1,2]和主题一致性评价[3,4]方法都使用了词的点互信息(point-wise mutual information,pmi),二者存在紧密的联系,但是现今还较少见到,在深入分析二者间的联系后,将词向量自身所具有的主题特点应用于主题模型的研究.本文主要贡献有:1)分析了主题一致性和词嵌入向量间的联系,引入Softmax函数生成主题-词项分布,从而关联主题嵌入和词嵌入,以能够使用词嵌入的主题特性;2)提出主题分布式假设:具有相似邻居的词具有相似的主题分布值,并设计了一种主题和词间Skip-Gram神经网络结构的主题模型(Skip-Gram structure Topic Model,SG-TM),SG-TM模型能充分使用词向量的相似性和关联性信息,得到主题一致性更好的主题.

2 相关研究工作

主题模型研究早期常采用统计的方式,模型评价采用困惑度的方法,隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)概率主题模型是该方面的代表[5].由于模型假设文本内每个词的生成相互独立,这样会丢失词间的序列信息,因此有研究通过修改模型的先验信息,或给模型加入后验约束信息来增强词之间的关联.例如:词的熵加权[6]、稀疏约束[7]、概念关系[8]、点互信息关系矩阵约束[9]、玻利亚瓮模型增强词和文本的主题频数等[10,11].但是前期约束内容处理结果会直接影响到模型的效果;且随着语料的不同,一些词之间的关系或具有多样性,需要重新调整约束集内容.

近年来出现了一些神经网络相关结构的主题模型研究,它们考虑到词的嵌入式表示含有丰富的词语义信息,所以期望通过神经网络直接利用词嵌入结果,描述文档的生成,获得主题-词和文档-主题分布,提高主题挖掘效果.例如:可以使用神经变分编码方法[12];将每个主题建模为词向量上的高斯分布[13];文本表示为词向量的序列,从而用卷积神经网络获得文本主题[14];把文档-主题和主题-词项参数分别用两个前馈神经网络描述,然后结合两个神经网络生成文本内的目标词[15];还有用词嵌入实现具有自适应消息传递功能的监督主题模型[16].但是这些主题模型多使用困惑度作为评价标准,基于困惑度的主题评测方法,未解决人们对主题词所表达语义的理解困难问题.

Ding和Krasnashchok考虑到词嵌入的获取方式和常见主题一致性的评价方法存在联系[17,18],所以分别在Miao和Jey提出的神经主题模型基础上[12,14],使用词嵌入构造了类似点互信息的约束项,用于提高模型的主题一致性.但是他们都未区分词的输入、输出嵌入向量和主题一致性的联系;也未分析主题嵌入和主题词嵌入间的联系,并以此构造主题模型.

本文主题挖掘也采用神经网络结构的词向量建模方法,模型和标准LDA模型类似,结构较简单,但是能够有效使用词嵌入向量的相似性、关联性,文本内词间序列信息,从而有效提高主题模型的一致性值,挖掘出更好地文本主题结果.

3 主题一致性与词嵌入向量间关系

设主题模型的词典集合是W,主题数为T,Topic_Wordst⊂W表示第t个主题的代表词集合,1≤t≤T,通常取每个主题的概率值最大的前10个词.主题一致性是现今常见的主题效果评价标准[3,4,9],词的点互信息常被用于度量主题的一致性,它通过计算主题代表词在语料内固定窗口大小的共现关系评价主题模型.主题一致性定义为:

其中,p(wi,wo)表示词对(wi,wo)的共现概率,p(wi),p(wo)表示词wi,wo出现概率,是较小的常数.

词嵌入向量学习模型多数基于分布式假设:具有相似邻居的词具有相似语义的分布式表示.设中心词为wi,上下文窗口大小为c,词wi当前上下文窗口内的近邻词集表示为context(wi).Mikolov等基于中心词和上下文窗口内词间关系,构建了两种词嵌入学习模型:Skip-Gram、CBOW[2],还使用层状Softmax或负采样方法解决词典集合W过大所造成的模型训练困难问题.为获得更好的词嵌入表示向量,许多学者对词嵌入向量表示进行了更深入的研究.Pennington等提出了GloVe模型[1],该模型利用语料内词间全局共现信息训练词嵌入向量,并在许多评测中取得了比Skip-Gram等模型更好的实验结果.由GloVe模型所采用的词向量获取方法能容易得出词嵌入和主题一致性评价所存在的紧密联系.

(1)

(2)

≈pmi(wi,wo)-pmi(wj,wo)

(3)

词wi,wo的嵌入向量点积约等于它们间点互信息,所以:

(4)

pmi(wi,wo)=lnp(wi,wo)-lnp(wi)-lnp(wo)

(5)

令bi=-lnp(wi),bo=-lnp(wo),则由式(4),式(5)可得到:

(6)

式(6)如果将bi,bo作为残差参数变量,则上述公式学习的目标和GloVe模型类似,而Shi的实验表明[19],GloVe模型的残差参数变量bi,bo和lnp(wi),lnp(wo)具有很强的相关性;如果将bi,bo作为常数变量,等于lnp(wi),lnp(wo),则公式学习目标和李等[20]、Levy等[21]提出的基于pmi值的词向量学习模型类似.此外,Levy等的分析表明,Mikolov提出的Skip-Gram负采样模型(Skip-Gram with Negative Sampling,SGNS)结果类似于隐式分解移位的词间pmi矩阵.

4 本文模型

4.1 Softmax函数的主题-词项分布特性

定义 2.设第t个主题βt的主题嵌入向量为vβt∈Rk,词wi在主题βt的概率p(wi|βt)采用Softmax函数描述为:

(7)

性质 1.采用Softmax函数描述主题词项参数后,相似词wi,wj在主题内,具有相似的主题概率值.

由性质1可知,当主题训练语料内某个词wi成为主题代表词,则和其词向量高度相似的其它词wj在该主题的概率值也较大,使其也能成为主题代表词.所以在主题模型训练后,语料中相似词wi,wj虽具有不同的词频,但词向量的相似性将减弱词的主题语义受词频率不同的影响.

当词wi∈Topic_Wordst,且p(wi|βt)≥p(wl|βt),∀wl∈W,l≠i,称词wi为第t个主题的主题最高代表词,由于设定预训练词向量固定不变,采用Softmax函数描述主题-词项分布参数后,该分布参数只是需要优化所有的主题嵌入向量.

4.2 主题分布式假设

由性质2,使用Softmax函数表示主题词项分布,会使主题向量在训练后与主题最高代表词wi的嵌入向量相似性较大,而词之间的相邻序列关系可以促进该结果形成.本文提出主题分布式假设:具有相似邻居的词具有相似的主题分布值.例如:不同形态的词,相同概念、语义下的词等.依据本文假设,使用中心词的主题和上下文词间的Skip-Gram结构,相似词将获得相似的主题嵌入向量,也可促进中心词的主题向量和中心词的词向量相似.设中心词wi的当前主题编号表示为Topic(wi)(1≤Topic(wi)≤T).规定如果存在Topic(wi)=t,则:∀wo∈context(wi)→Topic(wo)=t即模型将中心词的主题值用于预测自己和它上下文内词的生成,因此在主题向量训练时,需要添加一些和中心词相关的上下文内词作为主题的生成目标,该主题值和词间的Skip-Gram结构表示如图1所示.

图1 c=2时,主题和词的Skip-Gram结构

由上述性质可以看出,采用Softmax函数描述主题-词项分布和使用Skip-Gram主题词结构,能够充分利用词的相似性和相邻词之间的高关联性,在模型训练中使相似词和具有高关联的词成为主题代表词,将会提高主题模型的主题一致性值.

4.3 文本生成与似然函数

通过上述分析,本文设计了如下神经网络结构的SG-TM主题模型,模型先导入预训练的词向量,用Softmax函数生成主题-词向量分布参数,通过类似LDA模型过程生成目标文本,在获得每个词的主题值后,将通过输入中心词的主题值,输出中心词和它的上下文内词,更新主题向量,从而实现充分利用词的相似向量和主题值与词之间的相邻关系.模型的文本生成过程描述如下:假设有M个文档{d1,…,dM},文本狄利克雷先验分布为α,参数Θ∈RT×k表示T个主题的分布式向量,则文本dj的生成过程可以描述为:

1)采样文本dj的主题分布θj~Dir(α);

2)取出文本中词wi,context(wi);

3)采样词wi的主题分布tji~Mult(θj),wi添加为该主题的生成目标.并将符合Skip-Gram关系条件的context(wi)和tji添加作为附加的主题向量优化目标;

4)从Softmax函数p(wi|βtji)生成目标词wi.

上述文本生成过程,一个文本的生成概率为:

(8)

通过最大化文本生成概率,可以求解到文本的主题分布、词的主题值和主题的分布式表示.

4.4 模型优化策略

模型参数优化采用变分EM算法,使用多项式分布qφji(tji)和狄利克雷分布qγj(θj)分别作为隐含变量tji和θj的变分分布,算法先固定每个主题的嵌入向量,优化文本的变分参数φji和γj.由于模型添加了主题嵌入向量,改进了主题词项分布的描述方式,可以对原始LDA模型的β参数用式(7)替换,求解φji参数,γj参数更新和原式基本一样.由文本生成概率公式,其变分下界可以写为:

logp(dj|α,Θ)≥Eq[logp(θj)]-Eq[logq(θj)]+

Eq[logq(tji|φji)]

(9)

文本dj求解目标变分参数φji和γj为:

(10)

γj=αj+∑i∈{1,…,N}φji

(11)

而后将文本内每个词wi的Topic(wi)作为输入,wi∪context(wi)作为输出,更新主题向量.由于将每个词的上下文内容,也添加为当前主题输出目标,主题向量需要优化的目标函数则表示为:

L=∑dj∈M∑wi∈djφji(logp(wi|βtji)+

∑wo∈Context(wi)logp(wo|βtji))

(12)

上述目标函数需要计算词集W内所有词的概率值,当词集很大时,会造成计算量非常大,本文采用Sampled Softmax算法[22]求解,则目标词wi在候选数据集合Ci=Si∪{wi}的对数似然函数为:

logp(wi|βtji,Ci)=logp(wi|βtji)-logQ(wi|βtji)-

log∑yi∈Ci[logp(yi|βtji)-logQ(yi|βtji)]

(13)

式(13)Si表示采样数据集合,由当前选择的采样函数而生成,其类似于标准SGNS模型方法,Q(wi|βtji)表示采样函数生成wi的概率,算法优化采用Adadelta方法.

5 实验与分析

5.1 实验设置

本文实验主要包括主题一致性和主题词的专有性(exclusivity,excl)[18],主题嵌入与代表词嵌入关系两部分内容.基准模型使用主题驱动神经语言模型(Topically Driven Neural Language Model,TDLM)[14]和其改进的主题一致性约束模型(Coherence Regularization TDLM,CRTDLM)[18],它们都使用现今流行的神经网络结构和词向量方法建模.Ding[17]的研究没有提供相同数据集结果,所以未列入比较.

实验的预训练词向量来自于三种不同模型,分别是SGNS,GloVe和移位的正点互信息(Shifted Positive Pointwise Mutual Information,SPPMI)矩阵分解模型[21],用于检测不同模型的词向量对主题结果的影响.Li的方法使用词间pmi值作为学习目标和SPPMI类似,所以未将其用于模型比较.主题模型训练前,会先用相关工具从训练文本获得词嵌入向量,SGNS模型词向量使用Gensim工具训练得到,GloVe程序是从作者网上下载得到,SPPMI模型词向量通过直接分解训练数据的SPPMI矩阵而得到,它的负例值设为1.所有模型的词向量维度k=300,其它词向量模型参数都使用默认值.本文模型主题向量维度和词向量维度大小一样,窗口c=5,文本狄利克雷先验分布α=0.1.

5.2 主题一致性与主题词专有性

主题一致性评测数据集选用TDLM模型提供的数据集,主要包括有三个类别的数据:美联社新闻(Associated Press News,APNews),英国国家语料库(British National Corpus,BNC)和互联网电影资料库(Internet Movie Database,IMDB).模型训练前去除了停用词、数字、特殊符号和少量高频词等,经过预处理后,每类数据含有2万个左右单词.

表1 主题一致性和专有性值

Table 1 Topic coherence and exclusivity score

TopicnumbermodelNPMI/exclAPNewsBNCIMDB50TDLM.150/.868.145/.885.026/.634CRTDLM.151/.869.143/.905.035/.620SG-TM(SGNS).136/.744.127/.740.088/.710SG-TM(Glove).176/.666.130/.650.088/.626SG-TM(SPPMI).201/.832.200/.820.166/.700100TDLM.162/.659.140/.656.044/.422CRTDLM.155/.674.142/.620.045/.409SG-TM(SGNS).148/.699.140/.701.092/.555SG-TM(Glove).177/.602.142/.609.097/.529SG-TM(SPPMI).200/.743.205/.718.159/.633150TDLM.160/.531.137/.510.043/.366CRTDLM.163/.504.137/.504.041/.361SG-TM(SGNS).165/.704.137/.646.093/.516SG-TM(Glove).181/.562.144/.539.100/.509SG-TM(SPPMI).213/.666.192/.656.155/.528

从实验结果表1可以看出,本文SG-TM模型结果多数优于TDLM等模型,在APNews、BNC和IMDB数据集上,主题一致性值能提高将近6%;主题词的专有性多数都有所提高,最优值部分能提高2%.而主题词的专有性随主题值的增加,多会下降,表明主题结果的冗余度逐渐提高.仅从NPMI值结果可以得出,APNews、BNC数据集的最优主题值大于100,IMDB数据集的最优主题值小于100.这三种数据集中,IMDB数据集的结果要低于APNews和BNC数据集结果.实验分析发现:IMDB数据集用词比较简单,经过预处理后,它的文本篇幅都较小.此外,在相同数据集和超参数条件下,当模型使用不同的预训练词向量,所得到的主题一致性结果差别也很大.虽然SGNS、GloVe和SPPMI模型的词向量都含有词语义信息,但是SGNS模型是通过训练词间相邻信息获得词嵌入向量;GloVe模型词向量直接含有词之间共现值,结果还会受到残差值影响;SPPMI模型词向量直接来自于语料的全局词间pmi值,其更能够体现词间的点互信息大小,从而直接帮助提高主题的一致性值.

5.3 主题嵌入与主题词嵌入关系

实验打印出了APNews数据集在T=100时,使用SPPMI模型词向量的8个主题代表词,结果如表2所示.由主题代表词可以理解该主题所表示的语义信息,例如:Topic1表示航空飞行、Topic2表示艺术展览、Topic3表示总统选举等.这些主题的主题向量和主题代表词的输入向量和输出向量之间的余弦值如图2、图3所示.由结果可见:每个主题向量和该主题的最高代表词的输入向量余弦值在0.7左右,它们间的相似性较高;且主题向量和词的输入向量余弦值普遍大于主题向量和词的输出向量余弦值,这体现了主题分布假设,主题向量类似于中心词的输入向量;主题嵌入向量与后面主题代表词向量的余弦值则基本上呈下降趋势,说明它们的向量相似性减弱.

表2 T=100,APNews部分主题词

Table 2 T=100,some topic words of APNews

TopicsidTopicwordsTopic1planeenginepilotlandingjetpilotscockpitcrashedflightaviationTopic2museumexhibitpaintingsexhibitionartgallerydisplaycuratorartifactsexhibitsTopic3romneypresidentialmittgingrichtrumpsantorumnewtpalinbachmanncaucusesTopic4spacenasashuttleastronautsspacecraftatlantisorbitastronautendeavourmissionTopic5gulfspillbpoilgallonsrigdeepwaterlitersclean-upcoastTopic6medicalpatientpatientshospitalhospitalsdoctorsdoctornurseclinicphysiciansTopic7campusuniversityfacultyundergraduatecollegeu-niversitiesgraduatefraternitystudentcollegesTopic8shipcruisevesselshipsboatcarnivalvesselsvoy-agesankconcordia

图2 主题向量和代表词输入向量余弦值

图3 主题向量和代表词输出向量余弦值

图4、图5描述了主题嵌入和主题词嵌入的向量点积值,最高主题词和其它主题词的向量点积.由图4可见主题和词的相关性成下降趋势,而图5最高主题代表词和其它词之间相关性有些波动,但总体也成下降趋势.表3列出了与每个主题最高代表词点积最大的前10个词,从相关词结果可见,表2和表3词之间的重合度较高,也存在一些词不重合,体现了图5 的小幅波动性特点.上述实验结果体现了性质2、性质3所分析的结论,当主题向量和主题最高代表词向量相似时,主题向量和词向量间的点积选择出的主题词,可近似表示为主题最高代表词和其它主题词之间的相关性.这也说明向量的相似性虽然在减小,但是主题最高代表词与部分主题代表词间的pmi值还是较大.

图4 主题向量和代表词向量点积值

图5 最高主题词向量和其它代表词向量点积值

综上结果分析,模型训练将使主题向量和最高代表词的输入向量相似较高,且这些与主题最高代表词相似性高或点互信值高的词,被选择成为主题代表词的可能性也很高,当这些词作为主题词时,可以推测,这些词之间也具有较高的词间相关性值,能够使模型获得较高的主题一致性.

表3 主题最高代表词相关的前10个词

Table 3 Top 10 words related to the first topic word

ThefirsttopicwordTop10relatedwordsplaneflightpilotlandingjetaviationpilotsaircraftair-portairplaneenginemuseumexhibitartifactsexhibitioncuratordisplayexhibitsgallerypaintingsmuseumsartromneypresidentialmittgingrichnewtsantorumbach-manncaucusesnomineepalinpollsspacenasashuttleastronautsorbitspacecraftatlantisas-tronautendeavourmissionlaunchgulfbpspilloildeepwaterrighorizonliterscoastplcgallonsmedicalpatientpatientsdoctorsdoctordrhospitalphysi-ciansclinicphysicianhospitalscampusfacultyuniversitycollegeundergraduatefraternitycampusesuniversitieschancellorstudentsemestershipcruiseshipsvesselussvoyagesanknavaldockconcordiavessels

6 结束语

本文分析了词嵌入和主题一致性之间的联系,描述了一种使用预训练词嵌入向量,Softmax函数生成主题-词项分布,采用主题分布式假设的文本主题模型.SG-TM模型使用主题和词之间的Skip-Gram结构,中心词的主题用于生成自己和增加的上下文内词.实验表明将词嵌入向量信息应用于该主题模型,能显著改善模型整体效果,学习到主题一致性更好的文本主题.

猜你喜欢
中心词主题词一致性
注重整体设计 凸显数与运算的一致性
商用车CCC认证一致性控制计划应用
基于电压一致性的能源互联微网无功功率分配
Why do we celebrate the New Year?
智能传感器的智慧战略,新技术创造新价值
英汉口语中名词性省略对比研究
俄汉语定语对比
发挥学生主体作用 提升复习效率
取消公文主题词的真正原因是什么?
公文主题词消失的原因浅析