一种半监督重复软最大化模型

2015-11-04 06:19邢国正江雨燕李常训
计算机工程 2015年9期
关键词:玻尔兹曼文档分布式

邢国正,江雨燕,吴 超,李常训

(安徽工业大学管理科学与工程学院,安徽马鞍山243002)

一种半监督重复软最大化模型

邢国正,江雨燕,吴 超,李常训

(安徽工业大学管理科学与工程学院,安徽马鞍山243002)

概率主题模型由于其高效的数据降维和文档主题特征挖掘能力被广泛应用于各种文档分析任务中,然而概率主题模型主要基于有向图模型构建,使得模型的表示能力受到极大限制。为此,研究分布式主题特征表示和基于无向图模型玻尔兹曼机的重复软最大化模型(RSM),提出一种半监督的RSM(SSRSM)。将SSRSM、RSM模型提取的主题特征应用于多标记判别任务中,实验结果表明,相比LDA和RSM模型,SSRSM模型具有更好的多标记判别能力。

主题模型;无向图模型;重复软最大化模型;半监督模型;特征学习

1 概述

概率主题模型[1]被广泛应用于大规模语料数据的分析和语义主题提取过程中[2]。大部分概率主题模型都假设每个文档可以表示成若干个主题混合的形式,其中每一个主题都是由所有词组成的多项分布。这些模型可以看成是包含隐含主题变量的有向概率图模型,在隐含变量和观测变量之间存在有向连接。这种结构使得对概率主题模型的精确求解变得非常困难,必须使用估计方法来计算模型主题的后验概率[3]。有向图结构的另一个缺点是无法对产生概率大于主题组合的单词进行有效预测,同时也无法预测产生概率小于主题组合的单词。这使得概率主题模型无法有效提取分布式表示的特征[4],模型拟合能力较差。

分布式特征表示是指语义特征并不是仅存在于一个主题之中,而是通过多个主题特征以相乘的方式组合而成的。在概率主题模型中,语义特征是由主题混合通过加权和的方式表达的,其语义表示能力要比分布式的表示方式弱。尽管分布式的表示方式提取的单个主题信息可能相对于概率主题模型的主题表示能力较弱,但是由于通过特征相乘的方式,分布式将具有更强的文档表示能力。为此,本文提出一种可以有效利用文档多标记信息的半监督重复软最大化模型(Semi Supervised Replicated Softmax Model,SSRSM)。

2 基于无向图模型的概率主题模型

2.1 受限玻尔兹曼机

由于基于有向图模型的概率主题模型在模型优化和语义表示方面暴露出的缺点,如何将无向图模型和分布式特征表示进行有效结合已经成为工业界和学术界研究的重点。近年来,已有一些学者通过使用玻尔兹曼机[5]来构建类似于概率主题模型的语义结构,并且取得了一定的进展。

玻尔兹曼机是一种两层随机单元组成的网络结构。这些随机单元可以分为2类,分别为可见单元ν∈{0,1}dν表示输入数据,隐含单元h∈{0,1}dh,其中,ν和h均为向量,隐含单元与可见单元是互补先验的关系。

通常不能直接求解玻尔兹曼机的参数,例如在计算hi的条件概率P(hi|ν)时,需要根据如下公式求解:

因此,需要对2dh-1个项求和,这使得P(hi|ν)的计算非常困难。

为了简化玻尔兹曼机的求解,需要对其添加一定的条件约束,进而简化参数估计的计算过程。受限波尔兹曼机(Restricted Boltzmann Machine,RBM)[6]可以看成是一类添加了条件约束的玻尔兹曼机,其定义方式与玻尔兹曼机相似,但添加了2个约束,即在隐含单元之间不存在无向图连接,同时在可见单元之间也不存在无向图连接。一个包含3个隐含单元和4个可见单元的受限玻尔兹曼机结构如图1所示。在这个条件约束下RBM具有许多优良的性质,首先在给定可见单元的情况下,隐含单元的条件概率分布是可分解的,使得对其求解变得简单、可行。目前已经有许多求解RBM模型参数的方法,包括投影寻踪方法[7]、对比分歧[8]方法、随机最大似然方法[9]等。

图1 受限玻尔兹曼机

2.2 基于受限波尔兹曼机的概率主题模型结构

RBM作为一种隐含变量模型,已经被广泛应用于图像特征提取、数据降维等任务中[10]。近年来一些学者已开始将RBM应用于文档主题提取中,并且取得了良好的效果。

文献[11-12]使用泊松分布来模型化词计数向量,并且采用RBM作为可见单元到隐含单元的映射模型来提取文档主题特征。其提出的模型在文档特征的分布式表示方面取得了良好的效果。然而,该模型无法处理不同长度的文档数据,使得模型学习变得困难、不稳定,这也是该模型无法在真正的生产环境中被使用的重要原因。而有向图模型在建模过程中通过直接将语料中未出现的词对应的结点删除的方式,可以简洁地处理不同文档长度导致的问题,这也是有向图模型与无向图模型建模的不同之处。

文献[13]通过引入约束泊松模型的方式来模型化文档数据,尽管其参数学习过程是稳定的,然而其关于词计数的分布不是一个正规的概率分布形式,导致无法合理解释提取的特征信息。文献[14]提出了RSM模型,该模型可以通过CD方法快速训练,同时可以更好地处理不同长度的文档,在计算隐含主题变量的分布时更加简单。

文献[15]采用深层玻尔兹曼机(Deep Boltzmann Machine,DBM)的方式对RSM模型进行了改进,并且取得了较好的效果。然而该模型由于采用多层RBM的方式构建,其计算复杂度较高,无法用于大规模数据处理任务中。

同时,尽管RSM和DBM模型在文档主题提取和分布式特征学习方面具有优良的性质,但是这类模型与标准LDA模型相似,都无法处理含有类别标记的文档数据[16],即它们都是无监督特征提取模型。这导致提取的特征被应用于监督学习中时产生一定的问题[17]。因此,在RSM模型研究中如何将RBM的分布式特征提取和监督或半监督学习结合已经成为人们研究的重点内容。

3 模型描述

3.1 模型定义

本文通过对文档标记与主题之间的映射关系[18]的研究,提出一种半监督Replicated Softmax模型(Semi-supervised Replicated Softmax Model,SSRSM)。设整个语料库中包含的不同标记数为L,语料库中第d个文档的长度为D。ν∈{1,2,…,K}D表示RBM对应的可见单元,其中,K为字典中包含词的数量表示文档中包含词的数量。h∈{0,1}Fd表示二进制随机隐含主题特征,其中,Fd的值由文档d的多标记决定。设矩阵A为一个S×L维的矩阵,S表示语料库中包含的文档数量。矩阵A可以看成是一个文档标记识别矩阵,若第d个文档存在第l个文档标记,则Adl=1,否则Adl=0。设文档d对应的RBM包含2种隐含单元,分别为共享隐含单元和独享隐含单元。其中,共享隐含单元与文档无关,即语料库中所有的文档对应的RBM均含有相同的共享隐含单元。文档对应的RBM除了含有共享隐含单元外,每个文档标记还存在若干个独享隐含单元。设文档包含的共享隐含单元数为Fs,对于第d个文档对应的独享隐含单元数为sum(Ad)×Fl,其中,sum(Ad)表示矩阵A第d行元素的和,Fl表示每个标记对应的独享隐含单元的数量。由此可以得到,文档d对应的Fd的值为Fd= Fs+sum(Ad)×Fl。

设矩阵B为一个d×(Fs+L·Fl)的矩阵,定义其为文档对应的隐含单元识别矩阵,其中,前Fs列元素全部为1,表示共享隐含单元,对于其余Fs+ 1~Fs+L·Fl列元素对应文档的独享隐含单元,若矩阵Aij=1,则矩阵B的第i行的Fs+(j-1)Fl~Fs+j·Fl元素全部为1,否则为0。

设语料库中存在2篇文档分别为d1和d2,2篇文档包含不同的标记个数为3个,设每篇文档对应的共享隐含单元数为2,每个标记对应的局部隐含单元数为2,设文档d1包含标记1和标记3,则其对应的SSRSM模型如图2(a)所示。设文档d2包含标记1和标记2,则其对应的SSRSM模型如图2(b)所示。

图2 SSRSM模型结构

3.2 模型推理

对于文档d,根据模型定义可以得到在{V,hd}状态的能量函数为:

其中,{W,b,a}表示模型参数;V为一个K×D维的矩阵。如果第i可见单元对应的第K个词在文档中出现,则,否则由此可以得到矩阵V概率为:

可见,单元和隐含单元的条件概率为:

假设不考虑文档中词出现的顺序,每个文档对应的RBM与其他文档的RBM具有相同的参数集合,可以得到在{V,hd}状态的能量函数为:

其中,EPdata[·]表示数据分布Pdata(V)的期望;表示em pirical分布;EPModel[·]表示模型分布的期望。在该模型中,计算EPModel[·]的计算量与m in{D,F}呈指数关系,通常不能精确计算最大似然函数。为了有效计算EPModel[·]的值,采用CD方法实现估计其值。目标函数参数的调节量为:

其中,α表示学习率或步长;PT表示通过T步完整的Gibbs Sampling[19]采样获得的分布。

4 实验结果及分析

4.1 主题提取

为了充分验证本文提出模型的主题提取能力,将该模型与标准LDA模型、Replicated Softmax模型进行了比较。对于无向图模型,由于在计算全局正规化项时需要计算和遍历指数个概率项,因此直接计算文档的hold-out概率是不可行的。在实验过程中采用文献[20]提出的退火重要性采样(Annealed important Sam pling,AIS)方法来估计RBM的划分函数。

其中,χ(i)~PA。然而当PA(χ)和PB(χ)的值并不十分接近时,估计值将变得不精确。尤其是在较高维空间时,估计的误差将会非常大,除非PA(χ)与PB(χ)非常接近,否则不能够获得有效的估计。

退火重要性采样可以看成是简单重要性采样方法在高维空间的改进。AIS使用了大量的辅助变量使PA(χ)接近目标分布PB(χ)。AIS定义了一系列概率分布P0,P1,…,PS,其中,P0=PA且PS=PB。通常可以通过如下方法定义分布系列:

令:

其中,0=β0<β1<…<βK=1。同时对于每个PK(χ)定义一个马尔科夫链状态转移操作TK(χ′;χ)。

对于包含D个词的文档可以推导出{V,h}的联合概率分布为:

通过将h积分掉可以非正规化概率P*(V),这时可以定义分布序列:

当s=0时,可以得到βs=0,P0表示均匀分布,其划分函数为Z0=2F,F表示隐含单元的数量。一轮A IS迭代过程如下:

AIS首先从均匀分布P0(V)中采样,接着应用一系列的状态转移操作T1,T2,…,TS-1,使得样本从P0(V)分布移动到Ps(V)分布。在运行完MAIS过程后,可以通过重要性权重获得模型划分函数的无偏估计:

实验中为了充分验证模型的主题特征提取能力,分别将本文提出的模型与标准LDA模型和RSM模型进行了比较,在多标记数据集enron和bibtex下,模型perp lexity的测试结果如图3~图6所示。

图3 PerPlexity随共享隐含单元数增加的变化情况1

图4 PerPlexity随共享隐含单元数增加的变化情况2

图5 PerPlexity随共享隐含单元数增加的变化情况3

图6 PerPlexity随共享隐含单元数增加的变化情况4

图3 表示在enron数据集下每个标记对应1个独享隐含单元时,perplexity随着共享隐含单元数增加的变化情况。图4表示在enron数据集下每个标记对应2个独享隐含单元时,perplexity随着共享隐含单元数增加的变化情况。图5、图6分别表示在bibtex数据下,每个标记对应的独享隐含单元数为1,2时,perplexity随共享隐含单元数增加的变化情况。在上述实验中,LDA的主题数和RSM隐含单元数均设置为SSRSM模型独享单元数与共享单元数的总数。在实验过程中,分别取90%数据作为训练集,10%的数据作为验证集。可以看出,本文提出的模型在独享隐含单元(或主题)数确定的情况下,随着共享主题数的增加,模型的perplexity呈下降趋势,并且当共享隐含单元数增加到一定量时,SSRSM的perp lexity的值要明显小于RSM和LDA模型。因此,可以说明本文提出的SSRSM模型具有优于标准LDA模型和RSM模型的主题提取能力。

4.2 测试结果

模型特征提取能力判定的另一个标准是将学习到的特征应用于监督学习中。本文实验过程中将SSRSM模型获得的特征应用于MLKNN[21]模型多标记判别任务中,并与RSM模型进行了比较。实验中使用10折交叉验证,测试结果如表1、表2所示。

表1 RSM提取特征的测试结果

表2 SSRSM提取特征的测试结果

可以看出本文提出SSRSM模型提取的特征在分类任务中具有明显优于RSM的性能,尤其是在模型召回率、模型准确率、平均精度、覆盖率、错误率、排名丢失率、微平均F值判别标准下,文档多标记判别的准确性要明显高于RSM模型。而在其他判定标准下,虽然SSRSM模型的优点并不明显,但仍然高于RSM模型。

5 结束语

本文通过对分布式主题特征提取和RSM模型的研究,结合概率主题模型监督学习实现方法,提出一种半监督的RSM模型,并且通过实验验证了该模型具有优于LDA模型和RSM模型的主题特征提取能力。近年来基于RBM的深度结构模型[22]被广泛应用于图像识别、自然语言处理等任务中,并取得了良好的效果。

本文提出的SSRSM模型也可以作为深结构的构件,从而实现一种新的深入学习模型,进一步提升模型性能。

[1] Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3(3):993-1022.

[2] Wei Xing,CroftW B.LDA-based Docum ent Models for Ad-hoc Retrieval[C]//Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM Press,2006:178-185.

[3] Teh Y W,Newman D,Welling M.A Collapsed Variational Bayesian Inference Algorithm for Latent Dirichlet Allocation[M].Cambridge,USA:M IT Press,2006.

[4] Elman J L.Distributed Representations,Sim ple Recurrent Networks,and Grammatical Structure[J].Machine Learning,1991,7(2/3):195-225.

[5] Ackley D H,Hinton G E,Sejnowski T J.A Learning Algorithm for Boltzmann Machines[J].Cognitive Science,1985,9(1):147-169.

[6] Tielem an T.Training Restricted Boltzmann Machines Using Approximations to the Likelihood Gradient[C]// Proceedings of the 25th International Conference on Machine Learning.New York,USA:ACM Press,2008:1064-1071.

[7] Freund Y,Haussler D.Unsupervised Learning of Distributions on Binary Vectors Using Two Layer Networks[J]. Neural Computation,2002,14(8):1711-1800.

[8] Hinton G E.Products of Experts[C]//Proceedings of the 9th International Conference on Artificial Neural Networks. Washington D.C.,USA:IEEE Press,1999:1-6.

[9] Younes L.On the Convergence of Markovian Stochastic Algorithms with Rapidly Decreasing Ergodicity Rates[J]. International Journal of Probability and Stochastic Processes,1999,65(3/4):177-228.

[10] Boureau Y,Cun Y L.Sparse Feature Learning for Deep Belief Networks[D].New York,USA:New York University,2007.

[11] Gehler P V,Holub A D,Welling M.The Rate Adapting Poisson Model for Information Retrieval and Object Recognition[C]//Proceedings of the 23rd International Conference on Machine Learning.New York,USA:ACM Press,2006:337-344.

[12] Xing E P,Yan Rong,Hauptmann A G.M ining Associated Text and Images with Dual-w ing Harmoniums[C]// Proceedings of the 21st Conference on Uncertainty in Artificial Intelligence.Berlin,Germany:Springer,2005:633-641.

[13] Salakhutdinov R,Hinton G.Sem antic Hashing[C]// Proceedings of SIGIR Workshop on Information Retrieval and Applications of Graphical Model.Berlin,Germany:Springer,2007.

[14] Hinton G E,Salakhutdinov R.Replicated Softmax:An Undirected Topic Model[C]//Proceedings of Conference on Neural Information Processing Systems.Berlin,Germany:Springer,2009:1607-1614.

[15] Srivastava N,Salakhutdinov R R,Hinton G E.Modeling Documents with Deep Boltzmann Machines[Z].2013.

[16] Salakhutdinov R,Mnih A,Hinton G.Restricted Boltzmann Machines for Collaborative Filtering[C]//Proceedings of the 24th International Conference on Machine Learning. New York,USA:ACM Press,2007:791-798.

[17] 江雨燕,李 平,王 清.用于多标签分类的改进Labeled LDA模型[J].南京大学学报:自然科学版,2013,49(4):425-432.

[18] 江雨燕,李 平,王 清.基于共享背景主题的Labeled LDA模型[J].电子学报,2013,41(9):1794-1799.

[19] Casella G,George E I.Explaining the Gibbs Sam-pler[J]. The American Statistician,1992,46(3):167-174.

[20] Neal R M.Annealed Importance Sampling[J].Statistics and Computing,2001,11(2):125-139.

[21] Zhang M inling,Zhou Zhihua.M L-KNN:A Lazy Learning Approach to Multi-label Learning[J].Pattern Recognition,2007,40(7):2038-2048.

[22] Bengio Y.Learning Deep Architectures for AI[J]. Foundations and Trends in Machine Learning,2009,2(1):1-127.

编辑顾逸斐

A Semi-suPervised RePlicated Softm ax Model

X ING Guozheng,JIANG Yuyan,WU Chao,LIChangxun
(School of Management Science and Engineering,Anhui University of Technology,Maanshan 243002,China)

Recently probabilistic topic models are widely used because of high performance of dimension reduction and topic features mining.However,topic models are built based on directed graph model which limits the performance of data representation.This paper based on the studies on distributed feature representation and Replicated Softmax Model(RSM)which is based on the Restricted Bolzmann Machine(RBM)proposes a Semi Supervised Replicated Softmax Model(SSRSM).Experimental results show that the SSRSM outperforms LDA and RSM in task of topics extraction.In addition,by using the features learned by SSRSM and RSM in task of multi-label classification,it is shown that SSRSM has a better performance of multi-label learning than RSM.

topic model;undirected graph model;Rep licated Softmax Model(RSM);sem i-supervised model;feature learning

邢国正,江雨燕,吴 超,等.一种半监督重复软最大化模型[J].计算机工程,2015,41(9):209-214.

英文引用格式:Xing Guozheng,Jiang Yuyan,W u Chao,et al.A Sem i-supervised Replicated Softmax Model[J]. Computer Engineering,2015,41(9):209-214.

1000-3428(2015)09-0209-06

A

TP311

10.3969/j.issn.1000-3428.2015.09.039

国家自然科学基金资助项目(71172219);国家科技型中小企业创新基金资助项目(11C26213402013)。

邢国正(1977-),男,讲师,主研方向:机器学习;江雨燕,教授;吴 超、李常训,硕士研究生。

2015-01-15

2015-02-16 E-m ail:xgztt@ahut.edu.cn

猜你喜欢
玻尔兹曼文档分布式
浅谈Matlab与Word文档的应用接口
基于四参数随机生长法重构土体的格子玻尔兹曼细观渗流研究
有人一声不吭向你扔了个文档
非对称弯道粒子惯性迁移行为的格子玻尔兹曼模拟
分布式光伏热钱汹涌
分布式光伏:爆发还是徘徊
基于RI码计算的Word复制文档鉴别
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
基于DDS的分布式三维协同仿真研究
浅谈玻尔兹曼分布的微小偏离量所引起的微观状态数的变化