受限玻尔兹曼机的新混合稀疏惩罚机制

2015-07-11 10:09张立民
浙江大学学报(工学版) 2015年6期
关键词:同质化权值惩罚

刘 凯,张立民,张 超

(1.海军航空工程学院 电子信息工程学系,山东 烟台264001;2.南海舰队装备部 军械处,广东 湛江524001)

基于能量模型的受限玻尔兹曼机(restricted Boltzmann machine,RBM)[1]以其简单的人工神经网络形式和快速的学习算法,受到越来越多机器学习研究人员的关注.目前,RBM 已经广泛应用于数据降维[2]、语音识别[3]、3D 物体识别[4]、图像转换[5]以及高维时间序列建模[6]等机器学习问题,进而催生出一个机器学习的新领域——深度学习[7].

RBM 在训练过程中存在特征同质化[8]现象.特征同质化原因在于RBM 学习到的特征过于相似,表现在模型连接权值列之间的相似度过高.鉴于所有隐单元都是在互不影响的基础上同时对训练数据进行无监督训练,所以当训练数据中存在某种共有特征时,隐单元在学习过程中均会受其影响.当隐单元数量过少时,特征同质化问题尤为突出.Lee等[9]证明由于模型学习受到数据共有特征的影响,会导致隐单元后验激活概率均偏高,影响数据的特征提取以及有效信息的丢失.目前克服该问题的方法是通过在训练过程中增加稀疏惩罚因子以调节隐单元的稀疏性,且已有多种RBM 稀疏惩罚因子被提出.Lee等[9]提出基于误差平方和的稀疏惩罚因子,通过稀疏化隐单元的偏置来克服同质化问题.Hinton[10]提出基于交叉熵的稀疏惩罚因子,通过连接权值和隐单元偏置进行RBM 稀疏化,并应用于深度信念网络的构建.Luo等[11]鉴于特征之间的统计相关性,通过引入隐单元激活概率的混合范数,构建了稀疏组受限玻尔兹曼机(sparse group restricted Boltzmann machine,SGRBM),但存在隐单元分组方式不明、无分组依据以及分组含义模糊等问题.Guo等[12]对SGRBM 进行扩展,构建了混合范数稀疏组受限玻尔兹曼机,通过增加范数调节因子更好地实现RBM 组内和组间稀疏,但仍然没有解决分组策略模糊的问题.鉴于以上模型的优缺点,本文提出一种混合形式的稀疏惩罚机制(hybrid sparse penalty mechanism,HSPM),并将其应用到RBM 训练以及深度学习模型——深度玻尔兹曼机(deep Boltzmann machine,DBM)的初始化中.该策略首先利用交叉熵稀疏惩罚因子对RBM 进行稀疏化处理,保证隐单元激活概率被设定在一个较低的水平上;然后引入基于连接权值列相似度的隐单元分组策略,构建隐单元稀疏组,进一步克服特征同质化问题.

1 稀疏受限玻尔兹曼

受限玻尔兹曼机是在玻尔兹曼机的基础上增加限定条件形成的,即层内单元无连接、层间单元全连接.稀疏 受 限 玻 尔 兹 曼 机(sparse restricted Boltzmann machine,SRBM)通过在RBM 训练目标函数叠加稀疏惩罚因子形成,且RBM 的训练即为最大化训练目标函数.

1.1 误差平方和稀疏惩罚因子

Lee等[9]通过在RBM 最大似然目标函数中增加基于误差平方和的稀疏惩罚因子设计了SRBM,并给出了SRBM 的标准训练目标函数为

式中:N 为训练样本个数;λ 为正则化常量,用于控制稀疏惩罚因子影响的;vn为第n 个训练样本;Pe代表稀疏惩罚因子;P (vn)为vn的条件概率.

误差平方和稀疏惩罚因子为

Lee等[9]指出,当应用SRBM 对自然图像进行特征提取时,SRBM 可以学习到类似于Gabor滤波的特征,该特征与人脑V1区简单细胞感应区十分相似.但该稀疏惩罚因子存在以下3个问题.

1)SRBM 的稀疏惩罚因子是隐单元的平均激活概率与p 之间的绝对误差平方和.当隐单元平均激活下降到p 附近时,Ps的作用随之减弱.

2)SRBM 的稀疏惩罚因子只影响隐单元偏置,没有考虑RBM 的连接权值.

3)SRBM 的隐单元仍保持相互独立的条件,但鉴于训练数据共有特性的影响,训练后的隐单元并不是完全独立.因此,忽略隐单元间的统计相关性而单纯降低所有隐单元的激活概率,并不能完全改善特征同质化问题.

1.2 交叉熵稀疏惩罚因子

相比于绝对误差平方和,交叉熵更适用于描述2个小概率分布之间的差异[13].Hinton[10]利用交叉熵概念提出了新的交叉熵稀疏惩罚因子:

Pc对RBM 的影响在于使RBM 在学习过程中的隐单元平均激活概率与p 之间的Kullback-Leiber距离达到最小,使隐单元具备整体稀疏性.

Hinton[10]的研究证明,相较于Ps,Pc的稀疏效果更好.但Pc同样没有解决隐单元之间的统计相关性问题.

1.3 稀疏组受限玻尔兹曼机

为解决隐单元间存在的统计相关性,Luo等[11]通过引入混合范数稀疏惩罚因子PL1/L2得到SGRBM,即首先完成隐单元分组并计算组内隐单元激活概率的二范数,随后计算各个组的一范数.

2 混合稀疏受限玻尔兹曼机

针对已有RBM 稀疏惩罚因子存在的不足,提出HSPM,以更好地克服RBM 的特征同质化问题.

2.1 混合稀疏惩罚机制

在信号理论中,所谓变量稀疏是指该随机变量仅在很少的时候取值非零,同时该值偏离0较远.隐单元的稀疏化表示大多数隐单元处于不激活状态,而仅仅部分隐单元表征训练数据;对于某一特定隐单元来说,稀疏化表示该隐单元仅被用来表征很少一部分训练数据,从而避免特征同质化问题.

鉴于Pc和PL1/L2的优缺点,确定混合稀疏受限玻尔 兹 曼 机(hybrid sparse restricted Boltzmann machine,HSRBM)的训练方式和HSPM 机理:首先利用交叉熵稀疏惩罚因子实现RBM 的初始稀疏化,然后利用连接权值矩阵W 的列相似性构建隐单元稀疏组,最后进行SGRBM 训练,整个流程如图1所示.

图1 混合稀疏惩罚机制流程图Fig.1 Hybrid sparse penalty mechanism flowchart

2.2 隐单元自适应分组策略

Luo等[11]指出:通过隐单元分组,使得隐单元在训练过程中不再条件独立,而受到局部其他隐单元的影响.但对隐单元进行均匀分组并不符合RBM的训练结果,因此需要研究新的隐单元分组策略.

RBM 的训练是对数据进行特征识别,将原始数据空间按照已识别好的特征映射至多维0-1空间,一组样本对应的0-1序列就是多特征组合.因此,隐单元分组主要取决于不同特征之间的相似度(本文以余弦相似度为例).设定RBM 模型连接权值大小为可见单位维数×隐单元维数,则连接权值的列数等于隐单元个数,因此不同的列就是模型学习到的不同特征.隐单元的自适应分组即是对连接权值的列进行自适应分组,其步骤如下所示:

1)选择连接权值的某一列j,若对应的隐单元没有参与分组,则计算该列与任意列i的余弦相似度,得到余弦相似度Sj-i;

2)比较Sj-i与分组参数α 的大小,若Sj-i>α 则列j 与i合并为一组,否则不合并;

3)重复1)和2),直至ij遍历完所有列.

由上可见,隐单元经过分组以后,相似度高的合并在一组内,而与其他隐单元差别较大的单元被单独分离出来.通过这种策略实现的隐单元分组,并不是单纯依靠经验进行,更加符合RBM 的训练现状,分组个数和组内单元个数也具有较强的自适应性.

下面对分组策略的可行性进行分析.由文献[11]可知,对RBM 隐单元分组实质上是通过正则化方法惩罚组内隐单元的总体激活程度,使组内隐单元在学习过程中不再条件独立,保证组内隐单元的相关性.以W 的学习为例,PL1/L2对其第j列的更新影响为

Luo等[11]证明,ΔW.j使得隐单元j 学习表示vn的速度会受到因子τ 的影响而变缓:

图2 τ因子随单个隐单元激活概率的变化曲线Fig.2 Curves ofτfactor with change of single hidden unit activation probability

2.3 参数更新

作为非监督训练的一个典型方法,训练RBM就是最大化训练集的对数似然概率[14].模型训练使用的是随机梯度下降法,对目标函数的参数求偏导,以此得出模型参数的更新值[15].

下面介绍在HSPM 中不同稀疏惩罚因子对模型参数的影响,并阐明其中不同变量的含义.

1)交叉熵稀疏惩罚因子对参数的影响

对于隐单元j,Pc对W.j和隐单元偏置bj的更新如下式所示:

2)隐单元分组稀疏对参数的影响

PL1/L2对RBM 参数的更新如下式所示:

2.4 混合稀疏深度学习模型

深度学习是一种建立、模拟人脑进行分析学习的神经网络.该模型通过模仿人脑处理信息机制来解释数据.通过组合低层特征,形成更抽象的高层表示属性类别或特征,以发现数据的分布式特征表示,其特点就是具有多隐藏层的感知器结构.

DBM 和深度信念网络(deep belief net,DBN)是2种常见的深度学习模型,均由多层RBM 叠加而成.不同之处在于DBM 的中间层与相邻层是双向连接的RBM,而DBN 只有最顶层是双向连接的RBM.由于DBM 和DBN 的学习均需要对叠加的RBM 进行贪婪逐层初始化训练,将混合稀疏惩罚机制引入到模型训练中,可以形成基于混合稀疏惩罚机制的深度学习模型:混合稀疏深度玻尔兹曼机(hybrid sparse deep Boltzmann machine,HSDBM)和混合稀疏深度信念网络(hybrid sparse deep belief net,HSDBN).

3 实 验

实验集采用修正美国国家标准与技术局(MNIST)手写体字符识别数据集和多伦多人脸集(Toronto face database,TFD)[16].其中MNIST 数据集包含0~9的10个手写数字图像,每幅图像大小为28×28.随机选取60 000幅图像用于训练,其余图像用于测试.选用TFD 中4 178幅已经做好表情标识、大小为48×48的人脸图像,包含高兴、厌恶、害怕、愤怒、悲伤、惊讶以及平静7 种表情.MNIST 实验主要用于不同稀疏惩罚因子对于特征提取的有效性检验,而TFD 实验用于RBM 特征提取的可视化显示.

3.1 连接权值相似度度量

为了量化W 的列相似程度,提出一种基于W列余弦相似度的度量.对于维度大小为T×M 的矩阵W(T 为训练数据维度),其列相似度为

Sim(W )表示W 各列之间的平均余弦相似度.可以看出,Sim(W )在区间[0,1.0]内,该值越大,表示W 各列之间越相似,也就表明各隐单元的相关性越强即特征同质化越严重.反之,说明特征同质化得到改善.

3.2 MNIST实验及分析

为有效测试不同稀疏惩罚因子对于特征提取的有效性,从2个方面进行实验对比:1)判断稀疏惩罚因子是否能够有效改善RBM 的特征同质化问题;2)检验HSRBM 在提取手写字特征和增强隐单元稀疏度上是否优于SGRBM.

在RBM 训练过程中,参数的学习速率统一设置为η=0.01,循环次数κ≤1 000,p=0.01,α=0.7.在完成手写字特征提取以后,采用LIBSVM[17]提供的径向基支持向量机(RBF-SVM)和线性支持向量机(LSVM)作为最终分类器,其中参数设置除了核函数选择不同外,其余均采用默认设置.

实验1:设置不同的隐单元个数,分别计算采用误差平方和、交叉熵稀疏惩罚因子形成的SRBM 连接权值的列相似度和分类准确率δ,实验结果如表1所示,在分类准确率对应的列中,相同稀疏惩罚因子下的左右两列数据分别以RBF-SVM 为分类器和以LSVM 为分类器的实验结果.

表1 不同稀疏惩罚因子下RBM 的连接权值相似度和分类准确率的对比Tab.1 Comparison of RBM’s connect weights similarity and classified accuracies under different sparse penalty factors

从表1Sim(W )列的纵向数据可以看出:随着隐单元个数的增加,该值呈现减小的趋势,这表明RBM 的特征同质化问题得到改善.在隐单元个数相同的条件下,采用Ps和Pc均使得Sim(W )值变小.从δ的纵向数据可以看出:无论采用RBF-SVM 还是LSVM,当隐单元过小时,分类准确率较差,但当Pe≠0特别是Pe=Pc时,δ变大;类似于Sim(W )值,δ随着M 的增加而变大,但会接近较为稳定的极值.同时,当M≤100时,采用RBF-SVM 的δ值高于LSVM 的δ值;当M 较大时,LSVM 的δ较大.

从以上分析可以得出3个结论:1)Pe能够解决RBM 的特征同质化,并且Pc的稀疏性能优于Ps;2)当M 过小时,特征同质化较为明显,随着M 变大,该问题得到缓解;3)当样本数N 远超过M 时,SVM 选用非线性核较好,反之,应当采用线性核.

实验2:由 表1 数 据 发 现,当M =16 时,Sim(W )和δ 对Pe较为敏感.因此实验2设置M=16,训练HSRBM 完成实验.

通过HSPM,隐单元被自动分为12组,其中单元1与单元15一组;单元3与单元14一组,单元5与单元13一组,单元7与单元10一组,其余单元单独成组.为了对比分组可行性,分别设置分组单元为2(8个稀疏组)和分组单元为1(16个稀疏组)的2种SGRBM 进行对比,实验结果如表2所示.

表2 SGRBM 与HSRBM 的实验结果对比Tab.2 Comparison of SGRBM and HSRBM experiment results

从表1和2可以看出,HSRBM 在Sim(W)和δ上均达到了最优结果.原因在于,HSRBM 内同组隐单元相关性较强,其τ值高于SGRBM 随机分组后的相关τ值,使得隐单元特征更局部化.

为直观显示不同PE对于RBM(M=16)特征同质化的影响,对W 进行可视化显示(W 维数为784×16,故任意列向量可以看作是由28×28的图像按照行序号首尾相接而形成的),其对应的列示意如图3所示.

图3 RBM 连接权值列示意图Fig.3 Schematic diagram of RBM connection weights

如图4所示为当PE=0时的连接权值.可以看出,W 出现了严重的特征同质化现象,表现在C1-C4以及C5-C6对应的列向量极为相似,并且类似于白噪声,因此这6列对于特征提取是没有意义的.在测试集中,相对应的隐单元P (hj)=0.99,方差不超过0.000 1,此结果证明了这一问题.如图5所示为当Pe=Pc时的连接权值.可以看出,特征同质化现象已经得到了抑制,但仍然存在,如:C1与C15相似度过高,这也可以从隐单元自适应分组结果中看出.

图4 Pe=0的RBM 连接权值可视化Fig.4 Visualization of RBM connection weights when Pe=0

图5 Pe=Pc的SRBM 连接权值可视化Fig.5 Visualization of SRBM connection weights when Pe=Pc

图6 Pe=PL1/L2 的SGRBM 连接权值可视化Fig.6 Visualization of SGRBM connection weights when Pe=PL1/L2

如图6所示为当Pe=PL1/L2时的连接权值,可以看出SGRBM均存在较为严重的特征同质化现象,例如图6(a)中C7 和C13、图6(b)中C4、C9、C10、C14和C16,并且可以从出现特征同质化的W列数量上判断出,组内单元个数为1的SGRBM 其δ较好,但低于交叉熵稀疏惩罚因子.

如图7所示为HSPM 下的连接权值,从图中可以看出,连接权值没有出现类似于图5的高斯白噪声图像,并且结合表2 数据,证明了HSRBM 的连接权值相似度和分类准确率均较好.

图7 基于HSPM 的RBM 连接权值可视化Fig.7 Visualization of RBM connection weights based on HSPM

3.3 TFD人脸实验及分析

由于手写数字图像提取出的特征过于抽象,难以解释隐单元分组含义,选用TFD 集作为实验对象,以给出隐单元分组的直观解释.

实验设定:定义T=2 304和M=20,其余参数参照MNIST 实验设置,并按照3.2节中连接权值的显示.经过训练,无稀疏惩罚因子的连接权值如图8所示(列示意类似于图3).可以看出,大多数列没有学习到有效的人脸表情特征,而是出现了特征同质化,表现在所有列对应的表情大体相似,差别较大的只是五官,如C7、C8、C15以及C19等.

图8 TFD实验中Pe=0的RBM 连接权值可视化Fig.8 Visualization of RBM connection weights when Pe=0in TFD experiments

图9 TFD实验中Pe=Pc的SRBM 连接权值可视化Fig.9 Visualization of SRBM connection weights when Pe=Pcin TFD experiments

如图9所示为当Pe=Pc时的连接权值可视化图.可以看出,经过隐单元稀疏化以后,各列已经显示出较为明显的表情变化,且各列的五官相互之间有了较大的差别,但是仍然存在着个别列模糊不清的问题,如C4和C18.

在SRBM 基础上执行HSPM,隐单元被自动分为13组,其中单元1、8、13、20一组;单元3与14一组;单元10与11一组;单元15与16、17一组;其余单元各自成组.其模型的连接权值可视化如图10所示.

图10与图9之间的绝对值差如图11所示,表示经过分组稀疏以后,连接权值的更新度.从图中可以看出,经过RBM 后续的稀疏分组,连接权值增强了原SRBM 的表情特征.

图10 TFD实验中基于HSPM 的RBM 连接权值可视化Fig.10 Visualization of RBM connection weights based on HSPM in TFD experiments

图11 TFD实验中HSRBM 与SRBM 连接权值差值可视化Fig.11 Visualization of connection weights'D-value between HSRBM and SRBM in TFD experiments

图12 TFD实验中HRBM 隐单元组示意图Fig.12 Schematic of HRBM hidden unit groups in TFD experiments

如图12所示为HSRBM 中组内单元较多的隐单元组对应的W 列示意图.可以发现,相同组内的表情较为接近,且这4个组分别类似于高兴、悲伤、平静以及惊讶的表情.因此,TFD 中的隐单元分组可视为人脸不同表情的分组.

3.4 混合稀疏深度玻尔兹曼机

当前RBM 的主要应用在于初始化深度学习网络[18].DBM 对于数据的泛化能力较强于DBN[19],因此实验只采用HSRBM 初始化DBM,从而构建HSDBM.

在MNIST 集上,使用Salakhutdinov等[20]提出的网络结构,即使用HSRBM 初始化784-500-200网络,稀疏系数同以上实验.在完成深层结构的贪婪逐层初始化以后,使用BP算法对网络参数进行精调,最终得到分类准确率为99.02%.相比于Salakhutdinov等[20]给出的准确率98.86%,有了较大提高.

4 结 语

本研究提出了一种基于RBM 的混合稀疏惩罚机制,并在MNIST 集和TFD 集上进行了实验验证.模型的训练分为3步:利用Pc对RBM 进行初始训练;按照连接权值对隐单元分组构建隐单元稀疏组;利用SGRBM 训练方法对模型参数进行精调.Pc保证RBM 的稀疏性得到优化,隐单元自动分组策略使得同组内隐单元保持较强的统计相关性,从而提高组内惩罚度.实验结果表明:HSRBM 在处理特征同质化问题上优于以往的SRBM 模型.今后工作应当继续尝试新的稀疏惩罚因子,并详细分析模型参数对训练学习的影响,将深度学习模型应用到更多领域.

):

[1]刘建伟,刘媛,罗雄麟.玻尔兹曼机研究进展[J].计算机研究与发展,2014,51(1):1-16.LIU Jian-wei,LIU Yuan,LUO Xiong-lin.Research and development on boltzmann machine[J].Journal of Computer Research and Development,2014,51(1):1-16.

[2]陈宇,郑德权,赵铁军.基于Deep Belief Nets的中文名实体关系抽取[J].软件学报,2012,23(10):2572-2585.CHEN Yu,ZHENG De-quan,ZHAO Tie-jun.Chinese relation extraction based on deep belief nets[J].Journal of Software,2012,23(10):2572-2585.

[3]MOHAMED A,DAHL G E,HINTON G E.Acoustic modeling using deep belief networks[J].IEEE Transactions on Audio,Speech,and Language Processing,2012,20(1):14-22.

[4]SCHMAH T,HINTON G E,ZEMEL R,et al.Generative versus discriminative training of RBMs for classification of fMRI images[C]∥Proceedings of the 22rd Annual Conference on Neural Information Processing Systems.Whistler:NIPS,2008:1409-1416.

[5]MEMISEVIC R,HINTON G E.Unsupervised learning of image transformations [C]∥Proceedings of 2007 IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2007:1-8.

[6]TAYLOR G W,SIGAL L,FLEET D J,et al.Dynamical binary latent variable models for 3D human pose tracking[C]∥Proceedings of 2010IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2010:631-638.

[7]林妙真.基于深度学习的人脸识别研究[D].大连:大连理工大学,2013:24-69.LIN Miao-zhen.Research on face recognition based on deep learning[D].Dalian:Dalian University of Technology,2013:24-69.

[8]罗恒.基于协同过滤视角的受限玻尔兹曼机研究[D].上海,上海交通大学,2011:70-79.LUO Heng.Restricted Boltzmann machines:a collaborative filtering perspective[D].Shanghai:Shanghai Jiao Tong University,2011:70-79.

[9]LEE H,EKANADHAM C,NG A.Sparse deep belief net model for visual area V2[C]∥Proceedings of the 21rd Annual Conference on Neural Information Processing Systems.Vancouver:NIPS,2007:873-880.

[10]HINTON G E.A practical guide to training restricted Boltzmann machines[R].Canada,Toronto University:Machine Learning Group,2010.

[11]LUO H,CHANG Y N,RUI M S,et al.Sparse group restricted boltzmann machines[C]∥Proceedings of 25th Conference on Innovative Applications of Artificial Intelligence.San Francisco:AAAI,2011:1207-1216.

[12]GUO R,QI H.Partially-sparse restricted boltzmann machine for background modeling and subtraction[C]∥Proceedings of 2013IEEE Conference on Machine Learning and Applications.Piscataway:IEEE,2013:209-214.

[13]吴一全,张晓杰,吴诗婳.2维对称交叉熵图像阈值分割[J].中国图像图形学报,2011,11(8):122-126.WU Yi-quan,ZHANGE Xiao-jie,WU Shi-hua.Twodimensional symmetric cross-entropy image thresholding[J].Journal of Image and Graphics,2011,11(8):122-126.

[14]BENGIO Y.Learning deep architectures for AI[J].Foundations and Trends in Machine Learning,2009,2(1):1-127.

[15]LENG B,ZHANG X,YAO M,et al.A 3D model recognition mechanism based on deep Boltzmann ma-chines [J]. Neuro Computing,2015,151 (2):593-602.

[16]SUSSKIND J.The Toronto face database[R].Canada,Toronto University:Machine Learning Group,2011.

[17]CHANG C C,LIN C J.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology,2011,2(3):27-33.

[18]KUREMOTO T,KIMURA S,KOBAYASHI K,et al.Time series forecasting using a deep belief network with restricted Boltzmann machines[J].Neuro computing,2014,137(5):47-56.

[19]SRIVASTAVA N,SALAKHUTDINOV R.Multimodal learning with deep Boltzmann machines[J].Journal of Machine Learning Research,2014,15(4):2949-2980.

[20]SALAKHUTDINOV R,HINTON G E.Deep Boltzmann machines[C]∥Proceedings of 12th International Conference on Artificial Intelligence and Statistics.Florida:AISTATS,2009:448-455.

猜你喜欢
同质化权值惩罚
一种融合时间权值和用户行为序列的电影推荐模型
神的惩罚
Jokes笑话
立足“小我” 彰显“大我”——家国情怀类作文如何避免同质化表达
强规划的最小期望权值求解算法∗
程序属性的检测与程序属性的分类
怎样看待农产品电商的同质化
基于权值动量的RBM加速学习算法研究
同质化叙述中的价值重构——从韩剧《太阳的后裔》说开去
真正的惩罚等