基于集成GMM聚类的少标记样本图像分类

2019-07-03 06:58张鹏飞董敏周端军红

西北工业大学学报 2019年3期

张鹏飞, 董敏周, 端军红

(1.西北工业大学航天学院, 陕西西安 710072; 2.空军工程大学防空反导学院, 陕西西安 710043)

自从2012年神经网络之父亨特及其学生使用深度学习技术搭建AlexNet在Image Net比赛中取得比传统方法高出许多的准确率之后[1],深度学习技术开始得到人们广泛关注并在图像分类、语音识别、自然语言处理中取得了很好的效果[2-4]。卷积神经网络训练出的模型也具有很好的泛化能力。然而,卷积神经网络要想有较高的准确率及较好的泛化能力,往往需要大量的已标记样本用于训练,人工标记样本往往涉及到成本问题,这对于那些已标记样本数据过少的领域就提出了一定的挑战。随着互联网技术及移动互联网技术的不断发展,当前我们往往可以通过网络获取到大量的数据,与此同时,在许多的应用场景中,我们还面临着虽然有着大量的数据,但其中已标记数据占比过少的问题,以遥感目标检测与识别为例,可以较为轻松地从谷歌地球等网站获取大量的遥感图像,但其中有标记的图像占比较小,这不利于使用深度学习方法去训练模型。因此,如何充分利用大量的未标记样本与少量的已标记样本去共同训练模型是我们所关心的问题[5]。

有一种利用未标记数据去训练模型的思路是这样的:利用已标记数据与未标记数据的相似度,对未标记的数据添加标签,从而获得大量的有标签数据去训练模型。聚类算法往往就是根据数据的相似度实现数据的聚类,这就使得通过数据聚类再加上一定的赋予标签规则利用未标记数据成为了可能。高斯混合模型(GMM)[6-7]是一种聚类算法,模型假设观测数据来自于K个m维的高斯分布,其中K为数据分类的类别数目,m为数据的特征数目。与常用的K均值算法相比,GMM假设的模型分布一般与数据的真实分布更加一致。文献[8]提出基于集成聚类的分类架构并取得了较好的效果,但是并未给出如何将集成聚类思想应用于解决少标记样本分类问题的方法。本文将结合集成GMM聚类算法与标签传递思想,提出一种用于解决少标记样本图像分类问题的理论框架,更好地利用未标记的数据训练网络。

在本课时正文的第二段，类比三角形全等的判定，教材以问题“类似地，判定两个三角形相似时，是不是也存在简便的判定方法泥”引出探究话题(定理1)．在探索定理1时，教材安排了对图1中l1， l2，被三条平行线l3，l4，l5截得的线段长度的度量和长度比值的计算，让学生通过反复操作与运算，发现并归纳基本事实(即定理1)．为了引出“平行判定法”，教材在得出定理1后，将图1中的两根相交直线特殊化，将其交点挪到了这组平行线的一条直线上，形成了图2、图3，并据图2、图3归纳出定理2．

1 基于GMM与标签传递的少标记样本图像分类实现方案

1.1 方案总体框架

本文结合无监督聚类算法与标签传递的思想对未标记数据添加标签,然后将这些拥有标签的数据用于训练分类器,方案的总体框架如下:

1) 采用GMM对少标记样本的特征数据进行聚类,无标签数据与有标签数据都会被用于聚类。

2) 基于标签传递的思想,确定给无标签数据赋予标签的规则,采用投票表决的方式对无标签数据赋予标签。

本组收治的患者共20例,男14例,女6例,年龄在17-62岁之间,平均年龄(42.26±2.15),全部患者均符合肺脓肿的诊断标准。其中吸入性肺脓肿患者13例,血源性肺脓肿患者4例,继发性肺脓肿患者3例。患者的主要临床表现为起病急骤、高热、寒战、咳嗽、胸痛、气急等。

3) 将获得的大量的有标签数据用于训练分类器。

分别准确称取0.0100 g（精确至0.0001 g）螺虫乙酯和 4种代谢产物标准品，用乙腈溶解并定容至100.00 mL，分别配制成100 mg/L的标准品储备液，于-20 ℃下避光保存。分别移取各标准储备液2.5 mL至10 mL容量瓶中，用乙腈定容，配成25.00 mg/L标准工作液，即用即配。

4) 对得到的分类器进行评估。

1.2 EM(期望最大化)算法对GMM进行参数估计

假设观测数据y1,y2,…,yN由高斯混合模型生成

(1)

2) EM算法的E步:确定Q函数

1) 明确隐变量,写出完全数据的对数似然函数

可以设想观测数据yj,j=1,2,…,N,是这样产生的:首先依概率αk选择第k个高斯分布模型;然后依第k个高斯分布模型的概率分布φ(y|θk)生成观测数据yj,这时观测数据yj,j=1,2,…,N,是已知的;反映观测数据yj来自第k个分模型的数据是未知的,以隐变量γjk表示,其定义如(2)式所示

j=1,2,…,N;k=1,2,…,K

(2)

有了观测数据yj及未观测数据γjk,那么完全数据是

(yj,γj1,γj2,…,γjK),j=1,2,…,N

于是,可以写出完全数据的似然函数如(3)式所示

(3)

本文以分类器的分类准确率作为评价指标。

式中,θ=(α1,α2,…,αK;θ1,θ2,…,θk),使用EM算法估计高斯混合模型的参数θ。

2013年，我县共落实国家级玉米高产示范区五个，选择了辽单565、良玉88、联达288、郑单958、农华101等耐密玉米新品种为主栽品种。全县五个示范区平均851 kg/667 m2，对照田平均732.5 kg/667 m2，增产16.2%。

(4)

j=1,2,…,N;k=1,2,…,K

(5)

(6)

3) 确定EM算法的M步

迭代的M步是求Q函数对θ的极大值,即求新一轮迭代的模型参数

(7)

由于CNN模型的训练需要大量的已标记样本,因此在少标记样本分类器的训练过程中需要想办法把未标记数据利用起来,也就是需要给出未标记样本赋予标签的规则。标签传递思想假设拥有类似特征的数据有着相同的标签,本文基于标签传递的思想,结合GMM聚类结果,采用投票表决的方式赋予未标记样本标签。

(8)

重复计算E步及M步,直到对数似然函数值不再有明显变化为止。

谢彦君教授曾提出乡村旅游可持续发展的新理念应像呵护“姆庇之家”一样，不应随意“造假”，应打造具备自身特色和认同感的活性乡村文化体验[9]。窦志萍等揭示现今旅游消费者的一种新型需求动机——“乡愁旅游”，寻找乡愁、发现乡愁、留住乡愁、享受乡愁成为现阶段的一种旅游时尚；留住乡愁与享受乡愁是乡村旅游的一个重要环节，即“乡居”[10]。

在高速公路路基的实际施工过程中，通常会出现不同程度的高度差，又由于路基排水系统存在一定的问题，这就会导致出现雨水等外界水在路基内积存的问题，并且会随着时间的推移，慢慢出现渗透至路基内部的问题，这就会在内部结构中和水产生某些反应，进而使公路出现软化的现象。

1.3 基于标签传递思想的投票规则确定

因为GMM聚类的结果是服从同一个高斯分布的数据聚为一类,因此可以合理地假设同一类数据有着相同的标签。接下来的问题就是如何给某一类数据赋予标签。本文提出2种投票表决的思路。

思路一经过GMM聚类之后,依次在每个类别中查看已标记样本类别标签的比例,将这一类的标签赋为已标记样本类别标签比例最大的那个标签。以有着少量已标记样本手写数字识别为例,将聚类的结果编号为1～10,如果1号类别中的已标记样本类别标签比例最大的标签为5,那么就将1号类别中的未标记数据标签赋为5。思路一的示意图如图1所示。

图1 思路一示意图

思路二经过GMM聚类之后,利用聚好类的模型依次对每一类已标记样本的类别标签进行预测,可以得到预测类别占比最大的类别编号,将占比最大的类别编号中的未标记数据赋为本次进行预测的类别标签。以有着少量已标记样本手写数字识别为例,将聚类的结果编号为1～10,对已标记样本的0～9分别进行预测,如果已标记样本中有着标签0的数据预测类别占比最大的类别编号是5,那么就将聚类结果编号为5的数据标签赋为0。思路二的示意图如图2所示。

图2 思路二示意图

思路一与思路二的比较:由于思路一的判断规则是依次在每个类别中查看已标记样本类别标签的比例,将这一类的标签赋为已标记样本类别标签比例最大的那个标签,因此如果已标记样本的标签分布不均时会造成算法的适应性较差。仍以手写数字识别为例,如果已标记样本中数字5的数量过多,有可能会出现数字5在多个聚类结果上都是已标记样本中占比最大的从而把多个聚类结果的数据都赋为5的情况。为了解决这个问题,应当要求已标记样本类别标签分布应是大致均衡的。思路二则不会出现思路一的问题,算法的适应性要好于思路一,此外,思路二也比思路一更加易于实现,因此,本文采用思路二确定的投票规则对未标记数据赋予标签。

本文基于建筑类高校环境工程专业的特点，介绍环境影响评价课程的开设情况，结合笔者多年的教学理论研究和实践，从课程定位、围绕建筑类高校环境类专业培养目标强化课程教学、强化实际环境影响评价项目实践以及加强同建筑类高校环境工程专业的交流等方面进行探讨。

由于GMM算法易受初始条件的影响,算法的稳定性不好。为了解决这一问题,本文采用集成的思想,综合多个GMM的聚类结果对未标记数据赋予标签,只有多个GMM的聚类结果中赋予标签的那个众数在GMM总数的占比超过一定阈值时才将对应的数据及标签加入到训练数据集。例如,采用3个GMM集成聚类,依据投票规则确定标签,可以设定只有当2个及以上GMM模型确定的标签为同一值时才将这个数据及对应标签加入到训练集。此外,为了使集成的结果有利于分类准确率的提高,应该保证每一个GMM对有标记数据的预测标签准确率大于50%,本文实验中将这一数值设为60%。

2) 将数据集分为训练数据集与测试数据集,本文中选取打乱顺序之后的新数据集的前1 500个样本作为训练数据集,后297个样本作为测试数据集。

2 实验及结果

2.1 实验数据及评价指标

本文的实验数据集采用python的机器学习工具包sklearn中自带的手写数字集digists,digists数据集采集了43人的手写数字,共包含1 797个0～9的数字,每个数字由8*8的矩阵构成,矩阵中的元素取值范围是0～16,代表图像的灰度值。

心血管疾病主要是指由血液粘稠、动脉粥样化、高脂血症或者高血压等疾病所致的心脏及全身组织发生缺血性或出血性的疾病,具有发病率高、致残率和致死率高的特点,临床主要以心悸、胸痛、头痛和恶心呕吐等为特征,严重危害着患者的生命健康[1]。本次研究主要分析将社区公共卫生护理干预应用于心血管疾病的护理中,并观察其应用效果,现报告如下。

2.2 实验流程

1) 将数据集打乱顺序,形成新的数据集,以便多次进行验证实验。

②局部性病变。主要包括：复杂的尿道和阴茎病变导致无法置入电切镜的患者；无法采用截石位的患者；合并巨大膀胱憩室，需开放手术一并处理者。合并体积较大的膀胱肿瘤,不宜与前列腺同时处理，应先切除肿瘤后再考虑TUPKP手术。PSA异常、MRI或肛门指检异常，怀疑前列腺癌的患者，应首先通过前列腺穿刺活检排除肿瘤；对于有神经系统疾病、脊髓外伤等相关病史的患者应进行尿动力学检查以排除神经源性膀胱。

3) 将训练数据分为有标记数据与无标记数据。

对于行政事业单位资产管理和预算管理，国家已经多次提出要对预算制度进行深化改革，使资产预算更准确，能够真正发挥它的作用。然而要想完善该体制就要将资产管理做到细化，与预算管理有效结合，这一管理方法能够更好地保护国有资产不流失，对资产预算的准确编制来管理资产，是国家财政管理的必然要求。

4) 利用集成GMM聚类并结合投票规则对无标记数据赋予标签,并将有标记数据作为训练数据集1,将有标记数据与赋予了标签的无标记数据合并为训练数据集2。

5) 将训练数据集1与训练数据集2分别经过具有相同结构的CNN进行分类器的训练,并对测试集进行分类,对二者的分类准确率进行比较研究。

本文采用的CNN结构示意图如图3所示。示意图中C表示卷积层,S表示池化层,F表示全连接层。卷积层的滤波器尺寸为3*3,在卷积层之后有着激活函数,本文激活函数均采用ReLU方法,池化层的滤波器尺寸为2*2,采用最大值池化。为了避免训练过程中模型的过拟合,全连接层与输出层之间的连接采用一定比例的随机失活,本文中的实验随机失活比例设为0.5。本文的损失函数为交叉熵。

图3 本文CNN结构示意图

2.3 实验结果及分析

实验一本次实验选取3个GMM模型作为基聚类器,当3个基聚类器中有2个及以上依据投票规则对未标记数据赋予的标签相同时,将这个未标记数据及其被赋予标签的众数作为训练数据添加到训练集中。将有标记样本的数目设置为样本类别数目10的3,5,8,10,30倍,分别对只用有标记样本训练和结合集成GMM聚类训练的CNN分类器进行了多次训练,并对平均准确率进行比较,实验结果如图4所示。

图4 3个GMM集成准确率对比图

实验二本次实验选取5个GMM模型作为基聚类器,当5个基聚类器中有4个及以上依据投票规则对未标记数据赋予的标签相同时,将这个未标记数据及其被赋予标签的众数作为训练数据添加到训练集中。将有标记样本的数目设置为样本类别数目10的3,5,8,10,30倍,分别对只用有标记样本训练和结合集成GMM聚类训练的CNN分类器进行了多次训练,并对平均准确率进行比较,实验结果如图5所示。

对于代孕，世间有着各种看法：保守主义者认为，这是在玩弄生命的奇迹；而女权主义者则将代孕母亲比作妓女，认为她们是在出租自己的身体。

图5 5个GMM集成准确率对比图

整体的实验结果如表1所示。

表1 不同方式训练的分类器准确率

实验结果分析:从实验结果可以看出,在有标记样本数目较少时,结合集成GMM聚类训练得到的分类器要比只用少量有标记数据训练得到的分类器分类准确率有着较大提高,说明本文提出的用于解决少标记样本图像分类方案的有效性。随着有标记样本数目的提高,只用有标记样本训练的分类器分类准确率不断提高,而结合集成GMM聚类所训练的分类器分类准确率则变化不大。当有标记样本数目超过一定值之后,只用有标记样本训练的分类器分类准确率要高于结合集成GMM聚类所训练的分类器分类准确率,这是因为GMM算法本身有一定的聚类误差,当将赋予标签有误的样本作为训练样本时,导致分类器学到了噪声从而使分类准确率降低。对比实验一与实验二,通过增加基聚类器数目确实可以增加分类准确率,但提升效果并不明显。

3 结论

本文基于集成GMM聚类及标签传递的思想,提出了用于解决少标记样本图像分类的解决框架,经过实验验证了在有标记样本数目较少时,结合集成GMM聚类比只用少量的已标记数据训练分类器得到的分类准确率有了较大的提升。本文一开始想要解决少量标记样本图像分类问题时想到了用聚类的方法去辅助分类,但没有认识到GMM聚类算法虽然相对而言聚类效果不错,但聚类结果也存在不稳定的问题,之后想到可以用集成的思想去减小聚类误差,经过实验集成聚类的效果确实更加稳定与有效。从实验结果可知,聚类的准确率对分类器的训练有着较大影响,因此,论文以后的研究重点将放在:(1)探索提高聚类效果的方法,例如将遗传算法用于GMM参数的获取(2)探索如何将已知信息引入到聚类的过程中,实现有监督聚类的有效途径(3)在更加困难的数据集上进行算法有效性的测试。