基于多尺度残差卷积自编码器的图像聚类方法

2022-12-16 09:38李丁园李晓杰
吉林大学学报(信息科学版) 2022年4期
关键词:高维编码器残差

李丁园,李晓杰

(1.中国电子科技集团公司电子科学研究院,北京 100041;2.内蒙古机电职业技术学院 电气工程系,呼和浩特 010070)

0 引 言

聚类的目的是在数据中基于某些相似性度量指标,将表征相近的数据归为同一类簇,同时将表征相差较大的数据归为不同类簇[1]。传统的聚类方法包括基于分区的方法、基于密度的方法和基于分层的方法[2]。这些传统的聚类方法,其使用的相似性度量方法效率较低,且在高维数据上的性能较差,在大规模数据集上具有较高的计算复杂度。虽然经过降维和特征转换(如通过主成分分析的线性变换或核方法、谱方法的非线性变换),能将高维原始数据映射到新的低维特征空间,但选择合适的维度转换方法较为困难,且转换后进行聚类的准确率仍然较低[3]。

近几年,深度学习作为人工智能领域十分高效的方法,在计算机视觉(CV:Computer Vision)[4]、自然语言处理(NLP:Natural Language Processing)[5-6]等领域得到了广泛应用,基于深度学习的深度聚类算法逐渐成为聚类领域的主流方法。深度聚类算法主要包括先学习特征再聚类以及特征学习同时进行聚类两种。深度子空间聚类网络(DSC-Nets:Deep Subspace Clustering Networks)[7]通过在深度自编码网络的编码层和解码层之间引入自表达层获得样本之间的相似性矩阵,再利用该相似性矩阵在子空间中对样本进行谱聚类。深度嵌入聚类(DEC:Deep Embedding Clustering)[8]在降噪自编码器中构建逐层贪婪训练的栈式自编码网络,通过相对熵损失函数,仅利用编码层同时对样本数据进行特征学习和聚类。DEC在处理图像数据时只利用梯度方向直方图的人工构建特征,该特征对图像特征的表达较弱且不够丰富,因而对图像的聚类效果有待提升。

鉴于卷积神经网络(CNN:Convolutional Neural Network)在图像领域取得了较好的特征提取效果[9],卷积自编码神经网络应运而生[10]。卷积自编码器通过将卷积神经网络的卷积层用于自编码器的编码层和解码层,能在高维特征空间上保留原始数据的局部特征信息,因而能取得更好的聚类效果。为此,笔者在卷积自编码器的基础上,引入Inception模块[11]和残差连接[12],通过不同大小的卷积核提取图像不同尺度的信息,从而获取图像不同尺度下的特征,最后进行融合,得到图像更丰富的特征信息,通过残差连接使输入层的信息跨层映射到输出层并进行求和,从而允许梯度直接流向更浅的层,加快学习速度。

1 多尺度残差卷积自编码器结构

基于多尺度残差卷积自编码器的网络结构如图1所示。

图1 多尺度残差卷积自编码器的网络结构图Fig.1 Network structure of the multi-scale residual convolutional autoencoder

该网络结构由编码阶段(网络的上部分,从28×28到7×7)和对称的解码阶段(网络的下部分,从7×7到28×28)组成。原始图片经过编码阶段的卷积层、下采样层得到高维的中间层的特征表达,然后经过解码阶段上采样层、反卷积层将该特征表达还原为接近原始图像的输出。解码阶段每个级别的特征图来自两个层级:一是编码阶段卷积层的输出,二是解码阶段对相应级别网络层的输出。对这两个层级的特征图进行合并,然后将合并后的特征图传递到下一卷积阶段。在每个卷积阶段(两个采样操作之间),均有一条残差连接输入与输出,以此实现特征的重复利用,同时加快训练速度。经过交叉熵损失计算还原图像与原始图像之间的误差,并利用Adam[13]自适应梯度下降算法对该误差进行反向传播,对网络进行训练,最后利用训练好的网络中间层的特征表达对图像进行聚类。

图2 含有残差连接的多尺度卷积模块结构图Fig.2 Structure of multi-scale convolutional module with residual connections

基于多尺度残差卷积自编码器共包含5种类型的基本模块:长方形模块代表特征图;点状虚线箭头代表含有残差连接的多尺度卷积模块(见图2),其中包括4条通路,分别是:1)残差连接;2)1×1卷积;3)3×3卷积;4)两个3×3卷积(即5×5卷积)。其中使用了大量的1×1卷积,同时使用了1×3卷积和3×1卷积代替了3×3卷积图像,从而在保证模型深度的条件下减少了模型的参数量。特征图每次经过含有残差连接的多尺度卷积模块进行卷积操作前,均进行长度为2的零填充(zero-padding)以维持特征图的尺寸在卷积前后不发生变化。下采样操作位于编码阶段中的各个级别之间,以执行特征压缩的下采样,使用最大池化减半特征图维度。反卷积操作位于解码阶段中的各个级别之间,从而实现可学习内插值方法对输入数据进行上采样。

2 实验结果

2.1 实验数据集

为验证提出的基于多尺度残差卷积自编码器对图像聚类的有效性,选择最经典的MNIST数据集[14],其是一个经典的手写数字识别数据集,包含70 000幅像素为28×28像素的手写数字图像。随机选择其中50 000幅图像作为训练数据集,其余20 000幅图像作为测试数据集。

2.2 评价指标

对聚类结果进行评价,将使用多标签聚类的评价指标,笔者使用调整兰德尔指数(ARI:Adjusted Rand Index)[15]、归一化互信息(NMI:Normalized Mutual Information)和准确率评价聚类结果。

VARI描述了聚类结果与真实情况的吻合程度,即ARI指标

(1)

其中VTP(真阳性)和VFP(假阳性)分别为真正属于同一类的图像聚在同一类和不同类中的数目;VFN(假阴性)和VTN(真阴性)分别为不同图像聚集成同一类和不同类的数目。

VNMI用于度量聚类结果的相似程度,即NMI指标

(2)

其中I为互信息,H为熵,互信息I(W,C)表示给定类簇信息C的前提下,类别信息W的增加量,或其不确定度的减少量。

准确率VACC是正确预测的样本数占所有样本数的比例,即

(3)

图3 迭代过程中的损失、ARI、NMI和准确率Fig.3 The curves of loss,ARI,NMI and accuracy during the iterations

2.3 聚类结果

将训练数据集中的图像输入多尺度残差卷积自编码器中,用解码器生成的图像与输入图像计算交叉熵损失,并利用Adam算法对误差进行反向传播,更新网络参数。每次迭代后,将测试数据集中的图像依次输入多尺度残差卷积自编码器的编码器,经过网络的运算获取相应图像的高维特征表示,并利用K均值算法[16]对这些图像的高维特征进行聚类,前45次的迭代,其损失、ARI、NMI和准确率如图3所示。当训练迭代次数为10时,ARI、NMI和准确率达到了最大值,因此选择训练10次后的多尺度残差卷积自编码器模型作为最终获取图像高维特征的模型。利用这些特征使用K均值算法进行聚类的结果如表1所示。训练好的多尺度残差卷积自编码器模型的准确率为82.2%,表明模型达到了较高的聚类效果。其ARI值为0.781 0,NMI值为0.853 2,均达到了较好的聚类效果。

表1 模型的聚类结果Tab.1 The clustering results of the model

3 结 语

对目前图像聚类方法在特征提取方面存在的图像特征表达较弱且不够丰富的问题,提出了一种基于多尺度残差卷积自编码器的图像聚类方法。在MNIST数据集上的聚类准确率为82.2%,ARI值为0.781 0,NMI值为0.853 2,表明模型达到了较好的聚类效果。

猜你喜欢
高维编码器残差
融合CNN和Transformer编码器的变声语音鉴别与还原
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于双向GRU与残差拟合的车辆跟驰建模
基于相关子空间的高维离群数据检测算法
设定多圈绝对值编码器当前圈数的方法
转炉系统常用编码器选型及调试
基于残差学习的自适应无人机目标跟踪算法
舞台机械技术与设备系列谈(二)
——编码器
基于深度学习的高维稀疏数据组合推荐算法
基于深度卷积的残差三生网络研究与应用