一种改进DCGANs网络的磁瓦缺陷图像生成方法研究

2021-03-21 05:11梁凤梅续欣莹董俊杰

小型微型计算机系统 2021年3期

张晋，谢珺，梁凤梅，续欣莹，董俊杰

1(太原理工大学信息与计算机学院，山西晋中 030600) 2(太原理工大学电气与动力工程学院，太原 030024)

1 引言

磁瓦是电机的重要组成部件，在生产过程中，由于原料、加工工艺等因素的影响，其表面会产生各种复杂缺陷，而这些磁瓦中的缺陷会直接影响电机的性能和寿命，因此生产过程中必须将表面有缺陷的磁瓦检测出并剔除[1].目前磁瓦表面缺陷检测主要由人工检出，存在检测效率低、稳定性差和成本高等问题.一些研究人员试图通过视觉检测和图像处理方法来实现磁瓦表面缺陷的自动化检测与识别过程[2].

林丽君[3]等人提出一种基于图像加权信息熵和小波模极大值相结合的磁瓦表面缺陷检测方法，该方法通过一种自适应改变截止频率的BHPF滤波器，对磁瓦的裂纹缺陷背景纹理和噪声进行抑制后，利用小波多尺度分辨的特点，检测出磁瓦图片中的缺陷部分.杨成立[4]等人提出一种非下采样Shearlet变换的磁瓦表面缺陷检测识别方法(NSST)，该方法将含有磁瓦缺陷图像中的缺陷和背景分别分解为低频和高频两个子带图像，从而实现对磁瓦表面缺陷的检测.HuangYi-bin[5]等人提出一种MCuePush U-Net的实时多模块神经网络模型，在较短时间内实现了对磁瓦图像表面缺陷的检测.刘畅[6]等人使用空洞卷积替代U-Net模型的部分卷积层和池化层，并加入分类神经网络，实现了磁瓦表面缺陷的检测与分类识别功能.这些基于机器视觉的磁瓦缺陷自动检测及分类方法，在一定程度上实现了很好的效果.目前，在磁瓦表面缺陷检测的研究中，所需要的待检测图像样本均通过CCD相机等图像采集装置获得，而图像采集设备价格昂贵、搭建较为复杂.此外，含有缺陷的磁瓦并不是大量存在的，在生产过程中，磁瓦表面缺陷的类型也是随机产生的，而且同一类型缺陷也会有各种不同的样式，如图1所示.因此如何更好的获取大量含有不同样式缺陷的磁瓦图像用于检测分类模型的训练，是一个亟待解决的任务.

图1 磁瓦表面常见缺陷类型及样式图Fig.1 Common defects types and styles on the magnetic tile surfaces

生成图像建模是计算机视觉领域一项重要的研究内容，通过使用深度学习网络学习已有图像的特征，从而生成含有该特征的新的图像数据.目前，对于生成图像建模的相关研究已取得了显著进展.Alexey Dosovitskiy[7]等人将训练的生成卷积神经网络用于生成不同形状与颜色的桌椅，进一步评价桌椅图像之间的相似性以及对应关系.Aaron van den Oord[8]等人在使用改进的深度神经网络对自然图像生成方法的研究中，获取了清晰的图像样本.何新宇[9]等人提出了一种基于深度卷积神经网络的肺炎图像识别模型，用于解决肺炎图像识别准确率低的问题.

随着生成图像建模的不断研究，2014年，Goodfellow[10]等人提出的生成对抗网络(GAN)得到的大家的广泛关注，其算法已经在各类图像合成、修复以及视频、音乐等的生成中展示出了良好的效果.赵树阳[11]等人提出一种非监督的由已有图像生成新图像的低秩纹理生成对抗网络(Low-rank generative adversarial network,LR-GAN)算法，用于解决低秩图像的校正问题.Zhao Zhi-xuan[12]等人将GAN和自编码结合起来用于重建缺陷图像，并使用LBP特征进行图像局部对比以检测织物表面缺陷.田思洋[13]等人采用生成对抗网络对不同生产线上的钢板缺陷图像样本进行图像翻译，从而获得新生产线的缺陷样本，实现跨域图像转换.陈方杰[14]等人利用生成对抗网络生成可分性更高的高光谱图像，用于解决在高光谱图像分类领域中特征利用不足的问题.

为了解决磁瓦图像采集困难、含缺陷磁瓦样本少、不同缺陷样本数不均匀、缺陷类型单一的问题，本文将深度卷积生成对抗网络的输入空间参数化为混合模型，提出一种高斯混合模型的深度卷积生成对抗网络(Gaussian Mixture Model-Deep Convolution GenerativeAdversarial Networks,GMM-DCGANs)用于生成磁瓦缺陷图像.由最大类间方差(Otsu)算法将磁瓦缺陷图像转换为二值图像，在对图像强化缺陷弱化背景后，将该二值图像作为高斯混合模型的深度卷积生成对抗网络的输入，用于生成大量不同缺陷样式的磁瓦缺陷图像，并使用基于局部感受野的极限学习机(ELM-LRF)算法对生成的缺陷图像分类，以验证所生成图像的质量.

2 算法原理

2.1 磁瓦缺陷图像生成方法

由Goodfellow[10]等人在2014年提出的生成对抗网络(Generative Adversarial Networks,GAN)是一种无监督深度学习网络模型，如图2所示.其结构主要由生成网络G(Generator)和判别网络D(Discriminator)两部分组成.生成网络G将输入噪声z生成图像样本，判别网络D用来判别输入图像是真实图像还是生成器生成的假图像.通过两个网络相互博弈学习，不断提高两个网络的性能，最终达到动态平衡，从而可以生成以假乱真的图像.生成网络G和判别网络D的目标函数如公式(1)所示：

(1)

其中：z是输入噪声，G是生成网络，D是判别网络，G(z)是由生成网络G生成的图像数据，x是G(z)所对应的真实图像数据.

图2 生成对抗网络(GAN)结构图Fig.2 Generative adversarial network(GAN)structure

2015年，Alec Radford[15]等人将卷积神经网络与生成对抗网络相结合，将生成对抗网络的生成器用反卷积神经网络替换，判别器用卷积神经网络替换，提出了深度卷积生成对抗网络(DCGANs)，并对其结构做了改进：

1)使用全卷积网络，在生成器上使用微步卷积网络，使其可以学习空间的上采样部分；在判别器上使用带步长的卷积层网络，使其可以学习空间的下采样部分.

2)在卷积特征上，使用全局平均池化来代替全连接层，从而提高模型的稳定性.

3)生成器上，输出层上使用Tanh激活函数，其他层上则使用Relu激活函数；在判别器上，所有层上都使用LeakyRelu激活函数.

4)在生成器和判别器中，除最后一层外，每一层都使用批标准化，从而使梯度能够传播到更深的层次，避免了生成器崩溃以及模型的不稳定情况.

高斯混合模型的深度卷积生成对抗网络(GMM-DCGANs)是在深度卷积生成对抗网络的基础上，将生成器用于生成图像的输入噪声z的潜在空间定义为高斯混合模型[16]，生成网络中将简单分布的潜在变量映射成高维数据改为将复杂分布的潜在变量映射成高维数据.这一改变提高了深度卷积生成对抗网络对有限数量且具有类间及类内多样性的训练样本的学习能力.

(2)

其中，μi为高斯分布的均值向量，Σi为协方差矩阵，ωi为每一个高斯分布的权重，N为自变量的维数，g(z|μi,Σi)为第i个高斯分布函数.对于磁瓦缺陷种类而言，每一类缺陷都将影响磁瓦的质量，因此，对于N个高斯分布，每一个高斯分布的权重均为1/N，所以原公式即为：

(3)

在高斯混合模型中，每一个高斯分布称为一个组件，为了使高斯混合模型中各组件存在一定的相关性，先随机生成均匀噪声，得到噪声各维均值μ={μ1,μ2,…,μN}和噪声间协方差对角矩阵σi=[σj1,σj2,…,σjN].通过均值μ和协方差对角矩阵σi构建高斯混合模型，并将该高斯混合模型作为生成器的输入部分.

z～N(x;μ,σi)

(4)

(5)

高斯混合模型的深度卷积生成对抗网络结构如图3所示，图3(a)部分为生成网络的输入.将均匀噪声复杂化，重构为高斯混合模型，生成网络每次迭代生成图像时，随机选取一组高斯混合模型.通过增加生成网络先前分配的能力，使模型能够在训练数据数量有限且具有多样性时表现出更好的性能.图3(b)为生成网络.在生成网络的卷积上使用全局平均池化来取代全连接层，并使用4层反卷积取代原生成网络中的池化层；除了生成网络的输出层激活函数使用Tanh函数外，其余层激活函数均使用Relu函数且都使用批处理Batch Normalization，这将有助于训练梯度实现更深层次网络.输入噪声z映射通过生成网络4层反卷积后，转换为64*64像素的图像.图3(c)为判别网络.在判别网络的卷积上同样使用全局平均池化来取代全连接层，并使用4层步幅卷积取代原判别网络中的池化层；除了输入层以外，其余层均使用批处理Batch Normalization，判别网络所有层上均使用LeakyRelu激活函数.将生成网络训练完成的假样本输入已训练学习过真实样本信息的判别网络中，判断其输入是真实样本还是假样本，并将结果反馈给生成网络和判别网络，从而不断优化生成网络和判别网络的性能.

图3 高斯混合模型的深度卷积生成对抗网络(GMM-DCGANs)结构图Fig.3 Gaussian mixture model based deep convolution generative adversarial networks(GMM-DCGANs)structure

2.2 ELM-LRF磁瓦图像分类检测及算法介绍

在已有的生成对抗网络用于图像生成的研究中，对于生成图像质量以及生成对抗网络性能的评判，并没有统一的标准，大多学者采用直观对比来评判生成图像质量的好坏[17]，也有一些学者通过Inception score、Maximum Mean Discrepancy等评价指标来评判生成对抗网络的性能[18].对于本文生成磁瓦缺陷图像的研究，除了通过直观对比不同生成对抗网络生成图像的质量外，我们还采用基于局部感受野的极限学习机(ELM-LRF)对5类磁瓦缺陷图像进行分类来检测生成图像是否符合实验要求.

基于局部感受野的极限学习机(ELM-LRF)是机器学习中一种分类速度快、效率高的分类算法，该分类算法最大的特点是将深度学习中单层卷积和池化网络结构融入到极限学习机中，从而实现对输入图像的特征自提取，并通过ELM的输出权重公式对输入图像进行分类[19].在ELM-LRF的网络结构中，为了使输入的图像更加充分，采用个不同的输入权重，从而得到个不同的特征图[20].ELM-LRF网络具体功能实现可分为以下3部分内容：

1)随机生成初始权重Ainit.计算公式如公式(6)所示.

(6)

其中，其中Ainit是初始权重，K是特征图个数，r2是局部感受野大小，Ainit中每一列αk都是Ainit的一组正交基.

在获取初试权重后，采用奇异值分解(SVD)将初始权重Ainit正交化，可以得到其正交化后的结果A.第k个特征图卷积节点(i,j)值ci,j,k的计算公式如公式(7)所示：

(7)

其中，d×d是输入图像的大小，(d-r+1)×(d-r+1)是特征图的大小，αk∈Rr×r是αk逐列排成的第k个特征图的输入权重.

2)平方根池化.计算公式如公式(8)所示.

(8)

其中，e为池化大小，表示池化中心到边的距离[21]，池化图大小与特征图大小均为(d-r+1)×(d-r+1).第k个特征图中的节点(i,j)和第k个池化图中的组合节点(p,q)分别用ci,j,k和hp,q,k来表示，如果当(i,j)超出范围，那么ci,j,k则等于0.

3)计算输出权重矩阵.第1步，先计算各个输入样本对应的池化图和特征图；第2步，将池化图中的每一个组合节点合并成一个行向量；第3步，将所有输入样本的行向量连接起来，从而得到组合层矩阵为H∈RN×K·(d-r+1)2.输出权重β可以由正则化最小二乘法计算得到，其计算公式如公式(9)、公式(10)所示：

如果N≤K·(d-r+1)2

(9)

如果N>K·(d-r+1)2

(10)

其中，N为输入样本的个数，C为可调参数，T为输入样本对应的标签.此外，ELM-LRF分类网络的平衡参数设置为0.0001，特征图个数设置为50，局部感受野大小设置为4×4.

3 实验

3.1 实验环境及数据集

本文实验环境配置为：操作系统Windows 8.1 64位，处理器Intel Core i5-4200M @ 2.50GHz，内存(ARM)8GB，软件MATLAB R2018a.

表1 磁瓦缺陷图像数据集说明Table 1 Description of magnetic tile defect image data set

磁瓦缺陷图像生成实验采用的数据集来自中科院自动化所收集的磁瓦缺陷检测数据集[5].数据集共1344张，包括有缺陷和无缺陷图像共6种类型，数据集具体说明如表1所示.

3.2 实验结果及分析

实验中，选用5类缺陷图像(共391张)作为GMM-DCGANs网络的训练样本，由于不同磁瓦的ROI不同，所以数据集中图像的大小也不同，为此在训练前，将数据集中图像统一转化成64×64大小，如图4(a)所示.训练中，将磁瓦缺陷原图像输入GMM-DCGANs网络，经过训练后，发现所生成的磁瓦缺陷图像质量较差，未能得到符合要求的磁瓦缺陷图像，如图4(b)所示.考虑到在后续的磁瓦缺陷检测及分类实验研究中，需要将原磁瓦图像转换为二值图像来进行进一步的实验，因此，我们采用最大类间方差(Otsu)算法将磁瓦缺陷原图像转换为二值图像，如图4(c)所示，将该二值图像作为GMM-DCGANs网络的输入，训练得到生成的缺陷图像如图4(d)所示.可以看出，采用经过预处理后的磁瓦缺陷二值图作为GMM-DCGANs网络的输入时，可以生成质量更好的图像样本，因此，我们将所有5种含缺陷的磁瓦原图如图5(a)所示，转换为二值图像后，如图5(b)所示，再经过GMM-DCGANs网络训练，得到生成的缺陷图像如图5(c)所示.训练中，设置网络迭代次数1000次，学习速率为0.001.为了对比本文所提生成对抗网络生成图片的质量，采用GAN和DCGAN网络分别对磁瓦缺陷图像进行训练，得到生成的磁瓦缺陷图像如图5(d)、图5(e)所示.

图4 磁瓦磨损缺陷原图和二值图生成实验结果对比图Fig.4 Comparison of the original and binary image generation results of the magnetic tile fray defect

图5 5种磁瓦缺陷图像生成实验结果对比图Fig.5 Comparison of five categoriemagnetic tile defect images generation experimentresults

通过生成磁瓦缺陷图像对比实验，可以看到在使用相同数据集训练生成图像时，GMM-DCGANs网络生成的图像存在的噪点杂质最少，且生成图像的缺陷特征更接近原图像二值特征.另外，GMM-DCGANs网络由于对输入噪声做复杂化处理，使得生成的图像可以将多个缺陷融合在一张图像中，如图6所示，进一步扩充了数据集中磁瓦缺陷类型.

图6 GMM-DCGANs生成多个缺陷融合图像Fig.6 GMM-DCGANs generate multiple defect fusion images

在检测生成的磁瓦缺陷图像是否与实际生产中磁瓦缺陷图像相符时，我们采用ELM-LRF分类网络对生成的缺陷图像进行分类，共进行4组对比实验，每组实验重复30次，取分类准确率的平均值作为该组实验的分类准确率.将分类准确率作为评判生成图像质量好坏的标准，分类准确率计算公式如公式(11)所示：

准确率=正确分类样本数/样本总数

(11)

第1组，只选取原磁瓦缺陷数据集中的缺陷图像样本进行实验，训练集和测试集样本数量设置如表2所示.

表2 第1组实验训练集和测试集样本数量设置Table 2 Training and test sets sample number settings for the first experimental

第2组，选择原磁瓦缺陷数据集中所有缺陷图像样本作为训练集，选择生成的磁瓦缺陷图像作为测试集，训练集和测试集样本数量设置如表3所示.

表3 第2组实验训练集和测试集样本数量设置Table 3 Training and test sets sample number settings for the second experimental

第3组，选择生成的磁瓦缺陷图像作为训练集，选择原磁瓦缺陷数据集中所有缺陷图像样本作为测试集，训练集和测试集样本数量设置如表4所示.

表4 第3组实验训练集和测试集样本数量设置Table 4 Training and test sets sample number settings for the third experimental

第4组，按照1:1比例选择原磁瓦缺陷数据集中所有缺陷图像样本(391张)和生成的磁瓦缺陷图像样本(391张)，共782张.将选取的图像样本按缺陷类型随机混合后，选择各缺陷类型图像样本的前一半作为训练集，后一半作为测试集进行分类实验，训练集和测试集样本数量各为391张.

4组分类实验的30次分类准确率对比结果，如图7所示，每组实验的平均分类准确率如表5所示.

通过ELM-LRF分类实验结果可以看到，4组实验中，第2组和第3组实验的平均分类准确率较低，其中，第3组实验的平均分类准确率最低，为86.83%，第4组实验的平均分类准确率最高，为90.29%，两者相差3.46个百分点.这是因为

图7 ELM-LRF分类实验准确率对比图Fig.7 Comparison of the ELM-LRF classification experimentsaccuracy

虽然原图像和生成图像中大部分缺陷样式是一致或相似的，但原图像中含有个别缺陷样式是生成图像中所没有的，而生成图像中也存在一些新型缺陷和融合缺陷是原图像中所没有的，因此在分别单独使用原图像和生成图像做训练集和测试集时，训练得到的分类模型对测试集中一些新缺陷样式无法准确分类，造成了平均分类准确率较低.第4组实验将原图像和生成图像混合后进行训练，进一步丰富了训练数据的缺陷样式，使训练得到的分类模型具有更高的泛化性能，因此第4组实验的平均分类准确率较高.

表5 ELM-LRF分类实验平均分类准确率Table 5 Average classification accuracy of the ELM-LRF classification experiments

另外由于第1组实验仅包含原图像且数据样本大小与后3组不同，将第1组实验作为后3组实验的参考，可以看到后3组实验的分类准确率与第1组实验的分类准确率相近.分类实验结果表明，生成的磁瓦缺陷图像与原磁瓦缺陷图像相符合，可以满足后续磁瓦缺陷检测及分类实验的需求.

4 结语

本文针对训练磁瓦缺陷检测及分类模型时，图像样本采集困难、样本数据较少、缺陷样本类型不足的问题，提出一种高斯混合模型的深度卷积生成对抗网络(GMM-DCGANs)用于生成磁瓦缺陷图像.利用高斯混合模型作为生成网络的输入噪声，一方面可以提高生成网络生成图像的质量，另一方面也可以生成含有更多缺陷样式的磁瓦图像.通过4组磁瓦缺陷类型分类的对比实验结果可以看出，本文所提GMM-DCGANs模型生成的磁瓦缺陷图像可以用于扩充磁瓦缺陷图像数据集，利用扩充的数据集训练检测及分类模型时，可以更好地提升模型的泛化性能.未来进一步的研究中将着眼于对生成图像质量进行多重标准的评判.