基于边缘感知和小样本学习的多尺度带钢表面缺陷分割方法

2022-09-23 07:03郭学俊
太原理工大学学报 2022年5期
关键词:语义注意力卷积

郭学俊,彭 赞

(太原理工大学 大数据学院,山西 晋中 030600)

带钢是一种重要的材料,在建筑、航空工业和化学工业中有着广泛的应用。这些应用对带钢表面缺陷等产品质量及其自动检测提出了日益严格的要求。目前,带钢表面缺陷的检测主要依赖机器视觉检测方法[1]。但由于带钢表面缺陷图像的复杂性,机器视觉方法应用于带钢表面缺陷检测存在以下3个难点:一是图像中的缺陷与背景的对比度较低、许多缺陷的边缘模糊;二是一些不同类别的缺陷在纹理和灰度等信息上非常相似、同类缺陷的形状、尺寸大小变化多样;三是凌乱的背景、不均匀的光照分布和噪声均对缺陷的识别形成了较强的干扰。传统机器视觉表面缺陷检测方法利用人工设计的低级特征识别缺陷,对于复杂背景下的表面缺陷图像无法取得满足要求的结果。

基于深度学习的机器视觉表面缺陷检测方法利用多层网络结构和非线性变换能够自动从表面缺陷图像中获取不同尺度和不同级别的语义特征[2]。因此,这类方法具有强大的特征表达能力。目前,基于深度学习的语义分割方法,即全卷积神经网络模型,已经成为带钢表面缺陷自动检测的重要研究方向。然而,深度学习模型的性能往往严重依赖大规模的训练数据集。但是在实际应用中,由于缺陷产生的随机性,大规模数据集的搜集需要很长的时间。缺乏足够的训练样本将导致严重的过拟合现象,模型泛化性能变差。此外,语义分割模型往往关注像素分类精度,而忽视了表面缺陷边缘质量,但边缘质量对缺陷分析非常重要。

为了缓解以上问题,ENSHAE et al和PRAPPACHER et al分别使用数据增强和模拟生成以增大训练集规模[3-4],但是以上两种方法仍然依赖大规模数据集,将耗费大量的计算资源和时间。BOZIC et al和TABERNIK et al利用弱监督减少表面缺陷提取模型训练所需样本数量[5-6],但目前弱监督方法的精度仍大幅度落后于全监督方法。ASLAM et al[7]使用U-Net模型高效利用训练集从而减轻模型性能对大规模训练集的依赖。但是,该网络层数较少、无法融合不同空间分辨率的特征,且跳跃连接无法选择性的融合不同级别的特征。DAMACHARLA et al、SONG et al和 DONG et al利用迁移深度学习实现基于小规模训练集的带钢表面缺陷的自动识别与提取[8-10]。DAMACHARLA et al[8]通过残差和密集连接模块代替U-Net中的卷积层,从而加深网络结构并引入深度监督增强网络特征表达能力。SONG et al[9]在残差连接模块的基础上还在U-Net解码器部分引入通道权重模块选择性融合高低层次特征,最后通过一个一维残差增强模块细化提取结果。DONG et al[10]设计了金字塔特征聚合模块聚合不同尺度或空间分辨率的特征,并采用全局上下文注意力模块选择性聚合相邻不同尺度的特征,最后用边缘增强模块实现边缘增强并改进预测精度。该方法专注于高级特征的充分利用,却忽视了低级特征和高级特征的融合,而低级特征对于边缘和细节非常重要。现有的高性能表面缺陷语义分割方法大多采用迁移深度学习方法。然而,迁移深度学习中的预训练模型所提取的识别特征往往来自自然场景图像,这些图像与带钢表面缺陷图像有很大不同。而且,预训练模型的网络结构严重限制了网络结构的调整。

为了解决密集连接中的冗余计算问题,LEE et al[11]提出了一次性聚合结构用于目标检测。该结构是密集连接的进一步改进,可以更加高效地重复利用提取的特征,因而对应的网络模型不仅具有强大的特征表达能力而且可以实现小样本学习。但一次性聚合不利于梯度反向传播。另外,WANG et al[12]提出一种基于密集连接模块的特征金字塔注意力网络(Pyramid Attention Network,PAN)用于提取路面裂纹,其中特征金字塔注意力模块在提取多尺度特征时能有效避免空洞卷积可能引起的栅格效应。此外,该模块和全局注意力模块利用高层次和全局信息指导低层次特征的选择和融合,有利于边缘信息的提取。受文献[11-12]启发,本文基于改进的一次性聚合模块、特征金字塔注意力模块和全局注意力上采样模块等构建了一个由粗到精的全卷积神经网络模型。

本文的主要贡献如下:

1) 提出一种具备边缘感知能力的多尺度语义分割模型,用于带钢表面缺陷自动识别和提取。

2) 该模型用改进的一次性聚合模块取代PAN模型中的密集连接模块,因而无需任何预训练集便可从小样本数据集中学习获得从图像到缺陷预测图的映射关系。

3) 该模型用改进的PAN模型和浅层U-Net级联构建了一个由粗到细的结构,提升了对边缘信息的感知能力。

1 本文方法

本文将带钢表面缺陷自动检测问题转化为带钢表面图像语义分割问题。如图1所示,本文的图像语义分割模型由粗略语义预测和精细语义预测两个级联的子网络组成。粗略语义预测子网络采用U型编码器-解码器结构。首先利用改进的一次性聚合模块和特征金字塔注意力模块构建编码器,提取多层级和多尺度特征并降低训练所需的数据量。然后由一系列全局注意力上采样模块作为解码器实现高级特征指导低级特征复原空间信息,并输出初步预测结果。精细语义预测子网络利用一个浅层U-Net对第一个子网络获得的初步预测结果进行细化并改进边缘精度。

图1 本文所提出的网络结构Fig.1 Our proposed network structure

图2 本文方法中的n×n卷积模块Fig.2 n×n Convolution module in our method

图1中的m值代表粗略语义预测子网络下采样路径中4个改进的一次性聚合模块中卷积模块的个数。图2定义了n×n卷积模块,本文中如无特殊说明,其结构依次为卷积核大小为n×n、步长为1的卷积层,批量归一化层和激活函数为ReLU的激活层。

1.1 改进的一次性聚合模块

改进的一次性聚合模块的具体结构如图3所示。首先输入特征依次经过m个滤波器数量为16的3×3卷积模块,输出m个不同等级的特征。然后这些特征和输入特征通过一次性聚合的方式按通道堆叠在一起。最终,再将输入特征通过1×1卷积模块将其通道数提升至与一次性聚合操作后的特征图通道数相同,再将二者相加。改进之处在于最后一步的残差相加提升了梯度反向传播能力。

图3 改进的一次性聚合模块Fig.3 Improved one-shot aggregation module

1.2 特征金字塔注意力模块

特征金字塔注意力模块的具体结构如图4所示。首先输入特征分别输入1×1卷积与U型特征金字塔结构,这两个输出的乘积再与输入特征依次经过全局最大池化和1×1卷积操作后的结果相加。U型金字塔结构通过3次2×2最大值池化,获得3个不同分辨率的特征。这些特征分别经过3组不同卷积核大小的卷积操作提取特征,低分辨率的特征经过上采样后再逐级相加。其中每组卷积均由两个相同大小的卷积组成,卷积核大小分别为7×7、5×5和3×3.不同于金字塔特征聚合模块仅能在获取多空间分辨率特征和像素级别扩大感受视野,特征金字塔注意力机制还能通过全局最大池化支路,提供全局上下文注意力,在通道方向上对所提取的特征进行选择[12]。

图4 特征金字塔注意力模块Fig.4 Feature pyramid attention module

1.3 全局注意力上采样模块

全局注意力上采样模块的具体结构如图5所示。低级特征经过3×3卷积模块后与高级特征经过全局平均池化、1×1卷积、批量归一化层和激活函数为Sigmoid的激活层后相乘,得到经过高层次特征在通道维度指导后的低层次特征图。最后该特征输出与经过卷积核大小为3×3、步长为2的反卷积操作的高层次特征进行相加。

图5 全局注意力上采样模块Fig.5 Global attention up-sample module

1.4 粗略语义预测子网络

粗略语义预测子网络是一种改进的特征金字塔注意力网络[12],采用U型网络结构,由下采样路径,特征金字塔注意力模块和上采样路径3部分组成,其中下采样路径和上采样路径对应部分之间有跳跃连接,实现低级特征和高级特征的融合。下采样路径依次由1个7×7卷积模块、4个分别由大小为2×2、步长为2的最大池化层和改进的一次性聚合模块组成(其中,m分别取4,6,9,12)的下采样单元组成。上采样路径依次由4个全局注意力上采样模块和1个1×1卷积模块组成。

1.5 精细语义预测子网络

精细语义预测子网络采用经典的U-Net网络结构,具体的结构如图1所示。由下采样路径和上采样路径两部分组成,其中下采样路径和上采样路径对应部分之间有跳跃连接,实现低级特征和高级特征的融合。下采样路径依次由2个3×3的卷积模块和4个下采样阶段组成,每个下采样阶段由大小为2×2、步长为2的最大池化层和3×3卷积模块组成。上采样路径依次由4个上采样阶段和1个3×3卷积模块组成,每个上采样阶段由步长为2的双线性插值上采样操作和3×3卷积模块组成。精细语义预测子网络通过学习粗略语义预测子网络预测结果和真实标签图像之间的差异进一步改进边缘预测精度。

1.6 损失函数

本文提出的方法所使用的损失函数为由交叉熵(CE)函数、结构相似性指数度量(SSIM)函数和交并比(IoU)函数组成的混合损失函数:

L=lCE+lSSIM+lIoU.

(1)

以上3个函数分别用于计算模型预测结果与真实标签之间的像素级差、局部结构性、全局性差异。其定义为:

(2)

(3)

(4)

式中:N代表像素个数,M代表类别总数。对于类别c,yic代表像素i的真实标签,如果像素i的真实类别为c则yic取1,否则yic取0.pic代表像素i预测为类别c的可能性,μy,μp和σy,σp分别是真实标签图像y和预测图像p的平均值和标准差,σyp是真实标签图像y和预测图像p的协方差。C1=0.012和C2=0.032被用来避免除零。

2 实验

为验证本文提出方法的有效性,使用了东北大学热轧带钢表面缺陷数据集[13](简称NEU-Seg数据集)对模型的性能进行评估。本文对比实验中所有模型均在搭载NVIDIA Tesla K80图形处理器,深度学习框架为TensorFlow 1.14.0的工作站上进行了训练、测试与评估。

2.1 数据集

如图6所示,NEU-Seg数据集包括钢带表面夹杂(In)、斑点(Pa)、划伤(Sc)3种类别的缺陷数据,分别用红、绿、蓝3种颜色表示。每个类别的数据包括尺寸为200 mm×200 mm的原始图像、200 mm×200 mm的人工标记图像各300张。为了使模型的泛化能力更强,使用Augmentor数据增强工具对数据集进行了数据增强。增强方法为:旋转范围为最大左旋10°,最大右旋10°,概率为80%的图像旋转;概率为50%的图像垂直翻转;30%的概率放大原始图像,并按照原始图像的85%进行裁切;改变图像大小为256 mm×256 mm以便于模型训练,最终扩充的数据样本数为10 000张。其中,训练集6 000张、验证集2 000张、测试集2 000张。

图6 东北大学热轧带钢表面缺陷数据集示例Fig.6 Samples of NEU-Seg defect dataset

2.2 实验设置

本方法及其他对比实验所用的网络在训练阶段均使用Adam优化器,训练轮数(Epoch)为100轮,学习率初始值为3×10-4且在训练过程中使用Cosine方法对其进行衰减,批次大小为8.Adam优化器的一阶矩估计的指数衰减率β1为0.9,二阶矩估计的指数衰减率β2为0.999.

3 结果与分析

定量评价结果如表1所示。表1最后一行显示本文提出的方法在NEU-Seg数据集上取得了较好的语义分割效果,夹杂类缺陷像素精度(In_PA)为91.43%、斑点类缺陷像素精度(Pa_PA)为96.35%、划痕类缺陷像素精度(Sc_PA)为93.49%、平均交并比(mIoU)达87.65%、平均像素精度(mPA)达93.76%,平均F1值(mF1score)达93.19%.表1中第二行和三行分别与第一行进行比较,结果分别验证了不同等级特征融合和多尺度特征提取的必要性。表1中第七行与第二和第三行进行对比,结果表明本文所提出的方法中的粗略语义预测网络无论是在整体还是类别分割性能上优于FCN[14]、U-Net[7]和DeepLab V3+[15].该结果验证基于改进型一次性聚合模块的PAN模型强大的特征表达能力。表1中第七行分别与第四行、第五行对比,结果表明,粗略语义预测网络中的改进型一次聚合模块在整体分割性能和类别精度上均优于目前基于深度迁移方法中通常采用的残差连接和密集连接模块[8]。第七行和第六行比较表明对一次性聚合模块的改进提升了模型的分割性能。第七行和第八行相比较表明本文所提出的整体方法提升了粗略语义预测网络的性能,该结果验证了本文采用由粗到细的网络结构提升了模型的边缘感知能力。

表1 NEU-Seg数据集对比实验评估结果Table 1 Comparative experiment results and evaluations using the NEU-Seg defect dataset

基于东北大学热轧带钢表面缺陷数据集,采用本文所提出的方法与粗略语义预测网络、基于Resnet101的PAN、基于Dense121的PAN和DeepLab V3+等模型的定性评价与比较结果如图7所示。图7表明本文所提出的方法在不同尺度的各类缺陷的自动提取上均取得了满意的结果,相比于其他方法,抗干扰能力更强而且与标签图像更接近。这说明该方法特征表达能力强大,能够感知并提取多尺度特征和边缘信息,进而提升预测精度。以上的定量和定性评价结果均证明了本文所提方法的有效性。

图7 东北大学热轧带钢表面缺陷数据集各模型实验结果可视化Fig.7 Visualization of experimental results of models using the NEU-Seg defect dataset

4 结束语

本文提出一种基于边界感知和小样本学习的多尺度带钢表面缺陷自动提取方法。该方法以一种改进的一次性聚合模块和特征金字塔注意力模块搭建编码器,不仅可以高效重复利用特征还能从带钢表面图像中准确地提取多尺度特征。因而,这种方法具有强大的特征表达和模型泛化能力,基于小规模样本集也能实现。此外,该方法采用由粗到细的结构和全局注意力上采样模块提升模型的边缘感知能力,进一步提升了预测精度。东北大学钢表面语义分割数据集上进行的实验验证了该方法对夹杂、斑点和划伤等带钢表面缺陷自动提取的可行性和有效性。下一步将研究基于元深度学习的带钢表面图像语义分割方法,进一步降低模型训练所需的样本数量。

猜你喜欢
语义注意力卷积
真实场景水下语义分割方法及数据集
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
如何培养一年级学生的注意力
卷积神经网络的分析与设计
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
A Beautiful Way Of Looking At Things
“吃+NP”的语义生成机制研究
情感形容词‘うっとうしい’、‘わずらわしい’、‘めんどうくさい’的语义分析