融合注意力机制的弱监督纸板表面缺陷检测

2024-02-22 03:43吴维崧涂福泉罗迎九杨家瑜韩天宇汪曙峰涂楚杰
包装工程 2024年3期
关键词:纸板注意力卷积

吴维崧,涂福泉,罗迎九,杨家瑜,韩天宇,汪曙峰,涂楚杰

融合注意力机制的弱监督纸板表面缺陷检测

吴维崧1,涂福泉1,罗迎九1,杨家瑜1,韩天宇1,汪曙峰2,涂楚杰3

(1.武汉科技大学 冶金装备及其控制教育部重点实验室,武汉 430081;2.中冶南方武汉钢铁设计研究院有限公司,武汉 430080;3.贺利氏创特(武汉)工程技术有限公司,武汉 430070)

针对目前表面缺陷检测方法因缺少实例级标签,使深度神经网络在工业检测上的应用受到限制的问题。本文面向实际的纸板表面缺陷检测任务,提出弱监督学习下融合卷积和注意力机制的神经网络算法。该网络通过将通道注意力模块和梯度类激活映射模块相结合,进一步提高类激活图的精细度,实现纸板表面缺陷的精确定位;同时通过倒残缺结构和上采样层的组合操作,进一步细化浅层特征提升网络的特征提取能力,加快网络收敛速度。通过在公开的纸板缺陷数据集上进行实验,本文提出的算法在使用图像级标签训练的情况下,分类正确率与定位正确率分别达到99.0%和92.2%,验证了该算法的有效性。避免了实例级标签数量较少和过于主观的缺点,为基于机器人的缺陷纸板剔除奠定了基础。

弱监督学习;对象定位;深度学习;纸板表面缺陷检测;自注意力

近年来,随着我国《推进快递业绿色包装工作实施方案》的出台,“限塑令”到“禁塑令”的转变,物流行业和包装行业的快速发展,纸板作为绿色环保包装材料的重要组成部分的,其生产质量和智能化生产有着重要的影响,而在纸板制造的过程中,受到环境和生产过程因素的影响,可能导致纸板出现破损和裂纹等缺陷,如果不能及时地找出问题所在,将会造成一定的损失。因此,对生产纸板缺陷进行实时检测是保障纸板生产质量的关键技术之一。然而相较于其他类型的表面缺陷检测,不同类型的表面存在特征差异,而且算法的设计是基于不同类型表面缺陷的特点和需求进行设计和优化,因此需要对纸板表面缺陷检测方法进行相应改进。

采用传统的人工方式检测产品表面,不仅耗时费力且存在较大的主观性,严重影响检测的准确性。为了解决这个问题,有些工程技术人员将特征工程的方法(主要以数据预处理、手工设计特征和分类器设计组成)应用于缺陷检测之中,并取得了较好的效果[1-5]。但该方法依赖设计者的专业知识,因此在很大程度上限制了这类方法的推广应用。

随着深度学习(Deep Learning,DL)理论的发展和完善,基于深度学习的产品表面缺陷检测方法得到了成功应用。姜旭辉[6]提出对Yolo v5算法的激活函数、损失函数和预测框筛选方式的改进,提高对纸板缺陷定位的准确度。叶宇星等[7]提出使用Ghost卷积替换CSP模块中的卷积,提高Yolo v5算法骨干网络对腌制蔬菜真空包装的特征提取能力。然而,深度学习方法需要大量的实例级标签(标注缺陷图像的缺陷类别和位置)进行训练,但在实际生产中,实例级标签数据量少。为了解决这个问题,研究者们提出使用弱监督学习的方法,即使用图像级标签(仅标注缺陷图像的缺陷类别)代替实例级标签来进行缺陷定位。何彧等[8]提出对卷积神经网络融合多层特征,提高弱监督方法对钢板缺陷定位的准确度。孙美君等[9]提出对深度卷积神经网络融合注意力机制,提高弱监督方法对电机转向器缺陷定位的准确度。这些弱监督学习的方法广泛推进了缺陷检测的研究。然而,使用弱监督学习方法进行缺陷定位时仍然存在一些问题,包括卷积神经网络的卷积层不能建立全局图像的长距离连接,导致使用基于弱监督学习方法时,只能定位目标对象的粗略区域[10]。

针对上述问题,本文提出融合注意力机制的弱监督纸板表面缺陷检测算法。该算法利用改进网络生成的类激活图进行定位,而且通过卷积模块与自注意力模块的结合,使网络不但能够学习全局表征,并且能够在参数更少的时候学习更多的表征。为了使生成的类激活图对目标区域的激活更加精密,算法将梯度类激活映射模块和通道注意力模块相结合。利用通道注意力模块对有效信息特征的增强和对无效信息特征的抑制,从而对类激活图生成的目标区域进行聚焦,并且利用梯度类激活映射模块的类别梯度信息进一步对有效信息特征加强,达到对目标区域修正的目的,使纸板表面缺陷检测的定位性能得到提高。

1 成像系统设计

本研究对纸板表面缺陷检测的实验平台搭建如图1所示。图1a是纸板图片采集模块,待检测纸板经过光源的充分照射,使得背景信息与缺陷信息具备明显的区别,再通过工业相机,得到高分辨率的样本图片。图1b是纸板缺陷识别模块,将建设好的数据集传入用Pytorch设计出的纸板表面缺陷检测网络中,对缺陷图片进行训练和测试。

图1 纸板表面缺陷识别过程

2 网络搭建

2.1 整体架构

本文提出的弱监督学习缺陷检测网络如图2所示,整个网络由2个部分组成:主干特征提取网络和定位网络。其中主干特征提取网络包括了基于自注意的模块(Swin Transformer Block,STB)[11]和倒残差结构模块(Inverted Residual Block,IRB),定位网络包括了通道注意力模块(Squeeze and Excitation Block,SEB)和梯度类激活映射模块(Grad CAM Block,GCB)。

本文提出网络的特点体现在以下3点:基于自注意力的模块学习全局表征,再根据卷积的空间归纳偏差特性结合卷积模块,使网络在参数更少的时候学习更多的表征,并且收敛相对更快;引入上采样层后,提高特征图的分辨率,使得网络能够更好地捕捉图像中的细节信息;将通道注意力模块和梯度类激活映射模块相结合,对生成的类激活图激活的目标区域进行聚焦和修正,使网络的定位性能得到提高。

图2 弱监督纸板表面缺陷检测网络

2.2 主干网络

基于自注意力的网络通过具备学习全局表征的能力,在图像领域的各种任务中都获得了优异的成绩。然而,完全基于自注意力的弱监督网络需要更多的学习参数和学习成本来获得较好的性能,这给缺陷检测带来了困难。因此,本文的弱监督检测网络的主干网络由注意力模块和倒残差结构模块组成。

当缺陷样本输入到网络时,通过STB层的自注意力机制获得整张图片的全局交互,即整张图片上每个特征与图上其他的特征产生交互,得到整张图片的全局语义信息。STB层产生的特征图经IRB层的特征提取,使网络通过更少的参数去学习表征,降低模型的计算成本。上采样层通过对特征图进行空间尺寸的放大,使得网络后面的STB层能够更快地学习到缺陷特征,网络更容易收敛。Patch Merging层是下采样层,将整张缺陷图片分割成不重叠的图片块,然后在通道方向进行拼接,最后对每个像素的维度进行线性变换。

STB层结构细节如图3a所示,由2个模块串联组成,其模块通过多头自注意力机制(Multi-Head Self Attention, MSA)计算每个像素之间的相关性。流程如下:首先将输入特征图进行层归一化操作(Layer Normalization, LN),然后在窗口内进行多头自注意计算(W-MSA),最后在进行一次层归一化操作后传入多层感知器(Multi-Layer Perceptron, MLP);另一个模块是在移动后的窗口内进行多头自注意计算(SW-MSA)。连续Swin Transformer Block计算如式(1)所示。

式中:zz+1分别为基于窗口的多头自注意和基于移动窗口的多头自注意的输出特征向量。

IRB层结构细节如图3b所示,其模块通过深度卷积(Depthwise Convolution, DW)提取特征,DW层对输入特征图的每个输入通道应用单个卷积核操作,并且每个卷积核的通道数为1,相较于普通卷积层,DW层的卷积操作大大降低了计算量。IRB层流程如下:利用1×1的卷积对输入特征图进行升维,然后传入DW层捕捉特征图中的缺陷特征,最后通过1×1的卷积对特征图进行降维。值得注意的是,升维的目的是降低信息通过ReLU激活函数丢失的信息量。

2.3 定位网络

类激活映射[12]是属于注意力方法,它常用于可视化卷积神经网络模型,使得模型具备可解释性和透明性。然而,使用完全基于类激活映射生成的类激活图进行判别区域的定位,只能定位粗略的空间对象区域,这给缺陷定位带来了困难。因此,本文的弱监督检测网络的定位网络由通道注意力模块和梯度类激活映射模块组成。

图3 主干网络的组成模块

主干网络的输出特征图传到网络时,通过SEB层的注意力机制,会给正向传播得到输出特征图的各个通道赋予不同的权重信息,将权重分别与对应特征图的各通道相乘后,对有效信息特征的关注度得到增强,对无效信息特征的关注度被抑制,使类激活图激活的目标区域聚焦。SEB层产生的输出特征图传入GCB层后,GCB层以反向传播的类别梯度信息给输出特征图的各个通道赋予不同的权重信息,将权重分别与对应特征图的各通道相乘后,进一步对有效信息特征加强,达到对目标区域修正的目的。两模块的目的都是为蕴含高级语义信息的通道分配较大的权重信息,而给与检测类别无关特征的通道分配较小的权重信息。因此同时具备SEB层对目标区域聚焦和GCB层的目标区域修正,使网络的目标定位更加准确。

图4 定位网络的组成模块

3 实验结果分析

3.1 实验数据与评价标准

实验采用公开发表的纸板缺陷数据集,如图5所示,该数据集包括纸板破损、起泡、划痕和排骨痕等缺陷,但由于数据集将所有缺陷均化为一个类(detect),因此为了适合网络,收集了生产过程中没有缺陷的纸板图片作为另外的类(no_detect),形成了最终的数据集。数据集一共包含1 539张样本,其中训练集与测试集的比为4∶1,如表1所示。

图5 纸板缺陷示意图

表1 训练集和测试集分布

Tab.1 Training set and test set distribution

缺陷检测的精度主要取决于分类精度和定位精度。分类精度取决于分类结果的正确率,定位精度的测试则使用阈值法来对缺陷进行定位。在实验中,选择将类激活图里像素值大于81的最大连通区域作为纸板缺陷的识别区域,并且将预测框与真实框IOU[13]大于0.5的认定为识别成功。为了更准确地评估模型的性能,综合考虑最终选择分类精度、定位精度、精确率(Precision,)、召回率(Recall,)和交并比(Intersection Over Union,IOU)5个指标。具体计算式如下:

3.2 实验细节

实验环境为Window11操作系统,选用i7-12700KF CPU,32 GB RAM和NVIDIA GeForce RTX 3080Ti GPU显卡,编程语言为python3.9,深度学习开发框架为Pytorch。

训练时,缺陷检测网络采用AdamW梯度下降法[14]进行训练,其中学习率为0.000 1,权重衰减系数为0.05,最小批次尺寸为14,训练迭代次数为200轮。在模型搭建过程中,由于Swin Transformer Block的输出是长度为长乘宽的序列,因此在传入倒残差结构时需要对其进行尺寸调整,调整后的尺寸为输入图片(×)经过模型次下采样后的尺寸(/×/)。在训练和验证过程中,由于GPU内存有限,因此对每张图片的分辨率都调整为224像素×224像素,为了确保工业缺陷检测的准确性,在进行生成类激活图进行缺陷定位时,传入网络的每张图片的分辨率都为1 024像素×1 024像素。

3.3 网络结果分析

本文模型随着网络的迭代次数增加,相较于作为骨干网络的Swin minuscule(由深度为(2, 2, 2, 2)的STB模块组成),引入IRB层和SEB层的网络能够更快地学习到良好的底层特征,从而得到更精细的高层特征,加快网络的收敛,并且Swin minuscule需要接近2倍的训练次数才能达到优化后本文模型的学习性能。本文模型的识别率曲线、训练集损失曲线和验证集曲线如图6所示。

为评估本文模型的有效性,在相同的训练条件下与当前常见的算法ResNet34[15]、Swin tiny[11]进行对比。由于本文模型的原始骨干网络(Backbone)是深度为(2, 2, 2, 2)的STB模块组成,因此选择加入深度为(2, 2, 2, 2)的Swin minuscule作为比较。从表2中可以看出,本文模型具备良好的定位性能和分类性能,在100.0%精确率和98.5%召回率的情况下,在纸板表面缺陷数据集上的分类正确率达到了99.0%,定位正确率达到了92.2%。相比之下,完全基于卷积的ResNet34虽然在分类上有不错的性能,但由于卷积对像素之间的长距离不能充分学习,因此定位性能一般。而完全基于自注意力的Swin tiny算法,虽然召回率为100.0%,但网络收敛速度慢。从表3中可以看出,即使将预测框与真实框IOU大于0.9的认定为识别成功,本文模型也有着57.7%的定位正确率,相较于原模型的定位性能提高了8.8%。图7给出了本模型在纸板表面缺陷数据集的各类别检测示例,其中颜色越深代表对识别类别的贡献度越高。

图6 纸板缺陷图像分类准确率及损失曲线

表2 各模型对比实验结果

Tab.2 Comparison of experimental results of each model

表3 不同模型在IOU指标下的定位性能

Tab.3 Localization performance of the model under different IOU metrics

3.4 消融实验结果分析

为验证IRB层和SEB层对网络整体性能上的贡献,本节对网络进行拆分实验,分别验证IRB层和SEB层对网络的影响,测试结果如表4所示。引入IRB层和SEB层后,网络在分类和定位上的性能均有所提高。其中,通过IRB层提高骨干网络的特征提取能力,使网络定位性能提高了1.6%,通过SEB层对判别区域进行聚焦,使网络定位性能提高了3.2%,结合2个模块后使网络定位性能提高了7.5%。通过可视化纸板排骨痕缺陷进行分析,结果如图8所示,IRB层使网络能学习到更复杂和抽象的特征表示,网络的注意力更加聚集在缺陷处,SEB层则进一步提高了提取缺陷特征的能力。证明了使用IRB层和SEB层可以提高分类准确率,并且划分出有效的判别区域进行定位,从而提高模型的性能。

图7 纸板缺陷目标检测结果示例

注:红框是预测框,绿框是真实框。

表4 实验结果

Tab.4 Experimental result

图8 分解实验的类激活图可视化结果

4 结语

针对工业行业的实例级标签数量较少和过于主观的问题,本文面向实际的纸板表面缺陷检测任务,提出了弱监督学习下融合卷积和注意力机制的神经网络算法。该网络仅使用图像级标签实现对缺陷的分类和定位,并取得优异的检测性能,避免了专业性强的实例级标签。在纸板缺陷数据集上的实验结果证明,本文提出的模型在分类正确率与定位正确率上分别达到99.0%和92.2%,胜过其他模型。本研究为基于自动化缺陷纸板剔除系统的构建奠定基础。

[1] BOWEN Z, HUACAI L, XIUYUN Z. Cotton Packaging Defect Detection Based on Improved SVM Algorithm[C]// 2022 5th World Conference on Mechanical Engineering and Intelligent Manufacturing (WCMEIM), IEEE, 2022: 1088-1092.

[2] SHA Y, HE Z, DU J, et al. Intelligent Detection Technology of Flip Chip Based on H-SVM Algorithm[J]. Engineering Failure Analysis, 2022, 134: 106032.

[3] GUAN S Y, WANG X K, HUA L, et al. Quantitative Ultrasonic Testing for Near-Surface Defects of Large Ring Forgings Using Feature Extraction and GA-SVM[J]. Applied Acoustics, 2021, 173(1/2/3/4): 107714.

[4] ZHAO M, QIU W Y, WEN T X, et al. Feature Extraction Based on Gabor Filter and Support Vector Machine Classifier in Defect Analysis of Thermoelectric Cooler Component[J]. Computers & Electrical Engineering, 2021, 92(12): 107188.

[5] GAO C R. Design of Tourism Package with Paper and the Detection and Recognition of Surface Defects-Taking the Paper Package of Red Wine as an Example[J]. Journal of Intelligent Systems, 2021, 30(1): 720-727.

[6] 姜旭辉. 基于机器视觉的纸板缺陷检测控制系统研究及应用[D]. 青岛: 青岛科技大学, 2021.

JIANG X H. Research and Application of Paperboard Defect Detection Control System Based on Machine Vision[D]. Qingdao: Qingdao University of Science & Technology, 2021.

[7] 叶宇星, 孙志锋, 马风力, 等. 基于改进YOLOv5s的腌制蔬菜真空包装缺陷检测[J]. 包装工程, 2023, 44(9): 45-53.

YE Y X, SUN Z F, MA F L, et al. Vacuum Packaging Defect Detection of Pickled Vegetables Based on Improved YOLOv5s[J]. Packaging Engineering, 2023, 44(9): 45-53.

[8] 何彧, 宋克臣, 张德富, 等. 融合多层级特征的弱监督钢板表面缺陷检测算法[J]. 东北大学学报(自然科学版), 2021, 42(5): 687-692.

HE Y, SONG K C, ZHANG D F, et al. Weakly-Supervised Steel Plate Surface Defect Detection Algorithm by Integrating Multiple Level Features[J]. Journal of Northeastern University (Natural Science), 2021, 42(5): 687-692.

[9] 孙美君, 吕超章, 韩亚洪, 等. 弱监督学习下的融合注意力机制的表面缺陷检测[J]. 计算机辅助设计与图形学学报, 2021, 33(6): 920-928.

SUN M J, LYU C Z, HAN Y H, et al. Weakly Supervised Surface Defect Detection Based on Attention Mechanism[J]. Journal of Computer-Aided Design & Computer Graphics, 2021, 33(6): 920-928.

[10] JIANG P T, ZHANG C B, HOU Q B, et al. LayerCAM: Exploring Hierarchical Class Activation Maps for Localization[J]. IEEE Transactions on Image Processing, 2021, 30: 5875-5888.

[11] LIU Z, LIN Y, CAO Y, et al. Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 10012-10022.

[12] ZHOU B, KHOSLA A, LAPEDRIZA A, et al. Learning Deep Features for Discriminative Localization[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 2921-2929.

[13] YU J, JIANG Y, WANG Z, et al. Unitbox: An Advanced Object Detection Network[C]// Proceedings of the 24th ACM International Conference on Multimedia, 2016: 516-520.

[14] LOSHCHILOV I, HUTTER F. Decoupled Weight Decay Regularization[J]. arXiv preprint arXiv:1711.05101, 2017: 1-11.

[15] HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.

Weakly Supervised Cardboard Surface Defect Detection with Attention Mechanism

WU Weisong1, TU Fuquan1, LUO Yingjiu1, YANG Jiayu1, HAN Tianyu1, WANG Shufeng2, TU Chujie3

(1. Key Laboratory of Metallurgical Equipment and Control, Ministry of Education, Wuhan University of Science and Technology, Wuhan 430081, China; 2. WISDRI Engineering & Research Incorporation Limited, Wuhan 430080, China; 3. Heraeus TROT (Wuhan) Engineering and Technology Co., Ltd., Wuhan 430070, China)

The application of deep neural networks in industrial inspection is limited due to the lack of instance-level labels. To address this issue, the work aims to propose a neural network algorithm that combines convolution and attention mechanisms under weakly supervised learning for practical surface defect detection on cardboard. By integrating channel attention modules and gradient-based activation mapping modules, this network enhanced the precision of class activation maps and realized the precise localization of cardboard surface defects. Additionally, a combination of inverted residual structures and upsampling layers was utilized to refine shallow features and improve the network's feature extraction capabilities, thereby accelerating the convergence speed. Experiments were carried out on the publicly available cardboard defect dataset, achieving classification accuracy and localization accuracy of 99.0% and 92.2% respectively under the training with image-level labels and demonstrating the effectiveness of the proposed algorithm. The disadvantages of a small number of instance-level labels and excessive subjectivity are avoided, which lays a foundation for the removal of defective cardboard based on robots.

weakly supervised algorithm; object localization; deep learning; cardboard surface defect detection; self-attention

TB487;TP391.41

A

1001-3563(2024)03-0201-07

10.19554/j.cnki.1001-3563.2024.03.023

2023-06-06

国家自然科学基金(51701145)

猜你喜欢
纸板注意力卷积
让注意力“飞”回来
纸板填数
基于3D-Winograd的快速卷积算法设计及FPGA实现
纸板俄罗斯方块拼图
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
2013年芬兰纸与纸板净出口量高达947万吨
一种基于卷积神经网络的性别识别方法