基于改进特征金字塔的轮胎X光图像缺陷检测

2024-03-03 11:21吴则举宋丽君
计算机工程与应用 2024年3期
关键词:空洞轮胎卷积

吴则举,宋丽君,冀 杨

青岛理工大学 信息与控制工程学院,山东 青岛 266520

子午线轮胎是机动车辆的重要部件,轮胎损坏而导致的公共交通意外事件占总交通事故率的75%[1],因此轮胎生产质量直接关系到行车人员的生命安全。在轮胎工业生产领域,缺陷检测是保证产品质量的重要步骤[2]。因此,针对轮胎生产线开发自动化视觉缺陷检测系统成为业界的主要任务。近年,针对轮胎X光缺陷图像检测的研究主要分为基于传统机器学习的方法和基于深度学习的方法。

利用机器学习的轮胎缺陷检测常使用统计方法。文献[3]统计帘线数量后,通过双阈值法判断缺陷的存在。文献[4]统计帘线宽度值,根据帘线间距的不同占比判断胎侧开跟的存在。以上方法有两点不足:(1)只对有规律的胎侧部位纹理类缺陷起作用,而不适合处理胎冠这种背景复杂部位的缺陷。(2)每种方法只能检测一类缺陷,而轮胎缺陷种类是多样的。

深度学习方法擅长高效率地从缺陷图像中学习复杂的结构和关系[5],能够实时处理不同类型的缺陷。文献[6]使用无监督方式对正常样本训练来重构图像,根据重构残差的大小进行分类。Zheng等[7]设计了无监督深度卷积稀疏编码结构,分类精确率达到96.8%。以上对轮胎缺陷分类的方法能满足工厂对精确度和实时性要求,但无法确定缺陷的具体位置。

基于目标检测的轮胎缺陷检测算法弥补了分类算法对缺陷位置检测的缺失。文献[8]以Yolov4为基础网络,使用FPN(feature pyramid networks)进行特征融合,全类平均精度达到92.94%。文献[9]使用带有FPN结构的Faster R-CNN提取样本特征,Siamese网络作为分类器,有效提高了召回率。由此可知,带有FPN 的检测网络对多种轮胎缺陷都具有优良的检测性能。因此,本文使用带有FPN结构[10]的Faster R-CNN网络作为基线检测网络。

原始FPN以自顶而下方式进行特征层融合,却未在下层特征图对上层的影响方面进行探究,导致上层特征图缺少下层特征的细节信息[11]。因此,传统的FPN结构不能完全满足本文对精度的要求。近年来,众多FPN的变体结构被提出。文献[12]中,BiFPN 实现了双向跨尺度的特征图快速融合。GraphFPN[13]在超像素层次生成多层次特征交互的新型特征金字塔拓扑结构。文献[14]构建了特征分组的新式特征金字塔。但是,以上新式FPN直接跨层融合特征图,忽视了各级特征层之间不同的语义信息和相异的感受野尺寸。

为进一步提高对轮胎缺陷的检测精度,以满足工业安全性要求。同时,考虑到轮胎特有的复杂各向异性多纹理背景,以及缺陷与背景极易混淆的特点,对网络进行如下改进:

(1)针对FPN顶层和底层特征存在语义和感受野差距的问题,设计了感受野模扩增模块(receptive field amplification module,RFAM),能够在轻量计算的前提下扩大感受野,捕获丰富的上下文信息。

(2)针对FPN 顶层特征图信息缺失严重的问题,设计了BE-FPN结构,将底层特征图经过RFAM模块嵌入顶层,以增强网络检测精度。

(3)为进一步提升网络检测性能,引入激活函数Meta-ACON,自适应控制各卷积层的非线性程度[15],优化模型结构。

(4)针对无公共轮胎缺陷图像数据集的问题,在工厂轮胎生产线上挑选缺陷图像,通过降噪处理、图像裁剪与扩充、手工标注等步骤制作了轮胎X光缺陷图像数据集。

1 相关工作

1.1 空洞卷积

池化操作和增大卷积核是增大感受野的两种方式。但是池化操作会导致图像细节缺失,增大卷积核会造成卷积过程中计算量的大幅增加。空洞卷积能够在保证图像精度的前提下,以不增大计算量的方式扩充感受野。空洞卷积通过在普通卷积核中填充d-1 个零值来实现感受野的扩增,d为空洞卷积的扩张率。使用扩张率后的卷积核计算公式为:

其中,k为普通卷积核的尺寸,k′是空洞卷积核的大小。当扩张率d=2 且普通卷积核尺寸k=3 时,空洞卷积的卷积核k′=5。由图1 中(a)与(b)的对比可见,与普通卷积相比,在同样的参数量下,空洞卷积的感受野得到有效扩增。

图1 普通卷积和空洞卷积Fig.1 Regular convolution and dilated convolution

1.2 深度可分离卷积

在传统卷积的过程中,滤波器同时对图像的所有通道进行运算,因此存在计算量冗余的问题。深度可分离卷积可以降低卷积过程中的参数量,从而减少计算时间。深度可分离卷积首先按照逐层卷积对每个特征图的通道进行单个滤波器卷积,然后按照逐点卷积来创建逐深度卷积层的线性组合。

进行逐层卷积和的逐点卷积计算量为:

式(2)中K是卷积核长度,M为输入通道数,N是卷积核个数,F是输入特征图的尺寸。而当以上参数都相同时,深度可分离卷积与普通全卷积的计算量之比为:

由式(3)可知,深度可分离卷积将传统的乘法运算变为先乘后加的运算,计算量只有普通全卷积计算量的,这将有效降低网络运行复杂度。

2 研究方法

2.1 轮胎缺陷检测网络整体框架

Faster R-CNN 网络是经典的二阶目标检测网络,FPN结构能够实现高精度多尺度的检测,因此常被作为Faster RCNN的基础网络结构。在此基础上,本研究考虑到轮胎X 光缺陷图像纹理复杂、缺陷尺度多变的特点,对带有FPN 结构的Faster R-CNN 网络做出改进后成为轮胎缺陷检测网络TDDN(tire defect detection network)。

图2展示了TDDN模型结构。首先,特征提取网络采用ResNet-50[16],为了让网络学习性地选择神经元激活与否,ResNet-50网络引入了新的激活函数Meta-ACON来替代block中3×3卷积后的激活函数ReLU。然后,将ResNet-50 第二层到第五层所提取的特征图送入改进的特征金字塔BE-FPN模块进行融合,得到五个不同尺度的特征图。将融合后的特征图输入到区域建议网络(region proposal networks,RPN)中,并筛选出候选框,映射到原始图像获得相应的特征矩阵。再通过ROI Align层按大小7×7合并,送入两个全连接层,一个全连接层上进行分类,另一个全连接层进行回归。TDDN的损失函数由分类损失和回归损失两部分组成。分类函数为二值交叉熵损失函数,回归损失函数采用平滑L1损失。

图2 轮胎缺陷检测网络框架图Fig.2 Tire defect detection network diagram

2.2 感受野扩增模块RFAM

FPN中浅层特征图具有较高分辨率,但是感受野较小,且上下文信息不足,需要感受野扩增模块。增加池化层或使用连续多层卷积可以增大感受野[17],但是前者会造成信息损失,后者会导致参数量的上升。受RFB[18]模块的启发,本文提出了一种轻量化的感受野扩增模块RFAM,能够在增大感受野的同时降低网络的计算压力。

如图3 所示,RFAM 模块具有四个并行分支和一个残差分支。为降低模型运行压力,对于输入的特征图先进行通道分离操作,即将输入特征图分为通道减半的两个特征向量S1和S2,两向量分别输入1×1卷积分支和残差分支。1×1 卷积实现特征图通道的数降维,再次降低计算复杂度。然后四个并行分支分别使用扩张率为1、3、5、7 的空洞-深度可分离卷积(dilated-depthwise separable convolution,DDS)扩增感受野,并提取特征图中的多尺度信息。

图3 感受野扩增模块Fig.3 Receptive field amplification module

空洞-深度可分离卷积是将空洞卷积和深度可分离卷积结合后的轻量化卷积。其原理是在深度可分离卷积的深度卷积部分使用空洞卷积进行计算,能够在扩大感受野的前提下,显著降低所提出模型的计算复杂度。

将四个空洞-深度可分离卷积组成的并行结构进行拼接并送入1×1 卷积层,卷积后的特征图记作A。A并不具有最优的特征表示,因为空洞-深度可分离卷积中的深度卷积部分是对输入图像的每个通道进行分组卷积,其通道之间缺少信息交互,从而导致对A的特征提取难度上升[19]。为增强特征向量通道间的通信,对特征图A进行通道混洗(channel shuffle)。通道混洗过程如图4 所示,对图像通道乱序化排布,完成通道信息互通。通道混洗后的特征图记为A1。A1与残差分支相融合成为本模块的最终输出。残差分支含有输入图像的细粒度信息,能够在保持图像分辨率的同时缓解梯度消失问题。

图4 通道混洗Fig.4 Channel shuffle

本文将RFAM与RFB模块做了比较。首先,RFAM模块具有更多的分支和扩张率更高的空洞卷积,因此获得了更大的感受野与更多的全局特征细节信息。其次,RFAM 模块中的通道分离操作和空洞-深度可分离卷积,使该模块参数量相较于传统的RFB模块更少,模型效率提高。最后,通道混洗缓解了引入深度可分离卷积所导致的通道交互障碍现象,提高了图的特征表达能力。

2.3 BE-FPN结构

本研究中的轮胎X 光缺陷图像帘线排列十分复杂,并且图像整体灰度值低、目标与背景对比度差异小。因此,在轮胎X 光缺陷检测任务中,特征图的背景分辨率和纹理清晰度至关重要。使用传统FPN 结构融合轮胎X 光图像的特征图时,虽然FPN 顶层特征图具有更多的上下文信息,然而其分辨率过小,且在多次自下向上多层的卷积中信息损失严重[20],从而缺少图像的细节信息,不利于对纹理复杂的轮胎X 光图像进行缺陷检测。

FPN 底层特征图分辨率高且具有丰富的纹理信息和细节信息,将底层特征图注入顶层即可弥补顶层特征图的信息缺失。但是,底层特征图感受野受限,直接注入顶层会导致感受野尺寸与分配到顶层锚框尺寸无法匹配,影响缺陷特征的提取能力。另一方面,底层特征图的上下文信息不足,与顶层特征图之间存在巨大的语义差异。如果直接将二者融合,则易有混叠效应,减弱网络的识别能力。为增强顶层特征图细节信息并解决底层感受野与顶层锚框的匹合问题,本文对原始的FPN结构做了如下改进。

改进后的FPN 结构称为BE-FPN,结构如图5 所示。首先,设计了RFAM 模块来扩大底层特征图L2的感受野,并生成底层特征图所缺少的上下文信息。经过RFAM模块的特征图L2new同时具有较大的感受野和高分辨率的背景纹理信息。L2new经过下采样之后,与P5融合生成P5new特征图。

图5 BE-FPN结构Fig.5 Structure of BE-FPN

考虑到输入特征L2new和P5具有不同的感受野和分辨率,需要对输入特征图有所偏重,本研究使用快速归一化操作FNF(fast normalized fusion)将L2new与P5融合。FNF的公式为:

式(4)中,λi是可学习的权重,代表不同输入特征图Ii的重要性。网络在训练过程中会不断调整λi数值,并在每次调整数值后对λi进行ReLU操作,使权重值λi始终不小于0。O为融合后的特征图。ε=0.000 1,加入分母中可避免等式数值不稳定。融合后的特征图P5new的表达式为:

式(5)中,P5new是融合后的特征图,Resize(L2new)是对特征图L2new进行下采样操作,使L2new与P5尺寸相同。λ1和λ2是两个特征图各自对应的权重。对特征图进行FNF操作,能够使网络在训练中动态地学习不同特征层的重要性,并通过多次学习结果来调整权重,从而达到特征层融合的最佳状态,能够提升网络检测精度。

综上所述,使用BE-FPN 模块时,底层到高层的信息缩短路径,减少了顶层特征图中因自下而上层层卷积导致的细节丢失。新的高层特征图P5new同时拥有了清晰纹理信息和充足的上下文信息,更适合轮胎X光缺陷的检测任务。

2.4 对特征提取网络的改进

ResNet-50 中常使用ReLU 作为激活函数。然而,ReLU函数无法在网络的训练过程动态地判断是否激活相应神经元。针对这个问题,本文使用Meta-ACON 函数控制网络神经元激活时的可选择性,根据网络训练情况能动地调节ResNet-50 模型线性和非线性化程度,从而提高网络的运行效率和动态自适应性。下面是对Meta-ACON函数原理的详细阐述。

首先,对极值函数max(x1,x2,…,xn)求取平滑可微近似:

式(6)中xi是极大值函数内的元素,n为元素个数,β是激活因子经过一个小型网络结构训练生成,即显式地学习不同样本的激活程度,不同的样本有不同的激活因子。对式(6)进行推导后可知:当β→∞,Sβ→max,则Sβ处于非线性的激活状态。当β→0,Sβ→mean,则Sβ处于线性的非激活状态。考虑到许多激活函数内的元素可以用ηa(x)和ηb(x)这样的线性函数表示,于是对式(6)取近似表示计算公式:

为了在网络训练的过程中使用参数动态调节,令ηa(x)=p1x,ηb(x)=p2x且p1x≠p2x,式(7)可写作:

式(8)中的激活因子β可以调节函数的线性和非线性,即控制函数的激活状态。σ是sigmoid 函数,p1和p2是在模型运行过程中可动态学习的参数。对式(8)求一阶导数可推理得:

为了计算一阶导数的上边界和下边界,需要对式(8)求二阶导数,令二阶导数等于0 后可求得一阶导数的上边界和下边界:

由式(10)和(11)可知,式(8)中一阶导数的上边界和下边界是动态学习参数p1和p2调控的。Meta-ACON 函数具有可学习的上下边界。激活因子β可以控制神经元激活与否。为了使β根据样本特征动态调节,基于通道级β的表达式根据特征图X∈RC×H×W设计为:

式(12)中,W1∈RC×C/r和W2∈RC/r×C分别对应两次卷积操作,r是控制计算量的缩减因子,常设置为16。实际计算过程如图6所示,首先对输入特征图X从水平维度和垂直维度上求得均值,然后通过两个1×1的卷积层,即式(12)中的W1和W2,W1是将通道数由C降为,W2是将通道数恢复到原始维度。最后使用sigmoid 函数得到归一化后的β,同一通道的所有像素之间能够共享同样的激活因子。这种通过的小型学习网络训练出的β用于控制神经元是否激活。

图6 通道级的β 计算过程Fig.6 Calculation process of β at channel wise

此外,还有基于层级设计的β的表达式:

即对特征图X∈RC×H×W依次在水平维度、垂直维度和通道维度求均值,最后将均值送入激活函数sigmoid 进行归一化。除此之外,还有基于像素级设计的β表达式:

即对特征图X∈RC×H×W直接sigmoid 归一化。本文中后续Meta-ACON默认采用式(12)中基于通道级的小型网络生成β,在本文3.4 节的表3 将会通过实验结果显示通道级β生成方式的优良性能。

β值直接由样本数据的结构特征决定,不同的样本数据会产生不同的β值,因此加入Meta-ACON 的ResNet-50能够根据数据集中不同样本特性选择性地激活网络神经元。这种能够根据样本特性改变神经元激活状态的功能,是Meta-ACON 函数相较于ReLU 函数的最大优势。因为ReLU函数存在神经元坏死情况,即当神经元输入的加权和为负时,则梯度将完全为零,导致网络无法反向传播和节点更新,导致该神经元失效。Meta-ACON通过网络训练动态产生β值来控制非线性程度,有效改善了ReLU 函数造成的神经元坏死现象,从而优化网络特性。

3 实验结果与分析

3.1 缺陷分类与数据集制作

在工厂生产线上收集的20 000张图片里,挑选出含有开跟、气泡、胎侧杂质和胎冠杂质这四类缺陷的样本,收集到的缺陷图像共1 054张。

轮胎图像尺寸较大,为减少训练内存的占用以及优化网络识别效果,将轮胎图像裁剪到300×300~600×600像素的范围内。随机选取814 张图片进行数据扩充后做数据集,另外240 张用于最后计算正判率、漏判率和误判率。数据集中开跟图像267张,气泡图像147张,胎侧杂质图像300 张,胎冠杂质100 张。使用LabelImg 软件参考PascalVOC2007 数据集格式对轮胎缺陷图像进行人工标记。

为了避免训练网络时出现过拟合问题[21-22],将图片旋转10°、20°和180°以进行数据扩充。除此之外,对扩充后的数据集进行随机选取,按照7∶3的比例分为训练集、验证集。训练集用于训练模型的参数,验证集用于评估每批训练和调优超参数后模型的泛化能力。

3.2 实验设备和训练策略

实验平台的软件环境是ubuntu16.04 LTS 64 位系统。编程语言选用Python 3.8,深度学习框架选用Pytorch 1.10,使用NVIDIA GeForce GTX A4000 GPU。

实验中使用自己构建的轮胎X 光缺陷图像数据集进行训练,选择随机梯度下降(SGD)。初始学习率设置为0.005,学习率衰减的周期为3,学习率衰减的乘法因子0.33,动量因子为0.9,权值衰减系数为0.000 5。此外,使用ResNet-50 在COCO 数据集上预先训练的参数模型进行网络迁移学习,训练25 个轮次确保模型收敛。每个实验训练10 次,求取10 次实验结果的平均值作为最终结果。由于GPU 显存资源限制,批大小设置为8,使用混合精度训练[23]。

3.3 评价指标

本文使用每类平均检测精度AP、平均检测精度均值mAP、检测时间、正判率、漏判率和误判率作为TDDN模型的性能评价指标。

AP 值由准确率(Precision)和召回率(Recall)计算得出,准确率和召回率分别定义为:

上式中,TP是正确检测的轮胎缺陷的样本数量,FP是没有缺陷却误检为缺陷图像的样本数量,FN 是含有缺陷的图像却没有被检测出来的样本数量。每类平均检测精度AP是Precision和Recall与坐标轴围成的面积。平均检测精度均值mAP 是对每类平均检测精度AP 进行算数求和后除以类别数的均值。

为了进一步分析改进后网络的性能,本研究选择区别于数据集以外的240张缺陷图像,统计了样本的正判个数、漏判个数和误判个数,并且分别除以总图像数来计算出正判率、漏判率和误判率。其中正判是将缺陷样本正确地检测为缺陷图像,漏判是指对缺陷图像未曾检出,误判是指将某类缺陷错误地判定为另一种缺陷,例如将开跟错误地判定为气泡。

另外,为了计算模型的检测速度,本文引入检测时平均每张图像的处理时间Time(单位:s)来评估模型速度。Time的值越小,说明网络检测速度越快。

3.4 对比实验

为展示本文提出的轮胎缺陷检测网络的良好性能,本研究在自制的轮胎X光缺陷图像数据集上,以平均精度均值mAP和每张图片在网络中的检测时间作为评价标准,与SSD300[24]、YOLOv3[25]、YOLOv4[26]、CenterNet2[27]、CenterNet++[28]、YOLOv6-s[29]、YOLOv6-L、YOLOv7-tiny[30]和YOLOv7 算法进行对比,对比结果如表1 所示:以上九种算法的mAP分别比本文的方法低11.67、8.95、6.76、7.55、12.09、17.64、4.64、14.87 和3.70 个百分点,本文算法的检测精度最高,说明本文算法在轮胎缺陷图像检测的准确性方面远远优于以上算法。本文算法的参数量与精度位于第二的YOLOv7 算法相比多出2.358×107,但比其高出3.70个百分点检测精度。从测试时间上看,本文算法所用时间最长,但本文15.38 的FPS 值和0.065 s 的检测时间已经能够满足工厂检测的实时性要求。综上所述,本文算法同时满足生产线的检测精度要求和检测时长要求。

表1 对比实验Table 1 Contrast experiment

为展示本文提出的BE-FPN的良好性能,将BE-FPN与GraphFPN[31]、AugFPN[32]、CE-FPN[33]、AC-FPN[34]等新型特征金字塔结构,分别加入Faster RCNN+ResNet-50框架中训练,训练结果如表2所示。从参数量上看,BE-FPN参数量最低,仅比原始FPN多出2.64×106,证明BE-FPN复杂度较低。从检测精度上看,BE-FPN 的mAP 值最高,比精度位于第二的GraphFPN 高出1.48 个百分点。从检测时间上看,BE-FPN 用时最短,仅为GraphFPN 用时的34.91%,且比AC-FPN 少0.011 s,说明BE-FPN 比以上特征金字塔具有更好的实时性。综上所述,与以上新型特征金字塔结构相比,BE-FPN 具有轻量化、高精度、速度快的优点,是最适合进行轮胎缺陷图像检测的特征金字塔结构。

表2 FPN对比实验Table 2 Contrast experiment about FPN

为得到激活因子β的最优计算方法,将β的基于层级生成方式、基于通道级生成方式和基于像素级的生成方式在Faster RCNN+ResNet-50+FPN 框架上进行对比实验。表3中,GAP表示全局平均池化操作,fc为全连接层,σ为激活函数sigmoid。对比mAP值可知,基于通道级生成的激活因子加入ACON 后,由Meta-ACON比ACON多使用了由样本特征决定的β,准确率提升了0.74 个百分点,验证了Meta-ACON 函数中样本特征动态调节的准确性。与加入了层级和像素级生成激活因子的Meta-ACON 相比,加入通道级生成激活因子的Meta-ACON 在mAP 上高出0.46 和0.61 个百分点,充分印证了通道级激活因子β的优良性能。

表3 β 生成方式的对比实验Table 3 Contrast experiment of generation method of β

为对比Meta-ACON 与其他激活函数的性能,以原始的Faster R-CNN为框架,和DY-ReLU、FReLU、ReLU、Swish 等常见激活函数做了对比实验,实验结果如表4所示。使用Meta-ACON 函数的网络较使用FReLU 函数的网络参数多3.7×105,但mAP值高出0.91个百分点,在精度方面明显优于FReLU 函数,且时间上与FReLU仅0.001 s 之差。使用Meta-ACON 函数的网络较使用DY-ReLU函数的网络参数少6.3×105,且mAP值高出0.8个百分点,在参数量、精度、速度上都优于DY-ReLU 函数。所以,Meta-ACON 能够同时兼顾精度速度两个方面,优于其他激活函数。

表4 激活函数对比Table 4 Contrast experiment of activation function

3.5 消融实验

为了验证每个模块对模型的改进效果,以在原始的Faster R-CNN 作为基线网络,在轮胎X 光缺陷图像数据集上进行了消融实验。实验结果如表5所示,使用基线检测的平均精度均值mAP 值为89.57%。使用了BE-FPN 后,mAP 值增加了3.04 个百分点,而参数量仅增加2.64×106,证明底层特征图经感受野增大模块注入到金字塔顶层特征图后,底层的多纹理信息与顶层的高语义信息进行了有效融合,且模型的复杂度并未大幅增加。此外,ResNet-50 的激活函数改为Meta-ACON 后,mAP值提升了1.46个百分点,而参数量仅增加1.6×105,检测模型被有效优化。整体改进后的检测模型比基线高4.5个百分点,模型对轮胎缺陷图像的检测能力有效增强。从时间和帧率上看,加入BE-FPN 和Meta-ACON后仅增加0.009 s,帧率仅下降2.48 FPS,证明本文的改进方法在大幅提高精度的同时并未造成运行时间上的负担。

表5 消融实验Table 5 Ablation experiment

为验证RFAM模块中空洞-深度可分离卷积组对模型性能影响以及运算轻量化方面的优势,本文在BE-FPN结构中,对RFAM模块进行消融实验。RFAM-base模块是将RFAM模块中的空洞-深度可分离卷积全部替换为普通的3×3 卷积,并且去除通道分离和通道混洗操作。RFAM-base+DC是在RFAM-base模块基础上将普通3×3 卷积组换为空洞卷积组(DS),RFAM-base+DDS 是在Base模块基础上将普通3×3卷积组换为空洞-深度可分离卷积组(DDS),RFAM 是在RFAM-base+DDS 的基础上增加了通道分离和通道混洗操作。实验结果如表6所示。

表6 RFAM模块消融实验Table 6 Ablation experiment of RFAM

由表6 中数据可知,RFAM-base+DC 将RFAM-base中的普通卷积更换为空洞卷积后,平均精度均值mAP提升了2.49个百分点,而模型速度无明显变化。这证明使用空洞卷积扩增底层特征图感受野后,其上下文信息得到增强,能够在注入顶层特征图后有效提高模型精度,且无额外的计算开销。RFAM-base+DDS的mAP值比单独使用空洞卷积时下降了0.21个百分点,但模型速度提升了0.009 s。可知深度可分离卷积的通道独立计算方式会造成小幅度的精度损失,但可以显著提升网络运行速度。RFAM模块是在RFAM-base+DDS的基础上增加了通道分离和通道混洗操作,其mAP 值增加了0.38 个百分点,运行时间节约了0.004 s。由此可知,通道分离可以使网络具有更快的推理速度,通道混洗可以通过特征图通道乱序化排列,减少深度可分离卷积带来的信道间通信障碍。综上所述,RFAM模块具有优良的实时性和感受野扩增性能。

为验证RFAM 模块和底层特征图注入不同特征层后对网络性能的影响,以原始的Faster R-CNN 为框架做了消融实验,结果如表7 所示。将底层特征图未经RFAM 模块注入P5后,比基线网络精度高1.88 个百分点的精度,这说明底层特征图加入P5后弥补了顶层特征图细节特征,减少了顶层的信息缺失。经过RFAM模块注入P5后比未经RFAM 模块注入P5的方法高1.16个百分点的精度,证明RFAM模块可以扩大感受野并丰富上下文信息,减少底层与顶层融合时语义差距,从而有明显的精度提升。经RFAM 模块注入P4以及P3的精度分别比基线高0.78和0.35个百分点,但比经RFAM模块注入P5的方法在精度上少2.26 和2.69 个百分点,说明P4和P3信息损失较小,故加入底层特征后精度提升不明显。综上所述,经过RFAM 模块注入P5的方法是BE-FPN最佳结构。

表7 BE-FPN消融实验Table 7 Ablation experiment of BE-FPN

3.6 检测结果

为了展示每一类轮胎缺陷在网络改进前后的检测效果,对开跟、气泡、胎侧杂质和胎冠杂质的AP 值进行统计,结果如表8 所示。网络改进之后,开跟、气泡、胎侧杂质和胎冠杂质的AP 值分别提升了2.54、4.57、6.01和6.68个百分点。气泡、胎侧杂质和胎冠杂质这三类小目标检测精度提升较多,是因为BE-FPN能在顶层特征图中融合底层细节,减少了原来特征提取时自下向上层层卷积的信息损失。从改进后的AP 值来看,胎侧杂质和胎冠杂质取得了较好的检测精度,分别达到了98.04%和98.93%。而气泡的检测精度为84.71%,仍有待提高,但已能够达到工厂的检测精度要求。究其原因是,胎侧杂质和胎冠杂质目标清晰边缘清楚,且与背景对比度较大,较易辨别。而气泡与背景对比度不明显,且没有较为清晰的边缘,是历来轮胎缺陷检测中的难点。

表8 每类缺陷的检测结果Table 8 Test results of each type of defect

在工业检测领域,正判率、错判率和漏判率是检测性能的重要标准。本研究随机抽取64 张开跟图像,48张气泡图像,72张胎侧杂质图像和56张胎冠杂质图像,并在这240张缺陷图片上对正判个数、错判个数和漏判个数进行了统计,最后计算出正判率、错判率和漏判率,结果如表9和表10所示。在基线网络上,开跟、气泡、胎侧杂质和胎冠杂质的错判及漏判现象严重,能够正确检出的缺陷占比较低。在网络改进之后,四种缺陷的正判率均大范围上升,错判及漏判现象得到有效改善,证明了本文所提出的TDDN 网络在对轮胎缺陷检测方面的有效性。

表9 正判个数、错判个数和漏判个数Table 9 Number of correct judgments,error judgments and missed judgments

表10 正判率、错判率和漏判率Table 10 Rate of correct judgments,error judgments and missed judgments

图7是轮胎X光缺陷检测结果的可视化对比。图7(a)分别是开跟、气泡、胎侧杂质和胎侧杂质的原始图像,图7(b)是基线网络对图7(a)图片的检测结果,图7(c)是改进后网络对图7(a)图片的检测结果。图中字母表示缺陷类别,百分比代表置信系数,即判定为该类别的概率。从图中可观察到,对同样的图片检测时,改进后的网络检测时置信系数更高,检测精度更好,证明了本研究所做出改进的有效性。

4 结语

为实现对轮胎X光图像缺陷的高精度目标检测,本文在以带有FPN结构的Faster R-CNN的基础上做了改进。首先,设计了带有感受野扩增模块的新型特征金字塔结构BE-FPN,通过底层信息与顶层信息的融合,加强对缺陷中小目标的检测。此外,本文使用可学习的激活函数Meta-ACON动态地控制ResNet-50的激活程度,网络得到有效优化。在自制的轮胎缺陷数据集上,改进后网络的检测精度明显优于SSD300、YOLOv3和YOLOv4,且正判率大幅度上升,错判率和漏判率明显下降。改进后的网络虽然检测能力大幅提升,但是检测速度略逊于一阶检测网络,在未来的工作中将进一步研究如何提高检测速度。综合来看,本文所提算法能够实现工厂生产线对精度与速度的要求。

猜你喜欢
空洞轮胎卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
从滤波器理解卷积
胖瘦自如的轮胎
基于傅里叶域卷积表示的目标跟踪算法
大轮胎,玩起来
空洞的眼神
轮胎业未来数年将现并购潮
固特异Fuel Max系列新增LHS轮胎
用事实说话胜过空洞的说教——以教育类报道为例
一种基于卷积神经网络的性别识别方法