结合特征融合与分离的带钢表面缺陷检测方法

2022-12-08 07:22段佳佳
现代计算机 2022年18期
关键词:标签预测特征

段佳佳

(太原师范学院计算机科学与技术学院,晋中 030619)

0 引言

现有工业场景下,钢铁表面包括但不限于龟裂、杂质、斑块、麻坑面、氧化铁皮压入、划痕等类型的缺陷。缺陷类型不仅多样复杂,而且存在缺陷特征不明显和特征复杂的问题。

众所周知,有标签数据挖掘通常能够带来非常高的准确率,但数据收集耗时费力,成本高;无标签数据挖掘成本低,但产生的结果可信度较低。因此,半监督学习(Semi-Supervised Learning)成为了研究的热潮。半监督学习可以用少量的有标签数据和大量的无标签数据进行学习,不仅可以获得比无监督更加准确可信的结果,而且可以降低学习成本。

深度学习中的半监督方法可分为五种:①一致性正则化、图、生成式、混合式和伪标签[1],一致性正则化方法是指即使样本注入噪声,分类器的预测结果也不会发生显著变化,因此,通过将预测结果和扰动后的结果间的损失正则化,即可提高模型的泛化能力。②基于图的方法,是将数据集构建为图,每个节点表示一个训练数据,通过构建图节点间的边缘或节点向量的相似性来进行分类,但在定位任务上的效果有待进一步挖掘。③生成式方法,是利用数据的隐式特征,使生成假设的标签能与真实分布相吻合,从而达到较高的性能,但是需要较充足的先验知识。④伪标签学习具有标签数据学习的特点,将之应用到无标签数据中,可以生成数据的近似标签,称之为伪标签;模型通过标签数据和伪标签数据进行训练,从而达到学习的目的。⑤混合式方法,是通过将伪标签、一致性正则化和熵最小化的思想相融合,以达到提高模型性能的效果,但实现难度高。

上述深度学习中的各类半监督方法在执行图像目标检测任务时,数据处理大多依赖于数据增强和数据转换,但是大多数情况下,数据的增强和转换并不容易生成。由于伪标签方法不受数据格式的约束,获取数据伪标签的方法也容易获得,因此本文采用伪标签方法来实现半监督学习。

半监督方法在图像分类和语义检测领域的应用相对较多,但在目标检测领域的应用则相对较少。2013年,Lee[2]提出使用无标签和有标签数据同时参与训练,并在半监督分类领域获得了当时的最佳效果,但仅限于分类任务。2019年,Jeong等[3]提出了用于目标检测的半监督协同学习方法,该方法不仅可以同时用于单阶段和多阶段目标检测,而且可以通过获取图片间的位置或特征一致性损失,进行分类和定位的预测。2020年,Sohn等[4]提出了目标检测的一种简单的半监督学习方法STAC,该方法首先用标注数据训练一个模型,然后使用该模型对无标签数据进行预测,最后将以预测结果为伪标签的数据和标注数据一起用于训练新的模型,构建了简单的半监督目标检测机制。2021年,Liu等[5]提出的unbiased teacher方法,是端到端的目标检测方法,不仅证实了目标检测中类别不平衡的问题会影响伪标签的可靠性,而且有效地解决了背景和前景分类时存在的类别不平衡问题,从而提高了半监督模型的预测准确性。同年,Xu等[6]提出了Softteacher目标检测方法,实现了使用教师和学生模型一同训练的端到端的目标检测方法,在此基础上提出了软教师和抖动框的方法,将目标检测的平均精度均值提升到现有半监督目标检测方法的最高水平。尽管如此,伪标签可靠性的问题依然存在。

针对钢铁表面缺陷检测的实际应用需求和半监督目标检测领域中伪标签可靠性较低的问题,本文在Softteacher模型的基础上,对Softteacher中用于目标检测的FFRCNN网络的特征融合机制和用于伪标签可靠性评价的评价机制进行改进,并将之用于带钢表面缺陷的检测。

首先,Softteacher模型在应用于钢铁表面缺陷检测时,由于钢材缺陷类型多样带来的特征不明显问题,使得模型整体平均准确度均值有所降低。而卷积神经网络使用不同的卷积核能得到不同的特征图,因此,将FFRCNN网络的特征融合机制改为采用并行多分支结构,可以尽可能避免特征丢失带来的损失;其次,Softteacher属于半监督学习方法,因此,生成满足一定精确度和可靠性伪标签的机制是其至关重要的一环。在Softteacher模型中,数据的伪标签采用基于阈值的硬筛选方法生成,但可靠性不足。因此,改进其伪标签生成机制,提高伪标签的可靠性,可以有效提高Softteacher模型的整体性能。

1 Softteacher钢铁表面缺陷检测方法

本节介绍Softteacher模型用于钢铁表面缺陷检测的检测流程,所采用的FFRCNN网络、损失函数以及抖动框算法。

1.1 Softteacher半监督目标检测流程

Softteacher是一种端到端的两阶段半监督目标检测模型,通过在训练过程中逐渐提高目标检测模型准确度和生成伪标签的质量来提升模型的总体准确度。该方法用于钢铁表面缺陷检测的流程如图1所示。

从数据流的角度对模型进行分析,可以简单概括如下:

(1)数据集由标签数据和无标签数据组成。有标签数据进行弱增强后输入学生模型进行有监督训练,经过有监督训练后的学生模型通过EMA参数更新,将学生模型的权重参数传递给教师模型,进行教师模型学习。

(2)无标签数据进行强增强后输入学生模型,生成候选结果。

(3)无标签数据进行弱增强后输入教师模型,并通过更新权重参数后的教师模型进行结果的预测,然后将预测结果通过NMS过滤,获得初步伪标签。

(4)从分类数据流程来看,Softteacher模型通过高分数阈值对初步伪标签进行筛选以获得伪框分类结果,并作为步骤(2)中生成的候选分类结果的标签,即学生模型所预测的无标签数据分类结果和教师模型预测的伪分类结果进行计算,可获得无标签数据预测的分类结果和分类损失,并将该分类损失和由学生模型训练而得的分类损失进行加权,可得到最终的分类损失函数。

(5)从框回归数据流程来看,模型通过方差滤波对步骤(3)获得的初步伪标签进行筛选,得到伪框回归结果,并将该伪框作为步骤(2)中生成的候选框结果的标签,即学生模型所预测的无标签数据候选框结果和教师模型预测的伪框结果进行计算,可得到无标签数据的预测框和框回归损失,并将该回归损失和由学生模型输出的回归损失进行加权,可得到最终的框回归损失函数。

(6)步骤(4)和步骤(5)得到的损失函数通过前馈权重参数更新,可使学生模型再次学习;同时,通过将学生模型的权重参数传递给教师模型,可对教师模型进行权重参数更新。如此循环反复,逐渐提高整个模型的检测准确度。

从学习路线的角度对模型进行分析,整个模型可以分解为教师流和学生流。

学生流模型利用有标签数据学习已有的标签数据的特点,这些特点在目标检测网络中具体为深度学习网络模型的权重参数,而这些权重参数可用于后续对无标签数据的伪标签进行预测;学生流模型学习到的权重参数通过传递给教师流模型对无标签数据的伪标签进行预测,并将预测所得的伪标签作为学生流模型中无标签数据的标签进行仿监督学习。这种学习机制,一方面可以使模型在学习有标签数据的同时充分利用无标签数据的信息;另一方面,可以有效提升数据的利用率。

1.2 FFRCNN网络

Softteacher模型中的教师模型和学生模型采用的是由Faster R-CNN和FPN组成的FFRCNN目标检测网络。目标检测任务通常分为一阶段方法和二阶段方法两种,其中,一阶段方法注重提升速度,二阶段方法则注重提升精度。FFRCNN是经典的二阶段网络。顾名思义,二阶段网络将目标检测任务分为两个阶段进行。第一阶段先找出数据图片中目标物体的anchor锚框,然后将待测物体从背景中分离出来;第二阶段则对前景内的物体进行分类。

FFRCNN模 型 可 分 为backbone、neck和head三个部分,其结构如图2所示。其中,backbone部分使用深度为101层的Resnet网络[7]提取特征;neck为backbone和head之间的连接部分,采用特征金字塔结构,通过对每一层不同尺度的特征进行保留,可以更好地利用backbone提取的特征,并有效避免特征丢失;head部分利用neck层输出的特征对检测目标进行预测和分类,与FFRCNN模型中的RPN和Roi pooling相对应。

1.3 损失函数及框抖动算法

Softteacher中采用的损失函数为

式(1)中的Ls和Lu分别表示带标签数据和不带标签数据的损失,系数α表示无监督教师模型的指导贡献度。

教师机制通过教师模型生成的伪标签指导学生模型学习无标签数据的特征,其产生的预测结果即为无标签数据的伪标签。用伪标签的分类损失对学生模型的损失函数进行加权,可以起到指导学习的作用。

教师模型和学生模型对应的损失函数分别为

式中的Iil表示第i幅有标签的图像,Iiu表示第i幅无标签的图像,Lcls为分类损失,Lreg为框回归损失,Nl和Nu分别表示有标签和无标签图片的数量。

对于目标检测伪框的生成,Softteacher采用框抖动[8](Box Jittering)进行筛选。传统半监督学习通过分类置信度值对预测伪框进行评价和筛选,并将分类置信度高的伪框作为最终的筛选结果。但文献[8]和文献[9]证明,标签的筛选不能单一地由置信度的高低来评判,因为置信度较低的预测结果中同样存在对模型训练有利的可靠结果。因此,采用框抖动中的方差滤波对伪标签进行筛选可以有效改善伪标签的可靠性。以下是用来筛选抖动框的方差滤波算法:

式(4)中σk是提取抖动框集合{bi,j}中第k个坐标的标准推导规则,是σk的归一化,h(bi)和w(bi)分别为候选框bi的高和宽,为候选框bi的抖动框回归方差均值,也是抖动框生成的依据。

2 Softteacher模型改进

对Softteacher模型的改进包括两个方面:一是对FFRCNN网络的改进,采用了特征融合的方法,即将原有的串行结构改为并行多分支结构,对特征进行多次提取后再对应相加进行融合,以避免FFRCNN网络由于数据特征不明显所导致的网络结构中特征丢失的问题,降低数据在训练过程中特征的丢失率;二是对伪标签生成规则的改进,采用了特征分离的方法,即通过并行多分支结构多次生成伪标签,然后利用多次伪标签结果间的特征值不稳定性调整伪标签,以实现通过特征分离来增强伪标签可靠性和确定性的功能。

2.1 FFRCNN网络改进

鉴于FFRCNN网络自身的特性以及带钢表面缺陷特征复杂及难分辨的特点,对FFRCNN网络的改进需要从多尺度特征融合的角度,分别对backbone、neck及head三部分进行优化实现。核心在于将特征提取的串行结构改为并行多路分支结构,并将之融合。

在Softteacher模型的FFRCNN网络中,C1由7×7的卷积核、64层通道、步数为2,以及加边数padding为3的卷积块组成,后经下采样层输出到从左到右的四层残差模块中,这四层残差模块分别对应于图2中的C2-C5部分。在neck部分的特征金字塔结构中,其第一层P2-P5是由对应的C2-C5进行1×1的卷积操作,同时对P5至P2经过下采样操作后与对应的P结构相加得到;第二层P2-P5则由对应第一层的P2-P5进行3×3卷积获得,而P6则通过在P5上使用1×1步长为2的最大池化进行下采样后得到。head部分的输入为最后一层的P2-P6,这一层所有的通道数都为256,因此可进行融合,将其进行3×3加边数padding为1的感兴趣区域提取操作后分为分类cls和回归reg分支,进行1×1的卷积操作,可分别得到分类和框预测的预测结果。改进的Softteacher模型中的FFRCNN网络如图3所示,改进内容涉及backbone、neck和head三个部分。backbone的构造如表1所示,为Resnet101结构。其中,表1中的C1-C5对应于图2和图3中的C1-C5。

表1 Resnet101详细构造

backbone的改进源于对网络的深度和宽度的实验。为降低特征丢失率,对backbone的主干网络进行了深度和宽度的增加,并将原有的串行结构改成了并行的多分支结构,以实现对特征图的多尺度特征融合。首先,对共享的C1部分增加宽度,将其由原来的一层变为三层,旨在对特征进行多次提取;其次,对残差模块(C2-C5)扩展宽度,将其由原来的一层扩展为三层,输出则采用三次结果相加的策略,可对输入特征图空间的维度进行有效压缩;最后,聚合空间信息,将不同次提取的特征相结合,实现多路特征融合,减少特征丢失。

neck部分的改进源于对特征金字塔宽度影响的实验,改进后的neck结构如图4所示。实验首先将原来的一层宽FPN增加为两层,然后对图3中的C2-C5特征分别进行多分支特征提取,最后将分支结果相加并均值化,其目的是防止特征值域溢出。这样的操作由于特征金字塔宽度的增加以及融合了多个尺度的特征而减少了特征的丢失。

改进后的FFRCNN网络会在neck部分生成P2-P6的特征图,并将其输入到head。head将输入的特征图通过RPN生成特征图的候选区域,而后通过对由感兴趣区域提取的特征图进行池化得到最终的特征图,并用于分别预测分类和框结果。在原head的基础上增加感兴趣区域特征提取的宽度,并进行两次感兴趣区域特征的提取后,先将两次提取的特征进行融合,然后再进行最后的全连接层预测。改进后的head如图3中的head部分所示。

2.2 伪标签生成规则改进

半监督学习的难点在于如何评价伪标签生成的可靠性。在已有的伪标签生成方法[10-14]中,大多都以高阈值对伪标签进行硬筛选,导致分数低的结果无法对模型产生影响。而实际的情况是,伪标签分类分数的高低与框定位精度之间的关系并不表现为强正相关。因此,采用硬筛选方法所生成的伪标签并不可靠。

收集候选伪框的抖动框方法由Softteacher提出[6],该方法用抖动框对伪框进行回归方差计算,并通过回归方差对伪框进行校正,有效改善了伪标签的可靠性。

抖动框的选取依赖于感兴趣区域特征的提取,而多次提取的结果之间有较小的振动,因此,通过对比两次抖动框回归的结果,并用两次回归方差间的差值对抖动框进行校正调整,可以有效减小抖动框抖动带来的误差,进一步增强抖动框的可靠性。

基于上述考虑,伪标签生成规则的改进采用了特征分离的策略。首先,构建了并行的多分支结构,用以对感兴趣区域的特征进行提取;其次,在框抖动算法的基础上,通过增加伪标签对比机制,对伪标签进行软筛选,提升伪标签的可靠性。

由于改进后的伪标签生成规则利用了无标签数据不同预测结果特征图之间特征值的差异性,而这种差异性能够将具有不同预测结果的特征分离开来,并形成对比,因此,计算两者之间的损失可得到预测结果特征图之间的不可靠性,将该不可靠性与原有的框抖动算法形成的损失进行加权,可进一步降低不可靠性,以下是生成伪标签时评价伪标签不可靠性的公式:

式(6)中的Luncertain代表生成的伪标签的不可靠性,是对伪标签进行筛选的依据,是框抖动算法中进行方差回归得到的归一化结果,则是两次归一化结果的差值计算,用以提取两次结果之间的不同特征间的振动,进一步减少生成伪标签的不确定性。

3 实验与结果分析

实验拟验证以下两点:

(1)相比于半监督学习方法STAC、Selftraing和Unbiased-teacher,Softteacher方法在半监督算法中具有优势,借鉴Softteacher思想,通过对其改进并将改进的方法用于带钢表面缺陷检测具有理论与实践意义;

(2)改进后的Softteacher模型在带钢表面缺陷检测上可行且有效。

3.1 实验环境

为了实验的便捷性和可依托性,本文的实验均在线上服务器进行,采用了python语言、pytorch框架、mmdetection开源框架和Softteacher模型的开源框架。具体配置见表2。

表2 实验环境配置

3.2 不同半监督方法性能比较

半监督学习方法STAC、Self-traing和Unbiased-teacher性能之间的比较结果见表3,其中mAP为平均准确度均值。

表3 不同半监督方法的比较

实验数据采用coco2017中所有的带标签数据。由于部分半监督伪标签目标检测方法对实验环境要求较高,表3中的数据引用了文献[5-6]及文献[15]中的实验结果。

实验结果表明,Softteacher的半监督平均准确度均值最高。

3.3 Softteacher改进方法消融与横向对比实验

实验使用开源NEU-DET钢材表面缺陷数据集中的NEU-DET数据集和NEU-CLS-64数据集。NEU-DET数据集用作bbox目标检测数据集,包含六种缺陷,对应缺陷的图像示例如图5所示。其中,每种缺陷类有300张图像,共计1800张;而NEU-CLS-64包含九种缺陷类型的无标签数据集,共计7226张。

为方便比较,实验时对NEU-CLS-64中的数据只考虑其与NEU-DET数据集中缺陷类型相同的六种缺陷。首先,将NEU-DET数据集分为训练集和验证集,划分比例为1.7∶1,划分后的数量分别为训练集1134张,验证集666张;将NEU-CLS-64数据集中的数据视为无标签数据,数量为6292张。

消融实验对比结果见表4。表4中mAP50为当预测框和真实框(或伪框)重叠度IoU大于等于50且小于75时平均带钢表面缺陷检测精确度均值mAP的值;mAPs为小目标平均精确度均值;mAPml为中目标和大目标平均精确度均值;Acc代表带钢数据检测精确度。

表4 消融实验对比 %

从 表4中 的baseline和baseline+uncertain的对比结果可以发现,采用改进后的伪标签生成规则比原模型的mAP50和mAPs分别提高0.9和1.7个百分点,mAPml下降1.3个百分点,Acc保持不变。该结果说明,结合了特征分离的伪标签生成规则,能够在检测精确度不变的情况下,提升小目标精确度的均值,且对整体性能有正向效果。

表4中baseline+uncertain与baseline+uncertain+FFRCNN的对比结果显示,采用特征融合机制改进后的FFRCNN网络对模型整体性能有提升效果。相比于原模型的mAP50、mAPs和Acc分别提高0.6、1.7和1个百分点。说明改进后的FFRCNN结构,不仅能够提升小目标精确度的均值,而且能够有效提升检测的精确度。

横向对比实验的结果如表5所示。将NEUDET数据集用于不同的半监督方法时,使用unbiased-teacher方法的平均精度均值可达到38.1,而使用Softteacher模型的平均精度均值可达到67,平均精度均值的显著提升再次显示了Softteacher模型的优越性。

表5 横向实验对比 %

与Softteacher模型相比,改进后Softteacher模型由于改进了特征融合机制,增加了特征分离机制,使其mAP50、mAPs和Acc都有所提升,分别提升了1.5、3.4和1个百分点。

综上所述,对于具有小目标检测特性的带钢表面检测任务,改进后的Softteacher模型适用且有效。

4 结语

本文选择半监督学习的方式来检测带钢表面的缺陷,采用了目前半监督目标检测领域内效果最佳的Softteacher模型,旨在降低因标记大量图像而带来的高成本问题。在Softteacher模型框架不变的基础上,对Softteacher中的教师和学生模型进行了改进,采用特征融合机制,通过将Softteacher模型中的FFRCNN网络的串行结构改为并行多分支结构,避免了缺陷特征由于不明显或不易辨识而导致特征丢失的问题;在原有框抖动算法的基础上,通过增加基于特征分离的生成规则,提升了伪标签的可靠性。在NEU数据集上进行的消融实验和横向对比实验从不同的角度验证了改进后的Softteacher模型的实用性与有效性。

猜你喜欢
标签预测特征
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
离散型随机变量的分布列与数字特征
抓特征解方程组
不忠诚的四个特征
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
让衣柜摆脱“杂乱无章”的标签