基于特征融合的CenterNet小目标检测方法*

2022-05-11 09:34琚长瑞袁广林秦晓燕
舰船电子工程 2022年4期
关键词:卷积图像特征

琚长瑞 袁广林 秦晓燕 李 豪

(中国人民解放军陆军炮兵防空兵学院计算机教研室 合肥 230031)

1 引言

目标检测[1~6]是计算机视觉领域一个重要研究方向,主要包含目标的识别与定位两个任务,最终目的是对图像中感兴趣的实例进行分类并给出其位置边界框。小目标由于包含信息较少、数据集中存在的数量较低等因素,导致小目标检测一直是目标检测领域的难点、热点[7]问题。目前,对小目标检测问题的研究主要有两类方法。

第一种是数据增强的方法。2019年Kisantal[8]等针对小目标检测问题提出一种简单、直接的数据增强方法,对数据集中小目标进行复制以及仿射变换,大幅增加了数据集中的小目标数量,使用增强后的数据集进行训练,对小目标检测率提升明显。2021年Chen[9]等使用图像拼接技术动态地生成拼接图像提升小目标数量,从而增强小目标的检测精度。这类方法主要缺点是网络结构复杂、实现步骤繁琐,并且降低了训练和检测的效率。

第二种是多尺度预测的方法。2017年Lin[10]等提出了特征金字塔网络(Feature Pyramid Network,FPN),采用自上而下的方法逐层将深层特征上采样后与浅层特征融合,使浅层特征获得了更强的语义信息,利用融合后的特征图做多尺度预测。2019年G.Ghiasi[11]等对FPN结构做了进一步优化,利用强化学习对适合当前任务的特征融合最优结构进行自动搜索,并采用最优结构进行检测。此类方法主要缺点是采用多尺度预测的方式大大增加了计算量,从而大幅降低了检测速度。

综合来看,现有小目标的检测方法存在结构复杂、检测速度慢等问题。对此,本文提出一种基于特征融合的CenterNet[12]快速小目标检测方法。该方法根据不同深度特征的特点对CenterNet网络结构进行改进,采用自上而下的方式将高层语义特征加入到浅层特征中,并用所得到的高分辨率融合特征图检测目标。同时,针对现有数据集中小目标较少问题,提出一种简单有效的训练数据预处理方法,利用训练集中的较大目标提高相似小目标的检测率。在PASCAL VOC数据集上对提出的方法进行了实验验证,结果表明:与原始CenterNet相比,所提出的方法对小目标的检测精度提升明显,且保持了较快的检测速度。

2 特征融合网络

2.1 理论分析

在一个多层卷积神经网络中,不同深度的特征具有不同的特点。目前主流的目标检测方法大多倾向于从深层特征预测结果,而浅层特征在预测过程中往往被忽略。在特征提取网络中,深层特征拥有更大的感受野,包含丰富的语义信息,具有高度抽象性;浅层特征感受野小,拥有更多细节信息,如边缘、纹理等。检测较大的目标需要更大的感受野及其抽象特征,在深层特征上进行预测效果较好;而小目标并不需要较大的感受野,并且在深层特征图中仅剩下几个到十几个像素点,包含的特征信息非常少,因此小目标更适合在浅层特征进行预测。另外,经过多次下采样,深层特征对于目标的位置变化不够敏感。例如一个8倍下采样的网络,原图上目标位置发生40像素的位置变化,深层特征仅体现出5个像素的偏移。浅层特征则具有相对更强的定位能力,在检测任务中对目标的定位更加有利。

为了同时利用深层与浅层特征不同的信息优势,FPN结构被广泛应用于基于锚框(anchorbased)的检测方法当中,采用自上而下的特征融合结构,并从多个不同尺度的融合特征图提取候选区域,取得了较好效果。FPN结构证明了,采取自上而下逐层进行特征融合的方式,得到的高分辨率融合特征同时具有深层语义信息和浅层细节信息。

在原始CenterNet检测方法中,表征检测结果的热力图及对应的宽高、中心点偏移均由网络的最深层特征经过3×3的卷积得到,本质上只利用了最后一层特征图的信息,对小目标的检测效果不理想。为提升CenterNet对小目标的检测效果,本文参考了FPN特征融合方法的思想,利用反卷积与可变形卷积将深层特征逐层加入到浅层特征中,并在融合了深层特征的浅层特征图进行预测。

2.2 实现细节

首先,为在检测速度与精度之间取得更好的平衡,本文选取残差网络ResNet-50替代原文中的特征提取网络,其网络结构如图2所示。

图1 特征融合CenterNet网络结构示意图

为获得更高分辨率的特征图,删除了主干网络ResNet-50的第一个最大池化层以减少整体下采样倍数。输入图像尺度统一Resize至512×512后,先经过一个卷积核大小为7×7的卷积层进行2倍下采样,变成256×256包含64个通道的特征图。而后经过4个残差块(block1-block4)提取特征,同时进一步下采样,从block1到block4的输出特征图大小分别为原图的1/2、1/4、1/8/、1/16。

特征融合阶段,先将block4的输出特征图分别经过大小为3×3的反卷积(Deconvolution)与大小为3×3的可变形卷积(Deformable Convolution Network v2,DCNv2),进行2倍上采样,获得的特征图与block3的输出特征图相加进行特征融合。然后采用相同方式对得到的融合特征图进行2倍上采样,与block2的输出特征进行相加融合,得到大小为128×128的融合特征图。该融合特征图下采样倍数为4,相较于最顶层特征具有更高的分辨率,包含了更多检测小目标需要的细节信息,并且对目标的定位能力更强。在该融合特征图上分别使用卷积得到预测热力图、宽高图以及偏移图,最后输出检测结果。

为展示特征融合的效果,图2(a)给出了PASCAL VOC数据集中一张图像,图2(b)-(e)显示了图2(a)在特征融合网络中block1至block4的输出特征图,图2(f)是其最终融合特征图。对比图2(b)-(f)各特征图可以看出:block1与block2由于网络深度较浅,其输出特征图中大船与小船都保留了较多细节信息。block3与block4网络较深,其输出特征中语义信息较多,大船能够看出轮廓而丢失了内部纹理、边缘等细节,小船的信息几乎全部丢失。经过对前两个模块的特征融合,最终融合特征图3(f)中,大船的深层信息在浅层特征中得到加强,小船的细节信息在融合特征中被保留。

图2 目标图像与深度特征图

3 训练数据预处理

在数据方面,现有目标检测数据集中,由于标注成本较高等因素,很多小目标没有被标注。但不少与小目标拥有相同类别的较大目标是具有标签的,如图3所示。

图3 数据集中相似的未标注小目标及有标签大目标

红框标出的是有标签目标,黄色框标出的为未标注的同类小目标。这些未标注的小目标具有与同类大目标相似的外观特征。如图3(a)中箭头标出的船只以及(b)中箭头标出的羊,缩放到统一尺度后外观特征非常相似,只是较大的目标更清晰,小目标更模糊。由于包含的信息量不同,外观相似的大、小目标经过卷积神经网络提取到的特征存在较大差异,导致训练后的网络对大目标的检测率较高,而对同类的小目标检测率较低。对此,本文提出一种训练数据预处理方法,对训练集中的原图进行“升噪处理”,生成一批具有相同分辨率而信息量更低的图像加入训练集当中。处理后大目标与原图上的同类小目标具有相近的信息密度,从而达到利用已有大目标的标签信息,学习同类小目标特征的效果。

所用的图像模糊方式包括高斯模糊、均值滤波、中值滤波以及下采样方法,这些图像处理方式均能有效地降低图像中的细节信息。其中,高斯模糊采用3×3高斯卷积核对图像进行卷积,卷积核σ设置为1。均值滤波与中值滤波的滤波器大小均设置为3×3。下采样方法先采用最大池化进行2倍下采样,然后再用线性插值的方式上采样,将图像恢复成原始大小并引入噪声。经过处理后的图像与原图共享相同的标签信息,并加入训练集当中与原图一起参与训练。几类处理方式中,下采样方法的效果最好,实验部分将给出对比说明。将部分经过下采样方法得到的较大目标与原图中的相似小目标进行对比展示,效果如图4所示。可以看出,处理后的较大目标与原图中的相似小目标差异确实更小,包含的信息量更加接近。

图4 处理后的大目标与原图小目标对比

4 实验与分析

4.1 实验设置

为了验证所提出的特征融合方法的有效性,在CenterNet上更换不同深度的ResNet特征提取网络进行改进,并与原网络进行对比。同时,对几种不同训练数据模糊方式得到的模型也进行了测试对比。为了提高模型的训练效果,将VOC 2007训练集和验证集与VOC 2012训练集和验证集进行了合并作为训练集和验证集,共包含16551张、20类目标图像。测试集由VOC 2007与VOC 2012测试集合并得到,共包含4952张图像。

4.2 实验结果

4.2.1 特征融合实验

在不同深度的ResNet残差网络加入特征融合,实验结果如表1所示,其中带FF前缀的表示加入特征融合后的网络。从表1可以看出:不同深度的ResNet经过特征融合后,对小目标的检测精度均有不同程度的提升,并且网络越深提升效果越明显。ResNet-18提升最小,主要原因是其网络深度相对较浅,本身保存的细节信息相对更多,因此提升效果并不明显。ResNet-101的小目标检测精度最低,特征融合后ResNet-101的小目标检测精度提升最大,但是检测速度有较大降低,这一结果表明:当网络层数超过某一阈值时,网络越深越不利于小目标的检测,同时检测速度也会明显下降。特征融合后ResNet-50的小目标精度提升了6.4%,整体精度mAP有少许降低,但是其检测速度仍然较快。

表1 不同深度ResNet网络特征融合检测结果

4.2.2 训练数据处理实验

分别用高斯模糊(Gaussian Blur,Gs-B)、均值滤波(Mean Filtering,Mn-F)、中值滤波(Median Filtering,Md-F)以及下采样方法(Down Sampling,Dn-S)对训练集图像进行模糊处理,得到高斯模糊数据(Gs-B Data)、均值模糊数据(Mn-F Data)、中值模糊数据(Md-F Data)以及下采样模糊数据(Dn-S Data),并分别与原始训练集(Original Data,O Date)混合,结果如表2所示。实验结果说明:通过对训练集图像进行一定模糊处理,能有效降低图像中大目标与同类、相似小目标之间的差异,从而有效利用标注的大目标来提高模型对小目标的检测率。下采样方法在几种方法之间更具优势,可能的原因是最大池化与线性插值所引入的噪声与小目标中的噪声相对更加拟合。在小目标标注成本较高,缺少训练数据的情况下,利用该方法能对数据集进行快速、有效的增强,并提升小目标的检测性能。

表2 不同图像处理方法测试结果

5 结语

基于深度学习的目标检测是计算机视觉领域的热门研究方向,近年来取得了快速发展。小目标检测一直是其中的难点问题。现有针对小目标的检测方法还存在网络结构复杂、实现步骤繁琐、检测速度慢或者不具备通用性等问题。针对现有问题,本文对小目标检测进行研究。首先利用无锚框的单阶段方法CenterNet作为基础框架,在特征提取网络中加入自上而下的特征融合,并从得到的高分辨率特征图检测结果;其次提出一种训练集数据预处理方法,有效利用了训练集中的大目标来学习同类、相似小目标的特征,解决了训练集当中小目标较少的问题。实验结果表明,本文提出改进方法使CenterNet的小目标检测性能提升明显。另外,所提训练数据预处理方法能快速增强数据集并提升模型的小目标检测能力。

猜你喜欢
卷积图像特征
基于全卷积神经网络的猪背膘厚快速准确测定
基于图像处理与卷积神经网络的零件识别
基于深度卷积网络与空洞卷积融合的人群计数
抓特征解方程组
不忠诚的四个特征
A、B两点漂流记
卷积神经网络概述
名人语录的极简图像表达
一次函数图像与性质的重难点讲析
趣味数独等4则