图像自寻的弹药目标检测方法综述

2022-12-01 11:52杨传栋钱立志薛松陈栋凌冲

兵工学报 2022年10期

杨传栋，钱立志，薛松，陈栋，凌冲

(陆军炮兵防空兵学院高过载弹药制导控制与信息感知实验室，安徽合肥 230031)

0 引言

图像自寻的是利用装在弹药图像导引头上的弹载摄像机获取目标区域图像，经弹载图像处理器实时检测并跟踪目标进而生成弹体姿态控制指令，以控制弹药自动命中目标的制导技术。图像自寻的弹药获取的图像信息直观丰富，具备抗干扰能力强、成本低等优势[1]，受到国内外高度重视。2016年美国提出导引头成本转换项目，旨在开发低成本图像制导弹药[2]。在图像导引头设计中，弹载图像目标检测实现对战场环境中的目标可靠实时分类和定位，是确保弹药精确命中目标的关键。

传统目标检测方法大多采取人工设计目标特征或模板匹配的方式，对不同目标设计特征的工作量大，且易受光照、噪声、目标特征变化等因素干扰，实际应用中鲁棒性差、准确度低。2014年首次提出基于深度学习的目标检测方法R-CNN[3]在VOC通用数据集上的平均检测精度均值(mAP)达到66%，超出此前最优的传统目标检测方法可形变部件模型(DPM)[4]31.7%，在应对复杂环境下目标特征多样性、背景多样性问题上体现了更强的鲁棒性和适用性。同时，结合模型压缩加速方法设计的硬件友好型轻量化神经网络模型可部署于CPU、FPGA、ASIC等嵌入式平台，在实时性与检测精度上优势明显，已成为自动驾驶、安防监控、军事等领域主流检测方法[5]。在图像制导类导弹、航空炸弹、炮弹等弹载图像目标检测领域，基于深度学习的方法得到了重视和初步应用。2019年美国萨维奇公司推出的小型反无人机导弹“SAVAGE”使用Movidius AI处理器实现目标检测和跟踪。2019年和2021年以色列拉斐尔公司研制的SPICE250精确制导炸弹和“Sea Breaker”巡航导弹使用深度学习技术提高了复杂背景下弹药目标检测能力。文献[6]研究了深度学习在弹载图像上的应用。文献[7]提出了一种针对弹载图像目标检测模型的压缩方法。文献[8-9]研究了目标检测模型在弹载处理器上的部署。

图像自寻的弹药获取的弹载图像(见图1，其中d为弹目距离，v为弹丸飞行速度)与弹体运动高度耦合，有着显著特点，增加了目标检测难度。

弹载图像目标检测目前具体存在以下问题：

1)图像制导弹药成像环境恶劣，导致对目标检测模型特征提取能力要求更高。受载体运动特性(弹体连续旋转、捷联式弹药打舵引起的弹轴抖动)与不同天候天时(云雾、照度等)影响，进行自动曝光、白平衡、图像纠旋、稳像、增强[10]等处理后，弹载图像仍会存在图像旋转、抖动、畸变、遮挡、像素运动模糊、噪声干扰、目标进出视场等特征，加之目标自身运动，使目标的轮廓、纹理、角度、色彩等特征难以全面反映，需提取更准确更具表达性的图像特征；

2)目标尺度特性随弹丸飞行变化大，且小目标占比高，容易造成漏检、错检。在提取特征后需对用于预测的多尺度特征图进行增强；

3)军事打击任务中战场背景复杂、目标种类多样，导致目标数据集中样本不均衡问题显著，为保证目标检测模型在多战场背景、多目标、末段弹道全过程中均能实时可靠，需要对样本进行均衡处理；

4)弹载处理器对目标检测模型参数量、计算量、速度要求苛刻。因弹上空间有限，弹载处理器功耗低、算力小、对内存、数据带宽约束强，在部署目标检测方法时需进行轻量化设计及压缩加速。

对上述难点问题的解决成为提升图像自寻的弹药精确打击能力的重要环节。本文回顾基于深度学习的目标检测方法，梳理了弹载目标检测模型部署中的关键技术，对比了目标检测方法在主要数据集上的性能，并对未来发展进行展望。

1 基于深度学习的图像目标检测方法综述

基于深度学习的图像目标检测方法通常由目标检测模型、模型训练及推理过程组成，模型包含多个处理层，使用特征提取网络对输入图像特征自动提取，经过特征图增强模块后在一个或多个预测特征图上使用预测分支完成目标分类和坐标回归，最后使用后处理方法剔除冗余检测。模型结构如图2所示。

1.1 目标检测模型基本结构

在卷积层使用卷积核参数weightl-1∈RNkx×Nky×Nif×Nof对输入特征图xl-1∈RNix×Niy×Nif进行卷积操作⊗，实现特征提取得到输出特征图xl∈RNox×Noy×Nof(见图3)。其中，t为卷积层数，(Nky，Nkx)、s分别为卷积核大小(k表示卷积核)与步长，下标y、x表示对应特征图的长、宽，(Niy，Nix)、(Noy，Nox)、Nif、Nof分别为输入和输出特征图长、宽及层数(通道数)，f为特征图层数。卷积核参数量为Ws=NkyNkxNifNof，计算量为Os=NkyNkxNiyNixNifNof。

设bl为卷第l层卷积核的偏置参数。积核偏置参数，对给定第l层输入特征图，输出特征图中的像素值为卷积核空间和通道区域中像素值的加权平均值，权重即为卷积核参数，计算公式为

(1)

式中：nof、nif分别为Nof、Nif组输出和输入特征图中的第of个和第if个。

批归一化(BN)层通常位于卷积层后，通过将卷积层的每个输出特征图像素做如(2)式的线性变换，能够让复杂网络收敛加速训练。

(2)

式中：BN(x)为输入为x时批归一化层的输出；γ、μ、σ、β均为训练完成后常数；A、B为一层特征图共用的BN层参数。但推理阶段增加一层运算将影响模型速度，占用内存。因此在部署中多将其与对应的卷积计算融合，得到第l层卷积层融合后的权重weight′l和偏置b′l为

(3)

式中：Al、Bl分别为第l层的BN层参数。

通过该方式针对Resnet50特征提取网络合并后，经测试CPU提速10%，GPU达到50%。

激活函数通常位于卷积层和BN层后，通过引入非线性缓解神经网络过拟合问题。以不同激活函数组成6层训练网络，对cifar10图像分类任务测试，均训练3个回合，每回合50 000张图片，训练运行时间和达到精度见图3。其中修正线性单元(ReLU)函数将正值保留，负值设为0，即ReLU(x)=max(x,0)，能加速网络训练速度，达到较高的精度，同时计算效率高，适合硬件部署。不同激活函数对比结果如图4所示。

池化层对特征图进行降采样，无需权重参数，起到降低特征图大小，减低计算量的作用，且对于平移、旋转、伸缩等具有良好的鲁棒性。主要有最大值池化和平均池化，其中最大值池化对局部区域返回最大值，易于硬件实现。

目标检测模型在训练阶段使用反向传播算法在大规模数据集上对模型参数进行学习，以适应目标和环境的各类变化；在推理阶段通过一次加载前期训练好的模型参数，模型可实时输出针对输入图像序列的预测结果。根据在提取预测特征后是否基于预设候选框进行检测，目标检测模型可分为基于候选框和无候选框的目标检测模型。

1.2 基于候选框的目标检测模型

针对在预测特征图上直接预测坐标面临训练难以收敛问题，基于候选框的目标检测模型根据数据集统计特性，在预测特征图上人工预设不同尺度和长宽比的候选框(px,py,pw,ph)，作为可能出现目标的区域参考，如图5所示。

在训练阶段学习候选框与真值框的坐标偏移关系，在推理阶段加载训练得到的参数，得到N个预测候选框偏移量后，通过线性变换得到预测框坐标

(4)

根据在目标检测过程中是否首先进行前景和背景候选框初步筛选，可分为基于区域建议网络(RPN)的两阶段方法和基于密集检测的单阶段方法。

1.2.1 两阶段方法

两阶段方法首先使用区域建议网络初步筛选前景和背景候选框，得到稀疏的正样本，然后在稀疏正样本中进行目标类别概率预测和坐标微调。2015年Ren提出的Faster R-卷积神经网络(CNN)[11]是第一个实现端到端训练和检测的两阶段方法，模型框架如图6所示。

候选区域网络使用前景概率排序和非极大值抑制(NMS)两次筛选，提取N个前景概率最高的候选框(pxi，pyi,pwi,phi),i=1,2,…,N，作为正样本输出，克服了利用传统候选框提取方法带来的大量计算消耗，同时改进了候选区域的质量。而后感兴趣区域池化层将N个候选框映射到特征图中，并采样成固定尺寸。最后通过两个全连接层对ROI池化层输出特征降维到4 096，分别输入由两个全连接层组成的预测分支，得到目标类别概率和位置坐标。由于分两阶段进行检测存在运行速度慢的缺点，检测速度为4.5帧/s；相关改进算法提高了检测速度，但区域建议网络带来的内存消耗无法忽略，因此两阶段方法不适合弹载处理器的部署。

1.2.2 单阶段方法

单阶段方法将目标检测过程简化成端到端回归问题，利用CNN提取特征并通过均匀地在预测特征图上的不同位置进行密集抽样，使用卷积层替代全连接层，对得到的候选框直接进行分类与回归。因为没有使用区域建议网络提取正样本，而是通过增加置信度预测判断该候选框是前景或是背景，所以目标检测速度得到极大提高，更加适合弹载处理器的部署。代表方法有YOLO、SSD等。

2016年Liu等[12]提出的SSD算法使用候选框的方法并在多分辨率特征图上进行多尺度预测，针对不同尺度特征图对候选框尺寸和长宽比进行了设计，在保证单阶段方法速度优势的同时提高了定位精度：

(5)

2017年Redmod等[13]提出YOLOv2方法。该方法使用k-Means算法对训练集进行聚类得到候选框尺寸，并利用Sigmoid激活函数σ将偏移量预测值约束在[0,1]范围，即每个候选框仅负责当前网格处的目标，并在输入层和卷积层后增加BN层对数据进行归一化处理，提高了训练收敛速度和模型泛化能力。在检测特征图选择上将大尺度特征图重组合后与小尺度特征图合并，提高了小目标检测效果。2018年，Redmod等[14]优化了YOLOv2方法。该方法借鉴特征金字塔FPN方法，使用上采样和融合的方式在3个尺度特征图上进行检测，并且每个通道设置3个候选框，在保持实时性的同时提高了目标检测效果。文献[15]通过加入SPP模块提高感受野，并使用PANet[16]使预测特征图具有更丰富的特征信息等，在训练过程中使用了改进位置损失、数据增强、类别标签平滑等训练策略，实现了同等速度下更优的检测效果。2020年，美国Ultralytics LLC公司开源了新的目标检测网络框架并命名为YOLOv5，通过融合多种改进手段使算法性能进一步提升，在工业界得到广泛应用。

文献[17]指出单阶段方法精度低的根本原因在于，单阶段方法产生过量的背景类候选框，引起类别不平衡。通过设计新的损失函数，在训练过程中能有效削弱背景候选框的损失值，进而提高检测精度，在VOC2007数据集上检测精度达到75.1%，速度达到58帧/s。

单阶段方法速度快、适用性好、易于部署，因此在弹载目标检测中得到广泛应用。

1.3 无候选框的目标检测模型

基于候选框的检测算法是目标检测领域的主流方法，但也有其局限性，例如：预设候选框大小、宽高比和数量等超参数通常需人工设置，难以包含形状特殊的目标；对数据集敏感，换用场景需要调节候选框参数；通过密集采样方式得到数量众多的候选框，交并比(IoU)计算及后处理筛选计算冗余和内存开销大；大多数候选框为负样本，在训练过程中大量负样本会造成正负样本比例失衡。近年来，为解决上述问题，候选框的检测模型被提出，该类模型可分为基于锚点的方法和基于关键点的方法。

1.3.1 基于锚点的方法

基于锚点的方法将预测特征图上的每个像素点作为锚点，通常使用锚点到边界的距离表示预测框。

2015年提出的YOLO[18]、DenseBox[19]是最早无候选框的方法之一。YOLO方法将预测特征图划分为s×s网格，将每个网格中心作为锚点，每个锚点处预测向量包含2组预测框坐标、目标置信度和C类目标的概率，其中预测框坐标用网格中心点坐标和预测框长宽表示，目标置信度表示预测框是目标的概率。YOLO模型框架如图7所示。

DenseBox方法将预测特征图上的每个像素点作为锚点，锚点处的输出预测向量包含4个坐标值和单类目标概率，为5维，最后均使用NMS筛选预测框。但该类方法难以应对重叠的边界框，且查全率较低。

2019年Tian等[20]提出FCOS方法。该方法以预测特征图上像素点为锚点，输出预测向量包含C类目标分类概率、中心度分数及该锚点到边界框4条边的距离(l*，r*，t*，b*)，通过增加中心度分数预测分支并使用交叉熵损失训练，抑制了距离目标中心较远的预测框。中心度分数计算公式为

(6)

通过在不同尺度的预测特征图上预测特定大小范围的目标，解决了真实边框重叠带来的模糊性和低召回率。

同年，文献[21]在高分辨率预测特征图上将每个像素点作为锚点，输出预测向量维度为C类目标的热图、中心点坐标、修正量。考虑到中心点附近点为难样本，为加速训练收敛，通常在训练中将中心点真值(x，y)映射到热图中的某一高斯散射核区域Yxyc内：

(7)

式中：σx、σy为二维高斯核半径参数。在推理阶段取消NMS，对每类热图筛选前100个局部峰值点作为输出目标，减少了后处理的时间消耗，在精度上与RetinaNet方法相近并达到了实时。

1.3.2 基于关键点的方法

基于关键点的方法通过预测目标角点、中心点或极点，对关键点分组构成预测框。2018年Law等[22]提出CornerNet方法。该方法使用人体姿态估计中常用的沙漏网络Hourglass作为特征提取网络提取高分辨率的预测特征图，而后用两个检测模块分别预测左上和右下角点，输出类位置热图、嵌入向量和取整修正量，最后对两组角点筛选、分组并修正位置。基于同目标角点的嵌入向量接近、不同目标角点的嵌入向量远离的先验原则进行训练，损失函数设计为

(8)

式中：N为训练样本数量；ec为第c个角点所对应的嵌入向量etc、ebc的平均值。该方法缺点是难以达到实时，且角点匹配时容易产生分组错误，导致定位不够准确，错检率高。文献[23]、文献[24]分别从中心点约束与角点匹配原则方面进行改进，提高了检测精度，但均无法达到实时。文献[25]提出一种轻量化特征提取网络的方法。针对使用角点检测缺乏外观特征的问题，2019年Zhou等[26]提出ExtremeNet方法，使用沙漏网络对目标5个关键点(4个极值点和1个中心点)进行检测，但该方法对大目标中心点响应不够准确，容易造成漏检且效率较低。

基于关键点的检测方法依赖于复杂的特征提取网络和高分辨率的预测特征图，需要更大的内存成本和计算量，速度较低，因此不利于弹载处理器部署。基于锚点的检测方法可以使用更简单的特征提取网络，速度更快，但在对打击过程中可能出现的密集目标和弹道末端大尺度目标检测效果较差，影响打击精度。

1.4 基于Transformer的目标检测模型

2017年美国谷歌公司首次提出了一种基于编解码器的序列预测结构Transformer，并应用于机器翻译任务，改进了循环神经网络训练慢、全局语义考虑不足的缺点，在编码器和解码器中利用自注意力层能够获得更丰富的全局语义信息。自注意力层包括查询矩阵Wqry∈RDm×Dk、关键词矩阵Wkey∈RDm×Dk、值矩阵Wval∈RDin×Dout3个需要训练学习的共享参数，输入为X∈RT×DmT个Din维的像素序列，其中Din为特征图长乘宽。则自注意力层输出可以表示为

(9)

式中：softmax函数将输入归一化为概率分布。

2020年美国Facebook公司[27]首次将transformer结构应用到目标检测领域，提出DETR目标检测模型，成为近两年热点方向。该模型首先使用CNN提取特征，融合位置消息后将特征展开为X∈RT×Dm的序列，送入transformer的编码器中得到T个物体编码序列。非自回归解码器以编码器输入和N个目标序列为输入，并行解码得到N个目标序列，经过全连接层直接输出N个预测结果。文献[28]使用基于transformer的特征提取网络并借鉴DETR方法输出检测结果，提出一种基于全transformer结构的目标检测方法YOLOS。2021年文献[29]采用Swin-Transformer[30]模型作为特征提取网络，并提出一种多注意力感知结合的预测分支，在COCO数据集上取得了最高的mAP。该类方法对于超大规模数据集有更好的性能，但计算开销更大，经轻量化后在效果上不具备明显优势，距离模型实际部署应用仍有待发展和验证。

综上，通用目标检测模型中基于候选框的单阶段方法和基于锚点的方法更适用于弹载处理器平台的目标检测模型部署。

2 弹载目标检测模型部署中的关键技术

为实现目标检测方法在弹载处理器上部署并提高应用效果，当前可从特征提取网络设计、预测特征图增强模块设计、训练中样本均衡、NMS后处理算法设计及模型压缩5个方面入手。

2.1 特征提取网络设计

2.1.1 典型特征提取网络设计

目标检测模型的特征提取网络计算量通常超过模型总计算量的60%，因此特征提取网络设计选择决定了弹载目标检测模型的基准性能，影响着模型对复杂背景的战场环境和对多类目标特征的提取能力。2012年文献[31]使用5×5、7×7大卷积核及5层卷积层构成特征提取网络AlexNet，在图像分类领域达到超越人的表现，表明了基于深度学习的方法在特征提取上的巨大优势。2014年文献[32]从增加网络深度的角度提出了卷积块概念，将多个小卷积核卷积层堆叠组成卷积块，设计了VGG结构，提高了特征提取能力和泛化能力。2014年Szegedy等[33]从增加网络宽度角度提出由多个小尺寸卷积核构成增宽的Inception卷积块，并指出小卷积核组合能够保持感受野并降低参数量，因此3×3和1×1小卷积核级联被当前大多数网络[34]采用。通常随着网络加深特征图包含的图像信息会减少，为解决深度神经网络带来的梯度爆炸和梯度消失问题，2015年He等[33]提出包含残差模块的特征提取网络ResNet，该网络中任意两层之间的函数关系可由连续两层公式通过递归关系得到：

(10)

式中：xL为残差模块的输出层；F表示残差模块中处理层的集合，跳跃连接保证了第L层网络一定比浅层第l层包含了更多图像信息。由(11)式梯度计算公式可以看到梯度不会消失，跳跃连接成为后续更深网络设计中通用的方法[36]。

(11)

式中：ε为网络的输出。

特征融合是提高特征提取能力的有效手段。Huang等[37]提出DenseNet网络结构，该结构通过密集连接进行特征融合，获得了更高的精度，但由于每层都聚合前面层的特征导致存在信息冗余，造成高内存访问成本和能耗。2018年，针对DenseNet的特征复用冗余，文献[38]提出一种由可学习分组卷积组成的CondenseNet结构来裁剪掉冗余连接。2019年Lee等[39]提出OSA模块，该模块最后一层聚合前面所有层的特征，缓解了密集连接带来的信息冗余问题。2021年文献[40]通过稀疏特征重激活的方式设计了CondenseNetV2结构，对冗余特征同时进行裁剪和更新，有效提升了密集连接网络的特征复用效率。

加入注意力机制的卷积模块是提高特征提取能力的一个有效方向。通过设计一系列神经网络层操作，可以使网络关注重要信息，抑制无关信息。2017年Hu等[41]提出SE模块在通道维度进行注意力生成，在训练中根据每个通道特征的重要程度和关联程度进行加权，提高特征表征能力。SE模块可嵌入到通用特征提取网络模块中，也可嵌入在轻量化网络中，能以较小的计算成本达到较大的精度提升。

2018年文献[42]提出一种同时在通道和空间两个维度使用注意力机制的特征增强结构CBAM，该结构使用平均池化AvgPool()和最大值池化MaxPool()提升了关键区域的特征表达，可表示为

(12)

式中：mlp为共享卷积层；Mc、Ms分别为通道、空间注意力增强操作；Xl为经过注意力机制增强的特征图。图8所示为利用Grad-CAM[43]方法对使用CBAM的YOLOv4检测方法的特征图特征可视化，其中图8(a)为弹目距离5 km处的舰船目标图像。

对比图8(b)、图8(c)可知，增加了CBAM注意力机制的特征提取网络对海杂波环境下的弹载图像目标特征定位更加敏感，进而可提高检测方法的准确性。

2.1.2 特征提取网络轻量化设计

针对深度特征提取网络在部署于弹载处理器等嵌入式设备上面临硬件存储空间不足、功耗高、复杂的计算单元延迟长、在硬件上支持不足等实际问题，对特征提取网络进行轻量化设计是当前主要的解决方法。

2016年文献[44]设计了Fire卷积块，该结构使用多个1×1卷积核替代3×3卷积核，并通过多个Fire卷积块结合跳跃连接构建了SqueezeNet网络结构，降低了所需内存带宽并能保持较高的精度。2016年文献[45]提出深度可分离卷积模块，将卷积操作分解为分别学习空间特征和通道特征的深度卷积和逐点卷积，缩减了参数量和每秒浮点数计算量(FLOPs)，并引入通道和输入尺寸压缩比作为超参数，进一步控制模型大小。2017年Howard等[34]将其应用于MobileNet，取得了良好的效果。为弥补精度的下降，2018年Sandler等[46]在MobileNet基础上提出MobileNetv2网络结构。该网络在深度卷积操作前增加一层逐点卷积升维以在更高维度提取特征；随后使用逐点卷积降维，并去掉了第2个逐点卷积后的激活函数以保持低维特征；最后增加跳跃连接，提高了网络的特征表征能力。但该网络结构中过多的逐点卷积会增加额外的内存读取，降低了并行计算效率。

2017年Zhang等[47]提出ShuffleNet网络结构，其卷积块由逐点分组卷积结合深度卷积组成，并在特征通道维度随机打乱各组特征图弥补信息交流，参数量相对原始卷积操作可缩减组数倍。2018年Ma等[48]进一步改进了ShuffeNet，提出ShuffleNetv2网络结构，该结构首先在通道维度上将输入特征图拆分成两个分支，使用逐点卷积代替组卷积，用级联操作合并特征图，保持卷积块输入输出特征维度相同，可获得更低的计算量。2020年Han等[49]设计了Ghost模块[49]，该模块采用逐点卷积缩减输出特征图通道数，然后利用深度卷积模拟线性操作，生成具有相似信息的中间特征图，能成倍缩小计算量。使用该模块替换MobileNetv3[50]网络中的基本模块获得了更优性能。2021年文献[51]对逐点卷积和深度卷积进行低秩近似减少输入输出的连接数，并使用动态最大偏移函数作为激活函数，设计得到的MicroNet网络弥补了网络深度减少带来的性能降低。部分轻量化网络基本模块如图9所示，其中DWConv表示深度卷积操作。

手工设计高效模块和网络架构属于高维空间的最优参数搜索问题，可选择的设计数量增加会加大轻量化网络最优化设计的难度。近年来神经架构搜索(NAS)成为解决设计难题的一个解决方案。该方法依托大规模GPU资源，通过在定义的搜索空间内使用一定的搜索策略找出候选网络结构并评估，得到最优的网络结构。2018年文献[52]通过强化学习在500块GPU上搜索得到NASNet网络结构，但该结构分支碎片化，不利于硬件部署。2019年Wu等[53]基于可微神经网络搜索方法，在人工设计好的22层网络和9种候选卷积块组成的搜索空间内进行快速搜索，得到FBNet。2020年Wan等[54]针对FBNet搜索空间相对较小问题，提出DMaskingNAS方法，将通道数和输入分辨率分别以掩模和采样的方式加入到搜索空间中，在减少内存和计算量同时大幅增大搜索空间。2021年文献[55]将训练参数加入搜索空间，搜索得到FBNetV3网络结构，提高了精度。

2.2 预测特征图增强模块设计

相比于车载、机载图像目标，弹载图像目标在弹道末端尺度变化最为剧烈，是影响弹载目标检测效果的主要因素。以长20 m×宽10 m的面目标为例，弹丸以固定下滑角和视场角对目标区域成像，图像分辨率为1 280×1 024，统计弹丸弹道末端图像目标在长度方向上的像素数随弹目距离的变化和当前帧相对两帧前目标尺度的变化率，如图10所示。

由图10可以看到，目标图像在4～1.5 km范围内时，当前帧相对前一帧的尺度变化率不大，以弱小目标特征为主，当进入1.5 km范围内，尺度变化率快速增加，直至图像目标充满整个视场。

对于此问题，从预测特征图增强角度有针对性地提高弹载图像目标检测效果。最初检测方法如YOLO、Faster-RCNN仅使用特征提取网络得到的单层卷积特征作为预测特征图进行预测，如图11(a)所示。

由于深层特征图尺度小、感受野大，缺乏小目标特征，造成小目标检测效果差。SSD方法针对不同尺度的目标设置不同大小的候选框，在多层特征图上检测，如图11(b)所示。但采用该方法时预测特征图之间缺乏信息融合，效果提升有限。

目前通常有3类增强模块设计增强预测特征图，一是采用在特征提取网络之后加入特征融合及连接模块增强特征，获取适应不同尺度目标的预测特征图；二是使用注意力机制进行融合；三是通过增加视觉感受野提高小目标检测能力。

借鉴传统特征提取算法中图像金字塔的思想，文献[56]提出了自上而下的特征融合金字塔结构FPN。高层特征图上采样后与相同尺寸的低层特征图使用像素加法进行特征融合，为消除混叠效应使用3×3卷积处理，得到同时包含局部信息和全局信息的预测层，有效提高了小目标效果。YOLOv3、RetinaNet方法均使用了自下而上的特征融合方式。针对FPN可能导致出现重复的预测问题，文献[16]提出路径聚合网络PANet作为预测特征图增加模块，在FPN融合特征基础上加入自下而上的双向融合，提高了多尺度目标的检测精度，如图12所示。

文献[57]在FPN模块中重复使用一个有效的卷积块，进行复杂的双向特征图融合，提出BiFPN结构，如图13所示。文献[58]通过NAS方法搜索得到更为复杂的NAS-FPN预测特张图增强模块，但过于复杂的融合方式会增大内存占用，不利于网络轻量化。

在预测特征图中增加注意力机制能够提高检测效果。Liu等[59]在YOLOv3方法基础上采用了注意力机制，将3层不同分辨率的预测特征图按权重融合，设计了ASFF预测特征图增强模块，如图14所示。文献[60]同时使用特征融合和注意力机制增强预测特征图特征，在轻量化同时提高了精度。Dynamic Head方法[30]使用3个级联注意力机制分别提高预测特征图尺度感知、空间感知、任务感知能力。

通过增加感受野的方式可以增强预测特征信息。感受野通常与卷积卷积核大小、空洞卷积大小有关。Liu等[61]模拟人类视觉感知模式提出RFB模块，并应用于SSD目标检测方法。该模块使用不同大小的卷积核分支得到多尺度感受野，随后使用不同大小的空洞卷积模拟感受野尺度和离心率的关系，能够增强预测特征图对不同尺度目标的表征能力，有效提升目标检测方法的性能。2019年Li等[62]提出TridentNet预测特征图增强方法，使用3个不同大小的空洞卷积，生成感受野大小不同的预测分支，分别负责检测大中小三类不同尺度目标，如图15所示。

文献[63]使用不同扩展率的多路径扩张卷积层组成语义提取模块AC-FPN，从不同的感受野中捕获丰富的上下文信息，通过密集连接融合多个感受野的信息，解决了特征图分辨率和感受野之间的矛盾以及多尺寸感受野之间缺乏有效交互的问题。文献[64]提出一种具有不同空洞卷积大小的空洞编码模块作为预测特征图增强模块，通过该模块实现了在单尺度预测特征图上的感受野覆盖，与使用多尺度预测特征图的目标检测方法具备同样的检测精度，且具有更快的速度和更低的内存占用。

2.3 训练中样本均衡方法

弹载图像数据训练中的样本不均衡问题是影响模型效果的重要因素。样本不均衡问题一是正样本和负样本不均衡，二是难样本和易样本不均衡，三是不同类样本不均衡。以舰船目标为例，图16中真值为舰船目标区域，通常将与真值IoU小于阈值的区域视为负样本。一帧图像中负样本数量占据大多数，如果大量负样本参与训练会造成正样本损失湮灭，使模型失效；在训练过程中难样本为被错误预测的样本，数量相对少，模型难以专注对难样本学习；同时，战场环境中某些类别目标出现概率低、样本数量少，会导致该类预测准确性差的问题。可从改进训练样本采样方法、调整损失函数中样本的权重及通过研究样本之间的关系三个方面解决训练样本不均衡问题。

Shrivastava等[65]提出OHEM算法，对每张图片的感兴趣区域损失进行排序，筛选出损失较大的部分样本作为难样本，并对其重新训练，但该方法对噪声标签敏感。Cao等[66]提出了一种简单而有效的采样策略，首先对样本进行分组并依次抽取组内IoU最高的样本，得到不同的等级，然后通过重新加权方式将学习的焦点集中在具有高等级的优质样本上。Zhang等[67]提出根据真值的相关统计特征自适应选择正负样本的方法ATSS，在不带来额外计算量和参数的情况下将FCOS的精度提高到与RetinaNet相同的水平。文献[64]针对不同尺度正样本选择不均衡的问题提出一种均衡匹配策略，使得各个尺度的正样本在训练中做出同等贡献，有利于在全尺度预测上保持结果一致性。

Lin等[17]提出Focal Loss损失函数，通过引入两个加权因子解决正负样本不均衡和难易样本不均衡问题，但是两个参数需要根据数据集调整。Li等[68]提出了一种梯度协调机制GHM，把训练过程中存在类别中难易样本的不平衡归结为梯度分布不平衡，通过增加有效难样本的梯度达到提高训练的有效性和稳定性的目的。针对训练和推理阶段正负样本预测策略不一致和预测框分布离散的问题，文献[69]提出广义焦点损失GFL：

(13)

Chen等[70]提出模拟样本关系的排序损失作为目标损失，来解决样本类不平衡问题。Chen等[71]提出完全基于学习的残差机制，将多分类的不平衡转移到目标类相关模块，在模块之间建立残差连接，用激活函数计算更新目标分数，通过连续细化的过程逐步解决样本不平衡问题。

2.4 NMS后处理算法设计

目标检测模型的预测结果通常包含大量冗余重叠的预测边界框，需要NMS后处理方法进行筛除。NMS流程如图17所示。

针对原始NMS仅依靠单一经验阈值筛选导致漏检、使用分类置信度排序并未关联定位准确度等问题，2017年文献[72]提出的Soft-NMS算法对分类置信度加权衰减后再进行筛选，在两阶段方法上能更好地改善漏检问题。2018年文献[73]提出IoU-Guided NMS算法，该算法在网络预测分支增加定位置信度预测分支，将预测框和真值间的IoU作为定位置信度替代分类置信度作为筛选阈值。2019年文献[74]提出一种自适应NMS算法，该算法根据密集预测模块得到的目标密集度可自适应选择阈值大小。2020年文献[75]将定位置信度与分类置信度相乘作为筛选阈值，在增加少量计算量下提高了精度。2020年文献[76]指出相邻预测候选框中心距离越靠近，则越有可能为冗余框，因此在阈值筛选中增加了中心距离先验，提高了检测精度。

上述提升精度的方法均为顺序处理的方式，运算效率较低。而对于弹载处理器等嵌入式设备后处理时间不可忽略，因此需要针对NMS进行加速。文献[77]提出Fast NMS算法，针对NMS在IoU计算和顺序迭代抑制造成低效问题，按置信度降序排列N个预测候选框集合B=[B1,B2,…,BN]，计算与自身上三角化的IoU矩阵：

(14)

按列取最大后使用NMS阈值筛选可一次得到全部计算结果，并可与提升精度的方法相结合，但是取最大值的过程会允许冗余框错误抑制其他框而导致漏检。文献[78]提出Cluster NMS算法，通过更少的迭代计算使Fast NMS保持与NMS相同的精度，能够并行处理聚类的预测候选框，最大迭代次数仅为拥有最多预测候选框的类的迭代次数，并可以融合得分惩罚机制、中心点距离约束及加权平均方法，进一步提高筛选精度。近年来出现了无NMS的方法[21]，该类方法通过样本匹配策略可得到少量的预测框[27]，但存在不够稳定的缺点。因此对于弹载目标检测方法使用NMS算法仍有较大实用价值。

2.5 模型压缩方法

当前通用的目标检测算法通常基于GPU高算力平台进行训练，受限于弹载处理器体积、功耗、算力制约，在推理端对算法体积速度要求苛刻。不进行压缩加速的高精度浮点计算神经网络模型占存储空间大、计算量高、数据传输带宽要求高，难以在弹载处理器上直接使用。

当前弹载图像处理器通常使用基于CPU+AI芯片的异构处理器[8]，CPU主要完成处理器初始化、数据调度等控制功能和NMS等后处理，利用AI芯片提供的AI指令集编译器能够快速部署加速后的目标检测算法，实现卷积神经网络的加速计算。结合面向深度学习的弹载处理器平台对算法进行针对性压缩设计，可实现低内存带宽、低功耗、低计算资源占用以及低模型存储等。

从压缩参数和压缩结构两个角度可以将压缩方法分成表1所示7类。

表1 模型压缩方法分类

随着神经网络模型压缩方法的发展，已经孕育出一系列承载最新成果的压缩方法工具包，表2列举了一些常用的压缩方法工具包。其中，Distiller、Pocketflow、PaddleSlim均提供多种参数剪枝、量化、知识蒸馏方法的支持，并且提供自动化模型压缩算法AMC[79]的实现。

表2 压缩方法工具包

3 典型方法性能对比

ImageNet是当前用于预训练特征提取网络的大规模图像分类数据集。特征提取网络在该数据集上的Top1分类精度能够表征其特征提取能力的高低。将特征提取网络区分为基于手工设计和通过NAS方法自动搜索得到的特征提取网络，汇总典型特征提取网络在ImageNet图像分类数据集上的Top1分类精度、模型参数量和乘加累积操作数(MACS)，性能对比如图18 所示。

由图18可以看到，传统特征提取网络模型如ResNet、DenseNet等参数量通常大于30 MB，MACs在30亿次以上，具备相对较高的精度，但大参数量及高浮点计算量导致难以部署在弹载处理器上。轻量化网络模型通过更优的网络设计能够达到较高的精度，同时计算量大幅降低，对于算法部署具有实际应用价值。如结合自动搜索方法得到的轻量化网络模型FBNetV3可在FLOPs为5.57亿次时达到80.5%的精度[54]，且模型参数量仅为8 MB。

表3汇总了当前典型目标检测方法在通用目标检测数据集COCO上的性能表现，检测速度均为在TITAN X GPU硬件平台测试结果。

表3 典型目标检测方法性能对比

由表3可以看到，基于Transformer的目标检测算法通过超大规模数据预训练能获得更高的检测精度，代表了当前所能达到的最高检测能力，但目前在速度上难以达到实时。单阶段算法如YOLO、Objects as Points能够达到更高的实时性，其端到端的网络结构在弹载处理器部署上具有更好的适应性。

NMS算法用于进一步筛选目标检测模型的预测冗余结果，是影响弹载处理器目标检测效果的主要算法。表4汇总了典型NMS算法在COCO数据集上的性能表现，目标检测模型均采用YOLOv3-SPP结构。平均检测精度均值(mAP)、IoU阈值为75%时对应的平均查准率AP75、检测结果上限为100个时对应的平均查全率AR100指数。

表4 典型NMS算法性能对比

由表4可以看到，传统NMS算法经过Fast NMS等方法并行加速处理后速度得到较大提升，满足了实时性要求，在此基础上通过增加Weighted-NMS、DIoU-NMS等提高精度的方法，能以较小的速度损失得到一定的精度提高。

弹载处理器能耗和面积消耗与运算数据的位宽密切相关。文献[80]测试了不同数据类型运算操作的占硬件面积及能耗对比，如表5所示。

由表5可以看到，低精度定点数加操作和乘法操作的硬件面积大小及能耗比高精度浮点数要少几个数量级，使用8 bit定点量化可带来4倍的模型压缩、4倍的内存带宽提升，以及更高效的缓存利用(内存访问是主要能耗)。除此之外，计算速度也通常具有2～3倍的提升，且在一定场景下定点量化操作精度损失小，因此使用低比特数进行模型压缩具有较大优势。

表5 不同数据类型的运算操作占硬件面积及能耗

弹载图像数据集中的图像通过某型旋转炮弹靶场射击试验、无人机挂载弹载相机模拟拍摄、软件仿真等手段获取，包含港口、海洋、荒漠、草地等作战场景，具备弹载视角下多种目标类型不同尺度特征的图像序列。本文基于该数据集对典型目标检测算法进行训练，得到部分检测结果如图19所示。

图19(a)～图19(d)为基于YOLOV4目标检测方法对在不同弹目距离d和图像旋转角α获取的多靶标图像的识别效果。由图19可以看到：在远距离时YOLOV4方法可对靶标区域及区域内多个靶标进行准确检测；随着弹目距离缩小，目标检测方法能够保持对打击的靶标精确定位，表明采用的检测方法能够适应不同尺度和不同场景下靶标特征，具有较强的鲁棒性。图19(e)、图19(f)为基于YOLACT方法对模拟弹载视角拍摄的装甲目标检测结果，从中可以看到，该方法在获取目标轮廓同时可得到旋转检测框，具有更精确的定位信息。

4 结论

本文结合弹载图像目标检测难点问题，综述了基于深度学习的目标检测方法，从5个方面阐述了目标检测模型在弹载处理器部署中的关键技术，为高性能弹载图像目标检测实现提供了先进理论基础和可行方案，一定程度上推动了图像自寻的弹药的精确化、智能化。相关技术可应用于车载、机载等平台的检测任务，但目前尚未发展成熟，仍有如下值得关注和讨论的研究方向：

1)兼顾模型性能和弹载处理器硬件部署的轻量化检测模型设计。当前弹载目标检测通常采用单阶段轻量化模型，具有实时性好、硬件部署适应性强等优点。但在复杂环境下检测精度仍有提升空间；对模型硬件部署效果缺乏理论分析及全面的指标评价。通过强化学习自动搜索得到高性能的轻量化网络，结合大感受野注意力机制增强特征图等方法，综合数据读取、模型计算量、内存访问成本、计算并行度、硬件能耗等指标设计更优的硬件友好型目标检测模型，是实现高效可靠的弹载图像目标检测必须研究的重要课题。

2)弹载图像自寻的系统一体化设计。弹载图像自寻的系统包含大靶面弹载摄像机图像采集、弹载目标检测及跟踪。在工程上通常采用分治法完成各个任务，简单清晰，分工明确，但集成度低、丢失了任务间关联信息。一体化设计能利用任务间关联信息，在系统层面缓解模型经过压缩后带来精度损失的问题，具有重要的实用价值。

3)模型的可解释性问题研究。虽然基于深度学习的目标检测方法具备高准确性、高鲁棒性的优点，但通常被认为是基于数据驱动的“黑箱”模型。当前通过可视化、外部扰动、因果解释等方法仍无法完全解释其决策依据和逻辑，导致使用者无法完全信任模型决策结果。因此，未来在提升模型性能的同时也应注意模型的可解释性。

4)多目标打击决策问题研究。图像自寻的弹药作为“察打评”一体化闭环作战平台，在目标检测中增加毁伤判别先验知识，对实现作战效能最大化具有重要的实战意义。