基于SSD目标检测算法的多尺度特征融合技术

2020-02-22 03:09黄和锟

现代信息科技 2020年18期

摘要：近年来目标檢测技术发展十分迅速，出现了很多优秀的目标检测算法，诸如Faster RCNN、YOLO和SSD等，其中尤以SSD目标检测算法表现突出，其运行速度可以和YOLO媲美，检测精度可以和Faster RCNN媲美，但SSD目标检测算法已生成六个特征图，接着单独送进网络里面检测，并没有考虑到多尺度特征融合问题。基于此，文章对SSD目标检测算法的多尺度特征融合技术进行了研究，使用特征图融合技术和三支路多尺度特征融合技术改进SSD目标检测算法，并获得更优的效果。

关键词：SSD;目标检测;多尺度特征融合;FPN

中图分类号：TP391.41 文献标识码：A 文章编号：2096-4706（2020）18-0122-03

Abstract：In recent years，the development of target detection technology has been very rapid，and there have been many excellent target detection algorithms，such as Faster RCNN，YOLO，and SSD. Among them，the SSD target detection algorithm has outstanding performance，its running speed can be comparable to YOLO，and the detection accuracy can be comparable to Faster RCNN. The SSD target detection algorithm generated six feature maps separately and sent them to the network for detection，and does not take into account the problem of multi-scale feature fusion. Based on this，the article studies the multi-scale feature fusion technology of the SSD target detection algorithm，and uses feature map fusion and three-branch multi-scale feature fusion technology to improve the SSD target detection algorithm and obtain better results.

Keywords：SSD;target detection;multi-scale feature fusion;FPN

0 引言

目标检测目前是图像处理领域的一个基本方向，是近些年来理论和应用的研究热点。目标检测技术应用十分广泛，其主要目标是在图像或图像序列中精确识别出各种目标的类别和位置信息。近年来，无人驾驶市场热度很高，各种报道层出不穷，无人驾驶技术尤其在轨道交通领域具有深远影响，其运用了深度学习图像识别技术，汽车或者机器人要对驾驶路径进行目标检测，特别是对行人、汽车、自行车和摩托车等重要目标的识别。笔者作为工科学校的控制科学与工程专业的研究生，对目标检测在轨道交通场景中的运用进行了研究，驾驶场景的目标检测需要实时性和高精度性，Faster RCNN和YOLO都有各自的不足，笔者通过改进SSD目标检测算法的多尺度特征融合技术（特征图融合技术和三支路多尺度特征融合技术皆为多尺度特征融合技术），提升了SSD目标检测算法精度，使其适用于无人驾驶等轨道交通场景。

1 SSD目标检测简介

SSD采用VGG16作为基础模型，然后在VGG16的基础上用Conv6和Conv7替换掉了FC6和FC7，用卷积层来获得更多的特征语义用于检测。SSD提取了Conv4_3、Conv7和四个额外添加的特征图Conv8_2、Conv9_2、Conv 10_2、Conv11_2，其大小分别是（38，38）（19，19）（10，10）（5，5）（3，3）（1，1），将总共六个特征图送进后续的回归网络进行定位和分类，SSD使用感受野大的特征图去检测大目标，使用感受野小的特征图去检测小目标。SSD的损失函数包括两部分的加权：（1）位置损失函数Lloc（x，l，g）;（2）置信度损失函数Lconf（x，c）。整个损失函数为：

其中，N为先验框的正样本数量，c为类别置信度预测值，l为先验框对应bounding box的位置对应值，g为ground truth的位置参数，α一般取1。

2 基于SSD目标检测算法的多尺度特征融合技术

2.1 金字塔网络

多尺度特征融合技术中最出名的是特征金字塔网络（FPN），如图1所示，特征金字塔网络在正向传播时，特征图在每个阶段进行下采样（即降为原来的1/2），将高层特征经过两倍上采样，与经过1×1卷积核的底层特征相加可以得到更丰富的语义信息。特征金字塔网络加强了各特征图之间的联系，增强了特征图之间的融合，并成功改进了Faster RCNN算法，使其获得了不错的提升。

2.2 特征图融合

如图2所示，SSD网络中提取了六个特征图，我们先进行预处理操作（把C1、C2、C3、C4、C5和C6用1×1的卷积统一将通道数转变为256），然后将C2、C3和C4采样至与C1分辨率相同，接着进行concat操作，再通过1×1的卷积将通道数由1 024转为512，从而生成D1特征图取代原有的C1特征图。D1是由38×38、19×19、10×10和5×5的特征图进行融合而成，具有自下而上多层信息，同时保持C2、C3、C4特征图不变。1×1的特征图C6和3×3的特征图C5相对38×38实在太小，采样到38×38的分辨率只能携带很少信息，基于实时性考虑，并没有采样C5和C6。最后将特征融合后的D1与C2、C3、C4、C5和C6配合下文的双路多尺度特征融合送入检测头进行定位和置信度分析。

特征图融合公式可表示为：

其中，Ci{i∈（1，2，3，4）}，代表SSD提取的前四个特征图，Ti代表Ci的通道数转换和分辨率转换，f代表concat融合Ci，φ代表送入检测头定位和分类操作，（1，2，3，4，5，6）代表特征图的序号。

2.3 三支路多尺度特征融合

SSD目标检测算法的六个特征图是独立地传进网络中进行目标定位和目标识别，由于特征图与特征图之间没有联系，导致SSD出现两个问题：（1）底层特征语义不够;（2）最高分辨率不高。

本文将基于SSD目标检测算法提出新的多尺度特征融合技术，如图3所示，SSD算法总共提取了六个特征图（C1、C2、C3、C4、C5、C6），C1和C3通道数为512，C2通道数为1 024，C4、C5和C6通道数都是256，我们统一让六个特征图都先经过1×1的卷积（通道数为256），将六个特征图的通道数都调整为256，然后让经过调整后的C1…C6分别经过卷积核为1×1、通道数为256的卷积，生成C1_1…C6_1;然后让输入的C1…C6分别经过卷积核为3×3、通道数为256的卷积，生成C1_2…C6_2，最后让输入的C1…C6分别经过卷积核为5×5、通道数为256的卷积，生成C1_3…C6_3。

以C5和C6为例，由输入C6，经过通道数为256，卷积核分别为1×1、3×3、5×5的卷积，分别生成了C6_1、C6_2、C6_3;由输入C5，经过通道数为256，卷积核分别为1×1、3×3、5×5的卷积，分别生成了C5_1、C5_2、C5_3，可得：

3 实验结果

如表1所示，表1展示了Faster RCNN、YOLO、SSD300*和本文算法的实验结果对比图，train数据为VOC07+12，test数据为VOC07，对比得出SSD300*效果明显好于Faster RCNN和YOLO。SSD300*的FPS可以实现在100左右，在精度上不逊色于Faster RCNN，在速度上不输YOLO;SSD300*经过本文多尺度特征融合技术改进之后，FPS可以實现在55左右，mAP比SSD300*提高了1.5。经过本文多尺度特征融合技术改进后的算法对比SSD300*可以得出，无论是大目标和小目标，特别是对于较难识别的bottle和plant类别，改进后的算法相较于SSD300*分别有5.3%和2.9%的提升。

如图4所示，图4（a）和图4（b）为SSD目标检测算法的检测效果图，图4（c）和图4（d）图为使用多尺度特征融合技术后的SSD目标检测算法检测效果图。由图4（a）和图4（c）对比、图4（b）和图4（d）对比可以看出，加入多尺度特征融合技术后的SSD算法准确框出了人、自行车、汽车等物体，在人群、车辆等密集的情况下，使用多尺度特征融合技术的SSD算法比原SSD算法框住了更多的目标，同时实现了位置定位和目标识别精度的超越。

4 结论

特征融合一共有三条支路，分别为1×1、3×3、5×5，1×1卷积自顶而下，3×3卷积自下而上，5×5卷积自顶而下，三支路多尺度特征融合技术融合了高尺度语义信息和低尺度图像信息，同时采用了三种不同的卷积核，有效解决了传统FPN唯一的自顶而下的单向提取特征融合模式。在送入三支路多尺度特征融合模块之前先进行特征图融合，融合后的特征图有更丰富的语义，在不影响实时性的同时还取得了比SSD算法更优的结果。

参考文献：

[1] 黄健，张钢.深度卷积神经网络的目标检测算法综述 [J].计算机工程与应用，2020，56（17）：12-23.

[2] LIN T Y，DOLL?R P，GIRSHICK R，et al.Feature Pyramid Networks for Object Detection [C]//Proceedings of the 2017 IEEE conference on computer vision and pattern recognition. 2017：2117-2125.

[3] LIU W，ANGUELOV D，ERHAN D，et al.SSD：Single Shot MultiBox Detector [C]// Computer Vision-ECCV 2016，2016：21-37.

[4] REDMON J，DIVVALA S，GIRSHICK R，et al. You Only Look Once：Unified，Real-Time Object Detection [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition，2016：779-788.

[5] REN S Q，HE K M，GIRSHICK R，et al. Faster R-CNN：Towards Real-Time Object Detection with Region Proposal Networks [J]. IEEE transactions on pattern analysis and machine intelligence，2017，39（6）：1137-1149.

[6] LI Z，ZHOU F. FSSD：Feature Fusion Single Shot Multibox Detector [J/OL]. arXiv：1712.00960 [cs.CV].（2017-12-04）.https：//arxiv.org/abs/1712.00960v1.

作者简介：黄和锟（1996—），男，汉族，广西玉林人，硕士，研究方向：目标检测。