基于全卷积网络的目标检测算法

2018-05-25 08:50施泽浩赵启军
计算机技术与发展 2018年5期
关键词:类别卷积图像

施泽浩,赵启军

(四川大学 计算机学院 视觉合成图形图像技术国防重点实验室,四川 成都 610065)

0 引 言

在迈向更为复杂的图像理解中,需要的不仅是图像里有什么物体,更需要知道物体的具体位置,因此目标检测就显得尤为重要[1]。相比于特定目标的检测,如人脸检测、行人检测、车辆检测,通用目标检测需要检测的物体类别众多,类别之间距离大,难度大大增加,以至于传统的滑动窗口加分类器的一般检测流程难以驾驭。近年来,深度学习[2]不断在图像识别上取得突破,受到国内外研究人员的高度关注。自2013年以来深度学习开始应用到目标检测领域。相比于图像识别任务,目标检测任务更为复杂。首先,一幅图像中通常不只一个目标出现。其次,目标检测需要精确的包围框(bounding box)定位目标并对其进行分类。现有基于卷积神经网络[3]的目标检测算法普遍网络结构臃肿,要实际应用还需克服速度慢、模型参数巨大等不足。为此,提出一种基于全卷积结构的目标检测算法。

1 相关工作

早期的HOG+SVM或者DPM等传统算法[4-8],都是采用手工设计特征、滑动窗口加简单分类器的设计,在行人检测、人脸检测等单目标检测中效果较好,但是对多目标检测则比较局限。卷积神经网络由于其强大的表达能力,近年来在目标检测领域表现大大超越了传统算法。基于深度学习的目标检测算法可以分为两大类,一类是基于可能区域,另一类是基于直接回归。

2013年Girshick R等提出基于可能区域的RCNN算法[9],先采用其他算法提取可能的目标区域,再用卷积网络对每个区域进行特征提取与边框回归,由于可能区域数目较大,每个区域都需要进行一次前向传播,算法效率十分低下。2015年Girshick R等针对RCNN的这一缺点,提出了Fast RCNN[10],使用感兴趣区域池化层(ROI pooling),在特征图(feature map)上对每个区域进行特征选择,得到统一长度的特征后合并,统一送入后续网络。2015年Ren S等提出了Faster RCNN[11],进一步将可能区域的提取集成到网络中,设计了预定义框(anchor)机制,使得检测任务变成端到端,不需要额外的可能区域的提取过程。

2016年Redmon J等提出了基于回归的YOLO算法[12],针对基于可能区域的方法速度慢这一问题,采用回归的方法,直接回归出目标的BBox与类别,牺牲了一部分精度,但是速度更快。由于使用了全连接层输出预测结果,YOLO模型的参数巨大。

2015年Long J等提出基于全卷积网络的图像分割算法[13],证明了全卷积网络在图像分割中的有效性。

基于可能区域的方法精度较高,但是网络复杂臃肿,速度慢。基于直接回归的方法虽然牺牲了部分精度,但是速度快,更能满足实际应用的实时性需求。文中提出的算法是采用直接回归的方法,不同于YOLO的是采用了全卷积结构,减小了模型的参数量和过拟合的风险,同时借鉴了Faster RCNN的anchor机制,设计了一个多任务的损失函数,减小直接回归的难度。

2 算法原理

2.1 算法概述

算法采用基于回归的方法,直接以图像为输入,通过优化给定的目标函数,网络可以预测输出图像中目标的类别与BBox,是一种端到端的结构。这种结构的主要优点是速度快。

不同于YOLO的是用卷积层代替全连接层做预测输出。如图1(a),YOLO采用全连接层(FCDet层)进行回归预测,通过对下层信息的融合直接输出目标的BBox和类别信息。而文中算法采用anchor机制,用卷积层(ConvDet层)输出目标信息,如图1(b)。

2.2 全卷积网络

卷积神经网络是人工神经网络的一种,在图像领域具有广泛的应用。一般的卷积神经网络包括卷积层、池化层、全连接层。而全卷积网络,只包含卷积层和池化层。全卷积网络的优点包括:

图1 模型对比

(1)全连接层对特征图上每个像素点同等对待,提取了全图信息,包括背景信息。而全卷积的特征图上每个像素只提取了其对应的图像感受野内的信息,减少了无关背景的干扰。

(2)全连接层参数多,而卷积层参数少,不容易过拟合。

(3)全卷积网络能适应不同的输入大小。

2.3 预定义框机制

预定义框机制是在卷积输出的特征图上的每个像素位置上设置一组不同大小、不同长宽比的预定义框,如图2所示。通过选择与目标IOU最大的一个预定义框进行目标函数优化。ConvDet层将在每个像素位置同时输出各个预定义框的位置和尺寸的调整量(δx,δy,δw,δh),是否含有目标的分数Score,还有属于各个类别的概率Class。最后通过非极大值抑制(non-maximum suppression)得到最终的目标检测框。文中算法通过对训练集的标签框做K均值聚类(k-means clustering)得到9个预定义框。

图2 预定义框机制

2.4 损失函数

算法的损失函数是一个多任务损失函数,包括边框回归、anchor得分回归,还有分类的交叉熵损失。

(1)

Lbbox部分处理边框回归。其中,λbbox是该部分损失的权重系数;Nobj是出现的目标个数;K是anchor的个数;Ik∈{0,1}指示了与目标IOU最大的anchor,只取IOU最大的anchor参与loss计算;X是一个四维向量(δx,δy,δw,δh),是anchor的修正量。

3 实 验

3.1 实验数据库

实验采用VOC2007和VOC2012目标检测数据库[14],含有二十类物体。VOC数据库分为训练集、验证集和测试集,只允许用训练集和验证集做训练,不允许使用外部数据。训练集总共有16 541张图片,并在VOC2007的测试集上进行测试。

3.2 评价标准

IOU(intersection over union,交并比),AP(average precision,平均准确率),mAP(mean average precision,平均准确率均值)是评价目标检测算法的三个主要参数。IOU表示目标的检测框与目标的标签框交面积与并面积的比率。AP和mAP的计算公式如下:

(2)

(3)

其中,b为检测框;bgt为标签框;N为测试集的标签框总数;C为类别数20。

3.3 结果分析

在VOC2007测试集上的测试结果见表1。可见,文中算法的速度约是Faster RCNN的7.5倍,平均准确率和速度均超过了基于回归框架的YOLO。检测结果见图3。

表1 实验结果

3.4 模型参数分析

Faster RCNN与YOLO的网络结构均采用了全连接层,其中全连接层分别占了约80%与72%的参数。而文中算法采用全卷积结构,模型约为Faster RCNN的四分之一,YOLO的十分之一,仅为103 MB。表2对比了各个算法的模型大小。

表2 模型大小

图3 部分检测结果

4 结束语

为解决现有目标检测算法模型参数大、速度慢等缺点,提出一种基于全卷积网络的目标检测算法。该算法利用预定义框机制,用卷积层代替全连接层进行结果预测,大大降低了模型参数数目,提高了检测效率。下一步的工作可以设计更佳精简的基础网络,进一步提高模型的预测速度。

参考文献:

[1] 尹宏鹏,陈 波,柴 毅,等.基于视觉的目标检测与跟踪综述[J].自动化学报,2016,42(10):1466-1489.

[2] 孙志军,薛 磊,许阳明,等.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810.

[3] 李彦冬,郝宗波,雷 航.卷积神经网络研究综述[J].计算机应用,2016,36(9):2508-2515.

[4] 赵丽红,刘纪红,徐心和.人脸检测方法综述[J].计算机应用研究,2004,21(9):1-4.

[5] 贾慧星,章毓晋.车辆辅助驾驶系统中基于计算机视觉的行人检测研究综述[J].自动化学报,2007,33(1):84-90.

[6] 李文波,王立研.一种基于Adaboost算法的车辆检测方法[J].长春理工大学学报:自然科学版,2009,32(2):292-295.

[7] FELZENSZWALB P, GIRSHICK R, MCALLESTER D,et al.Visual object detection with deformable part models[C]//Computer vision & pattern recognition.Washington,DC,USA:IEEE Computer Society,2010:2241-2248.

[8] 曾接贤,程 潇.结合单双行人DPM模型的交通场景行人检测[J].电子学报,2016,44(11):2668-2675.

[9] GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Computer vision and pattern recognition.Washington,DC,USA:IEEE Computer Society,2014:580-587.

[10] GIRSHICK R.Fast R-CNN[C]//International conference on computer vision.Washington,DC,USA:IEEE Computer Society,2015:1440-1448.

[11] REN S,HE K,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[C]//Proceedings of the 28th international conference on neural information processing systems.Cambridge,MA,USA:MIT Press,2015:91-99.

[12] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection[C]//IEEE conference on computer vision and pattern recognition.Washington,DC,USA:IEEE Computer Society,2016:779-788.

[13] LONG J,SHELHAMER E,DARRELL T.Fully convolutional networks for semantic segmentation[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(4):640-651.

[14] EVERINGHAM M,VAN GOOL L,WILLIAMS C K I,et al.The PASCAL visual object classes challenge[J].International Journal of Computer Vision,2010,88(2):303-338.

[15] SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[EB/OL].(2014-04-10)[2017-06-13].https://arxiv.org/abs/1409.1556.

[16] HE K,ZHANG X,REN S,et al.Deep residual learning for image recognition[C]//Computer vision and pattern recognition.Washington,DC,USA:IEEE Computer Society,2016:770-778.

猜你喜欢
类别卷积图像
基于生成对抗网络的CT图像生成
基于3D-Winograd的快速卷积算法设计及FPGA实现
论陶瓷刻划花艺术类别与特征
浅析p-V图像中的两个疑难问题
巧用图像中的点、线、面解题
一起去图书馆吧
卷积神经网络的分析与设计
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
趣味数独等4则