一种基于梯度规范化的目标检测算法*

2016-11-07 05:41张小锋夏鹏飞
计算机与数字工程 2016年10期
关键词:搜索算法选择性梯度

熊 林 张小锋 夏鹏飞

(南昌航空大学信息工程学院 南昌 330063)



一种基于梯度规范化的目标检测算法*

熊林张小锋夏鹏飞

(南昌航空大学信息工程学院南昌330063)

针对传统的目标检测任务都是基于滑动窗口模型来提取特征的,由于产生过多冗余的窗口会显著增加计算量并且对后续的特征提取和分类任务造成影响,提出一种选择性搜索结合梯度规范化的特征提取算法,首先利用选择性搜索算法产生一组目标区域集,该算法能够大幅度降低搜索空间并产生较少的目标区域,然后利用梯度规范化对目标区域进行特征映射,通过对这些特征向量分类能够提高检测精度

选择性搜索; 规范化梯度; 特征映射; 目标检测

Class NumberTP301.6

1 引言

选择性搜索(Selective Search)[8]算法综合了蛮力搜索[1~3](Exhaustive Search)和分割(Segmentation)[4~5]的方法,既有分割方法的从底至上的层级结构,也有密集搜索能够找到所有可能位置的优点。该算法能够显著减少搜索空间并减少计算量,本文使用选择性搜索算法来提取目标区域,该算法能够获取图像中目标所有可能出现的位置并将目标分割出来形成一组目标区域集,首先将这组目标区域集中所有的元素二值化,然后将这些二值化的目标区域梯度规范化并提取其特征向量,总的来说,选择性搜索结合梯度规范化算法进行目标检测具有以下优点,利用自下而上的聚合算法生成一组类独立的目标位置,再利用梯度规范化算法结合以上两点可以显著地减少检测算法的计算量且能够以足够高的精度提取出图像中的目标。

2 相关工作

传统的目标提取算法都是基于逐窗口模型,该类算法会产生大量的特征窗口,使得后续分类器的计算量过大,不利于实际应用,为了解决这个问题本文提出使用选择性搜索算法进行目标提取,选择性搜索算法充分结合了蛮力搜索和自下而上的图像分割的优势,在产生较少目标区域的前提下,能够搜索到几乎所有目标的准确区域。图1是利用选择性搜索算法对两幅图像进行目标检测的实例图,可以看出算法有效地找出各种尺度的所有可能目标的区域。选择性搜索算法主要是利用了基于图的图像分割,使用贪心算法迭代地将每一个区域聚合,当合并区域为整张图片则终止合并,具体流程见算法1:

图1 所有尺度的预选区域

算法1:基于图的选择性搜索算法流程

1) 输入:RGB图像

2) 利用[7]中算法获取一组初始区域

R={r1,…,rn}

3) 初始化相似度集合S=∅

4) foreach每对区域pair(r1,r2)do

统计相似度s(ri,rj)

更新相似度集合S=S∪S(ri,rj)

5) whileS≠∅do

得到最高相似度s(ri,rj)=max(S)

合并相似度最高的区域tt=ri∪rj

删除集合S中与ri有关的元素:S=S/s(ri,r*)

删除集合S中与rj有关的元素:S=S/s(r*,rj)

计算区域rt及其相邻区域的相似度集合St:S=S∪St,R=R∪rt

6) 输出: 一组从图像中提取的目标集

这样算法1便在图像中提取出了一组目标集,记作Setfeatures(S),使用选择性搜索算法在每一张图像里面大约能提取出2000个目标区域,这显然有大量非目标区域被提取出来。

3 梯度规范化提取目标区域特征

根据文献[9~10],实际上图片中的每个目标都是独立的并且具有确切的边界框和中心点,普通目标的边界框与其规范化梯度具有很强的相关性,各个不同目标区域的梯度有明显的区别,其次,每一个目标区域都可以用一组特征向量和混合特征值来表示,基于上述观点提出梯度规范化特征对目标进行特征提取,

首先将目标集Setfeature(S)所有区域目标窗口的尺寸归一化为8*8,如图2,并计算归一化后每个窗口的特征,将这个64维特征向量称为梯度规范化特征,将每一个特征归一化到[0,255]之间,利用目标与非目标之间的梯度规范化特征具有明显的区别[11],梯度规范化算法将每一个特征向量输入到一个级联支持向量机中进行分类,首先将原图缩放到固定尺寸的大小(W0,H0)∈{10,20,40,80,160,320},如图2所示,并以此计算其梯度特征,然后利用8*8的出窗口模型扫描缩放后的图像。

图2 梯度规范化算法示意图

(1)

l=(i,x,y)

(2)

上式中:sl为滤波分数;ω为权值矩阵,gl为梯度规范化特征,l为窗口位置,i为预定义尺度;(x,y)为窗口内任意点坐标。使用非最大化抑制算法选择一部分尺寸为i的窗口并用SVM线性模型计算其目标分数:

ol=υi·sl+ti

(3)

其中:i为预定义尺寸;υi为线性模型;ti为偏差。为减少计算量,二值化模型w[12,13],即用一组基向量的线性组合表示w

(4)

其中:w∈R64,αj∈{-1,1}64为基向量,βj∈R为相关系数。

算法2:二值化模型w

输入:w,Nw

初始化余项:ε=w

forj=1toNwdo

αj=sign(ε)

ε←ε-βjαj

endfor

基向量可由二值向量和它的补向量表示

(5)

(6)

其中:b为64维二进制数。这样就将一个区域目标映射为一个二值梯度规范化特征了。我们考虑将这两种算法进行融合。首先对原图像使用选择性搜索算法提取目标区域集,然后利用梯度规范化算法对所有目标区域进行特征映射,最后用训练好的级联支持向量机对这些梯度规范化特征分类,算法流程如图3所示。

图3 特征提取流程

4 实验与算法评估

所有实验均在同一平台上进行,CPU:Inteli7-4720HQ2.6GHz,内存:8GB,显卡:NvidiaGTX960,OS:UbuntuLinux14.04LTS,数据集:VOC2007。为了评估算法提取的区域的好坏,定义ABO(AverageBestOverlap)和MABO(MeanAverageBestOverlap)[5],ABO表征的是已标定数据和数据集中产生的目标区域L之间的最佳重叠率,由下式计算:

(7)

根据文献[14]有:

(8)

即MABO表征所有类的平均ABO。

这一节利用MABO-#WIN来评估算法的MABO和目标区域数量,将本文提出的算法与其他集中具有代表性的算法比较,这些算法都是基于滑动窗口模型。

从表1可以看出,在提取出同样数量的目标区域前提下,本文提出的算法MABO达到了0.885,下图展示了一组MABO介于0.855~0.876之间的检测精度效果图。

表1 实验中各目标检测算法的检测指标

图4 一组MABO介于0.855-0.876之间的检测例子

另外,表1中的偏差表征了算法的泛化能力,本文提出的算法偏差为0.046是最低的,这表明算法对于不同的检测目标依然具有很高的鲁棒性(泛化能力强)。这主要是因为对目标区域的二值化处理,使得算发对目标的旋转,缩放不敏感。

由于选择性搜索具有密集搜索的特点,在每张图片中大概能够提取2000个预选区域,显然在一般的图片中不可能具有这么多的待检测目标,另一方面由于目标可能以任何尺度出现在图片中,这就要求算法必须能够在预选目标的数量和质量中做出一个权衡,即算法应该能够在尽可能少的预选目标中以足够高的精度检测出图片中的每个目标,图5是本文提出的算法与其他算法的召回率(Recall)比较,从图中可以看出本文提出的算法在目标区域数量为1000之后较其他算法有显著提高。

图5 召回率

5 结语

本文提出了一种选择性搜索结合梯度规范化的目标检测算法,对比传统的滑动窗口模型,选择性搜索能显著的减少搜索空间,由于这两种算法在利用图像信息上具有互补性,本文提出的算法较其他达到相同召回率时能减少约1500个目标区域窗口。

[1] Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C]//IEEE Conference on Computer Vision & Pattern Recognition,2005:886-893.

[2] Harzallah H, Jurie F, Schmid C. Combining efficient object localization and image classification[C]//IEEE International Conference on Computer Vision,2009:237-244.

[3] P. Viola, M. J. Jones. Robust real-time face detection[C]//IJCV,2004,57:137-154.

[4] Viola P, Jones M J. Robust Real-Time Face Detection[J]. International Journal of Computer Vision,2004,57(2):137-154.

[5] Endres I, Hoiem D. Category independent object proposals[C]//Computer Vision-ECCV 2010. Springer Berlin Heidelberg,2010:575-588.

[6] Browet A, Absil P A, Dooren P V. Contour detection and hierarchical image segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2011,33(5):898-916.

[7] Felzenszwalb P F, Huttenlocher D P. Efficient Graph-Based Image Segmentation[J]. International Journal of Computer Vision,2004,59(2):167-181.

[8] Uijlings J R R, Sande K E A V D, Gevers T, et al. Selective Search for Object Recognition[J]. International Journal of Computer Vision,2013,104(2):154-171.

[9] Bogdan A, Thomas D, Vittorio F. Measuring the objectness of image windows[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2012,34(11):2189-2202.

[10] Heitz G, Koller D. Learning Spatial Context: Using Stuff to Find Things[C]//European Conference on Computer Vision. Springer-Verlag,2008:30-43.

[11] Cheng M M, Zhang Z, Lin W Y, et al. BING: Binarized Normed Gradients for Objectness Estimation at 300fps[C]//Computer Vision and Pattern Recognition(CVPR), 2014 IEEE Conference on. IEEE,2014:3286-3293.

[12] Hare S. Efficient online structured output learning for keypoint-based object tracking[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2012:1894-1901.

[13] Zheng S, Sturgess P, Torr P H S. Approximate structured output learning for Constrained Local Models with application to real-time facial feature detection and tracking on low-power devices[M]. IEEE,2013:1-8.

[14] Everingham M, Gool L V, Williams C K I, et al. The Pascal Visual Object Classes (VOC) Challenge[J]. International Journal of Computer Vision,2010,88(2):303-338.

[15] Bogdan A, Thomas D, Vittorio F. Measuring the objectness of image windows[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2012,34(11):2189-2202.

[16] Ian E, Derek H. Category-independent object proposals with diverse ranking[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2014,36(2):222-234.

An Object Detection Algorithm Based on Normalize Gradients

XIONG LinZHANG XiaofengXIA Pengfei

(School of Information Engineering, Nanchang Hangkong University, Nanchang330063)

In view of the fact that the traditional object detection task is based on sliding window model to extract the features, which may produce so many redundant windows that will significantly increase the amount of calculation and affect the subsequent feature extraction and classification task. In order to present an extraction algorithm which combines selective search and gradient standardization. First, selective search algorithm is used to produce a set of the object areas, which can greatly reduce the search space and produce fewer object areas. Then the object areas are mapped by exploiting the gradient feature normalize. The detection accuracy will be improved by classifying these feature vectors

selective search, normalize gradient, feature mapping, object detection

2016年4月6日,

2016年5月11日

国家自然科学基金(编号:61272077);江西省自然科学基金(编号:2014BAB207012);江西省重点实验室开放基金(编号:TX201204005);南昌航空大学研究生创新专项资金资助项目(编号:YC2015037)资助。

熊林,男,硕士研究生,研究方向:图像处理,深度学习,目标跟踪。张小锋,男,博士研究生,副教授,硕士生导师,研究方向:计算机视觉,目标检测,图像处理。夏鹏飞,男,硕士研究生,研究方向:图像处理,计算机视觉。

TP301.6

10.3969/j.issn.1672-9722.2016.10.009

猜你喜欢
搜索算法选择性梯度
一个带重启步的改进PRP型谱共轭梯度法
一个改进的WYL型三项共轭梯度法
改进的和声搜索算法求解凸二次规划及线性规划
一种自适应Dai-Liao共轭梯度法
选择性听力
一个具梯度项的p-Laplace 方程弱解的存在性
选择性应用固定物治疗浮膝损伤的疗效分析
选择性执法的成因及对策
基于汽车接力的潮流转移快速搜索算法
基于逐维改进的自适应步长布谷鸟搜索算法