基于卷积神经网络的行人检测技术的研究综述

2020-12-24 08:01谭玉枚余长庚

软件 2020年7期

谭玉枚余长庚

摘要：隨着深度学习方法在行人检测领域的深入应用，基于卷积神经网络的行人检测技术在特征学习、目标分类、边框回归等方面表现出的优势已愈发突出。因此，本文从对传统的行人检测方法和基于卷积神经网络的行人检测技术进行优劣比较切入，概述了卷积神经网络的基础构架，以此引出对当前常用的基于卷积神经网络的常见行人检测技术及其优缺点，最后讨论了现有基于卷积神经网络算法实现行人检测存在的不足和指出今后发展方向。

关键词：卷积神经网络;行人检测;目标分类;边框回归

中图分类号： TP391. 41 文献标识码： A DOI：10.3969/j.issn.1003-6970.2020.07.006

本文著录格式：谭玉枚，余长庚. 基于卷积神经网络的行人检测技术的研究综述[J]. 软件，2020，41（07）：31-36+75

Review of Pedestrian Detection Based on Convolution Neural Network

TAN Yu-mei， YU Chang-geng

（College of Information and Communication Engineering， Hezhou University， hezhou 542899， China）

【Abstract】： With the in-depth application of deep learning in pedestrian detection， the advantages of pedestrian detection based on convolutional neural network have become more pronounced in the fields of feature learning， object classification， border regression and others. An overview of basic structure of convolutional neural network is done by comparing the advantages and disadvantages of the pedestrian detection based on the traditional method and convolutional neural network. On this basis， the paper introduces the common pedestrian detection technologies based on convolutional neural network and its advantages and disadvantages. At last， the present deficiencies existing in pedestrian detection based on CNN are briefly discussed and the future directions are pointed out.

【Key words】： Convolution neural network; Pedestrian detection; Target classification; Border regression

0 引言

目前，在无人驾驶、智能视频监控和机器人视觉感知^[1]等应用背景下，计量机视觉研究领域中的行人检测技术受到国内外学术界的广泛关注和深入研究。传统的行人检测方法侧重于在特征提取和分类方面提升检测准确率。其中，具有代表性的方法有：HOG（histogram of oriented gradient）+SVM（support vector machine）^[2]、Harr+Adaboost^[3]、基于多特征融合的粒子滤波多目标跟踪方法^[4]等。该类方法把特征提取和分类训练分离为两个独立过程，往往受限于特定环境条件（如小尺度变换处理等^[5]）、设定低阶特征（如纹理特征等），并且不同的特征与分类器适用程度各异，导致特征表达能力不足、可分性较差、可移植性差。

为更好提升行人检测技术的泛化性和鲁棒性，Hinton在2006年提出了自下向上方式自动逐层学习数据高阶特征的深度学习方法^[6]，引起了机器学习领域学者的广泛关注。相对传统行人检测方法，该类方法避免了复杂的特征提取和数据分类重建过程，学习到的高阶特征表达能力更强、更丰富。其中，卷积神经网络（convolutional neural network，CNN）^[7]作为常见深度学习模型，因其精度高和速度快的优势相比深度信念网络结构（Deep Belief Network，DBN），堆叠自动编码器（Stacked Belief Network，SBN）使用更为广泛^[8]，已成为当前计算机视觉领域研究热点。该方法整合了特征提取、特征选择、特征分类处理过程，并通过端对端训练和权值共享结构模拟生物神经网络，自动提取图像的纹理、颜色等复杂特征，较好的提升了目标识别精度。

1 卷积神经网络的基础构架

卷积神经网络建立在认知机（Neocognitron）^[9]基础上，把卷积运算和采样操作引入到人工神经网络，使提取出的特征具备一定的空间不变性，并最

早作为分类器应用于手写字符、小图片识别中，取得了不错成效^[10-12]。因此，卷积神经网络逐渐成为当前图像识别领域的研究热点之一^[13]。

如图1所示，典型的卷积神经网络主要由输入层、卷积层、池化层、全连接层和输出层组成。首先，输入层主要用于接收输入图像，并可进行简单预处理。其次，由多个卷积层和池化层构成特征提取器，完成对图像高层特征的提取。最后，由全连接层和输出层构成特征分类器，完成对图像高层特征分类，并输出用于表达当前图像的一维特征向量。

（1）输入层即图像输入层，其大小与输入图像一致，可视为只有1张特征图的层。

（2）卷积层主要作用是提取图像的低层特征，通过对输入数据进行卷积操作和组合运算，并利用非线性激活函数获取输入数据的非线性特征图，层数越多，特征表达能力越强。如图2所示，对于卷积层任一神经元所提取的是前一层不同特征图中相同区域的局部特征^[12]。

基于回归模型时候，以概率统计的方式预测目标在待检测图像中的具体位置信息。这两种方法将在下一节进行详细介绍。

2 基于卷积神经网络的常见行人检测技术

1994年，Vaillant等人首次将卷积神经网络成功应用于人脸检测，并取得了较好的检测效果^[14]。但是，由于受到计算机硬件性能低、过拟合等问题的局限，基于卷积神经网络的目标检测技术在较长一段时间没有得到研究者的关注。直至2012年，Krizhevsky等人提出了AlexNet，运用ReLU激活函数和Dropout策略降低了收敛速度和过拟合问题带来的影响，提升了训练速度、检测准确性和泛化性^[15]。自此，基于卷积神经网络的目标检测技术逐渐成为研究热点，并成为目标检测领域的主流方法之一。

本文将对卷积神经网络在行人检测领域的研究应用进行介绍，主要可分为：基于分类的卷积神经网络行人检测技术和基于回归模型的卷积神经网络行人检测技术。

2.1 基于分类的卷积神经网络行人检测技术

相对传统的行人检测方法，基于分类的卷积神经网络行人检测技术通过使用候选区域提取的方法，直接应用卷积神经网络对原始图像或特征图中每个滑动窗口生成的候选区域框进行二分类检测，以实现行人检测。根据输出图像特征图与卷积层的不同关联关系，可分为单尺度特征检测模型和多尺度特征检测模型。

2.1.1 单尺度特征检测模型

单尺度特征检测模型选择最后一层卷积层输出作为图像特征图。典型代表模型有：RCNN（Regions with CNN features）^[16]、Fast-RCNN^[17]、Faster- RCCN^[18]等。

RCNN是最早应用于目标检测的卷积神经网络模型，如图4所示，通过Selective Search方法取代窗口滑动获取候选区域，使用卷积神经网络对缩放至统一尺寸后的候选区进行特征提取，并运用SVM进行分类，实现行人检测。^[19]该方法利用卷积层实现了对图像特征的直接提取，避免了传统的行人检测中手工提取的繁琐，提升了识别效率。

Fast-RCNN的提出，进一步缓解了RCNN因提取大量候选区域特征帶来的运算压力，利用对候选区域下采样和SVD分解全连接层的方法，输出特征分类和边框回归的结果，提升目标检测效率和检测精度。如图5所示，通过Selective Search方法获取候选区域后，该方法直接对整张待检图像提取特征，将候选区域对应的特征图通过下采样输出固定长度的特征向量，并经过全连接层完成分类和回归边框位置信息进行修正，一定程度上提升了运算速度。

Faster-RCNN模型的提出，进一步优化了提取候选区域的方式和速度。该模型主要由用于提取候选区域的区域生成网络RPN（Region Proposal Network）和用于目标检测的Fast-RCNN，将获取目标候选区域、提取特征、目标分类和回归边框位置等过程融合到同一个深度神经网络之中。如图6所示，RPN代替Selective Search方法提取检测区域，并与Fast-RCNN共享卷积特征，输出概率最大的候选区，再由Fast-RCNN对所有候选区进行识别分类，并回归边框位置信息加以修正，大大提升了运算速度。

上述的单尺度特征检测模型以最后一个卷积层输出的高层特征作为候选区域特征，忽略了底层特征图中的一些局部细节特征信息，不利于对小尺度的目标检测。

2.1.2 多尺度特征检测模型

为解决单尺度特征检测模型对小目标检测中表现出的不足，研究学者们提出了基于多层特征融合的多尺度特征检测模型。典型代表模型有：ION（Inside-Outside Net）^[20]、FPN（Feature Pyramid Networks ）^[21]、Mask R-CNN^[22][23]等。

ION是较早提出在目标检测中应用多尺度特征融合的深度学习方法之一。如图7所示，该方法主要融合了感兴趣区域（Region Of Interest，ROI）内外的特征信息来进行目标检测，其中，Outside Net通过IRNN^[24]从最后一个卷积层输出的特征图中提取ROI外的上下文特征信息以更好适应目标遮挡情况，Inside Net利用Skip-Pooling获取ROI映射到第3-5卷积层输出的多尺度特征信息以提升对小目标的检测能力，并融合这两个特征信息来进行目标检测，有效提升了目标检测精度。

FPN的提出，是为了更好的利用Faster R-CNN模型实现不同尺度的候选区域映射出不同层不同尺度的特征图。如图8所示，该方法为实现全尺度高层语义特征图传递，构建了一个自顶向下且可横向连接的框架，并基于Faster R-CNN模型，从自底向上、自顶向下以及横向连接等三个维度获取多尺度融合特征，更有利于小目标检测。

Mask R-CNN可视为一个可实现精确分割的目标检测和语义分割的Faster R-CNN扩展模型。如图9所示，该方法基于Faster R-CNN模型，利用全卷积神经网络（Fully Convolutional Network，FCN）^[25]增加了语义分割分支用于分割任务。在Faster R-CNN

模型中引入FPN完成目标特征分类和边框回归任务的同时，使用FCN对每个ROI进行目标分割，并用RoIAlign代替Faster R-CNN中RoIpooling，利用插值算法确保被提名的ROI与特征图按像素点一一对齐（pixel-to-pixel alignment），以此实现高精度的实例分割和目标检测。

2.2 基于回归模型的卷积神经网络行人检测技术

由于基于分类的卷积神经网络行人检测技术的检测精度很大程度受到选取候选区域的准确性影响，并且整体模型运算量较大，导致难以满足实时检测要求。对此，部分研究方向逐渐转向用目标位置信息回归（边框回归）代替目标检测，即直接将整幅图像作为候选区输入卷积神经网络，以预测目标的位置信息。典型代表模型有：YOLO（You Only Look Once）^[26-27]、SSD（Single Shot MultiBox Detector^[28]等。

YOLO的提出，在提升行人检测实时性的同时，较Faster R-CNN大幅度降低了对图像背景的误检率。如图10所示，该方法直接将目标检测转换为预测回归问题，对缩放至统一尺寸（一般为）的输入图像进行网格划分后，使用单个卷积神经网络对每一个网格预测目标边框置信度及其分类概率，并合并相同类别且相交的目标边界框，以此快速预测目标位置。虽然该模型的端对端检测在一定程度上提高了检测效率，但在小目标行人以及间距较小的多目标行人的检测上效果不佳，且难以应对行人目标形变的情况，其泛化能力有待提高。后续研究者对YOLO模型进行了改进，提出了YOLO v2和YOLO v3模型，进一步提升算法的鲁棒性。

SSD提供了一种可快速实现不同尺度目标检测的一步检测法。相对于YOLO，SSD增加了额外的多个卷积层用于回归每个网格中的预测目标边框及分类的置信度，并在回归过程中，充分利用每个网格不同尺度的特征图。因此，其对小目标的检测效果优于YOLO。如图11所示，该方法直接对输入图像进行卷积特征提取，只需引入较小的卷积核即可进行检测。其中，大尺度的特征图（卷积层靠前的特征图）用于检测小目标^[29]，小尺度的特征图（卷积层靠后的特征图）用于检测大目标，以此实现对不同目标的检测。但该模型在实际检测过程中，同一行人目标容易混入不同目标检测框中。

2.3 实验数据分析

如图12和表1所示，基于卷积神经网络的行人检测技术一定程度上优化了对目标特征提取和目标分类方式。因此，在特征表达的上表现了较强的鲁棒性和泛化性，实现了较好的检测效果。

虽然两类方法在行人大小、姿势相对一致的场景中都能较好的检测到目标，但在不同环境下，两类方法表现出的泛化性仍有差异。如表1所示，采用数据集Pascal VOC（Pascal Visual Object Classification）的VOC2007、VOC2012进行训练，基于

分类的卷积神经网络行人检测技术Faster R-CNN因获取候选区域耗时影响，检测精度和速度不如基于回归模型的卷积神经网络行人检测技术YOLO和SSD。其中，YOLO的检测效果要优于Faster R-CNN和SSD。

3 基于卷积神经网络的行人检测算法存在的问题及发展方向

随着深度学习方法在目标检测领域的广泛应用，基于卷积神经网络的行人检测技术已成为计算机视觉领域研究热点，行人目标识别检测方面取得了不错的效果，但还有待改善的空间：一是对于尺寸较小的行人目标以及行人目标交叉遮挡严重情况下进行检测，其检测精度仍需有待提高;二是CNN网络模型越深，其计算复杂度和开销越大，精度与速度无法完全平衡，算法无法迁移应用到移动设备中，且对于自动驾驶等应用场景，其实时性和有效性难以满足;三是CNN网络的参数设置如学习率，步长等依赖于实践经验，训练可靠性不稳定;四是行人检测数据集的多样性不足，人工采集样本且手动标注样本耗时耗力;五是模型的训练计算量巨大，训练时间长，对计算机性能要求非常高。

针对上述卷积神经网络的行人检测算法存在的问题以及最近研究趋势，本文对今后基于深度学习的行人检测算法进行分析：（1）构建鲁棒性更强的网络的架构。比如结合传统的检测方法，利用上下文信息以及时空特性，提升对视频序列中小目標行人检测的鲁棒性。（2）研究轻量级网络模型，利用深度分组卷积替代传统卷积算法，减少计算量且提升检测速度，将算法应用于小型移动设备中，推动人工智能的发展。（3）构建弱监督/无监督的行人检测的模型，提升其检测性能。

4 结语

本文概述了卷积神经网络的基础框架，并对典型的基于卷积神经网络的行人检测技术进行了综述和实验分析，以及分析当前的算法存在的不足和指明今后发展的方向。

总体来看，随着计算机硬件性能和软件的不断优化升级，基于深度学习的行人检测算法已经成为主流研究方向，并且随着训练数据的不断扩充，以及轻量级网络模型的研究应用，该类算法具有更广泛的实际应用价值，在目标检测与分类等人工智能的应用中，会有更大的突破。

参考文献

Biswas S K， Milanfar P. Linear support tensor machine with LSK channels： pedestrian detection in thermal infrared images[J]. IEEE Transactions on Image Processing， 2017， PP（99）： 1-1.
Tan Y M， Luo X S， Xia H Y. Real-time and reliable human detection in clutter scene[C]//Eighth International Symposium on Multispectral Image Processing and Pattern Recognition， Wuhan， Hubei， China， 2013， PP（8919）： 14-18.
Viola P， Michael J， Daniel S. Detecting pedestrians using patterns of motion and appearance[C]//2003 IEEE International conference on Computer Vision（ICCV） IEEE， 2003， 63（2）： 153-161.
杨龙文，黄植功. 基于多特征融合的粒子滤波多目标跟踪算法研究[J]. 计算机应用与软件， 2015， 32（04）： 225-229.
张利军，刘勍. 图像弱小目标检测方法及其进展[J]. 自动化与仪器仪表， 2015（04）： 189-190+193.
Hinton G E， Osindero S， Teh Y W. A fast learning Algorithm for deep belief nets[J]. Neural Computation， 2006， 18（7）： 1527-1554.
Lecun Y， Bottou L， Bengio Y， et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE， 1998， 86（11）： 2278-2324.
CuestaInfante A， García， Francisco J， Pantrigo J J， et al. Pedestrian detection with LeNet-like convolutional networks[J]. Neural Computing and Applications， 2017.
Fukushima K. Neocognitron： a hierarchical neural network capable of visual pattern recognition[J]. Neural Networks， 1（2）： 119-130.
Li P X， Wang D， Wang L J， Lu H C. Deep visual tracking： Review and experimental comparison[J]. Pattern Recognition. 2018.

11.徐喆，王玉輝. 基于候选区域和并行卷积神经网络的行人检测[J]. 计算机工程与应用， 2019， 55（22）： 91-98+162.

12.张思宇，张轶. 基于多尺度特征融合的小目标行人检测[J]. 计算机工程与科学， 2019， 41（09）： 1627-1634.

13.Pérez H， Siham T， Alberto L， Roberto O， Hamido F， Francisco H. Object detection binary classifiers methodology based on deep learning to identify small objects handled similarly： Application in video surveillance[J]. Knowledge-Based Systems， 2020.

Vaillant R， Monrocq C， Lecun Y. Original approach for the localisa-tion of objects in images[J]. Vision， Image and Signal Processing， 1994， 141（4）： 245-250.

Krizhevsky A， Sutskever I， Hinton G. Imagenet classification with deep convolutional neural networks[J]. Advances in neural information processing systems， 2012， 25（2）.

Girshick R， Donahue J， Darrell T， Malik J. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. 2014： 580-587.

Ross Girshick. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision （ICCV）. IEEE， 2016.

Ren S Q， He K M， Girshick R， et al. Faster R-CNN： towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence， 2015， 39（6）： 1137-1149.

张明军，俞文静，袁志，等. 视频中目标检测算法研究[J].软件， 2016， 37（4）： 40-45.

Bell S， Zitnick C L， Bala K， et al. Inside-Outside Net： detecting objects in context with skip pooling and recurrent neural networks[J]. 2015.

Lin T Y， Dollár， Piotr， Girshick R， et al. Feature Pyramid Networks for Object Detection[J]. 2016.

He Kaiming， Georgia Gkioxari， Piotr Dollar， et al. Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision （ICCV）. IEEE， 2017.

朱繁，王洪元，張继. 基于改进的Mask R-CNN的行人细粒度检测算法[J]. 计算机应用， 2019， 39（11）： 3210-3215.

Le， Quoc V， Jaitly， Navdeep， Hinton， Geoffrey E. A simple way to initialize recurrent networks of rectified lnear Units[J]. computer science， 2015.

Long J， Shelhamer E， Darrell T. Fully Convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence， 2014， 39（4）： 640- 651.

基于YOLO网络的行人检测方法[J]. 高宗，李少波，陈济楠，李政杰. 计算机工程. 2018（05）.

Redmon J， Divvala S， Girshick R， et al. You only look Once： unified， Real-Time Object Detection[J]. 2015.

Liu W， Anguelov D， Erhan D， et al. SSD： single shot multibox detector[C]//European conference on computer vision. Springer， Cham， 2016： 21-37.

吴亚熙，岑峰. 基于卷积神经网络的多层级目标检测方法[J]. 软件， 2018， 39（4）： 164-169.