基于迁移学习的交通场景车辆实时检测算法

2018-08-18 08:23商国军杨利红王列伟

数字技术与应用 2018年4期

商国军　杨利红　王列伟

摘要：为实现精确实时的车辆检测，本文算法基于迁移学习思想，以深度学习实时检测算法YOLOv2为基础。使用在大规模数据集上预训练得到的分类模型初始化YOLOv2卷积神经网络，搜集交通场景车辆图片并标注后输入该网络利用反向传播进行微调，从而得到最终的车辆检测模型。测试结果表明，本文算法在包含300张车辆图片的测试集中MAP达到0.788，每帧检测平均耗时15ms，满足工程应用实时性要求。

关键词：迁移学习；车辆检测；卷积神经网络；YOLOv2

中图分类号：TP391.41 文献标识码：A 文章编号：1007-9416（2018）04-0123-02

车辆检测作为智能交通规划中的关键基础技术，一直以来都是国内外研究的热点。近年来，伴随着国内机动车数量的快速增长，我国道路交通状况日趋复杂，实现精确实时车辆检测的难度不断增加。

传统的车辆检测方法基于机器学习，由于监控视频中的车辆特征随着光照、视角等因素的变化而变化，使用HOG、SIFT等常用特征泛化能力较差。因此工程应用中需要针对具体应用场景进行特征设计，为了获取更高的准确率，特征维度越来越高，大大降低了算法实时性，因此传统车辆检测方法在实用中一直难以取得突破性进展。

近年来，随着大规模数据集的不断构建以及硬件计算能力的持续增强，深度学习理论和实践得到迅速发展。2014年，R-CNN[1]首次将深度学习应用到检测领域，后续出现了该类方法的改进，但均无法实时运行。在工程应用中，实时性非常重要，由此出现了基于回归的深度学习目标检测方法，典型代表为YOLO[2]、SSD[3]和YOLOv2[4]，能够实现实时检测。

根据交通场景中车辆检测对准确率和实时性的要求，本文以YOLOv2算法作为基础，结合大量交通场景车辆样本数据，实现了基于迁移学习的车辆实时检测算法。实验结果表明每帧图像检测平均耗时15ms，不仅显著提高了识别准确率，而且满足工程应用的实时性需求。

1 YOLOv2算法简介

YOLOv2是基于回归的目标检测方法，通过在图像上运行一次深度卷积神经网络前向计算，同时预测得到其中目标的位置和类别。由于将候选框提取、特征提取、目标分类、目标定位统一于同一個卷积神经网络中，YOLOv2不仅训练过程中能够实现端到端的优化，而且检测过程耗时少，能够满足实时处理需求。

2 实时车辆检测算法

基于迁移学习的交通场景车辆实时检测算法分为训练阶段和检测阶段。训练阶段基于迁移学习，首先使用在大规模数据集上预训练得到的分类模型初始化YOLOv2卷积神经网络，然后将车辆图片数据及其标注信息输入卷积神经网络利用反向传播对网络参数进行微调，从而得到最终的车辆检测模型。检测阶段输入待检测交通场景图片，通过训练阶段得到的检测模型计算其中包含的车辆位置及其类别概率，并输出最终检测到的车辆目标信息。整个算法流程图如图1所示。

2.1 迁移学习简介

在深度学习领域，由于获取并标注足量的训练样本用于从头开始训练整个卷积网络成本十分昂贵，因此实践中通常应用迁移学习的思想把已训练好的模型参数迁移到新的模型来帮助新模型训练。首先使用在开源的大规模数据集上预训练得到模型初始化卷积神经网络，然后使用特定场景的训练样本对卷积神经网络进行微调，通过继续反向传播来优化卷积神经网络参数，从而得到最终的深度学习模型。由于大部分数据或任务是存在相关性的，所以通过迁移学习可以将已经学到的模型参数分享给新模型从而加快并优化模型的学习效率。

2.2 检测模型训练

2.2.1 训练集构建

训练集是迁移学习能否取得良好效果极为重要的因素。本文收集了大量交通场景下的车辆图片，对图片中车辆出现的位置进行标注。所收集的图片包含白天、夜间等不同的关照条件，涵盖晴天、雨雪天等不同的天气环境，覆盖目标尽可能多的尺度和形状变化，保证了训练样本的多样性。

2.2.2 初始候选框选取

本文统计了训练集中所有目标标注框的宽度和高度数据，通过k-means++算法对其进行聚类，得到最能表征训练集中目标宽高比信息的候选框尺度。表1所示为各个初始候选框的尺度，其中宽度比和高度比是初始候选框尺寸与检测区域尺寸的比值。交通场景中车辆图片正面和背面位置框近似为正方形且像素占比较小，侧面位置框近似于长方形且像素占比较大，与表1中初始候选框尺度数据一致。

2.3 车辆检测

检测阶段流程图如图2所示，首先将需要车辆检测的图片缩放到416×416，并将其划分为13×13的检测区域，针对每个检测区域预测得到5个目标候选框，采用非极大值抑制剔除无效候选框，最终得到图片中包含车辆目标。

3 算法效果

3.1 运行环境

本文算法运行环境如：CPU：Inter Xeon CPU E5-2623；GPU：NVIDIA Geforce GTX1080Ti。

3.2 检测指标

测试数据集包含300张不同光照和天气环境下的交通场景车辆图片，在上述测试条件下，检测算法每帧平均耗时15ms。

YOLOv2算法通过VOC数据集训练得到的检测模型中包含车辆类型，并不适用于本文所述的交通场景，直接使用其检测本文测试数据集，MAP仅为0.636；本文检测模型达到的MAP为0.788，有较大提升。由此可见，针对具体应用场景，在已有的深度学习检测模型基础上应用迁移学习进行微调可以较大程度提升检测准确率。

4 结语

相较于基于机器学习车辆检测方法中的传统特征，深度学习模拟人脑，自动从图像中提取深度特征，不仅避免了复杂的特征设计过程，而且具有强大的泛化能力。本文以深度学习实时检测算法YOLOv2为基础，通过迁移学习，利用了大规模数据集上预训练模型参数加快并优化了车辆检测模型的学习效率，将检测MAP从0.636提高到0.788；同时该算法每帧平均检测耗时15ms，满足工程应用实时性需求。

参考文献

[1]Girshick R， Donahue J， Darrell T， et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]. IEEE Conf. Computer Vision and Pattern Recognition， 2014， 580-587.

[2]Redmon J， Divvala S， Girshick R， et al. You Only Look Once： Unified， Real-Time Object Detection[C]. IEEE Conf. Computer Vision and Pattern Recognition， 2016， 779-788.

[3]Liu W， Anguelov D， Erhan D， et al. SSD： Single Shot MultiBox Detector[C]. 14th European Conference. European Conference on Computer Vision， 2016， 21-37.

[4]Redmon J， Farhadi A， YOLO9000： Better， Faster， Stronger[C]. IEEE Conf. Computer Vision and Pattern Recognition 2017， 6517-6525.