基于VGG-M 网络模型的前方车辆跟踪∗

2019-02-15 08:28刘国辉张伟伟吴训成宋晓琳温培刚
汽车工程 2019年1期
关键词:置信度分类器卷积

刘国辉,张伟伟,吴训成,宋晓琳,许 莎,温培刚

(1.上海工程技术大学机械与汽车工程学院,上海 201600; 2.湖南大学,汽车车身先进设计制造国家重点实验室,长沙 410082)

前言

近年来,基于车载相机的视觉目标跟踪技术已被成功应用在ADAS(advanced driver assistance systems)上,其对于ADAS系统前方车辆的距离判断、碰撞预警等具有重要意义。传统的视觉跟踪方法主要分为生成式和判别式[1]。生成式的代表性算法有稀疏编码、在线密度估计和主成分分析等。LU H等[2]使用了一种新颖的pooling校正方法探索目标的部分信息和空间信息,在局部补丁上进行pooling得到的相似性,不仅定位目标更准确,且能适应一定程度的遮挡,该方法有效地利用稀疏系数在目标与背景之间的差异性,降低了跟踪漂移概率。与之相对地,判别式方法通过训练分类器来区分目标和背景,将目标跟踪转化为一个二分类问题。文献[3]中使用随机森林算法,通过在线学习高置信度的特征来更新目标模型,跟踪性能表现更加稳定。

前两种方法都依赖于浅层的手工特征,有一定的局限性,无法利用目标的高级语义信息[4],导致其泛化能力不足,往往在复杂场景难以实现稳定的跟踪,如尺度自适应变化、遮挡后复原跟踪。近年来,深度学习的方法凭借其卓越的性能已经在图像识别和检测领域取得了成功。在跟踪系统中,影响其性能的关键在于特征的表达,深度学习因为其深层结构可以提取图像的高级语义特征,其较强的特征表达能力在目标跟踪领域有较好的应用潜力。

本文中的跟踪模型是通过一个卷积网络的全连接层softmax分类器和在线观测模型来定位前方车辆,通过常规更新方案来更新网络,实现对前方车辆的稳定可靠跟踪。

1 基于深度学习的车辆跟踪器

将深度学习的方法应用到车载相机的目标实时跟踪上,主要瓶颈在于短时间内可供在线训练的样本不足。WANG N在文献[5]和文献[6]中提出了DLT(deep learning tracker)算法,通过线下预训练获得物体特征的通用表示,一定程度上减少了目标训练样本的需求。但是DLT因线下训练的数据集分辨率较低,无法学习到足够强的匹配跟踪序列的特征表示。2015年在DLT的基础上提出了SO-DLT(structured output deep learning tracker),该模型使用类似AlexNet的网络结构,利用图片本身的结构化信息,直接从概率图确定目标框的位置。

文献[7]中使用经过预训练的VGG-16(visual geometry group)网络[8],提出 FCNT(fully convolutional networks tracker)跟踪器,对卷积神经网络特征在目标跟踪的性能进行较为深入的研究,提出VGG-16网络的特征图可以做定位,且网络的最后一层(Con5-3①)深层的特征图具有较高的语义特征,可区分目标类间的特征差异,Conv4-3①较浅层的特征图可区分类内差异,该方法不再把CNN(convolutional neural network)视为黑箱子,充分利用深度神经网络的结构特点来对目标定位。但是在实际测试中,对遮挡的表现鲁棒性不强。文献[9]中在VGG-19网络[8]上提取 Conv3-4①,Conv4-4①,Conv5-4①层的特征并结合相关滤波器提出了粗/精式的跟踪算法,同样取得了不错的效果。

2016年文献[10]中提出MDNet(multi-domain network),运用多维的训练思路,将每个训练视频序列当成一个单独的域。该方法应用了大量的线下预训练,而减少了在线训练的样本需求。文献[11]中提出了一种简单有效的正则化技术branchout,减少了集成学习方法在模型多样化和训练样本中噪声标签较少的限制,为深度学习应用在跟踪领域上提供了一种新的方法。

在文献[12]中,通过研究不同卷积网络的深层结构,并对网络的性能进行比较,确定了重要的实现细节,得出VGG-M的网络结构具有更快的检测速度和更强的性能表现。VGG-M网络是一个中等架构的卷积网络,其网络结构见文献[12]中表1。其良好的目标特征表达能力和合理的网络架构使其更加适合应用于目标跟踪领域。本文中在VGG-M网络特征的基础上实现前方车辆的稳定跟踪。

2 车辆跟踪模型结构

2.1 卷积网络模型

本文中跟踪模型的特征来自于CNN网络结构,CNN可以通过训练学习获得目标的外部特征,网络结构如图1所示,网络的输入为107×107 RGB图像,网络结构的隐藏层一共5层,包括3个卷积层和2个全连接层,最后一层为softmax回归模型。该网络模型在文献[12]中提出的VGG-M网络结构的基础上丢弃了卷积层Conv4和Conv5,全连接层fc4和fc5使用dropout进行正则化,最后一层全连接层fc6即为softmax分类器。除了softmax,其余所有权重层的激活函数都是ReLU(rectified linear unit)。在跟踪之前,将网络在ImageNet[13]进行预训练。

跟踪器采用较浅层的网络模型,是因为过深的网络结构不利于参数训练,且深层的特征不利于目标的定位,不能完成精确的跟踪[14]。在线跟踪过程中,浅层网络在正向传播和反向传播阶段可以节省很多时间,且具有较好的跟踪性能表现,通过大量跟踪实验对比分析发现,较少的卷积层数可得到更快的跟踪速度,且由于浅层网络特征含有更多的空间位置信息,具有更好的定位精度。本文中选择3层卷积网络来搭建跟踪模型。VGG-M不同卷积层下跟踪性能表现如表1所示。

在车载监控的条件下,可以假设前方车辆的目标大小随着与镜头距离的远近呈现近似的高斯分布[15],于是本文中使用高斯模型,基于上一帧目标框的中心位置在其周围对当前帧的车辆位置及尺度生成N个候选框Xti(i=1,…,N),针对某一位置,出现新的尺度时,及时对高斯均值和标准差更新。

图1 输出的特征和图像层

表1 VGG-M不同卷积层数下的性能比较

式中:∂为学习率;St为第t帧车辆外接矩形框的面积;μt+1和σt+1分别为第t+1帧高斯均值和标准差。车辆的位置可以通过fc6层softmax分类器来估计,分别求的每个候选框Xti(i=1,…,N)的得分来获得。

通过候选框得分的高低构建一个高质量样本集,样本集的每个框用其所在位置分别标记为Ω={wk|k=1,…,K},对于每一个候选框位置wk与其候选框的尺寸共同构建了mini-patch,利用在线观测模型去估计他们的置信度。

2.2 在线观测模型

VGG-M网络应用于跟踪时,网络层数的加深,空间信息会被稀释,从而影响分类器的定位精度,且卷积神经网络更新的缓慢与滞后特性导致softmax分类器可能会出现误差。为了提高VGG-M网络的跟踪精度,本文中特采用包括一个转移模型和一个目标框尺度模型的在线观测模型。该模型来源于在线被动攻击算法(passive-aggressive algorithm)[16-17]。CNN特征包含输入图像的空间结构信息见图2,通过在目标周围提取负样本mini-patches来训练在线观测模型。

盛旦老师轻轻敲了下桌子,给了查理一张纸,示意查理念出上面的文字,查理念道:“一张牌可以睡个懒觉,一张牌可以逃学一次,一张牌可以迟到一次……”念完所有的文字,班上就炸开了锅。

由于一张输入图片有大量的负样本和少量的正样本,这样可能会影响训练模型的质量。为平衡正负样本数量的差异对模型的影响,构建了一个二分模型解决这个问题,如果第k个mini-patch的中心落在预测框内就定义rt,k=1,否则rt,k=-1。其中Zt表示第t帧的转移模型,xt,k(k=1,…,K)表示第t帧、第k个样本的特征。转移模型通过优化函数获得:

图2 在线观测模型训练样本

式中若xt,k为正样本特征时Y=Y+,否则Y=Y-,其中Y+和Y-为经验参数,是为了减少正样本与负样本由于数量上的差异对训练模型造成的误差。ξ为松弛变量,其中 Z1=0,Zt,0=Zt,Zt+1=Zt,K。 式(4)为一个凸优化问题,可以通过拉格朗日乘子的方法解决。

使用转移模型 Zt∈ℝW′×H′×D′计算每一个 minipatch的置信度SZt(Xt,k),每个候选框wk的置信度S(wk,xt,k)通过式(6)计算:

目标框尺度模型是一个被动攻击的回归模型,首先对K个mini-patch样本定义不同的尺寸,回归值rt,k∈[0,1]由mini-patch的softmax的得分来设定,通过式(7)优化函数得到目标框尺度模型:

式中:ε为尺度变化的灵敏度,S1=0,St,0=St,St+1=St,k,对于任意一个mini-patch的置信度cSt(xt,k)可通过式(8)计算:

目标定位过程如图3所示,图3(a)为在车辆上一帧位置使用高斯模型得到的车辆候选框。首先将候选框输入卷积网络softmax分类器,使用一个固定阈值选取置信度较高的候选框(图3(b)),最后使用在线观测模型与车辆高置信度样本响应大小确定车辆的最终位置与尺度(图3(c))。

图3 在线观测模型优化目标框位置和尺度流程

算法流程图如图4所示。利用VGG-M的特征辅助在线观测模型对车辆定位。跟踪过程中,从上一帧跟踪的结果周围取正负样本训练VGG-M网络,通过判断目标是否丢失而使用不同更新策略,提高跟踪模型对多种工况的鲁棒性。

图4 跟踪算法流程图

3 网络模型训练

卷积网络模型的检测效果一定程度上依赖于训练样本的质量,符合正态分布的样本可以得到更好的效果。但跟踪过程中相邻帧的目标具有相似的运动状态,太多的相似样本易产生过拟合的现象,影响卷积网络模型质量。使用文献[18]中的方法,用优化训练集的方式去合并样本。联合概率分布p(x,y)中,x为训练样本的特征图谱,y为训练样本得分。

式中:p(x)为Gaussian Mixture Model(GMM)的概率密度;δy0(y)为训练样本的狄拉克函数。p(x)=其中 L 为正样本组件的总数量,πl为不同组件的先验权重,μl为组件l的期望值,协方差矩阵I使用一个固定矩阵,避免高维样本空间的复杂的推理计算。高斯混合模型的参数通过EM算法(expectation-maximization algorithm)估计,因为车辆不同尺度的卷积特征的差异性,不同组件呈不同尺度样本分布。

当有新的样本xj出现时,通过初始化一个新的部件 Cn,令 πn=λ,μn=xj。 所有正样本被划分为{C(1),C(2),…,C(L)}。如果组件的样本超过最大值X时,就删除一个候选框得分最小的样本。当组件的数量超过L时,就合并两个相识度最高的组件。

式中Ca和Cb为两个相识度最高的组件。

鉴于从邻近帧提取的样本最能体现车辆重新出现时的特征,对样本生成模型进行了改进,增加一个邻近部件用来保存最近X个样本,如图5所示。若跟踪出现遮挡的情况,就将邻近部件作为第L+1个组件作为训练样本。当目标出现遮挡时,及时更新网络避免发生目标丢失。

图5 改进的样本生成方案

4 网络自适应更新模型

4.1 非常规更新

当检测到新的特征图谱时(即光照变化、角度变化、遮挡等),为了不丢失跟踪目标,需要及时更新网络,通过softmax预测框的置信度来量化,当连续3帧的预测得分的值均小于0.5时,即时,认定目标发生遮挡或者丢失,对于丢失目标视频帧数,停止更新样本生成模型,避免使用错误的样本训练分类器导致误差不断积累,发生跟踪飘移的现象。

4.2 常规更新

当远方目标距离本车较近时,其外部轮廓边界信息较为清晰,单位面积内信息熵增加,softmax分类器的预测会更加准确;相反地,当目标距离本车较远时,车尾图像面积较小,内部像素信息熵急剧降低,其表面特征尤其是类内特征差距较小,因此需要动态提高更新频率。本文中提出一种自适应更新模型,基于跟踪输出框大小和目标框与目标框尺度置信度联合在线实时调节更新频率n。

式中:参数k1,k2为一个常量;St为第t帧目标框的面积。

更新频率n如果取值太大,跟踪模型会因为更新不及时而导致中心误差增加。如果更新频率较低,平均跟踪误差虽然较小,但是持续的更新会大大降低了图片跟踪的帧率。此外大量的实验表明,当帧率过低时,VGG-M网络会产生过拟合现象,同样导致中心误差增加,如图6所示。

图6 自适应更新和固定值更新结果比较

从图6中可以看到,采用自适应模型更新的方案,更新帧率n不再是一个固定不变的值,而是根据车辆的行驶状态和目标框置信度在线选择,表现出更好的跟踪性能。

5 实验结果

改进后样本生成方法是将正样本分为L+1个组件的方式,在学习到最近车辆行驶状态特征的同时,还保留之前置信度较高的样本,当车辆出现遮挡时,可重新定位车辆,如图7所示,实验证明了该跟踪算法在遮挡时具有较强的鲁棒性。

图7 目标遮挡时跟踪结果比较

跟踪的过程中VGG-M网络的全连接层参数不断被更新,使用改进的样本生成方案后,当车辆发生遮挡时,可以避免只用最近几帧的样本更新网络模型,从而避免在跟踪过程中出现目标飘移的现象,在线VGG-M跟踪器和压缩跟踪中心误差如图8所示。

图8 车辆遮挡时跟踪误差比较

跟踪主要的困难除了遮挡外,还有光线的强度变化造成的跟踪误差。因为跟踪的环境是复杂多变的,阴雨天、晴天、傍晚等不同光照条件下,都会影响跟踪的精度,如图9~图11所示,常规更新和非常规更新两种更新方式,提高了网络模型的适应能力。实验表明,在多种工况下,在线VGG-M跟踪器都表现出较好的跟踪性能。

图9 晴天车辆跟踪中心误差比较

图10 傍晚车辆跟踪中心误差比较

图11 雨天车辆跟踪中心误差比较

实验证明,在线VGG-M跟踪器跟踪精度相比传统的跟踪算法更加精确。本文中提出的算法在matlab上使用MatConvNet toolbox,在八核2.2GHz Intel Xeon E5-2660和NVIDIA TESLA K20m GPU上有约30fs的实时跟踪效果。

6 结论

基于VGG-M网络提出一种前方车辆跟踪器,利用卷积网络强大的特征表达能力对汽车尾部进行定位,通过在线观测模型对目标中心位置和尺寸进行校正。所提出的跟踪模型在遮挡等复杂条件下具有较高的跟踪精度。

实验表明,将卷积神经应用在跟踪领域,选择一个合适的网络更新频率对跟踪性能的提高具有较明显的积极意义。所采用的自适应跟踪方案,通过目标的轮廓高宽比、内部信息熵和跟踪的尺度置信度实时调节网络更新频率,使在线VGG-M跟踪器具有较理想的跟踪效果。

猜你喜欢
置信度分类器卷积
基于数据置信度衰减的多传感器区间估计融合方法
基于全卷积神经网络的猪背膘厚快速准确测定
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
一种基于定位置信度预测的二阶段目标检测方法
学贯中西(6):阐述ML分类器的工作流程
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
基于朴素Bayes组合的简易集成分类器①
基于AdaBoost算法的在线连续极限学习机集成算法