快速多域卷积神经网络和光流法融合的目标跟踪*

2021-01-05 09:20张晓丽张龙信肖满生左国才
计算机工程与科学 2020年12期
关键词:卷积神经网络图像

张晓丽,张龙信,肖满生,左国才

(湖南工业大学计算机学院,湖南 株洲 412007)

1 引言

Figure 1 对RPN网络的改进图1 Improvement of RPN network

目标跟踪是计算机视觉中的重要研究课题,主要是为了估计移动目标在各种场景中的位置,目标跟踪环境复杂多样,光照、遮挡、天气等各种因素会对目标跟踪带来干扰。目前目标跟踪有生成方法或判别方法2种,前者通过使用稀疏表示、密度估计和增量子空间学习来描述目标外观,以找到最佳目标范围;相反,判别方法通过创建一个模型来确定背景物体的主要目标。现在国内外很多学者都在基于这2种方法进行目标跟踪研究工作,取得了一系列研究结果,如基于生成的方法,Tao等人[1]提出了具有代表性的生成方法,使用多种类型的神经网络计算该方法的误差,跟踪结果可以选取最靠近目标的范围。经典的判别跟踪算法有KCF(Kernelized Correlation Filters)[2]、C-COT(Continuous Convolution Operators for Visual Tracking)[3]和Staple[4]等,它们在标准视频跟踪中均取得了良好的效果。近年来,卷积神经网络(CNN)已应用于各种计算机视觉任务,例如图像分类[5 - 7]、语义分割[8 - 10]、目标检测[11,12]及其他任务[13,14]。卷积神经网络(CNN)在目标识别方面也非常成功。基于CNN的目标跟踪算法是一种判别方法,文献[4,15]直接利用深度学习的判别模型进行目标跟踪,不需要对参数进行更新,获得了较好的跟踪速度。MDNet(Multi-Domain Convolutional Neural Network)[16]提出了一种新的CNN体系结构,在目标跟踪学习过程中,将获得的样本分数与阈值相比较,若高于此阈值作为正样本进行训练。目前在线跟踪算法的性能得到了较大的提升,但其计算速率还是较慢,虽然GPU的性能很高,但只达到了1~2 frame/s[17,18],这极大地限定了该算法的实际应用。文献[10]是在MDNet基础上进行改进,得到了一种快速多域卷积神经网络,跟踪目标检测速度和性能良好;文献[12]的算法与本文算法相似,将区域卷积神经网络与光流法相结合,但是跟踪速度还是没有达到良好的效果。因此,为解决目标跟踪速度慢的问题,本文提出了一种融合Faste MDNet与光流法的目标跟踪算法。首先利用光流法获取目标的运动状态,从而获得目标位置的初选框,然后将该初选框作为快速多域卷积神经网络的输入,通过学习得到目标的确切位置和边界框。

2 目标跟踪算法

2.1 Faster MDNet原理及改进

Faster MDNet基于MDNet网络结构框架引进了RPN和ROIAlign层,目的是加快候选区域建议框特征的提取,并且降低特征空间信息量化损失。使用Faster MDNet算法对目标检测,首先取最后一层输出的特征图在ImageNet上进行训练,然后用RPN获取目标位置并用回归方法校正,通过Softmax图层确定该目标是前景目标还是背景。

通过RPN上的CNN网络输出从最后一层特征图上获取的锚点,分别取前景和背景12个大小不变的锚点进行1*1卷积,然后用Softmax归类,Faster MDNet的输入为卷积获取的24维向量,再将分类后舍去背景的锚点所对应的边界框进行微调和归类。本文只需将目标前景和背景作区分,因此对RPN进行改进,移除分类Softmax层,如图1所示,删除虚线框中的部分。

将初步获得的初选框作为Faster MDNet的输入,特征为通过卷积神经网络输出的最后一层特征图,然后用RPN确定跟踪目标的位置。

2.2 光流法

(1)

新的初选框的中心点D(xD,yD)T及初选框的大小S(w,h)T可以根据式(2)得出:

(2)

其中,w和h分别为新的初选框的宽和高;θ为用于确定光流矢量的加权值,本文通过实验得出θ取0.5比较合适。

最后,Faster MDNet的输入为D(xD,yD)T和S(w,h)T在第T帧图像上截取的初选框,并以检测的目标精确位置,作为确定下一帧初选框位置和大小的基础。

Figure 2 Flow chart of tracking algorithm图2 跟踪算法流程图

3 Faster MDNet训练学习及视频目标跟踪实现过程

3.1 离线训练及在线跟踪

本文通过ImageNet-Vid[21]获取参数对网络进行初始化,在线网络训练期间,RPN用于提取每个视频跟踪序列第1帧的ROI特征,因此,获得更高特征的语义表示需要2个输入过程。本文在大量的标准目标跟踪视频数据集上通过采用随机梯度下降SGD(Stochastic Gradient Desent)的方法对Faster MDNet网络完成端到端的离线训练。

3.2 跟踪实现过程

本文首先利用光流矢量确定目标的初选框,以此作为Faster MDNet的输入,特征为通过卷积神经网络输出的最后一层的特征图,然后用RPN确定跟踪目标的位置。本文实现的跟踪算法流程图如图2所示。

视频目标跟踪的具体实现步骤如下所示:

第1步光流法确定初选框。用第1帧获得目标边界框的中心G(xG,yG),然后在第2帧上剪切出2倍长度和宽度的搜索块,从而获得初选框。在文献[15]中,随后的跟踪过程可以直接使用前一帧的跟踪结果的2倍来获得一个初选框,且跟踪的结果通过相邻帧间的相关性获取,前一帧的形变和位移较大时,可能会移出初选框,这时跟踪就会失败。在本文中,使用光流法得到目标的运动状况,将先前帧跟踪结果的边界框分别与目标位移系数α和目标位移方向系数β相乘,得到初选框,这样就不会出现由于严重变形和位移而导致的目标漂移。

第2步对目标精确位置的检测:从整幅图像上截取的大小为跟踪框的α倍的一小块作为卷积网络的输入,那么通过改进的RPN不需要提供许多推荐框,因此减少了一些计算量。基于前一帧运动状态的跟踪结果,通过计算光流矢量确定初选帧,Faster MDNet用作检测器以确定目标的确切位置。

第3步获得的特征提取器为ImageNet的预训练卷积神经网络,特征选择为网络输出的最后一层特征图,然后根据RPN确定推荐帧是前景目标还是背景,目标的确切位置为前景中得分最高的推荐帧,最终获取目标的准确位置。

4 实验结果

4.1 训练数据选择

本文用于训练的数据是ILSVRC[22]竞赛中的VID(视频对象检测)数据集和PASCAL VOC2012[23]数据集,ILSVRC竞赛VID数据集中的训练数据包括3 386个视频,分为30个类别共1 122 397幅图像;PASCAL VOC2012共20种数据集和11 000幅图像。

4.2 数据预处理

PASCAL VOC原始数据格式类似于ILSVRC VID,于是预处理的格式数据仍为PASCAL VOC数据集的格式。

在检测目标精确位置时,可能会出现Faster MDNet的输入质量很差的情形,因为在跟踪过程中,目标可能只占初选框的一部分,或者目标只会出现在图像的边缘部分,因此需要对训练数据进行预处理。数据预处理时训练数据以图像中标记的真实框为中心,并以2倍大小的标记框执行“随机”截取。截取的部分必须包含目标,所以“随机”截取的过程需要在真实标记框的前提下进行,截取尺寸大小也需固定,为了与实际应用相符,在模拟过程中需要将输入样本多样化,将随机截取目标区域中的左上方、右上方、左下方、右下方和中间,并且每个样本都是从5个截取模式中随机选择的,如图3所示。

Figure 3 Random data interception 图3 数据随机截取

4.3 实验跟踪结果分析

为了验证本文算法的性能,进行了相关实验,具体实验方案如下所示:

(1)实验环境:计算机硬件配置,2台PC机,其CPU: Intel® Pentium® CPU G3220@3.00 GHz 3.00 GHz,内存:RAM 4 GB;软件配置,操作系统为Windows 7旗舰版,编程与计算工具为Matlab 2018b,所有实验数据存储在本地硬盘上。

(2)实验数据:将VOT2014数据集用作测试数据。

(3)实验评价指标:①AO(Average Overlap),即跟踪成功时跟踪框和ground truth框之间的平均重合率,用于衡量跟踪算法对跟踪变形的鲁棒性。②EFO(Equivalent Filter Operations),即分析跟踪算法速度的重要指标;③精度A(Accuracy),鲁棒性R(Robustness),精度水平Ar(Accuracy Rank),鲁棒性等级Rr(Robustness Rank),AO的期望值EAO(Expected Average Overlap)。

为了可视化算法的性能改进,对比了C-COT[3]、TCNN[18]和Staple[4]算法。实验结果如表1所示。

Table 1 Comparing VOT tracking results of multiple tracking algorithms on the test dataset表1 比较多种跟踪算法在测试数据集VOT上的跟踪结果

从表1中看出,本文跟踪算法在AO和EFO指标上均有出色表现。不同算法的运行性能不同,因此在评估跟踪算法的速度时很难统一。基于此考虑,VOT比赛在计算EFO时进行了改进:先在大小为900×900 pixel的图像上进行窗口大小为60×60 pixel的滤波,所用时间与跟踪算法获取一帧图像的时间相除,对得出的结果进行归一化处理获得其性能[6]。从表1中可以看出,本文算法的EFO达到了94.256,相比其他算法高出很多。

表2为本文算法在不同测试样本上的跟踪长度,其中,L1为测试样本中的帧总数,L2为取得成功追踪的帧数(其阈值为0.5,表示跟踪成功)。

Table 2 Target tracking results of the algorithm on the VOT dataset 表2 VOT数据集上本文算法的目标跟踪结果

根据表2的结果,本文实现的算法先以一个共同的目标跟踪框架为基础,然后通过光流法计算出目标的运动状态,得到目标的初选框。可以看出,本文算法的目标跟踪结果明显较好,但是有许多Man样本由于具有光遮挡和相同类型的目标,且成功跟踪的时间很短,很容易引起漂移导致跟踪失败。

由图4可以得出,在VOT测试集上不仅可以完全标记出目标的边界,而且在目标的移动过程中,即使目标会出现大幅度的变化(第5行和第6行),也能够将目标的边界完整地标记出来(灰色代表ground truth框,白色代表本文算法获得的结果)。

Figure 4 Tracking results of algorithms图4 不同算法的跟踪结果

5 结束语

从实验中可看出,本文提出的融合快速多域卷积神经网络与光流法的目标跟踪算法,与基于深度学习的跟踪算法相比,其跟踪速度明显提高;通过使用Faster MDNet算法来确定目标的确切位置,该算法的跟踪速度和性能表现良好;对于视频中迅速移动的目标,本文算法使用光流法先获得初选框,使得跟踪结果有较好的鲁棒性,与文献[13,16]中使用区域卷积神经网络模型以及直接使用先前跟踪结果2倍大小的候选区域作为输入相比,本文算法具有较大的性能优势。对于使用深度学习进行目标追踪不能同时兼顾准确度和速度的问题,通过本文算法得到了一定的缓解,后续将进一步提升光照遮挡和重叠鲁棒性,对算法性能进行进一步优化。

猜你喜欢
卷积神经网络图像
基于3D-Winograd的快速卷积算法设计及FPGA实现
巧用图像中的点、线、面解题
有趣的图像诗
卷积神经网络的分析与设计
神经网络抑制无线通信干扰探究
从滤波器理解卷积
基于神经网络的中小学生情感分析
基于傅里叶域卷积表示的目标跟踪算法
基于神经网络的拉矫机控制模型建立
基于支持向量机回归和RBF神经网络的PID整定