快速多域卷积神经网络和光流法融合的目标跟踪*

2021-01-05 09:20张晓丽张龙信肖满生左国才

计算机工程与科学 2020年12期

张晓丽,张龙信,肖满生,左国才

(湖南工业大学计算机学院，湖南株洲 412007)

1 引言

Figure 1 对RPN网络的改进图1 Improvement of RPN network

目标跟踪是计算机视觉中的重要研究课题，主要是为了估计移动目标在各种场景中的位置，目标跟踪环境复杂多样，光照、遮挡、天气等各种因素会对目标跟踪带来干扰。目前目标跟踪有生成方法或判别方法2种，前者通过使用稀疏表示、密度估计和增量子空间学习来描述目标外观，以找到最佳目标范围；相反，判别方法通过创建一个模型来确定背景物体的主要目标。现在国内外很多学者都在基于这2种方法进行目标跟踪研究工作，取得了一系列研究结果，如基于生成的方法，Tao等人[1]提出了具有代表性的生成方法，使用多种类型的神经网络计算该方法的误差，跟踪结果可以选取最靠近目标的范围。经典的判别跟踪算法有KCF(Kernelized Correlation Filters)[2]、C-COT(Continuous Convolution Operators for Visual Tracking)[3]和Staple[4]等，它们在标准视频跟踪中均取得了良好的效果。近年来，卷积神经网络(CNN)已应用于各种计算机视觉任务，例如图像分类[5 - 7]、语义分割[8 - 10]、目标检测[11,12]及其他任务[13,14]。卷积神经网络(CNN)在目标识别方面也非常成功。基于CNN的目标跟踪算法是一种判别方法，文献[4,15]直接利用深度学习的判别模型进行目标跟踪，不需要对参数进行更新，获得了较好的跟踪速度。MDNet(Multi-Domain Convolutional Neural Network)[16]提出了一种新的CNN体系结构，在目标跟踪学习过程中，将获得的样本分数与阈值相比较，若高于此阈值作为正样本进行训练。目前在线跟踪算法的性能得到了较大的提升，但其计算速率还是较慢，虽然GPU的性能很高，但只达到了1～2 frame/s[17,18]，这极大地限定了该算法的实际应用。文献[10]是在MDNet基础上进行改进，得到了一种快速多域卷积神经网络，跟踪目标检测速度和性能良好；文献[12]的算法与本文算法相似，将区域卷积神经网络与光流法相结合，但是跟踪速度还是没有达到良好的效果。因此，为解决目标跟踪速度慢的问题，本文提出了一种融合Faste MDNet与光流法的目标跟踪算法。首先利用光流法获取目标的运动状态，从而获得目标位置的初选框，然后将该初选框作为快速多域卷积神经网络的输入,通过学习得到目标的确切位置和边界框。

2 目标跟踪算法

2.1 Faster MDNet原理及改进

Faster MDNet基于MDNet网络结构框架引进了RPN和ROIAlign层，目的是加快候选区域建议框特征的提取，并且降低特征空间信息量化损失。使用Faster MDNet算法对目标检测，首先取最后一层输出的特征图在ImageNet上进行训练，然后用RPN获取目标位置并用回归方法校正，通过Softmax图层确定该目标是前景目标还是背景。

通过RPN上的CNN网络输出从最后一层特征图上获取的锚点，分别取前景和背景12个大小不变的锚点进行1*1卷积，然后用Softmax归类，Faster MDNet的输入为卷积获取的24维向量，再将分类后舍去背景的锚点所对应的边界框进行微调和归类。本文只需将目标前景和背景作区分，因此对RPN进行改进，移除分类Softmax层，如图1所示，删除虚线框中的部分。

将初步获得的初选框作为Faster MDNet的输入，特征为通过卷积神经网络输出的最后一层特征图，然后用RPN确定跟踪目标的位置。

2.2 光流法

(1)

新的初选框的中心点D(xD,yD)T及初选框的大小S(w,h)T可以根据式(2)得出：

(2)

其中,w和h分别为新的初选框的宽和高；θ为用于确定光流矢量的加权值，本文通过实验得出θ取0.5比较合适。

最后，Faster MDNet的输入为D(xD,yD)T和S(w,h)T在第T帧图像上截取的初选框，并以检测的目标精确位置，作为确定下一帧初选框位置和大小的基础。

Figure 2 Flow chart of tracking algorithm图2 跟踪算法流程图

3 Faster MDNet训练学习及视频目标跟踪实现过程

3.1 离线训练及在线跟踪

本文通过ImageNet-Vid[21]获取参数对网络进行初始化，在线网络训练期间，RPN用于提取每个视频跟踪序列第1帧的ROI特征，因此，获得更高特征的语义表示需要2个输入过程。本文在大量的标准目标跟踪视频数据集上通过采用随机梯度下降SGD(Stochastic Gradient Desent)的方法对Faster MDNet网络完成端到端的离线训练。

3.2 跟踪实现过程

本文首先利用光流矢量确定目标的初选框，以此作为Faster MDNet的输入，特征为通过卷积神经网络输出的最后一层的特征图，然后用RPN确定跟踪目标的位置。本文实现的跟踪算法流程图如图2所示。

视频目标跟踪的具体实现步骤如下所示：

第1步光流法确定初选框。用第1帧获得目标边界框的中心G(xG,yG)，然后在第2帧上剪切出2倍长度和宽度的搜索块，从而获得初选框。在文献[15]中，随后的跟踪过程可以直接使用前一帧的跟踪结果的2倍来获得一个初选框，且跟踪的结果通过相邻帧间的相关性获取，前一帧的形变和位移较大时，可能会移出初选框，这时跟踪就会失败。在本文中，使用光流法得到目标的运动状况，将先前帧跟踪结果的边界框分别与目标位移系数α和目标位移方向系数β相乘，得到初选框，这样就不会出现由于严重变形和位移而导致的目标漂移。

第2步对目标精确位置的检测：从整幅图像上截取的大小为跟踪框的α倍的一小块作为卷积网络的输入，那么通过改进的RPN不需要提供许多推荐框，因此减少了一些计算量。基于前一帧运动状态的跟踪结果，通过计算光流矢量确定初选帧，Faster MDNet用作检测器以确定目标的确切位置。

第3步获得的特征提取器为ImageNet的预训练卷积神经网络，特征选择为网络输出的最后一层特征图，然后根据RPN确定推荐帧是前景目标还是背景，目标的确切位置为前景中得分最高的推荐帧，最终获取目标的准确位置。

4 实验结果

4.1 训练数据选择

本文用于训练的数据是ILSVRC[22]竞赛中的VID(视频对象检测)数据集和PASCAL VOC2012[23]数据集，ILSVRC竞赛VID数据集中的训练数据包括3 386个视频，分为30个类别共1 122 397幅图像；PASCAL VOC2012共20种数据集和11 000幅图像。

4.2 数据预处理

PASCAL VOC原始数据格式类似于ILSVRC VID，于是预处理的格式数据仍为PASCAL VOC数据集的格式。

在检测目标精确位置时，可能会出现Faster MDNet的输入质量很差的情形，因为在跟踪过程中，目标可能只占初选框的一部分，或者目标只会出现在图像的边缘部分，因此需要对训练数据进行预处理。数据预处理时训练数据以图像中标记的真实框为中心，并以2倍大小的标记框执行“随机”截取。截取的部分必须包含目标，所以“随机”截取的过程需要在真实标记框的前提下进行，截取尺寸大小也需固定，为了与实际应用相符，在模拟过程中需要将输入样本多样化，将随机截取目标区域中的左上方、右上方、左下方、右下方和中间，并且每个样本都是从5个截取模式中随机选择的，如图3所示。

Figure 3 Random data interception 图3 数据随机截取

4.3 实验跟踪结果分析

为了验证本文算法的性能，进行了相关实验，具体实验方案如下所示：

(1)实验环境:计算机硬件配置，2台PC机，其CPU： Intel® Pentium® CPU G3220@3.00 GHz 3.00 GHz，内存：RAM 4 GB；软件配置，操作系统为Windows 7旗舰版，编程与计算工具为Matlab 2018b，所有实验数据存储在本地硬盘上。

(2)实验数据：将VOT2014数据集用作测试数据。

(3)实验评价指标：①AO(Average Overlap)，即跟踪成功时跟踪框和ground truth框之间的平均重合率，用于衡量跟踪算法对跟踪变形的鲁棒性。②EFO(Equivalent Filter Operations)，即分析跟踪算法速度的重要指标；③精度A(Accuracy)，鲁棒性R(Robustness)，精度水平Ar(Accuracy Rank)，鲁棒性等级Rr(Robustness Rank)，AO的期望值EAO(Expected Average Overlap)。

为了可视化算法的性能改进，对比了C-COT[3]、TCNN[18]和Staple[4]算法。实验结果如表1所示。

Table 1 Comparing VOT tracking results of multiple tracking algorithms on the test dataset表1 比较多种跟踪算法在测试数据集VOT上的跟踪结果

从表1中看出，本文跟踪算法在AO和EFO指标上均有出色表现。不同算法的运行性能不同，因此在评估跟踪算法的速度时很难统一。基于此考虑，VOT比赛在计算EFO时进行了改进：先在大小为900×900 pixel的图像上进行窗口大小为60×60 pixel的滤波，所用时间与跟踪算法获取一帧图像的时间相除，对得出的结果进行归一化处理获得其性能[6]。从表1中可以看出，本文算法的EFO达到了94.256，相比其他算法高出很多。

表2为本文算法在不同测试样本上的跟踪长度，其中，L1为测试样本中的帧总数，L2为取得成功追踪的帧数(其阈值为0.5，表示跟踪成功)。

Table 2 Target tracking results of the algorithm on the VOT dataset 表2 VOT数据集上本文算法的目标跟踪结果

根据表2的结果，本文实现的算法先以一个共同的目标跟踪框架为基础，然后通过光流法计算出目标的运动状态，得到目标的初选框。可以看出，本文算法的目标跟踪结果明显较好，但是有许多Man样本由于具有光遮挡和相同类型的目标，且成功跟踪的时间很短，很容易引起漂移导致跟踪失败。

由图4可以得出，在VOT测试集上不仅可以完全标记出目标的边界，而且在目标的移动过程中，即使目标会出现大幅度的变化(第5行和第6行)，也能够将目标的边界完整地标记出来(灰色代表ground truth框，白色代表本文算法获得的结果)。

Figure 4 Tracking results of algorithms图4 不同算法的跟踪结果

5 结束语

从实验中可看出，本文提出的融合快速多域卷积神经网络与光流法的目标跟踪算法，与基于深度学习的跟踪算法相比，其跟踪速度明显提高；通过使用Faster MDNet算法来确定目标的确切位置，该算法的跟踪速度和性能表现良好；对于视频中迅速移动的目标，本文算法使用光流法先获得初选框，使得跟踪结果有较好的鲁棒性，与文献[13,16]中使用区域卷积神经网络模型以及直接使用先前跟踪结果2倍大小的候选区域作为输入相比，本文算法具有较大的性能优势。对于使用深度学习进行目标追踪不能同时兼顾准确度和速度的问题，通过本文算法得到了一定的缓解，后续将进一步提升光照遮挡和重叠鲁棒性，对算法性能进行进一步优化。