基于深度特征表达与学习的视觉跟踪算法研究

2015-10-14 10:37李寰宇毕笃彦查宇飞张立朝

电子与信息学报 2015年9期

李寰宇毕笃彦杨源查宇飞覃兵张立朝

李寰宇①②毕笃彦①杨源*②查宇飞①覃兵①张立朝①

①(空军工程大学航空航天工程学院西安 710038)②(空军工程大学空管领航学院西安 710051)

该文针对视觉跟踪中运动目标的鲁棒性跟踪问题，将深度学习引入视觉跟踪领域，提出一种基于多层卷积滤波特征的目标跟踪算法。该算法利用分层学习得到的主成分分析(PCA)特征向量，对原始图像进行多层卷积滤波，从而提取出图像更深层次的抽象表达，然后利用巴氏距离进行特征相似度匹配估计，进而结合粒子滤波算法实现目标跟踪。结果表明，这种多层卷积滤波提取到的特征能够更好地表达目标，所提跟踪算法对光照变化、遮挡、异面旋转、摄像机抖动都具有很好的不变性，对平面内旋转也具有一定的不变性，在具有此类特点的视频序列上表现出非常好的鲁棒性。

视觉跟踪；深度学习；主成分分析；卷积神经网络；粒子滤波

1 引言

视觉跟踪[1]是计算机视觉领域中非常重要的一个研究课题，视觉跟踪的任务是对视频序列中的目标状态进行持续推断，实现视频每一帧中的目标定位，并在任一时刻都能够提供完整的目标区域。视觉跟踪技术在无人机、精确制导、空中预警、战场监视等军事领域和机器人、智能监控、智能交通、人机交互等民用领域中有着十分广泛的应用，研究视觉跟踪技术具有十分重要的军事意义和现实意义。然而，尽管众多研究人员做了大量的工作，提出了许多跟踪算法用于解决视觉跟踪问题，但是由于光照变化、遮挡、目标形变、摄像机抖动等诸多因素的影响，实现鲁棒的视觉跟踪仍然是一件非常困难的事情。

基于目标特征跟踪是视觉跟踪中最为重要的一类方法，其过程通常包括目标位置初始化、目标特征表达、目标运动估计、候选样本特征提取与特征匹配、目标定位等几个过程。以往使用的特征大多是基于人为手工设计的特征，如Gabor filter, SIFT, HOG等，手工设计特征需要设计者具备专业应用领域知识，因此在面对新数据新任务时手工设计特征困难较大。随着神经网络的重新崛起[2]，利用神经网络从数据中学习特征成为突破手工设计特征局限性的可行途径，近年来深度学习受到了前所未有的关注，诸如深度神经网络、卷积神经网络(Convolutional Neural Network, CNN)等深度学习方法[3,4]能够挖掘出数据的多层表征，而高层级的表征被认为更能够反映数据更深层的本质，这是以往手工选取特征和浅层学习特征所不能实现的，已有研究成果表明，在图像识别等很多应用领域，相比传统特征，利用高层次特征能够获得非常明显的性能提升。因此，本文在深入研究视觉跟踪问题的基础上，将深度学习技术引用到基于目标特征的视觉跟踪方法中，实现了基于深度特征的鲁棒视觉跟踪算法。该算法利用主成分分析(PCA)与受限隐层节点自编码神经网络的相似性，将取片图像数据集的PCA特征向量作为卷积滤波器，代替传统神经网络中利用BP算法学习得到的滤波器，从而实现一个易于求解计算的卷积神经网络，进而实现对原始图像的高层次特征表征，然后利用特征匹配和粒子滤波进一步实现目标跟踪。通过与其它传统浅层跟踪算法对比分析，结果表明利用这种深度学习特征进行跟踪，可以在多类视频序列上取得非常令人满意的结果。

2 基于深度学习的特征学习方法

2.1 卷积特征提取

卷积特征提取是处理大型图像的一种有效方法，该方法基于自然图像中任一部分的统计特性与其他部分是相同的这一固有特性，通过CNN进行特征学习，由于CNN具有权值共享网络结构特点，因此相比于将整幅图像作为训练数据，卷积特征提取能够大幅降低神经网络的规模，并同时获得一定的平移、尺度和旋转不变性。

卷积特征提取的基本过程是首先对原始图像进行取片操作获取多个较小的局部图像，然后利用这些局部图像作为训练数据构成训练集，将训练集数据进行白化等预处理操作后送入神经网络，利用反向传播误差算法等进行网络参数训练，最后将学习得到的网络作为滤波器对整幅原始图像进行卷积滤波，得到对应的卷积特征。

2.2基于多层PCA卷积滤波的特征提取

主成分分析(PCA)与隐层神经元数量受限时的自编码神经网络学习结果之间具有高度的相似性[9,10]，根据这一特点，可以用PCA求得的原始数据的特征向量来近似代替自编码神经网络的编码层，从而得到一个单层前馈神经网络。进而通过分层多次利用这一特性，就可以结合卷积滤波实现一个简单易求解的卷积神经网络。

图1 取片操作示意图

2.2.2下一次卷积滤波对上一次PCA滤波后的全部图像再依次执行取片操作，然后列化合并为新的样本集合，则对应原始输入图像序列，有

图2 两层PCA卷积滤波

3 基于深度学习特征的粒子滤波跟踪

3.1跟踪算法

前文利用分层学习得到的PCA特征向量进行多层卷积滤波，提取到了图像的深度学习特征，基于这种深度学习特征的粒子滤波跟踪算法的跟踪流程如图3所示。图中各步骤的具体内容如下：

图3 本文跟踪算法流程

初始化：利用初始阶段比较稳定的像素匹配方式获取若干帧数的目标图像序列作为原始输入正样本集；

匹配基准特征生成：利用训练得到的卷积特征提取网络提取正样本集对应的抽象特征，并用生成用于匹配的基准特征；

运动估计：根据已经获取的一系列图像系列，估计目标在下一帧中的位置，生成候选样本集；

候选样本特征提取：用PCA卷积网络提取候选样本的抽象特征；

特征匹配：建立一个合理的评估准则，用来评估待匹配特征与基准特征之间的相似度；

目标定位：将特征匹配结果最好的候选样本作为当前帧中目标的真实位置，并将其对应图像放入正样本集；

更新：为保证用作匹配基准的特征始终能够正确地表征跟踪目标的最新状态，并使PCA卷积特征提取网络能够拟合更多的正样本，利用新的正样本集对PCA网络参数和匹配基准特征进行更新。

3.2 基于巴士距离的特征相似度判定

特征匹配的目的是通过构建合理的判定标准来评估候选样本与正样本之间的特征相似度，进而找到与正样本特征最接近的候选样本，作为新增正样本。基于多层PCA卷积滤波的深度特征学习，最后输出时采用了直方图池化，因此从原始图像中学习得到的抽象特征，表现为多组直方图构成的列向量。对于直方图相似度匹配[11]问题，其方法可分为相关度、卡方系数、相交系数和巴氏距离法等4种，鉴于巴氏距离方法具有更好的精确度，因此本文的跟踪算法中采用了该种方法作为特征相似度判定标准。基于巴氏距离的相似度计算如式(10)所示。

3.3基于粒子滤波的目标运动估计

视觉跟踪中目标的运动估计[12]属于时变系统状态估计问题，目的是通过系统状态的一系列观测值来估计运动目标当前的位置、姿态、尺度等状态。递推贝叶斯估计理论为解决这种状态估计问题提供了统一的理论框架，表示为

粒子滤波算法基于蒙特卡罗模拟实现递推贝叶斯估计，对非线性、非高斯系统的状态估计问题具有更好的适应性，因此成为解决视觉跟踪中运动估计问题的有效方法。粒子滤波的核心思想是用一组对在状态空间中随机采样粒子加权求和，来代替积分运算近似表示目标状态的后验概率分布，即

粒子滤波算法的核心过程具体如下：

(1)重要性采样：面对新一轮系统状态，根据上轮粒子滤波的结果(,)按建议分布(如高斯分布)进行采样，得候选样本集：

3.4更新

更新是本文提出的跟踪算法中非常重要的一步，好的更新能够明显改善跟踪效果，使跟踪更为鲁棒。更新包含两个内容，网络更新，和基准特征更新，网络更新能够更好地拟合新增正样本图像，减小目标变化对跟踪的影响，但网络更新存在着一个效果与效率之间平衡的问题；特征更新能够避免“使用面部特征跟踪背部图像”这类情况的出现，使特征匹配更为准确有效。本文算法中，在特征更新时采用了遗忘因子，其计算式为

3.5算法计算量分析

本文所提跟踪算法的主要计算量来自于求解层滤波器时的PCA计算，以及后面图像卷积滤波处理的计算，影响计算量的主要因素包括图像尺寸、取片尺寸、卷积滤波层数、每层滤波器个数、粒子滤波粒子数。

4 仿真实验

按照本文算法中给出的特征提取、特征匹配和运动估计方法，利用Matlab对Database OTB2013中的视频序列进行仿真分析。

4.1参数设置

仿真参数如表1所示。

表1仿真参数

相关研究结果表明[10]，利用多层PCA卷积滤波在进行图像分类时，2层PCA卷积滤波就可以获得非常好的识别率，增加滤波器层数会带来一些性能提升，但是效果并不明显，而对于本文提出的跟踪算法而言，由于增加层数会快速增大计算量，因此综合考虑性能效果和时间效率，仿真中滤波器层数设置为2。

4.2 仿真结果

仿真结果按性质分成定性分析和定量分析两类，定性分析给出图像结果，定量分析给出统计结果。鉴于篇幅限制，这里仅给出部分视频序列的仿真结果，如图4，图5所示。图4中，亮蓝色细实线为ground truth，红色实线为本文算法，黄色虚线为CT算法[13]，绿色虚线为DFT算法[14]，蓝色虚线为LOT算法[15]。定量分析中，将本文提出的基于多层特征学习的跟踪算法与其它传统基于浅层特征的CT, DFT, LOT, CSK[16], Struck[17], CXT[18], LSK[19], VTS[20], Frag[21], KMS[22]等算法在精确度、覆盖率、中心位置误差等方面进行了比较，为便于阅读，仅列出了其中几种典型方法的具体对比情况，如图5所示。

图4 部分视频仿真结果

图5 与其它算法的性能比较

根据仿真结果可以看出，本文提出的基于多层特征学习的跟踪算法在这些视频序列上的性能，达到甚至超过了传统算法的最好水平，而且整个视频序列中呈现出的跟踪效果更为稳定，表现出了更好的鲁棒性。

5 结束语

利用分层学习PCA特征向量，多层卷积滤波提取获得的图像特征是一种高层次的全局抽象特征，实验结果表明基于这种深度学习特征的粒子滤波跟踪算法在面对光照变化、遮挡、异面旋转、摄像机抖动时都具有非常好的不变性，在面对平面内旋转时也具有一定的不变性，在整体效果上具有很好的鲁棒性。

但该方法在取得优异性能的同时也存在着一定的问题和不足，主要体现在两个方面：一是分层学习进行多层卷积滤波的方式虽然能够显著提高鲁棒性，但也明显增加了运算量，降低了实时性；二是目前采用的这种对取片图像进行PCA特征向量学习的方式，在应对目标尺度变化时显得有些乏力。这些问题都有待通过进一步的研究来解决和完善。

参考文献

[1] Li X, Hu W M, and Shen C H. A survey of appearance models in visual object tracking[J]., 2013, 4(4): 5801-5848.

[2] Hinton G E and Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]., 2006, 313(5786): 504-507.

[3] Clement F, Camille C, Laurent N,Learning hierarchical features for scene labeling[J]., 2013, 35(8): 1915-1929.

[4] Alex K, Sutskever I, and Hinton G E. ImageNet classification with deep convolutional neural networks[C]. Proceedings of Advances in Neural Information Processing Systems, Lake Tahoe, 2012: 748-764.

[5] Zhou S S, Chen Q C, and Wang X L. Convolutional deep networks for visual data classification[J]., 2013, 38(11): 17-27.

[6] Abdel-Hamid O, Mohamed A R, Jiang H,.. Convolutional neural networks for speech recognition[J].,,, 2014, 22(10): 1533-1545.

[7] Chen X Y, Xiang S M, and Li C L. Vehicle detection in satellite images by hybrid deep convolutional neural networks [J]., 2014, 11(10): 1797-1801.

[8] Evgeny A S, Denis M T, and Serge N A. Comparison of regularization methods for imagenet classification with deep convolutional neural networks[J]., 2014, 6(8): 89-94.

[9] Baldi P and Hornik K. Neural networks and principal component analysis: learning from examples without local minima[J]., 1989, 2(1): 53-58.

[10] Chan Tsung-han, Jia Kui, Gao Sheng-hua,.. PCANet: a simple deep learning baseline for image classification[OL]. http://arxiv.org/abs/1404.3606, 2014.

[11] Ross D, Lim Jong-woo, and Lin Ruei-Sung. Incremental learning for robust visual tracking[J]., 2008, 77(1): 125-141.

[12] 姚志均. 一种新的空间直方图相似性度量方法及其在目标跟踪中的应用[J]. 电子与信息学报, 2013, 35(7): 1644-1649.

Yao Z J. A new spatiogram similarity measure method and its application to object tracking[J].&, 2013, 35(7): 1644-1649.

[13] Zhang K H, Zhang L, and Yang M H. Real-time compressive tracking[C]. Proceedings of Europe Conference on Computer Vision, Florence, 2012: 864-877.

[14] Sevilla-Lara L and Learned-Miller E. Distribution fields for tracking[C]. IEEE Conference on Computer Vision and Pattern Recognition, Colorado, 2011: 1910-1917.

[15] Shaul O, Aharon B H, and Dan L. Locally orderless tracking[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Rhode Island, 2012: 1940-1947.

[16] Henriques J F, Caseiro R, and Martins P. High-speed tracking with kernelized correlation filters[J].

, 2015, DOI:10.1109/TPAMI.2014.2345390.

[17] Hare S, Saffari A, and Torr P H S. Struck：structured output tracking with kernels[C]. Proceedings of IEEE International Conference on Computer Vision, Colorado, 2011: 263-270.

[18] Thang Ba Dinh, Nam Vo, and Medioni G. Context tracker: exploring supporters and distracters in unconstrained environments[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Colorado, 2011: 1177-1184.

[19] Liu Bai-yang, Huang Jun-zhou, and Yang Lin. Robust tracking using local sparse appearance model and K-selection [C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Colorado, 2011: 1313-1320.

[20] Junseok K and Kyoung M. Tracking by sampling trackers[C]. Proceedings of IEEE International Conference on Computer Vision, Colorado, 2011: 1195-1202.

[21] Amit Adam, Ehud Rivlin, and Ilan Shimshoni. Robust fragments-based tracking using the integral histogram[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Colorado, 2006: 798-805.

[22] Dorin Comaniciu, Visvanathan Ramesh, and Meer P. Kernel-based object tracking[J]., 2003, 25(5): 564-577.

Research on Visual Tracking Algorithm Based on Deep Feature Expression and Learning

Li Huan-yu①②Bi Du-yan①Yang Yuan②Zha Yu-fei①Qin Bing①Zhang Li-chao①

①(,,’710038,)②(,,’710051,)

For the robustness of visual object tracking, a new tracking algorithm based on multi-stage convolution filtering feature is proposed by introducing deep learning into visual tracking. The algorithm uses the Principal Component Analysis (PCA) eigenvectors obtained by stratified learning, to extract the deeper abstract expression of the original image by multi-stage convolutional filtering. Then the Bhattacharyya distance is used to evaluate the similarity among features. Finally, particle filter algorithm is combined to realize target tracking. The result shows that the feature obtained by multi-stage convolution filtering can express target better, the proposed algorithm has a better inflexibility to illumination, covering, rotation, and camera shake, and it exhibits very good robustness in video sequence with such characteristics.

Visual tracking; Deep learning; Principal Component Analysis (PCA); Convolutional neural network; Particle filter

TP391; TP183

1009-5896(2015)09-2033-07

10.11999/JEIT150031

杨源 kgd_bsh@163.com

2015-01-06收到，2015-04-28改回，2015-06-29网络优先出版

国家自然科学基金(61202339, 61472443)和航空科学基金(20131996013)资助课题

李寰宇：男，1984年生，讲师，博士后，研究方向为计算机视觉、机器学习、模式识别

毕笃彦：男，1962年生，教授，研究方向为图像处理与分析、模式识别.

杨源：男，1982年生，副教授，硕士生导师，研究方向图像处理、计算机视觉.

查宇飞：男，1979年生，副教授，研究方向为计算机视觉、机器学习、模式识别.