基于多尺度混合模型多特征融合的单目标跟踪

2016-12-16 07:36鲁琴肖晶晶罗武胜

光电工程 2016年7期

关键词：全局像素局部

鲁琴，肖晶晶，罗武胜

(国防科学技术大学机电工程与自动化学院，长沙410073)

基于多尺度混合模型多特征融合的单目标跟踪

鲁琴，肖晶晶，罗武胜

(国防科学技术大学机电工程与自动化学院，长沙410073)

为实现高动态环境中的目标跟踪，本文提出了一种基于多尺度混合模型多特征融合的单目标跟踪算法。该算法自适应提取并融合多种图像特征从而实现复杂环境中的目标实时跟踪。针对图像目标的高动态特性及环境遮挡等问题，算法通过计算当前观测样本的置信度完成模板的自适应更新。利用国际计算机视觉学会目标跟踪数据库中具有典型特征的十个标准视频对跟踪算法进行测试。测试结果表明，在高动态环境及目标存在大变形情况下，本文提出的跟踪算法比同类算法的跟踪精度有显著提高。

单目标跟踪；多尺度混合模型；多特征融合

0 引言

近年来，低成本、小尺寸的图像传感器孕育了分布式视频传感器网络的蓬勃发展，传统基于人工的目标跟踪和识别远远无法满足海量视频应用需求。在此背景下，研究基于视频图像处理的目标自动跟踪算法以及开发高效的目标自动跟踪识别系统[1]迫在眉睫。

目前基于视频图像处理的目标跟踪算法主要包含目标模板提取、时空移动模型和模板更新三个步骤[2]。在步骤一中，目前一般采用全局模板[3-4]和局部模板[5-6]□Čehovin[7]等提出的利用全局、局部模板交互制约完成的特征学习方法，近期Lu[8]等人也提出用O-A树完成不同模板下的特征提取。这些方法都是在随机局部区域内完成特征提取，并没有经过有效的图像分割，因此提取的特征常因大量前景和背景信息导致不稳定，进而使得跟踪失效。在步骤二中，算法将通过时空移动模型对目标位置完成预测，主要方法有均值平移[9](Mean Shift)，卡尔曼滤波[10](Kalman Filter)，粒子滤波[11](Particle Filter)三种。其

中，均值平移虽然简单但是容易陷入局部最优，卡尔曼滤波因其应用场景需要具有模型运动的先验知识，并且噪声符合高斯分布，而往往不适用于图像领域的目标跟踪。粒子滤波因不需要先验知识而被广泛应用在图像目标的时空预测中，但其匹配过程中容易被环境干扰产生奇异点，使得最后的估计量远离真值，导致跟踪失效。针对步骤三，目前通常采用预先设定的固定参数来控制模型更新[11]，但此类算法无法解决高动态变化环境中目标特征模型变化速度不一致问题。

围绕这三个步骤中存在的问题，许多算法相继被提出[12-15]。通过国际标准测试库测试[16]，综合性能较好的算法有Hare等人提出的Struck[3]算法、Mei等人基于粒子滤波的时空运动模型提出的L1[4]算法、Henriques等人提出基于循环结构特征(Circulant Structure Kernels，CSK)[14]算法以及Zhong等人提出的Sparsity-based Collaborative Model(SCM)[15]算法等。测试同时表明，这些算法仍然无法较好实现高动态环境中的大变形目标跟踪。为此，本文提出了一种基于多尺度混合模型多特征融合的单目标跟踪算法。利用超像素分割方法将目标区域分割成大小一致的超像素，完成目标的局部以及全局特征提取；然后利用采样后混合模板中的特征完成实时跟踪；最后通过计算当前观测样本的置信度完成模板的自适应更新。

1 混合模型提取

1.1 全局特征模型

首先，通过初始化的矩形框，利用傅里叶变换提取彩色空间内的循环结构特征[12]，完成对目标全局信息提取。

1.2 局部特征模型

全局模型中提取的是循环结构特征，当目标经历大变形时将无法准确描述目标。因此，需要将模板分裂成许多局部区域，通过在局部区域中提取颜色直方图来弥补全局特征的不足，完成对目标的精确描述。

为了得到稳定的局部区域，首先利用Simple Linear Iterative Clustering(SLIC)[13]算法对全局模板进行超像素分割，得到大小一致，紧凑的超像素，将每个超像素里的簇头作为局部区域的中心，每个局部区域中颜色直方图(式(3))形成一个特征库，表示为

2 多特征融合跟踪

完成基于混合模型的特征提取后，需要利用得到的特征库进行目标匹配跟踪。由于跟踪对象具有运动连续性，因此首先对目标先前估计状态的周边区域进行均匀采样，然后在每一个采样区域中提取全局结构特征，将其与模板中的全局特征进行比较，得到权重M(z)=F-1{AUZ}。则在全局模板中，通过寻找满足

的最优解作为当前目标的估计量。其中匹配过程必须满足一定的相似度限制λ1。式(4)条件限制满足，表示新观测到的目标与模板高度相似，反之，则表明目标已经产生了较大的形变，需要进一步的利用局部模板

中所提取的特征库进行目标匹配跟踪。

首先扩大目标区域完成超像素(SLIC[13])分割，并在新形成的局部区域中提取各自对应的颜色直方图(式 (3))得到一组新的特征的向量，表示为其中NC为待匹配特征库中局部区域的个数。然后利用巴氏距离B(,)计算目标每个局部区域的特征与新分割到的局部区域的特征的相似度：

其中：ζ为特征向量hi、hj中的颜色色段，Nb为色段个数。

根据两个特征的向量相似性比较，得到一个多个特征的相似度矩阵，表示为

其中：hi为目标i区域所对应的颜色直方图，为目标在潜在匹配区域j对应的颜色直方图。Ni为目标模型中的特征向量个数，Nj为当前帧下观测到的特征向量个数。

为完成局部模板中多特征的优化匹配，需要求解

整个特征库匹配的过程将重复式(7)与式(8)直到局部模型中的特征库全部匹配或者满足式(9)则停止匹配过程。

算法中，每个局部特征匹配都相当于一个弱分类器判断特征是否找到了合适的匹配。当优化匹配结束后，这些由不同特征向量组成的弱分类器将形成一个强分类器，即当一定数量(80%)的局部区域都找不到匹配时，认为目标处于全遮挡情况，其所有对应的特征将处于休眠状态。新的目标区域的大小由匹配后局部区域的分布决定。

3 模板更新

为解决高动态变化环境中目标特征模型变化速度不一致问题，提出一种基于置信度的目标模板自适应更新算法。置信度定义为

其中：hi为目标区域的模板特征为对应新匹配的区域特征。B(,)是巴氏距离，用来测量两个特征的相似度。由式(10)可知，匹配值越高，则代表新的估计量越相似，此时更新的速度相应变快；反之，匹配值越低，则表示估计量越不可靠，此时更新速度将变慢。

4 实验结果分析

实验选取的10个视频是国际标准视频库中通过视觉协会标定后，经过相应特性分析被标志为最容易跟踪失败的视频，其包含：目标大变形，背景干扰，光线变化，低分辨率，运动模糊及遮挡。对比的4个算法Struck[3]，L1[4]，CSK[14]，SCM[15]是在CVPR[16]数据库测试中表现最优良的跟踪算法(国际上共有29个算法经过统一测试库评价)。其中，SCM算法使用了在全局区域和局部区域的混合模型中提取的同质特征，被认为与本文算法思想最相近。本算法在8 GB内存、i5的处理器上运用Matlab及C混合编程达到平均每秒8帧的速度。其中关键的两个参数1λ(式(4))，2λ(式(7))分别取值为0.5，0.1。

4.1 定性分析

图1显示了测试视频图像及测试结果。其中，从左至右，从上到下分别为：Bolt、Basketball、Jogging、Singer、Fish、Diving、Gymnetics、Torus、Trellis和Woman。

其中，Bolt的目标非常小，极易因背景干扰导致跟踪失败。Basketball中，其他运动员频繁干扰目标，并且散光灯对目标成像造成影响。Jogging场景相对简单，但经过电线柱时，目标被完全遮挡，如果没有合理的遮挡判断方法，当目标重新出现时，算法将找不到目标。Singer中，目标有强光干扰，且尺度剧烈变化，如果不及时更新模板，会造成跟踪失败。Fish中，目标快速移动，并且形状也会迅速的发生变化，并且由于水中的视线较差，如果仅用结构特征将会很难得到准确的匹配结果。Diving和Gymnastic中，目标都具有激烈的形变，同时，Diving视频环境非常杂乱，Gymnastic视频环境因有与目标相似的颜色而对目标跟踪产生巨大的干扰。Torus目标中心镂空，因此含有大量的背景信息，该奇怪的形状使得大多数算法跟踪到的是背景而不是目标本身。Trellis经历了剧烈的颜色光影变化，如果仅使用颜色特征则无法成功的跟踪任务，其必须配合以结构特征。Woman中，其视场被车辆遮挡，并且由于摄像头聚焦的改变会产生短暂的运动模糊，而使得结构特征变得异常模糊。从测试结果可知：只有将结构、颜色特征相结合，并具有局部遮挡判断的算法才能成功完成目标跟踪。

图1 测试结果Fig.1Test results

4.2 定量分析

目前针对目标跟踪提出了很多的评价指标。文献[17]通过对现有指标进行相关性分析，指出最具有典型代表性的评价指标为：中心误差和跟踪精度。其中，中心误差指真实目标中心与跟踪后匹配目标中心的偏差，跟踪精度为真实目标区域与匹配区域的交集与其并集之比的百分比(也称为交叠区域百分比)。表1和表2分别给出了本文算法与Struck、L1、CSK和SCM算法在10个视频中进行目标跟踪的处理结果。

表1和表2的实验结果表明，本文提出的算法在Bolt、Basketball、Jogging、Fish、Diving、Gymnastic、Torus视频中进行目标跟踪，中心误差和跟踪精度指标均为最优。Singer，Trellis,Woman三个视频中排名第二。从这三个视频中可以看出，当目标的变形较小时，其它算法也能拥有优异的跟踪效果。但是当目标变形较大时，本文所提出的算法具有明显的优越性。

为了进一步分析文中所提出的多尺度混合模型中的超像素分割和基于置信度的自适应模板更新对最终结果的影响，采取单一变量法进行了对比实验。对比算法分别为：本文提出的完整的跟踪算法、去除超像素分割后的混合模型跟踪算法和去除自适应模板更新后的跟踪算法。采用文献[7]中所提出的“阈值-跟踪成功率“的平衡曲线显示结果(图2)。由图2可知，利用超像素分割形成局部区域特征是算法最终结果优秀的关键，自适应模板更新则很大程度上提升了算法的鲁棒性。

表1 中心误差比较Table 1Comparison of center error

表2 精度比较Table 2Comparison of accuracy

图2 实验结果(a)精度比较;(b)中心误差比较Fig.2Experimental results(a)Comparison of accuracy;(b)Comparison of center error

5 结论

本文提出了一种基于多尺度混合模型多特征融合的单目标跟踪算法。该算法利用超像素分割方法将目标区域分割成大小一致的超像素，完成目标的全局以及局部特征提取；在目标搜索过程中，根据采样后结果动态融合不同尺度下的特征完成实时跟踪；最后通过计算当前观测样本的置信度完成模板的自适应更新。利用国际计算机视觉学会目标跟踪数据库中具有典型特征的十个标准视频对跟踪算法进行测试。测试结果表明，在高动态环境及目标存在大变形情况下，本文提出的算法比同类算法的跟踪精度有显著提高。

[1]WANG Xiaogang.Intelligent multi-camera video surveillance：A review[J].Pattern Recognition Letters(S0167-8655)，2013，34：3-19.

[2]XIAO Jingjing，Oussalah M.Collaborative Tracking for Multiple Objects in the Presence of Inter-occlusions[J].IEEE Circuits and Systems for Video Technology(S1051-8215)，2015，26(2)：304-318.

[3]Hare S，Saffari A，Torr P H.Struck：Structured output tracking with kernels[C]//Proceeding of IEEE International Conference on Computer Vision，Barcelona，Spain，Nov 6-13，2011：263-270.

[4]MEI Xue，LING Haibin.Robust visual tracking using L1 minimization[C]//Proceeding of IEEE International Conference on Computer Vision，Miami，USA，Jun 20-26，2009：1436-1443.

[5]Kwon J，Lee K M.Highly nonrigid object tracking via patch-based dynamic appearance modeling[J].Pattern Analysis and Machine Intelligence(S0162-8828)，2013，35：2427-2441.

[6]Pernici F，Bimbo A D.Object trackingby oversampling local features[J].Pattern Analysis and Machine Intelligence(S0162-8828)，2014，36(12)：2538-2551.

[7]Čehovin L□Kristan M□Leonardis A.Robust Visual Tracking Using an Adaptive Coupled-Layer Visual Model[J].Pattern Analysis and Machine Intelligence(S0162-8828)，2013，35(4)：941-953.

[8]LU Yang，WU Tianfu，ZHU Songchun.Online object tracking，learning and parsing with and-or graphs[C]//IEEE Computer Vision and Pattern Recognition，Columbus，Ohio，Jun 23-27，2014：3462-3469.

[9]Bradski G R.Computer vision face tracking for use in a perceptual user interface[M].Berlin：IEEE，1998：1-15.

[10]Weng S K，Kuo C M，TU Shukang.Video object tracking using adaptive kalman filter[J].Journal of Visual Communication and Image Representation(S1047-3203)，2006，17(6)：1190-1208.

[11]Nummiaro K，Esther K M，Luc V G.An adaptive colour-based particle filter[J].Image and Vision Computing(S0262-8856)，2003，21(1)：99-110.

[12]Danelljan M，Khan F S，Felsberg M，et al.Adaptive color attributes for real-time visual tracking[C]//IEEE Computer Vision and Pattern Recognition，Columbus，Ohio，Jun 23-27，2014：1090-1097.

[13]Achanta R，Shaji A，Smith A，et al.SLIC superpixels compared to state-of-the-art superpixel methods[J].Pattern Analysis and Machine Intelligence(S0162-8828)，2012，34(11)：2274-2282.

[14]Henriques J F，Caseiro R，Martins P，et al.Exploiting the Circulant Structure of Tracking-by-detection with Kernels[C]// European Conference on ComputerVision，Florence，Italy，Aug 1-8，2012：702-715.

[15]ZHONG Wei，LU Huchuan，Yang M.Robust object tracking via sparsity-based collaborative model[C]//IEEE Computer Vision and Pattern Recognition，Rhode Island，Jun 16-21，2012：1838-1845.

[16]Computer Vision and Pattern Recognition benchmark dataset[EB/OL].https://sites.google.com/site/trackerbenchmark/ benchmarks/v10.

[17]Cehovin L，Kristan M，Leonardis A.Is my new tracker really better than yours?[C]//IEEE Winter Conference on Applications of Computer Vision，Steamboat Springs，USA，Mar 24-26，2014：540-547.

Single Target Tracking with Multi-feature Fusion in Multi-scale Models

LU Qin，XIAO Jingjing，LUO Wusheng
(College of Mechatronics Engineering and Automation, National University of Defense Technology,Changsha 410073,China)

To achieve robust target tracking in a highly dynamic scene,a single target tracking algorithm with multi-feature fusion in multi-scale models is proposed.The proposed models can adaptively fuse multiple features to achieve real time tracking in complex scenes.To tackle the problems of target significant deformation and occlusion,the proposed algorithm computes the confidence of the observation and uses it to update the reference models adaptively.The tracker is tested on ten representative sequences in a standard tracking benchmark.Compared with some other state-of-the-art algorithms,the results demonstrate that the tracking precision has been improved in the highly dynamic scenes with target significant deformation.

single target tracking;multi-scale models;multi-feature fusion

TP301.6

10.3969/j.issn.1003-501X.2016.07.003

1003-501X(2016)07-0016-06

2015-09-25；

2016-03-06

国家自然科学基金资助项目(61171136)

鲁琴(1980-)，女(汉族)，湖北武汉人。讲师，博士，主要研究工作是多媒体传感器网络信息处理。E-mail:freda0126@sina.com。