改进TLD算法在光电跟踪中的应用

2015-04-02 02:29王建刚李醒飞谭文斌

红外技术 2015年10期

王建刚，李醒飞，陈诚，谭文斌

改进TLD算法在光电跟踪中的应用

王建刚1，李醒飞1，陈诚2，谭文斌2

（1. 天津大学精密测试技术与仪器国家重点实验室，天津 300072；2. 天津商业大学机械工程学院，天津 300134）

为满足光电跟踪系统图像跟踪抗遮挡、实时性的要求，提出了一种改进检测器和目标模型更新策略的TLD算法。首先，通过帧差法获得差分图像序列，其次，利用动态Otsu阈值对差分图像进行二值化处理，滤除背景差分像素，获取移动物体边界框，最后，产生局部滑动窗口，进行随机厥分类和最近邻分类；并且优化了目标模型更新策略。实验表明，对于分辨率为320×240的视频，改进算法较原算法跟踪速度提升比平均为1.50，满足系统的实时性要求；改进算法抗遮挡性能及在低对比度环境中的跟踪性能优于Mean-Shift算法，满足系统的抗遮挡要求。

TLD算法；光电跟踪；帧差图像；检测器；Otsu方法

0 引言

光电跟踪系统是光、机、电、控一体化的集成装置，应用于导弹制导、武器火控、实时监控等领域[1]。作为实时监控领域的代表，光电跟踪系统能够对移动目标进行图像跟踪和高清视频录制，以达到目标追踪和视频取证的目的。光电跟踪系统跟踪目标的移动速度快，且会存在遮挡的情况，因此，其图像跟踪算法需满足抗遮挡性和实时性要求。一般应用于光电跟踪系统的图像跟踪算法，如波门形心跟踪算法[2]、相关跟踪算法[3]、和Mean-Shift算法[4]等，能够满足实时性要求，在无遮挡或部分遮挡环境中能够取得较为理想的跟踪效果，然而这些算法存在抗遮挡性差的问题，当完全遮挡发生时，跟踪目标容易丢失。

针对视觉跟踪中的遮挡问题，Zdenek Kalal等人提出了TLD跟踪算法[5-8]，随后吸引了许多国内外学者的研究和改进。齐楠楠等[9]利用TLD算法进行复杂背景下舰船目标的跟踪，识别率高，误检率低；Hu JiLin等[10]将TLD算法结合双摄像头进行目标的远程跟踪和定位；Georg Nebehay等[11]提出了适用于多目标跟踪的TLD算法。与传统跟踪算法相比，TLD算法融合了跟踪器和检测器来解决在跟踪过程中目标的变形和遮挡问题，并通过学习模块不断修正目标模型和跟踪参数，能够实现对运动目标跟踪、重现目标快速检测的功能。然而，TLD算法在具有良好的抗遮挡优势的同时也存在着计算量大、实时性差的问题，不能够满足光电跟踪系统的实时性要求。

为此，具体分析了TLD算法各模块运算复杂度，并结合光电跟踪系统跟踪对象为领空飞机或者领海船舰时，背景相对简单的特点，提出了适用于海空环境的改进TLD算法。海空等简单环境下，背景过渡小，移动目标的差分图像灰度直方图成双峰分布。改进TLD算法根据差分图像灰度直方图的双峰分布特点，引入Otsu方法[12]，采用动态阈值二值化处理方法，滤除背景差分像素，实现对待选移动目标区域的快速检测，然后对待选目标区域进行随机厥和最近邻分类，并对目标模型的更新策略进行了改进。

1 TLD算法原理及实时性分析

1.1 TLD算法原理

TLD（Tracking-Learning-Detection）跟踪算法将光流跟踪、级联检测和时空约束的PN学习相结合，形成了适合单目、长期的跟踪算法。算法分为3个模块：跟踪器、检测器和学习模块。各模块描述如下：

1）跟踪器跟踪器采用中值光流法[13]对连续、小幅度运动的可见目标进行跟踪，并且结合相似性判断和前向-后向误差[7]来估计运动目标的位置，以此来解决局部遮挡问题，并且能够确定跟踪器是否跟踪失败。

2）检测器检测器能够对跟踪器无法跟踪的不连续、大尺度运动目标或者因完全遮挡而重现的目标进行重新检测，并且再次初始化跟踪器。检测器是一个级联分类器，由方差比较器、随机厥分类器和最近邻分类器组成，具体框架如图1所示。

图1 检测器框架图

Fig.1 Block diagram of the detector

TLD算法初始化时扫描整幅图像产生个滑动窗口，检测器提取滑动窗口对应的图像块P（＝1, 2, …,）（0表示目标图像块），然后利用级联分类器对图像块进行分类。滑动窗口产生策略如下：设输入图像的分辨率为×，初始化目标大小为0×0，缩放因子∈Scl＝1.2，其中∈{－10, －9, …, 9, 10}，最小目标尺度Minb＝min{0,0}，则以不同扫描图像21次产生滑动窗口数量b为：

①方差过滤器：图像块P的方差为：

式中：x为第个像素点灰度值；为图像块中像素数；为P区域均值，TLD算法认为若2(P)大于0.52(P)，则图像块P通过方差过滤器。

②随机厥分类器：随机厥分类器随机选取f个点对（2个点有一个坐标相同）的像素灰度值进行比较，比较结果产生0或1的二进制数，作为随机厥的叶子值。接着将f个点对随机分为f个厥，则每个厥有s＝f/f个叶子。那么图像块P所属类别C（为1表示目标类，为0表示非目标类）为：

式中：F=[(m,1),(m,2), …,(m,s)]表示第个厥的取值，是第个点对的比较值，(,)是范围1～的随机函数。

③最近邻分类器：最近邻分类器过滤掉图像块P同目标模型之间相似度低的图像块。TLD定义目标模型如下：

式中：q＋表示正模板；q－表示负模板。下标越小，表示越早添加到模型中的模板。定义任一图像块P与目标模型之间的相似度[8]为：

(P,)＝0.5(NCC(P,)＋1) (5)

定义相对相似度：

若S(P,)大于，则图像块P将被分类为目标。

3）学习模块学习模块建立和更新检测器，并对跟踪器和检测器的结果进行错误评估，训练目标模型。

1.2 实时性分析

文献[14]通过3组实验分析了TLD算法各个模块的耗时比例关系，其中检测器耗时占总耗时的比例分别为61.73%、72.42%和83.58%，检测器占用了TLD算法的大部分时间资源。

为了进一步分析TLD检测器各级分类器的实时性，现对分类器算法时间复杂度进行分析。设图像块P（＝1, 2, …,）经过方差过滤器筛选之后剩余数量为1，经过随机厥分类器筛选之后剩余图像块数量为2，模型中当前模板数量为t，模板像素数为m，则各级分类器算法时间复杂度如表1所示。

表1 TLD检测器各级分类器算法复杂度

根据表1，方差过滤器的时间复杂度为O(b)，方差过滤器实时性受滑动窗口数量b的影响。TLD算法初始化时扫描整幅图像，产生大量滑动窗口，b值维持在十万至百万级别，严重影响分类器效率。假设输入图像分辨率为320×240，目标矩形框为32×28，则产生的滑动窗口数量为968983，对应待检测图像块数过于庞大。随机厥分类器实时性受1和随机厥总叶子数f的影响。为了达到较好的分类效果，f值一般固定，且不会太小[11]，因此，随机厥分类器算法时间复杂度受方差过滤器效率影响较大。据表1知，最近邻分类器实时性受m、2和t的影响。模板像素数m相对固定，因此最近邻分类器复杂度主要取决于2和t。通过随机厥分类器的图像块数量2受前两级分类器效率的影响，提升前两级分类效率，可以进一步增加第三级分类器的实时性。根据式(4)，随着跟踪帧数的增加，学习模块不断更新目标模型，导致的数量t随之增加。因此，抑制或减缓t随跟踪帧数的增长速度，可以增加第三级最近邻分类器的实时性。

2 改进TLD算法

2.1 TLD检测器改进

TLD检测器改进部分由3个主要步骤完成：帧间图像差分检测、基于Otsu的动态阈值二值化处理和产生局部滑动窗口。改进后TLD检测器具体结构如图2所示，其中随机厥分类器和最近邻分类器是保留了原TLD算法的分类器。

2.1.1 帧间差分法

定义(,,)和(,,－1)分别为视频图像序列的第帧和－1帧灰度图像，()为2帧图像之间的差分，则：

()＝|(,,)－(,,－1)|(7)

(,,)和(,,－1)图像如图3所示。

图2 改进TLD检测器框图

2.1.2 动态阈值二值化算法

设()分辨率大小为×，()图像灰度函数为：(,)∈{0, 1, …, 255}，则其灰度直方图()为：

作D(t)灰度直方图如图4所示。

根据图4，()灰度直方图有两个峰值（图中椭圆圈所指示），分别对应背景差异和移动物体运动导致的差分像素点。海空环境下，背景过渡小，差分图像灰度值较小，对应像素大部分集中在第一峰处，移动目标差分图像灰度值则较大，对应像素点大部分集中在第二峰处。若以灰度直方图双峰之间谷值所对应的灰度值对()进行二值化处理，则能够滤除背景差分像素，保留移动目标。在图像二值化时，Otsu方法是搜索动态阈值的最佳方法之一[12]，能够快速求取()灰度直方图的谷值，具体算法如下：

以灰度值为阈值对()进行二值化，设输出图像函数为(,)，则：

式中：(,)取1表示目标部分，0表示背景部分。设()＝()/(×)表示灰度值为的概率，定义如下：

目标像素点数量：T()＝T()。

背景像素点数量：B()＝B()。

总均值：＝T()T()＋B()B()。

则由Otsu方法[12]知，差分图像()最佳二值化阈值满足下式：

使用固定阈值对差分图像D(t)进行二值化时，通常容易产生以下2种不理想情况：1）阈值过低造成的背景凸显（图5(a)），2）阈值过高造成的目标丢失（图5(b)），Otsu方法求得的动态自适应阈值能够避免上述情况的发生，效果如图5(c)所示。

()经自适应阈值二值化后，扫描二值化图像，得到待选移动区域0＝{0,1, …,b}，0如图6中矩形框所示。

图6 待选移动目标区域

2.1.3 产生局部滑动窗口

获得待选移动区域0之后，产生包含0的滑动窗口，后级随机厥分类器和最近邻分类器对其相应的图像块进行分类。对待选移动区域b，设其尺寸为W×H，左上点和右下点坐标分别为(x0,y0)和(x1,y1)，改进TLD算法定义在4倍于b面积的矩形框内产生局部滑动窗口。具体滑动窗口产生坐标范围如下：

横坐标范围：∈[x0－0.5W,x1＋0.5W]，

纵坐标范围：∈[y0－0.5H,y1＋0.5H]。

初始矩形框0大小和放大因子Scl等参数同原算法，则以不同扫描图像21次产生滑动窗口数量为：

引入TLD检测器改进部分的时间复杂度为O(Nb¢)，与原算法产生的滑动窗口数Nb相比，Nb¢远小于Nb。对于分辨率为320×240的图像，目标矩形大小为32×28时，Nb¢和Nb数量对比效果如图7所示（实线为滑动窗块，虚线为B0，Nb＝968983，Nb¢＝516）。

2.2 目标模型更新策略改进

检测器中最近邻分类器实时性受m、2和t的影响。其中模板数量t随跟踪时间的增加成线性增长关系[15]，致使最近邻分类器占用内存增加，程序空间复杂度和时间复杂度随之增加。随着跟踪时间的增加，跟踪环境发生变化，目标模型中最初加入的模板代表性已逐渐减弱。因此，在保持目标模型数量t稳定在一定阈值的情况下，对进行合理的置换，既能保持良好的抗遮挡性又能提升实时性。在考虑加入的先后次序之后，其代表性强弱判断标准如下：正模板与当前目标的相似性(0,q＋)越大，代表性越强；负模板与目标的相似性(0,q＋)越小，代表性越强。具体替换策略如下：

1）正样本：从{1＋,2＋, …,q/2＋}中选择(0,q＋)最大的样本删除，新样本加入剩余正样本末尾。

2）负样本：从{1－,2－, …,q/2－}中选择(0,q＋)最小的样本删除，新样本加入剩余负样本末尾。

3 实验与分析

光电跟踪系统由控制柜和二维转台2部分组成，二维转台上安装有：KOWA长焦镜头，焦距范围30mm至750mm，海康威视1/1.8²CMOS日夜型网络摄像机，200万像素，机柜配备研华PC/104主板PCM3362，研华数字IO卡和串口卡，4G内存，Matrox MOR＋图像采集卡。该光电跟踪系统程序执行最长周期为57.7ms，允许图像跟踪最大耗时不能超过37.0ms，系统组成如图8所示。

图8 光电跟踪系统

3.1 实时性数值对比

为了对比改进前后TLD算法实时性，对分辨率为320×240的民航飞机航行视频Data1、Data2、Data3及Data4进行算法改进前后离线跟踪实验。分别跟踪Data1、Data2及Data3 1000帧，统计平均每帧耗时，结果如表2所示。跟踪视频序列Data4 924帧，统计算法改进前后300帧、600帧及900帧平均每帧耗时如表3所示。

表2 改进前后TLD算法平均每帧耗时对比

根据表2，相比原算法，改进TLD算法对Data1、Data2和Data3的跟踪速度都有提升。与原TLD算法相比，改进TLD算法对3组视频的跟踪速度提升比分别为1.23，1.70和1.58，平均速度提升比为1.50。原算法对3组数据的跟踪耗时均大于37ms，改进TLD算法对3组数据平均每帧跟踪耗时均小于37ms，满足光电跟踪系统的实时性要求。

表3 改进前后TLD算法帧均耗时随帧数的变化

根据表3，原TLD算法平均每帧耗时随跟踪帧数增加而增加，而改进TLD算法平均每帧耗时基本稳定，不受跟踪帧数的影响。可以发现，优化了目标模型更新策略的TLD算法更有利于对目标进行长期实时跟踪。

3.2 改进TLD算法与Mean-Shift算法跟踪效果对比实验

选取视频Data2和Data3，分别采用文献[4]中的改进Mean-shift算法和改进TLD算法进行离线对比实验。

1）序列1：第171帧到第181帧之间，镜头聚焦模块进行自动聚焦，寻找清晰度评价函数最优值过程中，产生模糊图像[16]，其干扰程度相当于目标全遮挡。图9为Mean-Shift算法的跟踪效果（矩形框为当前跟踪框），第172帧（图9(c)）初步发生模糊时，Mean-Shift算法能够暂时跟踪，随着目标的移动和模糊帧数的增加，Mean-Shift算法逐渐发生漂移（图9(d)～图9(e)）。由于Mean-Shift算法是利用在原位叠加均值偏移向量的原理进行跟踪，当聚焦模块重新聚焦清晰时，Mean-Shift跟踪框远离原来的迭代区域（图9(f)～图9(h)））。图10所示为改进TLD算法的跟踪效果（虚线矩形框为跟踪框，实线矩形框为检测器检测结果），当聚焦模糊发生时，TLD未检测到有效目标，（图10(c)～图10(e)），直至目标重新出现时，检测器进行检测，重新初始化跟踪器（图10(f)～图10(h)），保证了再现目标的继续跟踪。

图9 Mean-Shift算法在聚焦模糊过程中跟踪效果

图10 改进TLD算法在聚焦模糊过程中的跟踪效果

图11 Mean-Shift算法在低对比度环境中跟踪效果

图12 改进TLD算法在低对比度环境中跟踪效果

2）序列2：第105帧至第132帧之间有鸟飞过，且目标和背景灰度值对比度不大。图11为Mean-Shift算法的跟踪效果（矩形框为跟踪框），由于目标和背景灰度值差异小，目标和背景的反向投影图很相近，Mean-Shift跟踪框在目标周围振荡（图11(c)～图11(e)），随着跟踪帧数的增加，跟踪误差增加，跟踪框逐渐远离目标（图11(f)～图11(h)））。图12为改进TLD跟踪效果（虚线矩形框为当前跟踪框，实线矩形框为检测器检测结果框），可以发现整个跟踪过程中改进TLD算法跟踪和检测都比较稳定（图12(a)～图12(h)），改进TLD在低对比度环境中跟踪检测性能优于Mean-Shift算法。

4 结语

为满足光电跟踪系统图像跟踪的抗遮挡、实时性要求，本文提出了一种改进检测器和目标模型更新策略的TLD跟踪算法。改进TLD检测器融合了帧差法和Otsu法，能够快速检测待选移动目标区域，产生局部滑动窗口，进行随机厥分类和最近邻分类，提升了前两级分类器的实时性；同时，改进算法还考虑了目标模板的时效性，对目标模型进行合理的置换，增加了最近邻分类器的实时性。实验表明，改进TLD算法对分辨率为320×240视频平均每帧跟踪速度提升比为1.50；平均每帧跟踪耗时满足系统实时性要求，且与原算法耗时随着跟踪帧数增加而增加不同，改进TLD算法平均每帧耗时基本稳定，在实时长期跟踪方面更具优势。改进TLD算法抗遮挡性能以及在低对比度环境中的跟踪性能优于改进Mean-shift算法。实际应用表明，改进TLD算法能够满足海空环境下光电跟踪系统的实时性和抗遮挡要求。

[1] 官伯林. 三轴光电跟踪系统跟踪策略和控制研究[D]. 西安: 西安电子科技大学, 2012.

[2] 邹卫军. 一种基于自适应波门的角跟踪系统设计[J]. 微计算机信息, 2008(30): 296-297.

[3] 夏瑜, 吴小俊. 基于MCD和局部线性高斯模型的视频跟踪粒子滤波算法[J]. 中国图象图形学报, 2009(11): 2223-2229.

[4] 王铭明, 陈涛, 王建立, 等. Mean-shift跟踪算法及其在光电跟踪系统中的应用[J].中国光学, 2014, 7(2): 332-338.

[5] Kalal Z, Matas J. Online learning of robust object detectors during unstable tracking[C]//New York: IEEE X-plore, 2009: 1417-1424.

[6] Kalal Z, Matas J. P-N learning: Bootstrapping binary classify-rs by structural constraints[C]//. New York：IEEE Press, 2010: 49-56.

[7] Kalal Z, Mikolajczyk K. Forward-Backward Error:Automatic Detection of Tracking Failures[C]//, 2010: 2756-2759.

[8] Kalal Z, Mikolajczyk K. Tracking-Learning-Detection[J]., 2012, 34(7): 1409-1422.

[9] 齐楠楠, 揭斐然, 谢熙, 等. 基于TLD的舰船目标跟踪方法研究[J]. 红外技术, 2013(12): 780-787.

[10] Hu J, Hu S, Sun Z. A real time dual-camera surveillance system based on tracking-learning-detection algorithm[J]., 2013: 886-891.

[11] Nebehay G. Robust Object Tracking Based on Tracking-Learning- Detection[D]. Vienna: Vienna University of Technology, 2013.

[12] Otsu. A Tlreshold Selection Method from Gray-Level Histograms[J].9. 1979: 62-66.

[13] Baker S, M I. Lucas-Kanade 20 Years On: A Unifying Framework[J]., 2004, 56(3): 221-255.

[14] Zhang Ping S Y. A Parallel Implementation of TLD Algorithm Using CUDA: The IET 5th International Conference on Wireless, Mobile & Multimedia Networks[Z]. Beijing: 2013.

[15] Chokkalingam B. Evaluation of TLD Predator algorithm[D]. NADA,2013.

[16] Yang G, Nelson B J. Wavelet-based autofocusing and unsupervised segmentation of microscopic images[J].2003, 2003: 2143-2148.

Improved TLD Approach Applied in Optoelectronic Tracking

WANG Jian-gang1，LI Xing-fei1，CHEN Cheng2，TAN Wen-bin2

(1.,,300072,;2.,,300134,)

To meet the requirements of real-time and anti-occlusion tracking in optoelectronic tracking systems, an improved Tracking-Learning-Detection (TLD) approach with a modified detector and a modified strategy of module updating is proposed. Firstly, difference images are obtained by the difference between consecutive frames. Then, binary images are obtained by an adaptive Otsu threshold. As a result, difference pixels of background part are filtered and moving object bounding boxes are obtained from the binary images. Finally, local scanning-windows are generated for Ensemble Classifier and Nearest Neighbor Classifier. And the strategy of module updating is improved. The experimental results indicate that the average speedup per frame of the improved TLD approach reaches up to 1.50. Compared with the traditional TLD, the improved approach can meet system’s real-time requirement tracking performance of the improved TLD approach under occlusions or in low contrast environment is better than the Mean-Shift approach, and the improved approach can meet system’s requirement of anti-occlusion tracking.

TLD approach，optoelectronic tracking，difference image，detector，Otsu method

TP391

1001-8891(2015)10-0824-07

2015-05-07；

2015-05-27.

王建刚（1990-），男，甘肃镇原人，硕士研究生，主要从事视觉跟踪、机器视觉方面的研究。E-mail：wjg_tju@163.com。

李醒飞（1966-），男，湖北天门人，教授、博士生导师，主要从事计算机视觉、精密计量技术及仪器方面的研究。E-mail：lixf@tju.edu.cn。

精密测试技术及仪器国家重点实验室开放基金资助项目，编号：PIL1407；天津市科技兴海项目，编号：KJXH2012-11。