多特征融合的自适应加权采样上下文感知相关滤波跟踪算法

2022-02-14 12:42李勇锋谢维信

信号处理 2022年1期

李勇锋谢维信

（深圳大学ATR国防科技重点实验室，广东深圳 518060）

1 引言

目标跟踪一直以来便是计算机视觉领域的研究热点之一［1-2］。在人工智能飞速崛起的今天，它也受到了更多专家学者的关注。目标跟踪应用广泛，在自动驾驶、安防监控、军事侦察、精确制导等诸多方面都可见其身影。尽管对目标跟踪的研究已有多年，但该领域依然存在许多难题，如遮挡、尺度变化等等。如何设计鲁棒性更强、跟踪效果更好的算法依然具有挑战性［3］。

相关滤波由于其性能优越近年来备受关注。2010 年，Blome［4］等人提出了MOSSE（Minimum Output Sum of Squared Error Filter）算法，首次将相关滤波引入目标跟踪领域。该算法在初始帧利用目标区域进行相关滤波建模，在后续帧中利用搜索窗与滤波器的相关运算进行目标跟踪。并且该算法将相关运算转到频域中计算，大大降低了运算量，跟踪速度达到了669 帧/秒。之后在MOSSE 基础上，Henriques［5］等人引入循环矩阵和核方法提出了CSK（Exploiting the Circulant Structure of Tracking-bydetection with Kernels）算法，利用循环矩阵密集采样增加样本，核方法则增加了样本的可分性。Danelljan［6］等人在CSK 基础上利用颜色特征替代灰度特征，提出了基于颜色属性的相关滤波跟踪算法（CN）。在CSK 算法基础上，Henriques［7］等人引入方向梯度直方图（HOG）特征，将原算法的单通道特征扩展为多通道特征，提出了KCF（High-speed tracking with kernelized correlation filters）算法，进一步提升了算法性能。Danelljan［8］等人提出了判别式尺度空间跟踪DSST（Discriminative scale space tracking）算法，该方法分别训练位置滤波器和尺度滤波器用于位置及尺度的估计。其中尺度滤波器采用尺度金字塔，在33个尺度中取响应值最大的尺度作为最佳尺度。Zeng［9］等在KCF 基础上对HOG 特征与CN特征分别建立跟踪模型，并对两个跟踪模型所得结果进行加权融合，以此实现了HOG 特征与CN 特征的融合。为解决边界效应，Danelljan［10］等提出空间正则化相关滤波SRDCF（Learning spatially regularized correlation filters for visual tracking）算法，该算法在扩大循环矩阵生成图像大小的同时给滤波器添加了一个逆高斯分布的正则系数矩阵，对循环样本施加惩罚，使得滤波器专注于对目标区域样本的学习。STRCF（Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking）算法［11］则在SRDCF算法的基础上增加了时间正则项，有效抑制了滤波器的突变问题。Dai［12］等提出ASRCF（Visual Tracking via Adaptive Spatially-Regularized Correlation Filters）算法，利用自适应空间约束机制学习空间权重，能有效适应目标的外观变化。Kiani［13］等人提出了BACF（Learning Background-Aware Correlation Filters for Visual Tracking）算法，扩大采样区域，增加循环样本，同时在每个样本中裁剪出有用的区域，使得滤波器学习到的样本信息更有区分度。Mueller［14］等人提出了CA-CF（Context-Aware Correlation Filter Tracking）算法。该算法在不扩大采样区域的前提下，通过采样样本周围的背景信息作为硬负样本引入滤波器，使得算法更具鲁棒性。该算法作为一种相关滤波框架，可以嵌入到其他相关滤波算法中，如DCF-CA、SAMF-CA等等。

本文在DCF-CA 基础上，采用自适应背景样本采样策略，优先采取样本周围响应值高的区域作为负样本，同时对除目标外的最大响应值区域进行进一步抑制，进一步降低背景干扰。针对以往相关滤波算法使用特征单一，本文提出一种融合多特征的相关滤波算法。对于灰度图像序列，采用方向梯度直方图（FHOG）特征、局部二值模式（LBP）特征以及灰度特征相融合；对于彩色图像序列，则采用方向梯度直方图（FHOG）特征、局部二值模式（LBP）特征以及颜色（CN）特征相融合。为了解决目标尺度变化问题，引入尺度金字塔进行尺度估计。针对遮挡问题，引入APCE 监测机制进行遮挡检测，当目标遮挡时不更新滤波器，防止了滤波器的腐败。本文算法在OTB100 上进行测试，实验结果表明，与当前主流算法相比，本文算法具有更高的跟踪精确率和成功率，且均高于CACF 框架的DCF_CA 和MOSSE_CA算法。

2 上下文感知相关滤波算法原理

在经典相关滤波算法中，利用循环矩阵实现密集采样，并利用岭回归求解滤波器，岭回归的目标函数为：

其中，A0为初始样本的循环位移矩阵，w为所求滤波器，y为回归标签矩阵，λ为正则化系数，以防止滤波器过拟合。

在式（1）的基础上，根据目标所在位置，在其周围采样n个背景样本ai作为硬负样本引入传统滤波器中，其对应的回归值为零，则引入背景样本（即上下文信息）后的岭回归函数为：

其中，λ1、λ2为正则项，Ai为背景样本对应的循环位移矩阵。将公式（2）中的背景样本矩阵Ai与基样本矩阵A0合并后，可将公式（2）进一步改写为：

其中，B=为背景样本矩阵Ai与基样本矩阵A0合并后的分块循环矩阵。式（3）可按标准岭回归目标函数求解，得

式中，=[y0 … 0]T为回归标签矩阵，B由不同的循环矩阵组合而成。由于循环矩阵可对角化，故有：

式中，F为傅里叶变换矩阵，为基样本的生成向量的傅里叶变换（i=1，2，...，n）为采样的背景样本生成向量的傅里叶变换。将式（5）代入式（4）中可得w的频域闭式解为：

3 本文算法

3.1 自适应加权采样上下文感知相关滤波算法

在上下文感知滤波器中，如何选择上下文信息与滤波器的跟踪性能之间有着密切联系［14］。原始的上下文滤波器选择目标的上、下、左、右四个邻域进行背景采样，这种采样方式具有一定通用性，但遇到背景干扰或目标遮挡时会出现跟踪漂移甚至目标丢失的情况［15］。本文提出的自适应加权上下文采样，对跟踪区域的高响应点进行自适应加权采样。

若当前帧的目标区域响应图为R，响应图峰值为peak，利用matlab 的imregionalmax 函数计算响应图的局部极大值pi：

局部极值pi的位置为(xi，yi)，响应图峰值位置为(xp，yp)，若目标框的大小为w*h则利用如下规则获取相应的局部极值：

获取selcted_pi中三个最大极值max_p1、max_p2、max_p3及其位置坐标(x1，y1)、(x2，y2)、(x3，y3)。利用本帧得到的三个最大响应值坐标，在训练滤波器时将对应坐标的采样样本作为负样本融入滤波器中。采样示意图如图1所示。

响应值最大的区域对目标的干扰理应更严重，故采样时对其赋予更高的权值，由此将原上下文相关滤波算法的岭回归函数改写为：

其中λ3为正则项，Aj为最大响应值区域采样样本的循环矩阵。对式（9）求解可得

3.2 特征融合

本文采用方向梯度直方图（FHOG）特征、颜色（CN）特征、局部二值模式（LBP）特征以及灰度特征进行自适应融合。

1）FHOG特征

FHOG由Felzenszwalb［16］等人提出，它是在HOG特征的基础上改进得来的。FHOG 在原HOG 特征的基础上，利用每个cell 的4 个邻域进行归一化和截断，将特征分为对方向敏感的（18维）和对方向不敏感的（9 维），然后对得到的特征进行行、列累加，最终得到31维的FHOG特征。FHOG的提取原理图如图2所示。

FHOG 特征能比较准确地反映出图像的边缘信息，并且对几何和光学变化都有很好的不变性［17］。

2）LBP特征

LBP（Local Binary Pattern）［18］指局部二值模式，是一种描述图像局部特征的算子。原始的LBP 算子的特征提取过程为：对于图像的每一个像素，选取其周围的8个像素与其比较，以中心像素为阈值，若邻域中的某像素值大于或等于中心像素值，则在LBP 编码图中，该像素对应位置记为1，否则记为0［19］。如此每一个像素可以得到周围邻域的8 位二进制数，将其转化为10 进制数，以此数作为中心像素值的LBP 编码值，该编码值可以较好的反映出该区域的纹理信息［20］。对图像的每一个像素点做相同操作，即可得到整幅图像的LBP 编码值。LBP 特征的提取示意图如图3。

3）CN特征

图像的色彩信息是图像极为重要的信息之一。图像颜色特征包含了其色彩信息，且由于颜色特征对形变不敏感，在一些判别性的场景中应用广泛［21］。CN 颜色特征是将常见的颜色用语言学的标签来表示的一种特征，它将3 通道的RGB 图像通过映射矩阵投影到11 个颜色通道，分别是black，blue，brown，gray，green，orange，pink，purple，red，white，yellow。Danelljan 等［6］利用多种颜色特征进行了实验，结果表明CN 特征拥有更好的光照不变性，在目标跟踪中的表现更佳。

4）特征融合策略

特征融合流程图如图4 所示。首先，根据当前的图形序列选择相应的融合特征。若当前图像序列为灰度图像序列，则采用FHOG 特征、LBP特征以及灰度特征进行线性加权融合；若当前图像序列为彩色图像序列，则采用FHOG 特征、LBP 特征以及CN特征进行线性加权融合。

其次，对于每一种特征，利用公式（10）分别训练其对应的表观模型。如当前采用FHOG 特征、LBP 特征以及CN 特征时，分别计算出其表观模型。在跟踪的过程中，分别计算三个表观模型与新一帧图像的相关响应图。

计算各相关响应图的最大值，并将其作为特征融合的权重依据。

α，β，γ分别为FHOG 特征、LBP 特征以及CN 特征的融合权重。最后，根据所得的融合权重得到最终的响应：

3.3 尺度自适应策略

针对原始上下文感知算法无法解决目标尺度变化问题，引入尺度金字塔进行尺度估计。首先，利用初始帧所给目标信息训练尺度滤波器。在初始目标位置处采取N=33 个不同尺度的图像，尺度选择为：

其中a=1.02 为尺度因子。为避免采样图像过大影响计算速度，将采样的33个不同大小的图像调整到统一大小，再分别提取它们的FHOG特征，并将所提取的FHOG 特征向量串联到一个二维矩阵中，形成尺度特征向量f作为输入，用于尺度滤波器的训练。构建最小损失函数，求解尺度滤波器模型：

式中，d表示FHOG 特征的31 个维度，g是一维高斯回归函数，λ为正则项。对上式求解可得滤波器为：

根据训练得到滤波器，在下一帧中以目标点为中心，采样33 个不同尺度的目标图像，提取它们的FHOG 特征，将所提取的FHOG 特征串联到一个二维矩阵中得到尺度特征向量Z，再利用滤波器进行判别，选取响应值最大的尺度作为最佳目标尺度。如第t帧时，滤波器Ht-1与Zt的响应为：

求得尺度响应y，取响应值最大的对应尺度作为第t帧的最佳尺度。最后，在得到第t帧的最佳尺度后，需要对滤波器进行更新，以适应目标的尺度变化。以第t的最佳尺度为基准，按尺度池提取33个尺度，分别提取它们的FHOG 特征，按式（13）得到，结合第t-1 帧得到的At-1，Bt-1进行更新：

本文算法的目标跟踪与尺度估计流程如图5。

3.4 模板更新策略

针对目标发生遮挡容易出现跟踪失败问题，引入了Wang 等人在文献［22］提出APCE遮挡判别机制：

式中，Fmax为响应图峰值，Fmin为响应图最小值，Fw，h则为坐标（w，h）处的响应值。APCE 反映了响应图的震荡程度。当目标未被遮挡时，其峰值较为突出，故APCE 值会相对较大。当目标出现遮挡时，响应峰值会降低，APCE 值会随之降低。对滤波器跟更新而言，认为只有当APCE 值和响应峰值分别大于各自历史均值的一定比例γ1，γ2时，才认为目标未被遮挡，并对滤波器进行更新。只要两者中有一个不满足条件，则不更新滤波器。这样既减少了因引入过多背景信息导致滤波器腐败的问题，又能减少更新次数，提高跟踪速度。

3.5 算法的整体流程

Step1初始化：利用第一帧图像的目标位置信息、目标框大小分别训练位置滤波器和尺度滤波器。

Step2读取图像，根据图像的属性（灰度或彩色），自适应提取图像的特征，并对所提取的特征进行融合。

Step3利用相关滤波器得到搜索区域的响应图，最大响应的位置即为目标位置。

Step4根据目标位置建立目标尺度池，利用尺度滤波器及尺度池计算当前目标的最佳尺度。

Step5采样响应图中除目标外的3 处最大响应区域，并对其中响应值最大的区域赋予更高的权重，将它们作为负样本来训练当前帧的滤波器。

Step6根据当前帧的响应峰值与APCE 值来决定滤波器的更新。当APCE 值和响应峰值分别大于各自历史均值的一定比例时，对滤波器进行更新。只要两者中有一个不满足条件，则不更新滤波器。

Step7重复步骤2～步骤6，直至算法结束。

4 实验与结果分析

4.1 实验环境及配置

本文算法使用的软件平台为MATLAB2020a。硬件配置为：Intel（R）Core（TM）i5-6500 CPU @3.20 GHz 处理器，16 GB 内存。实验参数设置为：正则化系数λ1=10-4，，λ2=25，λ3=10。滤波器的学习率为0.015，尺度滤波器的学习率为0.025，padding 大小为2，γ1=0.4，γ2=0.6。尺度池大小为33，尺度基准因子为1.02。

4.2 评价指标

本实验使用文献［23］中的重叠精度（Overlap Precision，OP）、距离精度（Distance Precision，DP）和中心位置误差（Center Location Error，CLE）对算法进行评估。

重叠精度OP 是指标注框和目标跟踪预测框之间的重叠率大于一定阈值的视频帧数占当前跟踪的总视频帧数的比率。中心位置误差CLE 是指真实标注框中心(xb，yb)与预测框中心(xc，yc)的欧式距离

距离精度DP 则是指中心位置误差CLE 小于设定阈值的视频帧数占总视频帧数的比率。

本文的重叠成功率阈值为0.5，距离精度阈值为20 pixels，同时本文采用一次性通过评估（One Pass Evaluation，OPE）作为评估目标跟踪算法性能的标准。

4.3 定量分析

本实验采用OTB100 数据集［24］进行测试，该视频集共100 个视频序列，包含有快速运动、尺度变化、遮挡、运动模糊、光照变化、形变、低分辨率等多种复杂情况。为了进一步验证本文算法的有效性，将本文算法与5 种主流的目标跟踪算法进行比较，分别包括：SRDCF［10］、DSST［8］、Staple［25］、DCF_CA［14］、KCF［7］、SAMF［26］。结果对比图如下：

从图6 中可以看出，本文算法的距离精度为80.7%，重叠成功率为58.6%，相较于DCF_CA 在距离精度和重叠成功率上分别提升了8.5%和14.7%，且均优于所对比的大部分主流算法。图7、图8、图9分别为遮挡、尺度以及运动模糊下的结果对比图。由于发生遮挡或尺度变化时会引入背景干扰信息，而运动模糊时需要有更强的判别性特征对目标进行表示，可以看出，相较于一些主流算法，本文算法的抗干扰能力更强，也更具鲁棒性。

4.4 定性分析

从实验结果中选取6 个跟踪成功的视频以及3 个跟踪失败的视频对本文算法与主流算法进行定性分析。结果如图10、图11 所示。选取的视频集包含背景杂乱（BC）、尺度变化（SV）、快速运动（FM）、遮挡（OCC）、平面内旋转（IPR）、平面外旋转（OPR）等多种不同属性。

在Coke视频中，所有算法在目标未发生遮挡时均跟踪稳定。当258 帧及268 帧目标发生严重遮挡时，其他对比算法均出现不同程度的跟踪漂移。本文算法在目标发生遮挡时将滤波器的学习率降到最低，避免了过多背景信息的摄入，故相比其他对比算法，本文算法即使在目标发生遮挡时，依然能稳定跟踪。

在Couple 和Football1 视频中，目标身处的背景杂乱，且目标在运动过程中有不同程度的平面旋转。在Football1 视频中，所有算法一开始均跟踪稳定，当64 帧及74 帧目标发生运动模糊并且周围背景变得复杂时，所有对比算法都出现了跟踪漂移或目标丢失现象；在Couple 视频中，由于目标快速运动且背景杂乱，在53 帧时DSST、SAMF、DCF_CA 和KCF 算法跟丢目标。在116 帧和133 帧中，除本文算法和SRDCF算法外，其余对比算法均跟丢目标。

在DragonBaby 视频中，第32 帧，由于目标发生平面内旋转以及平面外旋转，除SRDCF 算法、Staple算法以及本文算法外，其余算法均发生跟踪漂移或目标丢失现象。第87帧，目标发生快速运动及尺度变化，SRDCF 算法、Staple算法以及本文算法均能跟踪到目标，但Staple 算法不能适应目标外观变化。DragonBaby 视频包含了尺度变化、遮挡、快速运动、运动模糊、平面内外旋转等多种挑战属性，本文算法在对目标进行跟踪的过程中，对目标实时位置周围的高响应点进行加权采样，使得滤波器的抗干扰能力更强，跟踪也更具鲁棒性。

在Shaking 视频中，第22帧，由于目标移动过程中背景杂乱，仅本文算法、DSST 算法以及DCF_CA算法能够正确跟踪目标。第59 帧及186 帧，目标背景发生光照变化且目标存在平面内旋转，除本文算法、DSST 算法以及DCF_CA 算法外，其余算法均跟踪失败。

在Bird2 视频中，目标存在平面内旋转、平面外旋转、遮挡、形变等问题，第51帧，由于目标转身，发生平面内旋转，SRDCF、KCF、DCF_CA 等算法开始出现跟丢的迹象。第91 帧至99 帧，由于目标再次转身，运动期间伴有形变、遮挡，致使大部分算法出现目标跟丢现象。本文算法以及SRDCF 算法仍然可以正确地跟踪目标。

一些失败的案例分析：

在这些失败的案例中，Skiing 视频中的跟踪目标存在尺度变化、形变、平面内旋转以及平面外旋转等问题，同时目标背景还存在颜色深浅变化的问题。本文算法在第15 帧至第22 帧都能成功跟踪目标，而其余算法均已跟踪失败。但在进一步的跟踪过程中，由于目标的持续形变及旋转，本文算法也出现跟踪失败现象。在Jump 视频和Trans 视频中，由于目标发生较大的形变，本文算法及其他对比算法均不能进行正确跟踪。从跟踪失败的案例分析可知，本文算法对目标发生形变问题的处理有待进一步优化。

5 结论

针对传统核相关滤波算法的不足，本文提出了一种自适应多特征融合的上下文感知算法。根据跟踪序列自适应选择融合特征。同时采用加权上下文采样，对响应图中的非目标高响应进行加权采样，抑制背景干扰。利用尺度金字塔进行尺度估计，从33 个尺度池中选取响应值最大的尺度作为当前的最佳尺度。引入APCE 监测机制，当检测到目标遮挡时则不更新滤波器，在一定程度上减少了背景信息对滤波器模板的污染。在OTB 100 数据集上的验证结果表明，相比原算法，本文算法在跟踪精度和成功率上都有所提高，对比一些主流算法，本文算法也具有更高的精度和更强的鲁棒性。同时从一些失败的案例可知，本文算法对目标发生形变问题的处理还有待进一步优化。