非线性时空正则化的相关滤波目标跟踪算法

2024-03-03 11:21姜文涛王德强张晟翀

计算机工程与应用 2024年3期

姜文涛，王德强，张晟翀

1.辽宁工程技术大学软件学院，辽宁葫芦岛 125105

2.光电信息控制和安全技术重点实验室，天津 300308

目标跟踪作为计算机视觉研究领域中的热点问题[1]，在交通视频监控[2]、视觉机器人[3]、现代化军事[4]等领域上的应用较为广泛。近年来，高速发展的深度学习算法将深度特征[5]应用于目标跟踪领域，对于目标的跟踪效果较好，吸引了大量学者研究。目标跟踪算法在融入了深度神经网络[6]等深度特征后的优势体现在跟踪过程中的抗干扰性，这种抗干扰性能主要依赖于经过多层卷积[7]提取到的特征。基于相关滤波的跟踪算法作为目标跟踪领域中的重要部分，具有跟踪的实时性与稳定性，实际应用价值较高。最早在目标跟踪算法中引入相关滤波器的是Bolme等[8]在2010年提出的误差最小平方和滤波（minimum output sum of squared error，MOSSE）算法。随后在MOSSE 的基础上，Henriques 等[9]通过引入循环矩阵与核方法提出了具有核检测跟踪结构的（exploiting the circulant structure of tracking-by-detection with kernels，CSK）算法，解决了MOSSE 中存在的训练样本信息不足与低维度空间非线性的问题。但是CSK算法仅采用了单一的灰度特征，特征表达过于局限，导致其在跟踪精确率上的表现不佳。Henriques等[10]在CSK的基础上引入了多通道的梯度方向直方图（histogram of oriented gradient，HOG）[11]特征，提出了具有多通道滤波器的核相关滤波（kernel correlation filter，KCF）算法，为后续的算法发展奠定了基础。但是KCF 算法没有考虑跟踪过程中目标的背景信息且不具有尺度估计，当跟踪目标发生尺度变化时，跟踪模型易发生漂移。针对于边界效应问题，Danelljan等[12]提出了空间正则化相关滤波（spatially regularized correlation filters，SRDCF）算法，通过设定一个固定的空间正则权重系数对滤波器进行惩罚，使得滤波器函数向目标的中心区域进行集中性趋向，越靠近边缘区域的权重越趋近于0，由此缓解边界效应。但目标与算法模型中的空间正则项未能建立起联系，当目标发生遮挡、出视野等情况时，算法无法保证空间正则化权重系数的可靠性且跟踪速度缓慢。Galoogahi 等[13]提出了背景感知相关滤波（background aware correlation filters，BACF）算法，由于该算法选用了背景中经过真实移位而产生的负样本进行滤波器训练，此时的负样本因其包含了真实的背景信息和更大的搜索区域从而保证了样本质量。Dai等[14]提出了自适应空间正则化的相关滤波（adaptive spatially regularized correlation filters，ASRCF）算法，建立了空间正则项与目标之间的联系，其中的空间权重由该算法建立的自适应空间约束机制通过高效率学习得到，增强算法对目标外观变化的适应性，但是由于该算法的更新模式为逐帧法，并且在目标函数中没有引入时间正则项，从而不能鲁棒性地处理目标发生快速移动等异常问题。Li 等[15]提出时空正则化相关滤波（spatial-temporal regularized correlation filters，STRCF）算法，其核心思想是在SRDCF算法的基础上引入时间正则项并与空间正则项共同建立起时空正则项，建立了邻近帧之间的滤波器联系，将逐帧法的模式更新为对单个图像的信息进行记录，使滤波器退化的问题得到了缓解，跟踪的实时性得到了提升。由于STRCF中的空间正则项参数在第一帧中就已经确定并且不再更新，而固定的空间正则项在目标变化较大时会使得滤波器不能较好地关注目标区域。近年来无人机目标跟踪的应用较为广泛，但空中场景中的跟踪目标往往会发生不可预见的外观变化，而固定的时间正则项无法处理此场景下目标发生的不可预见性外观变化。因此，Li等[16]基于STRCF算法提出了自动时空正则化目标跟踪（automatic spatio-temporal regularization tracking，AutoTrack）改进方法，通过利用隐藏在响应图中的局部变量，进行空间惩罚权重的确定，防止其出现局部侧移；同时利用隐藏在响应图中的全局变量，对滤波器的更新速率加以控制。但是该算法中的时间正则项仅依赖于相邻两帧之间的响应图关联，且在空间正则项的参数更新过程中采用计算搜索区域中各个像素的置信度来进行外观学习，当目标发生快速运动时，目标的外观变化较大，无法及时学习到新的外观模型，造成目标丢失。

本文算法针对上述情况中STRCF及其改进方法模型中存在的问题，结合生物视觉感知存在的规律，在STRCF算法的基础上，提出了一种非线性时空正则化的目标跟踪算法。本文的主要工作与创新观点有：（1）摒弃了STRCF 模型中固定不变的时间正则项，结合生物视觉系统所特有的非线性特征感知规律-史蒂文斯幂定律[17]提出了一种动态更新的时间正则项。新提出的时间正则项因其贴近人类视觉感知存在的幂定律，能够根据跟踪状态进行动态的模型更新，从而增强了时间正则项的约束性，避免了因滤波器退化而造成的跟踪模型漂移。（2）STRCF采用了人工特征，实现了实时跟踪，但在跟踪决策阶段对不同特征跟踪响应进行直接叠加求出用于目标定位的跟踪响应图，这会使得跟踪响应图具有较多噪声，从而会影响滤波器对目标的定位。为此在特征提取上，针对传统HOG 特征以及不同特征跟踪响应直接叠加所存在的局限性，本文创新性地只提取一种经过非线性更新的HOG特征，降低了噪声干扰，增强了边缘特征描述的连续性，使算法更加鲁棒。（3）为了降低算法的复杂度、提升运行速度，采用了交替方向乘子法（alternating direction method of multipliers，ADMM）[18]。（4）在尺度估计上，采用符合生物映射的极坐标尺度估计代替STRCF及其改进方法中现有的尺度估计，使算法更加适应目标发生的尺度变化，从而保证了跟踪精度。

1 时空正则化相关滤波算法

经过时空正则化调整的相关滤波算法STRCF为了获取充足的样本，在滤波器的训练过程中充分利用了循环矩阵的思想，将空间惩罚项和时间正则项引入到相关滤波跟踪算法框架中，对滤波器进行空间惩罚的同时建立与邻域滤波器之间的关系，STRCF使用当前第t帧样本与其上一帧学习到的滤波器ft-1来训练当前帧的滤波器ft，使训练后得出的滤波器专注于目标中心的能力更强。STRCF目标函数如下所示：

但是STRCF在时间正则项中的更新机制属于线性更新，与生物视觉系统所特有的非线性特征感知规律-史蒂文斯幂定律有明显差距。

2 非线性时空正则化的相关滤波目标跟踪

2.1 生物视觉感知系统

目标跟踪算法在关注模型改进的同时，往往忽略了目标跟踪与自然生物视觉感知之间的联系。人类视觉作为自然生物视觉的重要部分，在一定场景下的跟踪能力往往是跟踪模型所期望达到的。因为人类的视觉感知机理来自于眼睛所具有的特殊光学系统，人眼受心理状态与视觉神经的调控；特别是在目标存在背景干扰时，多数跟踪模型面对背景中与目标高度相似的物体只能根据目标特征进行检测识别。而人眼跟踪可以结合心理状态与神经系统进行目标感知，对于背景中相似物体的检测识别方式更加多样化，因此在跟踪模型中引入心理物理学提出的模型来模仿生物视觉感知。本文在跟踪模型中根据史蒂文斯幂定律模仿人类的视觉感知建立起感知量模型与物理量模型，使算法在处理背景干扰等问题时更加鲁棒。

2.2 生物视觉感知的非线性模型

自然生物的视觉感知符合史蒂文斯幂定律，当生物感受到外界刺激的差异性变化，此时刺激变化程度主要取决于生物受到的初始刺激，且在变化中表现出幂律分布。在跟踪模型中引入史蒂文斯幂定律使算法对于目标增添由感知量S与物理量I组合成的感知刺激。其中S与I两者之间可以表示为幂函数的关系：S=nIa，式中的n为常数，表示变量之间存在的比例。a作为指数用于表示不同程度的刺激。当a ＜1 时，S的增长低于I的增长，相当于对物理量具有抑制作用；当a ＞1时，S的增长高于I的增长，相当于对物理量具有增强作用，S与I之间的关系符合史蒂文斯幂定律。在跟踪过程中，背景光照变化明显指的是跟踪目标在极亮与极暗场景之间频繁地进行转换，而STRCF 算法在跟踪背景复杂与光照变化明显的场景中的处理不够鲁棒；因此面对背景复杂与光照变化明显的环境宜采用加入史蒂文斯幂定律的算法进行跟踪处理。

2.3 目标函数的生物视觉感知非线性优化

STRCF 中的时间正则项通过在模型训练中对时间施加线性化的约束，在一定程度上缓解了短时间范围内模型对样本的过拟合问题。但是目标在跟踪过程中易发生较大幅度的变化，而线性化的时间约束与自然中符合史蒂文斯幂定律的生物视觉感知之间存在一定的差距，所以仅依靠线性化的约束不能灵活地进行应对，此外采用标准方法引入权值或偏置量又会增加模型的复杂度，较高的复杂度难以保证跟踪稳定性。因此基于STRCF模型，引入史蒂文斯幂定律S=nIa，考虑到外界刺激在改变过程中具有幂律分布的特点，把滤波器响应看作外界刺激，相邻帧间滤波器的变化量看作外界刺激的改变程度。即令n=ft-ft-1,a=-|f-ft-1|，为了模拟幂律分布中的增强抑制作用，令I为自然常数e，以构造数学因子形成对滤波器响应的增强抑制作用，提升滤波器的目标跟踪性能，因此提出新的目标函数：

式中，f d∈RT×1表示为训练过程中的第d个通道滤波器，λ表示为正则化参数。相比于STRCF 中线性更新模式的时间正则项，在模型中新提出符合生物视觉感知幂定律的时间正则项，利用幂律分布的性质将其融入样本信息，使滤波器根据目标的实时变化进行非线性更新，减少对时间正则项的线性惩罚，增强时间正则项的非线性感知性能，使跟踪模型贴近生物视觉系统的幂定律感知机理。相比于线性的时间正则项更新，非线性的时间正则项更新因其更加符合自然界中的生物视觉感知规律，优化了时间约束，提升了算法在复杂环境中的目标跟踪性能。

2.4 目标函数优化

因为式（1）中的模型是可微的凸函数，可以通过ADMM 保证收敛到全局最优。首先设置f=g引入一个辅助量g，步长参数表示为γ。式（1）的增广拉格朗日形式表述为：

通过方向乘子法将如下的子问题进行交替求解以获得全局最优解：

接下来针对每个子问题的解决方案进行详细说明：

（1）子问题g，根据上述公式（4）中的第二个子方程中可以看出，由于g∗中没有卷积运算，而且g∗的每个元素都可以独立的进行运算，因此可以直接求出其封闭解，假设已知ω,h两个子问题，目标函数为：

记W=diag(ω)∈RT×T为代表空间正则ω的对角矩阵，表示为特征提取区域的范围，W表示DMN×DMN维度的对角矩阵与D维对角矩阵diag(ω)的连接。

令上式等于0，并对gd进行求导，求得：

求解复杂度分析：由于可以直接求出其封闭解，所以g的求解复杂度为O(DMN) 。

（2）子问题f，假设已知ω,g两个子问题，将

根据帕萨瓦尔定理在傅里叶域中转换成：

对公式（8）求偏导，并令其为0，求出一个封闭性的解νj()即：

由于式（10）中只包含了对于向量的乘法与加法运算，因此降低了运算复杂度，提升了求解速度。最后，通过对进行逆DFT运算从而求出f。

求解复杂度分析：从式（7）可以看出，公式中存在一定的可分性，需要求解的子问题的数量为MN，并且每个问题是由D个变量组成的线性方程组系统，根据Sherman Morrision 方程式，每个系统的求解精度为O(D)，所以的求解复杂度为O(DMN)，考虑到在运算过程中运用了DFT 与逆DFT，所以f的求解复杂度为O(DMNlog(MN))。综上可得，算法整体所消耗的运算成本为O(DMNlog(MN)NI)，其中利用NI表示最大的迭代次数，运算成本较低，计算速度较快。

通过如下公式（11）对拉格朗日步长参数进行更新：

i,i+1 均为迭代次数，ι表示更新参数，gi+1与f i+1分别表示在第(i+1)次迭代时式（5）子问题gd与式（7）子问题的解。对于更新参数利用式（12）进行更准确的变换，式中β=10，ιmax=10 000。由上可知，提出的目标跟踪算法模型是凸函数，利用ADMM 进行求解的每个子问题都有封闭式的解，因此其具备Eckstein-Bertsekas[19]定理的条件，可以满足快速的全局最优性收敛，保证目标的精度。

2.5 对数极坐标尺度适应

由于视网膜与大脑皮层之间存在一种符合Logpolar[20]映射模型的描述关系，所以在人眼视觉系统中对于区域的分辨率描述存在一定的兴趣倾向性，即人眼对感兴趣区域采用较高的分辨率描述，但对于兴趣区域的周围区域只采用较低的分辨率描述。人眼视觉系统通过上述的机制既可以保证广阔的视野采样范围，又可以对局部细节进行高分辨率的描述。

Log-polar映射模型表示如下：

式中，(xi,yi)，(x0,y0)通过式（14）进行变化：

目标发生的尺度变化可以通过式（14）进行对数极坐标变换成坐标系下的二维移动，将上述的现有原理与相关滤波结合起来通过图像配准进而达到目标检测的目的。因此，将其与基于相关滤波框架的本文算法进行创新性的组合，提高算法应对目标尺度变化的适应能力。

在目标跟踪过程中，对数极坐标的变换通过目标模板实现。目标变化后的尺寸与原始尺寸的比值为目标尺度的变化率，在笛卡尔积坐标系下的尺度大小表示为：

将式（15）进行对数变换后得出：

将处于笛卡尔坐标系下的目标图像进行k倍放大，经过变换之后的目标图像相比于历史位置顺着ξ轴方向平移lnk个单位；若目标图像发生旋转，将目标图像在笛卡尔坐标系下的旋转角度与其顺着η轴方向相对于历史位置的平移量进行比较，两者数值相等。由此可以看出，将发生旋转或者进行尺度缩放的目标图像进行对数极坐标变换之后，目标可以保持形状不变。

2.6 非线性HOG特征提取

传统的特征提取采用单一或者线性化结合的方式进行，未能结合生物视觉感知。为了增强HOG 特征在噪声下的抗干扰能力，本文创新性地提出一种符合生物视觉感知规律的非线性HOG 特征，经过非线性动态优化的HOG 特征增强了边缘特征描述的连续性，提升了跟踪算法的抗干扰能力。

非线性HOG特征提取模型为：

gx(x,y)new、gy(x,y)new为(x,y)处的标准横向梯度与标准纵向梯度，H(x,y)表示像素值。

表示为像素点(x,y)处的水平方向梯度像素值变化。像素点(x,y)处的梯度幅值与梯度方向分别为：

3 非线性更新

3.1 非线性滤波器更新

对比于STRCF 在固定时间正则项下求得的滤波器，非线性时间正则项具有幂律分布的增强抑制性质，进一步提高所求滤波器与历史滤波器的相似度，从而降低了模型退化腐败的概率，也有助于对抗目标遮挡，在第t帧视频序列当中相关滤波器的非线性自适应更新模型为：

式中，Δ表示第t-1 帧图像的滤波器模板与第t帧图像的滤波器模板之间的变化值。分别将两种应用了不同滤波器的算法对不同的视频序列进行测试对比，对比结果如图1所示，图1中的红色跟踪框代表本文算法、绿色跟踪框代表基线算法STRCF，可以直观地看出当跟踪目标发生遮挡或光照变换等情况时，STRCF 不能完全准确地跟踪目标，甚至当目标处于较大幅度遮挡时跟丢目标，而本文算法可以正常的跟踪目标。由于STRCF中时间正则项的更新机制是线性的，属于传统的现有方法，虽然可以让当前帧得到的滤波器尽量贴近历史帧的滤波器，从而保留了一定的历史信息，但是线性化的更新机制对于相邻帧目标响应图产生的畸变抑制处理不够灵活，经求解得到的滤波器与上一时刻的滤波器不够相似，模型容易退化腐败，导致跟丢目标。加入非线性滤波器更新后，当目标发生遮挡或处于光照变换明显的环境时，因为模型中的时间正则项贴近生物视觉感知系统的幂定律感知机理，能够根据跟踪目标的变化而实现自适应更新，使得当前帧的滤波器更大限度地与历史的滤波器保持相似，有效避免了模型退化腐败，保持对目标的正常跟踪。所以本文新提出的经过非线性滤波器更新的算法相比于基线算法STRCF对于目标的捕捉能力更优、跟踪精准度更高。

图1 不同滤波器算法的跟踪效果对比图Fig.1 Comparison diagram of tracking effects of different filter

3.2 遮挡异常检测

在目标跟踪过程中不可避免地会发生遮挡现象，其中的部分遮挡现象除了通过人眼视觉直接发现之外，还可以参考滤波器得到的响应值更加细致地进行判别。在目标跟踪过程中STRCF算法采用逐帧式的模型更新方式，若在产生跟踪误差之后仍然使用这种更新方式，容易使滤波器不间断地产生误差堆积。

针对单一性的依靠响应值进行判别的局限性，现有的改进方法通过引入平均峰值相关能量（average peakto-correlation energy，APCE），将APCE与最大响应的历史均值进行结合性判断，将得出的结果作为跟踪目标遮挡情况与模型更新时机的判断标准，其中APCE的表达式为式：

式中，Fmax表示最大响应的矩阵值，Fmin表示最小响应的矩阵值，Fz,h表示响应矩阵中第z行，第h列的元素值，mean函数作为均值函数可以反应响应图的波动情况。

|Fmax-Fmin|可以用来表示峰值。当目标跟踪正常时，生成的响应图为尖锐的单个波峰且APCE的数值较大，当目标出现遮挡等异常性情况时，生成的响应图中出现多个不同的响应波峰且APCE 数值较小，图2 反映了目标发生遮挡前后的响应图变化情况。

图2 目标遮挡检测判断Fig.2 Judgement of target occlusion

对于最大响应的历史均值Fmean，利用当前帧跟踪目标反馈的响应峰值Fimax(i=1,2,…,n)与跟踪的帧数n进行计算，公式表示为：

当目标发生遮挡或形变较大等异常跟踪情况时，APCE数值相比于历史平均值急剧下降，响应峰值也随之降低，此时停止模板更新。当目标被正常跟踪时，目标外观几乎未发生变化，响应图呈现出尖锐的峰值且只有少量的的噪声响应，APCE 数值较大，且最大响应值也相比于历史平均值而升高。

但是通过上述现有的改进方法只能粗略地判断模型是否更新或者目标是否发生遮挡，当面对跟踪目标的背景较为复杂或者相似性干扰物过多的情况时，会形成虚假峰值，极易造成错误的判断。为了更加准确化地进行判断，本文结合了文献[21]引入两个阈值θ1=0.71 与θ2=0.46，并新提出下述约束条件作为判断辅助：

式中，均值的运算利用mean进行表示。

当FiAPEC满足式（24）与式（25）时，目标保持正常跟踪状态且进行模型更新。

当公式（24）与公式（25）中有任何一个不成立时，目标跟踪暂停且停止模型更新。为了使目标跟踪与模型更新正常进行，在采样过程中通过调节采样窗口尺寸来扩大搜索范围，当之前不成立的公式（24）或公式（25）满足成立条件时，暂停搜索并在检测到的位置上进行尺度更新且将采样窗口尺寸进行初始化。利用上述两个阈值结合条件进行辅助判断，使得判断条件更加细致，对于模型更新的时间控制更加精准，降低了模型漂移的概率，使模型不再盲目性地进行更新，从而进一步地约束了更新速度。对于两个阈值的选择方面，若θ1与θ2设置过大，式（24）与式（25）同时满足的概率偏低，进而缩小了FiAPEC的可波动范围，导致模型停止更新，不能维持正常的目标跟踪。若θ1与θ2设置过小，式（24）与式（25）同时满足的概率偏大，虽然增大了FiAPEC的可波动范围，但是此时模型的更新过于频繁，此时的采样窗口尺寸与位置尺度不需要进行更新，容易忽略目标的异常变化，造成跟踪精度降低。更多的阈值设置对模型更新造成的影响如表1所示，可以看出文献中的两个阈值通过新提出的约束条件可以保证模型的正常更新。

表1 不同阈值设置对于模型更新的影响Table 1 Effects of different threshold settings on model updating

4 算法步骤

综合以上，非线性时空正则化的相关滤波目标跟踪算法的总体框架如图3所示，算法步骤如下：

图3 总体算法框架示意图Fig.3 Schematic diagram of overall algorithm framework

（1）输入第一帧图像，根据图像信息初始化。

（2）获取目标位置信息。

（3）提取第一帧图像中目标的HOG 特征并进行非线性处理，根据最大置信度值确定当前帧的目标位置。

（4）根据目标位置利用对数极坐标进行尺度估计，确定为目标尺度。

（5）利用当前帧的最大响应值与APCE值的关系对滤波器是否更新进行判断。

（6）若当前帧的最大响应值与APCE值同时满足约束条件时，滤波器模板更新进入步骤（7）；若有一个不符合上述条件时，模板不进行更新并循环步骤（2）～步骤（5）。

（7）判断是否为最后一帧图像，若不是最后一帧，则从步骤（2）开始循环，直至算法跟踪结束。若是最后一帧，则算法跟踪结束。

5 实验及结果分析

5.1 实验环境与参数配置

本文使用GNU Octave作为实验平台，硬件实验环境为Intel®Core™i7CPU 16 GB内存，并选用OTB2013、OTB2015 两个数据集中的标准序列进行实验测试。本文算法所使用的主要参数：ADMM 的迭代次数是2，步长的初始参数γ是10，γmax表示γ的最大值并设置为100，ρ表示尺度因子并设置为1.6，其他参数与STRCF原文保持不变。

5.2 性能评估指标

为了使本文算法的跟踪性能得到更加准确的评估，本文选取具有多种干扰属性的OTB2013、OTB2015 数据集，从成功率与精确率两个方面上对算法进行评估，得出的具体排名情况如图4所示。

图4 测试算法在数据集上的对比实验结果Fig.4 Comparison of experimental results of algorithms on datasets

5.3 与主流及深度学习算法的对比实验

本文算法在OTB2013、OTB2015 数据集上与采用全卷积孪生网络结构的SiamFC（fully-convolutional siamese networks）算法[22]、结合CNN学习判别显著图的CNN-SVM（learning discriminative saliency map with convolutional neural network）算法[23]、采用子网络与候选区域生成网络双重结构的SiamRPN（siamese region proposal network）算法[24]、STRCF算法、SRDCF算法、基于全卷积新型孪生网络改进的SiamFC++（fully convolutional siamese tracker++，）算法[25]、背景感知相关滤波算法BACF、基于目标感知Siamese 图注意力网络的SiamGAT（graph attention tracking）算法[26]、视觉与语言模态模块化聚合SNLT（siamese natural language tracker）算法[27]、采用了深度特征的ARCF（learning aberrance repressed correlation filters）算法以及staple（complementary learners for real-time tracking）算法、SAMF（scale adaptive kernel correlation filter tracker with feature integration）算法、AutoTrack算法等12种主流算法的性能进行对比。

对比近年来热门的深度学习算法，本文算法在OTB2013和OTB2015数据集中的精确率与成功率得分上均有较大幅度的提升；由表2、表3可知，在OTB2015上相比于SNLT在成功率上提升了24.7%，相比于SiamFC++在精确率上提升了11.8%；此外，本文算法在OTB2013上相比于SNLT在成功率上提升了32.1%，相比于SiamGAT在精确率与成功率上分别提升了23.7%与10%，同时相比于SRDCF、ARCF、BACF、AutoTrack 等主流算法，本文算法在精确率与成功率两方面上也均有不同幅度的提升。由图4可知，本文算法在两个数据集上进行测试后得到的精确率分别为0.836、0.898，成功率分别为0.761、0.833。

表2 各种跟踪算法在数据集上的精确率得分Table 2 Precision rate scores of various tracking algorithms on datasets

表3 各种跟踪算法在数据集上的成功率得分Table 3 Success rate scores of various tracking algorithms on datasets

5.3.1 定量分析

由表2和表3可知，在OTB2013与OTB2015两个数据集中，本文算法在成功率与精确率上的得分均排名前列，相比于基线算法STRCF 在精确率与成功率两个方面上均有一定的提升，证明了算法的整体性能。

为了更加直观的、综合的对比每种算法的跟踪性能，选取进行实验的视频序列包含了尺度变化、背景复杂、低分辨率等11 种不同属性。表4、表5 分别表示在OTB2015数据集上进行测试的跟踪算法在11种属性中精确率与成功率的得分情况：所提出的算法相比于基线算法STRCF 在精确率与成功率上有了一定程度的提升，这是因为在尺度估计上采用了符合生物映射的对数极坐标变换，有效处理了目标因外观变换、快速运动而出现的尺度问题；将提取到的HOG 特征进行非线性化处理以增强特征的连续性，从而缓解目标因发生运动模糊、快速移动、旋转等而导致的特征提取不充分现象；同时构建的动态更新时间正则项与遮挡异常检测能够监测出目标发生旋转、遮挡、光照变化等异常情况，并根据目标实际的跟踪情况动态更新模型。与基准算法STRCF 在OTB2015 上的总体跟踪精确率（0.876）与成功率（0.807）做比较，本文算法的跟踪精确率（0.898）与成功率（0.833）分别提高了2.5%和3.2%，跟踪效果具有一定幅度的提升。

表4 测试算法在OTB2015数据集上的精确率得分Table 4 Precision rate scores of algorithms on OTB2015 dataset

表5 测试算法在OTB2015数据集上的成功率得分Table 5 Success rate scores of algorithms on OTB2015 dataset

5.3.2 定性分析

（1）10 种算法在6 组视频序列中的跟踪结果如图5所示，根据图5 中的跟踪结果进行分析，对于视频序列Basketball，从第19帧到第224帧，跟踪目标因发生了不同程度的形变与旋转而导致非刚性形变，第224帧到第656 帧，所跟踪目标发生了遮挡、平面外旋转、光照变化等多种干扰。在这一过程中，目标的形变幅度较大，而SRDCF、ARCF、SiamFC++等算法对于目标特征更新的适应性较差，算法只能部分化地跟踪到目标，影响了跟踪精确率。基准算法STRCF 在跟踪过程中对于目标的尺度预估与位置定位也出现了不同程度的偏差，而AutoTrack算法、DSST（discriminative scale space tracker）算法则完全跟踪失败。在第656 帧到第706 帧，跟踪目标出现不同程度的遮挡异常，而BACF、ARCF、SNLT、staple 这几种算法模型中不具有自适应性的空间正则项，导致算法无法自适应地减少遮挡范围内的权重分配，造成模型盲目地更新而影响跟踪效果。本文算法模型中引入了具有非线性动态更新的时间正则项，因其更新机制贴近生物视觉感知机理，增强了学习速率变化的动态性，进一步降低了滤波器在相邻帧之间发生过拟合现象的概率，使滤波器对于目标特征变化可以进行自适应更新；另外，在遮挡异常检测中，通过新提出的约束条件避免了模型的盲目更新，使算法更加鲁棒。

图5 10种算法的跟踪结果Fig.5 Tracking results of top 10 algorithms

（2）在Box 视频序列中可以观察到，第122 帧时，进行测试的10 种算法均可以保证稳定的跟踪效果，随后目标在移动过程中发生了尺度变化，并且其所处的背景较为杂乱、光照变化明显。在第497 帧，由于目标的背景环境较为杂乱，基于深度学习的SNLT、SiamGAT、SiamFC++对于目标尺度变化的适应性较差，导致跟踪模型易受到背景环境中与目标高度相似物体的干扰，影响跟踪的精确率。本文算法能够准确地跟踪目标到视频序列结束，且根据人眼视觉系统中存在的Log-polar映射模型引入了对数极坐标尺度适应机制维持了目标的外部信息，提高算法的精确率。

（3）对于低分辨率的跟踪场景，跟踪模型如何在低于正常跟踪分辨率的场景下有效地提取到目标特征是保证跟踪成功的关键所在。在FreeMan3 序列的第22帧，进行测试的算法都可以准确地跟踪到目标，在第264帧到第370 帧，ARCF、STRCF 由于提取到的特征较少，导致滤波器不能进行充分的特征学习，适应目标尺度变化的性能较差，且不能准取地确定目标位置。在第426帧到第460 帧，ARCF、SNLT、staple、DSST 的模型对跟踪目标发生的形状、外观变换未能做出适应性更新，导致跟踪失败。在FreeMan3 序列第370 帧、FreeMan4 序列第97 帧之后，AutoTrack 因不具备对目标长时间外观形态变化的跟踪能力，导致跟踪失败。FreeMan4 序列中包含遮挡、尺度变化、平面内旋转、平面外旋转等干扰属性，且整个跟踪过程均在低分辨率的场景下进行。综合图5可以看出，除本文以外的跟踪算法由于对目标特征的提取较少，均不同程度地出现了跟踪漂移，甚至跟踪失败的现象。实验结果说明本文利用生物映射尺度估计对于目标出现平面内旋转、平面外旋转、变换性尺度干扰等情况的适应性较强；此外算法中提出的非线性HOG 特征通过对原HOG 特征模型进行了贴近于史蒂文斯幂定律的非线性处理，从而增强了传统HOG特征的连续性；当跟踪过程中目标受到遮挡、低分辨率等干扰时，非线性HOG特征可以提取到边缘连续性更强的特征描述，从而使滤波器学习到更多的特征，提升跟踪能力。

（4）针对跟踪过程中目标发生的快速移动和运动模糊问题，能否及时跟踪到目标以及准确地提取到目标特征影响着跟踪算法的成功率与精确率。从DragonBaby序列的第47 帧到第50 帧，所要跟踪的小男孩进行着快速的肢体变换与跳跃动作造成了跟踪目标形态与位置不断变化，以及视频中存在目标运动模糊，只有本文算法与STRCF 跟踪正常；从Bolt1 序列的第25 帧到第46帧，需要跟踪的运动员进行快速的奔跑移动，导致跟踪目标发生了快速移动、尺度变化，其中DSST、SNLT、ARCF、BACF等算法不能及时地跟踪到目标；本文算法因为在跟踪模型上采用了非线性的滤波器更新、在特征选择上采用了非线性的特征提取，可以根据目标所处于的实际场景对于跟踪模型进行动态化调整，从而准确地跟踪目标。从DragonBaby序列第80帧到第108帧可以看出，由于本文算法通过对数极坐标变换进行尺度估计，跟踪过程中该算法的跟踪框相对于STRCF 的跟踪框在尺寸上更加贴合跟踪目标，跟踪的精确率也更高，使算法对目标发生快速移动和运动模糊时的跟踪较为鲁棒。DragonBaby序列中的第50帧到第88帧，所跟踪的目标超出视野且经过数帧的序列变化后目标才稳定地出现在跟踪画面上，从跟踪情况看出STRCF 从第50帧开始发生跟踪漂移，其他算法也对于目标长时间外观剧烈变化的适应性较差；改进算法模型中的时间正则项模拟了生物在外界刺激的改变过程中表现出的幂律分布，能够适应目标发生的剧烈变化，保持正常跟踪。

5.3.3 算法跟踪速度

从表6可以看出，由于所提出的算法在模型求解过程中采用了ADMM 算法实现子问题的最优化求解，提高了模型的求解效率；并建立符合生物视觉感知机理-史蒂文斯幂定律的时间正则项，通过遮挡异常检测使模型的更新时机更加准确，从而保证了算法的跟踪速度，相比基线算法STRCF 在跟踪速度上提高了2.6 FPS，与基于深度学习的跟踪算法相比具有较大优势。

表6 各种跟踪算法在OTB2015数据集上平均跟踪速度Table 6 Average tracking speed on OTB2015 dataset

6 结束语

本文提出一种非线性时空正则化的相关滤波目标跟踪算法，算法的创新主要有：（1）在STRCF 算法模型的基础上加入了贴合生物视觉感知机理的非线性时间正则项，使其能够根据实际的目标跟踪情况自适应地进行模型更新，从而降低了模型退化腐败的概率。（2）针对传统的HOG特征进行了非线性处理，增强了HOG特征的连续性。（3）采用符合生物映射的对数极坐标方法进行尺度适应，保证了跟踪精度。（4）对于目标建立了遮挡异常检测机制，能够对异常情况进行辅助判断，保证模型更新的稳定性。

在OTB2013与OTB2015两个数据集上进行了大量的测试，对比了包含深度学习算法在内的10 种主流算法，实验结果表明本文算法在11 种属性上的成功率与精确率得分绝大部分处于领先位置，对比于基线算法在成功率与精确率上有一定的提高。但本文算法对于快速运动的目标跟踪表现稍逊色，下一步将针对目标的跟踪速度进行优化研究。