复杂场景下自适应特征融合的图像运动目标跟踪算法研究

2023-06-25 01:06朱冰刘琦余瑞星

航空兵器 2023年2期

朱冰　刘琦　余瑞星

摘要：针对目标跟踪所面临的尺度变化、快速运动导致的跟踪漂移或失败问题，提出一种复杂场景下自适应特征融合的图像运动目标跟踪算法。本文分别设计了目标分类和目标估计模块，并将其有效结合。在目标分类模块，设计了一种自适应特征融合机制。该机制融合了多层深度特征以实现有效的在线跟踪。此外，设计的联合更新策略通过优化投影矩阵层和相关层，在处理运动模糊、严重目标形变时具有更强的鲁棒性。在目标估计模块，引入IoU（Intersection over Union）最大化的理念，预测目标和估计边界框之间的IoU分数，在跟踪过程中，通过使用梯度上升最大化IoU分数来估计目标状态，获得更加精确的边界框。实验结果表明，本文所提出的算法具有更出色的跟踪性能，其在OTB100， UAV123及LaSOT数据集上的SAUC分别为70.1%， 47.6%和51.6%，优于其他相关算法。

关键词：目标跟踪；深度学习；目标分类；目标估计；特征融合中图分类号： TJ760; V249

文献标识码： A文章编号： 1673-5048（2023）02-0125-06

DOI： 10.12132/ISSN.1673-5048.2022.0094

0引言

目标跟踪［1］是许多应用领域不可缺少的一部分，属于计算机视觉的基本分支。到目前为止，许多跟踪挑战，例如尺度变化、快速运动、形变、遮挡、平面旋转和背景杂波［2］等，仍然有待解决。一般跟踪问题可分为分类任务和估计任务。在目标分类任务中，通过将图像区域划分为前景和背景来提供目标在图像中的粗略位置。而目标估计任务是估计目标状态，通常用一个边界框来表示。

近年来，深度神经网络［3］一直是跟踪研究中的重点，已经有大量研究使用深度特征完成目标跟踪，该类跟踪器［4］在准确性方面具有优势，但其鲁棒性却低于其他跟踪器。这是由于在深度神经网络设计中，现有算法几乎没有设计单独的网络模块来完成目标的状态估计［5］。事实上，目前最先进的跟踪器［6］仍然是依靠分类进行多尺度搜索来估计目标，这种算法难以处理因跟踪目标发生尺度变化导致的跟踪结果不准确甚至跟踪失败的问题。为此，本文将跟踪中的目标估计模块和目标分类模块相结合。在目标分类模块中，为了提供一种更好的特征表示，充分利用多层深度特征所提供的不同信息，提出一种自适应特征融合策略，实现目标的粗定位，并设计一种更新策略，在外观明显变化期间对目标实现精确跟踪。在目标估计模块中，通过边界框来预测目标的状态，利用IoU-Net［7］方法中IoU最大化思想来进行调整以得到精确的目标边界框。实验结果表明，与现有算法相比，本文所提出的算法在保持鲁棒性的同时，能更加精确地估计目标状态，具有良好的性能。

1复杂场景下自适应特征融合的运动目标跟踪算法

1.1目标估计模块

目标状态估计模块是在一个粗略的初始估计下确定目标的边界框。在目标估计模块的算法设计中，利用IoU-Net中最大化IoU的思想，在跟踪过程中，通过简单地最大化每一帧中预测的IoU来调整所得的目标边界框，该模块网络架构如图1所示。

从网络架构图可以看出，目标估计模块由两个分支组成：参考分支和测试分支。在参考分支中，参考图像的特征和目标的初始边界框标注作为输入，经过骨干网络ResNet-50［8］提取其Block 3的特征，并将其送到卷积层［9］，然后根据输入的参考图像指定区域对特征图进行PrRoI（Precise Region of Interest） pooling［10］操作，得到两个大小一致的局部特征图。参考分支的输出是一个系数向量y（xr， b），向量的大小是1×1×Dy，而且向量内部的元素都是大于0的数。由图1可见，参考分支的网络结构主要由卷积层、 PrRoI pooling和全连接层组成［11］。

1.2目标分类模块

1.3自适应特征融合策略

在跟踪算法中，提取特征的有效性直接影响跟踪的结果。而在面对不同环境下的不同特征时，一些经典的跟踪算法中，如ATOM［15］跟踪框架，难以做到描述目标的跟踪特征随场景的变化而变化，适应能力低，从而造成目标在被遮挡或者在高速运动的情况下发生跟踪漂移甚至目标丢失的情况。针对这一问题，本文提出一种自适应特征融合策略，为跟踪阶段的分类提供一种更好的特征表示，从而提升跟踪器的整体性能。自适应特征融合框架图如图3所示。给定一个即将到来的视频帧（第t帧），将图像送到预先训练的图像分类主干网络中进行特征提取。采用深层和浅层的特征图，以更好地表征输入图像，然后，自适应特征融合机制将第一帧和前一帧的目标特征都作为输入。特征融合阶段输出各层的权重，以此来调整当前图像多级特征的输入。

将骨干网络提取的浅层和深层特征图分别记为fs和fd。不同层的特征表现出不同的外观属性，并在各种跟踪挑战中扮演不同的角色。对于浅层特征fs而言，具有高的空间分辨率，在跟踪过程中，浅层特征有助于实现准确的跟踪，可以应对诸如尺度变化、运动模糊等挑战。但是，在诸如平面外旋转或变形的情况下，浅层特征的贡献就相对较小。相比之下，深层特征fd包含了更多的语义信息，能够解决浅层特征无法解决的问题。另一方面，多層特征提供了多尺度信息，这对于目标的分类至关重要。因此，将浅层特征fs和深层特征fd在通道维度上连接起来，形成更丰富、更完整的特征表示。值得注意的是，浅层特征fs和深层特征fd的空间分辨率不同，直接连接不便于后面的关联操作。因此，需要将浅层特征fs和深层特征fd的大小调整为相同的空间维度。总之，将浅层特征和深层特征相融合，通过整合利用浅层和深层优势的外观信息，可以获得更强大的分类特征表示。

1.4更新策略

自适应特征融合机制通过融合浅层特征和深层特征，成功地抑制了冗余和误导性信息。为了进一步消除高维融合特征的数据冗余，采用投影矩阵层通过1×1卷积层进行降维。该操作降低了计算成本，并且增加了分类模块中相关滤波的鲁棒性。

投影矩阵层在分类中起着重要的作用，但仅在初始化阶段学习。在跟踪后续视频帧时，投影矩阵层的参数是固定的，只有相关层是在线更新的。在现有的跟踪算法中，一般假设在初始帧中训练的投影矩阵层对序列的其余部分都有足够的鲁棒性。但是，如果存在明显的外观变化，降维后的特征质量会变差。同时，降维后的特征及其对应的响应图被收集为训练样本，如果使用此样本训练相关层会有风险。为了缓解这一问题，研究一种新的更新策略，同时更新投影层和相关滤波器，即在模型初始化和更新的两个阶段中学习权重参数。更新策略的框架如图4所示。在线跟踪过程中，不断生成训练数据。如果一帧的跟踪结果足够令人信服，则将多级特征图xi添加到内存中，并以估计目标位置为中心的高斯形状yi进行注释。每隔给定帧（50帧），利用存储在内存中的训练样本，对投影矩阵层和相关层进行联合训练。其中，可使用随机梯度下降法来优化分类模块的损失函数。

2实验

2.1实验设置

本文提出的目标跟踪算法（Target Tracking Based on Adaptive Feature Fusion， TTAFF）是基于深度学习框架PyTorch在python中实现的。使用在ImageNet上经过预训练的ResNet-50作为本文跟踪算法的骨干网络。目标估计模块采用离线训练，离线训练数据集为LaSOT数据集。目标估计模块包括参考分支和测试分支，对数据集进行采样并添加扰动，分别生成参考分支数据集图像和测试分支数据集图像。使用均方差损失函数，训练50个周期，每批包含64个样本对，采用随机梯度下降法来最小化损失函数，训练网络模型；目标分类模块采用在线训练。为了充分验证所提出的目标跟踪算法的有效性，将该算法与其他现有的目标跟踪算法在OTB100［16］， UAV123［17］， LaSOT［18］数据集上作比较，并进行性能评价。

2.2特征融合权重自适应过程

图5显示了在跟踪过程中特征权重的自适应过程。其中（a）～（d）为person 7序列，（e）～（h）为car 4序列。

一般情况下，本文算法能够很好地平衡浅层特征权重αs和深层特征权重αd。从图5可以看出，当面临运动模糊（如图5（b））、尺度变化（如图5（d）），以及区分目标和类间干扰物（如图5（f）和（h））等挑战时，由于浅层特征可以提供详细的空间信息，因此浅层特征的贡献较多，浅层特征权重αs增大。当目标出现变形（如图5（c））和遮挡（如图5（g））等挑战时，相应的深层特征权重αd的值增大。以上实验结果证明，自适应融合策略可以适应目标跟踪中的各种挑战，实现更好的跟踪效果。

2.3不同算法对比实验

2.4消融实验

本文采用消融实验在OTB100数据集上评估所提方法中每部分的影响。该数据集包含了种类繁多的视频，这些视频在许多方面都具有挑战性，比如变形、遮挡和干扰等。

2.4.1目标估计模块的影响

将目标状态估计模块与仅使用分类模型的多尺度搜索方法进行比较，结果如表3所示，表中COP0.5为重叠精度，其值越大跟踪成功率越高。在SAUC中，本文方法明显优于多尺度方法，并使边界框预测的百分比增加了20%左右，得到较高精度的边界框。

2.4.2目标分类模块影响

将目标分类模块从跟踪框架中排除，以调查其影响。表3中无分类模块表示仅使用目标估计模块来跟踪，使用了较大的搜索区域，所得方法的SAUC达到37.1％，比本文所提出的方法少了近30％。

2.4.3自适应特征融合策略影响

在OTB100数据集上进行消融研究，结果见表4。由表4可以得到如下的结论：首先，与使用一层特征相比，利用多层特征可以获得更好的性能。其次，利用所提出的自适应特征融合机制，跟踪效果优于多层特征直接级联。其中，与利用第3層特征相比，直接级联第2层和第3层特征的精度得分为83.9%。当采用自适应融合特征后，跟踪效果提高了0.6%，达到84.5%。需要注意的是，当直接级联第2层和第4层的特征时，精度得分会下降，这归因于第4层的特征经过调整大小后包含了冗余和误导性信息。然而，与仅使用第2层特征和第2层与第4层的直接级联版本相比，自适应融合版本分别提高了0.5%和2.8%。实验结果进一步验证了所提出的自适应特征融合机制的有效性。

由表4可以看到，第3层特征和第4层特征直接级联后性能大幅下降，达到67.4%。这表明，在特征融合过程中，低层次的判别细节信息和高层次的语义信息是互补的。在第3层和第4层特征融合上应用自适应特征融合机制，精度分数提高了3.8%。对第2层、第3层和第4层的特征进行整合后，在直接级联和自适应的特征融合版本中，跟踪精度分别达到81.6%和81.9%。

2.4.4更新策略影响

如表4所示，投影矩阵层和相关层同时更新的策略提高了跟踪性能。分别利用单层特征和多层特征作为输入来评估其有效性。更新策略以第2层和第3层的特征作为输入，性能分别提高了1.1%和1.3%。此外，本文所提出的策略在使用融合特征时也是有效的。当投影矩阵和相关层的输入融合第2层和第3层的特征时，精度分数提高了约0.7%。

3結论

本文提出复杂场景下运动目标的跟踪算法，通过在目标分类模块中设计一种自适应特征融合策略，以提供更好的特征表示，并提出一种更新策略，使得在目标外观发生明显变化时，仍能实现精确的跟踪，最终将目标跟踪问题中的目标分类模块和目标估计模块相结合，使目标发生尺度变化、快速运动等时，算法鲁棒性更强，达到改进目的。

参考文献：

［1］陈旭，孟朝晖. 基于深度学习的目标视频跟踪算法综述［J］. 计算机系统应用， 2019， 28（1）： 1-9.Chen Xu， Meng Zhaohui. Survey on Video Object Tracking Algorithms Based on Deep Learning［J］. Computer Systems ＆ Applications， 2019， 28（1）： 1-9.（in Chinese）

［2］ Villeneuve E， Harwin W， Holderbaum W， et al. Signal Quality and Compactness of a Dual-Accelerometer System for Gyro-Free Human Motion Analysis［J］. IEEE Sensors Journal， 2016， 16（16）： 6261-6269.

［3］ Danelljan M， Bhat G， Khan F S， et al. ECO： Efficient Convolution Operators for Tracking［C］∥IEEE Conference on Computer Vision and Pattern Recognition， 2017.

［4］ Qi Y K， Zhang S P， Qin L， et al. Hedged Deep Tracking［C］∥IEEE Conference on Computer Vision and Pattern Recognition， 2016.

［5］卢湖川，李佩霞，王栋. 目标跟踪算法综述［J］. 模式识别与人工智能， 2018， 31（1）： 61-76.Lu Huchuan， Li Peixia， Wang Dong. Visual Object Tracking： A Survey［J］. Pattern Recognition and Artificial Intelligence， 2018， 31（1）： 61-76.（in Chinese）

［6］ Han B， Sim J， Adam H. BranchOut： Regularization for Online Ensemble Tracking with Convolutional Neural Networks［C］∥IEEE Conference on Computer Vision and Pattern Recognition， 2017.

［7］ Jiang B R， Luo R X， Mao J Y， et al. Acquisition of Localization Confidence for Accurate Object Detection［C］∥Computer Vision-ECCV， 2018.

［8］ He K M， Zhang X Y， Ren S Q， et al. Deep Residual Learning for Image Recognition［C］∥IEEE Conference on Computer Vision and Pattern Recognition， 2016.

［9］闵召阳，赵文杰. 基于深度学习的目标抗干扰跟踪算法［J］. 红外技术， 2018， 40（2）： 176-182.Min Zhaoyang， Zhao Wenjie. Target Anti-Jamming Tracking Algorithm Based on Depth Learning［J］. Infrared Technology， 2018， 40（2）： 176-182.（in Chinese）

［10］ Lin M， Chen Q， Yan S C. Network in Network［C］∥International Conference on Learning Representations （ICLR）， 2014.

［11］ Hinton G E， Srivastava N. Krizhevsky A， et al. Improving Neural Networks by Preventing Co-Adaptation of Feature Detectors［C］∥International Conference on Machine Learning （ICML）， 2012.

［12］ Galoogahi H K， Fagg A， Lucey S. Learning Background-Aware Correlation Filters for Visual Tracking［C］∥IEEE International Conference on Computer Vision （ICCV）， 2017： 1144-1152.

［13］ Nair V， Hinton G E. Rectified Linear Units Improve Restricted Boltzmann Machines［C］∥International Conference on Machine Learning （ICML）， 2010.

［14］ Qian N. On the Momentum Term in Gradient Descent Learning Algorithms［J］. Neural Networks， 1999， 12（1）： 145-151.

［15］ Danelljan M， Bhat G， Khan F S， et al. ATOM： Accurate Tracking by Overlap Maximization［C］∥IEEE/CVF Conference on Computer Vision and Pattern Recognition， 2019.

［16］ Wu Y， Lim J， Yang M H. Object Tracking Benchmark［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2015， 37（9）： 1834-1848.

［17］ Mueller M， Smith N， Ghanem B. A Benchmark and Simulator for UAV Tracking［C］∥Computer Vision-ECCV， 2016.

［18］ Fan H， Lin L T， Yang F， et al. LaSOT： A High-Quality Benchmark for Large-Scale Single Object Tracking［C］∥IEEE/CVF Conference on Computer Vision and Pattern Recognition， 2019.

［19］ Danelljan M， Robinson A， Shahbaz Khan F， et al. Beyond Correlation Filters： Learning Continuous Convolution Operators for Vi-sual Tracking［C］∥Computer Vision-ECCV， 2016.

［20］ Nam H， Han B. Learning Multi-Domain Convolutional Neural Networks for Visual Tracking［C］∥IEEE Conference on Compu-ter Vision and Pattern Recognition， 2016.

［21］ Bhat G， Danelljan M， van Gool L， et al. Learning Discriminative Model Prediction for Tracking［C］∥IEEE/CVF International Conference on Computer Vision （ICCV）， 2019

［22］ Bertinetto L， Valmadre J， Golodetz S， et al. Staple： Complementary Learners for Real-Time Tracking［C］∥IEEE Conference on Computer Vision and Pattern Recognition， 2016.

［23］ Bertinetto L， Valmadre J， Henriques J F， et al. Fully-Convolutional Siamese Networks for Object Tracking［C］∥Computer Vision-ECCV， 2016.

［24］ Galoogahi H K， Fagg A， Lucey S. Learning Background-Aware Correlation Filters for Visual Tracking［C］∥IEEE International Conference on Computer Vision （ICCV）， 2017.

［25］ Li F， Tian C， Zuo W M， et al. Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking［C］∥IEEE/CVF Conference on Computer Vision and Pattern Recognition， 2018.

［26］ Danelljan M， Hger G， Khan F S， et al. Learning Spatially Regularized Correlation Filters for Visual Tracking［C］∥IEEE International Conference on Computer Vision （ICCV）， 2015.

［27］ Li B， Wu W， Wang Q， et al. SiamRPN++： Evolution of Siamese Visual Tracking with Very Deep Networks［C］∥IEEE/CVF Conference on Computer Vision and Pattern Recognition， 2019.

［28］ Zhao S C， Xu T Y， Wu X J， et al. Adaptive Feature Fusion for Visual Object Tracking［J］. Pattern Recognition， 2021， 111： 107679.

［29］ Song Y B， Ma C， Wu X H， et al. VITAL： VIsual Tracking via Adversarial Learning［C］∥IEEE/CVF Conference on Computer Vision and Pattern Recognition， 2018.

［30］ Choi J， Chang H J， Fischer T， et al. Context-Aware Deep Feature Compression for High-Speed Visual Tracking［C］∥IEEE/CVF Conference on Computer Vision and Pattern Recognition， 2018.

Research on Image Moving Target Tracking Algorithm Based on

Adaptive Feature Fusion in Complex Scenes

Zhu Bing Liu QiYu Ruixing

（1. School of Electronic Engineering， Xian Shiyou University， Xian 710065， China；

2. Beijing Institute of Remote Sensing Equipment， Beijing 100039， China；

3. School of Astronautics， Northwestern Polytechnical University， Xian 710072， China）

Abstract： Aiming at the problems of tracking drift or failure in target tracking for the scale change and fast motion， a image moving target tracking algorithm based on adaptive feature fusion in complex scenes is proposed. In this paper， the target classification module and target estimation module is designed respectively and combined effectively. In the target classification module， an adaptive feature fusion mechanism is designed， and it integrates multi-layer depth features so as to achieve effective online tracking. Moreover， the designed joint update strategy is more robust in dealing with motion blur and severe target deformation by optimizing the projection matrix layer and the correlation la-yer. In the target estimation module， the concept of IoU（Intersection over Union） maximization is introduced to predict the IoU score between bounding boxes and the estimation target. During the tracking process， the target state is estimated by using gradient ascent to maximize the IoU score to obtain a more accurate bounding box. Experimental results show that the proposed algorithm has excellent performance， with SAUC of 70.1%， 47.6%， 51.6% on OTB100， UAV123 and LaSOT datasets， which is superior to other related algorithms.

Key words： target tracking； deep learning； target classification； target estimation； feature fusion