基于通道特征选择的加权响应目标跟踪

2022-02-09 02:19刘佳榆
计算机仿真 2022年12期
关键词:特征选择插值滤波器

刘佳榆,余 华,徐 舒

(武汉东湖学院电子信息工程学院,湖北 武汉 430200)

1 引言

视觉目标跟踪是指在视频序列中利用第一帧目标信息和后续帧中目标之间的关联信息来获得目标状态和位置的一种计算机视觉技术。其被广泛应用于视频监控、行为分析、人机交互等诸多领域。

现有的目标跟踪算法包括模板匹配、统计学习、粒子滤波、相关滤波、深度神经网络等几大类,其中相关滤波跟踪算法由于在速度和精度上取得了较好的折中,所以受到了目标跟踪领域研究者们的广泛关注。Matthias Mueller等[1]提出上下文感知相关滤波算法,通过将全局环境上下信息集成到相关滤波器学习过程中使得滤波器能够结合环境上下文信息对目标进行判别,极大的提高了跟踪的精确度;Wang等[2]提出多线索相关滤波跟踪算法,通过构建特征专家库和最优特征评估准则的方法选择最佳特征应用于特定帧进行目标跟踪,实现具体到帧的最优特征选择,使得应用于目标跟踪的特征针对针对性进一步加强,取得了较好跟踪效果;孙希延等[3]提出亚像素相关滤波跟踪算法,该算法利用抛物线模型对离散的目标响应值近似拟合,然后引入泰勒级数对拟合后的连续二次曲线求解,使得目标跟踪的定位精度达到亚像素级别;Huang等[4]提出学习畸变抑制的相关滤波器的无人机实时目标跟踪算法,其通过引入正则化项的方式来抑制由引入的背景噪声信息引起的相响应图畸变,从而提高了算法在复杂背景下的跟踪稳健性。

相关滤波类算法诞生初期,所采用表示目标的特征一般为CN特征、HOG特征等人工设计特征,随着深度学习的疾速发展,研究人员发现深度卷积特征具备强大的特征表征能力,因此深度卷积特征被引入到相关滤波框架下进行目标跟踪,提高算法的精确度与稳健性。但是,目前的相关滤波跟踪算法在利用深度特征进行目标跟踪的时候,多采用神经网络最后一层特征进行跟踪,忽略低层卷积特征包含的目标轮廓信息对目标定位的有利影响。与此同时深度卷积特征以多个通道维度对目标各属性进行表征,可能存在通道特征冗余和特征不相关问题,这会导致算法复杂度过高和跟踪精度受损。

因此,为了解决上述问题,本文首先通过在通道维度上定义一个通道正则化项来进行通道特征选择以解决特征冗余和不相关问题,然后通过多层响应图加权融合方式以综合高层语义特征和低层轮廓信息来实现目标定位。

2 传统相关滤波算法

本文算法以传统相关滤波算法为基础框架,因此需要对基础算法框架进行概要介绍,传统相关滤波跟踪算法通过给定第一帧目标外观信息训练滤波器和利用后续帧目标信息进行滤波器更新以实现目标跟踪,由于其速度快、稳健性良好等特点而具备较大应用价值。

相关滤波通过最小化估计目标状态响应与期望目标状态响应之间的误差来实现滤波器的训练,具体如式(1)所示

(1)

在跟踪阶段,除了第一帧学习到的滤波器可以直接在第二帧中用来跟踪以外,其余帧需要需要结合前一帧滤波器对当前帧滤波器进行更新以提高跟踪器的自适应性,具体如式(2)所示

(2)

式中,α∈[0,1]表示预定义更新率,ft表示第t帧训练出的滤波器,其目的是将其用在第t+1帧中进行目标位置预测。

在第t+1帧中首先提取该帧中多通道特征,然后将相应通道滤波器与对应通道特征分别变换到频域,并进行元素点乘获得该通道频域响应图,最后将各通道频域响应图加和便可得到最终频域响应图,具体如式(3)所示

(3)

3 本文算法

本文算法主干分支框架如图1所示:首先通过在ImageNet数据集[5]上预训练的VGG-M[6]网络提取各层深度特征,由于要考虑到各通道特征的分辨率差异,所以需要对提取特征进行隐式插值;然后由于各通道特征可能存在特征冗余和不相关问题,因此采用通道特征选择机制对各通道特征进行选择以降低特征冗余和不相关性,提高特征的表征性能;最后采取低层特征响应与高层特征响应加权融合方式提高算法的定位精度和判别能力。

图1 主干分支框架图

3.1 隐式插值模型

由于采样点不同,而又需要将跟踪问题变换到连续空间域求解,因此需要对特征进行插值,因此采用式(4)所示隐式插值方式进行特征连续性处理

(4)

式中,[0,T)⊂R表示特征图的空间支持范围,bd∈L2(T),其表示希尔伯特空间中的插值函数,p∈[0,T)表示空间域中像素位置。

完成上述插值后,该卷积层响应置信度可定义为多个通道特征响应加和形式,具体如(5)式所示

(5)

式中,fd∈L2(T)表示第d个通道的滤波器,Sf(x)表示卷积层置信度。

经过空间插值操作可得训练滤波器所用到的代价函数如(6)式所示

(6)

式中,yj∈L2(T)表示在希尔伯特空间中xj的标签真值,αj表示每个训练样本的权重。

3.2 通道特征选择

在式(5)中所使用的卷积特征为高维多通道特征,这样的特征存在特征冗余和不相关性,因此会影响所训练滤波器的性能,为了解决这一问题,本文引入文献[7]中的稀疏组套索方法对特征进行选择,其具体式如(7)式所示

(7)

式中,λ2为平衡参数,在(7)式中第二项即惩罚项其实是先对fd求l2范数,再求加和项的l1范数,这个是典型的l2,1组套索模型,用这种模型便可实现对通道的组特征选择。

3.3 响应加权融合

在(7)式中虽然考虑到了通道特征冗余和不相关问题,但是却没有解决高层语义特征与低层结构特征的结合应用问题,因此所提算法采用文献[8]中多层特征响应加权融合策略提高跟踪的精度,则(5)式变为如下(8)式所示

(8)

式中,Dconv1表示第一层卷积特征的通道数,Dconv5表示第五层卷积特征的通道数,上下标a,b分别表示第a个通道和第b个通道。w1表示第一层卷积特征响应融合权重,w2表示第五层特征响应融合权重。

将(8)式代入(7)式可得所提算法最终跟踪滤波器的最优目标函数

(9)

3.4 尺度估计

对于目标最佳尺度的选择传统相关滤波器一般采用尺度池策略进行估计,但是所提算法由于使用了深度特征进行目标跟踪,如果继续进行尺度池策略进行目标尺度估计会导致算法速度严重下降,因此所提算法采用文献[ ]中的方法通过利用HOG特征训练一个专用的尺度估计模型进行尺度估计,从而使得在尺度估计过程中算法速度不下降。

所提算法的尺度估计框架如图2所示,分别训练两个相关滤波器模型,一个用于目标定位,一个用于目标尺度估计。目标定位阶段由于考虑到定位准确度,所以采用上文提出的通道特征选择和加权响应相结合训练出的模型进行定位,目标尺度估计则利用HOG特征训练出的传统核相关滤波器(KCF)模型进行尺度估计,ADMM表示的是交替方向乘子法,其用于对(9)式和尺度估计模型进行参数优化求解。

图2 尺度估计框架示意图

(10)

式中,通过比较各个尺度的下响应图峰值大小,最大峰值的特征图所对应的目标尺度为最佳尺度。

4 实验分析

为分析算法的效果,通过采用表1所示的OTB2015数据集中9组测试视频序列对所提算法进行性能测试,并与近几年性能较为优秀的自适应空间正则化相关滤波算法(ASRCF)[9]、学习连续卷积算子跟踪算法(CCOT)[10]、联合群特征选择和判别滤波算法(GFSDCF)[7]、对冲深度跟踪算法(HDT)[11]、多任务相关粒子滤波跟踪算法(MCPF)[12]等算法进行定量与定性分析以论证算法的有效性。

表1 9组视频序列属性

4.1 实验配置与参数设置

本文所用实验环境为Win10操作系统,实验平台为Matlab2020a,硬件配置CPU 12核3.8GHz Intel I7处理器,内存(RAM)为32G,显卡为双路RTX TITAN。通过经验调优对算法参数进行了设定,平衡参数λ2=1.3,权重参数w1和w2分别设置为0.3和0.7。

4.2 定量分析

为了客观分析所提算法CFSWR的效果,在实验中通过测定所提算法的成功率和精确度以量化分析算法性能。通过实验对比分析得到如图3所示成功率图和图4所示精确度图。

在图3中可知所提算法成功率为0.929,成功率在6种算法中排名第一,相较于CCOT算法提升9.2%;在图4中可知所提算法精确度为0.929,精确度在6种算法中也排名第一,相较于CCOT算法提升3.2%。根据成功率和精确度的定量比较可知所提算法CFSWR的准确性和鲁棒性良好。

图3 成功率图

图4 精确度图

4.3 定性分析

为了更直观分析本文所提算法效果,实验中通过分别记录算法在背景杂乱、运动模糊、尺度变化等三种情况下的跟踪结果框图以进行定性分析。

4.3.1 背景杂乱场景算法性能分析

图5所示为背景杂乱情况下各算法的跟踪效果,在carDark视频序列中由于夜间行车,周围灯光干扰和相似目标导致跟踪环境背景比较杂乱,对跟踪目标汽车产生了较大挑战,在第229帧中HDT算法虽然应用了多层卷积特征,但是其没有考虑到特征冗余问题,所以其产生了跟踪漂移现象,在第280帧中MCPF也产生了大幅度跟踪漂移,这是因为MCPF算法虽然考虑到多尺度和多层特征相关性,但其没有解决特征冗余问题,所以导致算法在较为复杂环境下产生跟踪漂移。

在soccer序列中由于田径庆祝时所使用的彩花、人体运动、服装相似等情况导致背景非常复杂,在shaking序列场景为摇滚音乐场景,由于夜间强光闪烁和摇滚歌手的快速运动等导致所拍摄场景比较混乱,因此在soccer序列第177帧、353帧和shaking序列第193帧、338帧时不仅HDT、MCPF出现跟踪漂移,而且CCOT算法也出现了小幅度跟踪漂移,这是因为CCOT算法考虑到了多层卷积特征分辨率差异问题,对其进行了空间变换插值处理,所以在背景杂乱场景下跟踪效果较好,但由于没有考虑到特征不相关性和冗余问题,所以仍会出现产生跟踪漂移问题。然而,由于CFSWR不仅考虑到多层卷积特征融合问题和特征分辨率不一致问题,还考虑到特征相关性和冗余性,因此在图5所示背景杂乱的三个序列中跟踪效果较好。

图5 背景杂乱

4.3.2 运动模糊场景算法性能分析

图6所示为运动模糊情况下各算法的跟踪效果,在ironman序列中钢铁侠运动速度极快且背景较为复杂,导致图片产生运动模糊效果,在这种环境下跟踪目标难度极大。在ironman序列第120帧时只有本文所提算法CFSWR和CCOT算法能够准确跟踪目标,这是因为相交于其它算法这两个算法使用了都使用了多层卷积特征且考虑了各层特征分辨率不一致问题,所以最后使用的特征表征能力较强,能在运动模糊场景下较好跟踪目标,但是相比较而言由于所提CFSWR算法考虑了特征不相关性和冗余性,所以跟踪更为准确,这点从ironman序列第120帧中也得到了印证。

blurOwl序列的运动模糊效果主要是由于录像过程中相机快速运动导致产生运动模糊效果,而david序列的运动模糊效果主要由人体相对于相机快速移动导致,可以发现在blurOwl序列的第154帧、370帧和david序列的第461帧、770帧时ASRCF、CCOT、GFSDCF、HDT、MCPF等算法大多发生一定程度的跟踪漂移现象,而本文所提算法由于不仅采用了深度特征,而且在进行多层特征响应融合时还考虑到分辨率差异和特征不相关性剔除,所以在3个运动模糊挑战序列中能够精准跟踪目标。

图6 运动模糊

4.3.3 尺度变化场景算法性能分析

图7所示为尺度变化情况下各算法的跟踪效果,在doll序列中由于玩具离相机远近不同导致所录玩具的尺度差异比较大,这给目标尺度估计带来了严峻的挑战。在doll序列的第886帧中所提CFSWR算法的尺度估计最为准确,而HDT最差,这是因为CFSWR算法采用了一个尺度估计专用模型,在不牺牲速度的前提下实现高精度尺度估计,而HDT算法主要的是使用多层卷积特征融合,对于尺度估计方面仅采用单一的尺度因子进行控制,所以其尺度估计效果不佳。

dragonBaby序列的尺度变化挑战主要是由于小孩在剧烈运动导致离镜头远近不一所造成,而rubik序列中人在对魔方进行旋转和相对镜头平移也导致所录制的魔方的尺度不一致。在dragonBaby序列的第47帧和第85帧ASRCF算法均跟踪失败,这是由于ASRCF虽然考虑到多层特征融合但是由于其没有考虑到特征不相关性,所以面对复杂的场景适应性较差。在rubik序列的第1362帧时由于魔方尺度和旋转变化程度较大,所有目标尺度估计的准确度均受到较大影响,MCPF的尺度偏差最大,这是由于该算法虽然通过粒子采样策略处理尺度变化,但没有使用深度特征,在目标定位不准确情况无法进行良好的尺度估计,因此效果较差,而本文所提算法虽然尺度估计也出现了失误,但由于其使用多层卷积特征融合且考虑到特征不相关性,所以其尺度估计失误程度比较低。

图7 尺度变化

4.4 算法时间复杂度

在算法设计中实用性评估是非常关键的环节,为了评估算法的实用性实验中记录了几种算法的平均速度以进行算法时间复杂度评估,具体如表2所示。从表中可以看出ASRCF算法速度最快,这是因为其使用了双路并行模型分别对算法的位置和尺度进行估计,其速度实时性得到了保障;CCOT算法于使用了三次样条函数进行插值且每帧进行了五次串行尺度估计,所以其速度比较低,不能实时应用;MCPF算法虽然使用了传统特征,但其采用了粒子采样策略使得算法速度十分受限,也不能实时应用。而本文所提CFSWR算法既具备了CFSWR的双路并行模型,又具备GFSDCF算法的特征选择方法,其速度虽然由于进行特征不相关性和特征冗余处理时被降低,但最终测定平均速度也达到了10.1帧每秒,这个速度在实际工程中如果采用视频抽帧法可以达到实时应用要求,因此本文所提算法可以应用于工程实践。

表2 算法平均运行速度对比

5 结论

本文针对传统核相关滤波算法采用多卷积特征响应融合、通道特征选择、双路模型分别进行定位和尺度估计等策略解决目标跟踪过程中特征表征能力不足、特征冗余、尺度估计导致算法速度慢等问题,提高目标跟踪的准确性和稳健性。本文具体创新点如下:①采用多层特征响应融合方式提高特征表征能力。②采用空间插值方法解决卷积层特征分辨率不同问题。③采用通道特征选择策略解决通道特征不相关和冗余问题。④采用双路模型进行目标定位与尺度估计使得算法在高精度尺度估计下速度几乎不受影响。⑤在公开测试集上测试所提算法性能,经测试所提算法的准确性和稳健性良好。

猜你喜欢
特征选择插值滤波器
从滤波器理解卷积
基于Sinc插值与相关谱的纵横波速度比扫描方法
基于pade逼近的重心有理混合插值新方法
开关电源EMI滤波器的应用方法探讨
一种微带交指滤波器的仿真
混合重叠网格插值方法的改进及应用
Kmeans 应用与特征选择
基于TMS320C6678的SAR方位向预滤波器的并行实现
联合互信息水下目标特征选择算法
基于特征选择聚类方法的稀疏TSK模糊系统