基于目标增强和视觉跟踪的红外运动点目标半自动标注算法

2022-10-25 12:29回丙伟易梦妮胡卫东

红外技术 2022年10期

关键词：关键帧红外像素

何敏，回丙伟，易梦妮，胡卫东

〈图像处理与仿真〉

基于目标增强和视觉跟踪的红外运动点目标半自动标注算法

何敏，回丙伟，易梦妮，胡卫东

（国防科技大学电子科学学院ATR重点实验室，湖南长沙 410073）

本文针对红外视频数据标注效率低、标注质量差等问题，提出了一种基于目标增强和视觉跟踪的红外序列图像中运动点目标半自动标注方法。首先对一段连续时间内的红外序列图像进行配准和背景对消以增强目标特征；然后使用视觉跟踪算法对增强后的特征进行高效自动定位；最后通过相位谱重构得到单帧图像的目标显著图，进而确定目标的准确坐标；在自动标注过程中，利用相邻帧标注结果的差异性选择关键帧，可以让标注人员快速定位可能发生错误的图像帧并对其进行手动标注。实验结果表明该算法可以显著降低标注人员的参与度，有效解决数据标注作业中周期长、质量难以保证的问题。

半自动标注；红外点目标；视觉跟踪；序列图像

0 引言

2009年受益于大规模标注数据集的出现，人工智能技术取得了跨越式发展。随后数据标注作为一项基础性工作也逐渐得到重视。数据标注是指在数据加工阶段利用标注工具将数据中被机器用以学习和认知特征的部分加上标签的过程。大数据时代下，数据标注是一项庞大的工程，而视频标注一直是大数据标注领域的难点。此类数据具有体量大、处理困难的特点。随着技术的发展，基于人机协同的视频半自动标注算法研究逐渐增多。而现阶段的视频半自动标注算法多数是针对可见光图像中的扩展目标进行研究的，对红外点目标的半自动标注研究甚少。而红外运动点目标检测识别作为红外成像探测系统的关键技术之一，一直是研究的重难点问题，特别是现代智能目标识别技术的发展，对红外目标数据集的标注效率及标注质量提出了更高的要求。

视频与单张图像相比，多了时间上下文信息且相邻帧之间存在大量冗余信息，因此采用交互式跟踪的方法对其进行快速标注已成为视频标注的主流手段。早期的视频标注算法[1-2]大多通过对两帧人工标注的视频帧之间进行坐标插值来加速工作，之后出现了基于几何建模[3]的方法对视频进行半自动标注。此类方法假设目标在两个手工标注的图像帧之间为匀速运动，对剩余帧目标位置进行预测，无需使用目标的视觉信息，对于模糊图像或者包含遮挡目标的图像更具有鲁棒性，但是标注质量受人工标注频率影响较大，如果需要获得较高的标注质量，标注人员需要密集介入标注过程。当标注人员的参与程度较低时标注结果将不可避免地产生误差，这种误差对于扩展目标而言有时是可接受的，但是对于成像面积只有一两个像素大小的红外运动点目标而言影响非常大。

另一类使用视觉信息的标注算法[4-8]，利用标注人员给出的初始信息对目标进行交互式视觉目标跟踪进行标注。视觉目标跟踪是指在当前帧中给出目标的位置信息，然后通过目标的颜色、形状等外观信息，在后续帧中对目标进行持续跟踪的过程。其中，影响较大的算法为Carl Vondrick[4]等人提出的通过在每次标注人员提供一个标注信息后求解一个动态规划问题并对剩余帧进行标注。Bakliwal[9]等人利用多个算法对同一目标进行视觉跟踪并融合其跟踪结果得到更为精确的标注信息。此类方法需要目标的外观信息，当目标不发生遮挡或形变时可以依靠少量的手工标注信息得到较好的标注质量。但是，红外弱小目标本身并不具备纹理、形状、颜色等特征，直接使用此类跟踪算法无法获得理想的标注效果。

同时，有研究人员[4]发现如果由标注人员自己选择一段视频中需要标注的帧，不仅要耗费标注人员大量的精力，而且还会降低标注速度。这些需要人标注的帧称为关键帧，一些工作探寻了如何选取关键帧的问题。如Curve-VOT[10]利用多边形拟合的方式拟合跟踪轨迹，将最靠近顶点的帧作为关键帧。文献[5,11]采用最大模型改变期望策略选择关键帧。这些方法都试图找出标注最有可能发生错误的帧并交予标注人员进行标注。

通过上述分析，本文结合红外视频点目标数据开展高效的半自动标注方法研究。主要工作如下：

①针对纯手工标注效率低下的问题，本文利用人机协同的方法对红外运动点目标进行高效的半自动标注。

②针对红外点目标自动定位难的问题，本文综合运用视觉跟踪算法和相位谱重构技术实现了由粗到精的点目标坐标自动定位。

③针对点目标标注提出了一种关键帧选择策略，自动返回关键帧给标注人员进行校验，不需要标注人员全程参与整个跟踪过程。

1 红外运动点目标半自动标注的基本原理

1.1 红外运动点目标高效半自动标注算法流程

本文设计了基于目标增强和视觉跟踪的半自动标注算法，当红外序列图像输入时，首先利用图像配准算法对红外序列图像进行对齐及背景对消来增强红外点目标的特征，标注人员对增强之后的首帧目标特征进行标注，标注形式为矩形框，然后利用目标跟踪算法对增强之后的目标进行粗定位，接着利用跟踪框和相位谱重构对目标得到目标准确的位置，同时选取发生错误概率较大的关键帧交予标注人员进行标注，从而实现人机协同下的红外运动点目标高效半自动标注。具体流程图如图1所示。

图1 半自动标注流程

1.2 序列图像点目标特征增强

红外点目标特征少，且红外探测系统一般用于较为复杂的环境中，图像背景会出现与目标相似的干扰噪声，直接使用视觉跟踪算法无法对点目标进行持续且准确的跟踪，因此利用多帧图像累积点目标的运动信息，然后使用差分消除图像序列的背景信息，突出目标的运动区域，减少背景的干扰。

通过点目标的运动信息对其进行增强，具体操作分为两步：①对序列图像进行配准，如图2所示，将2＋1张图像利用配准算法对图像序列进行对齐，其中以第＋1张图像为基准图像；②在对应位置取2＋1张图像的最大值、平均值并对其进行差分，具体公式如下：

式中：A(,)表示配准后的第张图像(,)位置上的像素值；max(,)表示配准后的2＋1张图像在(,)位置上取最大值；avg(,)表示配准后的2＋1张图像在(,)位置上取平均值，图像为所求的目标增强图。

图3为增强之后的效果对比图，由图可知增强之后的图像，不仅消除了部分背景噪声，目标区域的能量强度也被增强，具有较强的辨识度，因此在增强图上对红外点目标的位置进行初步定位。

图2 序列图像配准

图3 增强效果对比：(a) 原图；(b) 增强图

1.3 视觉目标跟踪

序列图像相比于单张图像多了时间上下文信息，且相邻的图像帧之间存在很强的相关性，因此可以使用视觉跟踪算法实现对目标的快速定位。为了兼顾算法的效率和准确率，本文选用的跟踪算法为核相关滤波算法（kernel correlation filter，KCF）[12]。

1.3.1 KCF目标跟踪

KCF则是将跟踪转化为脊回归的问题，然后通过基样本循环移位得到训练样本，接着利用循环矩阵可被傅里叶矩阵对角化的特点，将计算过程转化到频域进行求解，最后使用核技巧将低维线性不可分的特征映射到高维空间求出回归器的权值参数，并使用回归器得到下一帧图像的输出响应图()，响应最大处为预测的目标位置。其中脊回归器的权值通过式(4)得到：

然后利用训练得到的滤波器寻找相关响应值最大的图像位置：

在跟踪过程中只需对参数进行更新，更新公式如下：

式中：n为式(4)得到的权值；n－1是上一帧的权值，然后根据预设的步长1进行更新。

1.3.2 基于跟踪置信度的模板更新

原始的KCF每帧都会进行更新，但是增强之后的红外目标特征只包含辐射信息，当目标辐射微弱且运动不明显时，很容易受到目标背景的强噪声影响，导致跟踪器跟错、跟丢目标。为了减轻背景强噪声对整个过程的影响，本文使用文献[13]提出的跟踪置信度pce对跟踪模板有选择的进行更新。pce计算公式如下：

式中：max、min、F,h分别表示输出响应图()的最大响应，最小响应和(,)位置上的响应。在对红外弱小目标增强数据集进行跟踪时，检测区域很容易出现相似物干扰，因此输出响应图将会呈现多个峰值，且峰值最高的位置很可能为背景噪声，如果此时跟踪器进行更新则很容易跟错目标，因此使用pce判断输出响应图的震荡程度，pce越大代表输出响应图的震荡越小，跟踪置信度越高，此步骤能有效提高KCF跟踪在增强数据集上的成功。模板更新条件如下：

1.4 红外点目标准确定位

为了得到目标准确的点标注，需利用1.3节得到的跟踪框和原图(,)，得到目标的准确位置(x,y)。步骤如图4所示。

图4 红外点目标的精确定位

因为跟踪框内可能会出现连续的高亮的背景噪声，因此本文利用红外弱小目标所在位置存在区域突变这一特性对其进行精准定位。使用相位谱重构的方法对原图进行处理，对图像进行傅里叶变换可以得到如下两个部分：

式中：(,)表示图像的幅度谱；(,)表示图像的相位谱；FFT表示图像的傅里叶变换。之后对图像相位谱进行重构，如下式：

*(,)＝IFFT[(,)] (12)

式中：*(,)为所求的注意力图，IFFT为图像的傅里叶反变换。直接对相位谱进行重构相当于在对图像重构时将初相不同的平面波幅度置1，而自然图像的能量集中于低频，此步骤相当于滤除低频噪声，突出高频目标，从而消除连续的高亮背景噪声，得到目标准确位置(p,p)。

1.5 关键帧选择

视频图像标注中需要由人标注或检验的图像帧称为关键帧，它为一段图像序列中具有代表性或包含较大信息量的图像帧。本文将具有较大错误概率的帧作为关键帧自动返回给标注人员进行校验，利用最小的代价提高数据集的标注质量。

通过实验发现，最有可能发生标注错误的情况有两种，一是由于某些原因，目标在序列图像的运动突然发生不连续的情况，二是目标长时间静止，融合后依然很微弱，且背景噪声较大，因此容易错误跟踪到杂波。图5具体表明了上述两种错误，如图5(a)所示，由于目标轨迹发生断裂，跟踪框只能跟踪轨迹的一部分，如图5(b)在第帧时目标能被正确检测，但是到＋1帧目标实际上已经在另一半轨迹处，所以图5(c)并未正确检测到目标，虽然之后跟踪算法会随着轨迹前半部分的逐渐减弱、消失而正确寻回目标，但是这种情况易出现连续多帧被错误标注。如图5(d)所示，在第帧时目标区域辐射信息较强尚能正确跟踪到目标，但是在＋1帧时目标辐射信息减弱、背景噪声增强时则会发生跟踪错误的情况（如图5(e)(f)所示）。

1.5.1 利用像素值变化定位关键帧

目标在运动过程中像素值是逐渐变大或者变小的，一般情况下不会产生突变。当目标轨迹断裂而发生错误检测时，算法预测的错误目标位置处的像素值与前一帧正确的目标像素值可能会有较大差距。因此将这一特性作为判断关键帧的依据，判断条件如下：

图5 典型错误分析：(a)(b)(c)目标运动不连续；(d)(e)(f)强背景噪声干扰

Fig.5 Typical error analysis: (a)(b)(c)Discontinuous motion of target;(d)(e)(f) Strong background noise

P表示第帧预测目标的像素值，1和2为预设常数。由于目标的探测亮度与作用到探测器单元的有效面积相关，它的亮度本身就会发生一定的起伏变化，因此在设计这个参数时要排除这种正常的现象。本课题的标注人员是对增强之后的目标进行初始化，每个初始化跟踪框中其实包含了2＋1帧图片目标的位置信息，映射到原图后可以得到2＋1个目标像素点的信息。其中的最小像素值为min，最大像素值为max，利用min/max估算目标正常减小的范围，本文利用9个data进行实验，一共需要初始化9次得到9个估算值，用值最小的估算值来衡量目标正常减小的范围，而相邻帧的目标亮度变化一般不会超过自身的一半，因此1的取值范围为[0.5,]。本课题选取的值为这个取值范围的中点，同理2的取值范围为[min/max, 1.5]，本文选取的值也为这个范围的中点。1和2作为预设值也可以由标注人员选取更加合适的值。

1.5.2 利用前后两帧标注距离定位关键帧

针对目标长时间静止而被强噪声干扰的情况，通过前后两帧标注结果的距离判断可能发生错误的关键帧，因为正常情况下目标在序列图像中的运动应该是连续且规律的，如某帧图像前后两帧标注距离与之前相差较大则将此帧图像作为关键帧。判断条件如下：

式中：d表示第张图像预测目标与前一帧图像预测目标的标注距离，为常数。如果当前帧目标的d远超其历史平均值，则将其判断为关键帧。

2 实验分析与讨论

2.1 数据集与实验设置

对半自动标注算法而言，目前缺乏系统的评价标准。因此本课题采用经过反复校验的手工标注信息作为实验的真值信息，标注位置为点目标上像素值最大的位置，标注形式为点标注。本文选择了公开数据集[14]的8个目标符合大小数据段进行测试，数据集为多种复杂环境下采集的无人机序列图像，数据集基本信息如表1所示。

2.2 结果分析

2.2.1 不同场景下的目标增强算法

本文选取了多个典型实测场景测试红外目标增强算法的适应性。在这几种场景中，红外点目标分别受到探测距离远、遮挡、高亮噪声等影响，目标所在位置的信息很容易被噪声淹没。

图6为不同场景下的增强算法的效果，如图6(a)场景所示，此场景目标的探测距离较近，亮度信息较强，且此时的摄像头没有快速运动，可以观察到3维灰度图中的目标区域（黑点所在位置）的能量明显增强，且没有很多的杂波，另一个能量较强的区域是因为相机本身不正常的感光单元形成的，但是它在后续跟踪构成中并不会落在检测区域，并不会影响后续跟踪过程。场景(d)是因为目标受到遮挡导致其辐射亮度减弱以及树叶的晃动，因此目标增强图的背景仍会存留一部分噪声、场景(g)存有一部分噪声的原因是摄像机的快速移动，场景(j)存在的噪声主要为高亮背景的边缘信息。在面对各种复杂的红外弱小目标探测背景和环境时，此目标增强算法虽不能彻底消除背景噪声。但是与原图相比，增强目标没有被噪声淹没，能够提供更多的信息用来区分它和噪声，保证在进行目标跟踪时，目标所在区域能够及时有效地响应跟踪器。因此，无论背景有较强的边缘噪声、存在运动的干扰背景还是目标由于遮挡导致自身成像灰度降低，抑或是相机的运动导致的噪声，此方法都能够明显增强目标区域的辨识度，消除检测区域中的强噪声的干扰。

表1 数据集的基本信息

图6 不同场景下的目标增强算法：(a)(d)(g)(j)原图；(b)(e)(h)(k)原图的三维灰度图；(c)(f)(i)(l)增强图的三维灰度图

2.2.2 半自动标注算法对比实验

目标的初始位置都是手动标注，使其完全包围需要跟踪的目标，对于3×3个像素矩阵以下的红外点目标来说，直接进行KCF目标跟踪失败率很高，使用本文的增强方法在差分图上进行跟踪能有效提升跟踪的成功率。图7为本文算法与原始KCF对红外点目标跟踪部分结果对比图，如图7所示，蓝色框为初始框，白色框为跟踪框，绿色圆圈是以跟踪得到的点标注为中心进行绘制，上面两行为data5，下面两行为data11。对于远距离探测的data5来说，因为目标提供的信息太少，跟踪框从第二帧就开始发生偏移，到第21帧就彻底跟踪失败。对于data11来说，由于最开始目标的位置较近，目标的辐射信息较强，直接使用KCF跟踪目标成功跟踪了79帧，但是目标一旦运动到具有较高辐射信息的背景区域时就会跟踪失败。但是在使用本文提出的增强方法的数据上进行跟踪，将得到的跟踪框映射到原图，可以发现目标无论是被远距离探测（成像面积小且辐射强度弱），还是经过较为复杂的背景区域导致目标和背景的灰度对比度下降，都能准确地跟踪到目标。因此，本文提出的红外运动点目标增强方法能够有效地提高KCF对红外运动点目标跟踪的成功率。

本文通过KCF跟踪和相位谱重构得到红外点目标的标注位置，表2为在人工标注首帧的情况下算法的正确率（Accuracy），此正确率是与人工标注的真值信息相比，与人工标注结果相同则为正确，否则为标注失败，其中每个数据段的总帧数（number of frames, NF）及人工标注的帧数（number of manual annotations, NMA）都在表中给出。使用本文提出的自动标注算法，能够得到较高的标注准确率。如表2所示，除data13以及data15以外在人手工只标注一帧的情况下都能达到97%以上的标注精度。Data13错误较多的原因是目标在飞入树林以后目标的辐射信息减弱，且目标距离镜头较远，融合之后形成的运动轨迹非常短，因此易被噪声干扰，虽然此类噪声具有一定的随机性，当其减弱后便能重新寻回目标。Data15是因为目标的机动性强，因此目标经常出现不连续运动，导致跟踪算法只能跟踪目标轨迹的一部分，所以正确率较低。

图7 跟踪结果对比

在花费最少的时间与人工代价的前提下，进一步提高标注数据集的准确率。按1.4节所示方法，选择关键帧。各个数据集的错误帧数（number of errors, NE）、算法选择的关键帧数（number of keyframes, NK）以及关键帧中准确查找错误帧的数量（number of correct keyframes, NCK）都如表3所示，表3中的标注正确率表示为在加入关键帧选择策略之后半自动标注算法能达到的正确率。其中data15数据集错误56帧图像，其中有51帧图像为可以被纠正的数据，虽然关键帧策略并没有将错误帧全部选择出来，因为此关键帧只是以前后帧的联系作为判断条件，比如对data15提取关键帧时，提取的关键帧帧号为340及343，但是出现错误的帧为341及342，所以此方法能判断某位置出现异常，但是不一定能准确返回帧号，此种情况多次发生，因此在用此标注方法可以关注返回关键帧的相邻帧，能得到比表3更加优异的结果。尽管如此，本文设计的关键帧选择策略仍然能以较低的时间与人工代价进一步提升数据集的标注质量，提升标注效率。

本文通过与手动标注的时长相比评价算法的效率，半自动标注算法处理一帧平均时间为1.2s，但是手动标注一帧图像约为7s，此算法在实际标注作业中能够大大减少标注时长，缩短标注周期。

2.2.3 定位精度与误差分析

本文提出的算法对红外点目标进行标注，本数据集为各种背景下的无人机小目标，无人机的机头位置一般为高亮区域，机翼的亮度与背景区域相近。本文提出的标注算法可以高效标注目标的高亮位置，得到像素级的点标注。图8表示各种场景下目标的形态以及标注坐标的位置，如图8所示，绿色点为本算法得到的标注位置，它为目标区域中最亮的点。但是，由经验丰富的标注人员可以判断，红色点所在位置其实也属于飞机的机头位置，但是由于它在成像过程中亮度低于本文的标注位置，无法被标注出来。因此，本文的标注算法可以得到像素级的点标注，标注对象为目标上最亮的点，与经验丰富的标注人员相比，本文算法无法得到更加精细的红外点目标分割图。

表2 给出首帧标注信息的标注结果

表3 半自动标注结果

图8 标注精度与误差对比

3 结论

针对红外弱小目标数据集标注周期长、标注质量难把控等问题，提出了一种基于目标增强和视觉跟踪的红外运动点目标标注算法，该算法首先利用目标的运动信息对弱小的红外点目标增强，然后利用改进的KCF算法和相位谱重构实现对红外点目标的精确定位，同时在跟踪过程中算法将可能发生标注错误的图像帧返回给人进行校验。实验结果表明，本文提出的算法能够在保证数据集质量的同时降低人的参与度、提高标注效率、缩短标注周期。

[1] Yuen J, Russell B, Liu C, et al. Labelme video: building a video database with human annotations[C]// 12(ICCV),, 2009: 1451-1458.

[2] Lee J H, Lee K S, Jo G S. Representation method of the moving object trajectories by interpolation with dynamic sampling[C]//2013(ICISA),, 2013: 1-4.

[3] Gil-Jiménez P, Gómez-Moreno H, López-Sastre R, et al. Geometric bounding box interpolation: an alternative for efficient video annotation[J]., 2016, 2016(1): 1-13.

[4] Vondrick C, Patterson D, Ramanan D. Efficiently scaling up crowdsourced video annotation[J]., 2013, 101(1): 184-204.

[5] Vondrick C, Ramanan D. Video annotation and tracking with active learning[J]., 2011, 24: 28-36.

[6] Buchanan A, Fitzgibbon A. Interactive feature tracking using K-D trees and dynamic programming[C]//(CVPR),, 2006: 626-633.

[7] Agarwala A, Hertzmann A, Salesin D H, et al. Key frame-based tracking for rotoscoping and animation[J]., 2004, 23(3): 584-591.

[8] Biresaw T A, Nawaz T, Ferryman J, et al. Vitbat: video tracking and behavior annotation tool[C]//13th(AVSS),, 2016: 295-301.

[9] Bakliwal P, Hegde G M, Jawahar C V. Collaborative Contributions for Better Annotations[C]//(VISAPP), Scite Press, 2017: 353-360.

[10] CHEN B, LING H, ZENG X, et al. Scribblebox: interactive annotation framework for video object segmentation[C]//(ECCV), Berlin Springer, 2020: 293-310.

[11] Lowe D G. Distinctive image features from scale-invariant keypoints[J]., 2004, 60(2): 91-110.

[12] Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J]., 2014, 37(3): 583-596.

[13] WANG M, LIU Y, HUANG Z. Large margin object tracking with circulant feature maps[C]//(CVPR), New York: IEEE, 2017: 4021-4029.

[14] 回丙伟, 宋志勇, 范红旗, 等. 地/空背景下红外图像弱小飞机目标检测跟踪数据集[J]. 中国科学数据, 2020, 5(3): 286-297.

HUI Bingwei, SONG Zhiyong, FAN Hongqi, et al. A dataset for infrared detection and tracking of dim-small aircraft targets under ground/air background[J]., 2020, 5(3): 286-297.

Infrared Moving-point Target Semi-Automatic Labeling Algorithm Based on Target Enhancement and Visual Tracking

HE Min，HUI Bingwei，YI Mengni，HU Weidong

(,,,410073,)

Infrared video data annotation has the problems of low efficiency and poor quality. In this paper, a semi-automatic labeling method for moving point targets in infrared sequence images is proposed based on target enhancement and visual tracking to solve it. First, infrared sequence images in a continuous period of time were registered and fused to enhance the target features. Second, a visual tracking algorithm was utilized to locate the fused features efficiently and automatically. Lastly, a saliency map was obtained through phase spectrum reconstruction, and the exact coordinates of a target were obtained. During automatic annotation, the difference between the annotation results of adjacent frames was used to select key frames, which enabled the annotators to locate the image frames that had errors and manually annotated them quickly. The results of the experiments showed that the algorithm significantly reduced the participation of annotators and effectively solved the problems of long period and poor quality assurance in data annotation.

semi-automatic annotations, infrared point target, visual tracking, image sequences

TP391

1001-8891(2022)10-1073-09

2021-10-11；

2021-12-08.

何敏（1997-），女，湖南邵阳人，硕士，主要研究方向为红外目标检测。E-mail：douyc2021@163.com。

回丙伟（1985-），男，河北衡水人，博士，讲师，主要研究方向为目标识别数据样本工程。E-mail：huibingwei07@nudt.edu.cn

ATR重点实验室基金“面向目标检测跟踪识别应用的多源数据集构建”项目。