抗运动模糊的交通流视频多车跟踪研究

2022-06-08 01:41杜丹丰申明雨

中国新技术新产品 2022年4期

杜丹丰申明雨

（东北林业大学交通学院，黑龙江哈尔滨 150040）

0 引言

通过监控摄像头采集视频流数据，并对交通流视频中的车辆进行检测、跟踪，能够有效提升公路智能化管理水平。交通流视频多车辆跟踪是目前公路视频监控中比较先进的技术之一。它具有施工时无须破坏路面、检测器安全且拆卸方便等优点，同时能够为分析和管理交通提供可靠的依据。

当采集交通流视频时容易发生抖动，所获得的交通流视频易出现运动模糊的情况，降低了车辆跟踪器的精度。当前针对该工况的研究较为匮乏，由于多数多车跟踪模型缺乏应对运动模糊的调节机制，因此跟踪精度较低，难以应对运动模糊的场景。

该文利用UA-DETRAC 数据集提出了一种抗运动模糊的交通流视频多车跟踪方法。首先，应用K 均值聚类算法（K-means 聚类算法）得到关于车的尺寸的先验框。其次，选择性能较好的DarkNet53 网络提取车辆特征。再次，使用卡尔曼滤波与级联匹配进行多车的跟踪。最后，构建基于 Laplacian算子和生成对抗网络的运动模糊检测、去除模块，该模块既具备抗运动模糊的能力，又能满足现实工况中的需求。

1 多车跟踪模块

1.1 车辆跟踪数据集

UA-DETRAC自动驾驶数据集是于2018 年被提出来的，其样图如图1 所示。它包括了100 个具有不同挑战的视频序列，这些视频均是在真实的交通场景中的不同位置、不同角度拍摄下来的。其中标注帧数超过140 000 帧，标注内容包括车辆类型、是否有遮挡、折断比例以及车辆真实框位置等。

图1 UA-DETRAC 数据集样图

UA-DETRAC 数据集分为训练集（UA-DETRAC-TRAIN）与测试集（UA-DETRAC-TEST），其中的视频序列包括多个尺度、遮挡以及背景杂乱等挑战，更适合于训练具有鲁棒性的多车跟踪模型。该文选取UA-DETRAC-TRAIN 作为多车跟踪模型的训练数据集。在测试多车跟踪模型时，选择UADETRAC-TEST 中不同场景下的视频进行测试验证。

1.2 车辆先验框选取

先验框能够检测不同尺度大小的物体，在很大程度上影响了车辆定位的准确性。该文基于UA-DETRAC 数据集，使用K-means 聚类算法得到符合车辆尺寸比例的先验框，从而提升检测的精度。

K-means 聚类算法属于聚类分析算法，其采用迭代求解的方式，在数据分析中具有广泛的用途，该算法有以下4个步骤：1）将数据分成组，随机选取个对象作为初始的聚类中心。2）计算每个对象与各个种子聚类中心之间的距离，然后把每个对象分配给距离它最近的聚类中心。3）聚类中心以及分配给它们的对象就代表了一个聚类，每分配一个对象，聚类中心都会根据聚类中现有的对象被重新计算。4）该过程不断重复，直到满足某个终止条件。终止条件为没有（或最小数目的）对象被重新分配给不同的聚类中心，没有或者最小数目的聚类中心再发生变化，且使误差平方和局部最小。

该文使用UA-DETRAC 数据集，针对车辆宽高设置了9个聚类中心，再使用K-means 聚类算法得到用于车辆检测的先验框，其比例结果为0.53、0.65、0.69、0.72、0.78、0.81、0.91、1.06 和1.19。

1.3 车辆检测及外观嵌入

跟踪模型采用联合学习检测及嵌入模型（Jointly learns the Detector and Embedding model，JDE）架构，其包括检测与匹配2 个阶段。其目标是在1 次前向传播过程中同时输出检测结果和嵌入模型特征的网络架构，在特征提取网络提取特征后，特征金字塔网络结构预测多个尺度特征，并进行上采样融合，将特征输入卷积神经网络，同时输出目标位置及目标的嵌入特征，经过在线关联等步骤对已检测的目标特征进行多目标跟踪。该文使用文献[4]提出的DarkNet53 网络作为JDE 的特征提取网络，DarkNet53 网络能够更好地进行特征采样，且在训练时也更加简单。多车跟踪模型检测及外观嵌入流程如图2 所示，在网络传播的同时，输出类别及嵌入特征。

图2 多车跟踪模型检测及外观嵌入流程图

输入的视频帧首先通过特征提取网络DarkNet53 获得3个尺度的特征图，完成上采样融合后，输入预测头中进行卷积操作，进而得到边框回归、分类以及输出特征嵌入。其中，上采样的尺度为1/32、1/16 和1/8。预测头输出的预测特征图的大小为（6+）××（为先验框的数量；为特征嵌入的维度；为高；为宽）。从以下3 个维度对特征头输出进行划分：1）边界框分类。2）边界框回归。3）特征嵌入。

该文的损失函数选用的是，如公式（1）所示。

式中：为模型预测的类别概率；为平衡因子用于平衡正、负样本数量比例；为调制参数，使损失函数更加关注难以训练的样本；为实际标签值。

1.4 多车在线跟踪

在完成车辆检测后，该文使用DeepSORT 算法提出的方法进行预测匹配。具体操作如下：在保持车辆速度恒定的基础上，先使用卡尔曼滤波通过线性观测来处理逐帧数据的关联性，并预测轨迹，车辆的状态量包括位置和速度信息。在得到现有轨迹的预估位置后，使用成本矩阵将其与新检测得到的目标的空间和外观相似性的比对。

空间相似性（，）如公式（2）所示。

外观相似性（，）如公式（3）所示。

整合公式（1）、公式（2）得到最终成本矩阵c，如公式（4）所示。

式中：为权重系数。

除成本矩阵以外，DeepSORT 算法还使用门控矩阵来表示当前空间以及外观相似性是否满足要求。门控矩阵b如公式（5）所示。

式中：为索引标识。有2 个取值，分别为1 和2，代表所使用方法DeepSORT 算法中的2 个门控指标。

当空间相似性以及外观相似性较为接近时，b为1，否则为0。

通过这2 个矩阵，该操作对每帧中新检测到的第个目标和现有的第个追踪目标进行了匹配以及后处理，达到了在线跟踪的效果。

2 抗运动模糊模块

2.1 模糊检测模块

Laplacian 算子常用来进行图像模糊检测，它能够强调图片中密度快速变化的区域，也就是边界，因此常用于模糊检测。Laplacian 算子是维欧几里得空间中的二阶微分算子，如果是1 个二阶可微的实值函数，那么其Laplacian 算子如公式（6）所示。

式中：为方向；为方向。

其中，方向的偏导数如公式（7）所示。

方向的偏导数如公式（8）所示。

综合公式（6）～公式（8）能够得到如公式（9）所示的Laplacian 算子。

针对1 帧图像的滤波器如公式（10）所示。

将公式（9）中的系数代入公式（10），所得矩阵可以在没有噪声的情况下查找图像中快速变化的区域。从根本上来说，算子在更高维平面上对图像的变化趋势（其二阶导数）进行衡量。如果图像基本均匀，则结果为0。无论在何处发生变化，所得到的矩阵都会在较暗的一侧具有正元素，在较亮的一侧具有负元素。在正常图片中，边界清晰且方差较大；而在模糊图片中，方差则较小。

该文使用Laplacian 算子作为基础模糊检测模型，由人工预先定义好合适的阈值，判断图片是否产生运动模糊。在设定阈值时，该文使用UA-DETRAC数据集的视频序列，先使用高斯算法对视频序列进行运动模糊处理，然后使用所测试的阈值进行模糊检测。该文选取不同大小的阈值进行对比测试，最终该文将阈值设置为13。测试结果如图3所示：当阈值小于13 时，判定该帧为模糊；当阈值大于13 时，判定该帧为清晰。该文通过选取UA-DETRAC 数据集的1 000 张视频帧作为测试样本，其中运动模糊帧有100 张。使用阈值13 进行测试，最终针对运动模糊的判定正确率为98%。

图3 模糊判别测试结果

2.2 模糊去除模块

在进行模糊去除时，该文采用基于生成对抗网络（Generative adversarial network）的方法。生成对抗网络是通过2个神经网络以相互博弈的方式进行学习的，它由生成器D 和判别器G 组成，生成器用来捕捉数据分布，判别器用来辨别数据产生自生成器的概率，并使用博弈机制进行同时训练。

该文采取基于生成对抗网络的去模糊算法，将特征金字塔结构作为生成器的核心，并将最小二乘法应用到判别器的学习中，基于WGAN 以及内容损失进行训练学习，提出框架在模糊移除方面性能较好。该文使用生成对抗网络模糊去除模块（DeblurGAN-v2）来进行视频帧去模糊操作。DeblurGAN-v2 为一种基于特征金字塔的去模糊架构，它将5 个不同尺度的最终特征图作为输出，这些特征图均被上采样为相同的输入大小，并连接成1 个张量。然后在网络末端填入2 个上采样和卷积层，恢复原始图像，减少伪影的存在。为保持训练的有效性，对损失函数L的定义如公式（11）所示。

式中：L为均方误差损失。

L如公式（12）所示。

式中：x为第个样本的值；y为第个样本的预测值；h为特征提取网络，为其参数；为样本的总量。

L为内容损失，用于衡量清晰图像和模糊图像之间的特征值差异，如公式（13）所示。

式中：φ为通过特征提取网络中第个池化层前、第个卷积层后得到的特征图；W、H为特征图的维度；I为模糊图像的特征；I为清晰图像的特征；G为判别器，θ为其参数；，为索引值。

为全局和局部判别器的损失，目标为使得输出的数据分布能够更加接近真实数据的分布，如公式（14）所示。

式中：和分别为不同概率分布下的期望计算，为在不同概率分布下的期望计算，Pdata（）以及Pz（）分别为其概率分布；D 为判别器；为输入的真实样本数据；G 为生成器；为输入生成器G 的数据。

2.3 抗运动模糊模块整体架构

抗运动模糊模块整体结构如图4 所示，包括模糊检测模块、模糊去除模块。首先，模糊检测模块对输入的视频帧进行判别，大于阈值为清晰，小于阈值为模糊。其次，将判定为模糊的视频帧输入模糊去除模块进行预处理。最后，将其返回多车跟踪模块中进行跟踪。

图4 抗运动模糊模块整体架构

2.4 抗运动模糊多车跟踪方法的整体框架

抗运动模糊多车跟踪方法整体框架如图5 所示，先将输入的多车视频分解为视频帧，然后输入预先得到的车辆先验框，再将视频帧输入模糊检测模块后进行模糊判别，使用模糊去除模块对模糊图像进行去模糊操作后返回清晰帧，最后将其输入多车跟踪模块中进行跟踪。

图5 抗运动模糊多车跟踪方法整体框架图

3 多车跟踪试验

3.1 试验环境及试验数据集

该文整体算法需要在Pytorch1.7.1 上实现，硬件平台的CPU 需要配置英特尔i7-10700F 处理器，并且训练时使用GPU 加速，GPU 的配置为GTX-3070 和8G 内存。在训练过程中采用线下分离训练和线上组合的方式构造多车跟踪模型。在对多车跟踪模型进行性能评测时，选取UA-DETRACTEST 作为测试数据集，其中包括40 个不同序列。在测试阶段抽取4 个不同场景下的视频序列，应用完成训练的抗运动模糊多车跟踪模型对这些视频序列进行在线跟踪，以验证所提出的算法的有效性。

3.2 多车跟踪模型试验

该文在进行多车跟踪模型测试时，使用了4 个不同场景下的视频序列，测试结果如图6 所示。当视频清晰时，该文的多车跟踪模型在训练后的跟踪性能良好，对车辆特征的捕捉也较为准确。

图6 测试结果

3.3 抗运动模糊多车跟踪模型试验

为测试所建的多车跟踪模型在视频模糊时的鲁棒性，该文选取了18 个测试视频序列，在模拟现实情况中的运动模糊工况时，对其中的部分视频帧进行高斯模糊和运动模糊处理，得到包括模糊帧的视频帧序列，将其合成处理后又得到带有模糊帧的视频。视频中的模糊帧如图7 所示。为验证抗运动模糊多车跟踪模型的性能，该文将该模型与无抗模糊机制的普通跟踪模型进行了对比，对比结果见表1。

图7 视频中模糊帧样图

由表1 可知，该文所提出的抗运动模糊多车跟踪模型在视频受到运动模糊干扰时，其模糊检测以及模糊去除机制能够有效地去除运动模糊，将漏检率和误检率降低了近18.89%。

表1 抗运动模糊跟踪模型与普通跟踪模型对比结果

4 结论

当采集交通流视频时，由于环境因素的影响而产生抖动，因此很容易出现运动模糊的情况，使车辆跟踪精度降低。目前针对该工况的研究较为缺乏，该文提出了抗运动模糊交通流视频多车跟踪方法。

首先，该方法针对车辆尺寸大小，使用聚类算法得到符合车辆尺寸的先验框。其次，采用DarkNet53 网络提取车辆特征。再次，使用卡尔曼滤波与级联匹配进行多车跟踪。最后，通过基于Laplacian 算子的模糊判别机制和嵌入生成对抗网络模糊去除模块来提升多车跟踪模型的抗运动模糊能力。试验结果表明，该文提出的抗运动模糊交通流视频多车跟踪方法，在交通视频受到运动模糊干扰时跟踪效果更好，并且具有更好的鲁棒性，使漏检率和误检率降低了约18.89%。