融合时空上下文的复杂背景下多运动目标检测*

2021-01-05 09:20蔡旭阳许倩倩闫钧华

计算机工程与科学 2020年12期

张寅，蔡旭阳，许倩倩，闫钧华，苏恺，张琨

(1.南京航空航天大学空间光电探测与感知工业和信息化部重点实验室,江苏南京 211106;2.南京航空航天大学航天学院，江苏南京 211106)

1 引言

多运动目标进、出视场和被部分遮挡时，由于目标信息不完整导致难以准确检测出目标，造成漏检。本文对此展开研究，从而在复杂地面背景下准确检测出多运动目标。

2013年，Shen等[1]提出一种基于时空显著性的运动目标检测算法，时空显著性互补提高了多运动目标检测算法的性能。然而，该算法对于纹理简单的目标检测效果较差。2014年，Shakeri等[2]基于二次配准估计相机运动，采用高斯混合模型进行背景建模，采用隐马尔科夫模型进行精细求解，对复杂背景下的运动目标检测性能好，但算法复杂度高，实现难度大。2017年，Yan等[3]联合改进的基于带方向的FAST和旋转BRIEF的二值特征描述子MORB(Modified Oriented fast and Rotated BRIEF) 匹配点和随机光流LKR(Lucas-Kanade Random)跟踪点进行背景补偿，再采用双模高斯矩阵对补偿图像的局部区域建立在线和候选双背景模型，对运动背景下的运动目标检测效果好，但是该算法对复杂背景的目标检测效果较差。2017年，Yan等[4]采用非线性变换模型进行背景补偿，实现了旋转复杂背景下地面慢速运动目标的检测，但是对多个目标查全效果较差。2018年，马琴等[5]提出一种基于谱残差和K-means聚类算法的运动目标检测算法，能有效检测出目标，但是对复杂背景的检测效果较差。

近年来，随着机器学习的发展，许多研究者提出基于目标特征学习的目标检测算法。2014年，Hariyono等[6]基于光流估计补偿背景运动获得行人候选区域，然后提取区域的HOG特征，通过SVM分类器实现运动目标检测，对于行人目标检测效果较好，对其他运动目标检测效果较差。2015年，Teutsch等[7]基于特征矢量聚类得到运动目标的大致区域，提取ChnFtrs (integral Channel Features)[8]特征，通过AdaBoost分类器获得检测结果，对部分被遮挡的目标检测效果较差。2016年，Kang等[9]提出了一种TCN(Temporal Convolutional Network)算法，基于Faster RCNN的改进算法检测单帧图像，结合上下文抑制算法和运动传播算法，有效地抑制了误检，降低了漏检，但是计算量大，不适于视频序列中的运动目标检测。2019年，孙一飞等[10]提出了一种基于稀疏编码器的检测算法，采用反向传播更新编码器的权重和偏置以提取样本的特征，并利用提取的特征训练Softmax，准确检测出目标，但是对被遮挡的目标检测效果较差。2020年，高星等[11]提出了一种基于YOLOv3算法的检测算法。采用K-means算法做聚类分析，以得到适应数据集训练尺寸的锚框大小，并对图像进行图层处理从而准确检测出目标，但是该算法计算量较大。

本文针对目标进、出视场和被部分遮挡情况下检测率低的问题，提出了一种联合时空上下文的复杂背景下多运动目标检测算法STC-MMTD(Multi-Moving Target Detection based on Spatio-Temporal Context)，如图1所示。

Figure 1 Schematic diagram of multiple moving targets detection algorithm图1 本文提出的多运动目标检测算法框图

STC-MMTD算法分为离线训练和在线检测2个阶段。(1) 离线训练阶段：首先，对训练图像和对应的真值图像进行均匀网格稠密采样；然后，对训练图像和真值图像的图像块进行SIFT特征提取和量化，获得SIFT描述子序列和对应的标记序列；最后，进行条件随机场模型CRF(Conditional Random Field)和字典联合训练，获得CRF模型参数和字典。(2) 在线检测阶段：第1步进行时间上下文信息处理：基于前后向运动历史图提取候选目标区域。第2步进行空间上下文信息处理：首先，将输入图像分块，获得子图像；接着，对子图像进行稀疏编码；然后，利用CRF模型对子图像的空间上下文建模，基于置信度传播算法估计图像块的目标置信度；最后，计算候选目标区域的目标置信度，检测出复杂背景下多运动目标。

2 候选目标区域提取

本文利用时间上下文信息，基于前后向运动历史图提取候选目标区域，提高了候选目标区域提取的查全率。

2.1 计算前后向运动历史图

(1)

将当前帧图像与前一帧/后一帧图像背景运动补偿后的图像进行绝对差分，得到差分图像D(τ)：

D(τ)=|I(τ)-I′(τ∓1)|

(2)

其中，“-”代表前向差分，可得到前向运动图像DF(τ)；“+”代表后向差分，可得到后向运动图像DB(τ)。

前向运动历史图可以通过融合多层前向运动图像来获得，后向运动历史图可以通过融合多层后向运动图像来获得，分别如式(3)和式(4)所示：

(3)

(4)

式(3)和式(4)中，HF为前向运动历史图，HB为后向运动历史图，(x,y)为图像像素点坐标，ξ为阈值，d为衰减项。本文经实验，取ξ=15，d=32。

融合前向运动历史图和后向运动历史图，获得前后向运动历史图HFB(τ)：

HFB(τ)=min(medfilt2(HF(τ)),

medfilt2(HB(τ)))

(5)

其中，medfilt2(·)是指中值滤波器。min(·)操作能够有效抑制前向运动历史图后方的尾迹和后向运动历史图前方的尾迹，从而保证候选区域提取的定位精度。

2.2 得到候选目标区域

本文对前后向运动历史图，采用大津法[12]计算双阈值，选取较小的阈值进行二值化，获得运动二值图MBIN(τ)，确保目标区域的完整性。然后对运动二值图MBIN(τ)进行1次腐蚀和2次膨胀操作的形态学处理，有效去除干扰噪声，得到目标区域图像MREG。

MREG(τ)=((MBIN(τ)Θberode)⊕bdilate)⊕bdilate

(6)

其中，Θ和⊕分别为腐蚀和膨胀运算符,berode和bdilate分别为R′=1 和R′=3的菱形结构元素，R′表示结构元素的原点到菱形顶点的距离。

3 多运动目标检测

本文利用空间上下文信息和目标表观信息，通过基于稀疏编码的CRF模型计算目标置信度图，得到候选目标区域的目标置信度，从而检测出多运动目标。

3.1 特征提取与稀疏编码

对图像进行分块处理，图像I的尺寸为W0×H0，将其均匀划分为L×C的子图像，相邻子图像的重叠尺寸为so。对子图像用步长为16的采样网格、尺寸为64×64的窗口进行分块，对子图像块的SIFT特征x进行基于字典学习的稀疏编码，字典D存储了从训练数据中学习得到的一组视觉词汇{d1,d2,…,dk}，k为视觉词汇的数量，如式(7)所示：

(7)

其中，λ为控制稀疏性的参数，s为SIFT特征x的稀疏编码。

3.2 CRF模型参数与字典联合训练

(8)

其中，SnS(Xn,D)是字典D下样本Xn中SIFT特征的稀疏编码；D为满足以下条件的字典D的凸可行集：

D={D∈Rp×k|‖di‖2≤1,∀i=1,2,…,k}

(9)

采用最大边际法[13]，获得关于能量函数的约束，即：

E(Yn,Sn,w)≤E(Y,Sn,w)-Δ(Y,Yn),

∀Y≠Yn,n=1,2,…,N

(10)

(11)

(12)

式(11)和式(12)中，f(D,w)EY,X为损失函数，EY,X[·]表示·的期望，SS(X,D)是字典D下样本X中SIFT特征的稀疏编码，Y和分别为样本集标记真值和标记预测值，γ为正则化系数。最后采用随机梯度下降算法[14]联合求解CRF模型参数和字典

3.3 基于置信度传播算法估计图像块的目标置信度

图像块的目标置信度是指图像块是目标的概率，即图像块对应的节点i∈V(V为所有图像块对应的节点集合)为目标节点的概率p(yi=1|si,w)，其中si表示第i个节点的观测序列。本文基于置信度传播BP(Belief Propagation)算法完成对图像块目标置信度的估计，对于马尔科夫随机场中的每一个节点，通过消息传播，把该节点的概率分布状态传递给相邻的节点，从而影响相邻节点的概率分布状态，经过一定次数的迭代，每个节点的概率分布将收敛于一个稳态。在BP算法中，节点i∈V的置信度正比于节点的能量函数和所有相邻节点传来的消息，即:

(13)

3.4 基于目标置信度检测目标

通过计算候选目标区域的目标置信度，对其进行判决，获得多运动目标检测结果。具体步骤如下：

(1)对每一幅子图像获得的节点目标概率p(yi=1|si,w),i∈V进行归一化，即:

(14)

(3) 将子图像目标置信图US按原图像的相对位置进行拼接，获得输入图像I的目标置信图U。

(4) 根据式(15)计算候选目标区域R的目标置信度μR。

(15)

(5) 若候选目标区域R的目标置信度μR大于或等于目标置信度阈值τμ，即μR≥τμ，则候选目标区域R为目标，反之为背景。

4 实验结果与分析

本节通过实验验证本文所提算法在复杂环境下多运动目标检测的有效性和准确性。所有实验都是在相同的实验环境和实验平台上进行的。实验环境：Matlab2014b编程实现。实验平台：Intel i7 处理器 3.60 GHz，64位Windows 7操作系统，8 GB内存。实验视频为数据库DARPA Neovision2中的Helicopter数据集中部分高清航拍视频图像序列，拍摄地区为洛杉矶，视频帧率约为29.97 fps，图像格式为8 bit PNG，分辨率为1920×1080。

4.1 复杂背景下多运动目标检测实验

图2所示为目标进、出视场和被部分遮挡情况下候选目标区域的目标置信度。目标出现在视场中的部分越多，候选目标区域的目标置信度越高,背景干扰区域的目标置信度很低。

采用查全率R、查准率P和F测度F1对本文提出的联合时空上下文的多运动目标检测STC-MMTD算法进行评价，分别对视频序列Neovision2-Heli-021和Neovision2-Heli-029在不同参数下的多运动目标检测结果进行了统计，如表1所示。其中，τμ为候选目标区域判决中的目标置信度阈值，τo表示检测结果与目标真值的重叠率阈值。

表1表明，本文算法能够有效提高目标进、出视场和被部分遮挡时的检测效果。τμ∈[0.30,0.40]时，F测度最大，即检测效果最好，当取τμ=0.40，τo=0.70时，本文算法在视频序列Neovision2-Heli-021和Neovision2-Heli-029上总的查全率为95.96%，查准率为98.85%，F测度为97.4%。

Figure 2 Target confidence of candidate target regions when targets are in/out of view and partially occluded图2 目标进、出视场和被部分遮挡情况下候选目标区域的目标置信度

Table 1 Performance evaluation of multi premoving targets detection algorithm in complex background(R(%)/P(%)/F1 (%))表1 复杂背景下多运动目标检测算法性能评估(R(%)/P(%)/F1 (%))

4.2 复杂背景下多运动目标检测算法性能比较实验

将本文提出的算法STC-MMTD与基于DBSCAN聚类(DBSCAN-based) 的多目标检测算法[15]、基于ELM聚类算法(ELM-based)的多目标检测算法[16]、基于双模高斯背景模型的多目标检测算法(LKR+DGM-based)[3]、基于时空显著性的多目标检测算法(STS-based)[1]进行对比，采用查全率(R)、查准率(P)和F测度(F1)3个指标进行评价，实验结果如图3所示。其中，目标置信度阈值取τμ=0.40。

实验表明，本文算法在保证较高定位精度τo，具有最高的查全率R、查准率P和F测度F1，说明本文算法性能优于其他算法，检测效果好。

Figure 3 Comparison of recall,precision and F-measure of the proposed algorithm with other algorithms图3 本文算法与其他算法的目标查全率、查准率和F测度对比

5 结束语

本文提出了一种联合时空上下文的多运动目标检测算法，解决了复杂地面背景中目标进、出视场和被部分遮挡时检测率低的问题，具有良好的检测性能。针对目标信息不完整的情况，联合运动历史图和CRF模型进行检测。在离线训练时采用CRF模型参数与字典联合训练，提高了字典的判别性；在线检测时采用图像分块处理策略，通过并行计算提高算法的效率。实验结果表明，本文算法具有较高的查全率、查准率和F测度。今后将针对背景旋转运动下的多运动目标检测进行深入研究，扩展目标检测算法的适用范围。