基于多实例的密集行人检测技术研究

2021-06-26 08:25赵晴宜谭海枫

科学技术创新 2021年16期

关键词：密集检测器实例

赵晴宜谭海枫

(广西科技大学,广西柳州545026)

1 概述

1.1 目标检测存在的问题

基于预测框的密集行人检测框架已被广泛用于现代物体检测系统中[1]。其已经在例如COCO和PASCAL VOC流行数据集中取得了很好的表现[2],但实践中仍难以进行人群检测。图1(a)展示了一个常见的失败案例(虚线框中为未被识别到的人)。

图1 密集人群检测

1.2 失败原因

这种在密集场景中的典型失败主要有两个原因:

1.2.1 高度重叠的实例可能具有非常相近的特征,从而导致检测器难以分别为每个预测框生成区别预测。

1.2.2 由于实例之间严重重叠,预测结果很可能会被非极大值抑制(Non-Maximum Suppression,NMS)错误地去除。

1.3 已有的检测方法

已有的研究试图从不同的角度来解决这个问题,例如提出复杂的固定非极大值抑制(Set Non-Maximum Suppression,Set NMS),新的损失函数,重计分机制等[3]。但是,这些方法尚存在计算复杂度过高,处理高度重叠的实例时效果不佳等不足。

1.4 本文方案

基于以上问题,本文在此介绍一种解决密集行人检测问题的方法:

1.4.1 对于每个预测框,区别于已有方法预测一个实例,本文方法预测一组可能高度重叠的实例,如图2所示。

1.4.2 利用推土机距离(Earth Mover's Distance Loss,EMD Loss)函数来监督实例集预测目标的回归。

1.4.3 使用Set NMS这种新的后处理方法,以抑制不同预测框的重复性。

2 本文方案:多实例预测

假设有多个物体严重重叠(如图2所示),其中至少一个预测框对应不止一个对象,对于这样的预测框可采用预测整体的方法。对于每个预测框Bi,本文方案所提方法为预测其相关集合G(Bi):其中G是实际的训练标注样本,θ是设定的划分阈值。如图2(b)所示,将三个预测框分配给同一组基本真值实例集是可行的,因为这三个预测框特征几乎相同。现介绍本文方法的细节如下:

图2 典型的密集检测案例

2.1 多实例预测

对于每个预测框Bi,现存已有基于预测框的检测框架都是采用检测函数预测(Ci,Li)来表示相关实例,其中Ci是带有置信度的类别标签,Li是相对的新坐标[4]。本文方法对其进行扩展,通过使用K个检测函数来生成一组预测结果P(Bi):

其中K为给定常数表示G(Bi)见等式(1)的最大基数。在大多数现有的检测框架中,引入额外的预测分支可以简单地实现P(Bi)[5]。

2.2 EMD Loss

本文提出了EMD Loss损失函数,以最小化与预测框Bi对应的预测P(Bi)和实际的训练标注样本G(Bi)之间的差距:

其中π表示(1,2,…,K)的特定排列,其第k项是πk；gπk∊G(Bi)是第πk个标注样本；LCLS(·)和LREG(·)分别是分类损失和预测框回归损失,遵循常用定义。

2.3 Set NMS

原始NMS在后处理时会影响到密集场景中的对象检测。而本文方案由于EMD Loss函数,使得一个预测框预测的实例在定义上是唯一的,由此我们引入Set NMS,即每次在NMS算法中一个边界框抑制另一个边界框之前,插入额外的测试,用于检查这两个框是否来自同一个；如果是,则跳过抑制。实验表明,只有将多实例预测和Set NMS结合使用,本文方法才能在密集检测方面取得显著的改进。

3 实验

3.1 评价指标

3.1.1 平均精度

平均精度(average precision,AP)反映了测试结果的准确性和召回率,是最将常用到的指标,其对召回分数更敏感。AP越大,则性能越好。

3.1.2 平均漏失率

平均漏失率(log-average Miss Rate,MR-2)指对每幅图像误报率((False Positive per Image,FPPI)的对数的平均漏失率,通常用于行人检测。MR-2对误报(False Positive,FP)非常敏感,尤其是高置信度的误报会严重损害MR-2比值。MR-2越小,表现越好。

3.1.3 Jaccard指数

Jaccard指数(Jaccard Index,JI)主要用于评估检测器的计数能力。JI评估预测集与基本事实的重叠程度。通常,预测集可以通过引入一个置信分数阈值来生成。JI越大,性能越好。

3.2 CrowdHuman数据集

CrowdHuman包含15000张、4370张和5000张图片,分别用于训练、验证和测试。

4 结论

本文提出了一种简单而有效的基于建议的对象检测器,该检测器专门用于密集行人检测。该方法利用多实例预测的概念,引入了EMD损失、Set NMS等新技术。本文方法不仅有效,而且可以灵活地应用于大多数最先进的基于预测框的检测框架。