遮挡对于目标检测的影响分析

2021-01-11 13:38张胜虎马惠敏
图学学报 2020年6期
关键词:复杂度比例物体

张胜虎,马惠敏

遮挡对于目标检测的影响分析

张胜虎1,马惠敏2

(1. 清华大学电子工程系,北京 100084; 2. 北京科技大学计算机与通信工程学院,北京 100083)

当前目标检测任务中遮挡问题是一项具有挑战性的工作,由于存在遮挡导致物体的整体特征结构遭到破坏,在检测过程中容易发生漏检、误检等问题。常见遮挡处理方法在很大程度上提高了遮挡检测效果,然而对遮挡构成因素和不同遮挡比例对于检测性能的影响情况,目前并没有具体量化分析。对此,从数据驱动方法出发,通过仿真方式构建生成大量均匀分布的遮挡数据集(MOCOD),在此数据集上分析不同遮挡比例下的检测性能,量化分析了不同遮挡对于检测性能的影响情况,在分析的基础上,通过按遮挡比例引入衰减权重方式来筛选高质量的正样本参与模型训练,有效提升了遮挡情况下的检测性能。

深度神经网络;目标检测;遮挡处理;遮挡数据集

目标检测任务是计算机视觉领域的重要基础,其目的是检测图像或视频中是否存在特定类别的目标物体,并确定其所在区域坐标及类别信息。近年来随着深度学习技术研究的快速发展,目标检测任务在检测准确率和速度上都得到了巨大提升,然而在实际场景中目标物体面临复杂背景条件、多姿态旋转、多尺度变化及遮挡等问题,检测时可能造成存在不同程度的漏检、误检现象,严重干扰、限制了检测性能的提升。如何有效解决不同遮挡条件下的物体检测,是当前目标检测需要解决的难点问题之一。

在计算机视觉任务中,遮挡现象非常普遍且复杂,发生遮挡的位置不定且形式多变,由于存在遮挡导致目标物体整体结构受到破坏,由此导致识别性能下降的影响是显而易见的,不管是目标检测还是目标跟踪都需要解决由遮挡问题带来的影响。按照遮挡发生在目标间的相互关系,可分为类内、类间遮挡,类内遮挡是指同一类别的物体发生遮挡,如密集场景中行人间的相互遮挡,类间遮挡是不同类别的物体发生遮挡,如城市街景中车遮挡了行人。按照遮挡比例大小,可划为一般遮挡、中等遮挡和严重遮挡。对于处理遮挡问题,目前现有常见的方法可以大致划分为3类:基于约束可见部分和部件的检测方法、基于优化损失函数的检测方法以及基于数据驱动的检测方法。

1 相关工作

当前在目标检测中常见处理遮挡问题的方法,可以划分为基于约束可见部分和部件的方法、基于优化损失函数的方法及基于数据驱动的方法,其中基于可见部分与部件的方法主要利用可见部分与定义部件提供的信息,使得检测框更贴近可见部分,或是采用不同部件区分遮挡发生的位置进行特征有效融合;优化损失函数主要是通过约束预测框和真实框的距离损失,使预测框更接近真实目标框;而基于数据驱动的方法主要是从遮挡数据集出发,通过产生大量的遮挡样本来训练检测模型,一般采用数据增广,利用对抗网络生成随机遮挡等方式增加遮挡多样性,以提高遮挡检测的效果和鲁棒性。

1.1 基于可见部分及部件的目标检测方法

基于可见部分及部件的检测方法[1-4]是目标检测任务中常用的有效处理遮挡问题方法,此类方法从发生遮挡时物体结构改变出发,待检测物体在处理遮挡问题时很自然可区分为遮挡部分与可见部分进行,遮挡部分破坏了目标物体的正常结构,一般可作为推断或是估计,而可见部分仍然保留了目标物体相应特征,在检测时主要可以利用这一保留特征进行约束,筛选高质量的正样本参与训练,使得训练的预测框能够更加贴近目标真实框。同时可从遮挡发生部位出发,预先将待检测物体定义划分为若干个部件,如头部、肩部、躯干等,针对各个特定部件训练相应的检测器,在测试时利用多个检测器共同判定检测图像,融合多个部件信息得到最终遮挡情况下检测结果。对于利用可见部分和部件的方法,需要遮挡数据集标注详细的可见区域和部件结构信息,对于复杂场景的遮挡标注任务量较大,利用部件信息进行训练时模型复杂且收敛较为困难。因此本文采用仿真方式构建包含大量均匀分布的遮挡样本,仅利用仿真生成包含的目标物体的mask信息可轻松替代人工实现目标的标记与遮挡比例的计算等任务。

1.2 基于优化损失函数的目标检测方法

基于优化损失函数的方法[5-6]是处理遮挡问题的另一有效方法,一般通过优化检测器的定位损失函数来提升遮挡处理。在遮挡检测场景中,背景和周围其他目标对模型的预测框存在较大的影响干扰,在检测时会造成一定的漏检,为了优化解决此问题,一般对检测算法中常用的边界框回归方法进行修改,使得预测候选框更贴近相对应的真实目标框而远离其他周围框,同时属于不同真实目标框的候选框相对也远离,对此文献[5]提出的排斥损失Reploss和文献[6]提出的聚合损失Aggloss都是比较典型有代表性的优化方法。采用优化损失函数的方法,需要根据数据集获取有一定的先验知识,主要针对密集场景下发生的遮挡,对于不同数据集设置的阈值比较敏感,在训练中采用优化loss的方法模型拟合较为困难。

1.3 基于数据驱动的目标检测方法

数据是满足各种任务需要实现模型训练的基础,在推动深度学习发展中起着重要作用,在目标检测中遮挡是严重影响检测算法性能的重要因素,对此从数据本身出发,扩充数据集的遮挡样本也是解决遮挡问题的方法,通过大量遮挡数据驱动,挖掘图像中更多遮挡信息特征就能够训练出检测性能良好且鲁棒的模型。目前在已有数据集的基础上,通过对抗生成网络等方式生成随机遮挡[7],有效扩充了遮挡形式增加了遮挡样本,在一定程度上能够提升检测模型的性能和鲁棒性。然而采用随机遮挡的方式产生的遮挡比例不可控,同时与实际场景中复杂遮挡情形不够匹配。

1.4 常见有遮挡标记的数据集

目前针对目标检测任务的数据集非常多,针对遮挡问题有遮挡标注的数据集有Caltech[8],Citypersons[9],EuroCity Persons (EUP)[10]和CrowdHuman[11]等。其主要采集城市街景中的大量行人,通过标记处理用于训练遮挡检测模型并测试性能,极大方便了遮挡检测算法的训练与提升。且标注了可见部分和目标整体框,如图1所示,其中绿色框为物体可见部分,蓝色框为物体整体框。

图1 常见行人遮挡数据集标注

由于实际遮挡样式具有多样性和复杂性,当目标物体发生截断或是不规则遮挡时,标记可见部分与整体框则存在一定困难,计算遮挡比例时存在一定误差,图1在对目标物体标记时,都对可见部分进行了截断取舍,对整体框进行了预判估计,由此可见常见数据集对于遮挡的标注和划分相对粗略,为了更好地研究遮挡问题对检测性能的影响,需要更加细化分析遮挡因素及分布。

2 仿真遮挡数据集的构建

2.1 图像遮挡复杂度定义

在视觉任务中,遮挡现象非常普遍且复杂,不仅存在类内、类间遮挡,也有目标物体受周围物体及背景的影响,同时影响遮挡困难度的因素较多,有遮挡比例、遮挡区域位置和物体拓扑结构等,为了更好地度量遮挡复杂度问题,从遮挡物体对和目标物体性质出发,本文提出将逐像素加权的图像矩阵(,)作为衡量物体被遮挡严重程度的因素,分析遮挡比例对于目标检测的影响。其基本维度包括:遮挡面积比例、关键区域复杂度、物体表观复杂度和几何复杂度,相关定义分别为:遮挡面积比例是指遮挡部分面积占目标总体面积的大小;关键区域复杂度是指遮挡区域关键性权值和与目标物体关键性权值和的比例;物体表观复杂度是指目标物体纹理与遮挡物纹理的相似度;几何复杂度是指遮挡部分权值和与目标物体权值和的比例,综合遮挡复杂度的定义为

2.2 MOCOD仿真标注情况

通过仿真方式可实现构建包含多样遮挡情况的数据集,是基于数据驱动有效解决遮挡检测问题的方法之一。在仿真过程中主要详细标注的数据有:图像大小、每个物体类别及完整的Mask标注和Rgb文件、目标类别的bbox、遮挡情况及比例、关键区域信息等,其中遮挡比例定义为_= 1-/。数据集的具体标注情况如图2所示。

图2 MOCOD数据集标注情况

2.3 MOCOD构成及分布情况

MOCOD是一个具有像素级标注的含有遮挡信息的多目标检测的全仿真数据集,主要包含Car,Human,Plane和Ship等4类,其中各类目标物体具有不同姿态场景和遮挡比例,如图3所示。

在仿真过程中,对数据集图像包含的物体所有目标物体逐一都进行了Bounding Box标注,如图4所示,绿色框表示该目标物体没有发生遮挡,红色框代表该物体存在被遮挡情况,对于生成的5个目标物体,其中目标5无遮挡,其余目标物体存在遮挡,遮挡比例分别为:目标1为0.64,目标2为0.21,目标3为0.02,目标4为0.46。量化遮挡比例主要是采用逐像素点累积的方式精确化计算可见部分与整体框的大小,通过两者比值可实现遮挡比例的量化。

图3 MOCOD数据集标注情况

图4 MOCOD数据集遮挡比例计算示例

经仿真生成与标记,目前该数据集包含8 200张图像(Car:1 900张,Human:1 700张,Plane:2 200张,Ship:2 400张),标记框目标大小32 166,每张图像中平均包含4个目标物体,物体存在不同层级的遮挡比例。为了便于量化统计分布情况,将遮挡比例按照被遮挡部分大小取1位小数向上取整,从0到1共分为11级,其中0表示无遮挡,1.0表示遮挡比例大于0.9以上接近完全遮挡。

图5是数据集中图像在各级遮挡中包含目标物体数目的分布情况,相比于现有其他遮挡数据集,仿真数据集MOCOD在遮挡量化分级更加深入细致,遮挡层级分布相对均匀,同时具有复杂场景和多个类别。常见遮挡数据集对比情况见表1。

3 目标检测框架

目标检测的主要任务可以区分为定位和分类,即判定目标物体在图像或视频中的位置信息与类别。现阶段,随着深度学习技术的广泛应用和计算机算力性能的提升,基于深度卷积神经网络的目标检测算法得到快速发展,主流的目标检测技术可以分为以R-CNN系列为代表的双阶段法和以SSD,YOLO系列为代表的的单阶段法,其中两者的最大区别是:双阶段法需要通过RPN网络生成Proposals,而单阶段框架直接在特征图上生成候选框。

图5 MOCOD数据集遮挡分布情况

表1 常见遮挡数据集与仿真数据集对比

本文主要利用mmdetection检测框架[12],采用经典双阶段法Faster-RCNN[13]为检测网络框架,RPN+Res50作为检测主干网络,在其基础上根据仿真数据集和检测任务调整改变部分结构完成遮挡检测任务,采用线性预热warm up[14]策略调整学习率。

4 遮挡检测影响分析

为了分析MOCOD数据集中遮挡对于检测准确率的影响情况,在模型训练中按图像标注信息中的遮挡比例_进行筛选样本,仅在训练过程中“剔除”大于该比例的目标物体,即存在严重遮挡的样本不参与训练过程,针对该遮挡比例范围内的样本进行侧重训练,从而根据不同遮挡情况训练得出相适用的多个模型,然后在同一测试集中进行比较检测准确率。与遮挡比例分布类似,将目标物体的遮挡比例对应按照大小划分为11层级,在各层级的检测结果如图6所示,其中图6(a)表示检测的平均精确率mAP,图6(b)表示各类的检测精确率AP。

图6 MOCOD数据集在各遮挡层级的检测准确率

从以上检测结果折线率变化可以看出,不管是mAP还是各类目标物体的AP,都与遮挡层级有一致相关影响,仅采用无遮挡目标样本训练得到的模型,其检测准确率最低(mAP为0.473),随着不断引入不同层级遮挡样本参与训练,在遮挡比例小于0.3时,其模型检测率迅速增加,当遮挡比例大于0.6之后,其模型检测准确率增加趋于平缓。即遮挡对于检测准确率有较大的影响,当遮挡比例小于0.3时,为一般遮挡,训练得到的模型仍然能够正常检测,当遮挡比例大于0.6时,为严重遮挡,训练得到的模型几乎无法正常检测。

为了更进一步分析遮挡对于检测的影响情况,减少训练样本差异带来的一定干扰,在之前实验的基础上,将遮挡层级区间归并划分为单一遮挡层级数据分布,对其分别进行训练和测试,具体检测情况见表2。

表2 不同遮挡层级的检测准确率

通过以上实验分析,由于存在遮挡导致物体检测时存在一定的漏检现象,使得物体检测性能下降较为明显。为了区分因物体存在不同程度遮挡时对检测的影响,在训练中加入遮挡比例衰减权重,筛选出质量较高的正样本参与训练,来提升遮挡检测的性能。2次测试结果对比的情况见表3。

表3 MOCOD数据集上检测结果

从表3可以看出,通过按遮挡比例衰减权重筛选高质量正样本参与训练,能够有效提升各类别在遮挡情况下的检测准确率。

5 结 论

通过仿真方式,可以获得大量包含不同姿态、遮挡比例的具有详细标注的数据集,在很大程度上能够减轻现实中采集与标注数据的繁杂工作,同时仿真生成数据具有可控多样性,可以完全满足不同任务需要。一方面能够完善补充现有数据情况,通过增强数据训练出更为鲁棒的模型,另一方面可以结合实际需求跨数据集进行训练,为解决现有遮挡问题而起到辅助作用。本文通过构建大量均匀分布的仿真数据集,主要分析了不同遮挡比例对于检测性能的影响情况,针对目标检测中的遮挡问题,采取按遮挡比例筛选质量较高的正样本参与训练,使得模型能够更加关注遮挡中的可见部分在检测中的影响,这在处理遮挡问题时有较好效果。

[1] ZHOU C L, YUAN J S. Bi-box regression for pedestrian detection and occlusion estimation[C]//The 15th European Conference on Computer Vision. Heidelberg: Springer, 2018: 138-154.

[2] LU R Q, MA H M. Occluded pedestrian detection with visible IoU and box sign predictor[C]//2019 International Conference on Image Processing. New York: IEEE Press, 2019: 1640-1644.

[3] ZHANG Z S, XIE C H, WANG J Y, et al. DeepVoting: a robust and explainable deep network for semantic part detection under partial occlusion[EB/OL]. [2020-03-20]. https://arxiv.org/abs/1709.04577v2.

[4] NIKNEJAD H T, KAWANO T, OISHI Y, et al. Occlusion handling using discriminative model of trained part templates and conditional random field[C]// 2013 IEEE Intelligent Vehicles Symposium. New York: IEEE Press, 2013: 750-755.

[5] WANG X L, XIAO T T, JIANG Y N, et al. Repulsion loss: detecting pedestrians in a crowd[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7774-7783.

[6] ZHANG S F, WEN L Y, BIAN X, et al. Occlusion-aware R-CNN: detecting pedestrians in a crowd[C]//The 15th European Conference on Computer Vision. Heidelberg: Springer, 2018: 657-674.

[7] WANG X, SHRIVASTAVA A, GUPTA A. A-fast-rcnn: hard positive generation via adversary for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 2606-2615.

[8] DOLLÁR P, WOJEK C, SCHIELE B, et al. Pedestrian detection: an evaluation of the state of the art[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(4): 743-761.

[9] ZHANG S S, BENENSON R, SCHIELE B. CityPersons: a diverse dataset for pedestrian detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. NewYork: IEEE Press, 2017: 4457-4465.

[10] BRAUN M, KREBS S, FLOHR F, et al. EuroCity persons: a novel benchmark for person detection in traffic scenes[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(8): 1844-1861.

[11] SHAO S, ZHAO Z J, LI B X, et al. CrowdHuman: a benchmark for detecting human in a crowd[EB/OL]. [2020-04-09]. https://arxiv.org/abs/1805.00123.

[12] CHEN K, WANG J Q, PANG J M, et al. MMDetection: open MMLab detection toolbox and benchmark[EB/OL]. [2020-05-08]. https://arxiv.org/abs/1906.07155v1.

[13] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[14] HE T, ZHANG Z, ZHANG H, et al. Bag of tricks for image classification with convolutional neural networks[EB/OL]. [2020-02-19]. https://arxiv.org/abs/1812. 01187.

An analysis of occlusion influence on object detection

ZHANG Sheng-hu1, MA Hui-min2

(1. Department of Electronic Engineering, Tsinghua University, Beijing 100084, China; 2. School of Computer & Communication Engineering, University of Science & Technology Beijing, Beijing 100083, China)

The occlusion problem poses challenges to the current object detection. The presence of occlusion could destroy the overall structure of the object, which is likely to incur missing detections and false positives during the detection. Although the common methods for handling occlusion have greatly enhanced the performance of occlusion detection, there remains no specific quantitative analysis of the occlusion components and the impact of different occlusion ratios on the detection performance. In this paper, based on the data-driven method, a large number of uniform occlusion datasets were generated by simulation, named as More than Common Object Detection (MOCOD), and the detection performance under different occlusion ratios was analyzed quantitatively. On the basis of the analysis of occlusion’s influence, according to the occlusion ratios, the decay weight was introduced to select high-quality positive samples for the model training, thereby effectively improving the detection performance under occlusion conditions.

deep convolutional neural networks; object detection; occlusion handling; occlusion datasets

TP 391

10.11996/JG.j.2095-302X.2020060891

A

2095-302X(2020)06-0891-06

2020-07-21;

2020-07-24

21 July,2020;

24 July,2020

国家重点研发计划项目(2016YFB0100901);国家自然科学基金项目(61773231);北京市科学技术项目(Z191100007419001)

National Key Basic Research Program of China (2016YFB0100901); National Natural Science Foundation of China (61773231); Beijing Science and Technology Project (Z191100007419001)

张胜虎(1990-),男,甘肃天水人,硕士研究生。主要研究方向为目标检测。E-mail:zsh18@mails.tsinghua.edu.cn

ZHANG Sheng-hu (1990-), male, master student. His main research interests cover object detection. E-mail:zsh18@mails.tsinghua.edu.cn

马惠敏(1972–),女,河南洛阳人,教授,博士,博士生导师。主要研究方向为图像认知与机器学习、计算机视觉与目标识别、高动态复杂环境对抗仿真等。E-mail:mhmpub@ustb.edu.cn

MA Hui-min (1972-), female, professor,Ph.D. Her main research interests cover image cognition and machine learning, computer vision and object detection, high dynamic complex environment confrontation simulation, etc. E-mail:mhmpub@ustb.edu.cn

猜你喜欢
复杂度比例物体
人体比例知多少
毫米波MIMO系统中一种低复杂度的混合波束成形算法
Kerr-AdS黑洞的复杂度
深刻理解物体的平衡
非线性电动力学黑洞的复杂度
组成比例三法
用比例解几何竞赛题
某雷达导51 头中心控制软件圈复杂度分析与改进
揭开物体沉浮的秘密
为什么同一物体在世界各地重量不一样?