基于深度学习的目标检测算法综述

2021-09-23 09:49赵梓杉秦玉英衣明悦

汽车实用技术 2021年17期

赵梓杉，秦玉英，李刚，衣明悦

（辽宁工业大学汽车与交通工程学院，辽宁锦州 121001）

前言

如今，计算机视觉已然成为了一个普遍的研究范畴，主要包含以下几个方面：图像数字化处理、图像的标准转换、图像效果增强、恢复、分割、特征检测等[1-2]。

目前，以卷积神经网为基础的目标检测算法越来越受到学者们的重视，有许多结构简单、运行效率高的网络模型，可以大规模应用这些算法，但是面对目标检测的难点，国内外的学者们提出了很多处理方案并进行了大批实验。比如，Itti等人为了提取图像中的特征，构建了选择性注意机制[3]；Viola和Jones等提出一种级联检测器框架并成功应用于检测人脸[4]；Navneet等人则提出Hog和SVM联合使用的思想，Hog被用来进行图像特征提取，用线性SVM作分类器，进行行人检测[5-6]；Felzenszwalb等人提出基于组件的检测方法DPM，对检测对象的变形具备很强的鲁棒性[7-9]。经过多年的研究和发展，最先进的目标检测系统已与多种技术相结合在了一起，例如多尺度检测，边界框回归、上下文启动等[7]。

本文介绍了常用的数据集特点以及关于目标检测算法性能评价的关键参数，对基于深度学习目前的主流的检测算法进行了综述，最后讨论了目标检测领域现存的问题，对该领域进行了展望，并分析了未来的可以继续探究的方向。

1 常用数据集及性能评价

1.1 常用数据集

（1）COCO：数据集在是于2015年发布的一种基于日常复杂场景的常见目标数据库，其中包含小目标和多目标等特点，包含了30多万张完全分割的照片，平均每张图像含有7个目标实体，共标注出250万个目标对象，包括91种类别[10]。

（2）TinyPerson：中国科学院提交的一种只包含人类数据集，其中训练集与测试集各包含近800张左右的照片[11]。

（3）ImageNet：2010年首次推出，之后增加了目标的类别和数量，提高了目标检测任务评价标准，可用于目标定位、场景分类、目标检测、图像分类和场景解释等任务。目前，该数据集中的图像数超过1 200万张，类别增加了2.2万个，约103万张照片进行了目标物体的类别标注，对于目标检测任务，其包含200个类别。

（4）UCAS-AOD：是一种远程目标检测数据集，只包含车辆、飞机两个类别。其中，共有飞机小目标样本7 482个，汽车小目标样本7 114个[12]。

（5）RSOD数据集：由武汉大学发布的航空遥感图像，包括飞机、操场、桥、油罐4个类别。桥类有176张，飞机类图像有446张，操场类图像有190张图像，油罐类图像有165张[13]。

（6）OICOD数据集：基于OpenImageV4的最大公用数据集，不同于ILSVRC和MSCOCO目标检测数据集，它包括更多的类别、图像、边界框、实例分割分支和海量的注释处理，OICOD为目标实例提供了可以手动验证标签。

（7）OpenImageV4：使用分类器标注图像标签，通过人工标注得到得分很高的标签。

（8）URPC2018：水下物体数据集包括d大批的小目标该数据集共包含训练图像近2 900幅和测试图像近800幅，类别包括海参、海星、海胆和贝类[14]。

1.2 评价指标

1.2.1 IoU（交并比）

等于它们之间的交集和并集的比值，是指由目标检测算法生成的候选框与实际的检测框之间的重合程度，最理想的情况下IoU=1.0表示完全重合，通常而言IoU0.5认为定位合理。

1.2.2 mAP（meanAveragePrecession）

平均精确度均值，是最直观的表达方式，mAP值越大，表示该模型的精度越高。

2 目标检测算法对比分析

目标检测可以分为两类算法，一种是以R-CNN系列为代表的基于候选区两阶段算法，另一种是以是以YOLO、SSD为代表基于回归的单阶段算法。单阶段算法则直接在特征图上生成候选框。详细算法性能介绍如表1所示。

表1 目标检测算法对比

3 总结与展望

目标检测一直是国内外计算机视觉领域研究者们的探讨热点，虽然单级和二级的目标检测算法都表现出令人满意检测效果，但是每个算法都有各自的优点和缺点，因此单独依靠一种算法很难满足精度和速度的要求，算法之间可以取长补短，发挥各自优势，提高检测速度和精度，但满足某些具体场景实时性需要，如高速行驶中的智能车辆环境检测，还需要较长时间才能够实现。

未来目标检测研究和探索方向包括以下几个方面：

（1）因果推理。因果推理是一种是机器拥有常识，通过常识进行判断的一种小数据驱动大任务的技术，可以应用在图像分类，视频问答，场景图生成，相比于通过大量数据训练出来的模型来说，有了内因加持的因果性，而不是基于数据拟合后的相关性，减少误检的情况，提高检测的精度。期待在未来因果推理可以实现量化应用到目标检测技术上。

（2）弱监督或无监督目标检测。由于目前想要得到良好效果的深度学习技术都离不开大量数据标注的堆砌，训练后效果好坏与训练时用的数据的好坏成正比，仅使用少量标注数据标注后或者自动标注技术的目标检测技术，可以减少人工标注的成本和繁琐，弱监督或无监督目标检测会成为将来的一个关键方向。

（3）模型可解释。神经网络训练数据时设置的参数，如：学习率、衰减系数、卷积核大小。这些参数设置多少时模型可以得到最好的效果，目前并无法解释，盲目调参且结果是未知的，若模型可以解释，训练数据时会节省很多时间成本而且会得到效果最好的训练模型。

（4）通用多目标检测器。针对区域的检测器往往性能更好,在预定义的数据集上实现了较高的检测精度。设计一种没有任何先验知识的通用的标检测器检测出多领域的目标是未来的基本研究方向。

加之目前计算机视觉领域的很多技术都处于定制化阶段，并不能有很好的实用性，实际应用时效果非常局限，基于以上种种，目标检测这一基本任务仍然是一个很有挑战性的课题，有足够的探索和进步空间。