DETR-Maritime模型:海上救援无人机小目标检测研究

2024-04-08 13:13吕述杭于营徐金辉
互联网周刊 2024年5期
关键词:救援卷积精度

吕述杭 于营 徐金辉

摘要:目标检测功能在海上人员搜救中扮演着至关重要的作用,特别是在复杂的海洋环境中,利用该功能可以对海面上的游泳者和船只进行精准定位。本文提出了一种专门设计和优化的DETR-Maritime模型。此模型基于RT-DETR实时检测架构,并结合高效部分可重参数化块,可以有效提升对小目标检测的精度和实时处理能力。实验结果显示,与YOLOv8-L相比,该模型的参数量减少了67.7%,计算复杂度降低了73.9%,而mAP提升了2.6个百分点,达到0.544,可以为海上救援提供有效的支持。

关键词:小目标检测;海上救援;RT-DETR;SeaDronesSee

引言

在计算机视觉领域,目标检测作为一项基础技术,一直是研究的焦点。特别是在复杂的海上救援环境中,小目标检测面临重大挑战,且直接关系到生命安全和救援效率。在海上救援中,无人机的应用要求目标检测模型不仅能够实时处理大量数据,还必须具有极高的精确性和稳定性。

在小目标检测研究中,卷积神经网络(CNN)和基于Transformer的模型是两大主流研究方向。CNN架构,特别是YOLO系列(如YOLO v5、YOLO v7和YOLO v8),凭借其快速处理速度和良好性能在实时任务中占据主导地位。然而,这些模型在处理小目标时通常存在一定局限性,例如在复杂海洋背景下容易丢失关键特征信息。

近年来,Transformer模型由于其出色的特征提取能力和长距离依赖处理能力而受到关注。尽管如此,这种模型通常在处理速度上无法满足实时任务需求。RT-DETR[1]的提出,标志着在保持Transformer高精准度的同时,显著提高处理速度的一大进步。对于海上救援中的无人机目标检测来说,这是一个重要创新。

在海上救援小目标检测的具体应用中,研究面临多种挑战。例如,海面反射和波动可能导致目标检测模型出现误判或漏检;在遥远的海洋环境中,小目标的可见度极低;动态变化的环境对实时处理能力提出了更高的要求。本文旨在通过对RT-DETR主干网络Resnet中basic block模块的创新设计,有效解决上述问题。实验结果表明,本文的方法不仅提升了模型对小目标的检测能力,也保证了在复杂环境下的实时性和准确性,为未来执行海上救援任务的无人机应用提供了新視角和可能性。

本文的贡献可以归纳为以下两点:

一是提出了EPRepBlock(efficient partial reparametrizable block),这是一种创新型模块,融合了部分卷积和可替换卷积的概念,在训练阶段使用多分支结构以提高准确度,在推理阶段则通过分支融合以提高效率。该模块还能够处理具有不规则区域的输入,如遮挡、数据缺失或尺寸不一的特征。

二是在Seadronesse Object Detection v2这一公共基准小目标检测数据集上评估了本文提出的方法,并与多种最先进的方法进行了比较。实验结果证明了本文方法在小物体检测方面的卓越性能。

1. 相关工作

RT-DETR为一种基于Transformer的端到端对象检测器,设计灵感来源于Carion等人[2]提出的DETR(检测变换器),由于其独特的特点而受到重视。DETR的显著特点是消除了传统检测流程中的手动设计锚点(anchor)和非极大值抑制(NMS)组件,而采用二分匹配(bipartite matching)直接预测一对一的对象集合。通过采用这种策略,DETR简化了检测流程并缓解了由NMS引起的性能瓶颈。

然而,DETR面临两个主要问题:慢速的训练收敛和难以优化的查询。为解决这些问题,研究人员提出了许多DETR的变体。RT-DETR作为这些努力的结果,不仅在准确性和速度上超越了当前最先进的实时检测器,而且不需要后处理,因此检测器的推理速度没有延迟,且保持稳定,充分利用了端到端检测流程的优势。这意味着RT-DETR在处理对象检测任务时更加高效和准确,特别适用于需要快速准确检测的应用场景,如实时监控或自动驾驶系统。

2. 方法

2.1 高效部分可重参数化块

本文提出了一种命名为“高效部分可重参数化块”(efficient partial reparametrizable block,EPRepBlock)的创新性残差结构。EPRepBlock整合了部分卷积(PConv)和可重参数化卷积(RepConv)的理念,分别源于最新的FasterNet(CVPR 2023)[3]和广泛认可的RepVGG(CVPR 2021)。PConv利用特征图间的冗余,仅在输入通道的一部分上执行卷积,这样做能够减少计算和内存访问需求。受RepVGG架构的启发,EPRepBlock在训练结束后,通过可重参数化技术将多个卷积和恒等映射融合为单一卷积核,以此提高推理阶段的效率。本文将EPRepBlock这种理念应用在了残差网络块(ResNet blocks)中。

2.2 EPRepBlock的结构与操作

EPRepBlock的主要特征是其训练期间的多分支架构,通过实现y=x+g(x)+f(x)的形式,允许模型隐式集成多个简化模型,类似于ResNet中的残差学习方法。在EPRepBlock中,g(x)表示1×1卷积分支,而f(x)表示经过部分卷积处理的特征图。在维度匹配的情况下,本文利用恒等分支来保持信息流的完整性。

在推理时,为减少模型复杂度并提高效率,采用RepConv技术将训练时的多分支结构重参数化为单一的3×3卷积层。具体转换过程如下:

(1)分支融合:将1×1卷积和3×3卷积的BN层参数融合进卷积核和偏置中,得到W(0)和b(0)。

(2)偏置向量的合并:将各分支的偏置向量相加,得到最终的偏置b。

(3)卷积核的合并:将1×1卷积核填充为3×3大小,然后与3×3卷积核相加,得到最终的卷积核W。

2.3 EPRepBlock的计算优化

EPRepBlock在设计上充分考虑了计算和内存效率。利用PConv,仅对cp个通道执行卷积操作,显著降低了FLOPs,如FasterNet所建议的。选择这些cp个通道是基于特征图间的相似性,这一点在先前的工作中已经被观察到,但很少有工作像FasterNet那样在简化模型的同时充分利用这一点。由于在EPRepBlock中,未参与卷积操作的通道在后续PWConv层中仍然起作用,因此这些通道仍然被保留,使得信息能够在所有通道间自由流动。

2.4 评测方法

交并比(intersection over union,IoU)构成了衡量对象检测模型性能的一个关键指标,特别是在计算平均精度(AP)和平均精度均值(mAP)方面。IoU是预测框(prediction frame)和目标框(target frame)之间的交集与并集的比值。一个高IoU值表明预测框与目标框高度重叠,意味着检测精确。本文选择mAP,mAP在IoU阈值为0.5~0.95(以0.05为步长),mAP@50,即单一IoU阈值0.5时的mAP,两个指标评估了不同模型在验证集上的表现。

3. 实验

本节将详细介绍本文的实验设置与框架,包括实验数据集、对比实验设计。这些设置共同构成了本文的严谨实验架构,目的是确保结果的准确性和可靠性,以及验证和分析不同改进策略对模型性能的影响。

3.1 数据集

SeaDronesSee为一个大型数据集,目的在于帮助开发在海上场景中使用无人机进行搜索和救援的系统。该数据集全部来自2023年第一届海事计算机视觉(MaCVi)研讨会,本文使用的是该赛事中Object detection v2赛道的数据集。数据集包含14227幅图像,分别包括8930张训练集图像、1547张验证集图像和3750张测试集图像。该任务的目标是检测包括游泳者、船只、摩托艇、浮标和救生设备(救生衣/腰带)在内的物体类别。每幅图像均配备了人工标记的真实标签(Ground-truth)检测框,算法模型须学习并推理这些真实物体的位置及其检测框的大小。

3.2 实验结果与分析

本文通过采用EPRepBlock改良了Resnet-18中的Basic Blocks,并将此模块应用于RT-DETR主干网络Resnet的相应残差块,从而开发出一种名为“DETR-Maritime”的新型结构。本文比较了三种类型的算法模型:实時目标检测模型、端到端目标检测模型和实时端到端目标检测模型,进行了共计6组的对比实验。实验结果如表1所示。

3.2.1 性能比较

相比当前流行的实时目标检测模型如YOLO v5-L和YOLO v8-L,本文开发的DETR-Maritime在参数数量和计算复杂度方面实现了显著降低。具体来说,DETR-Maritime的参数数量仅为14.10M,相比YOLO v5-L的53.17M和YOLO v8-L的43.63M,分别降低了73.5%和67.7%。在计算复杂度(GFLOPs)方面,DETR-Maritime仅需43.2GFLOPs,相比YOLO v5-L的135.3GFLOPs和YOLO v8-L的165.4GFLOPs,分别降低了68.1%和73.9%。

3.2.2 精度提升

在目标检测精度方面,DETR-Maritime在验证集上的平均精度均值(mAP)和mAP@50值分别达到0.544和0.869,比RT-DETR-R18和RT-DETR-L等其他实时端到端目标检测模型高出0.12和0.2个百分点(AP50)。与端到端目标检测器Faster-RCNN相比,DETR-Maritime在AP50上的提升尤为显著,达到了197%。

3.2.3 综合效率

虽然DETR-Maritime的帧率(FPS)为39.37,略低于YOLO系列模型,但考虑到其较低的计算复杂度和参数数量,这一表现显示了在实时性和精度之间取得了良好的平衡。相比RT-DETR-R18和RT-DETR-L,DETR-Maritime在保证较高帧率的同时,实现了更高的检测精度。

结语

本文开发了一种新型模块EPRepBlock,并将其应用于RT-DETR结构,构建出名为DETR-Maritime的海上救援模型。该模型作为高精度实时端到端检测器,在精度上超越了现有主流目标检测模型,且无须额外训练数据。尽管这种创新结构在理论和实验方面取得了显著成果,但在实际应用中面临的挑战,特别是在不同环境条件下的鲁棒性和适应性,仍须进一步验证。例如,在极端天气条件或复杂海域背景下,模型的检测精度和实时性可能会受到影响。未来的研究可以探索如何优化模型结构,以适应更广泛的应用场景,包括不同类型的海上活动和不同的海洋环境。

参考文献:

[1]Lv WY,Xu SL,Zhao Y,et al.Detrs beat YOLOs on real-time object detection[EB/OL].(2023-07-06)[2024-01-20].https://arxiv.org/abs/2304.08069.

[2]Carion N,Massa F,Synnaeve G,et al.End-to-end object detection with transformers[C]//European conference on computer vision.Cham:Springer International Publishing,2020:213-229.

[3]Chen J,Kao S,He H,et al.Run,Don't Walk:Chasing Higher FLOPS for Faster Neural Networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2023:12021-12031.

作者简介:吕述杭,本科,研究方向:计算机深度学习目标检测;于营,博士研究生,副教授,研究方向:语义分割、目标检测;徐金辉,本科,研究方向:计算机深度学习目标检测。

基金项目:海南省院士创新平台科研专项(编号:YSPTZX202144);海南省自然科学基金项目(编号:621QN270);海南省高等学校教育教学改革研究项目(编号:Hnjg2023ZD-44)。

猜你喜欢
救援卷积精度
紧急救援
基于3D-Winograd的快速卷积算法设计及FPGA实现
3D打印大救援
从滤波器理解卷积
基于DSPIC33F微处理器的采集精度的提高
基于傅里叶域卷积表示的目标跟踪算法
GPS/GLONASS/BDS组合PPP精度分析
救援行动
改进的Goldschmidt双精度浮点除法器
一种基于卷积神经网络的性别识别方法