基于双曲嵌入的露天矿区暗光环境下道路多目标检测模型

2024-03-01 09:53顾清华苏存玲王倩陈露熊乃学

工矿自动化 2024年1期

顾清华，苏存玲，王倩，陈露，熊乃学

（1. 西安建筑科技大学资源工程学院，陕西西安 710055；2. 西安建筑科技大学西安市智慧工业感知计算与决策重点实验室，陕西西安 710055；3. The Department of Computer，Mathematics and Physical Science Sul Ross State University，Alpine，TX 79830，USA）

0 引言

随着自动驾驶技术不断发展，露天矿区无人矿用卡车（以下称矿卡）逐步投入应用。由于矿区环境特殊，道路场景复杂多变，在光照不足时会使矿区道路多目标识别不清、定位不准，进而影响检测效果，给无人矿卡的安全行驶带来严重安全隐患，因此亟需对露天矿区暗光环境下道路多目标精准检测展开研究。

道路障碍物检测方法主要包括基于机器视觉、基于毫米波雷达、基于毫米波雷达与其他传感器融合的检测方法3 类。基于机器视觉的障碍物检测方法应用较为广泛，可分为双阶段检测和单阶段检测。经典双阶段检测算法（如R-CNN[1-3]等）需先生成候选框再进行目标检测，检测速度慢，不适用于对实时性要求较高的场景。而单阶段检测算法只需一次特征提取即可实现目标检测，如单步多框目标检测（Single Shot MultiBox Detector， SSD）[4-6]、YOLO 系列[7-10]等，虽然检测速度快，但检测精度比双阶段检测算法低，可通过改进模型来提升检测精度，因此单阶段检测算法在道路障碍物检测方面应用居多。文献[11]在模型预处理阶段进行数据增强，以提高YOLO 模型对小目标的检测性能。文献[12]针对结构复杂、参数庞大的SSD 模型进行骨干改进，以降低延时，提升检测精度。文献[13]通过对YOLOv3 模型进行图像裁剪，生成适合网络输入的数据尺寸，并通过引入旋转边界框的方法实现目标的快速识别与定位。上述研究虽有效提升了单阶段检测算法的检测精度，但均未考虑环境光照对检测效果的影响。为此，许多学者针对环境光照对检测精度的影响进行了相关研究。文献[14]基于热特征的负障碍物检测，根据夜间环境下障碍物散热情况，对红外图像进行局部强度剖析以确认障碍物，但障碍物附近的非目标物体会使周围温度上升，影响检测准确率，且该方法仅限于在夜间应用。毫米波雷达抗干扰能力强，可解决外界天气对障碍物识别的影响[15-16]，但易受杂波干扰，分辨率较低，无法精确识别反射界面较小的物体。针对该问题文献[17-18]提出将毫米波雷达与其他传感器融合的方法，实验表明该融合方法能够解决单传感器检测不准的问题，但对于特殊场景的矿区，易受到湿度、温度、大气压等因素的影响，不能在暗光环境下精确检测障碍物，且使用成本过高，不利于矿区实际应用。文献[19]受自然视觉视网膜机制启发，开发了夜间图像增强方法，该方法不受夜间湿度、温度等因素影响，对车辆有较好的检测效果，但有效的监控摄像机系统建立的前提条件难以满足，适用范围受限。

研究表明，现有检测模型均有一定的弊端，不能有效解决矿区暗光环境对模型检测效果的影响，同时对矿区小目标障碍物的识别也有较大误差，不适用于矿区特殊环境下障碍物的检测与识别，本文提出一种基于双曲嵌入的露天矿区暗光环境下道路多目标检测模型。首先，在模型预处理阶段通过暗光环境增强算法提高图像质量；然后，在模型加强特征提取部分引入全局注意力机制（Global Attention Mechanism，GAM），增加网络对矿区小目标的特征偏好，提高目标特征表达能力；最后，在网络的Head 层引入双曲全连接层，解决因目标尺寸差距过大导致检测难度大的问题，进而提升整个模型检测精度与速度。

1 YOLOv5 算法

基于露天矿区对目标检测精度及速度的要求，选用YOLOv5 单阶段检测算法，其网络结构如图1所示。

图1 YOLOv5 网络结构Fig. 1 YOLOv5 network structure

该网络由Input、Backbone、Neck、Head 4 个部分构成。输入的图像分辨率为640×640。Backbone 包含数据预处理及特征提取2 个部分。预处理包括Mosaic（马赛克）数据增强、自适应锚框计算及自适应图像缩放；特征提取由Focus 切片结构[20]、跨阶段局部网络（Cross Stage Paritial Network，CSP）[21]层结构及空间金字塔池化（Spatial Pyramid Pooling，SPP）[22]3 个部分组成。Neck 采用特征金字塔（Feature Pyramid Networks， FPN） +路径聚合网络（Path Aggregation Network，PAN）[23-24]结构，对骨干特征提取的3 个有效特征层分别进行上下采样，融合特征通道，以提升网络整体性能。Head 将Neck 层提取的3 个加强特征层进行分类与回归预测，对目标进行准确识别与定位。

2 基于改进YOLOv5 露天矿区暗光环境目标检测方法

YOLOv5 模型未考虑暗光环境对检测效果的影响，无法将此模型直接用于矿区暗光环境障碍物检测。为解决暗光环境的影响，在模型的图像预处理阶段引入Retinex-Net 卷积神经网络[25-26]，对暗光图像进行增强，提高图像清晰度；针对数据集中特征过多而无重点偏好的问题，在加强特征提取部分添加GAM[27]，聚集3 个维度上更关键的特征信息，这对小尺寸目标十分重要；为减少模型参数及处理过拟合问题，在模型预测部分嵌入双曲全连接层，以提升网络整体检测效果。

2.1 Retinex-Net 暗光环境图像增强

露天矿区存在非结构化道路坡度大、环境多变等特点，极易导致无人矿卡在暗光环境下难以准确检测矿区道路目标。为解决矿区光照不均、远距离暗光及低分辨率3 类不同场景对矿区车辆和行人检测效果的影响，本文在YOLOv5 模型预处理阶段采用Retinex-Net 网络增强暗光图像，提高图像整体质量，以满足矿区暗光环境的检测需求。该模型结构如图2 所示，效果如图3 所示。该模型主要由分解模块（Decom-Net）、调整模块和重建模块3 个部分组成。

图2 Retinex-Net 网络结构Fig. 2 Retinex-Net network structure

图3 Retinex-Net 图像增强前后效果对比Fig. 3 Image comparison before and after Retinex-Net enhancement

分解模块主要由5 层带有ReLu 的卷积神经网络组成，将暗光图像和正常光照图像作为输入数据对，共享网络参数，得到暗光图像的反射分量Rlow、光照分量Ilow及正常光照图像的反射分量Rnormal、光照分量Inormal。利用Rlow，Ilow，Rnormal，Inormal之间的约束关系优化模型。该模型的损失函数由重建损失ςrecon、反射分量一致性损失 ςir和光照分量平滑损失 ςis3 个部分组成。

式中： λi j为重构系数；Ri为图像反射分量；Ij为光照分量；Sj为未分解的完整图像，使模型分解出的反射分量和光照分量能够重建对应的原图； ∇为梯度算子，包含水平和垂直梯度； λg为平衡结构意识强度系数。

式（3）通过反射分量为光照分量的梯度图分配相应的权重，使得反射分量与对应的光照分量在确保图像细节上尽可能平滑的同时，仍能够保持图像整体的边界结构完整。

调整模型主要是对Rnormal和Inormal进行调整，采用BM3D 算法对Rnormal进行噪声抑制，采用多尺度encode-decoder 架构对Inormal进行调整，使网络能捕获更大范围的关于光照分布的上下文细节信息，以提高自适应调整能力。

2.2 基于GAM 的加强特征提取

针对矿区小尺度目标易被忽略、无特征偏好及在CSP 层结构中因避免梯度消失而导致显存过大并产生特征弱化现象的问题，在YOLOv5 网络加强特征提取阶段引入GAM，以减少信息弥散，增强小尺度目标特征的表达能力，进而放大全局维度交互特征的能力。

基于GAM 加强特征提取的检测模型如图4 所示。首先将图像数据分辨率调整至640×640，引入GAM 模块；然后将调整好分辨率的图像数据输入网络进行训练，获取相应训练权重；最后利用权重进行预测验证。

GAM 模块如图5 所示，其中C，W，H分别为输入特征图的通道数及其宽和高，其运算原理为

图5 GAM 模块Fig. 5 GAM module

式中：f1为网络输入的有效特征图；为f1经过通道注意力模块处理后的有效特征图；Mc为空间注意力图； ⊗为按照特征元素进行乘法操作。f_out为经过空间注意力模块处理后最终的输出特征图；Ms为通道注意力图。

该模型将f1输入通道注意力模块，使用三维排列来保留3 个维度上的信息和两层的多层感知机（Multilayer Perceptron，MLP），来放大跨维度通道-空间依赖性；将在空间注意力模块中使用2 个卷积层进行空间信息的融合，并从通道注意力模块中使用与瓶颈注意力模块（Bottleneck attention Module，BAM）相同的缩减比a，通过2 次7×7 的卷积保持通道数一致。本文在模型加强特征提取部分的4 个CSP 模块后分别引入GAM，以解决卷积注意力模块（Convolutional Block Attention Module，CBAM）中最大池化操作会减少特征信息的问题，使整个网络更关注感兴趣区域及全局特征。进行双曲嵌入，二维Poincare 球模型如图6 所示，嵌入模型如图7 所示。

图6 Poincare 球模型Fig. 6 Poincare ball model

图7 Hyperbolic-YOLOv5 head 模型Fig. 7 Hyperbolic-YOLOv5 head model

2.3 基于双曲嵌入的YOLOv5-Head 模型优化

通常复杂数据常表现出较高非欧氏的潜在联系，无法给出较可靠的几何表示，导致模型不能准确提取有效特征而影响检测效果。具有负曲率的双曲空间[28-30]有较强的数据建模能力，对于有层次结构的数据，该空间能够使检测模型更加紧凑，具有更强的物理可解释性，且对网络复杂性和训练数据要求低，可解决参数冗余问题。双曲空间常见推广模型即Poincare 球，其是一个m维双曲几何模型，也称为共形圆盘模型。该模型几何中的点均在Poincare球的内部，几何中心的测地线对应任意垂直于圆盘边界的圆弧或圆盘的直径。根据Poincare 球的几何性质，可对实体进行层次性建模，这是探索嵌入结构层次性信息的关键性质。本文选择Poincare 球模型针对模型因提取特征不全面而影响检测效果的问题，本文将模型Neck 层输出的3 个有效特征层嵌入双曲空间进行全连接层分类。全连接变换即线性变换，将欧氏空间Y=Ax+b映射至双曲空间，并进行双曲空间中全连接运算，利用矩阵向量乘法构造。

式中：Y为模型对输入数据处理后最终的输出结果；A为所选参数；x为输入网络模型中的变量；b为线性变化的偏置参数；log0x为莫比乌斯标量乘法通过在切空间中以0 为点投影至x。

将欧氏空间全连接映射至双曲空间进行处理后，再反映射回欧氏空间，此过程称为双向映射。指数映射定义了从欧氏空间到Poincare 球模型的映射，即

式中： ⊕c为双曲空间中的加法运算；c为曲率值；为保形因子。

偏置可通过莫比乌斯平移表示，首先将偏置映射至Poincare 球模型原点切线空间，然后将其平移至含偏置的新切线空间，最后将结果反映射回原模型。映射关系为

式中： PT为Paallel Transport 并行传输； λ0， λx为并行传输对应的结果。

Poincare 球模型中的2 个变量x、Y求和定义为

莫比乌斯标量乘法等同欧氏空间乘法，当c=0 时退化为欧氏空间，即

式中：e为标量因子； ⊗c为双曲空间下的乘法运算。

双曲模型内部是指数型运算，该运算有利于模型获取数据的底层信息，对目标精确分类。因此，将欧氏空间内的运算推广至双曲空间可提升模型整体的检测效果。

3 实验与分析

实验平台软硬件配置见表1。在模型训练参数的设置中，将输入检测模型的图像尺寸调整至640×640×3，动量因子为0.937，模型训练优化器为SGD，学习率下降方式选用cos，初始学习率为0.001，批次大小为8，置信度阈值为0.5，根据损失收敛确定模型迭代2 500 次。对比模型训练参数与之保持一致。

表1 实验平台软硬件配置Table 1 Hardware and software configuration of experimental platform

3.1 数据集构建

实验数据集源于某露天矿，通过海康威视红外双目摄像头实地采集，共获取788 张图像。利用labelimg 对数据集进行标注，并按照（训练集+验证集）∶测试集=（8+1）∶1 的比例对矿区数据集进行划分。由于矿区环境特殊，导致收集数据量过少，所以采用Mixup 数据增强方法将数据扩增至原数量的6 倍，再将图像调至640×640 后输入检测模型。对于矿区场景的特殊性，将矿区非结构化道路上的检测目标——小型厢车、矿卡、矿卡2、矿卡3、洒水车、挖机、电钻挖机、行人、铲土机、电车分为3 大类，即挖机、非同类型矿卡及行人。

3.2 模型评价指标

检测模型可用混淆矩阵作为评价指标，通常用n行n列矩阵表示，见表2。

表2 混淆矩阵评价Table 2 Confusion matrix evolution

基于混淆矩阵的评价指标有精确率、召回率、平均精度、准确率、F1度量，其计算方法见表3。其中B为检测的目标数量，检测模型综合评价指标越高，表示模型性能越好。

表3 混淆矩阵性能指标计算公式Table 3 Calculation formula of performance indexs of confusion matrix

3.3 实验结果与分析

基于双曲嵌入的露天矿区暗光环境下道路多目标检测模型的检测结果由远端和车载显示器展示，结果如图8 所示。

图8 基于双曲嵌入的露天矿区暗光环境下道路多目标检测模型检测效果Fig. 8 Detection effect of road multi-object detection model based on hyperbolic embedding in dark environment in open pit mine

实验结果表明：该模型不仅对露天矿区暗光环境下的大尺度目标分类与定位精度较高，对矿卡及较远距离的小尺度目标，即行人也可准确检测和定位，能够满足无人矿卡在矿区特殊环境下驾驶的安全需求。由图8（a）、图8（d）可看出，模型利用Retinex-Net 将暗光处的像素动态扩展，可提高整体可视化，降低光照对目标的干扰，提升检测效果；由图8（b）、图8（e）可看出，对于矿卡、挖机及行人这类尺度差距较大的目标，模型利用GAM 后，对不同尺度特征用不同加权方式，弱化非检测对象的特征表达，提高检测准确性；由图8（c）、图8（f）可看出，对于常见低分辨率图像，先处理光照，再在模型输出阶段通过双曲模型获得更底层的特征信息，可进一步提高图像整体检测效果。

为验证矿区暗光环境道路多尺度目标提出的图像增强、GAM 及双曲全连接层的有效性，开展消融实验进行性能验证。以YOLOv5 网络模型为基础模型，分别验证加入Retinex-Net、GAM、双曲全连接层后的效果，并将3 种改进策略同时加入基础模型，进行验证，结果见表4。可看出在YOLOv5 网络模型中分别使用Retinex-Net、GAM、双曲全连接层后，模型的检测准确率分别提升了4%，8.23%和14.51%，检测速度分别提高了-0.87，0.25，1.42 帧/s；使用Retinex-Net、GAM 及双曲全连接层后，模型检测准确率达98.6%，检测速度为51.52 帧/s，检测性能明显提升。

表4 消融实验结果Table 4 Ablation test results

为了验证本文模型的有效性，将其与YOLO 系列和SSD 目标检测网络进行对比，结果见表5。可看出，本文所提模型的准确率较SSD、YOLOv4、YOLOv5、YOLOx、YOLOv7 分别提高了20.31%，18.51%，10.53%，8.39%，13.24%，达到98.67%，对于矿区道路上的行人、矿卡及挖机的检测准确性达97%以上。

表5 不同网络性能对比Table 5 Performance comparison of different networks

4 结论

1）基于双曲嵌入的露天矿区暗光环境下道路多目标检测模型不仅对露天矿区暗光环境下的大尺度目标具有较高的分类与定位精度，对矿卡及较远距离的小尺度目标也可准确检测及定位，满足无人矿卡在矿区特殊环境下驾驶的安全需求。

2）为了减少露天矿区多种暗光图像对检测效果的影响，采用Retinex-Net 算法进行图像预处理，检测准确率提高了4%。

3）使用Retinex-Net 进行图像处理、添加GAM模块及双曲全连接层的完整改进模型检测准确率达98.6%，检测速度保持在51.52 帧/s，可为矿区安全提供保障。

4）基于双曲嵌入的露天矿区暗光环境下道路多目标检测模型准确率达98.67%，对于矿区道路上的行人、矿卡及挖机的检测精度达97%以上。

5）由于实验所需数据收集难度大、危险系数高，使数据集数量有限，该模型检测目标的置信度还未达到0.9。下一步应考虑如何增加数据量，并提高检测物体的置信度。