基于YOLOv5算法的调车作业车厢检测技术研究

2024-04-23 13:33陈文轩王发刚

时代汽车 2024年7期

陈文轩　王发刚

摘要：本文研究了调车作业过程中，利用机器视觉技术辅助调车作业司机进行目标车厢识别的作业过程。利用YOLOv5算法，采集调车作业常见环境下包含待挂车厢目标的图像，在LabelImg中进行标注，通过数据训练，得到车厢检测识别系统。并在调车作业中进行实验测试，获得了较高的检测精度。本技术可以辅助调车员进行车厢识别的作业，提高了作业效率与安全性。

关键词：调车作业车厢检测

1 引言

铁路调车作业是铁路运输行业的重要环节，通过人工攀爬车厢进行瞭望的摘挂车厢作业具有一定的局限性，作业环境危险性高。随着人工智能技术的发展，将机器视觉应用到调车作业中，辅助人工作业，实时检测需要连挂的车厢位置，并将采集到的待挂车厢前方视频信息实时传送到机车驾驶室，辅助调车司机确定目标车厢的实时位置，提高了作业效率和安全性[1]。

传统的视觉目标检测技术通过对目标颜色、纹理及边缘等特征的分析，区分目标物体和背景。由于检测过程受到复杂背景、光照强度及目标物体移动等因素的影响，使得检测精度较低，检测过程稳定性较差。

对于调车作业车厢目标的检测，运用回归思想的YOLO算法，是目前检测精度及检测速度相对较高的方法。YOLO算法通过数据标注定位，特征提取及数据训练等方式，实现了高精度的检测。所以，本文使用YOLOv5算法来检测调车作业车厢的位置信息[2]。

2 YOLOv5算法介绍

YOLOv5 算法是基于 YOLOv4 的版本，为提高检测速率和精确度而开发的一种目标检测算法。目前分为YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四个模型。依据调车作业移动性强的特点，本文选取模型体积较小的YOLOv5s模型。YOLOv5算法基本结构组成为输入部分（Input）、骨干网络部分（Backbone）、颈部（Neck）和预测（Prediction）四个部分。

2.1 输入部分

输入部分通过获取包含目标信息的图像，进行Mosaic数据增强技术使得目标图像的数据集多样化，同时降低了对计算机硬件的要求，提高了模型对目标信息的识别能力。通过自适应图片缩放及自适应锚框计算等方式统一了待检测的图像尺寸和形状，进而提高了检测的准确率[3]。如图所示，为输入部分处理后的标准图像模型，图像像素大小为608*608。

2.1.1 Mosaic数据增强

Mosaic数据增强技术通过将四张图像进行随机缩放、随机裁剪以及随机排布，使得每张图像上都包含对应的框，拼接后形成一张全新的图像，重新定义新图像的坐标值，进而丰富了图像的信息，以此作为训练数据，进行数据的训练。此方法提高了鲁棒性和泛化能力，增强效果图如下所示。

2.1.2 自适应图片缩放

在目标车厢检测过程中，由于摄像机变焦的影响，采集到的图像尺寸大小不统一。通过将原始车厢图像统一缩放到一个标准尺寸下，并对原始图像自适应地添加最少因缩放产生的黑边，保证图像目标信息的完整性，再送入检测网络，以此提高检测的效果。例如，将采集到的900*700分辨率的图像进行缩放裁剪处理，根据坐标点参数剪裁超出范围的部分，缩放为标准的YOLOv5中608*608分辨率的图像。

2.1.3 自适应锚框计算

目标信息锚框的大小影响检测准确度的高低。自适应锚框计算方法会根据采集的数据集的不同，自动地计算并调整检测初始锚框的大小和形状，用于确定目标所在的可能位置。

通过数据训练，模型结合初始锚框的位置信息，给出预测框，并与目标信息真实框进行对比，计算两者差距，然后对网络参数进行反更新、迭代、对边框位置进行调整等操作。使用 VGG 網络按照 AnchorBox 锚框对不同大小的目标进行 16 倍的输入，即输入画面上的一个点对应一个16×16的方块区域，也就是特征画面上的一个点，对应于输入图像上的一个16×16的正方形区域。根据原始定义的Anchor，以特征图像上的一点为中心，可以在原图上生成9种不同形状不同大小的边框，如下图所示。

2.2 骨干网络部分

YOLOv5的骨干网络主要用于提取图像中目标特征信息。骨干网络主要由FOCUS结构、CBS结构、BOTTLENECKCSP结构以及SPP结构等组成。

FOCUS结构是为了降低特征的维度，保留有效信息而缩小图像的一种特殊的方式。FOCUS 结构通过切片操作将高解析度特征图进行拆分，拼接成若干个特征图，这些图的解析度较低。例如，将原始大小的640×640×3的图像，输入FOCUS结构后采用切片操作转换为320×320×12的特征图，经过拼接后，再进行卷积操作，最后得到320×320×64的特征图。CBS结构通过卷积的方式获取目标的特征[4]。CSP结构是将原始输入划分为两个分支，对分支分别进行卷积操作，使得通道数减半，进而学习更多的特征。SPP结构在局部特征和总体特征上实现了一体化。

2.3 颈部

颈部主要实现特征信息融合的作用。Neck采用FPN和PAN结合的结构，利用图像金字塔的思想，FPN 首先在原始图像之上构建图像金字塔。然后在图像金字塔的每一层都提出不同的特征，最后进行相应的预测，从而达到改善车厢检测的效果。PAN通过自底向上方向的路径增强方式，缩短了不同层次之间特征信息的路径，进而提高了大目标的检测效果。

2.4 预测部分

利用损失函数衡量目标预测信息和标签标定信息的差距，当差距越小时，损失函数越小，说明目标检测准确率越高。用来预测的损失函数为定位损失（box_loss）、置信度损失（object_loss）和分类损失（class_loss）三部分的加权和。预测部分对加工后的特征信息进行预测，并根据损失函数优化参数的加权和[5]。

3 车厢检测过程

目标车厢检测主要任务是将调车车厢设定为检测的目标，利用YOLOv5算法的原理，如下图所示，通过配置检测程序所需的计算机环境，采集包含调车车厢目标信息的图像，利用标注工具标注图像中的车厢目标信息，获得标注的类别和坐标结果，在深度学习框架中进行模型训练，获得模型数据后，在调车作业环境中，进行实时目标的检测测试。

3.1 环境配置

使用并激活anconda虚拟环境，下载安装cpu版本的PyTorch深度学习框架，并安装对应的依赖包，同时安装QT图形化的界面开发软件，完成检测环境的配置。

3.2 数据采集与标注

本文通过采集调车作业过程中车厢的实际图像，自建实验数据集。得到包含待挂车厢目标信息的图像2000张，分辨率为1080*720。数据集如下图所示，包含了复杂环境下的调车作业图像。将得到的数据集以随机分配的方式，分解为模型训练集、数据验证集和数据测试集。

安装并设置LabelImg软件，标注含有目标车厢的图片，并将标注的结果进行保存，标注的信息包括标签的种类，目标框中心点的坐标值。

3.3 模型训练

本系列试验进行机器学习训练的操作系统为Centos7.9，CPU为Xeon（R） Sliver 4214，充足的显存为试验的顺利进行提供了保障，并缩短了机器学习的时间。深度学习框架选择了Pytorch1.7，程序语言为Python3.7。

3.4 应用测试

利用车厢检测系统，在调车作业线路上进行实时视频检测，改变相机不同的角度和移动速度，观察并记录检测过程和结果。

4 结果与分析

本实验测试图片2000张，视频数据大小为1G，统计检测精度达90%，基本满足调车作业的环境需求。本技术可以辅助调车作业人员，提高提高调车作业过程的效率和安全。

课题：广西高校中青年科研基础能力提升项目《图像处理技术在调车作业中的应用研究》项目资助，项目编号：2021KY1399。

参考文献：

[1]王顺利，邓灼志，殷勇等.铁路车站取送调车仿真实验研究[J].实验室科学，2024，27（01）：17-20+25.

[2]段蕴桔.编组站货运调车协同监控系统设计与应用[J].铁道貨运，2024，42（01）：37-43.

[3]张瑶，陈姚节.改进YOLOv8的水面小目标检测算法[J/OL].计算机系统应用，1-10[2024-03-13].

[4]徐慧智，郝东升，徐小婷等.基于深度学习的高速公路小目标检测算法[J/OL].吉林大学学报（工学版），1-12[2024-03-13].

[5]陈冬冬，任晓明，李登攀等.基于改进的YOLOv5s的双目视觉车辆检测与测距方法研究[J].光电子·激光，2024，35（03）：311-319.