自然场景下的挖掘机实时监测方法

2020-06-20 03:26毛亮薛月菊朱婷婷魏颖慧何俊乐朱勋沐

农业工程学报 2020年9期

毛亮，薛月菊，朱婷婷，魏颖慧，何俊乐，朱勋沐

自然场景下的挖掘机实时监测方法

毛亮1,2，薛月菊1※，朱婷婷3，魏颖慧3，何俊乐3，朱勋沐1

（1. 华南农业大学电子工程学院，广州 510642；2. 深圳职业技术学院粤港澳大湾区人工智能应用技术研究院，深圳 518055；3. 高新兴科技集团股份有限公司中央研究院，广州 510530）

为实时监测违法用地现象，对作业挖掘机等施工机械进行实时监测至关重要。针对自然场景下由于背景复杂、光照不均匀及遮挡等导致作业挖掘机难以准确检测出的问题，该文采用类似SSD（Single Shot Detector）方法的网络结构，提出一种自然场景下的挖掘机实时监测方法。该方法采用堆叠DDB（Depthwise Dense Block）模块组成基础网络，实现浅层特征提取，并与高层特征融合，提高网络模型的特征表达能力；在MobileNetV2网络的基础上进行改进，设计 BDM（Bottleneck Down-Sampling Module）模块构成多尺度特征提取网络，使模型参数数量和计算量减少为SSD的68.4%。构建不同视角和场景下的挖掘机目标数据集，共计18 537张，其中15 009张作为训练集，3 528张作为测试集，并在主流Jetson TX1嵌入式硬件平台进行网络模型移植和验证。试验表明，该文方法的mAP（Mean Average Precision）为90.6%，其检测精度优于SSD和MobileNetV2SSD的90.2%；模型大小为4.2 MB，分别减小为SSD和MobileNetV2SSD的1/25和1/4，每帧检测耗时145.2 ms，相比SSD和MobileNetV2SSD分别提高了122.7%和28.2%，可以较好地部署在嵌入式硬件平台上，为现场及时发现违法用地作业提供有效手段。

农业机械；监测；模型；SSD；MobileNetV2；自然场景；挖掘机；嵌入式硬件

0 引言

为实现现场实时监测违法用地现象，2011年开始，国土资源部在15个地级市、县（市、区）开展土地视频监控试点，对重点违法用地易发区域进行了视频监控。挖掘机是工程建设中最主要的工程机械之一，对土地间的挖掘机目标进行快速检测是及时发现违法用地现象的重要手段，并能够为工程项目管理人员及时提供施工现场的重要管理信息。

目前，利用视频图像来检测挖掘机的相关研究较少。李源等[1]通过对挖掘机图像的RGB颜色特征分析，提出一种基于颜色信息的挖掘机图像分割算法，该算法只利用颜色特征，无法对背景复杂的挖掘机图像进行有效分割。于华琛等[2]用帧差法和高斯混合建模法，研究了挖掘机铲斗的检测方法。该方法只适应单一场景下的运动目标检测，无法对复杂场景且静止的挖掘机目标进行检测。近年来，基于深度学习的目标检测方法由于直接通过深层卷积网络结构自动学习图像的高阶特征，极大地提升了对象检测的精度。基于深度学习的目标检测方法一般分为基于候选区域和基于回归2种方法。其中基于候选区域的方法主要包括Fast R-CNN[3]、Faster R-CNN[4]和R-FCN[5]，这种方法虽然准确，但计算成本很高，检测速度慢；基于回归的方法主要包括YOLO（You Only Look Once）[6]和SSD（Single Shot Detector）[7]，这种方法具有较好的检测速度和精度，得到广泛的应用。

但现有SSD方法的模型参数数量和计算量大，在嵌入式硬件上实时性差，许多研究人员提出了一系列的轻量化目标检测方法，如MobileNetV1SSD[8]、MobileNetV2SSD[9]、Tiny-DSOD[10]、Pelee[11]、TinySSD[12]Fire SSD[13]和 MobileNetV3SSD[14]等。虽然这些方法取得了较好的成果，但只是对公共数据集PASCAL VOC2007在手机端或工作站上进行检测性能验证，暂未在嵌入式芯片上对于自然场景下的作业挖掘机进行检测结果。

实际作业中，作业挖掘机图像中存在背景复杂、光照不均匀及遮挡等因素，导致目标难以被准确检测到；同时由于重点违法用地区域分布地域广，造成视频图像远程传输代价大、实现困难，挖掘机检测需要在前端有限计算资源的嵌入式芯片上完成。因此，本文在构建各类场景下的挖掘机目标数据集的基础上，设计与SSD方法类似的目标检测网络，采用堆叠DDB（Depthwise Dense Block）模块的网络进行浅层特征提取，并与高层特征融合，再采用BDM（Bottleneck Down-Sampling Module）模块实现多尺度特征提取，利用逐渐变小的卷积层，获取不同尺度下的目标特征，同时将网络的通道数扩增为输入的2倍，保持网络的特征表达能力同时减少网络参数数量和计算量。训练时，采用迁移学习对训练好的网络模型进行调优，以提高收敛速度，减少训练时间。最后，在公共数据集PASCAL VOC2007和挖掘机目标数据集上，以嵌入式Jetson TX1硬件平台为测试平台，对本文方法进行验证。本文在嵌入式芯片上采用深度学习方法对田间的挖掘机目标进行检测，以期为现场及时发现违法用地现象提供有效手段。

1 试验数据

1.1 试验数据采集

试验数据来源于互联网和监控摄像机拍摄的挖掘机图像，包括大量建筑工地中白天场景下各种视角的常用履带式反铲挖掘机视频，主要以小松、日立、卡特、神钢、凯斯和沃尔沃等品牌为主，共28种型号。总共采集到110段视频，其分辨率为1 920像素×1 080像素，帧率为每秒25帧。当获取挖掘机目标的视频图像时，由于挖掘机存在不同工作状态，所以挖掘机目标在视频图像中可呈现出4个方向的视角，即正面、侧面、斜面和背面[15]。挖掘机正面图像中挖掘机铲斗不仅容易与其他物体粘连，也会受到其他物体的遮挡；而背面中挖掘机动臂容易受到自身的遮挡，且工作时动臂的姿态变化较大。

1.2 训练集和测试集准备

为避免时序相关性，对采集的挖掘机视频片段进行随机抽取并获取挖掘机静态图像，然后采用人工方式标注挖掘机边界框，形成挖掘机数据集，共有18 537张，从挖掘机数据集中随机选择3 528张作为测试集，用于目标检测模型的性能评价，其余15 009张作为原始训练集。对原始训练集的目标图像随机进行水平镜像、垂直镜像翻转以及顺时针90°、180°和270°旋转扩增，形成扩增训练集，共计45 246张。

2 挖掘机目标检测方法

2.1 网络结构

SSD方法中使用VGG（Visual Geometry Group）[16]作为基础网络，但该网络参数众多，导致特征提取过程占用大部分运行时间，不适合在移动设备或嵌入式芯片上运行[17]。而DDB（Depthwise Dense Block）模块因模型小，计算速度快，且特征提取能力强，非常适合应用到存储和计算资源都非常有限的移动设备或嵌入式芯片中[10]。因此，本文以DDB模块构建基础网络，融合下采样的特征，再与多尺度特征提取网络BDM（Bottleneck Down-Sampling Module）组合，对目标生成一系列固定大小的检测框，并输出这些检测框中包含某类物体实例的得分，然后通过改进的非极大值抑制，输出最终检测结果。

如图1所示，本文的基础网络由4个密集阶段的网络结构构成，每个阶段堆叠不同数量的DDB网络模块[10]，第1个密集阶段中堆叠4个DDB模块，在第2至第4个密集阶段分别堆叠6个DDB模块，每个密集阶段中对通道数进行不同比例的压缩，第1至第4阶段的通道数分别为32、48、64和80。密集阶段中DDB模块的通道数随网络深度的加深而增加。DDB模块对输入的特征图，首先进行1×1标准卷积处理，并对不同密集阶段通道数进行压缩，然后通过3×3 深度可分离卷积进行特征提取，最后直接与输入的特征图进行特征映射合并阶段输出。相邻密集阶段的DDB模块通过传递层进行连接，其中第1个和第2个阶段的传递层中使用1×1卷积处理，将特征图的通道数由256压缩到128，然后使用2×2最大池化层降低特征图的分辨率为38×38；在第3和第4个阶段的传递层使用1×1卷积层将特征图的通道数由512压缩到256，同时保持特征图的分辨率19×19不变。

另外，基础网络中的下采样模块由一个双分支结构构成，分别采用3×3标准卷积和3×3深度可分离卷积处理，然后进行块归一化和非线性处理；另一路分支先进行最大池化操作，将特征图的分辨率和通道数分别降为19×19和64，然后用1×1标准卷积处理，再进行块归一化和非线性处理。最后，将2路分支的输出采用特征映射的方式合并后进行输出。

在多尺度特征提取网络部分，本文在基础网络中Conv7层的后面，增加由4个不同尺度BDM（Bottleneck Down-Sampling Module）网络结构成的特征提取网络，其中每个BDM的特征图尺寸为10×10、5×5、3×3和1×1。最后，采用6个特征网络层作为目标检测的输出，分别为Conv5、Conv7、BDM1、BDM2、BDM3和BDM4，其特征图的分辨率为38×38、19×19、10×10、5×5、3×3和1×1。

2.2 BDM模块

由于MobileNetV2网络[9]使用3×3深度可分离卷积，使得计算量降低为标准卷积的1/8~1/9，而检测精度损失很少[8]，因此BDM模块在MobileNetV2网络结构进行改进。如图2所示。在图2b中，对每个非线性ReLU层加上BN（Batch Normalization）层[18]，这样不仅增大了梯度、避免了梯度消失问题，同时加快了学习收敛速度，解决了随着网络深度加深训练速度下降的问题[9]。

首先采用1×1的标准卷积进行处理，将特征图的通道数=128扩充到=256，然后用卷积核大小为3×3、步长=2的深度可分离卷积进行特征提取，再用1×1标准卷积进行处理，重新构建特征空间，将特征图的通道数=256缩减为=128，并传递到更深层的网络。

BDM模块的参数数量和计算量的计算方法如表1所示。假设输入图像块为，输入通道数为0，输出通道数为1，通道扩增系数为，卷积核大小为、步长，则BDM的参数数量为0(01)，SSD的多尺度特征提取网络部分中相同模块的参数数量为0(1)如假定BDM模块输入图像块为10×10，输入通道为128，输出通道数为128，通道扩增系数为2，卷积核大小为3×3、步长为2，则BDM的参数数量为8 422 400，SSD相同模块的参数数量为26 675 200，比SSD减小了68.4%。因此，本文使用BDM模块，将大大地减少参数数量和计算量，可较好地解决因使用标准卷积导致其参数数量和运算量较高的问题。

注：Conv1～Conv7为卷积层；DW-Conv1和 DW-Conv2为深度可分离卷积层；Pool1、Pool2、Pool3为最大池化层；64、128、256、416、512、736为卷积层的输出通道数；DDB×4、DDB×6为堆叠DDB模块；BDM1～BDM4为瓶颈下采样模块；ReLU和ReLU6为非线性变换层；BatchNorm为批归一化层；S为卷积操作的步长；C为卷积层的通道数。下同。

注：Conv 1×1为1×1卷积核的卷积层；DW Conv 3×3为卷积核的深度可分离卷积层。下同。

2.3 损失函数

表1 BDM参数数量和计算量计算方法

注：为输入图像块分辨率的大小；为通道扩增系数。

Note:is the size of input image block resolution;is the coefficient of the enlarged channels.

3 网络模型训练与移植

3.1 试验平台

试验训练平台采用32 GB内存、Geforce GTX 1080 GPU、Intel I7-7700 CPU的硬件平台和Ubuntu16.04 LTS操作系统，在深度学习框架Caffe[19]上，采用Python作为编程语言实现本文方法。试验测试平台采用Jetson TX1[20]嵌入式硬件平台，其硬件配置为CPU为1.8 GHz ，内建256个CUDA核心的NVIDIA Maxwell GPU，计算能力超过1T FLOP，内存为4 GB和Ubuntu16.04 LTS操作系统，在OpenCV2.4.11[21]、CUDA8.0、Cudnn5.1和Caffe等开源软件基础上，采用C++语言实现本文方法并进行测试。

3.2 模型训练

在算法实现过程中，由于采用随机初始化权值需要花费大量的时间将模型损失值收敛于稳定值，因此本文在模型初始化中，共享卷积层以Xavier进行随机初始化[22]，以降低随机设置初始权值带来的网络不稳定性[23]。

为了进一步降低训练耗时和资源，本文采用迁移学习方法，利用在公共数据集PASCAL VOC上已预训练好的DDB模型[10]，迁移到挖掘机目标数据集上进行微调，不仅可以克服不同数据集之间的差异性，还会快速收敛至邻域很小的损失值。然后使用随机梯度下降法[24]，对网络模型以端到端的方式进行训练。网络训练的具体参数为：对不同尺度的特征图使用与SSD方法类似的锚点框选择策略[7]，默认使用4种固定长宽比的边界框，具体为{1，1，2，1/2｝，mini-batch大小为20，冲量为0.9，权值的衰减系数为0.000 5，最大迭代次数为16万次，其中前4万次学习率为10–2，5~8万次学习率为10–3，再次以学习率为10–4迭代4万次，最后以10–5的学习率迭代4万次，最终选取训练中精度最高的模型。

3.3 模型移植

在嵌入式Jetson TX1硬件平台上实现本文方法，需进行系统配置和深度学习框架安装，具体步骤为：首先通过路由器将一台装有Ubuntu16.04 LTS操作系统的主机与Jetson TX1嵌入式硬件平台进行连接，并利用NVIDIA Jet Pack 给Jetson TX1嵌入式硬件平台安装Ubuntu16.04 LTS操作系统映像、开发工具和用于启动的开发环境等；然后安装NVIDIA_CUDA 8.0并行计算框架、cudnn5.1深度神经网络加速库以及Python2.7开发平台；最后安装Caffe框架并利用Python编写本文方法的测试程序并执行。

3.4 评价指标

通常目标检测的评价指标包括：检测精度、每帧检测的时间和模型大小等。本文采用平均精度的平均值mAP（Mean Average Precision）、每帧检测时间Time（ms）和模型大小Model Size（MB）为评价指标。

4 结果与分析

4.1 PASCAL VOC2007测试集检测结果与分析

为了验证本文方法在公共数据集PASCAL VOC[25]上的检测性能，选用PASCAL VOC2007训练集和PASCAL VOC2012训练集综合后的数据作为训练集及验证集，共16 551张图像，包括20种不同类别的目标；PASCAL VOC2007测试集共4 952张图像。检测结果如表2所示，本文方法的mAP为69.5%，比SSD和MobileNetV2SSD分别降低了7.3%和1%，而轻量化的MobileNetV2SSD方法比SSD降低了6.3%，这说明对网络模型进行轻量化处理，会对网络的检测精度会造成一定的损失。本文方法的模型大小为4.5 MB，每帧耗时为250 ms，相比SSD和MobileNetV2SSD的模型分别减小了100.7和9.2MB，每帧检测耗时都缩短了约1倍，具有较大的优越性。权衡以上方法，在精度损失1%的条件下，本文方法的模型大小减少到MobileNetV2SSD的1/3，检测效率提升了1倍。由于本文方法针对挖掘机特点设计，且需要移植到嵌入式系统，并非针对通用目标的，所以在公共数据集上，虽然模型大小和检测效率上优于以MobileNetV2为基础网络的SSD，但是检测精度略低1个百分点。

表2 不同方法对PASCAL VOC2007测试集的检测性能对比

4.2 挖掘机数据集检测结果与分析

在挖掘机测试集上，分别对本文方法、SSD和MobileNetV2SSD进行测试，并统计其检测精度、模型大小和每帧检测耗时，结果如表3所示。由表3可知，本文方法的检测精度mAP为90.6%，相比其他2种方法都提高了0.4个百分点。通过对网络模型的改进使得网络模型参数数量和计算量大大减少，其模型大小为4.2 MB，约为SSD和MobileNetV2SSD模型大小的1/25和1/4，每帧检测耗时145.2 ms，比SSD和MobileNetV2SSD提高了122.7%和28.2%，使得网络模型更适合在嵌入式芯片上部署，具有更好的实时性。

对挖掘机测试集的目标检测结果，如图3所示。对图3a中正面视角的挖掘机图像，所有方法都能很好的检测到目标；图3b侧面视角的挖掘机图像由于背景较复杂，且存在同类目标的情况，本文方法可检测到目标，而其他2种方法出现了漏检情况；图3c斜面视角的挖掘机图像中，目标姿态变化较大，且存在局部遮挡情况，本文方法和MobileNetV2SSD都可检测到目标，而SSD出现漏检情况；图3d背面视角的挖掘机图像，目标被其他物体遮挡了部分特征，且背景存在同类目标的干扰，本文方法和SSD都可检测到目标，而MobileNetV2SSD出现漏检情况。因此，本文方法对自然场景下不同视角和背景较复杂的挖掘机目标检测具有较好的鲁棒性。

表3 不同方法对测试集挖掘机图像的检测性能对比

注：红色框、蓝色框和绿色框分别表示本文方法、SSD和MobileNetV2SSD的检测结果。下同。

4.3 局部遮挡情况下的检测结果

自然场景下挖掘机目标容易受到其他物体和自身遮挡，因此，本文针对不同情况的局部遮挡数据进行了对比测试，结果如图4所示。由图可知，图4a正面视角的挖掘机图像中存在自身遮挡目标，所有方法同样都能检测到目标。图4b侧面视角的挖掘机图像被其他物体遮挡，所有方法都可以检测到目标；图4c斜面视角的挖掘机图像被其他物体遮挡，本文方法和SSD都可以检测到目标，但MobileNetV2SSD在图4c中出现检测框过大的现象，所得检测区域受到其他物体的干扰；图4d背面视角的挖掘机图像中，背景较复杂，存在光照不均匀和自身遮挡，所有方法都可以检测到目标，但SSD和MobileNetV2SSD在图4d中出现了误检情况。试验表明，本文方法对自然场景下2种局部遮挡的挖掘机目标都能检测到，且未出现误检和漏检，说明该方法比其他2种方法的鲁棒性更好。

图4 本文方法、SSD和MobileNetV2SSD对局部遮挡情况的挖掘机检测结果

5 结论

本文采用类似SSD的网络结构，利用堆叠DDB模块组成基础网络，在MobileNetV2基础上进行改进的BDM模块构成多尺度特征提取网络，以自然场景下的挖掘机目标为研究对象，构建了不同视角和场景下的作业挖掘机数据集，实现挖掘机目标检测，并在嵌入式Jetson TX1硬件平台进行模型移植，主要结论如下：

1）在MobileNetV2基础上改进BDM模块，其参数数量和计算量相比标准卷积降低了68.4%。

2）通过迁移学习技术，利用公共数据集上已预训练好的DDB模型，迁移到挖掘机目标数据集上进行微调，大大缩短了训练时间，并简化训练过程。

3）以嵌入式Jetson TX1硬件平台为测试平台，在挖掘机数据集上进行检测。试验表明，本文方法的检测精度mAP为90.6%，比SSD和MobileNetV2SSD提高了0.4个百分点；模型大小4.2 MB，约为SSD和MobileNetV2SSD的1/25和1/4，每帧检测耗时为145.2 ms，比SSD方法和MobileNetV2SSD方法提高了122.7%和28.2%。具有模型参数数量和计算量都较小的优点，适合部署在嵌入式硬件平台上。

本文研究可为作业挖掘机目标检测提供方法和思路，为后续针对嵌入式硬件平台实现作业挖掘机状态识别奠定基础。

[1] 李源，何荣开，王庆，等. 基于颜色及投影特征的挖掘机图像分割算法[J]. 小型微型计算机系统，2013，34(11)：2635-2638. Li Yuan, He Rong-kai, Wang Qing, et al. Segmentation algorithm of the excavator image based on color and projection characteristics[J]. Journal of Chinese Computer Systems, 2013, 34(11): 2635-2638. (in Chinese with English abstract)

[2] 于华琛，袁祖强. 基于机器视觉的铲斗目标检测[J]. 机械制造与自动化，2016(4)：165-167. Yu Huachen, Yuan Zuqiang. Bucket target detection based on machine vision[J]. Machine Building & Automation, 2016(4): 165-167. (in Chinese with English abstract)

[3] Girshick Ross. Fast R-CNN[C]//IEEE International Conference on Computer Vision. 2015: 1440-1448.

[4] Ren Shaoqing, He Kaiming, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]// International Conference on Neural Information Processing Systems. 2015: 91－99.

[5] Dai Jifeng, Li Yi, He Kaiming, et al. R-FCN: Object detection via region-based fully convolutional networks[C] //The 30th International Conference on Neural Information Processing Systems. 2016: 379-387.

[6] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition. 2016: 779-788.

[7] Liu Wei, Anguelov Dragomir, Erhan Dumitru, et al. SSD: Single shot multiBox detector[J]. European Conference on Computer Vision. 2016(5): 21-37.

[8] Howard Andrew G, Zhu Menglong, Chen Bo, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications[EB/OL].2019-07-25[2017-04-17]. https://arxiv.org/abs/1704.04861v1.

[9] Sandler Mark, Howard Andrew, Zhu Menglong, et al. MobileNetV2: Inverted residuals and linear bottlenecks[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2018.

[10] Li Yuxi, Li Jiuwei, Lin Weiyao, et al. Tiny-DSOD: Lightweight object detection for resource-restricted usages[EB/OL]. 2019-07-26[2018-07-29]. https: //arxiv. org/abs/1807. 11013v1.

[11] Wang Robert J, Li Xiang, Ling Charles X. Pelee: A real-time object detection system on mobile devices[EB/OL]. 2019-07-26[2018-04-18]. https: //arxiv. org/abs/1804. 06882v3.

[12] Alexander Wong, Mohammad Javad Shafiee, Francis Li, et al. Tiny SSD: A tiny single-shot detection deep convolutional neural network for real-time embedded object detection[EB/OL]. 2019-07-25[2018-02-19]. https: //arxiv. org/abs/1802.06488.

[13] Hengfui Liau, Nimmagadda Yamini, YengLiong Wong. Fire SSD: Wide fire modules based single shot detector on edge device[EB/OL]. 2019-07-26[2018-07-14]. https: //arxiv. org/abs/ 1806.05363v1.

[14] Andrew Howard, Mark Sandler, Grace Chu, et al. Searching for mobileNetV3[EB/OL]. 2019-07-26[2019-05-06]. https:// arxiv.org/ abs /1905.02244.

[15] 毛亮，薛月菊，林焕凯，等. 一种基于视频图像的挖掘机工作状态识别方法[J]. 系统工程理论与实践，2019，39(3)：797-804. Mao Liang, Xue Yueju, Lin Huankai, et al. A method of excavator working state identification based on video image[J]. Systems Engineering-Theory & Practice, 2019, 39(3): 797-804. (in Chinese with English abstract)

[16] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014: 1-14.

[17] 刘慧，张礼帅，沈跃，等. 基于改进SSD的果园行人实时检测方法[J]. 农业机械学报，2019，50(4)：29-35. Liu Hui, Zhang Lishuai, Shen Yue, et al. Real-time pedestrian detection in orchard based on improved SSD[J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(4): 29-35. (in Chinese with English abstract)

[18] Ioffe S, Szegedy C. Batch Normalization: Accelerating deep network training by reducing internal covariate Shift[C]//International Conference on International Conference on Machine Learning. JMLR. org, 2015.

[19] Jia Yangqing, Shelhamer E, Donahue J, et al. Caffe: Convolutional architecture for fast feature embedding[J]. ACM International Conference on Multimedia, 2014: 675-678.

[20] Nvidia. Autonomous Machine. Jetson Download Center Archive[EB/OL]. 2019-07-27[2017-07-20]. https://developer. nvidia. com/embedded/downloads/archive/Jetson_TX1_and_ TX2_Developer_Kits_User_Guide.

[21] BRADSKI G, AEHLER A. Learning OpenCV: Computer vision with the OpenCV library[M]. Sebastopol, CA: O'Reilly Media Inc, 2008: 442.

[22] Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[J]. Journal of Machine Learning Research, 2010, 9: 249－256.

[23] 彭红星，黄博，邵园园，等. 自然环境下多类水果采摘目标识别的通用改进SSD模型[J]. 农业工程学报，2018，34(16)：155-162. Peng Hongxing, Huang Bo, Shao Yuanyuan, et al. General improved SSD model for picking object recognition of multiple fruits in natural environment[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(16): 155-162. (in Chinese with English abstract)

[24] Léon Bottou, Olivier Bousquet. Learning using large datasets, mining massive datasets for security[M]. NATOASI Workshop Series, IOS Press, Amsterdam, 2008:15‒26.

[25] Everingham M, Gool L V, Williams C K I, et al. The pascal visual object classes (VOC) challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338.

Method for the real-time monitoring of the excavator in natural scene

Mao Liang1,2, Xue Yueju1※, Zhu Tingting3, Wei Yinghui3, He Junle3, Zhu Xunmu1

(1.,,510642,;2.,,518055,; 3.,,510530,)

In order to monitor illegal land use in real time, video surveillance technology was used to monitor the vulnerable areas of illegal land use. Excavator was one of the most important construction machinery in the engineering construction, an automatic real-time detection of excavator could provide important information for non-contact field monitoring of illegal land. But it was difficult to accurately detect the excavator due to the complex background, uneven illumination and partial occlusion in natural scene, This paper proposed a real-time excavator detection algorithm in natural scene based on the SSD-like (Single Shot Detector). Specifically, the lightweight network DDB (Depthwise Dense Block) was used as the basic network to extract shallow feature and fuse with high-level features in the excavator objection model to enhance the feature representation capability. Meanwhile, the BDM (Bottleneck Down-sampling Module) which was designed based on the lightweight network MobileNetV2 was used as the multi-scale feature extraction network to reduce the parameter quantity and computation. The data sets included 18 537 images of excavators with different shooting angles and natural scenes, 15 009 images were used as training set and 3 528 images were chosen as test set randomly. To enhance the diversity of training data, data set expansion methods such as rotation and image were adopted. Based on the Caffe deep learning framework, the proposed model in this paper was trained with end-to-end approximate joint methods and the model weight was fine-tuned by using SGD (Stochastic Gradient Descent) algorithm. The DDB module of the network was initialized with the weights pre-trained on the PASCAL VOC dataset, and the training time and resources were further reduced by transferring learning. Then the model pre-trained on the large data sets was transplanted to excavator object detection by transfer learning. The proposed method was transplanted and performed on the mainstream Jetson TX1 embedded hardware platform, and experiments on the actual data set of detecting excavator object at different angles of view and natural scenes. Experiment results showed that the parameter quantity and computational complexity of proposed model with BDM was reduced by 68.4% compared to SSD, the mAP (Mean Average Precision) of proposed method reached 90.6% on the testing set, which was 0.4% and 0.4% higher than that of SSD based on VGG16 basic net and MobileNetV2SSD based on MobileNetV2 basic net, respectively. The model size of propose method was 4.2 MB, which was about 1/25 and 1/4 of SSD and mobilenetv2ssd, respectively, and the time-consuming of each frame was 145.2 ms, which was 122.7% and 28.2% faster than SSD and MobileNetV2SSD, respectively. The proposed method not only had better generalization and robustness, but also can be better deployed on the embedded hardware platform which demonstrated the feasibility of real-time monitoring of the excavator at site of illegal land use.

agricultural machinery; monitoring; models; SSD; MobileNetV2; natural scene; excavator; embedded hardware

毛亮，薛月菊，朱婷婷，等. 自然场景下的挖掘机实时监测方法[J]. 农业工程学报，2020，36(9)：214-220.doi：10.11975/j.issn.1002-6819.2020.09.024 http://www.tcsae.org

Mao Liang, Xue Yueju, Zhu Tingting, et al. Method for the real-time monitoring of the excavator in natural scene[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(9): 214-220. (in Chinese with English abstract) doi：10.11975/j.issn.1002-6819.2020.09.024 http://www.tcsae.org

2019-08-02

2020-04-29

国家科技支撑计划（2015BAD06B03-3）

毛亮，博士，副研究员，主要研究领域为计算机视觉与深度学习。Email：maoliangscau@163.com

薛月菊，教授，博士生导师，主要研究领域为机器视觉与图像处理。Email：xueyueju@163.com

10.11975/j.issn.1002-6819.2020.09.024

TP391

1002-6819(2020)-09-0214-07

自然场景下的挖掘机实时监测方法

0 引 言

1 试验数据

1.1 试验数据采集

1.2 训练集和测试集准备

2 挖掘机目标检测方法

2.1 网络结构

2.2 BDM模块

2.3 损失函数

3 网络模型训练与移植

3.1 试验平台

3.2 模型训练

3.3 模型移植

3.4 评价指标

4 结果与分析

4.1 PASCAL VOC2007测试集检测结果与分析

4.2 挖掘机数据集检测结果与分析

4.3 局部遮挡情况下的检测结果

5 结 论

0 引言

5 结论