基于YOLOv3深度卷积神经网络的田间百香果定位

2019-09-10 18:07林营志卢依琳刘现

福建农业科技 2019年8期

林营志卢依琳刘现

摘要：为实现大田棚架栽培环境下百香果的机器自动化采摘，使用YOLOv3深度卷积神经网络建立了复杂背景下的百香果果实定位模型。该方法使用单个卷积神经网络遍历整个图像，回归目标的类别和位置，实现了直接端到端的目标检测。训练集使用了400张人工标注的图像，测试集为100张图片，共包含3071个百香果样本。经过训练的模型在测试集下的平均精度均值mAP为97.66%，当使用0.65置信阈值时，准确率为98%，召回率为94%，交并比IOU为83.96%。

关键词：百香果;图像识别;只需瞄一眼;深度学习

Abstract：In order to realize automatic picking of passion fruit under the environment of field shelving， YOLOv3 deep convolutional neural network was used to establish the fruit location model of passion fruit under the complex background. In this method， a single convolutional neural network was used to traverse the whole image and return to the category and location of the target thus to realize the direct endtoend target detection. The training set used 400 manually labeled images and the test set used 100 images， which included a total of 3，071 passion fruit samples. The average accuracy mean mAP of the trained model under the test set was 97.66%. When the confidence threshold of 0.65 was used， the accuracy rate was 98%， the recall rate was 94%， and the crossover ratio of IOU was 83.96%.

Key words：Passion fruit; Image recognition; You Only Look Once; Deep learning

果蔬采收是园艺生产的重要环节，劳动强度大、工作效率低、季节性用工明显。自20世纪80年代以来，国内外学者开展了大量果蔬采摘机器人的研究，如猕猴桃[1]、草莓[2]、黄瓜[3]、番茄[4]。视觉识别系统作为采摘机器人的重要组成部分，对机器人工作效率和可靠运行有较大影响。

早期的视觉系统多采用基于颜色或几何形态特征的目标果实算法，较难满足稳定性和鲁棒性要求。近年来，深度卷积神经网络在目标检测领域显现出巨大的优越性，使得在复杂情况下水果的识别变得可能。赵源深等[5]采用haarlike特征及其编码的方法，结合AdaBoost深度学习算法，获得用于识别成熟番茄的分类器，对光照变化、果实粘连以及枝叶遮挡等干扰具有较强的自适应性和鲁棒性。熊俊涛等[6]利用Faster RCNN方法进行树上绿色柑橘的视觉检测研究，模型mAP达到了85.49%，对自然环境下绿色柑橘有较好的检测效果。只需瞄一眼（You Only Look Once，YOLO）即可识别图像中物品及其位置，YOLO是目前最快的目标检测方案之一，使用单一的卷积网络基于整幅图像直接进行位置检测和分类预测[7]。赵德安等[8]在兼顾效率和准确率的情况下，使用YOLOv3实现了复杂背景下的苹果识别，准确率达到了97%。

百香果是西番莲科西番莲属的草质藤本植物，主要采用棚架栽培模式，果实下垂于藤蔓上，棚架底部空间大，枝干、叶、果实干涉较小，但成熟期不一致。本研究尝试使用YOLOv3卷积神经网络来建立预测模型，实现田间棚架栽培模式下的百香果识别，用于百香果的自动化采摘。

1 材料与方法

1.1 识别对象

百香果图像采集地点为福建福州市闽侯县荆溪镇仁洲村和福建省漳州市芗城区埔里村百香果基地，均采用棚架式栽培模式，品種为黄金百香果，大部分处于接近成熟期（图1）。棚架栽培模式下，机器人只能在棚架下方移动，视角自下而上，因而易受自然光影响，图像颜色和亮度差异较大（图2）。大部分挂果呈现自然下垂状态，但仍存在重叠或者被叶片遮挡的状态，使用传统的色差分割等方法较难实现。因此本研究考虑使用深度卷积神经网络来提取果实特征，采用端到端的整体训练进行自适应学习。

1.2 试验平台

训练使用GPU服务器，硬件配置为Intel E52665X2，32 G RECC DDR3，250 G固态硬盘，NVIDIA RTX 2080TI 11G显卡4张，软件配置为Ubuntu Linux 16.04， CUDA10.0， cuDNN7.6， YOLOv3。测试在笔记本电脑进行，硬件配置为Intel i79750H 4.5 GHz 6核，内存32 G DDR4 2666，GPU为GeForce GTX 1650，软件配置为Windows10、CUDA10.1、Cudnn7.6、OpenCV3.4.1、YOLOv3和Yolo Mark。

1.3 数据集构建

随机抽取田间采集到的图像，使用软件YOLO Mark对图像中的百香果进行人工标注，标注信息包括目标百香果的类别和位置。矩形框坐标归一化到0～1的范围内，便于在增强处理时保持坐标数据。YOLO标注信息存储在与图像同名的文本文件中，每行表示一个目标，包括5个参数，分别是目标类别编号、矩形框中心x坐标、中心y坐标、矩形框的宽和高。坐标归一化的计算公式为：

1.4 模型训练与评估

模型训练和评估基于YOLOv3，采用64个样本作为一个处理单元，每次更新权重值时BN正则化，动量0.9，权重衰减0.000 5，饱和度1.5，曝光度1.5，初始学习率0.001，使用0.1的学习率变动因子。为稳定模型，学习率控制参数设定为1000。目标类型仅1个，因此最大迭代次数配置为4000次。为便于观察训练过程，每4次迭代计算一次mAP。每100次迭代存储一次权重模型。

过多训练可能导致过拟合，因此需要对模型进行评估，寻找适当的模型。在本研究中以mAP为评估指标，使用测试集逐一计算模型的mAP值，测试阈值为0.25，交并比IOU阈值为0.50，查找最高的mAP值，选用与该值对应迭代次数附近的模型。

1.5 检测阈值的选取

在找到mAP值最高的权值模型后，使用不同的置信阈值计算模型精确率、召回率和F1因子[8]，绘制PR曲线、各指标与阈值的关系曲线，寻找最佳的置信阈值。置信阈值的变化范围0.05～0.95，步长0.05。F1因子是准确率和召回率的综合因子，准确率所占权重较大。

2 结果与分析

2.1 数据集构建

从田间采集的图像中挑选了500张图像，总计标注了3071个果实，随机挑选100张作为测试集（含551个果实），其余作为训练集。数据集部分图像见图3。

2.2 模型训练与最优模型的选取

模型训练总计迭代4000次，耗时5 h，一共使用了256000幅图像，获得了120个模型。训练过程中的损失变化如图4所示，刚开始迭代时损失值很大，经过大约200次迭代后迅速缩小并逐步趋于稳定，震荡幅度很小。

计算120个模型在测试集上的mAP值，结果见图5，纵坐标为mAP值，范围从0～100%，横坐标是选定模型运行，对应迭代次数。从图5可看出，迭代次数从600次开始mAP值就已经稳定，最大97.66%，对应迭代次数1100次，作为本研究

2.3 检测阈值的选取

选定模型的PR曲线见图 6，当置信阈值在0.05～0.95范围时，PR曲线都在较高区间，显示模型识别能力较强。

不同置信阈值下的精确率、召回率、IOU值和F1值曲线见图 7，纵坐标表示取值范围70%～100%，横坐标表示置信阈值，取值范围0.05～0.95。从图6可知，随着置信阈值的增加，精确率和IOU值逐渐上升，召回率逐渐下降，F1值呈现先上升再下降的过程。在本研究中，以F1值为主的基础上选择尽可能高的精确率，在F1值的波峰

3 讨论与结论

本研究使用深度神经网络YOLOv3算法进行了图像中百香果的识别试验，试验结果表明该模型的检测精度较高，当使用0.65置信阈值时，精确率可达98%，召回率94%，IOU值83.96%，模型mAP值97.66%。

模型参数的优化过程，精确率和召回率往往是此消彼长的情况。但在采摘机器人的应用中，随着采摘的进行，样本分布和视角会发生变化，原本被预测为负类别的果实仍有被识别出来的可能。错误的预测则可能导致未成熟果实被误摘，也可能对末端执行器造成损坏。因此采摘识别的要求是宁缺勿滥，对精确率的要求远高于召回率。因此本研究参数优化以精确率为主。

测试过程表明预测能力与图像质量有较大关系，当图像质量较差时，尽管精确率和召回率仍然很高，但矩形框位置错位较为严重，IOU明显下降，表明模型还需要进一步训练以提高泛化能力，同时应尽量提高采图质量。深度学习模型对计算能力要求较高，模型在测试机上的预测时间长达232毫秒。尽管在采摘流程中，初始识别定位并不需要很高的刷新率，但从功耗角度考虑，仍要在可能保持精度的情况下缩减网络模型。

参考文献：

[1]HENRY A M WILLIAMS，MARK H JONES，MAHLA NEJATI，et al.Robotic kiwifruit harvesting using machine vision，convolutional neural networks，and robotic arms[J].Biosystems Engineering，2019，181：140-156.

[2]YA XIONG，CHENG PENG，LARS GRIMSTAD，et al.Development and field evaluation of a strawberry harvesting robot with a cabledriven gripper[J].Computers and Electronics in Agriculture，2019，157：392-402.

[3]纪超，冯青春，袁挺，等.温室黄瓜采摘机器人系统研制及性能分析[J].机器人，2011，33（4）：726-730.

[4]王晓楠，伍萍辉，冯青春，等.番茄采摘机器人系统设计与试验[J].农机化研究，2016，（4）：94-98.

[5]赵源深，贡亮，周斌，等.番茄采摘机器人非颜色编码化目标识别算法研究[J].农业机械学报，2016，47（7）：1-7.

[6]熊俊涛，刘振，湯林越，等.自然环境下绿色柑橘视觉检测技术研究[J].农业机械学报，2018，49（4）：45-52.

[7]JOSEPH REDMON，ALI FARHADI.YOLOv3：An Incremental Improvement[J].arXiv preprint，2018（8）：1804.02767V1.

[8]赵德安，吴任迪，刘晓洋，赵宇艳.基于YOLO深度卷积神经网络的复杂背景下机器人采摘苹果定位[J].农业工程学报，2019，35（3）：164-173.