采用改进YOLOv4算法的大豆单株豆荚数检测方法

2021-11-24 10:15于翀宇赵永健冯献忠

农业工程学报 2021年18期

郭瑞，于翀宇，贺红，赵永健，于慧，冯献忠

郭瑞1，于翀宇1，贺红1※，赵永健1，于慧2，冯献忠2

（1. 山东大学机电与信息工程学院，威海 264209；2. 中国科学院东北地理与农业生态研究所，长春 130102）

大豆单株豆荚数检测是考种的重要环节，传统方法通过人工目测的方式获取豆荚类型和数量，该方法费时费力且误差较大。该研究利用大豆单株表型测量仪采集到的表型数据，通过融合K-means聚类算法与改进的注意力机制模块，对YOLOv4目标检测算法进行了改进，使用迁移学习预训练，获取最优模型对测试集进行预测。试验结果表明，该研究模型的平均准确率为80.55%，数据扩充后准确率达到了84.37%，比育种专家目测准确率提高了0.37个百分点，若不考虑5粒荚，该研究模型的平均准确率为95.92%，比YOLOv4模型提高了10.57个百分点，具有更强的检测性能。在简单背景的摆盘豆荚检测中，该研究模型预测的平均准确率达到了99.1%，比YOLOv4模型提高了1.81个百分点，研究结果表明该模型在不同场景下的大豆豆荚检测中具有较强的泛化能力，可为大豆人工智能育种提供参考。

图像识别；算法；大豆；豆荚检测；YOLOv4；K-means聚类；注意力机制

0 引言

大豆是人类摄取优质蛋白质以及食用油脂的重要来源，近年来，中国正致力于培育高产大豆新品种[1-2]。在寻求增产的过程中，除了通过各种方法培育优质转基因植株外[3]，也需要对大豆进行表型测量与分析，评估不同品种的表型性状[4-5]。大豆单株表型测量一般采用干豆稞，此时，大豆植株已经干枯，观察豆子成熟之后的状态即可选出优良的种子。国家标准《植物品种特异性、一致性和稳定性测试指南大豆》[6]规定了大豆考种的44项基本性状与相关定义，主要包括株高、底荚高、主茎节数、有效分枝数、单株荚数（每棵植株所含豆荚数量）、荚皮色、单株粒数、单荚粒数等[7-8]。

传统表型测量过程绝大部分依靠人工完成，育种专家对大批成熟植株观察、分析并记录，步骤非常繁杂，作业量巨大，同时，人工采集表型数据效率低下，数据容易产生错误且误差不可评测。随着近几年计算机视觉（Computer Vision，CV）与深度学习（Deep Learning，DL）技术的快速发展，基于人工智能和大数据的植物表型交叉融合研究加速了作物单株表型测量工作的进展[9]。

已有研究表明[10-11]，许多国内外学者在农作物表型识别[12-16]与测量工作[17-19]等方面颇有成效，尤其是大豆豆荚产量估算。Uzal等[20]提出了一种基于卷积神经网络（Convolutional Neural Network，CNN）识别荚果粒数的分类模型，在散列豆荚图像数据集中进行测试，获得了86.2%的准确率，与传统的特征提取+支持向量机分类模型相比准确率提高了35.8个百分点。闫壮壮等[21]利用5种不同的网络模型搭载2种不同优化器对简单背景下的单个豆荚进行分类识别，结果显示VGG16网络搭配Adam优化器使得单荚粒数的测试准确率达到了98.41%。但是上述2种方法适用于将1棵植株的所有豆荚拆解下来拍照识别，增加了时间成本。Riera等[22]开发了一套基于多视图的大豆产量估算框架，利用VGG19网络模型对复杂环境下的感兴趣区域识别、隔离并检测，最终利用跟踪技术统计整个地块的豆荚数量，对于不同数据集，豆荚识别的平均准确率最高达到71%，为大豆产量估算提供了新思路。但该方法只能得到大豆植株的豆荚数量，并不能准确计算出单株豆荚的种粒数量，与育种专家的需求存在一定偏差。

为了进一步提高大豆植株考种速度和产量预测精确度，降低人工考种成本，本研究采用荚果粒数特征对豆荚进行分类，借助深度学习方法，利用大豆单株表型测量仪采集大豆植株360°旋转视频，随机获取每个视频中的关键帧图像，使用LabelImg软件对关键帧图像进行锚框标注，通过改进的YOLOv4算法对大豆表型数据进行检测，以实现准确检测单株上各类豆荚的功能。本研究拟完成大豆植株考种的初步试验，缓解传统考种方式中费时费力且误差较大等问题，为育种专家评估不同品种大豆产量提供可靠的数据依据，为大豆植株自动化考种提供有效的先验性方法。

1 材料与方法

1.1 数据采集与预处理

采集大豆植株材料是制作数据集以及目标检测的前提，本研究试验数据均来源于中国科学院东北地理与农业生态研究所的实验基地，使用课题组自制大豆单株表型测量仪（以下简称“测量仪”）进行采集，该测量仪结合工业相机（acA4112-20uc，Basler，宝视纳视觉技术有限公司，德国）、息影灯（2016，启烨，龙凤极光照明有限公司，中国）等于一体，对2020年10月收获的北豆、东农、黑河等多个品种植株进行采集数据并保存，具体设备形态与场景演示如图1所示。数据采集的主要流程是操作员在操作台将待拍摄植株插入自转插座中，固定在夹持机构内，由机械臂携带植株到摄像室，自转插座托起植株自转360°拍摄视频，然后回转至原位置，操作员拔出并换新的待拍摄植株。最终采集的每段视频3～4 s，分辨率为4 096×3 000（像素），共获得700多个视频。

为方便检测，需要对采集的原始视频预处理后再保存，预处理方法为使用随机算法对每个视频提取关键帧，利用图像裁剪算法将双株旋转视频关键帧裁剪成单株旋转视频关键帧，按顺序为其命名，最终选取800张图像作为本试验对象。为了提高检测的处理速度，利用图像格式转换算法将.raw格式的关键帧图像转换成.jpg格式。

1.操作台 2.操作员 3.植株 4.回转电机 5.控制箱 6.背景板 7.机械臂 8.摄像灯 9.摄像机 10.摄像室

1.2 数据标注

为了训练检测模型，首先要利用图像标注工具LabelImg对800张关键帧图像进行标签标注，将标注结果存放在.xml文件中，该文件包含图像的目标位置、锚框尺寸和不同形态豆荚的标签等信息，其中不同形态豆荚的标签由数字表示，即0粒荚表示为0，1粒荚表示为1，2粒荚表示为2，3粒荚表示为3，4粒荚表示为4，5粒荚表示为5，不同形态豆荚的分类如图2所示。

本研究共标注800张图像，所有目标标签的数量与锚框平均尺寸分布如表1所示，共约16 000个豆荚目标，其中3粒荚有7 998个豆荚目标，数量最多，其次是2粒荚和4粒荚，分别有3 692个和3 201个豆荚目标，5粒荚最少，仅有5个豆荚目标。

表1 不同形态豆荚的数量和锚框尺寸

1.3 数据增强与数据集制作

数据增强是一种通过对原始图像进行随机变换来扩充数据样本的方式，能够使模型更好地适应应用场景。根据大豆植株中的豆荚分布特点，使用Python语言和OpenCV编码对原始数据进行亮度调节、水平翻转和调整饱和度操作，最终将图像对应的标注文件也进行相应调整，以单张图像为例增强效果如图3所示。

将标注的所有数据制作成数据集A，其中包括图像文件与标签文件，共1 600个文件，将数据增强后的数据与原数据一起组合成数据集B，共6 400个文件。为了验证本研究检测模型在不同场景下的检测性能，特制作简单背景下的摆盘豆荚数据集C，简单背景指豆荚平铺、无遮挡的白色卡纸摆盘环境，该数据集中共有5个类别，分别是0粒荚、1粒荚、2粒荚、3粒荚和4粒荚，其中包括1 500张豆荚摆盘图像。为了确保数据集分布统一，本研究按照7∶2∶1的比例将3个数据集分别随机拆分成训练集（A：560张，B：2 240张，C：1 050张）、验证集（A：160张，B：640张，C：300张）和测试集（A：80张，B：320张，C：150张）。

1.4 对YOLOv4豆荚识别网络模型的改进

YOLOv4模型[23]是目前目标检测领域中性能较好的算法模型，YOLOv4模型在YOLOv3目标检测模型[24]的基础上做了一些改进，尤其是使用了一些目标检测的优化方法，比如Mosic数据增强方法、标签平滑算法、余弦退火算法等，使得YOLOv4模型对检测结果具有更高的准确率和泛化能力。虽然该模型是目前检测效果比较好的模型，但YOLOv4模型基于COCO数据集，先验框尺寸和图像物体本身的复杂度与本研究豆荚目标有很大不同，所以本研究在YOLOv4模型的基础上对其进行了一系列改进使其更适用于本研究单株大豆豆荚检测。

1.4.1 K-means聚类调整目标先验框

先验框是基于待检测物体中常见尺寸与比例的矩形框，是准确预测目标的重要前提之一。YOLOv4模型的先验框基于COCO数据集，其中包含80个类别，不同类别的锚框尺寸不一，所以YOLOv4模型的先验框尺寸也有很大差距。为了使其更适用于豆荚检测，本研究利用K-means聚类算法对YOLOv4模型中的先验框尺寸进行调整。

K-means算法是一种原型聚类算法，采用贪心策略，通过迭代优化对所有样本形成个聚类，个不同尺寸的先验框可以表现为个聚类中心，本研究利用聚类中心与各类标签锚框的交并比作为衡量先验框相似度的标准，具体如式（1）、式（2）所示

distance(,) = 1-IoU(,) （1）

1.4.2 引入改进的注意力机制

注意力机制在深度学习的各个领域中被广泛使用[25-27]，主要原理是通过对图像的全局扫描，获取需要重点关注的目标区域，给予该区域更大的权重，从而获取更多的细节信息，而对于其他无用信息则使用更小的权重将其抑制。由于豆荚中大豆种子存在的位置与周围区域的颜色、纹理等差别较大，所以对于大豆植株，将每个豆荚的边缘与豆粒凸出部分作为重点特征进行提取将会迅速提升检测模型的训练效率。为了精确定位豆荚，提高原检测模型的表征能力，特引入注意力模型，借鉴SENet模块[28]中的特征重标定思想和Yang等[29]的融合思想，提出一种更适用于豆荚检测的全局注意力模块，具体结构如图4所示。利用全局通道信息的平均池化与最大池化操作获取新权重，对其重新加权产生该模块的输出以嵌入到后续层。

该方法核心操作的计算如式（5）～（7）所示

1.4.3 利用迁移学习对原始网络预训练

迁移学习[30]将已有模型学习到的知识迁移到特定目标的模型中，能够改善模型的泛化情况。在神经网络中表现为将每个神经网络节点对应的权重参数从一个网络模型迁移到另一个改进的网络模型中，而不是从头开始训练，这样能够利用原模型的泛化表现能力，基于已有神经网络前几层提取边缘、形状、几何变化等，共享这些初级特征，从而加快模型训练速度。

为加快模型训练速度，节省内存空间，防止模型过拟合，基于迁移学习的思想，将YOLOv4模型在 COCO 数据集中学到的简单边缘信息迁移到豆荚识别网络中。利用初始权重对YOLOv4模型进行预训练，先冻结部分卷积层，使其在反向传播更新参数时只修正后面部分卷积层的模型参数，当模型逐渐收敛时再对整个网络模型解冻，训练整个网络。整个大豆单株豆荚数检测过程如图5所示。

1.5 模型训练

1.5.1 试验设置

本试验基于Pytorch框架，图形处理器（graphic processing unit，GPU）为Nvidia GeForce RTX 2080 Ti，在Linux操作系统上分别对YOLOv4模型和改进的YOLOv4模型进行训练。其中输入尺寸为640×640（像素），初始学习率设置为0.001，通过余弦退火衰减算法实现学习率调整，即线性上升和余弦函数下降，训练迭代次数为1 500次。

1.5.2 训练结果

损失函数是判断一个模型是否适用于当前数据集的重要标准之一，该函数通常用于表征预测值与真实值之间的拟合程度，当损失函数曲线逐渐收敛，说明此时模型已经达到较好的预测效果。YOLOv4模型的损失函数在YOLOv3模型损失函数的基础上把边框回归损失函数由均方误差变成了完全交并比（Complete Intersection Over Union，CIOU），极大地提高了模型的表现能力，本研究依旧沿用YOLOv4模型的损失函数。

本研究将YOLOv4模型与改进的YOLOv4模型分别在数据集A、B、C上进行训练，其中在数据集A上的训练损失函数曲线如图6所示，模型训练期间损失函数逐渐下降，每进行10代训练则保存一次损失值，当训练1 300次之后，损失函数曲线逐渐趋于平稳并收敛，取最后一次训练结果的模型为预测模型，在数据集A的测试集中利用目标检测评价标准进一步地验证与分析。

1.6 评价与验证

本研究使用经典的目标检测评价标准，即准确率（Precision，，%）、召回率（Recall，，%）、P-R曲线图、单类目标平均精度（Average Precision，AP，%）以及所有类别的平均准确率（Mean Average Precision，mAP，%）。准确率和召回率的计算如式（8）和式（9）所示

式中分别代表准确率和召回率，TP（True Positive）表示正样本检测正确的概率，FP（False Positive）表示负样本检测为正样本的概率，FN（False Negative）表示正样本检测为负样本的概率。TP和FP数量的计算方法为：首先获取真实框和利用检测模型识别的预测框，其中预测框内容包括类别、置信度分数与坐标信息，当置信度大于0.3时，保留该预测结果并按照置信度分数递减的方式对其排序，最后计算预测框与真实框之间的最大匹配IoU值，若大于0.5且两者为首次匹配则将结果记为TP，否则记为FP。若TP数量越多，说明预测正确的概率越大，模型的检测性能越强，反之则说明错检情况越严重，模型性能越低。

P-R曲线图显示出了检测模型准确率和召回率的关系，一般情况下，这两者是一对矛盾的变量，即准确率越高，召回率越低。为了平衡两者的关系，特用平均精度值来衡量模型的性能，即准确率-召回率曲线图下方的面积，所以当一个模型的曲线被另一个模型的曲线包围时，则说明后者的性能优于前者。其中，AP为该曲线下方的面积，具体定义如式（10）所示

而mAP是对所有预测类别的AP值取平均值的结果，衡量模型在所有类别上的好坏，具体定义如式（11）所示

2 结果与分析

2.1 不同模型预测结果

模型的预测结果是评价一个模型好坏最直观的方式，使用2种模型分别对数据集A中的测试集进行预测，通过真正例TP与假正例FP的数目对比分析不同模型的预测效果，具体预测结果如表2所示。可以看出，改进的YOLOv4模型的3粒荚、2粒荚以及4粒荚的TP数量明显多于原模型，其中3粒荚的TP数量比原模型多23个，2粒荚的TP数量比原模型多12个，4粒荚的TP数量比原模型多7个，其余类别的数量差别不大，说明改进的YOLOv4模型对于不同类别的豆荚具有较强的学习能力，能达到较好的检测性能。对于FP数量而言，改进的YOLOv4模型对于每个类别的检测结果相较于YOLOv4模型均有所降低，尤其是3粒荚，改进的YOLOv4模型的FP数量减少到了YOLOv4模型FP数量的1/3，提升幅度最大，说明改进的YOLOv4模型对于豆荚检测具有明显优势。

为了直观地展示不同模型在数据集A上的检测效果，共提取3张测试图像进行可视化。由图7可知，YOLOv4模型检测结果中的置信度分数大都低于0.7，而改进的YOLOv4模型检测结果中的置信度分数大都在0.9及以上，说明改进的YOLOv4模型已经能够有效识别不同豆荚。对于植株1，YOLOv4模型未识别到0粒荚，即图7b植株1中未出现0粒荚预测框，改进的YOLOv4模型则能够准确地将其识别；对于植株2和植株3，改进的YOLOv4模型纠正了YOLOv4模型预测错误的问题，例如，改进的YOLOv4模型将图7b植株3中识别为3粒荚的豆荚准确修正为图7c植株3中的2粒荚，证实了改进的YOLOv4模型在豆荚数检测领域的有效性。

表2 YOLOv4模型和改进的YOLOv4模型在数据集A中的TP与FP数量对比

2.2 不同模型预测的准确率-召回率（P-R）曲线

本研究对比了YOLOv4与改进的YOLOv4模型在数据集A中的测试集上识别豆荚6种形态的P-R曲线图，如图8所示，其中曲线下方面积为不同模型在每个类别中的平均精度。由图8可知，除了图8f的5粒荚识别效果不理想之外，YOLOv4模型对于其他5个类别的P-R曲线均被改进的YOLOv4模型曲线包围，说明通过一系列改进之后模型对于豆荚表型的学习能力得到了提升。由表1豆荚类别的样本分布可知，2粒荚、3粒荚和4粒荚的数量是最多的，所以P-R曲线更平滑，且改进前后的检测结果差别不大，这说明在防止过拟合的情况下，样本数量也是决定模型检测效果的重要因素之一。对于0粒荚和1粒荚来说样本量偏少，其P-R曲线也有更多拐点，当召回率小于0.1时，2个模型的精度都能达到1，当召回率逐渐变大时，添加了注意力机制的模型优势逐渐明显，学习能力变强，这是因为原模型认为图像中每个区域的贡献是平均分布的，但在实际检测中，不同类别的感兴趣区域是不同且复杂的，而改进后的模型重点关注对检测类别有用的特征信息，使得该模型即使在样本量不多的情况下也能达到较好的效果。对于5粒荚，由于样本量极少，所以P-R曲线非常靠近坐标轴，且曲线轮廓几乎为直角，虽然平均精度不如原模型的预测结果高，但在样本量极少的情况下能够预测已经证明该模型具有较强的学习能力。

2.3 不同模型在不同数据集中的平均准确率

为防止模型过拟合，更全面地评价模型的预测效果，对不同模型在数据集A、B中6个不同类别的平均精度以及所有类别的平均准确率进行分析，具体的预测值如表3所示。由表3可知，不同检测模型分别在数据集A、数据集B上的单类别平均精度AP和所有类别的平均准确率mAP。其中在数据集A的测试集中，YOLOv4模型的mAP为74.88%，改进的YOLOv4模型的mAP为80.55%，比YOLOv4模型整体提升了5.67个百分点，其中0粒荚和1粒荚的预测结果分别比YOLOv4模型提升了18.68个百分点和20.73个百分点，提升效果显著，而且2粒荚、3粒荚和4粒荚的类别平均检测精度已经达到96%以上，相较于YOLOv4模型来说，平均精度值的提升介于0.28～11.23个百分点之间，这说明改进的YOLOv4模型具有更高的检测性能且更适用于大豆豆荚检测。当数据量增加时（数据集B），YOLOv4模型的mAP值为77.9%，改进的YOLOv4模型的平均准确率为84.37%，检测性能依旧保持较高水平。

由于5粒荚这一类别数量较少且非常罕见，并不是大豆植株考种的必要选择，育种专家更关注0粒荚到4粒荚的单株数量与识别准确率，以此作为考种的主要依据。若不考虑5粒荚这一类别，根据表1数据，在数据集A中，YOLOv4模型的mAP值为85.35%，改进的YOLOv4模型的mAP值为95.92%，比YOLOv4模型提高了10.57个百分点，比人眼识别准确率提高了近12个百分点，在数据集B中，改进后模型的mAP值达到了96.86%，表明该模型的检测结果已经完全满足标准场景下的考种要求。但随着育种技术的不断发展与改进，未来可能会出现更多的5粒荚、6粒荚甚至7粒荚等，所以为了保持模型的鲁棒性与泛化能力，本模型将保留5粒荚这一检测类别，为多粒荚检测提供研究基础与数据参考。

表3 不同模型豆荚类别检测的平均精度与平均准确率

2.4 简单背景下模型检测结果

为了验证改进的YOLOv4模型在不同场景下的豆荚检测效果，特使用YOLOv4模型与改进的YOLOv4模型对简单背景下豆荚摆盘数据集C进行模型训练与预测，训练过程中每迭代1次都对验证集进行预测对比并记录结果，其中当阈值为0.5时，YOLOv4模型的平均准确率mAP值达到97.29%，改进的YOLOv4模型的mAP值达到了99.10%，比YOLOv4模型提高了1.81个百分点，且改进的YOLOv4模型对于单个类别的检测精度较原模型均有提升，说明改进的YOLOv4模型在摆盘豆荚检测方面也具有较好的预测效果，具体数据如表4所示。

表4 简单背景下不同模型对豆荚类别检测的平均精度与平均准确率

2.5 不同检测方法的效率分析

目前计算一棵大豆植株上各类豆荚的数量主要有3种方式，第一种方式为人工拆解大豆植株并计数，对应图9中的手工方法，该方法需要手动完好地剪下单株大豆上的所有豆荚，摆盘后由育种专家对每个豆荚进行人工检查，由于环境或遗传因素，豆荚内成熟种子的差异很大，即使是训练有素的操作员也只能达到约84%的准确率，数据获取速度为6～10株/h。第二种方式为人工拆解大豆植株并摆盘拍照后通过不同网络模型计数，对应图9中的卷积神经网络和VGG16+Adam检测方法，该方法需要将单株大豆上的所有豆荚裁剪后按照一定方向摆盘拍照，对照片进行相应的分类与训练，准确率可达到86.2%[20]，最高达到98.41%[21]，数据获取速度为5～7.5株/h。第三种方式是通过本试验所用的测量仪对整株大豆进行计数，对应图9中YOLOv4模型与改进的YOLOv4模型，该方法将完整大豆植株插在测量仪上，旋转一周拍摄视频并将其通过本研究模型与物体追踪算法计数。单张照片准确率目前可达到84.37%，速度可以达到240株/h。获取大豆植株表型原始数据是整个考种过程中最耗时费力的一个步骤，所以本节主要展现不同方式的数据获取速度与考种准确率，具体速度和平均准确率对比如图9所示。由图9可知，本研究获取数据的速度为普通方法的30～40倍，且测量仪的使用大大减少了人力与物力资源的浪费。

3 结论

本研究在YOLOv4模型的基础上引入了K-means聚类算法以及改进的注意力模块，建立了改进的YOLOv4模型，使其更适用于室内单株豆荚检测。

1）利用 LabelImg 软件实现了不同形态豆荚标签的标注，制作了多类别豆荚检测数据集，为大豆单产预测提供了充分的数据支持。

2）与YOLOv4模型相比，改进的YOLOv4模型的平均准确率提升了5.67个百分点，在扩充数据集上达到了84.37%的准确率，若不考虑5粒荚这一类别，改进的YOLOv4模型的mAP值达到了95.92%，比YOLOv4模型提高了10.57个百分点，比人眼识别准确率提高了近12个百分点，具有更强的检测性能，预测效果显著。

3）在简单背景下豆荚摆盘的检测中，改进的YOLOv4模型达到了99.1%的平均准确率，检测精度有所提升，结果表明改进的YOLOv4模型在不同场景下的大豆豆荚检测中具有较强的泛化能力。

[1] 冯献忠，刘宝辉，杨素欣. 大豆分子设计育种研究进展与展望[J]. 土壤与作物，2014，3(4)：123-131.

Feng Xianzhong, Liu Baohui, Yang Suxin. Progress and perspective of soybean molecular design breeding research[J]. Soil and Crop, 2014, 3(4): 123-131. (in Chinese with English abstract)

[2] 吴曰程，王玉斌. 中国转基因大豆进口及其影响分析[J]. 大豆科学，2019，38(4)：635-643.

Wu Yuecheng, Wang Yubin. The effect of China's GM soybean imports[J]. Soybean Science, 2019, 38(4): 635-643. (in Chinese with English abstract)

[3] 吴国栋，修宇，王华芳. 优化子叶节转化法培育大豆MtDREB2A转基因植株[J]. 植物学报，2018，53(1)：59-71.

Wu Guodong, Xiu Yu, Wang Huafang. Breeding of MtDREB2A transgenic soybean by an optimized cotyledonary-node method[J]. Chinese Bulletin of Botany, 2018, 53(1): 59-71. (in Chinese with English abstract)

[4] Ghanem M E, Marrou H, Sinclair T R. Physiological phenotyping of plants for crop improvement[J]. Trends in Plant Science, 2015, 20(3): 139-144.

[5] 马鸿润. 面向人工智能育种的大豆种子表型特征数据采集与分析[D]. 威海：山东大学，2020.

Ma Hongrun. The Collection and Analysis of Soybean Seed Phenotypic Characteristic Data for Artificial Intelligence Breeding. WeiHai: Shangdong University, 2020. (in Chinese with English abstract)

[6] 国家市场监督管理总局、中国国家标准化管理委员会.植物品种特异性、一致性和稳定性测试指南大豆：[S]. 北京：中国标准出版社，2018.

[7] 李强，高聚林，苏二虎，等. 大豆种质表型性状鉴定与分析[J]. 大豆科学，2015，34(5)：752-759.

Li Qiang, Gao Julin, Su Erhu, et al. Identification and analysis of phenotypic traits in soybean[J]. Soybean Science, 2015, 34(5): 752-759. (in Chinese with English abstract)

[8] 赵朝森，王瑞珍，李英慧，等. 江西大豆种质资源表型及品质性状综合分析与评价[J]. 大豆科学，2019，38(5)：686-693.

Zhao Chaosen, Wang Ruizhen, Li Yinghui, et al. Comprehensive analysis and evaluation of the phenotype and quality traits of Jiangxi soybean germplasm resources[J]. Soybean Science, 2019, 38(5): 686-693. (in Chinese with English abstract)

[9] 傅隆生，宋珍珍，Zhang Xin，等. 深度学习方法在农业信息中的研究进展与应用现状[J]. 中国农业大学学报，2020，25(2)：105-120.

Fu Longsheng, Song Zhenzhen, Zhang Xin, et al. Applications and research progress of deep learning in agriculture[J]. Journal of China Agricultural University, 2020, 25(2): 105-120. (in Chinese with English abstract)

[10] Kamilaris A, Prenafeta-Boldú F X. Deep learning in agriculture: A survey[J]. Computers and Electronics in Agriculture, 2018, 147: 70-90.

[11] 岑海燕，朱月明，孙大伟，等. 深度学习在植物表型研究中的应用现状与展望[J]. 农业工程学报，2020，36(9)：1-16.

Cen Haiyan, Zhu Yueming, Sun Dawei, et al. Current status and future perspective of the application of deep learning in plant phenotype research[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(9): 1-16. (in Chinese with English abstract)

[12] Liu Nian, Kan Jiangming. Improved deep belief networks and multi-feature fusion for leaf identification[J]. Neurocomputing, 2016, 216: 460-467.

[13] Grinblat G L, Uzal L C, Larese M G, et al. Deep learning for plant identification using vein morphological patterns[J]. Computers and Electronics in Agriculture, 2016, 127: 418-424.

[14] Zhu H Y, Huang X Y, Zhang S P, et al. Plant identification via multipath sparse coding[J]. Multimedia Tools and Applications, 2017, 76(3): 4599-4615.

[15] 孙俊，谭文军，毛罕平，等. 基于改进卷积神经网络的多种植物叶片病害识别[J]. 农业工程学报，2017，33(19)：209-215.

Sun Jun, Tan Wenjun, Mao Hanping. Recognition of multiple plant leaf diseases based on improved convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(19): 209-215. (in Chinese with English abstract)

[16] 郭小清，范涛杰，舒欣. 基于改进Multi-Scale AlexNet的番茄叶部病害图像识别[J]. 农业工程学报，2019，35(13)：162-169.

Guo Xiaoqing, Fan Taojie, Shu Xin. Tomato leaf diseases recognition based on improved Multi-Scale AlexNet[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(13): 162-169. (in Chinese with English abstract)

[17] Namin S T, Esmaeilzadeh M, Najafi M, et al. Deep phenotyping: Deep learning for temporal phenotype/genotype classification[J]. Plant Methods, 2018, 14(1): 1-14.

[18] Aich S, Stavness I. Leaf counting with deep convolutional and deconvolutional networks[C]//16thIEEE International Conference on Computer Vision (ICCV), Saskatoon: IEEE 2017.

[19] 任守纲，贾馥玮，顾兴健，等. 反卷积引导的番茄叶部病害识别及病斑分割模型[J]. 农业工程学报，2020，36(12)：186-195.

Ren Shougang, Jia Fuwei, Gu Xingjian, et al. Recognition and segmentation model of tomato leaf diseases based on deconvolution-guiding[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(12): 186-195. (in Chinese with English abstract)

[20] Uzal L C, Grinblata G L, Namíasa R, et al. Seed-per-pod estimation for plant breeding using deep learning[J]. Computers and Electronics in Agriculture, 2018, 150: 196-204.

[21] 闫壮壮，闫学慧，石嘉，等. 基于深度学习的大豆豆荚类别识别研究[J]. 作物学报，2020，46(11)：1771-1779.

Yan Zhuangzhuang, Yan Xuehui, Shi Jia, et al. Classification of soybean pods using deep learning[J]. Acta Agronomica Sinica, 2020, 46(11): 1771-1779. (in Chinese with English abstract)

[22] Riera L G, Carroll M E, Zhang Z S, et al. Deep multi-view image fusion for soybean yield estimation in breeding applications[J/OL]. Plant Phenomics, 2021, [2020-11-25], https: //arxiv. org/abs/2011. 07118.

[23] Bochkovskiy A, Wang C Y, Liao H Y. YOLOv4: Optimal speed and accuracy of object detection[EB/OL]. [2020-10-23], https: //arxiv. org/abs/2004. 10934.

[24] Redmon J, Farhadi A. YOLOv3: An incremental improvement[EB/OL]. (2020-10-23)[2021-01-20], https: //arxiv. org/abs/1804. 02767.

[25] Dai Y M, Giescke F, Ochmcke S. Attentional feature fusion[EB/OL]. [2020-11-25], https: //arxiv. org/abs/2009. 14082.

[26] 章韬略，周永霞. 一种注意力机制与SRGAN网络结合的超分辨率算法[J/OL]. 小型微型计算机系统，2021，[2021-01-11]，http: //kns. cnki. net/kcms/detail/21. 1106. TP. 20210106. 1406. 022. html.

[27] 朱张莉，饶元，吴渊，等. 注意力机制在深度学习中的研究进展[J]. 中文信息学报，2019，33(6)：1-11.

Zhu Zhangli, Rao Yuan, Wu Yuan, et al. Research progress of attention mechanism in deep learning[J]. Journal of Chinese Information Processing, 2019, 33(6): 1-11. (in Chinese with English abstract)

[28] Hu Jie, Shen Li, Albanie Samuel, et al. Squeeze-and- excitation networks[J]. Institute of Electrical and Electronics Engineers Transactions Pattern Analysis Machine Intelligence. 2020, 42(8): 2011-2023.

[29] Yang Yang, Deng Hongming. GC-YOLOv3: You only look once with global context block[J]. Electronics, 2020, 9(8): 1235.

[30] Pan Sinno Jialin, Yang Qiang. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345-1359.

Detection method of soybean pod number per plant using improved YOLOv4 algorithm

Guo Rui1, Yu Chongyu1, He Hong1※, Zhao Yongjian1, Yu Hui2, Feng Xianzhong2

(1.,,,264209,; 2.,,130102,)

Measuring pod number per plant has been one of the most important parts of the pod selection in the soybean growth period. However, traditional manual measurement is costly, time-consuming, and error-prone. Alternatively, artificial intelligence can ever-increasing be used to determine the type and quantity of each pod, thereby accurately predicting soybean yield in modern agriculture. In this study, a soybean phenotyping instrument was employed to collect the phenotype video of soybean plants, and then to process the phenotype data using the YOLOv4 dynamic object detection. The size of the initial anchor box and the complexity of image objects were also considered during the data set training and testing. Specifically, the COCO data set was selected for the prior box in the YOLOv4 model. The size of the objects varied in each category. K-means clustering was selected to adjust the size of original prior box for a higher accuracy of pod recognition. The size and position of container were calculated to test the original anchor frame suitable for pod detection. Accordingly, a total of 9 initial anchor frames were obtained. The average and maximum pooling operations of the global channel information were adopted to obtain the new weights and re-weighed the new weights to generate the output of module, in order to accurately locate pods for the better characterization ability of detection model. The improved attention mechanism module was integrated into the last layer of the backbone network in the YOLOv4 object detection. Migration learning was also utilized to pre-train the neural network for the optimal detection model in the prediction of test set. The experiment was performed on the Pytorch framework under the GPU (Nvidia GeForce RTX 2080 Ti). The parallel computing framework of CUDA10.1 and CUDNN deep neural network acceleration library were used to train the original and the improved YOLOv4 on Linux operating system. Experiment results showed that the improved model greatly improved the accuracy of pod detection. The mean average precision for all categories was 80.55%, 5.67 percentage points higher than the original. The average accuracy rate reached 84.37% after data expansion, The average prediction of the pod with two beans effectively reached 99.46%, indicating more suitable for pod detection. Consequently, the improved model can more accurately identify the most categories that the original model cannot recognize. Some errors were also corrected in the predictions for a better confidence score. In the recognition of pods on a simple background, the prediction mean average precision of the improved model reached 99.1%, 1.81 percentage points higher than the original. More importantly, the improved model presented strong generalization ability and detection performance. The data acquisition was 30-40 times the speed of traditional ones. Moreover, the soybean phenotype instruments performed better to greatly save the human and material resources using the improved model.

image recognition; algorithm; soybean; pod detection; YOLOv4; K-means clustering; attention mechanism

郭瑞，于翀宇，贺红，等. 采用改进YOLOv4算法的大豆单株豆荚数检测方法[J]. 农业工程学报，2021，37(18)：179-187.doi：10.11975/j.issn.1002-6819.2021.18.021 http://www.tcsae.org

Guo Rui, Yu Chongyu, He Hong, et al. Detection method of soybean pod number per plant using improved YOLOv4 algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(18): 179-187. (in Chinese with English abstract) doi：10.11975/j.issn.1002-6819.2021.18.021 http://www.tcsae.org

2021-01-20

2021-03-25

国家重点研发计划主要经济作物分子设计育种（No.2016YFD0101900）

郭瑞，研究方向为深度学习与机器视觉。Email：guo_rui@mail.sdu.edu.cn

贺红，博士，副教授，研究方向为软件工程与数据工程、算法分析与设计和分布式高性能计算。Email：hehong@sdu.edu.cn

10.11975/j.issn.1002-6819.2021.18.021

TP391.4；S126

1002-6819(2021)-18-0179-09

采用改进YOLOv4算法的大豆单株豆荚数检测方法

0 引 言

1 材料与方法

1.1 数据采集与预处理

1.2 数据标注

1.3 数据增强与数据集制作

1.4 对YOLOv4豆荚识别网络模型的改进

1.5 模型训练

1.6 评价与验证

2 结果与分析

2.1 不同模型预测结果

2.2 不同模型预测的准确率-召回率（P-R）曲线

2.3 不同模型在不同数据集中的平均准确率

2.4 简单背景下模型检测结果

2.5 不同检测方法的效率分析

3 结 论

0 引言

3 结论