基于改进YOLO v4的玉米种子外观品质检测方法

2022-08-08 08:30范晓飞王林柏刘景艳周玉宏索雪松
农业机械学报 2022年7期
关键词:玉米种子主干特征提取

范晓飞 王林柏 刘景艳 周玉宏 张 君 索雪松

(河北农业大学机电工程学院, 保定 071001)

0 引言

玉米是世界上重要的粮食作物,广泛种植于世界各地,其产量和贸易量在近几年不断攀升[1],流通过程中,外观品质是影响玉米种子价格的重要因素之一[2]。玉米种子在储存和运输过程中很容易受到破损和发霉问题的影响,而表型缺陷是种子品质评价的重要指标。当前种子品质检测以人工为主,效率低且具有主观性,因此将较为先进的目标检测技术应用到种子筛选当中具有重要意义。

许多学者对种子品质检测开展了相关研究,将机器学习[3]技术应用到种子品质检测当中并且取得了一定的研究成果。刘双喜等[4]使用了一种基于最远优先遍历的DBSCAN玉米种子纯度识别的机器学习算法,该方法对玉米种子纯度识别正确率达93.3%。闫小梅等[5]提出一种以玉米种子冠部与侧面颜色作为特征向量进行纯度识别的方法,其玉米种子纯度的准确率为96.32%,但需要对种子的冠部和侧部进行图像获取,过程较繁琐。王玉亮等[6]提出了一种基于多对象有效特征提取和主成分分析优化神经网络的玉米种子品种识别方法,通过提取形态特征和颜色特征来进行品种识别,种子平均识别率为98.47%。

随着深度学习的发展,研究者将卷积神经网络模型应用于农作物种子质量检测当中,取得较好效果[7-9]。近年来兴起的目标检测技术被广泛应用于农业当中,为玉米种子品质检测提供了参考[10-13]。

在典型的深度学习目标检测算法中,一类是基于区域候选的目标检测,代表性算法有R-CNN[14]、Fast R-CNN[15]、Faster R-CNN[16]等,另一类是基于回归的目标检测,利用端到端的思想,将图像归一化后直接输入一个卷积神经网络中,回归预测出目标物体的类别和位置信息。代表性算法有YOLO(You only look once)[17]系列、SSD(Single shot multibox detector)[18]系列等。其中区域候选的目标检测虽然在准确率上存在一定的优势,但是速度较慢,而YOLO系列算法有着高准确率和高检测速度的优点,适合于种子品质的检测。

在图像采集方面,传统的RGB图像通常在可见光范围内进行获取,其波段为400~650 nm,多光谱相机采集的图像是由多个单通道的灰度图像组成,其波段扩展到可见光范围之外,每幅灰度图像都具备自身的光谱响应特性[19]。而某些物质的特性区别会在特定的波段内显现出来,其波段较宽的多光谱相机可以提取出更具有代表性的特征信息,因此本文用多光谱相机采集的四通道(RGB+NIR)图像建立玉米种子质量图像数据库,用于玉米种子外观品质检测,同时对YOLO v4结构进行改进。

1 检测方法

1.1 数据采集

以不同外观品质的玉米种子作为研究对象,选取的玉米品种为郑单985、科育186、济玉517。采用丹麦JAI公司的4通道多光谱面阵相机(AD-130GE型)进行图像数据采集,相机采用棱镜分光技术结合双CCD采集图像,可以同时获取可见光图像和近红外图像(图1),其中可见光区域的波段为400~650 nm,近红外区域的波段为760~1 000 nm,中心波长中R通道为610 nm、G通道为550 nm、B通道为450 nm、NIR通道为790 nm。采用KOWA公司生产的LM25NC3型镜头,焦距为25 mm,该镜头拥有极高的色彩还原性、低失真性。图像分辨率为1 296像素×964像素,每个颜色通道的像素深度为8位,并采用白色LED环形光源、近红外光源和增强图像对比度的白色背光源。相机高度固定为35 cm,为了避免外界光源的影响,图像采集在封闭暗箱中进行。图像采集平台如图2所示。

图1 棱镜分光技术示意图Fig.1 Prism spectroscopic technology

图2 图像采集平台Fig.2 Image acquisition platform1.支架 2.相机 3.环形白光源 4.环形近红外光源 5.白色背光源

本文采集原始玉米种子数据200组,每组图像中包含RGB图像和NIR图像,如图3所示。将色泽鲜亮、饱满的籽粒作为良好籽粒,将带有破损、虫蚀、发霉的籽粒作为带有缺陷籽粒,经统计外观良好的籽粒有1 130粒,外观带有缺陷的籽粒有1 056粒。由于NIR图像在波段760~1 000 nm的近红外光谱范围内采集,因此NIR图像包含人眼视觉之外的图像信息,本试验通过增加近红外波段下的图像,为模型提供更多的特征信息。

图3 原始图像Fig.3 Original images

本文对RGB、NIR图像使用相同的数据增强方式(亮度调整、旋转、加入高斯噪声等操作)来增加图像数量,提升训练后模型的性能,最终获取650组图像,其中外观良好的籽粒有5 082粒,外观带有缺陷的籽粒有4 613粒。训练模型采用PASCAL VOC数据集格式,用LabelImg标注工具对每幅图像的每个玉米种子进行手工标注矩形框,将外观良好的玉米种子标签设为good,外观带有缺陷的玉米种子标签设为bad,选取其中10组图像作为验证集,其中外观良好的种子有110粒,外观带有缺陷的种子有100粒,用于模型最终的性能评估,将剩余的640组图像按照比例4∶1划分为训练集和验证集,用于模型训练。

1.2 YOLO.v4目标检测算法

BOCHKOVSKIY等在YOLO v3的基础上,提出了YOLO v4模型,整个网络结构分为主干特征提取网络CSPDarkNet53[20],在DarkNet53的基础上进一步增加了底层信息的融合,增强信息的提取能力;加强特征提取网络FPN(Feature pyramid networks)+PAN(Path aggregation network)[21-22]和空间金字塔池化(Spatial pyramid pooling)[23];最后为预测网络,利用获得的特征进行预测。其中空间金字塔池化位于主干网络和颈部网络的结合处,如图4所示,其将输入特征图分别通过最大池化的方式变为不同尺寸的特征图,然后将不同尺寸(5×15、9×9、13×13)的特征图与原特征图进行连接操作,作为新的特征图,采用这种方式能够更好地增加卷积核的感受野。在YOLO v4的颈部网络部分使用特征金字塔网络(FPN)和路径聚合网络(PAN),如图5所示,FPN将高层的特征图通过上采样的操作与底层的特征图进行连接,增加了特征图的信息量,PAN通过下采样连接底层特征和高层特征,缩短了各层之间的融合路径,提升了网络特征的提取能力。

图4 SPP网络结构图Fig.4 SPP network structure diagram

图5 FPN和PAN网络结构图Fig.5 FPN and PAN network structure diagram

1.3 MobileNet.V1网络模型

为了使模型达到更好的性能,通常将模型网络设计得更深更复杂,这样会导致模型参数量和计算量的增加,从而对硬件的要求会有所提高。而MobileNet V1[24]作为具有代表性的小模型,其使用深度可分离卷积(图6)构建的轻量级模型可以达到较好的检测效果。深度可分离卷积包含逐深度卷积(Depthwise convolution)和逐点卷积(Pointwise convolution)两个过程。逐深度卷积将每一个通道与对应的每一个卷积核进行卷积操作,逐点卷积采用1×1×M的卷积核,M为输入特征图的通道数。通过1×1卷积操作,实现特征图在深度上的加权融合。利用3×3的深度可分离卷积与传统的卷积方法相比,模型参数量降低到原来的1/10,同时引入宽度因子α在每层对网络的输入输出通道数进行缩减,引入分辨率因子β用于控制输入和内部层表示,即用分辨率因子控制输入的分辨率。MobileNet V1通过深度可分离卷积结构实现了在性能没有明显损失的前提下使模型参数量和计算量降低。

图6 深度可分离卷积结构图Fig.6 Depth-wise separable convolution structure diagram

1.4 改进YOLO.v4目标检测模型

将多光谱相机采集的4通道图像作为输入,将其尺寸设为416×416。在YOLO v4中运用CSPDarkNet53作为主干特征提取网络,整个网络包含72个卷积层,虽然原始的YOLO v4模型性能优异,考虑到使用过深的网络会增加模型的参数量和检测时间,同时本文中目标的背景为白色背光板,并不需要深层的神经网络,因此将MobileNet V1模型作为主干特征提取网络,从而减少YOLO v4网络的参数量,提升计算效率。改进后的YOLO v4-MobileNet V1模型的网络结构如图7所示。选择MobileNet V1模型的P5、P11、P13作为3个不同的特征层,输出尺寸为52×52、26×26、13×13。在主干特征提取网络的尾端P13处保留了原来的SPP结构,同时为了更好地提取每一个特征层的全局信息,在P5、P11处分别增加了相应的SPP2、SPP1(图8),将每个特征层进行最大池化,并与原来特征层进行融合,从而提升了不同尺寸特征层的全局信息。然后将3个特征层输入FPN和PAN网络中,实现高层特征信息与低层特征信息的融合,进而输入到预测网络中进行预测。

图7 YOLO v4-MobileNet V1结构图Fig.7 YOLO v4-MobileNet V1 structure diagram

图8 SPP1和SPP2网络结构Fig.8 SPP1 and SPP2 network diagram

YOLO v4-MobileNet V1模型的损失函数部分与YOLO v4模型相同,由分类损失函数、回归损失函数和置信度损失函数3部分组成。在回归损失函数中,传统方法使用非极大值抑制(Non-maximum suppression,NMS)算法将预测框按置信度排序,将得分最高的框与剩余的框作交并比(Intersection over union,IoU)计算,从而找到最合适的预测框。YOLO v4模型使用损失函数完全交并比(Complete intersection over union,CIoU)[25]代替传统方法来优化回归损失,CIoU将目标与预测框之间的距离、重叠率、尺寸以及惩罚项都考虑进去,使得目标框回归变得更加稳定。

1.5 模型的评估方法

采用精确率(Precision)、召回率(Recall)、F1值、平均精度(AP)和平均精度均值(mAP)作为评价指标。

2 试验与结果分析

2.1 模型训练

试验条件为Windows 10、64 位操作系统,Cuda 版本为 10.0,采用基于Python编程语言的Tensorflow与Keras 深度学习框架。计算机配置为GeForce GTX 2070显卡,8 GB显存,Intel(R)Core(TM)i5-9400F处理器,主频2.90 GHz。

模型输入图像尺寸为416×416×4,在训练过程中使用随机旋转、随机缩放、随机拉伸、随机色域变换的数据增强方法,由于输入图像为四通道图像,其色域变换中首先将三通道图像进行变换,然后再加上NIR图像,从而实现四通道的色域变换。试验采用迁移学习的方式进行训练,将模型的主干特征提取网络使用VOC数据集的预训练权重进行初始化参数设置,模型共训练150个迭代周期(Epoch),使用Adam作为优化算法。前50次将学习率设为1×10-3,批量大小设为16,将主干特征提取网络进行冻结训练,从而加快收敛速度,避免预训练权值被破坏,后100次将学习率设为1×10-4,批量大小设为8,对主干特征提取网络进行解冻,以更小的初始学习率对整个模型进一步训练,从而加快整个网络的训练时间。其训练损失值曲线如图9所示。

图9 损失值变化曲线Fig.9 Change curve of loss value

为了选出整体训练性能足够高的模型,本文以mAP最高的权值文件作为最终模型,模型进行了150次迭代,每3次迭代输出1个模型,得到50个模型,在这50个模型中找出1个mAP最高的模型(图10)。当mAP趋于稳定状态时,最大值为98.02%,此时的模型即为本文选用的模型。

图10 mAP随迭代周期的变化曲线Fig.10 mAP value change curve with epoch

2.2 RGB图像和RGB+NIR图像的目标检测模型对比

首先对RGB三通道玉米种子图像进行试验,将MobileNet V1、MobileNet V2[26]以及MobileNet V3[27]的主干网络用于YOLO v4网络的特征提取,同时对比以CSPDarkNet53作为主干网络的YOLO v4模型。将训练完成后的模型对玉米种子图像的验证集进行验证,其结果如表1所示。YOLO v4-MobileNet V1模型mAP最高,为96.33%,性能优于YOLO v4-MobileNet V2和YOLO v4-MobileNet V3模型,相较于YOLO v4-CSPDarkNet53模型平均F1值降低0.25个百分点,但mAP提高12.70个百分点,因此本文选取MobileNet V1替换CSPDarkNet53作为YOLO v4的主干网络。然后本文在四通道(RGB+NIR)的玉米种子图像下进行试验,其结果如表2所示,从表中可以看出4种模型的平均F1值相较于RGB图像都有所增加。试验说明四通道(RGB+NIR)玉米种子图像经过卷积神经网络处理可以提取出优于RGB图像的特征信息,因为RGB图像是在波段400~650 nm的可见光区域获取,而NIR图像是在波段760~1 000 nm的近红外区域获取,然而不同质量的玉米种子会存在不同特性的物质,其在特定的光谱范围下的表现会有所不同,四通道图像中每幅灰度图像都具备自身的光谱响应特性。因此多光谱图像为模型提供更具有代表性的特征信息,从而达到提升模型性能的目的。

表1 RGB图像下模型的检测结果Tab.1 Detection results of model under RGB image

表2 RGB+NIR图像下模型的检测结果Tab.2 Detection results of model under RGB+NIR image

2.3 改进YOLO v4-MobileNet V1模型与不同模型的对比

为了验证改进YOLO v4-MobileNet V1模型的性能,对改进型YOLO v4-MobileNet V1结构中的SPP1、SPP2进行了改变,将SPP1、SPP2分别改为图11所示结构,由于原始网络的SPP中最大池化层为13×13,与最后一个特征层相同,因此将其他SPP结构的最大池化层尺寸设为与提取特征图的尺寸相同,其他2个的最大池化层按相同比例减少,将此模型命名为YOLO v4-MobileNet V1-3SPP。将训练后改进YOLO v4-MobileNet V1模型、YOLO v4-MobileNet V1-3SPP模型、YOLO v4-MobileNet V1模型在相同验证集下进行验证试验,其结果如表3所示, YOLO v4-MobileNet V1-3SPP模型的平均F1值和mAP均高于YOLO v4-MobileNet V1模型,而改进YOLO v4-MobileNet V1模型的平均F1值高于YOLO v4-MobileNet V1-3SPP模型1.13个百分点,高于YOLO v4-MobileNet V1模型1.99个百分点,其mAP高于YOLO v4-MobileNet V1-3SPP模型1.16个百分点,高于YOLO v4-MobileNet V1模型1.50个百分点。试验说明增加过多最大池化层的模型效果并没有优于只有特征图尺寸相同的最大池化层模型,因此增加SPP结构可以使其通过最大池化层提取全局信息来增加特征图的感受野,从而分离出最显著的上下文特征,提升模型的特征提取能力。

图11 SPP网络结构Fig.11 SPP network structure

表3 不同SPP结构下模型的检测结果Tab.3 Test results of models with different SPP structures

2.4 四通道(RGB+NIR)图像下不同模型的对比

为了证明改进YOLO v4-MobileNet V1模型的性能,本文使用四通道(RGB+NIR)验证集图像对原始YOLO v4模型、YOLO v4-MobileNet V1模型、YOLO v4-MobileNet V1-3SPP模型、改进YOLO v4-MobileNet V1模型进行了验证,对比分析了每种模型对玉米种子图像的检测结果、模型的准确性、总参数量和检测单幅图像的耗时。在检测结果中选取较稀疏排列的玉米种子和较密集排列的玉米种子(图12),从图中可以看出,改进YOLO v4-MobileNet V1模型可以准确地定位每粒种子图像各1幅,并且可以准确地识别出单粒玉米种子品质的好坏,并在不同种子密度条件下,模型都能达到较好的识别效果,图像中种子稀疏与密集的摆放形式并不影响模型的性能。而YOLO v4-MobileNet V1-3SPP模型在较密集排列的玉米种子图像中有3个籽粒没有检测出,说明SPP结构中较多的最大池化层并没有达到较好的效果。模型的性能如表4所示,其中改进YOLO v4-MobileNet V1模型的平均F1值和mAP最高,说明模型的准确性最高,性能最强。由于MobileNet V1轻量级网络代替了原始模型中的CSPDarkNet53网络,因此模型的总参数量变为原来的20%,在模型检测单幅图像的时间上,由于网络层数的减少,时间缩短了约0.5 s。最终改进YOLO v4-MobileNet V1在检测10组RGB+NIR图像中共消耗18.5 s,平均每检测1粒玉米种子耗时0.088 s,达到实时检测效果。

图12 不同模型的玉米种子检测结果Fig.12 Test results of corn seeds by different models

表4 模型的性能对比Tab.4 Performance comparison of models

3 结论

(1)对比三通道(RGB)图像和四通道(RGB+NIR)图像的模型训练结果表明,四通道图像的平均F1值和mAP较高,近红外图像包含可见光之外的特征信息,而不同品质的种子特性会在不同的光谱波段范围内显现出来,其四通道图像所包含的信息量高于三通道图像,因此将四通道图像作为输入。

(2)为了使模型的计算量和参数量减少,将YOLO v4主干网络(CSPDarkNet53)替换为轻量级的MobileNet V1,同时对比了其他MobileNet模型,结果表明,MobileNet V1的性能最优,同时模型的总参数量变为原始模型的20%,本研究在确保精度的前提下,大幅度减少了模型的总参数量。

(3)改进YOLO v4-MobileNet V1目标检测模型中由于增加了2个SPP结构,融合了特征图的全局特征,更好地增加了卷积核的感受野,并提取出上下位的重要信息,因此模型的平均F1值和mAP分别达到93.09%和98.02%,平均每检测1幅图像耗时1.85 s,平均每检测1粒玉米种子耗时0.088 s。

猜你喜欢
玉米种子主干特征提取
同步定位与建图特征提取和匹配算法研究
不同条件下对济宁地区玉米种子萌发特性的研究
抓主干,简化简单句
贮藏中玉米种子活力与寿命的问题
关于提高玉米种子发芽率标准的探讨
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
群文阅读:为孩子打好生命底色
基于曲率局部二值模式的深度图像手势特征提取
低浓度克·酮·福美双利于玉米出苗和幼苗生长
寓美于物理力学主干知识的复习