基于可形变VGG-16模型的田间作物害虫检测方法

2021-11-24 12:10张善文许新华齐国红

农业工程学报 2021年18期

张善文，许新华，齐国红，邵彧

张善文，许新华，齐国红，邵彧※

（郑州西亚斯学院电子信息工程学院，郑州 451150）

由于田间害虫种类多，大小、形态、姿态、颜色和位置变化多样，且田间害虫的周围环境比较复杂，使传统田间害虫检测方法的性能不高，而现有基于卷积神经网络的作物害虫检测方法采用固定的几何结构模块，不能有效应用于田间多变的害虫检测。该研究在VGG-16模型的基础上构建了一种可形变VGG-16模型（Deformable VGG-16，DVGG-16），并应用于田间作物害虫检测。在DVGG-16模型中，引入可形变卷积后能够适应不同形状、状态和尺寸等几何形变的害虫图像，提高了对形变图像的特征表达能力，然后利用1个全局平均池化层替代VGG-16模型中的3个全连接层，以加快模型的训练。通过DVGG-16模型与VGG-16模型对比试验发现，DVGG-16模型提升了对田间害虫图像的形状、大小等几何形变的适应能力，在不改变图像空间分辨率的情况下，实现了对不规则田间害虫图像的特征提取，在实际田间害虫图像数据库上的检测准确率为91.14%。试验结果表明，DVGG-16模型提升了VGG-16模型对害虫多样性图像的特征表达能力，具有一定的图像形变适应能力，能够较准确地检测到田间形状变化多样的害虫，可为田间复杂环境下作物害虫检测系统提供技术支持。

模型；卷积神经网络；作物；图像识别；害虫；分类

0 引言

作物害虫防治对作物产量和质量以及农业经济的稳定至关重要。作物害虫检测与识别是害虫防治的前提，利用机器视觉检测和识别作物害虫是近年来一个重要的研究方向，目前已有很多作物害虫检测和识别方法[1-3]。为了快速检测和识别作物害虫，Deng等[4]提出了一种基于人类视觉系统的害虫快速识别方法，利用自然统计模型在害虫图像中生成显著性映射并检测感兴趣区域，提取代表害虫外观的不变特征，最后利用支持向量机（Support Vector Machine，SVM）进行害虫识别，识别率为85.5%。Xie等[5]开发了一个基于多任务稀疏表示和多核学习的昆虫识别系统，并将多任务稀疏表示与多种昆虫种类特征相结合，通过共同优化权值进行系统优化。Ebrahimi等[6]提取害虫图像的色相、饱和度和强化度等特征，利用SVM进行害虫分类，并利用均方误差、均方根误差、平均绝对误差和平均百分比误差评估不同特征的分类性能。Dey等[7]提出了一种基于统计特征提取和图像分类的作物害虫自动检测方法，能够从各种植物叶片图像中检测白蝇害虫。针对目前田间害虫检测方法的不足，肖德琴等[8]提出了一种基于黄色粘捕器的蔬菜害虫检测算法，包括结构化随机森林模型的害虫图像分割、不规则结构的特征提取、去除干扰目标和背景以及害虫计数等模块。为了监测温室黄瓜害虫的种类、数量和变化趋势，杨信廷等[9]提出了一种基于不同边缘检测算子和SVM的温室捕集板上害虫的识别方法，该方法利用害虫图像的5种形态特征和9种颜色特征监测温室黄瓜害虫的种类、数量和变化趋势。以上方法存在检测和识别性能过于依赖预先设计的特征和分类器、提取的特征的鲁棒性不高、泛化能力不强等不足，其主要原因是害虫种类繁多，且同种害虫在不同时间和不同时期可能具有不同的形状、颜色、大小和背景等，所以经典的害虫识别方法的识别率较低。尽管一些学者研究了害虫姿态的多样性，但由于实际害虫的种类和姿态多种多样，所以很多研究成果难以应用于实际田间作物害虫检测任务中[2]。

卷积神经网络（Convolutional Neural Network，CNN）具有良好的特征提取能力，已经在很多研究领域中成功应用[10-12]，并被广泛应用于作物病害识别[13]。Liu等[14]从分类网络、检测网络和分割网络等方面概述了近年来基于CNN的作物病虫害检测方法，总结了每种方法的优缺点，并给出了该领域研究的发展趋势。Wang等[15]提出了一种基于视频信息的害虫检测系统，能够对成熟阶段的白粉虱进行自动检测和计数。Li等[16]提出了一种基于深度CNN和视频图像的害虫检测方法，能够从比较模糊的视频图像中检测到害虫。Li等[17]提出了一种粗CNN与精CNN相结合的两级蚜虫检测方法。其中，粗CNN用于蚜虫区域检测，精CNN用于蚜虫类型识别。为了检测自然场景下的水稻害虫，钱蓉等[18]利用水稻害虫的个体特征和自然场景，对VGG-16模型的卷积层局部调整，优化模型的主要参数，构建了一种基于VGG-16模型的水稻害虫识别方法。由于传统CNN模型采用的卷积核为固定大小，池化为固定比例，所以不能有效处理具有形变的不规则大田害虫图像[19-20]。Ma等[21]通过在CNN的卷积核中每个采样点的位置增加一个偏移量，构建了一个可形变卷积网络模型（Deformable Convolutional Network，DCN），能够在当前位置附近随意采样，极大提高了对复杂形变图像的处理能力[21-22]。

综上，现有基于CNN的害虫检测方法能够从大量图像中学习到有效特征，避免了传统方法人工设计特征的不足，通过增强数据集的多样性、增加网络层数和优化模型参数等方法提高模型对形变多样的害虫的检测识别能力，但模型内部并不具有适应几何形变的机制，没有从根本上解决田间害虫识别方法的形变问题。可形变卷积通过引入采样位置的偏移量来改变采样位置，以增强模型的特征提取能力。本研究在VGG-16和DCN模型的启发下，构造一种可形变VGG-16模型（Deformable VGG-16，DVGG-16），并应用于田间害虫检测。

1 材料与方法

1.1 试验材料

利用8种常见的农作物害虫图像进行试验，包括玉米螟、飞蛾、毛毛虫、棉铃虫、蛴螬幼虫、豆虫、蝗虫和粘虫。本研究对8种害虫没有专业命名，仅采用农业生产者的传统命名，能够满足实际害虫防治需要。利用智能手机、摄像机和物联网等图像采集设备，在田间采集了2 000多幅害虫图像，每种害虫250幅，每幅图像的分辨率为416×416像素的彩色图像（图1）。由图1可知，害虫的形状、颜色、大小、姿态、位置和背景环境各不相同。为了加快网络训练，将采集到的每幅图像的尺寸裁剪至分辨率为224×224像素，然后批量压缩成三通道图像，作为网络输入数据。

为了克服CNN及其改进模型出现过拟合现象，对每幅图像进行裁剪、旋转、随机翻转、亮度抖动等处理，扩充害虫图像数据集[23]。裁剪角度间隔为45°、旋转角度范围为-15°～15°、抖动范围为±0.1，将每幅原始图像扩增了20幅。通过增加训练样本，提高模型的泛化能力；通过增加噪声，提升模型的鲁棒性。最后，构建了一个包含42 000幅图像的扩展数据集。

1.2 可形变卷积

在传统CNN模型中，设输入特征图为，卷积核为，上任意点0的1个3×3卷积区域为={(-1, -1),(1,0),…,(0,1),(1,1)}，则上0点的卷积操作如式（1）所示。

与传统卷积不同，可形变卷积通过引入偏移量改变采样位置，以增强模型的特征提取能力。在特征图上0点的可形变卷积操作如式（2）所示。

由于可形变卷积在不规则区域内进行，所以在卷积层提取的特征图的像素偏移值可能为小数，不能直接得到像素点的坐标。一般通过双线性插值获取特征图在任一像素偏移位置的采样值()如式（3）所示。

可通过2个一维线性插值核函数实现双线性插值操作，如式（4）所示。

在可形变CNN模型训练时，用于生成输出特征的卷积核与用于生成偏移量的卷积核同步学习，其中，偏移量由双线性插值算法学习得到，卷积核由反向传播进行学习。

1.3 可形变VGG-16模型（DVGG-16）

在经典VGG-16模型的基础上，研究构建一种可形变VGG-16模型（Deformable VGG-16，DVGG-16），其基本架构如图2所示，包括6个卷积层、4个可形变卷积层、5个池化层和1个全局平均池化层。与VGG-16模型相比，DVGG-16模型的优势在于：1）引入4个可形变卷积层，并由1个全局平均池化层代替VGG-16模型的3个全连接层，极大地降低了网络参数量；2）每个网格点都可以通过一个可学习的偏移量移动，所以DVGG-16模型中的网格可形变，能够适应田间害虫图像的多样性。

在可形变卷积层，可形变卷积过程描述如下：1）原始图像经过一个传统卷积，输出的结果为原图像中每个像素的偏移量；2）将图像的像素索引值与偏移量相加，得到偏移后的位置，再将该位置转换为坐标值，表示像素点的坐标；3）将步骤2中的任一坐标点（,）转换为4个整数：floor()、ceil()、floor()和ceil()，再整合为整数，得到4对坐标(floor()，floor())、(floor(), ceil())、(ceil(), floor())、(ceil(), ceil())。4对坐标的每个坐标对应图像中的一个像素值，其中floor和ceil都为Python编程语言中的取整运算函数，其区别在于floor()返回的是小于或等于的最大整数，ceil()返回的是大于的最小整数；4）采用双线性差值算法得到（,）的像素值，再进行反向传播；5）得到图像中任一位置的所有像素后，得到新特征图，作为下一层的输入。

1.4 试验设置

在DVGG-16模型训练中，以均值为0、标准差为0.01的随机正态矩阵初始化权重，设置最大迭代次数为3 000、批处理数为32；以计算机编程语言Python编写的深度学习库Keras中的分类交叉熵为损失函数，利用残差回传算法进行参数更新；采用随机梯度下降法训练模型，3个训练参数学习率、权重衰减和动量分别设置为0.001、0.001和0.9，每500次迭代进行学习率衰减。

1.5 试验验证

所有试验在Ubuntu16.04 LTS系统和TensorFlow框架下进行，使用Python和C++语言编写网络训练、测试和应用程序。在采集到的田间害虫图像数据库及其扩展数据库上分别进行试验，验证基于DVGG-16模型的作物害虫检测方法，并与4种作物害虫检测方法进行试验比较。这4种作物害虫检测方法包括基于图像处理的果园昆虫自动识别与分类方法（Image-based Insect Automated Identification，IIAI）[24]、基于局部颜色均值特征和SVM的害虫检测方法（Local Mean Colour Feature and Support Vector Machine，LMCFSVM）[25]、基于改进CNN（Improved Convolutional Neural Network，ICNN）的害虫检测方法[26]和基于VGG-16模型的害虫检测方法[22]。其中，IIAI和LMCFSVM为2种传统的基于特征提取的害虫检测方法，ICNN和VGG-16模型为2种基于深度学习的害虫检测方法。作物害虫平均检测准确率作为模型的评价指标，其计算如式（7）所示。

2 结果与分析

2.1 试验结果

采用五折交差验证法进行试验，即将42 000幅图像随机划分为5个子集，每个子集包含8 400幅图像，然后将每个子集作为1次测试集，其余的4个子集作为训练集，共进行5次试验，其检测准确率的平均值作为进行1次五折交差验证试验的检测准确率。采用3种大小不同的卷积核3×3、5×5和7×7训练VGG-16模型，3种卷积核及其对应的特征图如图 3所示。

由图3可以看出，3×3卷积核得到的特征图能够较好地反映害虫的轮廓信息。所以，本研究在DVGG-16模型中采用3×3卷积核。将训练图像集输入到DVGG-16模型，通过多个卷积层和池化层逐步提取深层次的特征图，再经过全局平均池化（Global average Pooling，GAP）得到分类特征向量，最后由Softmax分类器分类害虫图像，其中Softmax为深度学习应用中最常用的一种有监督分类器。得到DVGG-16和VGG-16模型中前5个卷积层的5幅特征图，如图4所示。由图4可以看出，DVGG-16模型的5幅特征图能够较好地反映图像的基本轮廓特征，明显优于VGG-16模型的特征图。

2.2 试验分析

为了显示扩展数据集上DVGG-16模型的有效性，在原始数据集和扩展数据集上分别训练DVGG-16模型，试验参数设置与以上试验相同。DVGG-16模型在两个数据集上进行1次五折交差验证，试验的检测准确率随迭代次数的变化情况如图5所示。由图5可以看出，DVGG-16模型在扩展数据集上的检测准确率总是大于在原始数据集上的检测准确率，最大检测准确率分别为91.76%和74.82%；在扩展数据集和原始数据集上模型收敛时的迭代次数分别为1 600和2 800，且在扩展数据集上的检测准确率曲线比较平稳，收敛较快。其主要原因是，原始训练数据集较小导致DVGG-16模型过拟合，使得在训练集上的误差较小但在测试集上的误差较大，不能得到模型的最佳参数。所以，文中试验均在扩展数据集上进行。

CNN模型的3个改进模型ICNN、VGG-16和DVGG-16模型在扩展数据集上的检测准确率随迭代次数的变化情况如图6所示。由图6看出，3个模型DVGG-16、ICNN和VGG-16的最大检测准确率分别为91.16%、83.44%和82.14%，迭代次数大于1 000后，DVGG-16模型的检测准确率曲线明显高于ICNN和VGG-16模型。其主要原因是DVGG-16利用可形变卷积，能够提取到可形变的多样性害虫的分类特征；而ICNN和VGG-16模型采用固定的几何结构，导致对田间害虫的几何形变的建模受到限制。由图6还可看出，DVGG-16模型的收敛速度比ICNN和VGG-16模型都快。主要原因是，DVGG-16模型利用全局平均池化替代全连接操作，极大减少了训练的参数和模型的训练时间；随着迭代次数的增加，3个模型的检测准确率不断上升，在1 500次迭代前，3个模型的检测准确率上升较快，由30%增加到80%，经过1 500次迭代后，3个模型的检测准确率曲线趋于稳定，但DVGG-16检测准确率曲线的平滑度比ICNN和VGG-16都好。

为了合理有效地比较害虫检测方法的性能，本研究选择所有方法的训练终止条件均为2次连续迭代的检测准确率差的绝对值小于0.01。所有试验中的图像都为没有经过图像降噪、增强、分割等预处理的扩展数据集，并利用所有方法进行10次五折交差验证试验，分别计算各个方法的10次试验结果的平均检测准确率及其对应的训练时间和测试时间的平均值，作为不同方法的检测结果。5种方法的害虫检测结果如表1所示。由表1可知，基于DVGG-16模型方法的平均检测准确率最高，为91.14%，2种传统方法IIAI和LMCFSVM方法的检测准确率远小于3种基于改进CNN的方法，基于DVGG-16模型的方法比IIAI和LMCFSVM方法的检测准确率分别提高了28.60和26.97个百分点，比基于ICNN模型和基于VGG-16模型的方法的检测准确率分别提高了7.72和9.01个百分点。其原因为田间害虫图像中包含叶片和环境背景，IIAI和LMCFSVM方法不能直接从原始图像中提取不变的分类特征，导致2种方法的检测准确率较低。ICNN和VGG-16模型的训练时间较长，因为这2种模型中含有大量的训练参数。基于DVGG-16与VGG-16模型的方法比较，训练时间减少了2.87 h。其原因是，DVGG-16模型引入了可形变卷积，提升了模型对田间害虫的多样性图像的特征表达能力，从而提高了模型对害虫多样性图像的检测准确率；在DVGG-16模型中，用全局平均池化代替VGG-16模型中的3个全连接操作，减少了模型的训练参数，加快了模型的训练过程，减少了训练时间。ICNN模型与DVGG-16模型都使用了全局平均池化，但由于可形变卷积操作借助双线性插值实现，增加了模型运算的复杂度，导致DVGG-16模型的训练时间比ICNN模型长7.98 h，但测试时间分别比ICNN和VGG-16模型快0.02和0.17 s。

表1 5种作物害虫检测方法的比较

注：IIAI为基于图像处理的害虫识别方法；LMCFSVM为基于局部颜色均值特征和支持向量机。

Note: IIAI is image-based insect automated identification; LMCFSVM is local mean colour feature and support vector machine.

3 结论

基于卷积神经网络（Convolutional Neural Network，CNN）及其改进模型的作物害虫识别方法不能兼顾田间害虫图像的外形、大小和姿态的多样性，而可形变卷积神经网络模型能够考虑田间害虫图像的形变，能够提取多形变害虫图像的更多分类特征，而不需要额外的监督信息。在VGG-16模型基础上，构建一种可形变VGG-16模型（Deformable VGG-16，DVGG-16），并应用于田间作物害虫检测。DVGG-16模型将VGG-16模型中的4个卷积层替换为4个可形变卷积层，提高了对田间害虫的可形变图像的特征表达能力，使用1个全局池化层替代VGG-16模型的3个全连接层，减少了模型的训练参数，加快了模型的训练速度，并在一定程度上能够避免过拟合现象。试验结果表明，DVGG-16模型比基于图像处理的害虫自动识别方法（Image-based Insect Automated Identification，IIAI）和基于局部颜色均值特征和SVM的害虫检测方法（Local Mean Colour Feature and Support Vector Machine，LMCFSVM）的检测准确率分别提高了28.60和26.97个百分点，比基于改进CNN模型（Improved Convolutional Neural Network，ICNN）和基于VGG-16模型的害虫检测方法的检测准确率分别提高了7.72和9.01个百分点；基于DVGG-16模型的害虫检测方法的测试时间比基于ICNN和VGG-16模型的测试时间分别快0.02 和0.17 s。由于感兴趣区域池化具有几何约束能力，能够将任意大小的感兴趣区域进行划分和降采样，适用于田间复杂害虫检测，因此如何利用感兴趣区域池化也是今后优化和改进DVGG-16模型及其应用的研究方向。

[1] Xiao D Q, Feng J Z, Lin T Y, et al. Classification and recognition scheme for vegetable pests based on the BOF-SVM model[J]. International Journal of Agricultural and Biological Engineering, 2018, 11(3): 190-196.

[2] 雷声渊. 机器学习结合Android手机的病虫害棉叶识别研究[D]. 石河子：石河子大学，2020.

Lei Shengyuan. Identification of Cotton Leaf Diseases and Pests Based on Machine Learning and Android[D]. Shihezi: Shihezi Universivity, 2020. (in Chinese with English abstract)

[3] 黄文江，张竞成，师越，等．作物病虫害遥感监测与预测研究进展[J]. 南京信息工程大学学报：自然科学版，2018，10(1)：30-43.

Huang Wenjiang, Zhang Jingcheng, Shi Yue, et al. Progress in monitoring and forecasting of crop pests and diseases by remote sensing[J]. Journal of Nanjing University of Information Science & Technology: Natural Science Edition, 2018, 10(1): 30-43. (in Chinese with English abstract)

[4] Deng L M, Wang Y J, Han Z Z, et al. Research on insect pest image detection and recognition based on bio-inspired methods[J]. Biosystems Engineering, 2018, 169: 139-148.

[5] Xie C J, Zhang J, Li R, et al. Automatic classification for field crop insects via multiple-task sparse representation and multiple-kernel learning[J]. Computers and Electronics in Agriculture, 2015, 119: 123-132.

[6] Ebrahimi M A, Khoshtaghaza M H, Minaei S, et al. Vision-based pest detection based on SVM classification method[J]. Computers and Electronics in Agriculture, 2017, 137: 52-58.

[7] Dey A, Bhoumik D, Dey K N. Automatic detection of whitefly pest using statistical feature extraction and image classification methods[J]. International Research Journal of Engineering and Technology, 2016, 3(9): 950-959.

[8] 肖德琴，张玉康，范梅红. 基于视觉感知的蔬菜害虫诱捕计数算法[J]. 农业机械学报，2018，49(3)：51-58.

Xiao Deqin, Zhang Yukang, Fan Meihong. Vegetable pest counting algorithm based on visual perception[J]. Transactions of the Chinese Society for Agricultural Machinery, 2018, 49(3): 51-58. (in Chinese with English abstract)

[9] 杨信廷，刘蒙蒙，许建平，等．自动监测装置用温室粉虱和蓟马成虫图像分割识别算法[J]. 农业工程学报，2018，34(1)：164-170.

Yang Xinting, Liu Mengmeng, Xu Jianping, et al. Image segmentation and recognition algorithm of greenhouse whitefly and thrip adults for automatic monitoring device[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(1): 164-170. (in Chinese with English abstract)

[10] Liu W B, Wang Z D, Liu X H, et al. A survey of deep neural network architectures and their applications[J]. Neurocomputing, 2017, 234: 11-26.

[11] 张顺，龚怡宏，王进军．深度卷积神经网络的发展及其在计算机视觉领域的应用[J]. 计算机学报，2019，42(3)：453-482.

Zhang Shun, Gong Yihong, Wang Jinjun. The development of deep convolutional neural network and its application on computer vision[J]. Chinese Journal of Computers, 2019, 42(3): 453-482. (in Chinese with English abstract)

[12] 陈超，齐峰．卷积神经网络的发展及其在计算机视觉领域中的应用综述[J]. 计算机科学，2019，46(3)：69-79.

Chen Chao, Qi Feng. Review on development of convolutional neural network and its application in computer vision[J]. Computer Science, 2019, 46(3): 69-79. (in Chinese with English abstract)

[13] Zhang S W, Zhang S B, Zhang C L, et al. Cucumber leaf disease identification with global pooling dilated convolutional neural network[J]. Computers and Electronics in Agriculture, 2019, 162: 422-430.

[14] Liu J, Wang X W. Plant diseases and pests detection based on deep learning: A review[J]. Plant Methods, 2021, 17(1): 1-18.

[15] Wang D W, Deng L M, Ni J G, et al. Recognition pest by image-based transfer learning[J]. Journal of the Science of Food & Agriculture, 2019, 99(10): 4524-4531.

[16] Li D S, Wang R J, Xie C J, et al. A recognition method for rice plant diseases and pests video detection based on deep convolutional neural network[J/OL]. Sensors, 2020, 20(3), [2020-01-20], https: //doi. org/10. 3390/s20030578.

[17] Li R, Wang R J, Xie C J, et al. A coarse-to-fine network for aphid recognition and detection in the field[J]. Biosystems Engineering, 2019, 187: 39-52.

[18] 钱蓉，孔娟娟，朱静波，等．基于VGG-16卷积神经网络的水稻害虫智能识别研究[J]. 安徽农业科学，2020，48(5)：235-238.

Qian Rong, Kong Juanjuan, Zhu Jingbo, et al. Research on intelligent identification of rice pests based on VGG-16 convolutional neural network[J]. Anhui Agricultural Sciences, 2020, 48(5): 235-238. (in Chinese with English abstract)

[19] Lei Z, Da F P, Gai S Y, et al. Transformation-invariant Gabor convolutional networks[J]. Signal Image and Video Processing, 2020, 14: 1413-1420.

[20] Wang Q C, Zheng Y J, Yang G P, et al. Multiscale rotation-invariant convolutional neural networks for lung texture classification[J]. IEEE Journal of Biomedical and Health Informatics, 2018, 22(1): 184-195.

[21] Ma P F, Ma J, Wang X J, et al. Deformable convolutional networks for multi-view 3D shape classification[J]. Electronics Letters, 2018, 54: 1373-1375.

[22] 高鑫，李慧，张义，等．基于可形变卷积神经网络的遥感影像密集区域车辆检测方法[J]. 电子与信息学报，2018，40(12)：2812-2819.

Gao Xin, Li Hui, Zhang Yi, et al. Vehicle detection in remote sensing images of dense areas based on deformable convolution neural network[J]. Journal of Electronics and Information Technology, 2018, 40(12): 2812-2819. (in Chinese with English abstract)

[23] Shorten C, Khoshgoftaar T M. A survey on image data augmentation for deep learning[J]. Journal of Big Data, 2019, 6(60): 1-48.

[24] Wen C L, Guyer D. Image-based orchard insect automated identification and classification method[J]. Computers and Electronics in Agriculture, 2012, 89: 110-115.

[25] Zhu L Q, Zhang Z. Automatic insect classification based on local mean colour feature and supported vector machines[J]. Oriental Insects, 2012, 46: 260-269.

[26] Xia D N, Chen P, Wang B, et al. Pest detection and classification based on an improved convolutional neural network[J]. Sensors, 2018, 18(12): 1-12.

Detecting the pest disease of field crops using deformable VGG-16 model

Zhang Shanwen, Xu Xinhua, Qi Guohong, Shao Yu※

(,,451150,)

Detection of crop pest has widely been one of the most challenges in modern agriculture, due to the intra- and inter-class pests in the field with various colors, sizes, shapes, postures, positions, and complex backgrounds. Convolutional Neural Network (CNN) has presented an excellent performance on the detection and recognition of complex images. However, the current CNN models cannot adapt to the geometric deformation of pests. In this study, a deformable VGG-16 (DVGG-16) model was constructed and then applied for the detection of crop pest in the field. The framework consisted of six convolutional layers, four deformable convolutional layers, five pooling layers, and one global average pooling layer. Furthermore, the network training was utilized to speed up the global average pooling operation, instead of three fully connected layers of VGG-16. Four convolutional layers in VGG-16 were replaced by four deformable convolutional layers, in order to improve the characteristic expression ability of network and the practicality of VGG-16 to insect image deformation. Moreover, a global pooling layer was used instead of three fully connected layers of VGG-16, in order to reduce the number of the training parameters, while accelerate the network training speed free of the over-fitting. The offset was added in the deformable convolution unit, thereby to serve one part of DVGG-16 structure. Among them, another parallel standard convolution unit was used to calculate and then learn end-to-end through gradient backpropagation. Subsequently, the size of deformable convolution kernels and position were adjusted, according to the current need to identify the dynamic image content of crop pests, particularly suitable for different shapes, sizes, and other geometric deformation of the object. Moreover, data augmentation was performed on the original dataset to increase the number of training samples. A series operations were also included for the better generalization ability and robustness of model, such as bilinear interpolation, cropping and rotating images, and adding salt-pepper noise to the images. A parallel convolution layer was used in DVGG-16 to learn the offset corresponding to the input feature map. The constraint was easily broken for the regular grid of normal convolution, where an offset was added at the corresponding position of each sampling point, while the arbitrary sampling was performed around the sampling location. More importantly, the deformable convolution was greatly contributed to the DVGG-16 model for better suitable for various insect images with different shapes, states, and sizes. An image database of actual field pest was evaluated to compare with two feature extraction and two deep learning, including image-based Orchard Insect Automated Identification (IIAI), Local Mean Color Feature and Support Vector Machine (LMCFSVM), Improved Convolutional Neural Network (ICNN), and VGG-16. Specifically, the detection accuracy of DVGG-16 was 91.14%, which was 28.60 and 26.97 percentage higher than that of IIAI and LMCFSVM, and 7.72 and 9.01 percentage higher than that of ICNN and VGG-16 based models, respectively. The training time of DVGG-16 was 7.98 h longer than that of the ICNN, because the deformable convolution operation was realized by bilinear interpolation, which resulted in the increase of computational complexity and training time of DVGG-16 compared with ICNN. The test time of DVGG-16 based model was 0.02 and 0.17 s faster than that ICNN and VGG-16 based models, respectively. Consequently, the DVGG-16 was effective and feasible to detect the variable pests in the field. The finding can provide a strong reference for the effective detection of pests in the complex field background, further to realize the feature extraction of irregular field insect images without changing the spatial resolution.

models; convolutional neural network; crops; image recognition; pests; classification

张善文，许新华，齐国红，等. 基于可形变VGG-16模型的田间作物害虫检测方法[J]. 农业工程学报，2021，37(18)：188-194.doi：10.11975/j.issn.1002-6819.2021.18.022 http://www.tcsae.org

Zhang Shanwen, Xu Xinhua, Qi Guohong, et al. Detecting the pest disease of field crops using deformable VGG-16 model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(18): 188-194. (in Chinese with English abstract) doi：10.11975/j.issn.1002-6819.2021.18.022 http://www.tcsae.org

2020-11-06

2021-08-22

国家自然科学基金资助项目（62172338）；河南省科技攻关项目（202102210157，202102210386，212102210406）；河南省高等学校重点科研项目（20A520044）

张善文，博士，教授，博士生导师，研究方向为模式识别及其在作物病虫害检测中的应用。Email：wjdw716＠163.com

邵彧，副教授，研究方向为复杂图像处理方法。Email：zswwyy125＠163.com

10.11975/j.issn.1002-6819.2021.18.022

TP311.13

1002-6819(2021)-18-0188-07

基于可形变VGG-16模型的田间作物害虫检测方法

0 引 言

1 材料与方法

1.1 试验材料

1.2 可形变卷积

1.3 可形变VGG-16模型（DVGG-16）

1.4 试验设置

1.5 试验验证

2 结果与分析

2.1 试验结果

2.2 试验分析

3 结 论

0 引言

3 结论