基于迁移学习对棉花受海水胁迫情况判断的模型研究

2022-11-11 03:49陈建平陆镇威王永慧施庆华孙艳茹

安徽农业科学 2022年20期

施洋，高进，陈建平，杨华，陆镇威，王永慧，施庆华，孙艳茹

(江苏沿海地区农业科学研究所，江苏盐城 224002)

土壤盐渍化是全球性的环境问题，是限制农业生产的因素之一[1-2]。我国海岸线绵长，拥有丰富的盐碱地资源，在主要产棉区皆分布着较大规模的盐碱地，应用棉花耐盐的生物学特性发展盐碱地植棉是缓解粮棉争地矛盾、发展棉花生产、提升棉花产量的有效途径[3-5]。棉花在不同生育阶段耐盐能力不同，一般认为，幼苗阶段时期对盐分较为敏感，随着生育期的延长，棉花耐盐性逐步提高。因此，幼苗期是鉴定棉花耐盐性的重要阶段[6-8]。常规的棉花苗期盐胁迫试验是通过表型、光合作用、氧化应激、渗透调节、离子平衡等方面来判断棉花耐盐性，从而筛选出耐盐材料并挖掘耐盐基因[9-10]。

随着进入机器学习的新技术时代，深度学习被应用到植物上，卷积神经网络可以通过可见光和近红外光谱数字图像进行植物分类和病虫害诊断[11-16]。迁移学习可提高识别的准确率，解决小样本训练深度卷积神经网络的问题[17-21]。李博等[22]使用 3种识别模型对苹果等14类园艺作物26种叶部病害进行识别，准确率达95%。许景辉等[23]提出基于迁移学习的卷积神经网络玉米健康叶、大斑病叶、锈病叶图像识别方法。张建华等[24]提出基于改进VGG16卷积神经网络的病害识别模型。前人主要研究人工智能对植物分类和病虫害图像的识别，但棉花受盐胁迫图像的研究尚鲜见报道。鉴于此，笔者以海水模拟沿海土地盐碱地成分对苗期棉花进行胁迫，对不同浓度海水胁迫下棉花的顶视图和侧视图进行分类研究，探索利用卷积神经网络快速准确地检测苗期棉花受海水胁迫程度，对于耐盐棉花育种和改良盐碱地等方面具有现实意义。

1 材料与方法

1.1 试验设计棉花种质资源共30份，包括苏棉22 、苏棉25、苏棉30、泗抗1号、GK39、苏研608、鲁棉28、中棉所10、中棉所41、中棉所50、冀丰4号、邯棉646、泗阳518、泗棉3号、盐1046、冀优851、肖县133长绒、长绒67-12、川169-6、冀省病检7、冀省病检5、海兴耐盐6、海兴耐盐9、海兴耐盐10、中植棉2号、盐丰39、K236、NT1号、1138、H602。

试验于2019 年9月在江苏沿海地区农业科学研究所试验场遮雨大棚中进行。试验用种经浓硫酸脱绒后，选取发育正常、饱满、成熟度均一的健康种子，用 3% H2O2浸泡 30 s进行消毒。选取备好的试验材料，用蒸馏水浸种 20 h 后，进行穴盘育苗，每个材料播50穴，每穴1～2粒种子，待供试品种长至2叶1心时，挑选长势一致的5株棉花移入盛有基质的底部具孔(直径 10 cm，高 15 cm)的塑料杯中，每杯1株。将塑料杯置于60 cm × 45 cm × 20 cm(长×宽×高)的周转箱中，进行不同浓度的海水胁迫处理。以蒸馏水和海水调配不同浓度海水，试验海水浓度设0(蒸馏水)、25%、50%和100%共4个处理。试验期间，每隔3 d更换1次海水，每天补充去离子水至标记液面刻度。海水取自盐城市射阳港港口(33°49′ N，120°30′ E)，用DDS-307型电导率仪测定值为19.21 μS/cm。

1.2 图片采集于海水处理的第20天时选取棉株进行图片采样。该研究采用可见光收集不同浓度海水处理下的棉花顶视图和侧视图。拍摄所用相机型号为佳能EOS 800D，固定光圈F4，IOS 400。取出塑料杯用纸巾擦干，平放在方桌上，以白布作为拍摄背景，控制镜头与拍摄对象之间距离为20 ～ 30 cm时拍摄顶视图，30 ～ 40 cm时拍摄侧视图。共采集0、25%、50%和100%浓度海水处理的4种类型样本图像1 056幅，其中侧视图和顶视图各528幅。将采集的图像设置为jpg格式(分辨率为3 984像素×2 656像素)，建立试验样本图像。图1为采集到的棉花侧视和顶视图像。

图1 可见光收集的棉花图像

1.3 模型建立针对卷积神经网络识别需大量的样本对网络长时间训练，该研究结合卷积神经网络和迁移学习的思想，提出了一种基于模型迁移的方法对棉花受海水胁迫情况进行分类。选用VGG16卷积神经网络对其进行模型参数迁移，该网络已经接受了约100万种图像的训练，可以对不同浓度海水胁迫下棉株的顶视图和侧视图进行分类研究。使用528张棉花顶视图和侧视图，以4∶1比例随机划分训练集和测试集，模型使用在ImageNet数据集上训练过的VGG16进行迁移学习，将后面的全连接层和SoftMax去掉，换成1个1 024的全连接层，1个为4的全连接层和1个SoftMax层，训练时只训练所加结构的网络参数。迁移学习的Epoch为100，Learning Rate为5e-5(图2)。编程语言使用python 3.6.9，模型训练使用keras 2.3.1。

图2 迁移学习后的网络结构

2 结果与分析

2.1 侧视图的模型训练与测试网络对棉花受海水胁迫的侧视图集训练100个轮次，得到如图3所示的结果。可以看出，模型在80～100轮次时预测的准确率趋于稳定，训练集准确率接近100%，这是因为VGG16卷积神经网络模型可以很好地提取棉花受海水胁迫的特征，并在分类空间上有良好的表现。随着训练周期数的不断增加，训练集和测试集的损失值呈降低趋势。

图3 棉花侧视图像集的网络训练与测试过程

表1 棉花侧视图像集的网络测试结果

棉花侧视图像集网络测试结果的混淆矩阵如图4所示。混淆矩阵的列标签表示模型预测的类别，其对应的行数值总和为网络预测该类别的样本总数。混淆矩阵的行标签表示实际类别，其对应的列数值总和为该类别的真实样本总数。行列交叉处的数值表示该类别被预测为对应列标签的数量，对角线处的数值表示正确预测的标签样本数量。可以看出，测试样本有105个，共计21个样本被识别错误，网络测试的准确率为80.00%。测试的错误识别集中在25%和50%浓度海水处理，其中25%浓度海水处理中有15个样本被错误识别，当中有11次被识别为50%浓度海水处理，50%浓度海水处理中有4个样本被错误识别为100%浓度海水处理。

图4 棉花侧视图像集网络测试结果的混淆矩阵

2.2 顶视图的模型训练与测试网络对棉花受海水胁迫的顶视图集的训练和测试过程如图5所示。可以看出网络训练和测试的准确率逐步上升，到第60轮后趋于稳定。

图5 棉花顶视图像集的网络训练与测试过程

由表2可知，100%浓度海水处理的精确率和召回率最高，分别为92.86%和83.87%。0、25%、50%和100%浓度海水处理下，模型的F1值分别为86.79%、65.31%、65.30%和88.14%，整体上低于侧视图的测试结果。顶视图的测试结果表明，网络对0和100%浓度海水处理的预测能力较好。

表2 棉花顶视图像集的网络测试结果

从棉花顶视图的网络测试结果的混淆矩阵(图6)可知，测试样本有105个，共计24个样本被识别错误，网络测试的准确率为77.14%。25%浓度海水处理有9个样本识别错误，其中2个样本被识别为0浓度海水处理，7个样本被识别为50%浓度海水处理。网络对50%浓度海水处理有5个样本识别错误，其中3个样本被识别为25%浓度海水处理，2个样本识别为100%浓度海水处理。网络对不同浓度海水胁迫下棉花顶视图的识别具有可行性，对0和100%浓度海水处理识别能力较高。

图6 棉花顶视图像集的网络测试结果的混淆矩阵

3 结论

该研究将迁移学习应用于VGG16卷积神经网络，通过对不同浓度海水胁迫下30个棉花种质资源侧视图和顶视图的图像集测试，得到以下结论：

(1)该研究验证了迁移学习技术对棉花受海水胁迫程度判断进行端到端识别具有可行性。网络对棉花侧视图的测试准确率达到80.00%，对顶视图的测试准确率达到77.14%，侧视图更有利于模型的判断。

(2)2种视图下，模型对0和100%浓度海水处理的测试中F1均达到85%以上，预测能力更强。

4 讨论

该研究的模型测试结果能够较客观地判断棉花苗期受海水胁迫情况，但还是存在一些问题需要探讨。在0浓度海水处理下，模型测试结果中综合评价指标F1高，这是由于棉花在无海水胁迫下长势良好，图片特征明显，易于模型识别。虽然棉花的耐盐性比较强，但是不同基因型棉花之间耐盐性存在差异[25-29]，部分棉花材料的耐盐性较高，这导致了模型对25%和50%浓度海水处理的识别能力低，且模型多次把25%浓度海水处理的图片样本错误识别为50%浓度海水处理。100%浓度海水处理下模型预测准确度高，这是由于棉花是中度耐盐作物，当处于高盐分的环境条件下，株高、叶面积和茎粗等表型指标均受影响[30-31]，部分出现死苗情况，受害特征较明显。

在该模型的基础上，后续可以构建筛选耐盐性好的棉花材料模型，为育种家提供便利。同时，该研究丰富了人工智能育种的内容，为沿海滩涂的改良和使用提供了理论参考。今后还可以深入到对多种作物在盐胁迫下的分类研究，充分利用盐害的多尺度特征，提高模型的识别准确率，为开发基于智能手机等移动终端的耐盐材料筛选系统提供模型支持，在现有的基础上进一步提升应用价值。