基于Atrous-CDAE-1DCNN的紫丁香高光谱数据的叶绿素含量反演*

2022-06-27 08:12高文强肖志云
中国农机化学报 2022年7期
关键词:降维紫丁香反演

高文强,肖志云

(1. 内蒙古工业大学电力学院,呼和浩特市,010080;2. 内蒙古自治区机电控制重点实验室,呼和浩特市,010051)

0 引言

叶片叶绿素含量与动态变化与植物的光合作用密不可分,是植物光合活性、生长状况、营养状况的指示器[1]。因此叶绿素含量的检测在对植物生长检测和精密农学中具有重要意义。采用SPAD叶绿素测定仪获取植物叶绿素含量的相对大小,该方法较传统的化学测定具有无损检测的优点,但在测量过程中需多次插入,难以检测大范围的叶绿素[2]。高光谱图像技术具有快速、无损的检测特点,近年来已经成为分析植物理化参数含量的重要工具。李金敏等[3]利用深度森林算法提升了高光谱反演叶片氮含量的精度和稳定性,并通过多粒度扫描相对减轻过拟合程度,该试验在少量数据条件下构建深度学习模型并实现叶片氮含量的精准估计。为了简化高光谱数据处理流程,直接利用原始的高光谱反射率完成从建模到估算作物生长参数的全过程,纪景纯等[4]利用偏最小二乘回归、支持向量回归和前馈神经网络3种方法,利用全波段高光谱数据分别对冬小麦多个关键生育期(拔节、孕穗、扬花和乳熟期)生长参数(地上部生物量、叶面积指数、全氮含量和叶绿素浓度)进行了估算。张泽等[5]通过研究滴灌棉田地上部植株的氮营养指数,探究建立基于氮营养指数的高光谱指数模型的可行性,为高光谱遥感在农田氮营养快速、准确诊断中的应用提供理论依据。

由于高光谱数据相邻波段相关性较高,冗余信息较多,导致在处理高光谱数据时增加了计算负担,影响了计算效率。针对这一问题王玉娜等[6]利用SPA算法对拔节期、抽穗期的冬小麦冠层光谱、一阶导数光谱、对数变换光谱和连续统去除光谱对地上部生物量的敏感波段,并结合偏最小二乘法(PLS)分别建立拔节期和抽穗期基于SPA算法的冬小麦地上部生物量估测模型。试验结果表明SPA算法较好地利用了全波段冠层光谱信息,并显著降低了光谱维度,不同变换光谱的地上部生物量敏感波段个数在4~14之间。童倩倩等[7]采用数学变换、离散小波变换算法处理分析百香果叶片光谱数据,然后利用相关性分析算法提取敏感波段,并利用偏最小二乘算法构建百香果叶片叶绿素含量估测模型。结果表明以基于离散小波变换L1尺度构建的模型较优,具有较高的估测精度与稳定性。

传统降维方法都是进行线性变化如PCA,对复杂数据降维无法达到预期的效果,自动编码器[8-10]可以对相对复杂的非线性关系进行建模,通过对输入的重构从而实现对高维数据进行特征学习。传统自动编码器网络参数量大,训练过程长。而卷积自动编码器[11-12]虽减少了网络的训练参数,但由于卷积-池化操作会减少数据维度,在提取特征时会造成大楼特征损失。针对以上问题,本文利用空洞卷积去噪自动编码器(Atrous-Convolutional Denoising Auto-Encoder,Atrous-CDAE)进行对高光谱数据降维,该网络利用空洞卷积层[13-15]来代替卷积—池化层进行特征提取,减少数据损失的同时,增加了感受野。由于高光谱数据在采集时因环境影响容易在低高波段处混入噪声,针对这一问题网络在训练过程中,将原始数据加入随机噪声作为训练数据进行输入,将原始数据作为重构目标进行复现,使网络具有一定的去除噪声的能力[16-17]。

本研究利用Atrous-CDAE将紫丁香的高光谱数据进行降维,结合1DCNN对紫丁香叶片叶绿素含量进行反演预测。为减少训练损耗,采用迁移学习[18-19]训练方法,将Atrous-CDAE训练好的权重进行保存,并作为合并后网络的前半部分的初始值进行训练。

1 材料与方法

利用Atrous-CDAE-1DCNN方法对紫丁香叶片的叶绿素含量进行反演建模流程如图1所示。

图1 利用Atrous-CDAE-1DCNN对紫丁香叶片的叶绿素含量反演建模流程图

第一步对紫丁香叶片进行采集,第二步分别利用高光谱相机和叶绿素分析仪获取紫丁香叶片的高光谱数据以及代表其叶绿素含量的SPAD值,第三步对紫丁香叶片的高光谱图像进行白板校正,第四步利用Atrous-CDAE方法对校正后的紫丁香叶片高光谱数据进行数据降维,最后利用1DCNN方法对降维后的高光谱数据和测量得到的SPAD值进行反演建模。

1.1 数据获取

1.1.1SPAD值测定

本文紫丁香叶片数据采集地点为内蒙古工业大学校园内(呼和浩特市),采集方法为对紫丁香树的东南西北四个方位的叶片进行采集,并将样本放入袋中进行密封并标记编号,之后带回到实验室进行试验测定。叶绿素含量的测定设备采用手持式植物参数检测仪,测量过程中将除叶脉部分的叶片进行感兴趣区域提取,并使用植物参数检测仪进行无损检测。叶绿素含量值以感兴趣范围内SPAD的平均值作为参数指标。

1.1.2 紫丁香叶片光谱测定与处理

测定紫丁香高光谱数据的设备为新型手持式高光谱相机Specim IQ。高光谱相机的摄像头分辨率为512像素×512像素,采集的光谱总波段数为204个,光谱范围为400~1 000 nm,光谱分辨率为7 nm。为减少高光谱相机在拍摄过程中受环境的影响,本研究将采集好的紫丁香叶片在实验室内进行拍摄,与SPAD值的测定同步进行,且测定的感兴趣区域应保持一致。最后将采集到的152个样本数据进行数据集划分,将其75%的数据样本即114个作为训练集,25%的数据样本即38个作为预测数据。

针对在拍摄过程时,因光照强度不均匀以及暗电流等因素带来的试验影响,本文采用白板校正方法即拍摄高光谱数据时将白板与叶片同时进行拍摄以消除环境不匹配问题,校正公式如式(1)所示。

(1)

式中:R——校正之后的图像;

W——标准白板得到全白标定图像;

B——相机全黑的标定图像;

I——原始高光谱图像。

1.2 高光谱数据降维

1.2.1 自动编码器

高光谱数据相邻波段间具有较高的相关性,使用传统的线性降维方法处理效果有限,自动编码器(Auto-Encoder,AE)是一种非线性无监督的降维方法,该网络结构由编码器和解码器两部分组成,具有数据复现的功能。本文使用AE对高光谱数据进行降维,减少数据中冗余信息和模型训练的计算量。图2为利用AE对高光谱数据进行降维的过程,第一步将原始高光谱数据(204×1)输入到网络中,第二步通过两次全连接层将高光谱数据信息特征减少到(51×1)获得高光谱数据的潜在表征,第三步通过增加全连接层中神经元个数将数据复现。表1为AE的网络结构以及具体参数的分布情况。AE模型训练使用的损失函数为MSE(Mean Squared Error),该损失函数可以反映出数据集的离散程度,用于分析数据的回归预测问题,其计算公式如式(2)所示。

表1 AE的网络结构与参数

图2 利用AE对高光谱数据降维

(2)

式中:fi——模型的预测值;

yi——模型的真实值;

n——训练样本的个数。

1.2.2 卷积自动编码器

卷积操作具有局部感知和参数共享的优点如图3(b)所示,卷积层中的神经元只与相应数据部分进行连接,相比于图3(a)的全连接层极大减少了神经元的数量,并且在卷积过程中卷积核可以对原始数据的不同位置的特征进行提取,实现了权值共享,图中b为神经网络中的偏置值。卷积神经网络将卷积层与池化层连接,池化层具有旋转不变性,数据降维的特点。因此利用卷积—池化操作可以提取数据特征,减少了训练参数,防止训练过程出现过拟合。图4为利用卷积自动编码器(Convolutional-Auto-Encoder,CAE)对高光谱数据进行数据降维的过程,第一步将原始高光谱数据(204×1)输入到CAE中,第二步通过两次卷积—池化操作将高光谱数据信息特征减少到(51×1)获得高光谱数据的潜在表征,第三步通过卷积—上采样操作将数据复原进行输出,模型的损失函数为MSE。表2为CAE的网络结构以及具体参数的分布情况。

(a) 全连接层操作

图4 利用CAE对高光谱数据降维

1.2.3 空洞卷积自动编码器

由于常规的卷积—池化操作对数据特征的提取会造成部分原始数据的损失。针对这一问题本文引入了空洞卷积层来代替常规的卷积—池化操作,空洞卷积结构简单,其原理是在普通卷积中进行零填充如图3(c)所示。空洞卷积操作在保持响应层数据信息的无损失同时,大幅度增加卷积计算的感受野。图5为利用空洞卷积自动编码器(Atrous-Convolutional Auto-Encoder,Atrous-CAE)对高光谱数据进行数据降维的过程,第一步将原始高光谱数据(204×1)输入到Atrous-CAE中。第二步利用两次常规卷积和空洞卷积的组合操作进行特征提取,将高光谱数据信息特征减少到(51×1)获得高光谱数据的潜在表征。第三步通过卷积—上采样操作将数据复原进行输出, 模型的损失函数为MSE。表3为Atrous-CAE的网络结构以及具体参数的分布情况。

图5 利用Atrous-CAE对高光谱数据降维

1.2.4 去噪自动编码器

针对高光谱数据在采集过程中,光谱曲线在低波段和高波段易受噪声干扰的问题,本文通过应用去噪自动编码器(Denoising-Auto-Encoder,DAE)的训练方式来提高模型的去噪能力,主要改进为原始高光谱数据中的低高波段加入随机噪声作为网络的输入,目标重构数据为原始数据。利用这种训练方式使自动编码器从带有噪声的数据信息中学习到有用的光谱特征,使网络具有一定的抗噪声的能力。图6为利用传统去噪自动编码器(DAE)、卷积去噪自动编码器(CDAE)、空洞卷积去噪自动编码器(Atrous-CDAE)对5组加入随机噪声的高光谱数据进行复现预测的对比图(由于篇幅原因,此处只列举第一组数据对比图),结果表示三种网络结构都具有一定的去除噪声能力,可以从混入噪声的数据中提取出重要的特征信息,并将无噪声数据进行复现。

(a) 第1组加入噪声数据

1.3 1DCNN模型

传统机器学习算法对高光谱数据进行反演预测的精度不高,针对这一问题,本文利用1DCNN模型对紫丁香叶片的叶绿素含量进行反演预测。表4为1DCNN的具体参数分布,其中参数a为输入数据长度。第一步将数据进行输入,经过三次的卷积—池化操作提取特征,卷积—池化操作包括两个卷积层和一个池化层,其中池化层大小为2,池化步长为2,池化后的数据大小减少到原来的二分之一。第二步将最后一个池化层的输出数据进行平铺展开,并于全连接层进行连接。第三步将全连接层次D1与输出层Out相连接,其中Out层仅含有一个神经元以实现反演预测的作用,模型的损失函数为MSE。

表4 1DCNN结构与参数

2 试验结果与分析

2.1 不同模型对叶绿素含量的反演预测结果

为选取出最佳的反演模型,本文对原始高光谱数据(X)、原始高光谱数据的导数(D1)以及四种降维后的高光谱数据进行建模预测,其中四种降维方法分别为PCA、DAE、CDAE以及Atrous-CDAE。四种建模方法包括回归决策树(DTR)、BP神经网络(BP)、支持向量回归(SVR)以及1DCNN。图7为利用四种建模方法对6组高光谱特征数据进行反演预测的结果散点图,其中横坐标代表叶绿素的实测值含量,纵坐标表示对应数据和模型的预测值。结果表明,使用Atrous-CDAE降维后的高光谱数据进行反演预测,其预测结果较其他方法降维的数据更接近在1∶1线。说明利用Atrous-CDAE可以从原始高光谱数据中提取出重要的特征信息,减少冗余数据,使其预测结果接近于实测值含量。利用1DCNN模型对每一种数据进行反演预测的结果较其他方法更接近于1∶1线,而利用DTR和BP对X、D1、DAE、Atrous-CDAE的预测结果以及利用SVR方法对CDAE四组数据进行预测的结果偏离1∶1 线较为严重,表明1DCNN算法相比于其他算法不仅具有较高的预测精度,而且还有较强的适用性。试验结果表明,利用Atrous-CDAE进行数据降维并结合1DCNN模型进行预测的结果最好,证明这种组合模型的预测精度更高。

(a) X-DTR预测结果

表5、表6为利用不同模型对紫丁香叶片叶绿素含量进行预测的R2和RMSE,在测试集中使用1DCNN模型对经过Atrous-DCAE降维后的高光谱数据进行反演预测的预测效果最好,其R2为0.972 3,RMSE为1.326 6。相比于使用DAE和CDAE的降维方法,由于Atrous-CDAE利用空洞卷积结构代替池化层降维减少了原始高光谱数据的损失,相比于传统的全连接层的自动编码器减少了参数量,有效地提取高光谱数据曲线的特征信息,四种模型的预测结果表明,利用Atrous-CDAE降维的数据预测结果总体上较其他两种DAE更优,且通过该方法降维结合1DCNN模型进行反演预测的结果相比PCA降维的预测结果更好。利用本文所提的1DCNN模型,对6组数据进行反演预测的R2都在0.94以上,对6组数据反演预测的RMSE都在2以下,且该模型对原始数据、PCA降维数据、三种DAE降维的数据的反演预测结果要优于其他预测模型,结果表明,该模型对不同方法处理后的高光谱具有一定的适用性。

表5 测试集的决定系数

表6 测试集的均方根误差

2.2 Atrous-CDAE-1DCNN

迁移学习可以小样本情况下提高模型精度和泛化能力,并获得较好的训练结果。本文将Atrous-CDAE的编码部分与1DCNN相连接,并利用迁移学习方法将训练后的Atrous-CDAE模型中编码部分权重进行提取,作为Atrous-CDAE-1DCNN中Atrous-CDAE编码部分的初始权重。如图8所示,Atrous-CDAE-1DCNN网络结构由Atrous-CDAE的编码环节和1DCNN两部分组成。在Atrous-CDAE的编码部分,通过利用两次常规卷积和空洞卷积的组合操作,提取出原始高光谱数据的潜在表征作为降维后的数据。在1DCNN部分将Atrous-CDAE降维后的高光谱数据经过三次卷积池化操作进行特征提取,并与平铺展开层和全连接层连接实现反演预测。

图8 Atrous-CDAE-1DCNN的网络结构

图9为利用Atrous-CDAE-1DCNN方法对紫丁香叶片叶绿素含量预测的结果,结果表明使用本文所提的Atrous-CDAE-1DCNN方法不仅可以充分利用紫丁香叶片的高光谱图像信息,而且对其叶绿素含量的预测具有较高的预测精度和拟合效果,该方法为今后利用高光谱图像技术反演预测植物理化参数提供一个新思路。

图9 Atrous-CDAE-1DCNN方法对紫丁香叶片叶绿素含量预测的结果

3 结论

1) 本研究提出了一种基于高光谱的叶绿素含量的预测模型Atrous-CDAE-1DCNN,该模型将Atrous-CDAE与1DCNN结合并通过迁移学习方法进行权重训练,并实现了对紫丁香叶绿素含量的预测。

2) 在Atrous-CDAE训练过程中,将带噪声的高光谱数据作为输入,重构无高光谱数据,使网络具有一定的抗噪性。网络结构上利用空洞卷积操提取高光谱数据的特征,将原始高光谱数据的204维数据降低到51维。结果表明,利用该方法进行数据降维较传统的DAE的参数更少,相比利用卷积—池化进行特征提取的网络结构减少数据损失,为1DCNN模型的反演预测提供了必要保证。

3) 在1DCNN中,将降维后的数据经过三次特征提取操作,并与全连接层连接实现回归预测,在预测集中R2达到0.972 3,RMSE为1.326 6。与其他模型的预测结果相比,本文所提出的预测模型在对丁花香叶绿素含量的预测中取得了最佳性能。

猜你喜欢
降维紫丁香反演
基于数据降维与聚类的车联网数据分析应用
紫丁香
人教版小学语文二年级上册第5课《一株紫丁香》教学设计
基于红外高光谱探测器的大气CO2反演通道选择
反演变换的概念及其几个性质
基于ModelVision软件的三维磁异常反演方法
导数在几何中的“降维”作用
紫丁香
几种降维算法的研究及应用
白丁香紫丁香