基于深度学习与近红外光谱的土壤质地分类模型研究

2023-02-14 05:22魏锦山陈争光
现代农业研究 2023年1期
关键词:土壤质地光谱准确率

魏锦山,陈争光

(黑龙江八一农垦大学信息与电气工程学院 黑龙江,大庆 163319)

近红外光谱分析是一种高效分析方法。近红外谱区(780~2526 nm)涵盖有机物中大量含氢基团信息,蕴涵分子的结构、组成状态等信息。因此,采用近红外光谱分析技术对土壤进行定性定量检测已成为当前光谱检测的热点[1-4]。

土壤质地指土壤中不同尺寸矿物颗粒的组合状况,一般分为砂土、壤土、黏壤土、黏土4类,是土壤物理性质之一,对土壤光谱特征有一定影响。一方面它影响土壤蓄水能力,较大的颗粒间能容纳更多空气和水;另外土壤颗粒大小对土壤反射率有显著影响,颗粒越小,彼此结合越紧密,土壤表面越平滑,反射率越大[5]。国内外研究大多侧重于土壤类型对土壤成分预测的影响上[6-11],通过近红外光谱建模对土壤质地分类的研究很少[12]。

另外,国内外研究建模多采用小样本数据集[13],会导致模型鲁棒性不强、泛化能力差等问题[14]。卷积神经网络[15]和长短时记忆网络[16]作为当前最流行、最有效和最广泛使用的深度学习算法[17],能自动提取光谱的有效特征,利用大数据能够提升分类模型准确率的同时获得良好鲁棒性。因此,将大数据与深度学习方法结合建立分类模型的研究具有重要意义。

本文以欧盟统计局调查收集的土壤近红外光谱样本数据集为研究对象,分别采用六种类型的CNN 网络和六种类型的LSTM网络建立土壤质地近红外光谱分类模型,比较模型分类效果的差异,旨在建立一种高效准确的基于深度学习与近红外光谱的土壤质地分类模型。

1 材料与方法

1.1 数据来源

本实验采用欧盟统计局开展的土地利用/土地覆盖地区框架调查数据(Land Use/Land Cover Area Frame Survey,LUCAS),包含欧盟23国土壤近红外光谱数据及其物理化学性质检测结果。将LUCAS数据集中17939个土壤质地样本,按照美国土壤质地分类标准将其分为4类,包括砂土、壤土、黏壤土、黏土(含1116 个砂土样本、11999 个壤土样本、3417 个黏壤土样本和1407 个黏土样本)。按6:2:2 的比例将数据随机划分为训练集、验证集和测试集,土壤数据集划分如表1所示。

表1 LUCAS土壤样本集划分

1.2 卷积神经网络

卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络[18],主要由输入层、卷积层、池化层、全连接层及输出层构成。

卷积层(Convolutional Layer)通过卷积核提取输入层局部特征,同一特征面权值共享[19]。第l层的第k个特征映射中,(i,j)处特征值计算如式(1)所示。设a(·)为非线性激活函数,激活值计算如式(2)所示。其中,是第l层输入矩阵,中心为(i,j)。是卷积核的权重向量,是偏置项。

池化层(Pooling Layers)用于降维,避免过拟合。本文选用取局部接受域中值最大点的最大池化方法。设pool(·)为池化函数,对激活值的池化如式(3)所示。其中,Ri,j是特征映射中以(i,j)为中心的区块。

全连接层(Fully Connected Layer)负责本层神经元与前层相连,产生全局语义[20],并通过Softmax 函数进行分类。

1.3 LSTM

长短时记忆(Long Short-Term Memory,LSTM)网络[16]是一种改进的循环神经网络,由记忆单元、输入门、输出门和遗忘门构成,如图1(b)。其特点是利用“门”机制调整信息流,能学习桥接大于一千步的间隔,即便存在噪声、无法压缩数据的条件下,也对短时间延迟能力无影响。

遗忘门控制信息的传递或丢弃,其输出ft如式(4)所示。

其中,σ(·)为sigmoid 函数,Wf为遗忘门权重矩阵,[ht-1,xt] 为上一时刻输出与当前输入组成的向量,bf为偏置。输入门控制输入值的更新单元状态,其输出it如式(5)所示。

其中,Wi为输入门的权重矩阵,bi为偏置。

其中,Wc为输入单元权重,bc为偏置。

新细胞状态Ct如式(7)所示。

其中⊙为哈达玛积。

输出门产生的控制信号ot如式(8)所示。

最终输出值ht如式(9)所示。

1.4 注意力机制-SENet

挤压激励网络[21](Squeeze-and-Excitation Networks,SENet)主要包含两部分:

Squeeze:通过全局平均池化(Global Average Pooling)将每个特征图压缩为1*1*(通道数)的一维序列。

Excitation:得到Squeeze 压缩序列后,输入全连接层FC(Fully Connected)进一步压缩,其后进行ReLU激活,通过下一个FC 恢复原来维度,再将其输入sigmoid 函数,对每个通道的重要性进行预测,得到各个通道的权重后再激励到之前特征图对应的通道上。其特点是模块轻量化,可直接嵌入网络,通过显式建模其特征通道之间的相互依赖关系来提高网络的表示能力。仅增加模型少量的运算时间就能提高模型准确率,性价比很高。

1.5 模型的建立

本研究建立了六种类型的CNN模型(3种标准卷积神经网络、3 种融入Attention 的卷积神经网络)和六种类型的LSTM 模型(3 种标准LSTM 网络、3 种融入Attention 的LSTM 网络)。模型结构如图1所示。其中图1(a)展示了融入Attention 的4 层卷积神经网络,图1(b)展示了融入Attention的4层LSTM网络。

图1 CNN模型结构图(a)和LSTM模型结构图(b)

2 结果与讨论

2.1 不同分类模型的分类结果

利用一维土壤质地近红外光谱数据训练六种类型的CNN模型(3种标准卷积神经网络、3种融入Attention的卷积神经网络)和六种类型的LSTM模型(3种标准LSTM网络、3种融入Attention的LSTM网络)。模型在验证集和测试集上的分类结果如表2所示。其中CNN_4_Attention表示卷积层数为4 且融入Attention 的CNN 模型,LSTM_4_Attention 表 示LSTM 层 数为4 且融 入Attention 的LSTM模型。

2.2 网络层数对分类准确率的影响

如表2所示,输入一维光谱训练后,无论是CNN还是LSTM 模型,随着网络层数的增加,其总样本分类准确率均逐渐提高。当网络隐藏层层数为4层时,CNN_4模型的测试集准确率最高达到76.58%,LSTM_4模型的测试集准确率最高达到77.86%。Agrawal等[22]在人脸识别的研究工作中证实卷积层增加会提升分类准确率。Livieris等[23]在研究黄金价格波动的预测工作中发现,深层的LSTM网络性能要优于浅层网络。开发ResNet的作者何恺明等[24]也认为网络层数对模型的性能有很大影响。这些均与本研究结论一致。

表2 模型的分类准确率表

2.3 Attention对CNN模型和LSTM模型分类准确率的影响

融入Attention 模块后,网络执行特征重新校准,通过GlobalAveragePooling 将全局空间信息压缩到信道描述符中,使来自网络全局感受野的信息能被低层利用。为了利用压缩的聚合信息来捕获通道依赖性,要进行激励操作。在ReLU 层前后分别加入了Fully Connected层,形成瓶颈结构来参数化门控机制,第一个FC 层用以降维,然后进行ReLU 激活,再经过第二个FC 层升维,最后通过sigmiod 函数对特征图重新加权,以达到集中注意力的效果。SENet以一种高效的计算方式增加了网络深度,可在计算成本很低的情况下提高模型性能,嵌入Attention 会对模型性能有一定的提升。融入Attention后,通过学习使用全局信息来选择性地强调特征,并抑制无用特征,显式建模通道间的相互依赖关系提高了网络表示能力,提升了分类准确率[21]。两类网络的总体分类准确率均有了一定提升,CNN_4_Attention 测试集准确率达到了77.50%,LSTM_4_Attention测试集准确率达到了78.39%。

2.4 不同类型模型对分类准确率的影响

如表2,未融入Attention时,LSTM_4模型的测试集总体分类准确率比CNN_4模型高1.28%。融入Attention后,LSTM_4_Attention 模型的总样本分类准确率比CNN_4_Attention模型高0.89%。整体看LSTM分类效果稍优于CNN,证明LSTM更适合处理一维的序列数据。这是由于二者模型结构的差异所致。CNN 的核心是卷积核,其仅能识别局部特征,提取的特征是由一层层卷积核输出的结果堆叠起来的;而LSTM区别于CNN,主要由记忆单元、输入门、输出门和遗忘门构成,具备记忆能力,便于根据前后信息获得结果。通过门控状态更新传输的数据,其中遗忘门的sigmoid函数负责保存需要长期保留的重要信息,遗忘次要信息,有选择的筛选和过滤信息能有效地提高模型准确率。Livieris等[23]在其研究中提到LSTM 网络适合处理序列数据。由于LSTM特殊的构造,其模型能有效地获取序列数据的特征。利用深度学习算法的序列模型可以提高模型性能。其观点与本研究结论一致。

2.5 不同模型训练过程

表2中12个模型验证集分类准确率随迭代次数的变化曲线如图2所示。

图2 验证集数据的分类准确率曲线

随着迭代次数的增加,12 个模型验证集数据的分类准确率不断提高,准确率最高点均超过72%,效果良好。早停法检测到其模型性能不再继续优化,长时间训练存在过拟合风险,因此自动中断训练。并且随卷积层数的增加,模型能在验证集数据上达到更高的分类准确率。未融入Attention 模块时,CNN 最优模型CNN_4 的验证集分类准确率能达到76.64%,LSTM 最优模型LSTM_4 的验证集分类准确率能达到78.76%,LSTM模型的分类性能更优。融入Attention 模块后,CNN 最优模型CNN_4_Attention 的验证集分类准确率能达到77.84%,LSTM 最优模型LSTM_4_Attention 的验证集分类准确率能达到79.31%,LSTM模型的分类性能更优。

未融入Attention 的CNN 和LSTM 模型的分类准确率曲线波动较大,稳定性差(图2(a)(c))。相比之下,融入Attention的CNN和LSTM模型的分类准确率曲线波动小,训练过程中,准确率稳定上升(图2(b)(d)),在Early stopping方法辅助下避免过拟合的同时,能达到更高的训练次数,即意味着达到了更高的分类准确率,说明Attention 模块会重新分配通道权重,以达到集中注意力、显著提高模型性能的效果。

另外,样本量对实验结果有影响。Pittaki等[10]在其研究中发表过相同观点。样本多的类别分类准确率高,样本量少的类别分类准确率低。这是因为,模型在训练过程中,较多样本的类别对模型的修正能力更强。如表1所示,砂土样本量仅为1116个,仅占总样本的6.2%。从表2可见,12个模型对于砂土的分类准确率都较低,最低达到了17.94%。

3 结论

通过一维土壤质地近红外光谱数据训练模型,共建立六种类型的CNN 模型(3 种标准卷积神经网络、3 种融入Attention的卷积神经网络)和六种类型的LSTM模型(3种标准LSTM 网络、3 种融入Attention 的LSTM 网络)。从不同角度分析了两种模型间分类性能的差异。实验证明:(1)网络层数对分类准确率有影响,深层网络的性能要优于浅层网络。(2)融入Attention 模块后,对两类模型分类准确率均有了一定提升,CNN_4_Attention 达到了77.50%,LSTM_4_Attention 达到了78.39%。(3)LSTM 模型的分类效果整体优于CNN,证明LSTM更适合处理一维序列数据。(4)样本量对实验结果有影响,样本多的类别分类准确率高,样本量少的类别分类准确率低。利用大数据结合深度学习相关算法对近红外光谱进行分类,能建立更高鲁棒性和普适性的优良模型,为土壤分类研究提供了一种新思路。

猜你喜欢
土壤质地光谱准确率
中国土壤质地分类系统的发展与建议修订方案
基于三维Saab变换的高光谱图像压缩方法
基于机器学习方法的宁夏南部土壤质地空间分布研究
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
基于MATLAB GUI的土壤质地类型自动识别系统
高速公路车牌识别标识站准确率验证法
星载近红外高光谱CO2遥感进展
苦味酸与牛血清蛋白相互作用的光谱研究
铽(Ⅲ)与PvdA作用的光谱研究
豫中不同土壤质地烤烟烟叶中性致香物质含量和感官质量的差异