基于高光谱的山地红壤全氮含量估测模型对比研究

2018-09-10 07:11孙小香赵小敏
江苏农业科学 2018年15期
关键词:全氮反射率波段

孙小香, 赵小敏, 谢 文

(江西农业大学林学院/江西省鄱阳湖流域农业资源与生态重点实验室,江西南昌 330045)

氮素是植物最重要的营养元素之一,直接参与植物的新陈代谢,对植物的生长、产量和品质有着极显著的影响[1],而土壤全氮含量直接影响植物的氮素营养。土壤全氮含量的传统化学分析方法如凯氏定氮法耗时、费力、破坏性大、专业性强且实效性弱,因此准确迅速无损的高光谱分析技术应运而生。Hummel等研究表明,土壤光谱反射率在可见光和近红外波段(400~2 500 nm)与土壤全氮含量的相关性很高[2-4],因此利用土壤光谱反射率反演土壤全氮含量是可行的。目前越来越多的建模方法被用于土壤全氮高光谱建模中,且模型精度较高。卢艳丽等构建了基于归一化光谱指数(NDI)[550,450]预测土壤全氮(TN)含量的反演模型,实测值与预测值决定系数R2在0.82以上[5]。吴明珠等通过分析光谱反射率的不同数据变换与土壤总氮含量的相关性,筛选出的强相关敏感波段为可见光634~688 nm和近红外872、873、1 414、1 415 nm波段,基于逐步多元线性回归建立的土壤全氮反演模型的决定系数为0.616[6]。高光谱结合偏最小二乘法(PLS)进行线性建模已经发展得较为成熟,Chang等利用偏最小二乘法建立了土壤高光谱全氮含量估测模型,实测值与预测值的相关系数达0.9以上[7]。王一丁等利用高光谱分析技术结合正交信号校正-偏最小二乘回归(OSC-PLSR)方法对植烟土壤全氮含量进行高精度预测[8]。由于土壤全氮含量与光谱反射率之间是一种非线性关系,所以利用非线性方法建模可以较大程度地提高模型预测精度。郑立华等利用BP神经网络建立了基于近红外光谱技术的土壤全氮含量预测模型,并提取主成分贡献率超过99.98%的主成分作为神经网络输入值,模型预测精度达0.854[9]。杨扬以全波段光谱数据建立的BP神经网络(BPNN)模型的相对分析误差(RPD)达3.47[10]。张娟娟等基于敏感波段反射率经Norris滤波平滑后的一阶导数光谱构建了基于偏最小二乘法、BP神经网络和特征光谱指数的土壤全氮含量估算模型,结果表明,基于BPNN构建的土壤全氮含量估算模型精度高于其他2种模型,该结果进一步证明了非线性模型预测土壤全氮含量的效果优于线性模型[4]。此外,支持向量机作为一种新型非线性模型预测方法,其快速准确的预测效果也得到了很好的验证。郑立华等构建的基于小波降噪近红外(NIR)光谱的支持向量机(SVM)土壤全氮回归模型的R2达0.922 4[11]。除上述研究中比较成熟的预测模型外,陈颂超等提出局部加权回归(LWR)方法,建立基于LWR、偏最小二乘回归(PLSR)、神经网络(ANN)和SVM方法的全氮预测模型,4种模型精度顺序为LWR>SVM>ANN>PLSR[12]。PLSR作为最经典的线性建模方法,一直是土壤养分高光谱反演的首选方法,而BP神经网络和支持向量机也是近几年发展速度较快的建模精度较高的非线性建模方法,所以本研究选择偏最小二乘回归、BP神经网络和支持向量机3种方法对土壤全氮含量进行反演。

上述研究表明,通过高光谱技术预测土壤全氮含量的效果较好,但不同土壤类型、样品数量、数据预处理方式、实验室条件以及模型类型等都会影响预测效果。张强认为,不同类型土壤的光谱反射率差异较大[13],大多研究是基于多种类型土壤总体进行的全氮含量估测,试图找到普适性的反演模型,但由于土壤成土因素的复杂性以及空间差异性等原因,模型适用性较低。本研究选取主成土因素相同的庐山山地红壤为研究对象,采集190份土样,测定其光谱反射率和全氮含量,并运用偏最小二乘回归、BP神经网络和支持向量机3种方法构建不同的基于土壤光谱的全氮含量估测模型,验证并比较各模型精度指标值,以期找到预测庐山红壤全氮含量的最优模型。

1 材料与方法

1.1 土样采集与制备

本研究所用土样于2014年在庐山地区采集,庐山地区位于江西省九江市,其地理坐标为115°52′~116°08′ E,29°26′~29°41′ N,属于中国亚热带东部季风气候区域,面江临湖,山高谷深,具有鲜明的山地气候特征。为合理布点,首先利用庐山土地利用现状图进行1 km×1 km选点,然后再根据选点图进行实地取样。主要采集0~20 cm土层土壤,共采集190个样点,每个样点取土1 kg左右,土壤类型均为山地红壤。样品带回实验室经自然风干,去除砂砾及动植物残体后,研磨过0.25 mm筛。每个样品分成2份,分别用于测定全氮含量和光谱反射率。

1.2 土壤全氮含量测定

选用凯氏定氮法测定土壤全氮含量,表1为不同样本集样品的土壤全氮含量统计特征。由于土壤样本数量大,且采样点地理位置跨度大,因此土壤全氮含量差异较明显,最小值为0.19 g/kg,最大值高达4.78 g/kg,平均值为1.26 g/kg。

表1 土壤样本集全氮含量统计

根据Kennard-Stone算法选取全体样本的3/4作为建模样本(143份)进行建模,全体样本的1/4作为验证样本(47份)对模型进行验证。由表1可以看出,建模、验证样本的平均值、标准差与总样本相差不大,说明该方法筛选的建模、验证样本有代表性,可以代替总样本对模型进行建模验证。

1.3 光谱数据采集及预处理

采用美国ASD公司生产的ASD野外光谱分析仪FieldSpec 3对土壤光谱进行测定,该仪器的波长范围为 350~2 500 nm,采样间隔为1.4 nm(350~1 000 nm)、2 nm(1 000~2 500 nm),重采样间隔为1 nm。将处理好的土样倒入盛样皿中,铺匀并用玻璃片压实,厚度约1.5 mm。为减少外界干扰因子的影响,光谱测定在黑暗的实验室内进行,将视场角为5°的探头固定在土样垂直上方,距离土样15 cm的支架上,光源为功率50 W的卤素灯,距土壤表面30 cm,光源照射方向与垂直方向夹角为15°。测定前进行白板定标,每个土样测定5条光谱反射率曲线,取其平均值作为该土样的光谱值,且每隔20 min进行1次白板校正。对每条光谱曲线进行1 nm的数据重采样,得到1条波长为350~2 500 nm,波段数为2 151个的土壤光谱反射曲线。对光谱曲线进行对数、倒数对数、一阶微分、二阶微分变换,筛选出与全氮含量相关性高的变换数据构建土壤全氮含量估测模型。

1.4 建模方法

选用偏最小二乘回归(PLSR)、BP神经网络(BPNN)以及支持向量机(SVM)3种方法进行建模,采用决定系数(R2)、均方根误差(RMSE)及相对分析误差(RPD)等指标比较模型精度,其中R2越大,RMSE越小,RPD越大,说明模型精度越高;反之越低。另外,当预测模型RPD≥2.0时,表示该模型有较好的估测能力;当1.4

2 土壤全氮含量光谱特征

2.1 土壤全氮的反射光谱特征

根据山地红壤全氮含量情况将土样分为5个等级,分别为极低含量(<0.6 g/kg)、低含量(0.6≤N<0.9 g/kg)、中等含量(0.9≤N<1.3 g/kg)、高含量(1.3≤N<2.0 g/kg)和极高含量(≥2.0 g/kg)。求取每个等级的平均反射光谱曲线,得到5条不同的等级曲线,从图1可以看出,5条不同等级光谱反射率曲线走势一致。在全波段范围内,山地红壤的全氮光谱曲线变化总体较为平缓,整体呈上升趋势。在可见光(400~800 nm)波段范围内反射率迅速上升;在800 nm附近发射率稍微呈上凸趋势;在近红外(920~1 380 nm)波段范围内反射率平缓上升,形成一个近红外高反射率平台;在 1 440 nm 附近有一个较小的吸收谷;1 450~1 850 nm反射率变化较平稳;以1 940 nm为中心波段出现较明显的光谱吸收特征;1 950~2 150 nm光谱曲线随波长的增加迅速上升;2 230 nm 附近也有一个较弱的吸收谷;2 290~2 500 nm波段土壤光谱曲线呈下降趋势。

极低含量和低含量的全氮光谱曲线在全波段范围内差异均很小,在600~1 380 nm波段,极低含量的全氮光谱曲线略高于低含量;中等含量、高含量与极低含量、低含量的全氮光谱曲线在400~580 nm波段曲线差异不明显,在581~2 500 nm 波段差异较大,830 nm上凸区域差异最大。极高含量的全氮光谱曲线与其他光谱曲线差异明显,在全波段范围内反射率均低于其他光谱曲线,说明土壤含氮量越高,反射率越低。

2.2 山地红壤全氮含量与土壤光谱的相关性分析

从图2可知,土壤全氮含量与原始光谱的相关系数在可见光波段较低,近红外波段较高。经一阶微分处理后的光谱在410~550 nm波段与全氮含量相关性高于原始光谱;经二阶微分变换后的相关性整体较低(绝对值整体低于0.6);经倒数对数变换后的相关曲线与经对数处理后的相关曲线对称,在全波段区域与土壤全氮含量呈显著正相关关系;对数处理后的相关曲线和原始光谱相关系数曲线走势相同,差异不大,在 350~2 500 nm全波段范围内与全氮含量呈负相关关系,且整体相关系数较高(绝对值在0.4~0.9之间)。综合比较可知,原始光谱反射率与土壤全氮含量存在连续相关性,可能原因是土壤光谱测定是在严格条件控制的实验室进行,外界干扰因子较少。因此,本研究直接利用原始光谱全波段反射率与土壤全氮含量进行建模。

3 结果与分析

3.1 基于PLSR的土壤全氮含量建模与验证

偏最小二乘回归集合了主成分分析、典型相关分析和多元线性回归分析3种方法的优点,是一种新型的多元统计数据分析方法。偏最小二乘回归通常用于数据的“软”建模,建立因变量关于自变量的线性或非线性的回归预测模型,特别是在自变量大于观察个数的情况下,效果较好[14-16]。本研究运用The Unscramble X 10.0软件进行偏最小二乘回归建模验证。

由于土壤原始光谱反射率与全氮含量相关性较高,可直接作为输入值进行PLSR建模。以全光谱波段(350~2 500 nm)为光谱建模样本,建立基于PLSR的土壤全氮含量估测模型。由图3可知,建模样本实测全氮含量与预测全氮含量的RC2、RMSEC和RPD分别为0.67、0.52 g/kg和1.71;验证样本实测全氮含量与预测全氮含量的RV2、RMSEV和RPD分别为 0.67、0.51 g/kg和1.66。

3.2 基于BP神经网络的土壤全氮含量建模与验证

BP神经网络是一种多层前馈神经网络,包括输入层、隐含层(中间层)和输出层 。隐含层可以是1层也可以是多层,一般为了节约计算时间,1层就可以达到较好的拟合效果[17]。本研究运用Matlab软件进行训练, 将光谱值作为Input Data,全氮含量作为Target Data,训练函数选用Trainscg,隐含层和输出层传递函数分别采用Tainsig函数和Purelin函数。隐含层结点数的选择通过多次反复试验确定,目标误差、学习速率及训练迭代次数通过不断测试验证进行设定[4]。

以全光谱波段(350~2 500 nm)为光谱建模样本,建立基于BP神经网络的土壤全氮含量估测模型。将143份建模样本土壤光谱反射率作为Input Data,143份建模样本土壤全氮含量作为Target Data,训练函数选用Trainscg,隐含层和输出层传递函数分别采用Tainsig函数和Purelin函数,经过多次测试最终得出,当隐含层神经元个数为10个、目标误差为 0.001、训练迭代次数为1 000时拟合效果较好。验证步骤与训练步骤类似,当隐含层神经元个数为15个时,拟合精度达到最高值。由图4可知,建模样本实测全氮含量与预测全氮含量的RC2、RMSEC和RPD分别为0.82、0.38 g/kg和2.36;验证样本实测全氮含量与预测全氮含量的RV2、RMSEV和RPD分别为0.76、0.43 g/kg和1.97。

3.3 基于SVM的土壤全氮含量建模及验证

支持向量机是一种基于统计学习理论的新型机器学习方法,由于其出色的学习性能,已经成为当前机器学习界的研究热点[18],主要被用于解决分类和回归问题。SVM的学习利用Matlab R2014a软件调用SVR.m函数进行。

以全光谱波段(350~2 500 nm)为光谱建模样本,建立基于SVM的土壤全氮含量估测模型。使用Matlab软件调用SVR.m函数进行SVM的学习,对因变量和自变量进行归一化处理,且选用SVMcgForRegress辅助函数时,拟合精度最高。由图5可知,建模样本实测全氮含量与预测全氮含量的RC2、RMSEC和RPD分别为0.85、0.12 g/kg和6.59;验证样本实测全氮含量与预测全氮含量的RV2、RMESV和RPD分别为0.76、0.41 g/kg和2.07。

3.4 土壤全氮含量估测模型的检验与比较

由表2可知,基于PLSR、BPNN、SVM 3种方法验证样本的模型预测全氮含量与实测全氮含量RV2分别为0.67、0.76、0.76,RMSEV分别为0.51、0.43、0.41 g/kg,RPD分别为1.66、1.97、2.07。

表2 山地红壤全氮预测模型统计结果

无论从判定系数、均方根误差还是相对分析误差来衡量,3种模型都取得了较满意的拟合效果和精度,其中基于SVM建立的土壤全氮估测模型训练与验证精度最高,其次是BP神经网络,而PLSR模型较差,但预测RPD均大于1.4,可以用于山地红壤全氮含量预测。

4 讨论与结论

4.1 讨论

由于土壤类型及所处环境(温度、湿度、pH值等)比较复杂,为了提高模型估测精度,研究热点已经逐渐转向基于单一土型的土壤养分高光谱反演。赖宁等利用盐渍化土壤的高光谱特征对土壤含盐量进行反演[19]。吴明珠等对亚热带土壤的铬元素进行高光谱反演,且发现模型精度较高[20]。张佳佳等对南方丘陵稻田土的土壤全磷、有效磷含量建立多项式回归模型[21]。韩兆迎等对黄河三角洲土壤有机质含量进行高光谱反演发现,基于单一土型建立的土壤养分高光谱反演模型相对于基于多种土壤类型建立的模型精度有了较大提高,可能是因为同类型土壤具有相同的主成土过程,外界环境条件也基本相同[22]。因此,本研究针对庐山山地红壤建立的3种不同全氮含量高光谱估测模型的训练与验证精度较高,适用性较强。

光谱数据预处理如一阶微分变换可以较好地消除外界因素干扰,提高某些波段反射率与土壤养分含量的相关性。然而,本研究数据显示,原始光谱全波段与全氮含量相关性较高,且连续稳定,可能与本研究的土壤光谱反射率测定在黑暗的实验室进行,外界干扰因子较少有关,说明只要测量过程严谨,条件严格,即可直接使用原始光谱数据进行模型的建立,从而提高工作速率。

土壤养分含量的高光谱反演模型一直是研究热点,也是突破难点,主要分为线性模型和非线性模型。徐永明等基于 350~2 500 nm全波段光谱反射率建立PLSR模型,预测精度达0.8[23]。沈润平等利用多元线性逐步回归和人工神经网络对土壤有机质含量进行反演[24]。本研究主要通过土壤全氮含量与土壤光谱反射率建立3种模型(PLSR、BPNN、SVM)并比较其验证精度,筛选出最优庐山山地红壤全氮含量估测模型,为高光谱遥感技术在土壤养分含量预测中的应用提供新的案例支持。模型验证精度的对比结果表明,SVM模型的验证精度最高(RPD=2.07),BP神经网络(RPD=1.97)和偏最小二乘(RPD=1.66)方法所建模型的验证精度相对较低,可能是由于偏最小二乘回归(PLSR)更适合对线性数据进行建模,而土壤全氮含量与光谱反射率之间是一种非线性关系,所以建立的模型验证精度不高;而BP神经网络具有高度的非线性映射能力[25],所以反演效果较好;支持向量机是一种新型的学习机器,与神经网络等其他核学习方法相比,核的参数能够自动地通过优化的方法计算出来,并且避免了局部最小点、过学习等缺陷,从而提高了建模精度[26]。

4.2 结论

以江西省庐山山地红壤为研究对象,采集190份土壤样品,对土壤样品的理化性质和反射光谱数据进行测量和分析,采用偏最小二乘回归、BP神经网络、支持向量机等方法建立3种山地红壤全氮含量的预测模型,并用验证样本对山地红壤全氮含量高光谱预测模型进行验证,得到以下结论:(1)对土壤原始光谱进行数据变换处理,然后与土壤全氮含量进行相关性分析,结果显示,光谱值与山地红壤全氮含量的相关性达显著水平,且相关性在近红外波段较高。经一阶微分变换后,某些波段的相关性有所提高,但原始光谱反射率与全氮含量的相关性在350~2 500 nm全波段范围内呈显著负相关关系,相关性高且稳定。(2)根据土壤全氮含量进行不同等级划分,通过比较不同等级光谱曲线得出,各曲线走势相似,在可见光波段光谱反射率上升速度较快,近红外波段较平缓且在1 440、1 940、2 230 nm处有3个吸收谷。对比不同曲线同波段反射率得出,土壤全氮含量等级越高光谱反射率越低。(3)在全波段建立的3种土壤高光谱全氮含量估测模型中,精度由高到低依次为支持向量机模型>BP神经网络模型>偏最小二乘模型。支持向量机模型具有较好的非线性逼近能力,是提高反演模型精度的有效手段。在本研究所建的3种模型中,支持向量机模型的决定系数最高,达0.76;均方根误差最小,仅0.41g/kg;相对分析误差最大,为2.07,其对土壤全氮含量的预测值与实测值非常接近,相比较而言,此模型预测能力最强,为最优的山地红壤全氮含量高光谱估测模型,可以用于庐山山地红壤全氮含量估测。本研究结果可为山地红壤全氮含量高光谱预测建模提供新的案例,并为筛选最佳土壤养分含量估测模型提供技术参考。

猜你喜欢
全氮反射率波段
影响Mini LED板油墨层反射率的因素
近岸水体异源遥感反射率产品的融合方法研究
具有颜色恒常性的光谱反射率重建
化学腐蚀硅表面结构反射率影响因素的研究*
M87的多波段辐射过程及其能谱拟合
丰镇市农田土壤有机质与全氮含量关系分析
不同土地利用方式对黒垆土有机质和全氮分布规律的影响
日常维护对L 波段雷达的重要性
基于SPOT影像的最佳波段组合选取研究
L波段雷达磁控管的使用与维护