基于特征波长选择和建模的高光谱土壤总氮含量估测方法研究

2018-10-11 07:07王文才李绍稳齐海军
浙江农业学报 2018年9期
关键词:波长光谱建模

王文才,赵 刘,李绍稳,齐海军,金 秀,王 帅

(安徽农业大学 信息与计算机学院,农业农村部农业物联网集成技术与应用重点实验室, 安徽 合肥 230036)

总氮(total nitrogen, TN)是土壤的重要组成成分,其含量是评价土壤肥力的重要指标[1]。快速、准确地监测土壤中的TN含量对于土壤肥力诊断及农业可持续发展具有重要意义。传统的实验室理化测试方法由于耗时、费力、低效,已不适应精准农业的发展要求。高光谱技术具有快速、无损、高效等特点,现已广泛应用于土壤成分检测中[2-3]。

迄今,已有大量关于选择土壤属性特征光谱的研究,并取得了较佳的效果[4]。常用的特征波长变量优选方法包括竞争性自适应重加权算法(competitive adaptive reweighted sampling, CARS)、连续投影算法(successive projections algorithm, SPA)、无信息变量消除(uninformative variables elimination, UVE)等,但将随机森林特征选择算法(random forest feature selection, RFFS)用于土壤属性特征光谱筛选的研究较少。Vohland等[1]采用CARS算法从全波长中筛选出特征波长,建立土壤养分的偏最小二乘回归(partial least square regression, PLSR)模型,与全波长建立的PLSR模型相比,CARS-PLSR模型的预测效果更佳。于雷等[5]基于竞争性自适应重加权采样法筛选光谱波段,再利用PLSR预测土壤含水量,所建立模型的决定系数(R2)为0.98,为快速准确评估农田墒情提供了新途径。Yang等[6]选择田间较小范围的土壤光谱利用UVE-SPA选择特征波长,建立土壤养分的PLSR模型,与全波长建立的PLSR模型精度相当。杨梅花等[7]对120个土壤样本的光谱采用主成分分析、UVE、UVE-SPA三种变量特征选择方法,建立基于不同变量选择的建模方法模型,结果表明,基于UVE-SPA方法选择的变量建立的模型估算土壤中TN含量的效果最佳。

国内外专家学者围绕土壤TN含量的高光谱检测做了大量的研究。郑光辉等[8]以江苏滨海土壤为研究对象,利用偏最小二乘法建立土壤TN含量模型,取到良好效果。吴金卓等[9]采用近红外光谱技术测定土壤TN与碱解氮含量,实验发现,采用小波变换方法进行预处理并与偏最小二乘法相结合得到的模型精度最高。张强等[10]找到土壤TN含量的最佳敏感波段,构建指数模型(R2=0.798 2),成功预测出土壤TN含量。高小红等[11]分别利用PLSR和反向传播神经网络2种模型建立土壤TN估算模型,认为反向传播神经网络模型比PLSR模型精度高、稳定性好,但PLSR模型可操作性更强。陈颂超等[12]以多省的土壤样本为研究对象,使用多种建模方法建立土壤TN含量预测模型,发现局部加权回归方法优于人工神经网络、PLSR和支持向量机。An等[13]通过消除土壤水分和土壤颗粒尺寸对便携式土壤TN检测器测量的干扰,使用反向传播神经网络算法,基于6个特征波长(940、1 050、1 100、1 200、1 300、1 550 nm)处的校正吸光度数据建立土壤TN含量的估计模型,与使用原始光谱数据建立的模型相比,新模型的准确性和稳定性均有所提高。

为探寻快速有效的土壤TN含量测定方法,前人已对光谱预测做了大量的研究,但缺乏选择特征波长及利用特征波长建立预测模型的研究。为此,特选择皖北地区砂姜黑土为研究对象,在室内条件下采集土样光谱数据,选用CARS、SPA和RFFS三种方法筛选光谱特征波长变量,提取有效光谱信息,并在选定的特征波长的基础上,探讨PLSR、支持向量机回归(support vector regression, SVR)、最小绝对值收缩和选择算子(least absolute shrinkage and selection operator, LASSO)建模的效果,为今后开发土壤近地传感器设备提供理论依据。

1 材料与方法

1.1 样本采集

土壤样本采自皖北蒙城县、怀远县和宿州市埇桥区,土壤类型主要为砂姜黑土,小麦-玉米轮作是该地区的主要种植方式。根据秸秆还田方式、变量施肥梯度和种植密度确定采样点,以增大土壤TN含量差异。采样深度为0~20 cm,采用3点取样法采集样本,去除表面的枯草、碎石和作物秸秆等后,将3个采集点的土样混合为一个样本,每份样本约重1.5 kg,共采集115份样本。采集后,将样本放置在室内通风处风干,磨细,剔除杂质,过1 mm筛。处理好的土壤样本均匀分成2份装入密封袋,做好标记,一份用于光谱数据采集,另一份用于理化实验分析。土壤TN含量采用凯式蒸馏法测定。

室内高光谱成像系统(图1)主要由HyperScan VNIR Micro型推扫式高光谱成像仪、自由度扫描精密云台、50 W卤素灯光源、高度可调封闭式机械结构和带有采集软件的计算机等硬件组成。为了排除自然光对采集土壤高光谱图像的干扰,将可见-近红外高光谱图像采集系统(不包括计算机)全部放置在一个封闭不透光的暗室内(暗室由黑布罩着的长方体支架构成)。2个50 W卤素灯光源分别固定在可自动调节的支撑架上面,光源的方向可以左右或上下调整以获得良好的光照条件。光源发出的光直射到载物台上的土壤样本,照在土壤上的可见-近红外光反射到高光谱成像仪中的棱镜-光栅-棱镜,由于波长不同,这些光会发生色散,然后通过光谱相机的作用形成焦平面阵列。推扫式高光谱成像仪为该采集系统的核心部件,由自由度扫描精密云台控制。高光谱成像仪自左向右扫描,其扫描速度可由采集软件设置。通过这种方式可获得土壤样品的超立方体图像,图像上的每一个像素点对应一条光谱数据,每个波段是一张灰度图。该推扫式高光谱成像仪采集的波长范围在400~1 000 nm,光谱分辨率为1.79 nm,共采集339个波段。

图1 室内高光谱成像系统Fig.1 Schematic of indoor hyperspectral imaging system

1.2 光谱处理与样本划分

利用ENVI软件对土壤原始高光谱图像进行黑白板校正,得到反射率图像。手动画出仅包含土壤样本的感兴趣区域(region of interest, ROI),将ROI内的反射率值进行平均作为该样本的反射率值。处理得到的光谱反射率曲线在首尾区域有较低的信噪比,影响模型预测精度,因此,本文仅选取500~900 nm(224个波长)区域的光谱数据作为全波长开展后续分析。

为消除光谱的噪声影响,采用Savitzky-Golay(SG)卷积平滑(3项21点)处理去噪,通过多次求取平均值来降低噪声、提高信噪比[14]。在光谱实验中,提取的光谱数据存在颗粒分布不均匀、易产生散射等问题。为了增强光谱对成分含量的吸收信息,进一步采用多元散射校正(multiplicative scatter correction, MSC)的方法对光谱数据进行预处理[15]。后期的特征选择及建模均在前述处理后的光谱基础上进行。

采用基于x-y共生距离的样本划分方法(sample set partitioning based on jointx-ydistances, SPXY)将样本集划分为建模集和预测集[16]。由于样本来自3个地区,利用SPXY算法对每个地区样本进行划分,将75%的样本作为建模集,剩余样本作为预测集。各样本集土壤TN含量的统计值如表1所示。

1.3 光谱特征变量筛选

SPA是一种使矢量空间共线性最小化的前向选择变量方法,它以减少信息冗余为目的选择波段,旨在解决线性问题[17]。该方法可最大限度地避免光谱信息重叠,利于简化模型和提高建模速度。

CARS是一种新颖的特征波长提取算法,经过筛选无效的波长以减少数据冗余来提升建模的效果[18]。该方法借助自适应重加权采样技术选择PLSR模型中权重系数绝对值大的波段,再通过交互检验提取模型交互验证均方差值最小的波长作为敏感波段。

表1土壤总氮含量统计特征

Table1Statistical characteristics of soil total nitrogen contents

样本类型Sample type样本数Sample No.最大值Max/(g·kg-1)最小值Min/(g·kg-1)均值Mean/(g·kg-1)标准差Standard deviation/(g·kg-1)总体样本 Whole set1151.490.530.94830.2026建模集 Calibration set861.490.670.95710.2207预测集 Prediction set291.480.530.92210.2350

RFFS利用随机森林算法的变量重要性度量对特征进行排序,以序列后向的方式进行搜索,采用递归迭代法将影响力最小的特征依次从特征集中剔除,经过多次迭代,特征集中的变量个数会越来越少、分类精确度会越来越高,最终选择出最优的特征变量[19]。

1.4 建模分析及模型评价

利用全波长和筛选的特征波长变量数据与土壤TN含量数据,分别建立PLSR、SVR和LASSO分析模型。PLSR方法是一种适用性较广的新型化学计量学建模方法。SVM是近几年比较受欢迎的有监督方法之一,其不仅有扎实的理论基础,而且给出学习推理机制能力,通过将数据从低维转化为高维,再将其线性化。LASSO回归利用变量筛选方法解决光谱数据的共线性和冗余问题。

本文所建立的回归模型由决定系数(R2)、均方根误差(root mean square error, RMSE)和相对分析误差(relative percent deviation, RPD)进行评价:R2和RPD值越大、RMSE值越小,模型的性能越好[20-21]。光谱预处理、变量筛选和建模分析在Matlab环境下完成。图2为本文模型构建的简易流程图。

2 结果与分析

2.1 光谱处理与分析

过1 mm筛后的土壤原始光谱与平滑后的光谱如图3所示。从图3-a可以看出,土壤光谱曲线在全波长(500~900 nm)范围内呈现递增趋势,且无明显的波峰波谷。由于干燥的砂姜黑土颜色较深,呈黄棕色,故反射率整体较低,在绿光至红光区域(500~700 nm)出现明显上升趋势。在近红外区域(850 nm)光谱出现波动,可能是因为土壤中的有机质产生光谱吸收所致[22]。土壤原始光谱的离散程度高于平滑后光谱,说明平滑处理可降低土壤原始光谱的离散程度。

2.2 特征波长选择

从表2可知,CARS所选择的特征波长变量数要多于RFFS和SPA算法。SPA提取的特征波长按照贡献值的大小排序,个数少,最后选择的特征波长数为8个。CARS采用自适应重加权采样,当采样次数达到21次时,使用所选择的敏感波段对应的光谱构建PLSR模型,模型的交互验证均方差值最小,此时选中的特征波长数为30个。RFFS应用“bootstrap”方法有放回地从建模集中抽取65个样本集,分别用于构建3棵决策树,统计各波长影响值,当选择的特征波长个数为20时,所选择的特征集中“Out-of-bag”数据集正确分类的准确度最高。

图2 模型构建的简易流程图Fig.2 Flow chart of model construction

a,原始光谱;b,平滑后光谱。a, Original spectrum; b, Spectra after smooth.图3 土壤光谱Fig.3 Spectrum of soil samples

图4结合表2可看出,SPA、CARS和RFFS筛选的特征波长差异性较大,CARS与SPA、RFFS都有相同的特征波长,而RFFS与SPA无相同的特征波长。由于3种算法过程不同,结果有所偏差:SPA提取的特征波长主要分布在800~900 nm,CARS提取的特征波长主要分布在520~620、700~750、820~900 nm,RFFS提取的特征波长主要分布在520~630、680~740 nm。从图4可以看出,土壤TN含量的特征波长有可能在825 nm和875 nm附近,因其附近均有3种方法提取的特征波长。同时,土壤TN含量的特征波长也有可能在550、600、700 nm附近,因为这3个波长附近均有CARS和RFFS提取的特征波长分布。SPA在520~750 nm未提取特征波长,而CARS和RFFS均在此波段提取到特征波长,可能是因为SPA在提取特征波长的过程中出现了有用信息部分遗漏的现象,可能会影响建模效果。

2.3 建模结果分析

2.3.1 PLSR

从表3可知,RFFS-PLSR模型(以RFFS方法筛选的特征波长为基础,将其对应波长反射率与土壤TN含量以PLSR方法建模,下文类似表述的指代内容与此相仿,即“-”左、右分别表示特征波长选择方法和建模方法)的效果最佳,其预测集的R2、RMSE和RPD数值分别为0.743 3、0.104 3、1.940 2,而CARS-PLSR模型效果最差,其预测集的R2、RMSE和RPD数值分别为0.636 6、0.124 2、1.629 3。对比可知,除CARS外,基于其余两种特征波长选择算法提取的特征波长构建的PLSR模型效果均优于全波长,究其原因,可能是因为CARS选择的特征波长除包含有用信息外,同时也包含噪声信息,未实现最优选择。

表2CARS 、SPA和RFFS选择的特征波长

Table2Characteristic wavelengths selected by CARS, SPA and RFFS

变量筛选方法Variable selection method变量个数No. of variables特征波长Characteristic wavelengths/nmSPA8795.81, 808.34, 811.92, 813.71, 836.98, 878.15, 885.31, 896.05CARS30520.15, 523.73, 536.26, 548.79, 554.16, 568.48, 573.85, 589.96, 591.75, 593.54, 607.86, 618.6, 657.98, 666.93, 697.36, 708.1, 720.63, 727.79, 733.16, 742.11, 745.69, 829.82, 836.98, 840.56, 847.72, 867.41, 869.2, 878.15, 888.89, 896.05RFFS20523.73, 543.42, 545.21, 550.58, 554.16, 573.85, 589.96, 591.75, 593.54, 597.12, 607.86, 616.81, 631.13, 632.92, 686.62, 697.36, 708.10, 733.16, 820.87, 867.41

图4 特征波长点分布Fig.4 Distribution of characteristic wavelength points

表3PLSR建模结果

Table3Result of PLSR models

变量筛选方法Variable selection method变量个数No. of variables建模集Calibration setR2RMSE/(g·kg-1)预测集Prediction setR2RMSE/(g·kg-1)RPD全波长Full sepectra2240.70180.11060.64900.12201.6587SPA80.65810.11840.71650.10971.8447CARS300.67840.11490.63660.12421.6293RFFS200.72250.10670.74330.10431.9402

2.3.2 SVR

从表4的结果可知,基于各特征波长选择算法提取的特征波长构建的SVR模型效果均优于全波长, RFFS-SVR模型的效果最优,SPA-SVR的效果略逊一筹。这可能是因为SPA选择的特征波长过优,部分有用信息被忽视,导致模型效果不佳。

2.3.3 LASSO

从表5可看出,基于各特征波长选择算法提取的特征波长构建的LASSO模型效果同样均优于全波长,且同样以RFFS-LASSO模型的效果最佳,而CARS-LASSO模型效果较差。RFFS-LASSO模型预测集的R2和RPD数值分别达到0.787 1和2.130 1,而RMSE数值低至0.095 0,说明该模型可有效预测土壤TN含量。究其原因,可能是因为RFFS选择的特征波长可能达到了最优,冗余信息较少。

2.4 模型对比

本研究发现,RFFS算法提取的特征波长可作为土壤TN含量的最佳特征波长。研究发现,土壤TN含量的特征波长在500~900 nm有621、820 nm等[23],本文RFFS方法提取的特征波长包含上述波长,说明本研究结果具有一定的可靠性。对比发现,构建的RFFS-LASSO模型预测效果最佳,具有较强的泛化能力,能够准确定量估算土壤TN含量。在所有模型中,LASSO模型的效果整体最优,SVR模型的效果次之,PLSR模型的预测效果相对最差。

表4SVR建模结果

Table4Result of SVR models

变量筛选方法Variable selection method变量个数No. of variables建模集Calibration setR2RMSE/(g·kg-1)预测集Prediction setR2RMSE/(g·kg-1)RPD全波长Full sepectra2240.63010.12320.63470.12451.6254SPA80.64300.12100.67620.11721.7267CARS300.66780.11670.65800.12041.6808RFFS200.74970.10130.77360.09802.0649

基于RFFS-LASSO模型,预测建模集和预测集上的土壤TN含量,并与实际测量值作对比,结果如图5所示,可以看出二者有较好的一致性。

表5LASSO建模结果

Table5Result of LASSO models

变量筛选方法Variable selection method变量个数No. of variables建模集Calibration setR2RMSE/(g·kg-1)预测集Prediction setR2RMSE/(g·kg-1)RPD全波长Full sepectra2240.68580.11350.65760.12051.6794SPA80.73260.10470.71350.11021.8363CARS300.69630.11160.67980.11651.7370RFFS200.78480.09400.78710.09502.1301

a,建模集;b,预测集。a, Calibration set; b, Prediction set.图5 RFFS-LASSO模型预测值和测量值对比Fig.5 Comparison of predictive values of RFFS-LASSO model and measured values

3 小结

本研究以皖北地区采集的115份土壤样本为对象,利用高光谱技术,在室内对过1 mm筛的土壤样本采集光谱数据,对原始光谱进行预处理,选用3种变量筛选方法(RFFS、CARS、SPA)提取特征波长变量,并建立PLSR、SVR和LASSO模型。结果发现,利用RFFS算法提取的特征波长建模的效果最好,可以有效代替全波长下的光谱数据,减少了数据共线性和冗余问题。在各建模方法中,LASSO的建模效果相对最佳。经对比、验证,RFFS-LASSO模型预测土壤TN含量的效果最优,用于估测研究区域土壤TN含量具有良好的可行性。

猜你喜欢
波长光谱建模
基于三维Saab变换的高光谱图像压缩方法
杯中“日出”
高光谱遥感成像技术的发展与展望
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
环境温度和驱动电流对LED的峰值波长的影响
LED峰值波长对多光谱组合白光色参数的影响
求距求值方程建模
基于PSS/E的风电场建模与动态分析
基于GPU的高光谱遥感图像PPI并行优化
苦味酸与牛血清蛋白相互作用的光谱研究