基于变量优选与机器学习的干旱区湿地土壤盐渍化数字制图

2020-12-25 00:56马国林丁建丽韩礼敬张子鹏
农业工程学报 2020年19期
关键词:盐渍化植被指数盐分

马国林,丁建丽,韩礼敬,张子鹏

基于变量优选与机器学习的干旱区湿地土壤盐渍化数字制图

马国林,丁建丽※,韩礼敬,张子鹏

(1.新疆大学资源与环境科学学院 智慧城市与环境建模自治区普通高校重点实验室,乌鲁木齐 830046;2. 新疆大学绿洲生态教育部重点实验室,乌鲁木齐 830046)

土壤盐渍化是导致土壤退化和生态系统恶化的主要原因之一,对干旱区的可持续发展构成主要威胁。为了尽可能精确地监测土壤盐渍化的空间变异性,该研究收集新疆艾比湖湿地78个典型样点,其中选取54个样本作为训练集,24个样本作为独立验证集。基于Sientinel-2 多光谱传感器(Multi-Spectral Instrument,MSI)、数字高程模型(Digital Elevation Model,DEM)数据提取3类指数(红边光谱指数、植被指数和地形指数),经过极端梯度提升(Extreme Gradient Boosting,XGBoost)算法筛选有效特征变量,构建了关于土壤电导率(Electrical Conductivity,EC)的随机森林(Random Forest,RF)、极限学习机(Extra Learning Machine,ELM)和偏最小二乘回归(Partial Least Squares Regression,PLSR)预测模型,并选择最优模型绘制了艾比湖湿地盐渍化分布图。结果表明:优选的红边光谱指数基本能够预测EC的空间变化;红边光谱指数与植被指数组合建模效果总体上优于其与地形指数的组合,3类指数组合的建模取得了较为理想的预测精度,其中RF模型表现最优(验证集2=0.83,RMSE=4.81 dS/m,RPD=3.11);在整个研究区内,中部和东部地区土壤盐渍化程度尤为严重。因此,XGBoost所筛选出的环境因子结合机器学习算法可以实现干旱区土壤盐渍化的监测。

土壤;盐分;数字制图;机器学习;变量优选;Sentinel-2A

0 引 言

土壤盐渍化作为当前的全球性问题,对生态系统的安全与稳定产生严重威胁[1]。在干旱和半干旱地区,除了岩石、矿物、风化产物和土壤中含有较多的可溶性盐外,土壤资源也受到次生盐渍化的威胁[2]。土壤盐分是土壤盐碱化的有效评价指标,其时空范围存在很大差异[3]。这表明只有通过动态监测才能充分了解当前土壤盐碱化的状况,从而为进行有效的土壤修复和土地复垦提供更多的定量信息。

传统的实验室分析费时费力,此外由于时间和空间的巨大差异,很难揭示土壤盐渍化的演变过程和趋势[4]。与传统方法相比,卫星遥感技术在大空间尺度和高时间分辨率下监测土壤盐渍化具有巨大优势。作为新一代的星载多光谱仪(Multi-Spectral Instrument,MSI),Sentinel-2A(S2)卫星可测量443~2 190 nm的13个波谱带,覆盖可见光和近红外波段,最高分辨率为10 m,其新颖的光谱功能(即3个红边带和2个近红外波段)为各种土壤信息的监测提供了广阔的应用前景[5]。目前已有相关学者使用S2数据构建相关的盐度指数进行土壤盐分的建模预测[6],取得了良好的预测精度,但尚未充分挖掘红边波段与其他环境因子(植被覆盖、地形)在土壤盐分预测中的作用。

土壤是具有高度变异的时空连续体,在发育成土过程中成土因子对其的作用是非线性的,在较大区域中对土壤属性的非线性作用更加明显,而机器学习与数据挖掘技术能够有效解决土壤与环境因子之间非线性的问题[7]。基于树的模型是最常见的机器学习算法,主要包括分类回归树(Classification And Regression Tress,CART)[8]、随机森林(Random Forest,RF)[9]和增强回归树(Boosted Regression Tress,BRT)[10]。已用于土壤数字制图的其他机器学习算法还包括人工神经网络(Artificial Neural Networks,ANN)[11]、支持向量机(Support Vector Machines,SVM)[12]和极限学习机(Extreme Learning Machine,ELM)[13]等。但是为特定的景观选择最佳的建模技术一直是数字土壤制图的挑战。

已有研究表明,盐分指数、植被指数、地形因素等环境变量能够为土壤盐渍化监测提供有效的辅助信息[14]。不同类型的环境变量虽能从不同的角度表征土壤盐分的变化,但这些辅助信息大都可以通过波段运算得到,存在不同程度的信息冗余[15]。目前在进行建模特征变量优选时,部分学者采用Pearson相关分析筛选与土壤盐分(Soil Salt Content,SSC)或土壤电导率(Electric Conductivity,EC)显著相关的因子用于土壤盐渍化的制图研究[2,9]。Pearson相关性分析的本质是一种线性关系,忽略了预测变量与目标变量之间的非线性关系[16]。王飞等[17]使用循环迭代的方法对变量进行优选,相较于全变量,优选之后的模型精度和稳定性得到显著提升,但这种方法进行变量优选时会耗费大量的时间。相较于上述变量优选方法,极端梯度提升(Extreme Gradient Boosting,XGBoost)可以有效的构造增强树并运行、并行计算、近似建树以及对稀疏数据进行有效处理[18]。同时,该算法也借鉴了随机森林的特征采样做法,在对弱学习器进行训练时,只考虑随机抽样特征的子数据集,增加了模型的多样性,避免过拟合,也减少了模型的计算量,有效提高了对输入特征变量重要性最优解的效率[19]。XGBoost因其强大的优化能力,已被广泛应用于各领域,却鲜见于土壤盐渍化建模特征变量优选中,其适用性有待验证。

基于此,本文拟以新疆艾比湖湿地为研究区,使用Sentinel-2A、高程数据提取3类(红边光谱指数、植被指数、地形因子)共61个与盐渍化相关的因子作为环境变量,并结合EC采样数据,采用XGBoost算法优选环境变量,利用优选之后的红边光谱指数、红边光指数与植被指数、红边光谱指数与地形指数以及3类指数的组合构建RF、PLSR和ELM 3种盐渍化预测模型,优选出艾比湖保护区最佳土壤盐渍化制图方案,以期实现对旱区湿地土壤盐渍化分布特征更为精细的刻画,为干旱区湿地的土地可持续利用和生态保护提供科学依据。

1 试验数据与方法流程

1.1 研究区概况

艾比湖湿地自然保护区位于新疆维吾尔自治区博尔塔蒙古自治州境内,地理位置43°38′~45°52′N,79°53′~85°02′E之间(图1)。研究区主要土地利用类型包括水体、湿地、荒漠和其他类型。受低平的地形(海拔189 m)、特定的气候特征和浅层地下水位的影响,研究区的土壤盐渍化问题严重。近年来,由于艾比湖人口的激增、土地的大规模开发利用,致使湖面缩小,土壤盐渍化不断恶化,严重威胁着当地生态系统的安全与社会经济的可持续发展。

图1 研究区及采样点分布

1.2 土壤样品采集及预处理

野外土壤调查于2019年5月25日至5月29日进行,采样过程的调查路线是依据车辆对潜在样点的可达性而设计的。根据之前的实地调查经验,结合现有的数字土壤图(土壤类型、质地等特征)和当地主要的土地利用/覆盖类型,总共选择了78个具有代表性的采样点(图1)。研究区的主要农作物为棉花,其他植被主要有胡杨、柽柳、盐节木、碱蓬、芦苇等,其中裸地设计采样点23个,草地22个,林地18个、耕地15个。在各采样点10 m×10 m样方内使用木铲采集4个样本,采样深度为10 cm,并在现场进行混合以创建代表性的复合样本,使用便携式GPS(UniStrong G120,误差小于5 m)记录每个采样点的位置。尽管GPS定位精度水平不理想,但可以在四边形采样样方和遥感影像像素之间提供合理的位置对准[5]。将土壤放入密封的防水袋中并贴上标贴,以备进行近一步的化学分析。将所有样品风干、研磨(玛瑙体)、均质并过0.15 mm筛。每20 g土壤样品中加入100 ml蒸馏水,并充分震荡30 min后,静置24 h,然后通过配备有复合电极(TetraCon 925)的数字多参数测量设备(Multi 3420 Set B,WTW GmbH,德国)在室温25℃下提取渗滤液以测量土壤电导率[5]。

1.3 遥感影像获取及预处理

Sentinel-2A卫星于2015年发射,承担着全球环境与安全监测的重要任务,其幅宽达290 km,重访周期为10 d,影像的最高分辨率为10 m,相关参数请见官网。本次研究中从欧洲航天局哥白尼开放访问中心(https://scihub.copernicus.eu/)获取到两张以UTM/WGS84投影的无云Sentinel-2多光谱卫星的Level-1C级影像数据,成像时间为2019年5月28日。遥感影像数据已经过辐射校正和几何处理的Level-1C大气上层表观反射率。利用配套处理软件SNAP和Sen2Cor插件进行大气校正,将大气上层表观反射率转换为大气层底部反射率值。在此步骤中,分辨率为60 m的波段(波段1、波段9和10)主要用于监测大气特征,因此不包括在后续研究中。为了尽可能多的保留信息,每个预处理光谱带的镶嵌图以10 m的空间分辨率进行创建。

1.4 环境协变量

地形数据是数字土壤制图研究中最常用的地表参数,地形条件在盐分布和重新分布中起着重要作用,坡陡的地形有利于盐分的淋移,而低洼的地形却有利于盐分的积累[20]。本研究从地理空间数据云(http://www.gscloud.cn/)获取了空间分辨率为30 m的研究区DEM数据,并重采样成10 m的分辨率,使用SAGA GIS软件计算了15种地形指数,见表1。在土壤盐渍化监测中,植被是影响预测精度的关键因素之一,虽然植被会遮蔽土壤信息,但是在高植被覆盖下,植被指数对土壤盐分的变化更加敏感[21]。已通过遥感影像计算了部分植被指数,见表2。在遥感影像上,由于盐渍化土壤的蓝、绿、红和近红外的光谱特性不同,因此相关学者开发了各种盐度指数用于土壤盐渍化的监测与制图[22]。然而目前构建的指数大都集中于可见光与近红外波段,在短波近红外和红边光谱带中研究较少,Sentinel-2特有的3个红边光谱带为改善土壤盐分监测提供了新的机遇。本研究计算了33个红边光谱指数,见表3。

表1 地形指数

表2 植被指数及其计算公式

注:为Sentinel-2A波段反射率,下标数字为各波段编号,下同。

Note:is reflectivity of Sentinel-2A waveband, and the subscript number is the number of each band, same as below.

表3 红边光谱指数及其计算公式[5]

1.5 环境变量优选

在土壤盐渍化制图中,并不是所有的环境因子都是参与建模的重要变量,其对EC预测的贡献也存在差异[32]。XGBoost模型是高级的树增强系统,它是Friedman[33]开发的梯度增强方法的改进,与梯度提升回归树算法相比,它不再使用一阶导数,而是基于二阶泰勒公式展开,其通过许多加法函数进行预测:

式中为第棵树的叶子树,为叶子权值,从1到,是控制树结构的简单性以避免过拟合的正则化参数。参数GH分别是损失函数的第一和第二梯度的第个叶相关样本的总和。

式(4)中GH与左叶相关,GH在分裂后与右叶相关。如果增益参数优于0,则接受分裂。因此,增加正则化参数和降低增益参数,从而避免叶分裂的复杂性,即保持树结构的简单性,但同时也会降低模型对训练数据的拟合能力。

1.6 预测模型及评价

随机森林(RF)是一种包含多棵决策树,输出类别由个别树输出的类别众数而决定的分类回归模型。RF不需要关于响应协变量关系的分布假设,Bagging算法确保了模型的性能,该过程允许对模型泛化能力进行统计上的可靠估算,并不存在过度拟合的风险[19]。在Python3.7语言中,RF通过Sklearn机器学习库实现(决策树数量n_estimators = 41)。极限学习机(ELM)模型是发展于单隐含层前馈神经网络的新型算法,是为快速训练而设计的单层前馈神经网络算法[34]。ELM以学习力迅速、泛化性突出、参数设置便捷等优点弥补传统神经网络中出现时间训练时间过长、学习率敏感等不足的缺点(本文中隐含层Hidden nodes=16)。偏最小二乘回归(PLSR)结合了主成分分析、多元线性回归分析和典型相关分析方法的特点,是一种新型的数据分析方法。PLSR建立的模型具有更好的鲁棒性,避免过拟合,为多元统计分析提供了极大便利[35]。

利用Python3.7编程语言中机器学习库Sklearn模块中train_test_split函数随机划分出70%(=54)的建模集和30%(=24)的验证集,并用random_state函数固定选中的数据集。为了评估基于 RF、ELM 和 PLSR 3种预测模型的性能,本文选取决定系数(2)、均方根误差(Root Mean Square Error,RMSE)和相对分析误差(Ratio of Performance to Deviation,RPD)来客观评价预测建模的效果和性能。其中,2值越大,模型的精度越高;RMSE 表示预测能力,其大小与2成反比。RPD作为一种预测指标也已广泛应用于评估预测模型的准确性中。当RPD≥2.5表示模型具有极佳预测能力,2.0≤RPD<2.5之间表示模型预测效果较好,1.7≤RPD<2.0表示模型预测能力一般,1.4≤RPD<1.7表示预测结果较差,RPD<1.4表示预测模型不可信[36]。

2 结果与分析

2.1 土壤EC统计特征分析

在整个研究区内EC的变化很大,整个数据集的EC在0.25~39.8 dS/m 之间变化。建模集和验证集的均值分别为10.27和11.97 dS/m,变异系数分别为0.96和0.81,全样本的均值为10.79 dS/m,变异系数为0.91,为中等变异。全样本的均值和变异系数均介于验证集和建模集之间,表明样本划分合理。

2.2 不同土壤EC的光谱反射率

为了可视化不同盐度的土壤样品与Sentinel-2A各波段反射率之间的关系,根据土壤盐渍化程度划分标准,绘制了不同盐度水平区间和光谱反射率均值的光谱曲线(图2)。

图2 研究区不同电导率土壤的反射光谱曲线

如图2所示,从非盐土(0.73 dS/m,最低反射率)到盐土(24.58 dS/m,最高反射率),土壤样品的反射率随着土壤盐分的增加而增加。不同土壤样品的电导率光谱反射率曲线非常相似,从可见光到近红外波段,尤其是从蓝光到近红外波段(B2-B8a)急剧增加,并在短波近红外波段1(B11)处达到最大值,从短波近红外波段1到短波近红外波段2(B12)反射率降低。但值得注意的是在短波近红外波段2中,不同EC水平和相应光谱特征之间的规律不太明显(图2),这与El Harti等[37]的发现是一致的。

2.3 环境变量优选

使用五折交叉验证方法训练XGBoost算法计算特征属性重要性,采用默认参数,以尽可能减少人为因素的影响,特征值小于0.01时无统计学意义,在本次研究中将重要性小于0.01的环境变量全部予以剔除[38]。本文在Python3.7 中通过XGBoost库进行环境变量进行筛选。在15个地形指数中,LSF的重要性为38.38%,其次是CA(重要性27.27%),而CI、VD、RSP、AS、DEM、PC、PrC的重要性小于0.01,因此不参与建模。在13个植被指数中, MAVI的重要性为32.7%,RVI和IPVI的重要性小于0.01,因此剔除这2个植被指数。在33个红边光谱指数中,RESI62、RESI61、RESI13、RESI12、RESI36、RESI34、REII16、REII13、RESI14的重要性都为小于0.01,全部剔除,重要性最大的指数是RENDSI2。至此,在3种指数中,共筛选出了8个地形指数、11个植被指数、24个红边光谱指数参与本次建模。图3为筛选后指数及其重要性。

图3 优选变量及其重要性

2.4 建模评价

利用红边光谱指数、红边光谱指数与地形指数、红边光谱与植被指数以及三者的组合分别作为输入变量,以土壤电导率为目标变量,建立了RF、ELM和PLSR 3种模型,利用独立的验证数据集来验证模型的预测能力。结果表明,仅利用红边光谱指数所建立的估算模型中,RF模型的效果最好(验证集2=0.63, RMSE=7.14 dS/m, RPD =2.09),根据验证标准,具有较好的预测能力,而ELM预测效果较差。在红边光谱指数分别与地形指数、植被指数组合所建立的预测模型中,红边光谱指数与植被指数组合所建立模型的效果优于其分别与地形指数的组合,在其与植被指数组合所建立的模型中,RF模型的验证集2为0.76,RMSE为5.36 dS/m,RPD 为2.79。此外,3种指数的组合建立的模型预测效果都优于其与地形指数和植被指数的组合。对比3种模型验证集2、RMSE和RPD 可知,RF的预测效果最佳,2为0.83,RMSE为4.81 dS/m,RPD 为3.11,ELM次之,2为0.78,RMSE为5.19 dS/m,RPD 为2.88,PLSR的效果最差。此外,随着输入特征变量的增加,不同模型的预测精度都有不同程度的增加(表4)。总之,在3种建模方法中,RF的预测性能和效果都优于其他2个模型(表4)。

表4 3种建模方法预测结果比较

2.5 土壤盐分空间分布特征

利用选取的最优变量组合(Spectral index+ Topographic index + Vegetation Index)和最佳模型(RF)绘制了艾比湖湿地土壤盐渍化空间分布图(图4)。依据土壤盐渍化等级划分标准,将研究区土壤样本划分为5类:EC<2 dS/m 为非盐渍土,2≤EC<4 dS/m 为轻度盐渍化,4≤EC<8 dS/m 为中度盐渍化,8≤EC<16 dS/m为重度盐渍化,EC≥16 dS/m为盐渍土[39]。从图中(图4)可以看出,土壤盐分从研究区的中心到边缘逐渐降低。受地形影响,盐碱化程度最低的区域大部分位于研究区北部,而盐渍化程度最高的地区位于艾比湖的中部和东部地区。

图4 土壤盐渍化分布图

3 讨 论

本研究中预测准确性的比较表明,机器学习算法的选择以及环境变量的类型和组合对EC的预测性能有很大的影响(表4)。总体而言,RF模型的表型优于其他2个预测模型,这与Wang等[40]的研究结果相似。在3个研究地点(德国,比利时,卢森堡),Castaldi等[41]利用不同类型的遥感影像进行土壤性质的预测,发现遥感数据的类型、预测模型的选择以及研究区域对预测精度有影响。此外,以前的研究中也存在不一致之处,厉彦玲等[42]使用环境一号卫星(HSI)高光谱卫星和Lansat8多光谱卫星2种不同传感器的影像进行融合,构建了多元线性回归(MLR)、PLSR、RF、BP神经网络和支持向量机(SVM)5种模型对黄河三角洲的土壤盐分进行反演,结果表明BP神经网络模型的预测效果要优于其他模型。基于此,没有一个模型在所有情况下都能达到最佳效果,因此,我们建议使用特定的实验数据集来校准模型。

各种光谱传感器使用地面目标反射的光谱信息来监测目标信息,与不同盐度的目标土壤相关的不同光谱特征也为表土盐度监测奠定了基础[40]。盐渍化程度最高的区域通常覆盖着白色盐壳,这解释了几乎在每个波段中土壤盐分增加时土壤样品的光谱反射率增加(图2)。这使得可以将光谱指数用于土壤盐度监测和制图,在大范围远程监测土壤盐渍化过程中具有重要作用[2]。地形是土壤形成中最重要的因素之一,基于DEM的地形变量通常被用作数字化土壤制图的关键因子。地形控制着溶质、水和沉积物的流动,进而影响土壤的发育和土壤特性的空间分布[43]。在本次研究中,VD、RSP、PrC、PC、DEM、CI、AS重要性小于0.01,未参与建模,这可能主要是由于研究区地形相对平坦。此外,该地区降雨产生的地表径流有限,大大削弱了地形因素对盐分再分配的影响[40]。土壤性质与植被覆盖之间有着密切的关系,而植被指数可以捕捉到土壤性质的变化。蒙莉娜等[9]的研究表明,植被指数和遥感反射率是预测土壤性质的重要指标。在33个红边光谱指数中,有将近73%的指数参与了建模。建模结果也表明,在加入了植被指数之后,3种建模方法效果和稳定性都优于其与地形指数参与的建模效果。值得注意的是,植被指数和盐度光谱指数在全世界范围内的盐度监测中均显示出较高的预测精度[5]。此外,植被指数和盐度光谱指数对土壤盐分的响应受许多因素影响,并没有通用的光谱指数在任何环境条件下都能显示出良好的预测精度[2]。

利用RS技术实现对土壤盐渍化的监测,盐度不是影响土壤光谱特征的唯一因素,土壤水分、土壤质地和植被是影响监测精度的关键因素,由于植被覆盖率、土壤水分和土壤质地会发生可变误差,对土壤盐分制图将会产生一定的影响[5]。在未来的研究中,将尝试通过增加采样点和先进的采样策略增加样本量,同时也适当的增加环境协变量,以减少不确定性并做出更可靠地预测,制作更为精细的土壤盐渍化监测图。

4 结 论

本研究利用Sentinel-2A影像构建了红边光谱指数和植被指数,并辅以地形指数,使用XGBoost模型剔除无效变量,建立了RF、ELM和PLSR 3种土壤盐渍化预测模型,并利用最佳模型进行了土壤盐渍化制图,为进一步监测干旱、半干旱地区土壤盐渍化选择有效环境变量,提高土壤盐渍化制图精度提供了一定基础。主要结论如下:

1)在不同水平的土壤电导率下相应光谱反射特征的变化表明,土壤含盐量越高,光谱反射越强烈,并在短波近红外波段1(B11)处达到最大值。

2)优选的红边光谱指数基本可以实现对土壤盐分的预测,仅用优选的红边光谱指数建立的RF模型预测精度(验证集2=0.63,RMSE=7.14 dS/m,RPD=2.09)优于其他2个模型。此外,随着特征变量(地形指数和植被指数)的加入,3个模型的预测精度和稳定性都有不同程度的增加和改善。

3)3类变量组合建模取得了良好的预测精度,其中RF的预测精度和稳定性最佳(验证集2=0.83,RMSE=4.81 dS/m,RPD=3.11),并利用其进行了土壤盐渍化制图。盐渍化严重的地区主要分布在艾比湖东部和中部地区,北部地区盐渍化程度较低。

[1] Dehaan R, Taylor G R. Image-derived spectral endmembers as indicators of salinisation[J]. International Journal of Remote Sensing, 2003, 24(4): 775-794.

[2] Peng Jie, Biswas A, Qing Songjiang, et al. Estimating soil salinity from remote sensing and terrain data in southern Xinjiang Province, China[J]. Geoderma, 2019, 337: 1309-1319.

[3] Ma Ziqiang, Xu Yaping, Peng Jie, et al. Spatial and temporal precipitation patterns characterized by TRMM TMPA over the Qinghai-Tibetan plateau and surroundings[J]. International Journal of Remote Sensing, 2018, 39(11/12): 3891-3907.

[4] Ding Jianli, Yu Danlin. Monitoring and evaluating spatial variability of soil salinity in dry and wet seasons in the Werigan-Kuqa Oasis, China, using remote sensing and electromagnetic induction instruments[J]. Geoderma, 2014, 235: 316-322.

[5] Wang Jingzhe, Ding Jianli, Yu Danlin, et al. Capability of Sentinel-2 MSI data for monitoring and mapping of soil salinity in dry and wet seasons in the Ebinur Lake region, Xinjiang, China[J]. Geoderma, 2019, 353: 172-187.

[6] Nesa Farahmand, Vahid Sadeghi. Estimating soil salinity in the dried lake bed of Urmia lake using optical Sentinel-2 images and nonlinear regression models[J]. Journal of the Indian Society of Remote Sensing, 2020, 48(4): 675-687.

[7] 朱阿兴,杨琳,樊乃卿,等. 数字土壤制图研究综述与展望[J]. 地理科学进展,2018,37(1):66-78.

Zhu Axing, Yang Lin, Fan Naiqing, et al. The review and outlook of digital soil mapping[J]. Progress in Geography, 2018, 37(1): 66-78. (in Chinese with English abstract)

[8] 张天柱,张凤荣,黄敬文,等. 工业化区域撂荒耕地空间格局演变及影响因素分析[J]. 农业工程学报,2019,35(15):246-255.

Zhang Tianzhu, Zhang Fenrong, Huang Jinwen, et al. Spatial pattern evolution of abandoned arable land and its influencing factor in industrialized region[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(15): 246-255. (in Chinese with English abstract)

[9] 蒙莉娜,丁建丽,王敬哲,等. 基于环境变量的渭干河-库车河绿洲土壤盐分空间分布[J]. 农业工程学报,2020,36(1):175-181.

Meng Lina, Ding Jianli, Wang Jingzhe, et al. Spatial distribution of soil salinity in Ugan-Kuqa River delta oasis based on environmental variables[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 36(1): 175-181. (in Chinese with English abstract)

[10] 韩逸,江叶枫,郭熙,等. 基于增强回归树的鄱阳湖平原区耕地土壤钾素空间变异影响因素研究[J]. 植物营养与肥料学报,2020,26(4):622-634.

Han Yi, Jiang Yefeng, Guo Xi, et al. Study on the factors influencing the spatial variability of soil potassium in cultivated land in Poyang Lake Plain based on boosted regression tree[J]. Journal of Plant Nutrition and Fertilizers, 2020, 26(4): 622-634. (in Chinese with English abstract)

[11] 刘全明,成秋明,王学,等. 河套灌区土壤盐渍化微波雷达反演[J]. 农业工程学报,2016,32(16):109-114.

Liu Quanming, Cheng Qiuming, Wang Xue, et al. Soil salinity inversion in Hetao Irrigation district using microwave radar[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(16): 109-114. (in Chinese with English abstract)

[12] 陈红艳,赵庚星,陈敬春,等. 基于改进植被指数的黄河口区盐渍土盐分遥感反演[J]. 农业工程学报,2015,31(5):107-114.

Chen Hongyan, Zhao Gengxing, Chen Jingchun, et al. Remote sensing inversion of saline soil salinity based on modified vegetation index in estuary area of Yellow River[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(5): 107-114. (in Chinese with English abstract)

[13] 姚志华,陈俊英,张智韬,等. 覆膜对无人机多光谱遥感反演土壤含盐量精度的影响[J]. 农业工程学报,2019,35(19):89-97.

Yao Zhihua, Chen Junying, Zhang Zhitao, et al. Effect of plastic film mulching on soil salinity inversion by using UAV multispectral remote sensing[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(19): 89-97. (in Chinese with English abstract)

[14] Allbed A, Kumar L, Aldakheel Y Y. Assessing soil salinity using soil salinity and vegetation indices derived from IKONOS high-spatial resolution imageries: Applications in a date palm dominated region[J]. Geoderma, 2014(230/231): 1-8.

[15] Zhou Tao, Lu Huiling, Wang Wenwen, et al. GA-SVM based feature selection and parameter optimization in hospitalization expense modeling[J]. Applied Soft Computing, 2019, 75: 323-332.

[16] 徐红涛,陈春波,郑宏伟,等. 基于相关分析和自适应遗传算法的盐渍化建模变量和参数优选[J]. 地球信息科学学报,2020,22(7):1497-1509.

Xu Hongtao, Chen Chunbo, Zheng Hongwei, et al. Correlation analysis and adaptive genetic algorithm based feature subset and model parameter optimization in salinization monitoring[J]. Journal of Geo-information Science, 2020, 22(7): 1497-1509. (in Chinese with English abstract)

[17] 王飞,杨胜天,丁建丽,等. 环境敏感变量优选及机器学习算法预测绿洲土壤盐分[J]. 农业工程学报,2018,34(22):102-110.

Wang Fei, Yang Shengtian, Ding Jianli, et al. Environmental sensitive variable optimization and machine learning algorithm using in soil salt prediction at oasis[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(22): 102-110. (in Chinese with English abstract)

[18] 田美玲,葛翔宇,丁建丽,等. 耦合机器学习和机载高光谱数据的土壤含水量估算[J]. 激光与光电子学进展,2020,57(9):093002.

Tian Meiling, Ge Xiangyu, Ding Jianli, et al. Coupled machine Learning and UAV-based hyperspectral imagery for soil water content estimation[J]. Laser & Optoelectronics Progress, 2020, 57(9): 093002. (in Chinese with English abstract)

[19] 邹玉江. 基于机器学习的沪深300指数走势预测研究[D].济南:山东大学,2018.

Zou Yujiang. The Study of HS300 Index Predition Based Machine Learning[D]. Jinan: Shandong Uiniversity, 2018. (in Chinese with English abstract)

[20] Taghizadeh-Mehrjardi R, Minasny B, Sarmadian F, et al. Digital mapping of soil salinity in Ardakan region, central Iran[J]. Geoderma, 2014, 213: 15-28.

[21] Zhang Tingting, Zeng Shenglan, Gao Yu, et al. Using hyperspectral vegetation indices as a proxy to monitor soil salinity[J]. Ecological Indicators, 2011, 11(6): 1552-1562.

[22] Meng Ling, Zhou Shiwei, Zhang Hua, et al. Estimating soil salinity in different landscapes of the Yellow River Delta through Landsat OLI/TIRS and ETM+ Data[J]. Journal of Coastal Conservation, 2016, 20(4): 271-279.

[23] Tucker C J. Red and photographic infrared linear combinations for monitoring vegetation[J]. Remote Sensing of Environment, 1979, 8(2): 127-150.

[24] Frampton W J, Dash J, Watmough G, et al. Evaluating the capabilities of Sentinel-2 for quantitative estimation of biophysical variables in vegetation[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2013, 82: 83-92.

[25] 易秋香. 基于 Sentinel-2 多光谱数据的棉花叶面积指数估算[J]. 农业工程学报,2019,35(16):189-197.

Yi Qiuxiang. Remote estimation of cotton LAI using Sentinel-2 multispectral data[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(16): 189-197. (in Chinese with English abstract)

[26] Qi J, Chehbouni A, Huete A R, et al. A modified soil adjusted vegetation index[J]. Remote Sensing of Environment, 1994, 48(2): 119-126.

[27] Jordan C F. Derivation of leaf-area index from quality of light on the forest floor[J]. Ecology, 1969, 50(4): 663-666.

[28] Huete A R. A soil-adjusted vegetation index (SAVI)[J]. Remote Sensing of Environment, 1988, 25(3): 295-309.

[29] Gitelson A A, Kaufman Y J, Merzlyak M N. Use of a green channel in remote sensing of global vegetation from EOS-MODIS[J]. Remote Sensing of Environment, 1996, 58(3): 289-298.

[30] Huete A, Didan K, Miura T, et al. Overview of the radiometric and biophysical performance of the MODIS vegetation indices[J]. Remote Sensing of Environment, 2002, 83(1/2): 195-213.

[31] Daughtry C, Walthall C, Kim M, et al. Estimating corn leaf chlorophyll concentration from leaf and canopy reflectance[J]. Remote Sensing of Environment, 2000, 74(2): 229-239.

[32] 张振华,丁建丽,王敬哲,等. 集成土壤-环境关系与机器学习的干旱区土壤属性数字制图[J]. 中国农业科学,2020,53(3):563-573.

Zhang Zhenghua, Ding Jianli, Wang Jingzhe, et al. Digital soil properties mapping by ensembling Soil-Environment Relationship and Machine Learning in Arid Regions[J]. Scientia Agricultura Sinica, 2020, 53(3): 563-573. (in Chinese with English abstract)

[33] Friedman J H. Greedy function approximation: A gradient boosting machine[J]. Annals of Statistics, 2001, 29(5): 1189-1232.

[34] Huang Gao, Huang Guangbin, Song Shiji, et al. Trends in extreme learning machines: A review[J]. Neural Networks, 2015, 61: 32-48.

[35] 薛利红,周鼎浩,李颖,等. 不同利用方式下土壤有机质和全磷的可见近红外高光谱反演[J]. 土壤学报,2014,51(5):993-1002.

Xue Lihong, Zhou Dinghao, Li Yin, et al. Prediction of soil organic matter and total phosphorus with Vis-NIR hyperspectral inversion relative to land use[J]. Acta Pedologica Sinica, 2014, 51(5): 993-1002. (in Chinese with English abstract)

[36] Chang C W, Laird D A, Mausbach M J, et al. Near-infrared reflectance spectroscopy-principal components regression analyses of soil properties[J]. Soil Science Society of America Journal, 2001, 65(2): 480-490.

[37] El Harti Abderrazak, Lhissou Rachid, Chokmani Karem, et al, Spatiotemporal monitoring of soil salinization in irrigated Tadla Plain (Morocco) using satellite spectral indices[J]. International Journal of Applied Earth Observations and Geoinformation, 2016, 50: 64-73.

[38] Zamani M. PM2.5 Prediction based on random forest, XGBoost, and deep learning using multisource remote sensing data[J]. Atmosphere, 2019, 10(7), 373.

[39] Wang Jingzhe, Ding Jianli, Yu Danlin, et al. Machine learning-based detection of soil salinity in an arid desert region, Northwest China: A comparison between Landsat-8 OLI and Sentinel-2 MSI.[J]. The Science of the Total Environment, 2020, 707: 136092.

[40] Wang Sijia, Chen Yunhao, Wang Mingguo, et al. Performance comparison of machine learning algorithms for

Estimating the soil salinity of salt-affected soil using field spectral data[J]. Remote Sensing, 2019, 11(22): 2605.

[41] Castaldi F, Hueni A, Chabrillat S, et al. Evaluating the capability of the Sentinel 2 data for soil organic carbon prediction in croplands[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2019, 147: 267-282.

[42] 厉彦玲,赵庚星,常春艳,等. OLI 与 HSI 影像融合的土壤盐分反演模型[J]. 农业工程学报,2017,33(21):173-180.

Li Yanling, Zhao Gengxing, Chang Chunyan, et al, Soil salinity retrieval model based on OLI and HSI image fusion[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(21): 173-180. (in Chinese with English abstract)

[43] Ibrahim Yahiaoui, Abdelkader Douaoui, Zhang Qiang, et al. Soil salinity prediction in the Lower Cheliff plain (Algeria) based on remote sensing and topographic feature analysis[J]. Journal of Arid Land, 2015, 7(6): 794-805.

Digital mapping of soil salinization in arid area wetland based on variable optimized selection and machine learning

Ma Guolin, Ding Jianli※, Han Lijing, Zhang Zipeng

(1.830046,; 2.,830046,)

As a global problem, soil salinization poses a serious threat to the limited soil resources and ecosystem health in arid and semi-arid areas, and is one of the most important causes of land desertification and land degradation. Soil salinity is an effective evaluation index of soil salinization, and there is temporal and spatial difference. Dynamic monitoring can fully understand the status of soil salinization and effectively provide more quantitative information for soil restoration and land reclamation. Compared with traditional laboratory analysis, satellite remote sensing technology has major advantages in observing the ground at large spatial scales and high temporal resolution. As a new generation of spaceborne multi-spectral instrument (MSI), Sentinel-2A has novel spectral functions (namely, three red-edge bands and two near-infrared bands), which provides a broad prospect for quantitative evaluation of soil properties. At present, only a few studies were associated with red edge spectral index, vegetation index and topographic index in soil salinization mapping, and it has become a great challenge to choose the best modeling technology in soil mapping for a specific landscape area, although many algorithm have been successfully applied in the prediction of soil properties. Therefore, in this study, we used Sentinel-2A red-edge bands, vegetation indexes and digital elevation model (DEM) derived variables to conduct soil salt analysis based on machine learning methods in the Ebinur Lake wetland in the northwestern Xinjiang of China. 24 red edge spectral indices, 11 vegetation indices and 8 topographic indices were selected to participate in the modeling by the XGBoost algorithm, and the Random Forest (RF), Extreme Learning Machine (ELM) and Partial Least Squares Regression (PLSR) three machine learning models based on 78 sampling sites were applied to extract soil Electrical Conductivity (EC). The coefficient of determination (2), root mean square error (RMSE) and ratio of performance to deviation (RPD) were used to evaluate the prediction accuracy of the above models. The results showed that the optimal red edge spectral index combined with RF could basically predict EC. The verification set2, RMSE, and RPD were 0.63, 7.14 dS/m, and 2.09, respectively. The prediction accuracy of the combined modeling of the red edge spectral index and the vegetation index is better than that of the combination with the terrain index, and the prediction effect of the RF model was better than that of ELM and PLSR, and its training set (2=0.83, RMSE=4.84 dS/m), validation set (2=0.76, RMSE=5.36 dS/m, RPD=2.79). The prediction accuracy of the combined modeling of the red edge spectral index, vegetation index and terrain index combined with RF reached the best. The2, RMSE and RPD of the verification set were 0.83, 4.81 dS/m and 3.11, respectively. In addition, with the continuous increase of input feature variables, the prediction effect of each model were improved to varying degrees. Soil salinization mapping based on the optimal variable combination (red edge spectral index + terrain index + vegetation index) and the best prediction model (RF), showed that the degree of soil salinization in the central and eastern regions was particularly serious in the study area.

soils; salts;digital mapping; machine learning; variable selection; Sentinel-2A

马国林,丁建丽,韩礼敬,等. 基于变量优选与机器学习的干旱区湿地土壤盐渍化数字制图[J]. 农业工程学报,2020,36(19):124-131.doi:10.11975/j.issn.1002-6819.2020.19.014 http://www.tcsae.org

Ma Guolin, Ding Jianli, Han Lijing, et al. Digital mapping of soil salinization in arid area wetland based on variable optimized selection and machine learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(19): 124-131. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2020.19.014 http://www.tcsae.org

2020-06-14

2020-09-20

国家自然科学基金项目(41961059,41771470)

马国林,主要从事陆地遥感研究。Email:15894636407@163.com

丁建丽,教授,博士生导师,主要从事干旱区环境演变与遥感应用方面的研究。Email:watarid@xju.edu.cn

10.11975/j.issn.1002-6819.2020.19.014

S153

A

1002-6819(2020)-19-0124-08

猜你喜欢
盐渍化植被指数盐分
蔬菜大棚土壤盐渍化成因及防治措施
基于无人机图像的草地植被盖度估算方法比较
土地质量地球化学调查成果在判定土壤盐渍化、沙化中的应用
宁夏中部压砂区表层土壤离子分布及盐分类型预测
冬小麦SPAD值无人机可见光和多光谱植被指数结合估算
近10年新疆不同程度盐渍化耕地的时空变化特征*
滴灌条件下盐渍土盐分淡化区形成过程中离子运移特征
1989—2019 年宁夏银北灌区土壤盐渍化时空变化分析
海水这么咸的原因
摄影欣赏