基于机器学习的植烟区土壤有机质和全氮含量预测

2022-08-19 14:55刘洪斌
烟草科技 2022年8期
关键词:灰岩因子预测

张 鑫,杨 超,刘洪斌,武 伟

1. 西南大学资源环境学院,重庆市北碚区天生路2号 400715

2. 重庆市烟草科学研究所,重庆市北碚区天生路2号 400715

3. 西南大学计算机与信息科学学院,重庆市北碚区天生路2号 400715

土壤是烟草生长的物质基础。作为土壤性质的关键指标,土壤有机质(Soil organic matter,SOM)和土壤全氮(Soil total nitrogen,STN)受到母质、气候、植被、地形和人类活动的影响而具有高度的空间异质性[1-2]。此外,SOM和STN含量(质量分数)对土壤肥力和烟草植株的生长发育至关重要[3-8]。因此,明确SOM和STN含量及其空间分布,对烟区土壤肥力评估和养分管理有重要意义。近年来,随着信息技术的快速发展,机器学习算法如随机森林(Random Forest,RF)、梯度提升决策树(Gradient Boosting Decision Tree,GBDT)和极端梯度提升(Extreme Gradient Boosting,XGBoost)由于模型参数较少,计算简单且不容易过拟合而被广泛应用于土壤属性空间分布预测与制图研究中[9-12]。卢宏亮等[13]利用RF模型对安徽省土壤有机碳、土壤容重和土壤黏粒含量进行了空间分布预测和制图。郭澎涛等[14]基于多源环境变量并使用RF算法对海南岛橡胶园土壤全氮含量进行预测,预测值与实际测定结果接近。Ottoy等[15]比较了多种机器学习模型对土壤有机碳含量的预测性能,发现GBDT模型预测精度最佳。Chen等[16]通过使用RF和XGBoost混合模型对全中国表层土壤pH进行预测并取得了较好效果。然而使用机器学习方法在烟区进行SOM和STN含量预测和制图还鲜有报道。重庆市巫山县笃坪乡是重要的烟叶产区之一,具备发展优质烟叶的气候和土壤条件。目前,该区域SOM和STN含量的空间变化情况及主导环境因子仍不清楚。为此,比较了RF、GBDT和XGBoost模型对SOM和STN含量的预测性能,并基于最优模型进行SOM和STN含量预测和制图,旨在确定影响SOM和STN含量空间变化的主要环境因素。

1 材料和方法

1.1 研究区概况

研究区位于重庆市巫山县笃坪乡,地理坐标为110°1′~110°10′E,30°49′~30°59′N,总面积132 km2。地势西高东低,海拔高度在190~1 891 m之间,平均海拔1 364 m(图1)。亚热带季风湿润气候,四季分明。年均温度12℃,年均降雨量1 200 mm。成土母质主要是三叠系大冶组灰岩和二叠系梁山组灰岩(图2)。

图1 研究区DEM及样点分布图Fig.1 Distribution of DEM and sampling sites in the research area

图2 研究区环境因子的空间分布Fig.2 Spatial distribution of environmental factors in the research area

1.2 数据处理

于2017年烟叶采收后进行土壤样本采集,遵循均匀、具有代表性的原则,每个种植单元(8 hm2)取1个样品,共采集180个土壤样品(0~20 cm)。土壤样品登记编号后带回实验室,经自然风干、去杂、过筛后备测。分别采用重铬酸钾氧化容量法和自动定氮仪法测定SOM和STN含量(质量分数)[17]。

小尺度范围内土壤性质与地形和成土母质间关系密切。基于30 m×30 m的数字高程模型(Digital Elevation Model,DEM)并运用SAGAGIS 2.2.7软件[18]提取地形因子。为防止自变量共线而影响制图精度,在SPSS 25软件中对地形因子进行方差膨胀因子检验(Variance Inflation Factor,VIF),最终选出通过共线性诊断VIF≤10[19]的8个地形因子:海拔(Ele)、坡度(Slp)、坡向(Asp)、地形湿润指数(TWI)、山谷深度(VD)、距河网垂直距离(VDCN)、坡高(SlpH)和中坡位(Midslp),见表1。成土母质从1∶50 000重庆地质图中提取。

表1 研究区环境变量的选取Tab.1 Environmental variables of the research area

1.3 预测模型及评价

采用RF,GBDT和XGBoost模型对SOM和STN含量的空间分布特征进行预测。其中,3个模型的基本原理参见文献[20-22]。此外,RF模型有4个重要参数:树的数量(n tree)、分割节点的预测变量数(m try)、树深(TD)和叶片最小数量(nodesize)。GBDT模型有3个重要参数:树数(TN)、学习率(LR)和树深(TD)。XGBoost模型也有3个重要参数:树数(TN)、学习率(LR)和树深(TD)。

模型均在Python 3.8环境下运行。为评价模型性能,从原始的180个数据集中随机抽取20%的数据作为验证集。采用平均绝对误差(Mean Absolute Error,MAE)、均方 根误 差(Root mean Squared Error,RMSE)和决定系数(Correlation of Determination,R2)评价模型。其中,MAE和RMSE越小表示预测精度越高。R2表示模型对预测变量变异的解释度。计算公式:

式中:xi表示实测值;yi表示预测值;x表示实测值均值;n表示实测样本数量。

2 结果与分析

2.1 SOM和STN含量的描述性统计分析

研究区SOM和STN含量的描述性统计结果见表2。可以看出,SOM和STN含量平均值分别是32.40 g/kg和2.01 g/kg,变化范围分别为10.28~77.15 g/kg和0.71~4.93 g/kg。整体来看,验证集的SOM和STN含量平均值高于训练集。另外,SOM和STN含量均为中等程度变异(25%~75%),偏度均大于1,经对数转换后数据符合正态分布。

表2 研究区采样点SOM和STN含量的描述性统计分析Tab.2 Descriptive statistics of SOM and STN of sampling sites

2.2 SOM和STN含量与地形因子间的关系

SOM和STN含量与地形因子间的相关性见表3。表3结果表明,SOM和STN含量呈极显著正相关。SOM含量与海拔呈正相关,与其他地形因子均呈负相关。STN含量与所有地形因子均呈负相关,其中与海拔和坡度呈显著负相关,与坡向呈极显著负相关。

表3 SOM和STN含量与地形因子间的相关性①Tab.3 Correlations between SOM or STN contents and topographic factors

2.3 不同母质SOM和STN含量的均值比较

两种成土母质下SOM和STN含量均值比较见表4。结果表明,成土母质为二叠系梁山组灰岩发育的土壤SOM(39.95 g/kg)和STN(2.59 g/kg)含量显著高于三叠系大冶组灰岩发育土壤。

表4 两种母质SOM和STN含量比较①Tab.4 SOM and STN contents in two parent materials

2.4 模型构建及表现

为提高预测精度,对各模型进行参数调整与优化。经多次验证后得到各个模型的参数。对于RF模型,预测SOM含量最合适的n tree、m try、TD和nodesize分别是500、2、5和6,预测STN含量的参数分别是500、2、5和7。对于GBDT模型,预测SOM含量的参数(TN、LR和TD)设置为120、0.02和3,预测STN含量的参数设置为100、0.04和3。XGBoost模型的参数在两种土壤指标预测中均设置为100、0.05和3。

模型的预测性能如表5和图3所示。对于SOM含量的预测,RF、GBDT和XGBoost在验证集中的R2分别为0.583 7、0.616 7和0.554 3。同时,GBDT模型 的MAE(4.81 g/kg)高于RF(4.7 g/kg)和XGBoost(4.78 g/kg)模型,RMSE(5.94 g/kg)低于RF(6.16 g/kg)和XGBoost(6.41 g/kg)模型。对于STN含量的预测,GBDT模型的R2(0.746 8)也高于RF(0.722 0)和XGBoost(0.686 1)模型,而MAE(0.25g/kg)和RMSE(0.34 g/kg)均 低 于RF和XGBoost模型。整体上,GBDT模型预测误差较小且解释了SOM和STN含量空间变异的61.67%和74.68%,可作为预测最佳模型。

表5 不同模型的预测性能比较①Tab.5 Predictive performances of different models

图3 基于GBDT模型的SOM(a)和STN(b)含量实测值和预测值散点图Fig.3 Scatter plots of measured and predicted contents of SOM(a)and STN(b)based on GBDT models

2.5 环境因子重要性排序及空间分布预测图

图4是各个环境变量的重要性(百分比)排序,重要性大于10%表明该变量在一定程度上影响着SOM和STN含量的空间分布。图4结果表明,影响SOM含量的主要环境因子是Par(22.49%)、Ele(17.86%)、TWI(15.10%)和VD(14.78%),影响STN含量的主要环境因子是Par(32.71%)、SlpH(17.76%)和Ele(10.32%)。总体上来看,成土母质和地形因子均在一定程度上影响着SOM和STN含量的空间分布。

图4 基于GBDT模型的SOM(a)和STN(b)的环境因子重要性Fig.4 Importance of environmental factors for SOM(a)and STN(b)based on GBDT models

基于GBDT模型的SOM和STN含量在旱地的空间分布预测结果见图5。由图5可见,SOM预测值的变化范围为19.76~66.14 g/kg,STN预测值的变化范围为1.04~4.43 g/kg,其空间分布均受到成土母质的影响。从同种母质的空间分布来看,二叠系梁山组灰岩发育的土壤SOM和STN含量在高海拔区较高,低海拔区较低。三叠系大冶组灰岩发育的土壤SOM和STN含量整体偏低。

图5 基于GBDT模型的SOM(a)和STN(b)含量空间分布预测Fig.5 Spatial distribution predictions on SOM(a)and STN(b)contents based on GBDT models

3 讨论

通过对比3种机器学习模型对植烟区SOM和STN含量的预测性能发现,RF和GBDT模型表现出较好的预测性,而XGBoost模型则在训练集上表现出过拟合。这说明RF和GBDT模型在预测SOM和STN含量方面较为稳定,避免了模型过拟合,这与前人的研究结果一致[14,23-24]。但相较于RF模型,GBDT模型运行速度更快,学习效率更高,最终表现出的预测精度更高且对SOM和STN含量空间变异的解释能力也更强。说明在小尺度的植烟区域,GBDT模型对SOM和STN含量的预测有较好的效果。

本试验中发现,成土母质对SOM和STN含量的预测最为重要,这与前人的研究结果基本相符[14,25]。本研究中SOM和STN含量在两种母质中出现较大差异,其空间分布预测也与研究区母质的空间分布基本一致。是因为该区域三叠系地层下的岩石主要是灰岩、白云岩、砾岩和石英砂岩,而二叠系地层下的岩石主要是灰岩、页岩和硅质岩。灰岩、页岩和硅质岩受化学溶解风化的影响,形成的土壤颗粒较细、黏粒含量高,有利于有机肥等的吸收利用[26-27]。本研究中解释了SOM和STN含量空间变异的61.67%和74.68%,考虑到制图的准确性,需要进一步对模型进行优化,同时考虑在两种成土母质附近采集更多样点以增强SOM和STN含量空间预测的准确性。

4 结论

基于3种机器学习模型(RF、GBDT和XGBoost)对SOM和STN含量进行数字土壤预测制图,通过在重庆典型植烟区巫山县笃坪乡的应用结果表明:①RF、GBDT和XGBoost模型对SOM含量的预测的R2分别为0.583 7、0.616 7和0.554 3,对STN含量预测的R2分别为0.722 0、0.746 8和0.686 1。GBDT模型可以解释SOM和STN含量空间变异的61.67%和74.68%,可作为植烟区SOM和STN含量预测的最优模型。②环境因子对SOM含量影响的排序依次为成土母质>海拔>地形湿度指数>山谷深度,对STN含量影响的排序依次为成土母质>坡高>海拔。成土母质均排名首位,显著影响研究区SOM和STN含量的空间变异。

猜你喜欢
灰岩因子预测
我刊2021年影响因子年报
无可预测
我刊2021年影响因子年报
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
煤矿地面水害区域治理工程钻进层位控制
高密度电法在灰岩地区探测岩溶中的应用研究
大型房建岩溶场地勘察研究
山药被称“长寿因子”