基于3种机器学习方法的农业干旱监测比较

2022-02-11 03:18王晓燕邢立亭
干旱区研究 2022年1期
关键词:向量神经网络因子

王晓燕, 李 净, 邢立亭

(西北师范大学地理与环境科学学院,甘肃 兰州 730070)

干旱是出现频率高、持续时间长、波及范围广的气象灾害之一[1]。农业干旱是由于低于正常降水或高于平均蒸发和蒸腾作用而导致的土壤水分亏缺[2]。频繁的农业干旱导致经济损失严重,因此准确且实时或接近实时的农业干旱监测是必不可少的。

干旱指数是监测和分析农业干旱的重要方法。近年来,学者们建立了各种干旱指数来量化干旱特征,特别是严重程度和空间范围[3]。根据数据源不同,通常分为基于气象站点数据监测的干旱指数和基于遥感数据监测的干旱指数两大类。常用的基于气象站点数据的干旱指数包括帕默尔旱度指数(PDSI)[4]、作物干旱识别指数[5]、综合指数(CI)[6]、K 指数[7]、标准化降水指数(SPI)[8]和标准化降水蒸发指数(SPEI)[9-10]等。SPEI由于同时考虑了降水量和温度并且能够监测不同地区不同类型的干旱,被广泛应用。虽然基于气象站点数据的干旱指数能够准确且有效的监测气象站及其周边干旱的严重程度,但在可用气象站点有限的条件下,遥感数据覆盖面积广、空间分辨率高、时效性强等特点,基于遥感数据的干旱指数在大面积干旱时空模式的监测中更为可靠。当前基于遥感数据监测的干旱指数主要有归一化植被指数(NDVI)[11]、植被状态指数(VCI)[12]、温度状态指数(TCI)[13]、归一化多波段干旱指数(NMDI)[14]、归一化差值水分指数(NDWI)[15]以及植被供水指数(VSWI)[16]等。最初多是单一因素的遥感指数被用于监测和分析干旱,如NDVI、VCI 等,但农业干旱过程复杂多变,影响因素众多,单一因素的干旱指数往往难以反映干旱的多类型和多尺度特征[17]。因此利用先进方法集成多源数据构建综合的干旱监测模型或指数逐渐成为发展新趋势。

综合多源数据的干旱监测模型或指数从构建方法角度介绍,有权重组合、多变量联合分布及机器学习方法。Zhang 等[18]对土壤水分条件指数(SMCI)、TCI、PCI 进行线性加权构建微波集成干旱指数(MIDI),结果表明MIDI 与实测值在空间分布上有很好的一致。杜瑞麒等[19]通过联合分布函数构建出反映土壤水分和降水信息的综合干旱指数,并较好的分析了吉林省的干旱时空特征。虽然权重组合与联合分布方法在干旱监测中均有较好的表现,但均存在一定程度的缺陷。权重组合方法建立的综合干旱指数需要先假设变量间的线性关系然后根据专家经验判断或相关分析等方法来确定多种单一干旱指标的权重,而农业干旱的复杂决定了影响因子间不一定都是线性关系,同时权重的分配也存在误差;利用联合分布方法构建的综合干旱指数虽然既保留了单一指标本身的边际分布,又描述了指标之间复杂的依存关系,但在单一指标数量较多的情况下,变量间的关系变得复杂时,会导致建模变得困难。近年机器学习方法逐渐成为干旱研究领域的新秀,因为其不仅能够处理干旱影响因子间复杂的非线性问题且能够简单明了的集成多源数据,科学高效的建立综合干旱监测模型,合理的解决了上述问题。但是不同机器学习方法构建的模型在农业干旱监测上具有区域差异性,而且甘肃省气候类型复杂,干旱频发。为了能在甘肃省建立更加全面精准的综合农业干旱监测模型,本文采用随机森林、BP 神经网络、支持向量机3 种机器学习法,考虑多种干旱因子,结合气象数据和多源遥感数据,比较分析构建的3 种综合干旱监测模型在甘肃省的适用性,同时探究模型在不同环境下的表现并分析不同致旱因子的相对重要性,为农业干旱监测研究提供了新方法以及科学参考。

1 数据与方法

1.1 研究区概况

甘肃省位于中国西北部,地理位置为32°11′~42°57′N,92°13′~108°46′E。甘肃是典型的温带大陆性气候,降水少蒸发大。在甘肃几乎每年都发生农业干旱,每年平均受灾面积达到82.68×104km2,并导致5×108~10×108kg的粮食减产[20]。

1.2 数据处理

本文从气象、土壤、植被方面进行因子选择,选取PCI和TCI为气象因子,VSWI作为土壤因子,VCI是植被因子。考虑到研究区内不同地形水分、温度、植被覆盖度等因素在空间上存在差异性,土壤的生产力和抗旱性在空间上有高度变异性以及研究区内气候类型复杂等原因,选择数字高程模型DEM、土壤有效含水量以及中国气候区划为模型的辅助因子。

数据选择的时间范围为2002—2019年,时间分辨率为月(4—10 月),空间分辨率为1 km。其中,MODIS数据有MOD11A2产品中的地表温度(LST),时间分辨率为8 d,空间分辨率为1 km,月数据为4幅影像数据求平均;MOD13A2产品中的归一化植被指数和增强型植被指数(EVI),时间分辨率为16 d,空间分辨率为1 km。降雨数据选择TRMM3B43,时间分辨率为月,空间分辨率为0.25°。以上MODIS和TRMM 数据均来自于NASA(https://ladsweb.modaps.eosdis.nasa.gov/),在数据处理过程中,对于TRMM 数据首先将降水速率转换为月降水总量数据,然后统一对NDVI、LST、EVI 以及TRMM 数据进行裁剪、投影转换、采用最邻近法进行重采样使空间分辨率为1 km,最后通过以上数据计算出VCI、TCI、PCI、VSWI指数,具体计算过程如表1。

表1 干旱指数计算方法Tab.1 Remote sensing drought index calculation formula

DEM 数字高程、中国气候区划和中国土壤砂、黏粒含量数据以及用于制图的土地覆盖类型数据均来源于中国科学院资源环境科学数据中心(https://www.resdc.cn/),空间分辨率均为1 km。土壤有效含水量利用Gupta 等[21]提出的土壤砂、黏粒含量的经验线性拟合模型估算。对全国DEM、气候区划以及土壤有效含水量进行裁剪、投影转换后可直接使用。

气象数据来源于中国气象数据网(http://data.cma.cn/),气象站点分布如图1 所示,根据研究区气象数据的缺失和站点分布在耕地的情况,最终选择25 个气象站点。站点数据主要包括1970—2019 年的月平均气温和月降水量,用于计算1个月、3个月、6个月时间尺度的SPEI。

图1 研究区概况Fig.1 Overview of the study area

1.3 研究方法

1.3.1 随机森林 随机森林的核心思想是回归和分类,是使用去相关树有效地减少预测变量方差的一种方法[24]。随机森林方法的具体步骤为:首先从训练数据中,通过随机提取训练数据集中的部分数据,比如20%的数据集,并据此形成决策树;然后将提取的20%的数据集放回训练集中,并再次随机提取20%的数据集,产生第二个决策树。不断重复第二步,建立多个决策树并以此组成随机森林;最终预测结果由所有决策树结果的平均值决定。

1.3.2 BP神经网络 BP神经网络是一种由输入层、隐层和输出层组成,并由误差逆传播方法训练的多层前馈网络[25]。主要包括前向传播和误差的反向传播。前向传播指在计算误差输出时,输入信号通过隐含层作用于输出节点,经过非线性变换,产生输出信号,如果实际输出与期望输出不相符,则转入误差的反向传播过程。误差反向传播指输出误差的逆向逐层分摊和调节阈值使误差阶梯下降的过程。

1.3.3 支持向量机 支持向量机是一种监督学习方法,通过非线性映射,采用结构风险最小化原则,将低维空间和线性不可分的数据映射到高维空间使其成为线性可分的,再将数据在高维空间进行分类和预测[26]。支持向量机的核心是核函数,可以提高算法的速度。

2 结果与分析

2.1 干旱因子分析

降水、土壤、植被干旱因子在不同时期对干旱的表现不同。提取2002—2019 年甘肃4—10 月所有气象站点的VCI、TCI、PCI 和VSWI 指数,按月依次对4种遥感指数和1个月、3个月、6个月时间尺度的SPEI(分别由SPEI_1,SPEI_3 和SPEI_6 表示)进行Pearson相关性分析,进而分析单个遥感干旱指数监测农业干旱的能力以及融合多源数据的必要性,结果如表2所示。3种时间尺度的SPEI除了植被状态指数VCI 在植被生长初期和末期外,其他指数的相关性均通过了0.01或0.05显著性检验。

表2 遥感指数与不同时间尺度SPEI的相关性分析Tab.2 Correlation analysis between remote sensing index and SPEI on different time scales

对于降水指数PCI,其相关性在3种时间尺度的SPEI中均为最高,且在7月达到最大值,说明以降水因子建立的干旱指数在降水充足的季节其监测结果更具有参考价值。温度干旱指数TCI在植被生长初期的相关系数要高于植被生长中后期,如TCI 与不同时间尺度SPEI 的相关性均在6 月达到最大值。在4—10 月,植被干旱指数VCI 与不同时间尺度SPEI 的相关性均呈现先增大后减小的过程,以SPEI_3 为例,在4 月和5 月未通过显著性检验,到7月植被生长最佳时期,相关系数达到最大,8 月开始,相关性又逐渐减弱。这表明以植被因子建立的干旱指数在植被覆盖度较好的区域监测干旱能力更可靠。在月时间尺度上土壤湿度指数VSWI其相关性表现为先增大后减小再增大的趋势。其变化趋势与植被指数VCI 相同,说明土壤湿度指数更适合于植被茂盛区域的旱情监测。

以上分析表明,PCI、VCI、TCI以及VSWI单个遥感干旱指数在监测农业干旱中具有局限性,虽然PCI 与SPEI 的相关性高,但单一降水因素不能代表干旱。因此应用先进的机器学习方法来融合多种致旱因子,构建综合监测农业干旱的模型具有重要意义。

不同时间尺度的标准化降水蒸发指数SPEI 可以分析不同的干旱类型,1—6个月时间尺度的SPEI适用于气象和农业干旱,较长时间尺度的SPEI适用于水文干旱。大量研究表明3月或更长时间尺度的SPEI 更能代表农业干旱,本文采用3 个月时间尺度的SPEI分析农业干旱。

2.2 模型构建及验证评价

从2012—2019 年甘肃气象站点中随机选取5组不同的5 个站点作为模型的验证数据,其次,2002—2019年除每组被选出的5个验证站点外所有站点的SPEI_3 和所在站点的VCI、TCI、PCI、VSWI、DEM、AWC和气候类型作为模型的训练数据。每组训练样本数据依次有461 个、462 个、465 个、465 个和465 个。运用3 种机器学习方法分别对4—10 月的训练样本进行学习,每月包括5 组不同的训练样本,共构建35组农业干旱监测模型。

模型构建中随机森林有两个重要参数,决策树个数n和树节点预选变量个数m;当n太小则模型欠拟合,当n足够大时模型逐渐趋于稳定。n应大于100,m的取值公式为,其中P为候选特征变量,m应小于特征变量。为了选取误差最小的m,根据经验公式和不小于特征变量两个要求,逐一选择m并构建不同的回归模型。以4 月的5 组模型为例,当n=1000,m依次取2、3、2、2、2时,随机森林模型的误差最小,同样方法得到其余30个模型的参数。支持向量机方法构建模型时选取误差较小、分类准确率较高的径向基函数RBF,两个重要参数为核参数g和惩罚系数C。核参数g影响训练和预测速度。惩罚系数C越大,模型容易过拟合,过小容易欠拟合。经过反复试验,当支持向量机的g为0.02、惩罚系数C为10 时模型是最稳定的。BP 神经网络中梯度下降法是调整全局权重和阈值的关键,本文选择训练速度最快的trainlm 函数,缺点是需要的内存大。

通过模型输出的模拟值与SPEI_3 实测值之间的相关性分析,验证评价机器学习方法构建的农业干旱监测模型。图2为3种机器学习方法各月份第2 组验证样本模拟值与实测值SPEI_3 的散点图,图中随机森林、BP神经网络和支持向量机模型的模拟值分别用RF_nh、BP_nh 和SVM_nh 表示。由图2 可以看出,4—10月份3种机器学方法模型的模拟值与SPEI_3 实测值的相关系数都不小于0.89,说明3 种机器学习方法构建的农业干旱监测模型都可应用于实际的旱情监测。

图2 模型模拟值与实测值SPEI_3散点图Fig.2 Scatter plot of model simulation value and measured value SPEI_3

2.3 3种机器学习方法监测结果对比

利用决定系数R2、均方根误差RMSE 和平均绝对误差MAE 来比较模型模拟结果进而分析适用于甘肃省构建模型的最佳机器学习方法。从3种机器学习方法对验证数据的预测结果统计可知(表3),在随机森林构建的35个监测模型中,随机森林模型模拟值与SPEI_3 实测值的R2在0.78~0.95,4—10 月的总平均值为0.86;BP 神经网络模型的R2在0.70~0.91,4—10 月的总平均值为0.82;支持向量机模型的R2在0.73~0.91,4—10月的总平均值为0.84;同时也对每月5 组模型的统计指标进行求平均值,发现随机森林模型的R2要高于BP 神经网络和支持向量机,说明随机森林模型模拟的结果对干旱指数SPEI_3的解释程度更高。随机森林、BP神经网络和支持向量机3 种方法构建的模型中,RMSE 和MAE的最大值分别是0.79 和0.66、1.00 和0.79、0.81 和0.66,说明与BP 神经网络和支持向量机模型相比,随机森林模型的模拟值与SPEI_3 实测值的差异更小,表现最好,而支持向量机模型的表现则要优于BP神经网络模型。通过上述分析表明,随机森林方法构建的模型在甘肃省的农业干旱监测中表现更佳。

表3 3种机器学习方法对验证数据拟合结果统计Tab.3 Statistics of the fitting results of the three machine learning methods on the verification data

2.4 机器学习空间敏感性分析

甘肃气候类型复杂,随机森林、BP 神经网络和支持向量机构建的3 种模型受不同气候模式的影响,对干燥和潮湿地区干旱指数SPEI_3的模拟可能不同,利用K 均值聚类方法根据多年降水条件将气象站点划分为干燥和湿润两种类型(表4)。首先根据两个聚类将原始数据分为聚类1(干燥)与聚类2(湿润)的训练样本和验证样本,然后分别训练BP神经网络、随机森林和支持向量机模型,最后利用决定系数R2、均方根误差RMSE 和平均绝对误差MAE来评估模型的性能(表5)。从表5可知,不管在那种环境下,随机森林模型的表现要优于其他两种模型,在干燥的环境下,BP 神经网络模型的性能比支持向量机模型好,湿润环境下,与BP 神经网络模型相比支持向量机模型表现更佳。此外,3 种机器学习方法构建的模型在湿润环境下监测农业干旱的能力优于干燥环境下。

表4 站点聚类结果Tab.4 Site classification

表5 不同空间模型性能评估Tab.5 Model performance evaluation in different spaces

为了确定不同环境下模型在连续时间序列上对SPEI_3实测值模拟的性能。选择聚类1和聚类2两组验证样本中共12个站点,验证3种机器学习方法的时空差异性。图3 为3 种机器学习方法对2012—2019 年7 月的12 个气象站点模拟值与实测SPEI_3的一致性分析,其中山丹、景泰、张掖、永昌、高台和皋兰为干燥环境中的站点,榆中、临洮、环县、临夏、武都和岷县为湿润环境中的站点。由图3可知,连续时间序列上RF 模型在两个聚类中模拟SPEI_3 实测值的表现最好。在干燥环境的站点中除张掖和高台站点外其他站点BP 模型表现比支持向量机模型好,在湿润环境的站点中支持向量机模型略好,分析结果与表5相似,说明不同环境下构建的模型是可靠的。

图3 2012—2019年7月模型模拟值与实测SPEI_3的变化趋势Fig.3 The change trend of model simulation value and measured SPEI_3 from 2012 to July 2019

随机森林方法可以进行变量重要性排序,因此通过该法获取两个聚类干旱因子(VCI、TCI、PCI、VSWI、AWC、气候类型和DEM)的重要性排序(图4)。气象因子PCI 与TCI 在干燥和湿润环境中排名均为前两名,对整个模型的影响最大,这两个气象因子的总和分别占聚类1 和聚类2 相对重要性的56%和55%,表明降水和温度因子是造成农业干旱的主要因素。在聚类2湿润环境中,土壤因子VSWI重要性为第3,植被因子VCI 为第4。聚类1 干燥环境中,植被为第3,土壤因子为第4。但受环境的影响,湿润环境下的植被长势比干燥环境下好。机器学习构建的模型在降水较多、植被覆盖度高的区域监测能力更好。

图4 不同聚类因子重要性分析Fig.4 Analysis of the importance of different clustering factors

3 讨论

干旱是影响人类生活生产的自然灾害之一,精准实时的监测农业干旱是必须要解决的问题,故本文融合气象数据和遥感数据,利用随机森林、支持向量机和BP 神经网络3 种机器学习方法,构建了3种甘肃省综合农业干旱监测模型。已有研究表明[27],机器学习模型可以有效的提高监测干旱的准确性,这与本文的研究是一致的。本文对模型模拟的结果与实测值SPEI_3进行比较分析,两者有很好的一致性,同时对4 种单因子干旱指数与3 种不同时间尺度的SPEI进行了相关性分析,模型的相关性高于单因子相关性,表明融合多源遥感数据确实提高了遥感监测农业干旱的准确性。

3 种模型中,随机森林模型的模拟结果要优于支持向量机和BP 神经网络模型,R2更大,误差更小。这一结果与董婷等[28]的研究一致,随机森林模型在干旱监测中表现更优,更具有普适性。本研究中3 种机器学习模型在湿润环境的表现更好,而在两种环境中随机森林模型的监测能力仍强于支持向量机和BP 神经网络模型,这与Feng 等[29]的研究结果是相似的,明确了本文研究的准确性和可靠性,同时也进一步表明了随机森林模型在农业干旱监测中更有潜力。但本文依然存在需要改进的地方,本文使用的降水遥感数据空间分辨率为0.25°,时间分辨率为月,都有待进一步提高。本文在干旱因子选择时没有考虑蒸发、人类活动等因素。未来需要针对这些不足进一步进行研究。

4 结论

通过采用随机森林、支持向量机和BP神经网络3 种机器学习方法,集成多源数据,构建了3 种甘肃省综合农业干旱监测模型,并验证了3 种机器学习模型的精度,比较了3 种机器学习模型在甘肃省农业干旱监测的结果以及在不同环境下模型的表现。主要得出结论如下:

(1)3 种机器学习方法构建的综合农业干旱监测模型的模拟值与SPEI_3 实测值的相关系数均在0.89以上,表明构建的3种模型是有效的,均可应用于甘肃省的农业干旱监测。

(2)利用R2、RMSE 和MAE 对3 种模型模拟结果进行了比较,发现随机森林方法构建的模型统计指标要优于支持向量机模型和BP神经网络模型,说明RF 模型能更全面可靠精准的对甘肃省的农业干旱进行监测。

(3)对比不同环境下分别构建的3种机器学习模型性能,随机森林模型在干燥和湿润环境中表现均要优于支持向量机和BP神经网络模型,说明该模型在农业干旱监测研究中更具有可靠性。结合因子相对重要性排序,发现机器学习构建的模型更适合于半干旱和植被覆盖度高的区域。

猜你喜欢
向量神经网络因子
基于神经网络的船舶电力系统故障诊断方法
基于人工智能LSTM循环神经网络的学习成绩预测
向量的分解
MIV-PSO-BP神经网络用户热负荷预测
一类常微分方程的解法研究
《老人与海》中的伦理越位与斯芬克斯因子再思考
直径不超过2的无爪图的2—因子
巧解难题二则
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
向量垂直在解析几何中的应用