基于Google Earth Engine与机器学习的省级尺度零散分布草地生物量估算

2019-04-03 01:57修晓敏周淑芳蒙继华董文全杨广斌李晓松
测绘通报 2019年3期
关键词:零散植被指数样地

修晓敏,周淑芳,陈 黔,蒙继华,董文全,杨广斌,李晓松

(1. 贵州师范大学地理与环境科学学院,贵州 贵阳 550025; 2. 中国科学院遥感与数字地球研究所数字地球重点实验室,北京 100094; 3. 二十一世纪空间技术应用股份有限公司,北京 100096)

草地是全球陆地生态系统的重要组成部分,2014年全球草地面积约为3.1×109hm2,覆盖约25.49%的陆地面积[1]。草地不仅是牲畜最主要的饲料来源,也在调节全球碳循环和气候变化中发挥着重要的作用[2-6],其质量的好坏程度直接关系到整个社会的粮食安全与生态安全[7]。开展大区域草地生物量的估算,可为区域草地资源利用管理、草地生态效益评估及碳循环研究提供重要支撑,具有非常重要的意义[8-9]。

传统草地生物量估算主要以地面调查为主,由于其耗时费力、资金投入大及破坏性强等缺点[10],很难在大尺度上开展。卫星遥感技术以其宏观性、多时相性、多波段性和综合性等特点[11],克服了地面调查方法的不足,为大区域的草地生物量估算提供了有效手段,并得到了广泛应用[12-19]。当前,草地地上生物量估算的方法是使用已有的样地数据,并以遥感数据为驱动,将遥感参数或各种植被指数和生物量数据进行回归分析,以此建立复杂、高效、强健的估算模型,此类方法是公认的估算区域尺度植被生物量的有效方法。从生长模型角度出发,其较为复杂,并且对输入的生理化数据需求高(如叶面积指数、植物形态特征等),很难满足精细尺度监测的需求;而从统计模型角度出发,其操作相对简单,但是需要有足够的样本支撑。已有的草地地上生物量估算的研究集中在区域尺度上,大区域研究主要以低分辨率为主,针对南方相对破碎的草地并不适合。

Google Earth Engine(GEE)云计算引擎是一个专门处理卫星图像和其他地球观测数据云端运算的平台。目前,国内外已经有专家学者陆续借助该平台开展土地覆盖分类算法[20]、农作物分类[21]、产量估产[22-23]、水体及森林变化动态监测[24-25]、城市蔓延[26]及人口制图[27]等科学研究。然而,利用GEE平台结合地面实测样本进行大区域草地地上生物量遥感估算的研究尚未见公开发表。

本文以整个安徽省草地为试验区,在GEE平台的支撑下,通过机器学习建立Landsat 8 OLI及其他辅助数据与地面实测草地地上生物量之间的联系,开展草地零散分布地区省级尺度地上生物量高分辨率估算,并与传统的回归模型进行对比,为大尺度草地零散分布区地上生物量高分辨率遥感估算提供参考。

1 研究区概况

安徽省地处我国东部,长江、淮河中下游,114°54′E—119°37′E、29°41′N—34°38′N之间,总土地面积为1401万hm2,草地面积为94.41万hm2,覆盖约6.74%的国土面积(如图1所示)。安徽省草地资源丰富,但分布较为零散,多集中在安徽省北部及中部沿江平原一带,中部巢湖周围最为集中,而在海拔较高且坡度较陡的皖南和皖西丘陵山地则较少,总体上草地地上生物量主要在100~2100 g/m2之间。

2 数据来源及预处理

2.1 草地生物量野外实地调查及处理

野外实地调查集中在2017年8—9月间,共布设1200个样地。由于实际情况的限制,在安徽省共采集592个有效的草地样地(如图1所示)。地面样本在每块样地设置9个1 m×1 m的样方,使其均匀分布在样地中。记录样地所在行政区、经纬度、地表现状、利用方式及强度等指标。样方内的地上草地齐地面刈割,称其鲜重,然后送至实验室烘至恒重,冷却后称干重,根据覆盖度指标换算出样地草地地上生物量。

2.2 Google Earth Engine遥感影像处理

本文使用Google Earth Engine平台上提供的30 m空间分辨率的Landsat 8地表反射率产品(GEE ID:LANDSAT/LC08/C01/T1_SR)。为降低南方地区云雾等影响,影像时间范围选取为2017年6—9月,共筛选Landsat 8影像67景。利用GEE提供的QualityMosaic()函数实现最大NDVI值合成一期无云且代表植被最好生长状态的地表反射率影像。

除了地表反射率外,本文还计算了归一化植被指数(NDVI)、大气阻抗植被指数(ARVI)、插值植被指数(DVI)和比值植被指数(RVI)。计算公式如下

(1)

(2)

DVI=NIR-R

(3)

(4)

另外使用SRTM 30 m分辨率的高程数据(GEE ID:USGS/SRTMGL1_003)和TRMM卫星月平均降水数据(GEE ID:TRMM/3B43V7)。所有遥感数据的处理都在GEE平台(https:∥earthengine.google.com/)上完成。

3 研究方法

3.1 变量选择

为提高模型模拟的精度,研究中将波段光谱参数、植被指数及地形和气候参数分为3组待选自变量,使用SPSS 19.0软件对3组数据和地上生物量实测数据进行相关性分析,选出每组参数中与生物量在p<0.01水平上显著相关的因子作为预测模型的自变量,见表1。

表1 光谱参数、植被指数、地形和气候遥感因子信息

3.2 CART模型

分类和回归是分类回归树(classification and regression tree,CART)算法的核心支出。其原理在于以递归算法将当前的样本分为两个子集样本,使生成的每个非叶子节点都有两个分支,引入Gini指数来衡量数据的不纯度或不确定性,并利用交叉验证对树进行剪枝,最终得到二叉树形式的决策树。CART的回归树与分类树十分相似,只是目标变量为连续性变量而非离散型变量,使用回归树进行预测时,最终叶子结点是某一数值而不是某一类别的特征。

本文使用选取好的模型自变量和草地地上生物量数据,在GEE平台上基于K-fold交叉验证思想,利用Classification and regression trees分类器以回归模式训练样本数据,以此建立CART机器学习的草地地上生物量估算模型。

3.3 SVM模型

支持向量机(support vector machine,SVM)是一种有关学习算法的监督学习模型,用于数据分类分析和回归分析。SVM算法的基本思路为:通过某一非线性变换将训练数据集x映射到一个高维特征空间,并在高维特征空间里构造回归函数f(x),这一非线性变换是由定义适当的核函数K(xi,xj)来实现的。

fx=ω×φx+b

(5)

本文选择RBF核函数在GEE平台上建立SVM草地地上生物量估算模型。对于gamma参数和c(惩罚)参数,本研究借助台湾大学林智仁教授开发的libsvm-3.22工具箱[31]和faruto[32]辅助函数通过网格搜索法来进行选择。

3.4 OLS模型

在统计学中,普通最小二乘(ordinary least squares,OLS)或线性最小二乘法是一种估计线性回归模型中未知参数的方法。OLS选择一组解释变量的线性函数的参数,将所观察到的因变量在给定的数据集里使得线性函数所预测的变量之间差异的平方和最小化。

本研究使用NDVI和实测地上生物量数据,在GEE平台上建立单因变量的最小二乘回归模型。

3.5 精度评定模型

为了对模型的估算结果进行精度验证,本研究将预留的20%的样本数据(119个)代入GEE平台上草地地上生物量估算模型中,采用根误差(MSE)、均方根误差(RMSE)、确定系数R2和估算精度(EA)指标来评价模型估算的生物量的精度

(6)

(7)

(8)

(9)

4 结果与分析

4.1 安徽省地面样地草地及生物量

根据草地数量遥感调查,安徽省草地图斑面积小于5 hm2有1 232 362块,共483 249.29 hm2,占草地图斑总数的98.19%。地面分辨率为250 m的MODIS等中等分辨率的传感器数据无法满足安徽省零散草地生物量的监测需求。

安徽省野外调查样地的草地地上生物量在148.00~2 927.00 g/m2之间,平均值为852.27 g/m2。本次野外调查时草地地上生物量为年内最大值,可近似作为产草量,根据《天然草原等级评定技术规范》(NY/T 1579—2007)相关标准[33],安徽省绝大多数草地属于5级以上的草地。

4.2 变量优选

本文在GEE平台上提取了样本点的16个遥感因子(见表1),由图2可知有12个遥感因子(B1—B7、NDVI、ARVI、RVI、DVI和slope)与生物量在p<0.01水平上显著相关。因此,本文选择B1—B7、所有植被指数参数和slope因子作为模型自变量。

4.3 草地地上生物量估算模型构建与应用

4.3.1 CART草地地上生物量估算模型

在GEE平台上建立CART草地地上生物量估算模型并获得研究区的草地生物量栅格数据。图3为CART草地生物量模型估算的安徽省草地地上生物量的空间分布,估算的草地地上生物量最大值为3 373.19 g/m2,最小值为1 g/m2,平均值为905.42 g/m2,标准差为324.24 g/m2。安徽省草地地上生物量大致呈从北到南递增的趋势。

4.3.2 SVM草地地上生物量估算模型

根据前文中的方法,调用libsvm工具箱[31]确定最优参数c为512,gamma为1。图4为SVM草地地上生物量模型的估算结果,估算的安徽省草地地上生物量最大值为3 522.43 g/m2,最小值为1 g/m2,平均值为866.79 g/m2,标准差为610.97 g/m2。

4.3.3 OLS草地地上生物量估算模型

为了与机器学习的方法作对比,本文在GEE平台上使用相同的实测数据和对应的NDVI值以传统的一元线性回归方法进行建模,估算的安徽省草地地上生物量如图5所示。草地地上生物量最大值为1 374.63 g/m2,最小值为1 g/m2,平均值为854.21 g/m2,标准差为252.15 g/m2。

一元线性回归模型估算的草地地上生物量与CART模型和SVM型相比有较大的差异,一元线性回归模型估算的草地地上生物量明显偏低,CART和SVM模型估算的结果差异较小。

4.4 草地地上生物量估算模型精度验证

从图6—图8中可以看出,CART和SVM模型的拟合程度较为理想,两个模型验证点的RMSE分别为196.67 g/m2和151.96 g/m2,模型验证精度分别为68.60%和75.74%。CART模型和SVM模型生物量预估值和实测值吻合较好,两者之间没有显著的差异,模型预估能力较好。而传统的一元线性回归模型RMSE为254.00 g/m2,模型验证精度为57.51%,生物量在300~800 g/m2范围的预估值普遍偏高,生物量在900~1200 g/m2范围的预估值普遍偏低,导致RMSE偏大,这一现象是传统线性关系产生较大误差的体现。由此可见,CART模型和SVM模型更适用于草地地上生物量估算。

5 讨 论

我国南方地区自然条件良好,草地叶面积指数与地上生物量相对较高,因此NDVI的饱和效应影响较大[34-35]。为了解决这一问题,本研究综合了光谱特征、地形和气候参数作为输入变量,并利用非参数化的机器学习方法进行建模,有效解决了这一问题。另外,本研究提出的方法全部基于GEE遥感云平台实现,摆脱了数据存储、计算能力的限制,具有极大的应用潜力。

受南方多云、多雨等不利气象条件的影响,过去很难获取省级尺度上时间一致的中高分辨率遥感数据[36-38]。本次草地资源清查结果显示,安徽省草地呈零散式分布,其中98.19%的草地面积小于5 hm2,因此常规基于250 m及更低分辨率的遥感数据无法满足要求。GEE遥感云平台提供了具有详尽时间序列的Landsat 8数据,并提供了基于像元尺度的有效数据的镶嵌功能[39],保障了中高分辨率遥感数据的获取。

机器学习算法相对于传统NDVI回归方法具有一定的优势,但机器学习方法的选择、参数的确定均对预测模型的精度有一定的影响。对CART模型来说,训练样本的内部机构越混乱,基尼指数就越大,模型的不确定性就越大,错误率也会相应增加[40]。对SVM模型来说,模型最优参数的选择具有一定的不确定性,其搜索方法可分为网格搜索法、GA遗传算法和PSO粒子算法等,数据对于每种搜索方法的可适性具有不确定性[41-43]。同时机器学习算法高度受限于样本数据[44,45]。

草地地上生物量野外数据调查的不确定性对预测模型的精度也会有一定的影响。地面数据来自草地清查,草地地上生物量观测的时间不尽一致,观测在6—9月期间完成,草地地上生物量仍存在一定的变化,而遥感数据选用的是最大NDVI合成,因此时间上的不匹配也会对模型的预测精度有影响。

6 结 论

本研究充分挖掘GEE的海量中等分辨率遥感数据存储及云计算的能力,结合地面清查数据,利用分类回归树和支持向量机两种机器学习方法,开展了省级尺度中高分辨率零散分布草地地上生物量估算的探索,并与传统的线性回归方法进行了比较,形成主要结论如下:

(1) 安徽省零散化分布草地图斑较小且量多,98.19%的草地图斑面积低于5 hm2,因此AVHRR、MODIS等低分辨率遥感数据无法满足监测的需求,GEE提供的时间序列Landsat 8数据及相应预处理技术为大尺度、高质量、中高分辨率遥感数据的获取提供了可能,从数据源的角度上保证了监测的合理性。

(2) 机器学习方法估算零散化分布草地地上生物量的精度可以达到65%以上。其中CART模型R2=0.57,RMSE=196.67 g/m2;SVM模型R2=0.59,RMSE=151.96 g/m2;传统使用NDVI的回归分析产生的误差较大,R2=0.37,RMSE=254.00 g/m2。因此机器学习方法更适于中高分辨率零散草地地上生物量的估算,传统基于NDVI的回归分析无法满足精准监测需求。

(3) 传统的草地生物量遥感估测模型在遥感数据获取、预处理时一般需要几天或几周的工作时间,而GEE平台数据来源广泛、获取便利,可以高效地实现海量影像数据的预处理及计算分析,大大缩短了工作时间,为更大区域乃至全国尺度上的零散化草地生物量估算提供了有效参考。

猜你喜欢
零散植被指数样地
四川省林草湿调查监测工作进展
桉树培育间伐技术与间伐效果分析
仁怀市二茬红缨子高粱的生物量及载畜量调查
基于无人机图像的草地植被盖度估算方法比较
额尔古纳市兴安落叶松中龄林植被碳储量研究
写到雪
星星看得见我们
凌絮裙摆
凌絮裙摆
植被指数监测绿洲农区风沙灾害的适宜性分析