基于GPM 遥感数据与随机森林算法唐山市降水量空间制图研究

2024-03-04 10:38张永奎
陕西水利 2024年1期
关键词:经纬度制图降水量

张永奎

(河北省唐山水文勘测研究中心,河北 唐山 063000)

精细化降水栅格面对季风区水资源管理、生态功能区划、农业生产布局具至关重要。随着遥感技术发展,星载遥感降水数据可提供全球范围内气候环境观测的关键信息,并成为全球变化、地球系统科学、水文水资源等领域中不可或缺的数据源之一[1-3]。但由于星基系统模式固有原因,遥感降水产品在局部小尺度上依然暴露出分辨率过大、信息不准确的缺陷,因此有必要结合地面观测基准值对其时空分辨率进行融合校准[4-5]。近年来,随机森林(RF)方法作为一种强大的机器学习算法在水文气象科学中得到了广泛的应用,其能够通过对大量数据的关联分析,准确地预测各个地区的降水量。在唐山市这个重要的工业城市,降水量的稀缺性和空间分布的不均匀性给当地农业和水资源管理带来一定挑战[6-9]。因此,本研究旨在利用RF 算法结合GPM 遥感数据对唐山市的降水量进行空间制图,并对制图精度进行验证。

1 研究对象与方法

1.1 研究区概况

唐山地处燕山山脉向渤海过渡带、华北平原东段,覆盖陆域13472 km2,延伸海岸线230 km。是我国重要的工业城市,水资源比较丰富,历史上主要是防御水灾,开发利用很少。地势自北部山地向南部前海倾向,海拔在0~842 m 之间,地形差异明显。唐山良好的地理条件和自然环境,为多种野生动物繁衍、栖息创造了条件。受信风带与副极地低压、欧亚大陆高压、西北太平洋海域位置影响,形成半湿润季风气候,多年平均气温12.5℃、降水量600 mm、无霜期185 d、日照时数2800 h,水热资源集中于6 月~9 月。水文呈放射状,流失平缓、比降较低,平均径流量14.6 亿m3。

1.2 数据资料来源

(1)GPM 卫星遥感降水数据

GPM 卫星星座降水测量系统集成星载雷达、微波辐射计、红外扫描技术确准探测降水量[10]。本文选用的是GPM_V6_IMERG 产品,其记录了月降水量,空间分辨率为0.1°×0.1°。通过美国航空航天局(NASA)官方网站(https://pmm.nasa.gov/data-access)申请下载研究区逐月GPM 产品,经过ArcGIS 经投影转换、数据累加后得到2020 年降水数据。

(2)地面气象站点数据

以研究区12 个无缺测的地面气象站点观测资料为基准值,该数据从中国气象科学数据中心(ttp://data.cma.cn)申请获取。

(3)地形数据

地形数据来自以STRM DEM 产品,其空间分辨率为30m,可准确步骤地形垂直精度。以研究区DEM 栅格图为基础,基于ArcGIS 平台的Surface 工具进一步提取坡度、坡向等因子。

(4)经纬度数据

经纬度描述了海陆位置特征,可直观解释降水地带性分布。以研究区30 m 空间分辨率的DEM 资料为集成,实验raster to point 工具生成每一DEM 格点矢量点位;然后利用属性表计算器工具计算格点经纬度、经纬度乘积;最后即上述计算值为输入,运用point to raster工具得到研究区经度、纬度、经纬度乘积的栅格文件。

1.3 随机森林拟合算法

Random forest(RF)是Breiman 等研发的一项经典非线性拟合技术,其基础理论是分类回归树(Tree),在解决数值拟合(Regression)、概率计算、函数逼近、类别甄辩方面得到广泛应用[6]。其主要步骤为:从原始样本中随机抽取n 个样本训练集以构建n 棵回归树(ntree),每次未被抽到的样本组成了袋外数据(OOB),作为RF 经度验证集;(2)抽取m个解释变量(mtry)建立Tree 模型,依据OOB 最小原则确定mtry 值;(3)集成全部的Tree 进而构建森林,RF 的最终预测结果h(x)是K 个预测集合在独立向量θk的的非加权平均(Averaging)值(见图1)。

图1 随机森林算法结构图

本研究以地面观测基准值为目标变量(y),以GPM、海拔(DEM)、坡度(Slo)、坡向(Asp)、经度(Lon)、纬度(Lat)和经纬度乘积(LL)作为解释变量,则模型模糊形式如下:

以所有CART 预测值的平均值作为最终结果。本文R 语言caret 包和randomForest 包构建RF 模型。

1.4 降水量空间制图精度评估

RF 是一种基于数据学习的集成方法对数据结构具有一定敏感性。为避免模型过拟合,应用十折交叉验证方法评估模型精度。以交叉验证重复10 次产生的决定系数(R2)、均方根误差(RMSE)和平均绝对误差(MAE)作为模型性能度量指标。

式中:yp、yo为预测值与实测值;、为预测样本与实测样本的平均值;、分别为预测样本、实测样本的方差;R2为实测值与预测值之间皮尔逊相关系数的平方。

LCCC 为预测样本和实测样本相关系数的一致性,R2越接近于0、RMSE 越接近于0,表明模型精度越高。

2 结果与分析

2.1 多源数据统计特征

使用有限样本进行机器学习建模时,样本数据结构对模型性能具有敏感影响。表1 为30 m 分辨率水平上,将气象站点空间位置与环境变量集进行空间匹配进而提取得到的12个样本统计特征。可见,除海拔变量的离差系数介于0~1之间,属于中度程度异质性外,其他变量均属弱变异。站点降水量介于553 mm~669 mm 之间,平均值为632 mm。利用Pearson相关分析发现,经度、纬度、经纬度乘积、海拔、坡度、坡向与站点降水量之间的相关系数依次为0.67、-0.75、-0.54、-0.58、-0.51、0.26,在0.05 或0.01 水平上呈相关性,表明这些变量对解释区域降水空间分布具有合理性。另外从相关性程度来看,该地降水量以南北地带性特征为主,该特性弱化了地形效应。

表1 环境变量统计特征

图2 显示了研究区2020 年GPM 原始像素特征,该地共存在142 个降水像素,每一格点之间数值差异显著,反映了降水量地带性渐变。其最大最小值依次为711 mm、527 mm,空间平均值为642 mm,离差系数达32%。显然,该原始GPM像素较之于地面站点的密度更大且分布均匀,但其机械性、锯齿状分布特征不符合自然规律。

图2 研究区原始GPM 卫星降水分布

2.2 GPM 降水量空间结构特征

利用ArcGIS 软件的地统计分析工具对研究区全部GPM格点降水量进行空间拟合,得到降水量分布模型结构,其结果见图3。依图可知,图中横坐标半方差值表示空间具有对插值精度的数学期望,当空间距离为0 时,半方差值为0.2;半方差值随着空间距离增加呈先迅速升高后趋于稳定特征,当距离达到452 km 时,半方差稳定值为1.45,计算得到块金比为16%,表明区域降水量呈现强烈空间自相关。最终显示徐州市降水量分布符合高斯Gau 模型,具有结构为γ(h)=0.2+1.45×Gau(452),且降水量呈强烈空间自相关分布,表明可采用随机森林非线性方法进行空间插值研究。

图3 研究区GPM 降水量空间分布模型拟合特征

2.3 降水量空间分布制图与精度验证

本文先实验R 语言caret 包和randomForest 包构建基于样本集的RF 模型,经多次试错后确定最优参数配置为:ntree=800、mtry=3;然后将环境变量重采样至30 m 空间分辨率,进而利用predict 函数对栅格协变量进行预测,最终制取研究区降水量分布图,其结果见图4。可知,图中降水量值域在527 mm~722 mm 之间,统计得到像素平均值为642 mm,离差系数为24%,这与图2 中原始GPM 数值特征一致。从空间格局来看,降水量呈现自南向北、自东向西减少的格局;其中东部地区降水量最大,局部在680 mm 以上,呈带状延伸;中部地区降水量次之,介于560 mm~680 mm 之间;西北部最少,仅在550 mm 以下。这种地带性差异主要受到海陆位置、地形相互作用。该制图结果显示的降水量数值与分布特征较原GPM 数据一致,但其空间表现力更准确,细致刻画了降水量随地形、空间位置渐变规律RF 通过非线性拟合模拟降水量分布与地形、海陆位置变化规律,进而通过精细的环境变量反演出降水细节分布。

图4 基于RF 算法研究区降水量制图结果

为客观评估区域降水量分布空间制图精度,以站点数据为基准值提取相对空间位置处RF 模型预测值,通过计算二者之间相对误差,得到模型验证精度R2为0.62,MAE 和RMSE 仅为55.81、65.88 mm。由图5 可知,观测值与制图结果之间具有良好一致性,其平均偏离度不足样本数据最大的1/10,因此该验证精度良好、制图结果可靠[10]。

图5 研究区降水量制图精度散点图

3 结论

精细化降水栅格面对季风区水资源管理、生态功能区划、农业生产布局具至关重要。本文利用多源异构的地面与卫星遥感资料,通过非线性的随机森林模型定量制取了衡水市降水量空间分布特征。本研究结论如下:①地形、经纬度信息与降水量之间呈现显著线性关系,其对解释衡水地区降水量细节分布具有一定价值;②GPM 遥感降水数据呈现强烈空间自相关性,其在该地气象学应用中具有可替代性;③随机森林方法拟合了降水量与地形、经纬度之间非线性关系,进而推断降水量分布细节信息,制图得到的降水分布格局与原GPM 总体特征一致,但更具真实性;④随机森林方法计算结果精确度较高,结果直观,具有一定推广价值。但在应用中应结合具体情况进行综合确定,经过多次验证确保应用效果。

猜你喜欢
经纬度制图降水量
无声手枪如何消音?
降水量是怎么算出来的
基于经纬度范围的多点任务打包算法
黄台桥站多年降水量变化特征分析
1988—2017年呼和浩特市降水演变特征分析
自制中学实验操作型经纬测量仪
二向反射模型在土地覆被制图中的应用
澳洲位移大,需调经纬度
基于小波变换的三江平原旬降水量主周期识别
工程制图课程教学改革探析