基于随机森林的降雨预报季节性分析

2022-11-11 05:57
大众科技 2022年10期
关键词:季节性测站降雨

池 钦

基于随机森林的降雨预报季节性分析

池 钦

(安徽理工大学空间信息与测绘工程学院,安徽 淮南 232001)

全球导航卫星系统(Global Navigation Satellite Systems,GNSS)能够以高精度和高时间分辨率有效地反演大气可降水量(precipitable water vapor,PWV)。GNSS衍生的PWV可用于反映强对流天气过程中的水汽变化。通过研究PWV、气象参数与降雨的相关系可以帮助研究人员利用随机森林模型进行降雨预报。但缺少测站位置的气象参数限制了PWV的进一步应用。因此,文章利用GPT3模型得到经验气象参数帮助GNSS反演PWV,并利用wuh2测站建立随机森林降雨预报模型,研究季节性对预报效果的影响。结果表明,在7月—9月的预报效果是最好的,达到了93%以上,1月—3月的效果是最差的,但也在75%以上。在今后的研究中,可以针对不同季度改变建模策略,来提高预报的精度。

GPT3;随机森林;PWV;短临降雨;季节性

引言

GNSS信号在穿过对流层时会发生延迟和弯曲,这个误差在天顶方向被定义为天顶对流层延迟(Zenith tropospheric delay,ZTD)。利用GNSS获取ZTD反演PWV具有高精度和低成本等优势,能广泛应用于气象研究。但缺少测站位置的气象参数时,工作人员很难获得高精度的PWV,因此本文利用最新的GPT3模型得到测站位置的气象参数,反演计算测站上空的PWV。

已经有众多学者对PWV的降雨预报性能进行研究。施闯等[1]研究了中国中南半岛区域的大气水汽在地理位置、季节性上的周期特征以及大气水汽含量同降雨的相关性;王勇等[2]利用小波变换的方法,对重构后的PWV和气象参数数据分析相关性;李黎等[3]进一步利用小波变换方法对PWV分解后的数据同暴雨信息联系分析,探究暴雨发生时的异常点;Wang H、Shou K J、Li G等[4-6]研究实验结果表明基于机器学习和深度学习的降雨预报模型比传统的统计方法更能发掘数据的潜在联系,从而准确预测出降雨情况。因此本文研究当地气象站获取的气象参数、PWV与降雨的相关性并利用随机森林模型研究季节性对预报效果的影响。

1 理论与数据

1.1 GPT3模型

Landskron和bohm提出的GPT3(Development of Global Pressure and T emperature)模型是GPT系列的最新版本。GPT3模型可以输出压力、温度、温度递减率、大气加权平均温度、水气压、干湿延迟映射函数系数、水汽递减率、大地水准面波动、干湿延迟东北梯度等一系列共计13个参数,这一组气象量包含平均值、年和半年振幅,可应用于一系列的大地测量、气象和气候等方面。这些气象参数分局ERA-Interim区域的月平均气压水平数据计算,并以全球分辨率为1°×1°格网数据导出。通过GPT3模型的公式计算大气压力(Atmospheric pressure,P)和大气加权平均温度(Weighted average temperature of the atmosphere,Tm):

1.2 GNSS获取PWV

ZTD由天顶静力延迟(Zenith hydrostatic delay,简称ZHD)和天顶湿延迟(Zenith wet delay,ZWD):

Saastamoinent模型已被广泛用于ZHD的计算,公式如下:

ZWD是大气中的水蒸气在非静态平衡状态下引起的。一般采用经验模型和GNSS站的气象参数获得ZHD,然后从ZTD中推导ZHD,得到ZWD。

ZWD和PWV之间的线性关系可以表示为:

1.3 随机森林模型

随机森林模型是一个集成模型,通过使用训练样本子集来生成多组决策树联合进行预测。每个决策树都是独立生成的,没有任何剪枝,每个节点使用用户定义的特征数量进行分割,随机选择。

通过将决策树数量增长到训练模型定义的一个量,使该模型具有高方差和低偏差的树的效果。最终通过对所有生成树计算出的类别分配概率利用算数平均值来进行分类决策。当我们输入一个新的没有标签的数据后,将根据集合中创建的所有决策树进行评估,并且每个树投票选择一个类成员。得票最多的分类将是最终被选中的分类,随机森林概念图如图1所示。

图1 随机森林概念图

2 特征相关性分析

这些数据来源于IGS提供的提供的GNSS数据和对流层延迟产品和rp5.ru网站提供的气象数据。收集wuh2站一年的观测数据和对流层延迟产品和来自武汉57494气象站一年的气象数据。收集到的GNSS数据和气象数据的特征变量是:以毫米为单位的对流层延迟(ZTD);以毫米为单位的每三小时降雨量;以兆帕为单位的气压(P);以华氏度为单位的温度(T);以华氏度为单位的露点温度(DPT);以百分比为单位的相对湿度(RH)。通过转换公式计算的数据是以毫米为单位的大气可降水量(PWV)。

特征向量之间的单位并不统一,为了更加直观的展示特征向量之间的关系,首先使用z-score标准化的方法,将数据通过处理规划均值为0,标准差为1的大小。计算公式如式(6)所示:

图2展示了数值特征之间的关系。气温和露点温度、对流层延迟和大气可降水量是两组具有明显线性正相关性的特征,相关性达到了0.9以上。露点温度和气压是具有明显线性负相关性的特征,相关性达到了-0.9。温度、露点温度和对流层延迟、大气可降水量这四组数据具有一定程度的正相关性,达到了0.6以上。气压和对流层延迟、温度、大气可降水量这三组数据具有一定程度的负相关性,达到了-0.6以下。其他数据组之间表现出了弱相关性,因此通过分析多特征向量的非线性关系达到降雨预报的目的是有必要的。

图2 PWV与气象参数相关性分析

3 降雨预报

3.1 实验流程设计

GNSS测站一般不设专用气象测量装置,自身采集的气象数据精度不高,也会遇到缺少数据的情况,而气象站57494距离GNSS测站40 km左右,利用气象站的采集数据应用到GNSS测站的PWV计算当中误差较大,因此计划采用GPT3模型计算测站位置的Tm和P。首先利用GAMIT处理GNSS数据得到ZTD,通过Saastamoinent模型计算ZHD,经过式(4)得到ZWD,最后经过式(5)得到测站上空的PWV,公式中用到的Tm和P来自GPT3模型的计算结果。

根据季节性特点将时间划分为四组,分别对应1月—3月、4月—6月、7月—9月和10月—12月,将每组的前两个月作为训练集,探究降雨预报模型的在季节性方面的影响。将PWV和气象站获取的气象参数组合特征向量(ZTD、P、T、DPT、RH、PWV和降水)输入随机森林模型,确定随机森林模型的分类标准为Gini系数,通过网格搜索和交叉验证方法对随机森林模型的最大特征数、决策树最大深度、内部节点再划分最小样本数、叶子结点最少样本数和最大迭代次数五个参数进行调优。通过对每组前两个月的训练,将3月、6月、9月和12月作为测试集进行未来3小时的降雨预报测试。

3.2 随机森林模型季节性结果分析

准确率(Accuracy)、精确率(Precision)和假负率(False Negative Rate,简称FNR)是衡量分类器性能的指标,分别表示分类器的整体准确率、成功预报降雨的正确率和没有成功预报降雨的错误率。

图3和表1展示了wuh2站四个季节性分组的降雨预报结果。可以从图中清晰地看到在准确性方面四个分组是逐级递增的,10月—12月的整体预报性能是最好的,达到了96.7%;精确性方面,4月—6月和7月—9月两组都达到了90%以上,其中7月—9月这组是最高的,达到了93.27%,其次是10月—12月这组也预报到了84.62%的降雨情况;假负率方面,7月—9月这组是最低的,达到了6.73%,证明这段时间内的降雨被误报的情况很少,10月—12月和4月—6月这两组的假负率在这之后,分别达到了15.38%和24.04%。

接着利用ROC(receiver operating characteristic)曲线和PR(Precision Recall)曲线对四个分组的结果进行评估,AUC(Area Under Curve)和AP(Average precision)值表示曲线与坐标围成的面积,值越大说明分类器的效果越好。

图4、图5展示了wuh2站的ROC曲线和PR曲线结果。可以看到7月—9月的曲线ROC曲线和PR曲线是最凸的,预报效果是最好的,AUC值和AP值分别是0.95656和0.93852;4月—6月的预报效果排在第二位,AUC值和AP值分别是0.95441和0.92221,与7月—9月的预报效果几乎相近。10月—12月虽然有比1月—3月更好的ROC曲线,更高的AUC值,但是PR曲线很不稳定,变化幅度较大,AP值也比1月—3月更低。

图3 随机森林模型的季节性效果

图4 四个季度的ROC和AUC曲线

图5 四个季度的PR和AP曲线

4 结论

本文首先针对GNSS站气象数据缺失的问题,利用GPT3模型获取相关的P和Tm,以此得到测站上空的PWV,从而与当地气象站获取的气象数据结合,在分析多特征向量之间的相关性后,利用随机森林模型构建降雨预报模型,分析季节性对预报效果的影响。

在整体上随机森林模型能很好地对3小时后的降雨情况进行预报,能正确预报出未来3小时80%以上降雨情况,误报率也在40%以下。通过综合准确率、精确率、假负率、ROC曲线和PR曲线的结果,可以看到随机森林模型在第三季度(7月—9月)的效果是最好的,能达到93%左右的准确率,误报率是最低的6.73%,其次是第二季度(4月—6月),第四季度(10月—12月)的效果排在第三位,最差的效果是第一季度(1月—3月)。

分析可能导致的原因:(1)在第二季度和第三季度所对应的季节是夏季和秋季,是季风活跃的时间,容易发生降雨,使训练模型有充足的样本进行分析,有更好的性能,而第一季度和第四季度发生降雨的情况少,样本数相对比较少;(2)活跃的季风带来的影响是相关性较强的水汽信息,强对流产生的降雨使其与对流层延迟相关性在第二季度和第三季度相对较高,训练后的随机森林模型具有对PWV和ZTD的敏感性,使预报更加准确。

[1] 施闯,张卫星,曹云昌,等. 基于北斗/GNSS 的中国-中南半岛地区大气水汽气候特征及同降水的相关分析[J]. 测绘学报,2020,49(9): 1112-1119.

[2] 王勇,刘备,刘严萍,等. 基于小波变换的GPS水汽与气象要素相关性分析[J]. 大地测量与地球动力学,2017,37(7): 721-725.

[3] 李黎,宋越,周嘉陵. 利用小波变换对暴雨过程中GNSS气象要素的初步探索[J]. 大地测量与地球动力学,2020,40(3): 225-230.

[4] Wang H, Asefa T, Sarkar A. A novel non-homogeneous hidden Markov model for simulating and predicting monthly rainfall[J]. Theoretical and Applied Climatology, 2021, 143(1): 627-638.

[5] Shou K J, Lin J F. Evaluation of the extreme rainfall predictions and their impact on landslide susceptibility in a sub-catchment scale[J]. Engineering Geology, 2020, 265: 105434.

[6] Li G, Chang W, Yang H. A novel combined prediction model for monthly mean precipitation with error correction strategy[J]. IEEE Access, 2020, 8: 141432-141445.

Seasonal Analysis of Rainfall Forecast Based on Random Forest

Global Navigation Satellite Systems (GNSS) can effectively retrieve the precise water vapor (PWV) with high accuracy and high time resolution. The PWV derived from GNSS can be used to reflect the changes of water vapor in the process of severe convective weather. By studying the correlation between PWV, meteorological parameters and rainfall, we can help us to use the random forest model to forecast rainfall. However, the lack of meteorological parameters at the station location limits the further application of PWV. Therefore, this paper uses the empirical meteorological parameters obtained by GPT3 model to help GNSS retrieve PWV, and uses wuh2 station to establish a random forest rainfall prediction model to study the influence of seasonality on the prediction effect. The results show that the forecast effect from July to September is the best, reaching more than 93%, and the forecast effect from January to March is the worst, but also more than 75%. In the future research, the modeling strategy can be changed according to different seasons to improve the accuracy of prediction.

GPT3; random forest; PWV; short term and imminent rainfall; seasonal

P426

A

1008-1151(2022)10-0017-04

2022-06-16

池钦(1998-),男,浙江瑞安人,安徽理工大学空间信息与测绘工程学院在读硕士研究生,研究方向为GNSS水汽反演。

猜你喜欢
季节性测站降雨
GNSS钟差估计中的两种测站选取策略分析
粕类季节性规律:豆粕篇
季节性需求放缓 钾肥价格下行
龙王降雨
蔬菜价格呈季节性回落
全球GPS测站垂向周年变化统计改正模型的建立
测站分布对GPS解算ERP的影响分析
远离季节性过敏
泥石流
江垭水库降雨径流相关图的建立