基于支持向量机回归的大气加权平均温度

2019-10-28 00:50李松青刘立龙刘林波
桂林理工大学学报 2019年3期
关键词:探空平均温度水汽

李松青,刘立龙,容 静,周 威,刘林波

(桂林理工大学 a.测绘地理信息学院;b.广西空间信息与测绘重点实验室,广西 桂林 541006)

水汽是大气的重要组成部分, 其主要集中分布在对流层底部, 波动变化相当剧烈。 因此, 精准快速地掌握水汽的空间分布特征对天气预报具有重要的实际意义。 随着GPS的发展, 利用地基GPS卫星数据反演大气水汽含量, 以此来预测降雨量成为当前研究的热点。 在反演水汽过程中, 大气加权平均温度Tm是决定水汽反演精度的关键参数之一。 为了精确计算Tm, 需要获取测站上空的温度、 气压和水汽压的廓线资料, 这限制了地基GPS探测水汽的使用[1]。 为了解决这一问题, 国内外学者对不同地区的Tm模型构建作了大量研究。 国际上, Bevis等[2]最早建立了与测站温度相关的线性回归模型Tm=70.2+0.72Ts, 并将之广泛应用于中纬度地区, 但是该Tm模型与实际值的偏差会随着站点高度的增加而增加[3]; Ross等[4]对全球53个无线电探空站提供的探空资料进行分析, 得出了加权平均温度Tm与地表温度Ts数据的相关性随时空变化的分布规律。 国内学者通过研究局部地区Tm和Ts之间的关系, 建立了区域线性回归Tm模型,如文献[5-8]分别建立了我国香港、北京、湖南、新疆等地区的Tm模型, 结果表明,针对特定区域建立的加权平均温度线性回归模型均具有较高的精度;姚宜斌等[9]利用2010年中国无线电探空数据从数学上推导了加权平均温度Tm与地表温度Ts的非线性关系。除了区域性的Tm模型,也有研究人员基于大量数据建立了全球性的Tm模型,如Yao等[10]利用2005—2009年全球探空数据建立与地面温度无关的全球加权平均温度模型(global weighted mean temperature, GWMT)。 文献[11-12]研究发现,支持向量机在数据回归预测方面较线性回归法具有更准确的预测结果和实用性。

基于以上分析,本文提出了运用支持向量机回归的算法对广西地区的大气加权平均温度进行建模,并与采用线性回归法建立的大气加权平均温度单因素和多因素模型的精度进行对比,以此来验证支持向量机回归在大气加权平均温度建模方面的可行性。

1 支持向量机回归(SVR)基本原理[13]

支持向量机是一种小样本的“机器”学习方法,其建立在统计理论的VC维理论和结构风险最小原理基础上,对特定训练样本的学习精度和学习能力之间寻求最佳效果,以期获得最好的推广能力。支持向量机中的一大亮点是在传统的最优化问题中提出了对偶理论,主要有最大、最小对偶及拉格朗日对偶,避免了其他方法的过学习、 欠学习、 高维数、 非线性以及局部极小等问题, 并已被成功地应用于模式识别、 回归分析、 概率密度估计中。

与统计学中的非线性回归和线性回归不同,支持向量回归(SVR)根据是否需要嵌入到高维空间可分为非线性回归和线性回归两种方法。对于给定的样本集合S以及任意给定的线性不敏感函数ε>0, 如果在原始空间中Rn存在超平面Q={f(x)≤ω,x>b|(ω∈Rn,b∈R}使得|yi-f(xi)|≤ε, ∀(xi-yi)∈S, 则称超平面Q是样本集合S的线性回归。 对于不可能在原始空间Rn线性分离的样本集合S,先用一个非线性映射将数据映射到一个高维特征空间中(在SVM中就是找一个核函数K(x,y)=〈φ(x),φ(y)〉代替计算高维内积(φ(x),φ(y)), 避免了所需付出的计算代价);然后,在该特征空间中进行线性回归;最后,返回到原始空间中,这就是支持向量非线性回归。

本文选用台湾大学林智仁教授等开发设计的LIBSVM工具,该工具箱中主要提供四类核函数:线性核函数、多项式核函数、径向基(RBF)核函数、Sigmoid核函数。

非线性回归问题的实施步骤具体如下:

① 输入n个样本

(x1,y1),(x2,y2),…,(xn,yn),

(1)

其中,xi为n维特征向量;yi为对应的输出值。构造回归函数为

f(x)=ω·φ(xi)+b,

(2)

式中:ω为权值向量;b为偏置;i=1,2,…,l(下同)。

② 采用一个常量ε(ε>0), 将不敏感损失函数Li用来度量模型每一次预测的好坏:

(3)

③ 将求解回归函数的问题描述成一个二次凸优化问题:

(4)

(5)

(6)

(7)

⑤ 引入拉格朗日函数L将目标函数变成无约束的形式:

(8)

⑥ 选择合适的核函数代入函数L中得到对偶优化公式:

(9)

其中: 0≤αi,αi*≤C。

(10)

2 Tm模型的建立

2.1 Tm计算方法

地基GPS探测水汽的原理是通过GPS卫星信号穿越中性大气层时天顶湿延迟(zenith wet delay, ZWD)计算大气可降水量(precipitable water vapor,PWV)。

PWV=Π·ZWD,

(11)

式中:Π为大气水汽转换系数:

(12)

式中:ρw为水的密度;Rv为水汽气体常数;k2′、k3为大气折射常数。Tm是求取大气水汽转换系数的关键变量, 它是测站上空水汽压和绝对温度沿天顶方向的积分值。 因此, 可以利用无线电探空站的气象数据, 采用数值积分的方法计算获取:

(13)

式中,Pi为第i层大气的平均水汽压(hPa);Ti第i层大气的平均温度(K); Δhi为第i层大气的厚度(m)。 由于探空数据是直接探测, 相对更加准确,本文将用式(13)计算得到的Tm视为真值。

2.2 衡量Tm模型的参数指标

平方相关系数(R2)可以表示预测值与真实值之间的相关程度,R2越接近1,相关性越强。

平均偏差(Bias)体现预测情况的稳定性, 即预测数据的离散程度。 其值的绝对值越小越稳定。

均方根误差(RMSE)用来衡量预测值和实际值之间偏差, 该值越小, 说明预测模型的精度越高。

2.3 基于SVR的Tm模型(SVR-Tm)的建立

采用SVR的方法分别对广西地区4个探空站进行Tm建模,每个站的模型构建步骤如下:

① 选取每站每月的3个气象要素:气压、地面温度和水汽压作为模型输入参数,数值积分法计算得到的每月的加权平均温度作为模型输出参数。将2013—2014年的数据作为训练集,2015年的数据作为测试集。

② 数据预处理。对输入参数和输出参数进行归一化映射预处理:

该映射的效果是原始数据被规整到[-1,1]区间,其中x、y∈Rn。

③ 确定核函数。选取运用广泛的径向基核函数(RBF)。

④ 确定模型参数。寻找最佳的惩罚参数C和核函数参数g。

⑤ 模型的建立与输出。将训练好的核函数和最佳的模型参数代入模型中,对因变量,即2015 年的每月的大气加权平均温度进行计算,并将输出结果进行反归一化。

2.4 单因素与多因素Tm模型的建立

选取位于广西地区2013—2014年的4个探空站的数据,利用式(3)计算每天0时和12时的Tm,分析Tm与各站气象要素的相关性。由于篇幅所限,仅列出广西桂林站的加权平均温度Tm与地面气压P、地面温度Ts和水汽压e的相关关系(图1)。

可见, 所有离散点都较均匀地分布于一条直线附近, 表明了Tm与P、Ts和e均具有明显的相关性, 其中Tm与P呈负相关关系, 与Ts和e均呈正相关关系, 为进一步定量地分析出Tm与这3种气象因素相关性的强弱, 计算出广西地区4个探空站的Tm与3种气象因素的相关系数见表1。

图1 桂林站Tm与P、Ts和e的散点图Fig.1 Scatters of Tm to pressure P,surface atmospheric temperature Ts and vapor pressure e

整体上,Tm与地面温度Ts的相关性最强, 其平均相关系数达到0.89; 与地面气压P、 水汽压e也具有较强的相关性, 其平均相关系数都在0.82左右。 从单站的相关系数来看, 每个站的Tm与3种气象因素均具有很强的相关性, 其所有的相关系数基本都在0.8以上。 基于上述分析, 利用2013—2014的数据建立每个站的单因素Tm模型和多因素Tm模型,结果见表2。

2.5 Tm模型精度分析

为了比较SVR-Tm、回归法建立的单因素Tm模型和多因素Tm模型的精度,应用这3个模型分别计算2015年广西地区4个站的Tm,其真实值和每种模型的计算值如图2所示。

可知, 以上3种模型均可较好地计算出2015年的Tm。为了进一步定量分析出这3种模型的精度大小,计算得到每种模型在每个站的相关系数平方、平均偏差和均方根误差,结果见表3。

表1 Tm与三种气象要素的相关系数

表2 本地化单因素和多因素Tm模型

表3 SVR-Tm模型和单因素、多因素模型精度对比

图2 各模型Tm值与真实值比较Fig.2 Comparison between Tm values and actual values of each model

每种模型在每个站的R2均可达到0.98左右,说明基于SVR建立的Tm模型可达到与针对特定区域构建的单因素和多因素Tm回归模型达到相当的精度效果。比较3种模型的Bias发现,SVR-Tm模型比其他两种模型的精度偏差小。从每种模型的RMSE上看,SVR-Tm模型整体上比单因素Tm模型和多因素Tm模型的稍小,验证了SVR在Tm计算方面的可行性。

3 结 论

在分析支持向量机回归工作原理的基础上,结合无线电探空数据建立了广西地区的Tm模型,并与采用回归法建立的单因素Tm模型和多因素Tm模型的精度进行对比,验证了支持向量机回归在大气加权平均温度建模方面的可行性和有效性,可为进一步研究Tm提供参考。

猜你喜欢
探空平均温度水汽
青藏高原上空平流层水汽的时空演变特征
京津冀地区FY-4A水汽校正模型研究
关于规范中最低日平均温度定义的探讨与建议
兰州地区区域加权平均温度模型构建方法研究
南方地区圆拱形和锯齿形大棚内温度四季差别探究*
用L波段探空测风雷达评估风廓线雷达测风准确性
福州探空气球的漂移轨迹特征及其对航空飞行的影响分析
区域MODIS水汽季节修正模型
国内首个无人机机载下投探空系统将探测台风
TK-2GPS人影火箭探空数据与L波段探空数据对比分析