基于Nakagami分布的风速概率分布拟合研究

2024-02-21 09:40黄武枫郑含博杜齐杨杭
电测与仪表 2024年2期
关键词:瑞丽伽马概率分布

黄武枫,郑含博,杜齐,杨杭

(广西大学 电气工程学院, 南宁 530004)

0 引 言

风能作为 一种低碳、可再生且无污染的新能源,在世界范围内快速地发展。根据全球风能理事会2019年报告,全球风机新增装机容量比2018年增长19%,增长了60.4 GW,累加风机装机容量达到651 GW[1]。风能的大规模发展对风能利用技术提出了更高的要求,诸如风电输送[2]、消纳、储能等问题被广泛地研究。其中对风速特性与风能潜力进行评估是首要且重要的步骤。风速概率分布反映中长期的风速特性,其特征对评估某个地点的蕴藏风能潜力非常重要。文献[3]指出,即使两台安装在平均风速相近地区的风力涡轮机,由于风速特性的不同也会产生完全不同的功率输出,这体现了风速概率分布研究的重要性。

研究风速特性主要有两种方法,一种为风速时序模型[4-7],另一种为风速概率分布模型[8-17]。风速时序模型主要描述按时间发生的风速特性。主要有人工神经网络法[4]、支持向量机法[5-6]、灰色模型法[7]等。风速概率分布模型侧重于描述中长期风速分布特征,主要应用于风能资源估计、风场规划调度等领域。风速概率分布通常使用理论参数分布模型进行研究,瑞丽分布是较早用于拟合风速概率分布的参数分布模型[8]。瑞丽分布只有一个参数需要计算,因此其计算十分简便,但也导致了拟合精度较低的缺点[9]。二参数伽马分布广泛地应用于欧洲地区,并取得了较好的拟合效果。最广为使用且并被认为最适合拟合风速概率分布的参数分布为二参数威布尔分布模型[10-12],威布尔分布通过调整形状参数与尺寸参数以适应各种类型的风速分布。尽管如此,有研究发现威布尔分布在很多地区的拟合精度不佳[13]。对数正态分布在文献[14]中被提出并与二参数威布尔分布在西班牙的20个地点进行了比较[15],其结果表明平均风速少于2 m/s时,对数正态分布比威布尔分布有着更高的拟合精度,平均风速大于2 m/s时威布尔的拟合表现更优。为了更为精确地拟合风速概率分布,三参数广义极值分布被提出并在印度进行了应用[16]。文献[17]提出了混合威布尔分布用于拟合少见的双峰类型的风速概率分布,该方法通过叠加两个威布尔分布以描述双峰特征。然而文献[3]指出混合威布尔分布需要解五条非线性方程,计算复杂同时也容易产生过拟合问题。

Nakagami分布作为一种有效的移动无线电和衰落信道模型在通信中得到了广泛的应用[18]。除此之外,Nakagami分布还应用于医学[19]、水文科学[20]以及卫星通讯[21]等领域。当前少有报道将Nakagami分布引入风速概率分布拟合研究领域。由于风速数据受地形影响巨大,因此本研究风速数据采集覆盖美国西部海岛、沿海以及山区的八个站点。多样的采集地点避免了少数采样地点以及相邻地点风速研究产生过拟合的问题,并使得本研究结论更加可靠。

1 风速概率参数分布模型

研究风速概率分布参数模型对风速特征以及潜在风能评估有着重要作用。Nakagami分布将与其它六种参数分布模型进行对比,分别为瑞丽分布、对数正态分布、伽马分布、威布尔分布、广义极值分布以及JohnsonSB分布。

文献[22]指出极大似然法具有非常优秀的性能,比最小二乘法法更加精确。为了更好地确定上述分布的参数,使用极大似然法进行参数估计。

1.1 Nakagami分布

Nakagami分布的概率分布函数以及累积分布函数表达式为:

(1)

(2)

式中Gu表示上不完全伽马函数;Γ表示伽马函数。其中的m和Ω分别表示Nakagami分布的形状和尺寸参数,两个参数可以使用式(3)、式(4)进行估算:

(3)

(4)

当m<1/2时,表达式中v2m-1分量的幂(2m-1)为负数,风速v趋于0时v2m-1值为无穷大,因此需要对形状参数m取值范围进行限制,即m≥1/2。

1.2 瑞丽分布

瑞丽分布只有一个参数需要估算,简便的计算使其有着广泛的应用。瑞丽分布本质上是形状参数固定为2的威布尔分布的特殊表现形式。瑞丽分布的概率分布表达式为:

(5)

瑞丽分布的累积分布函数表达式为:

(6)

式中v为风速,单位为m/s;为瑞丽分布的尺寸参数。

使用极大似然法估计瑞丽分布参数,通过求解瑞丽分布的似然函数,参数估计表达式为:

(7)

式中vi表示第i个风速数据。

1.3 伽马分布

伽马分布的概率分布表达式为:

(8)

伽马分布的累积分布表达式为:

(9)

式中α为伽马分布的形状参数;β为伽马分布的尺寸参数,Γ为伽马函数。两者通过式(10)、式(11)进行计算:

(10)

(11)

式中n为数据样本个数;ψ为伽马函数对数的导数函数即digamma函数。

1.4 对数正态分布

对数正态分布的概率分布表达式为:

(12)

对数正态分布的累积分布函数为:

(13)

式中μ和σ分别为对数正态分布的尺寸参数与形状参数。使用极大似然法对其进行计算,有:

(14)

(15)

1.5 威布尔分布

威布尔分布是最为广泛使用的参数分布模型,威布尔分布的概率分布表达式为:

(16)

威布尔分布的累积分布表达式为:

(17)

式中v为风速,单位为m/s;c为威布尔分布的尺寸参数;k为威布尔分布的形状参数。使用极大似然法进行上述参数的估计有[22]:

(18)

(19)

1.6 广义极值分布

广义极值分布是一个三参数分布模型,其概率分布函数与累积分布函数分别为:

(20)

(21)

使用极大似然法对其进行参数估计,由于没有解析解,因此需要对似然函数进行迭代计算得到近似解。广义极值分布的似然函数为:

(22)

1.7 Johnson SB分布

JohnsonSB分布由Johnson通过向正态性的转换引入,是Johnson分布系统三个族类之一。其概率分布函数为:

(23)

式中v∈[ξ,ξ+λ],且λ和δ大于0,ξ和λ分别为JohnsonSB分布的位置与尺寸参数。参数γ和δ会影响函数的形状。特别地,增加γ的绝对值会引起偏度的增加,增加δ的值会导致峰度的增加。使用极大似然法对其进行参数估计,JohnsonSB分布的似然函数为:

(24)

可以使用牛顿拉夫逊迭代法或最大期望法对JohnsonSB分布的极大似然函数进行迭代求解。

2 拟合优度指标

校验风速概率分布模型性能需要使用拟合优度指标,决定系数(Coefficients of Determination, R2)、均方根误差(Root Mean Square Error, RMSE)、误差平方和(Sum of Squares of Errors, SSE)以及Kolmogorov-Smirnov (KS)是常用的风速概率分布拟合校验指标。

2.1 决定系数

R2是计算实际值与预测值之间的方差大小的指标,R2在风速概率分布拟合校验中应用广泛,其值越接近1表明拟合效果越好。决定系数的计算公式为:

(25)

2.2 均方根误差

RMSE通过实际概率和预测概率之间的逐项比较来确定模型的精度。均方根误差校验值越小,表明拟合效果越好,其计算公式如下:

(26)

2.3 误差平方和

SSE主要校验实际值与预测值之间的误差平方和,其值越小表明拟合效果越好,表达式为:

(27)

2.4 Kolmogorov-Smirnov 校验

KS校验表示实际累积分布与预测累积分布之间最大的误差绝对值,对应的计算公式为:

(28)

选择上述四个拟合指标作为校验标准,多个拟合指标共同,使用使得校验结果更加准确。

3 算例研究

风速概率分布受地理位置影响极大,为了验证某个参数分布的性能需要多样化的数据采集。因此,选取美国西部八个站点的气象数据,覆盖海岛、沿海以及山区三类地形。其中,Rome(KREO)和Needles(KEED)两个站点位于山区,Fresno(KFAT)站点介于沿海与山区之间,Brookings Airport(KBOK)、Crescent City(KCEC)、Half Moon Bay Airport(KHAF)与South County Airport of Santa Clara County(KE16)四个站点位于沿海地带,San Nicolas Island Naval Outlying Field(KNSI)则位于太平洋的海岛上。上述八个站点覆盖多种地形以及广大的地理区域,使用参数分布模型对不同地形的风速数据进行拟合比较可以获得较为准确的结论,同时避免选取单个或者相邻几个站点所引起的过拟合问题。特别地,站点括号内为气象站的编号信息。为了简便表述,使用站点编号进行描述。所选站点所在的位置,如图1所示。

图1 美国西部所选气象站点的位置

表1呈现八个站点的坐标、采样时间周期、海拔高度、采样间隔以及数据个数信息。采样周期从2017年-2019年,大部分为2019年全年风速数据。海拔从17 m~1 235 m,数据采集间隔从5 min~60 min,数据个数最少为8 664个,最多达到113 764个。该数据样本覆盖范围广泛,而且采样周期、海拔高度与数据量均不尽相同。这使得数据能代表不同数据采集时长、不同高度和地理位置的风速类型。

表1 采样点的位置信息

表2提供了八个站点的数据统计信息,包括最大风速、平均风速、标准差、偏斜度与超值峰度。平均风速表示风速的算术平均值,标准差表示数据偏离均值的程度。其中位于海岛的KNSI站点平均风速最高,沿海的KBOK站点平均风速最低。偏斜度定义为风速样本的三阶标准矩,表示数据样本概率分布的不对称性。

表2 风速数据的统计信息

八个站点的偏度均为正值表明所有数据的概率分布都右偏,这与图2所示的实际分布情况是一致的。超值峰度反映概率分布的陡峭度,表2中所有超值峰度均为正值,表明风速概率分布均比正态分布更加陡峭。由此可推断出风速概率分布多数具有尖峰肥尾(陡峭右偏)的特征。进一步地,由于风速概率分布有此特征,所以常用的正态对称分布不适合拟合风速概率分布。

图2 各站点实际风速概率分布与拟合模型

Nakagami分布、瑞丽分布、伽马分布、威布尔分布、对数正态分布、广义极值分布以及Johnson SB分布比正态分布更能描述风速概率分布的尖峰肥尾特性。将其用于八个站点的风速数据进行拟合,并使用极大似然法进行参数估计,各分布模型的参数值如表3所示。

表3 各站点分布参数

从表3中发现,Nakagami分布的形状参数大部分处于0.5~0.6之间,其尺寸参数值则波动较大。

将极大似然法所计算得到的参数值代入相应的概率密度分布表达式中,计算概率密度分布。各分布模型图像统一绘制在实际概率分布的条形图上,如图2所示。结合图2可以清晰地发现,对数正态分布与实际分布之间有着较大的拟合误差。但是,其余的分布模型拟合性能的好坏无法直观从图像得出,因此需要使用拟合校验指标进行量化比较。

为了校验理论分布模型的拟合优度,使用到R2、RMSE、SSE以及KS四个拟合校验指标。其中的R2的值越接近1表示拟合精确越高,其余三个拟合指标越小表明拟合效果越好。各分布模型的拟合指标如表4和表5所示。

表4 低参数分布模型的拟合精度

表5 多参数分布模型的拟合精度

由于Nakagami分布为二参数分布,因此首先与参数较少的一参数瑞丽分布与二参数对数正态、伽马以及威布尔分布模型进行对比。如表4所示,校验结果表明Nakagami分布在R2、RMSE、SSE以及KS四个拟合校验指标均值中取得第一。二参数威布尔分布具有较优的拟合精度,在四个指标均值比较中取得第二。同为二参数的Nakagami分布比威布尔分布拥有更高的拟合精度,所以其有潜力取代经典的威布尔分布。特别地,一参数瑞丽分布在三个站点提供了最高精度,然而其余站点的拟合精度却很低。这证明瑞丽分布在某些站点拟合效果精确,但对整体而言拟合效果十分不稳定。

将Nakagami分布与三参数的广义极值分布、四参数的JohnsonSB分布进行拟合比较。广义极值分布在KCEC、KEED、KNSI以及KREO四个站点获得最优的拟合度,Nakagami分布则在KE16、KFAT、KHAF和KBOK获得最佳的拟合度。在拟合指标均值中发现,Nakagami分布的RMSE与SSE拟合指标中比广义极值分布更精确。结合表2的风速数据统计信息与表4、表5的拟合精确度可以得到一项重要的发现:当站点的平均风速小3 m/s时, Nakagami分布在该站点取得的拟合精度为所有分布中最高,如KE16、KBOK和KFAT三个站点。这表明Nakagami分布拟合平均风速低于3 m/s的风速概率分布时,具有非常优秀的拟合性能。

值得注意的是,四参数的JohnsonSB分布没有在任意站点取得最高的拟合精度,但是其平均精度却是所有分布中最高。这表明,较少的数据样本进行研究容易引起过拟合问题。此外,结合一参数瑞丽分布的平均拟合精度、二参数的威布尔分布、三参数的广义极值分布以及四参数的JohnsonSB分布的平均拟合精度,可以得到参数越多分布模型拟合精度一般越高的结论。

然而,参数越多越容易引起计算上与应用上的困难。以JohnsonSB分布为例,JohnsonSB分布需要估计四个参数即需要求解四条非线性方程,计算复杂度远高于二参数的Nakagami分布。Nakagami分布有固定的参数估计公式,计算十分简便。在实际应用中发现,JohnsonSB分布对某些风速样本进行参数估计时极大似然法不能收敛,表明JohnsonSB分布不能拟合该样本。Nakagami在拟合精确度比较中,R2值仅比JohnsonSB分布低0.009 527。综合考虑拟合精度与计算难度,Nakagami分布更适合拟合风速概率分布。

4 结束语

引入Nakagami分布对美国西部覆盖沿海、海岛和内陆八个站点的风速数据进行拟合研究,对比瑞丽分布、伽马分布、对数正态分布、威布尔分布、广义极值分布以及JohnsonSB分布。研究发现,Nakagami分布与参数较少的分布进行拟合对比,在八个站点的四个拟合度指标中均取得最优精度。与参数较多的广义极值分布和JohnsonSB分布比较中,Nakagami分布在四个站点取得最优。结合风速数据的统计信息发现,当平均风速低于3 m/s时,Nakagami分布比其它所有分布具有更优的拟合精度,表明Nakagami的低风速分布拟合性能非常优秀。综合考虑拟合精度与计算复杂度,Nakagami分布在拟合风速概率分布领域更具优势。

猜你喜欢
瑞丽伽马概率分布
“拉索”精确测量最亮伽马暴
宇宙中最剧烈的爆发:伽马暴
Status and Development Trend of Evaluation of Post-Marketing Traditional Chinese Medicines in China
离散型概率分布的ORB图像特征点误匹配剔除算法
Local Existence and Global Nonexistence Theorems for a Viscous Damped Quasi-Linear Wave Equations
Understanding Gamma 充分理解伽马
Enlightenment from WHO Pharmacovigilance in Construction of Chinese Materia Medica Pharmacovigilance System
关于概率分布函数定义的辨析
基于概率分布的PPP项目风险承担支出测算
随钻伽马能谱仪在录井中的应用研究