基于混合正态分布的降水量分布特征估计 *

2022-03-07 11:51李娇华

广西民族大学学报(自然科学版) 2022年4期

李娇华

（广西师范大学数学与统计学院，广西桂林 541004）

0 引言

近年来，全球性气候变化对环境、粮食生产的影响受到世界各国政府和专家学者越来越多的关注。我国是农业大国，国民经济的基础是农业，农业是受天气和气候影响最大的领域。气候的变化将会直接影响我国的粮食安全及其可持续发展。因此，研究降水量及其分布规律不仅有重要的气候学意义，而且对农业生产、水资源管理以及防灾、减灾有着重要的现实意义。

在应用中，单分布函数模型成为降水量概率密度估计中最常用的方法。正态分布模型、对数正态分布模型、Gamma分布模型是单分布函数模型中最常用的分布模型。在某些情况下，使用这些模型分析往往能取得不错的效果。吴慧在文献［1］中使用海南省18个测站收集1966-2003年的资料，结果得出在0.01的信度检验下春、夏、秋季降水数据基本符合正态分布。刘慧等人在文献［2］中使用宜宾市1953-2010年的春季降水量数据资料，降水量分布分别采用正态分布、Gamma分布、对数正态分布和P-Ⅲ型分布对春季降水量分布进行研究。通过检验发现，对数正态分布对宜宾市春季降水量的拟合效果最好。Mooley在文献［3］中使用Gamma分布对亚洲夏季月降水量进行模拟，结果表明该模型适合亚洲夏季季风的月降雨量。然而不少研究表明，气候变化较大的地区，使用单分布模型并不能很好地估计某地区的降水量分布，需要新的模型来估计。Li等人在文献［4］中使用指数分布、Gamma分布、Weibull分布等单分布模型以及混合概率分布拟合日降水量，考查其模拟中国黄土高原地区日降水分布特征的效果。

曹杰等人在文献［5］中研究发现，我国降水量分布具有一定的区域性。事实上，降水量分布不会很好地服从正态分布。如果对降水量的研究均是假定服从正态分布，其预报区间估计和显著性检验结果将会产生偏差，导致估计精度降低。下面我们以南宁市2000-2019年的年降水量为例来分析其概率分布，原始数据来源于国家气象科学数据共享服务平台-中国地面气候资料日值数据集（V3.0）。降水量的直方图和混合正态分布拟合曲线（实线）如图1所示。图1的横坐标表示南宁市2000-2019年的年降水量（单位：100 mm），纵坐标表示出现该降水量的频率。由图1看出，南宁市2000-2019年降水量数据出现双峰状，该数据显然不是对称型的正态分布，应该为混合正态分布。为进一步分析此情况，计算其相关数字特征，得到其均值为14.56，方差为3.95，偏度为0.50<0，峰度为-0.52<3，结果说明与正态分布的数字特征有一定偏差。Shapiro-Wilk正态性检验显示，显著性概率p值为5.529×10-7<0.05，因此，可以说明该地区年降水量数据不服从正态分布。

针对南宁市2000-2019年的年降水量数据，我们使用混合正态分布和正态分布进行拟合比较，其拟合分布的密度曲线见图1和图2中的虚线。结合两个图，可以直观看出，正态分布的刻画并没有很好体现出降水量数据的分布，相比之下，混合正态分布是对降水量数据较好的一个刻画。

图1 南宁市2000-2019年的年降水量直方图和混合正态分布拟合曲线

图2 南宁市2000-2019年的年降水量直方图和正态分布拟合曲线

本文以南宁市为例，借助混合正态分布对降水量分布的总体参数进行估计，从而研究其分布规律。

1 有限混合正态分布及其参数估计

混合模型在计量经济学和社会科学中得到广泛的应用，其理论也得到广泛的研究。其中，在混合模型中应用较多的是混合正态分布模型。更多的混合正态分布模型理论研究可以参考文献［6-9］。首先给出混合正态分布的概率分布模型：

其中，αk是系数是正态分布的密度函数，，则

称为第K个分模型。

下面简单介绍混合正态分布模型参数估计的EM算法，具体推导过程可参见文献［9］。假设观测数据y1，y2，…，yN由混合正态分布生成，

其中，θ=（α1，α2，…，αK；θ1，θ2，…，θK)，我们用EM算法来估计混合正态分布模型的参数θ。经过计算，可以给出第i次迭代的参数为：

由此，估计混合正态分布参数的EM算法总结如下：

（1）给出参数的初始值进行迭代；

（2）E步：根据当前模型参数，计算分模型k对观测数据yj的响应度

（3）M步：计算第i步迭代的模型参数：

（4）重复第（2）和（3）步骤，直到对数似然函数值不再有明显变化为止，最终可以得到模型的参数估计为

加入的废液偏少，BT值会偏高，溶液呈乳白色，易形成“碱式絮状物”，液相与固相比重差缩小后造成镉渣漂移、出口含固量升高、首槽镉渣品位低、除镉反应器含镉梯度不明显、迫使锌粉更换加快等一系列化“恶性循环”。废液加入过多，BT值偏低，消耗锌粉量增加，槽内产生气泡，同样影响沸腾层的稳定。通过长时间试验发现：除镉 BT值适宜控制在0.7～1.2之间，宜低不宜高。

本文主要探讨k=2的情形，即两个混合正态分布，计算该分布的均值和方差为：

其中α1+α2=1，假设mα表示两个混合正态分布的α分位点，可以得到公式

其中Φ（·)表示标准正态分布的分布函数，按照此公式可以通过隐函数算出mα。利用α分位点和混合正态分布的参数可以掌握样本的重要信息，并推出其潜在规律以及变化趋势。利用前面收集到的样本数据并使用EM迭代算法，可以获得参数估计

本文接下来将通过模拟对模型参数及其变化规律做简单探讨。

2 数值模拟

基于混合正态分布模型的参数迭代公式，并借助R软件进行数值模拟实验，对EM算法求解混合正态分布模型中参数估计问题的可行性和准确性进行验证。并考虑当数据来自混合正态分布模型时，使用混合正态分布估计的参数和使用正态分布估计的参数结果进行比较。假设数据y1，…，yn是来自总体分布

我们考虑以下几种情形，主要考虑混合正态分布的参数变化情形，包括混合比例变化、均值变化、方差变化等方面。情形1和情形2主要观察混合比例的变化；情形2和情形3主要观察均值的变化；情形3和情形4主要观察方差的变化。

以上4种情形分别产生20、50、100、300和500个样本容量（n)进行模拟重复10 000次。按照以上4种情形，分别计算相应的参数估计。为了方便比较，我们主要考虑不同样本下的参数估计μ̂，σ̂2，m̂α及其对应标准差（即表格中括号内的数字）；整体均值95%对称置信区间（即模拟数据按照从小到大排序后首尾两端各自去掉2.5%）以及对应的区间长度。模拟实验的主要估计结果如表1和表2所示。

根据模拟结果表1和表2可以得到以下结论：

（1）从表1可以看出，混合正态分布的总体均值和总体方差估计具有相合性。随着样本容量不断增加，估计值逐渐趋于真实值。估计值对应的标准差也逐渐减小，即数据分布越稳定。

（2）从表1中的情形1和情形2来看，混合比例的变化会影响总体均值和方差的数值改变。一般来看，均值增减的趋势和方差增减的趋势是相反的，即均值减小时，方差则增加。分位数的变化方向和均值变化方向是一致的。从情形3和情形4来看，方差的变化对均值和0.05分位数的影响不大。

表1 各情形下的参数估计

（3）从表2可以看出，当真实总体服从混合正态分布时，在95%的置信水平下，总体均值的置信区间估计的区间长度小于正态分布估计的区间长度。

表2 各情形下整体均值的置信区间估计（置信水平为95%）

3 实证分析

在本节中，我们选取前面所述的南宁市2000-2019年的年降水量数据作为实例对前面介绍的方法进行分析。年降水量数据共有240个数据。根据图1可以看出，南宁市2000-2019年的年降水量数据直方图呈双峰状，第一个峰值接近13，第二个峰值接近15，因此主要考虑两个混合正态分布即k=2的情况来分析该降水量。

使用R软件可以得到表3参数估计的结果，根据参数估计结果可知，年降水量数据服从混合正态分布，即：0.34N（12.87，0.22)+0.66N（15.43，3.65)。经过计算，该数据的总体均值为14.55，总体方差为3.94，0.05分位数为12.17。其中，混合正态分布的0.05分位数为12.15。若降水量数据来自均值为14.55，方差为3.94的正态分布，则0.05分位数为11.28。因此，在混合分布假设下，混合正态分布的0.05分位数更接近样本的0.05分位数。

表3 参数估计结果

整体均值置信区间估计结果如表4所示。从表4可以发现，在95%的置信水平下，降水量数据服从混合正态分布总体均值的置信区间估计的区间长度小于正态分布估计的区间长度，说明混合正态分布总体均值的置信区间估计更精确。因此，选择混合正态分布拟合年降水量数据对降水径流模拟、水库调度及水资源规划配置、农业规划等方面的研究均具有重要意义。

表4 降水量数据的整体均值置信区间估计（置信水平为95%）

4 结论

本文主要探讨基于混合正态分布模型的降水量分布特征，利用南宁市2000-2019年的年降水量数据并通过模拟实验使用EM算法对分布参数进行估计，找到最优的参数进行拟合。结果发现，在年降水量数据拟合时，混合正态分布模型的拟合效果要优于正态分布模型的拟合效果。由此可见，混合正态分布可以应用于呈多峰形的降水量数据分析，在气候研究中具有很好的效果。