大气环境指标的二元极值分析

2011-01-09 03:05任国荣李英男
关键词:二氧化氮尾部二氧化硫

任国荣 张 哲 李英男

(天津大学 理学院,天津 300072)

大气环境指标的二元极值分析

任国荣 张 哲 李英男

(天津大学 理学院,天津 300072)

文中给出了利用多元阈值模型求解随机变量尾部联合分布的方法,并将其应用于大气环境指标中进行实证分析.通过选取合适的阈值和Copula函数,得到了上海市近十年的二氧化硫和二氧化氮的API指数的尾部联合分布以及条件尾部分布.利用这些尾部分布函数可以预测污染指标的变化趋势,从而为气象部门提供天气预报的科学依据.

相关结构函数;阈值;二氧化硫;二氧化氮

0 引言

一直以来,大气环境质量是环境工作者十分关心的一个问题.检测一个城市的大气环境质量,需要监测点同时检测多个指标,如二氧化硫、二氧化氮、总悬浮颗粒物、一氧化碳等指标的浓度水平.目前针对大气环境的研究主要集中在分析单个污染因子或市区总体空气污染的变化特征及趋势[1,2],而对监测指标之间相关关系研究较少[3].郭建辉等人[4]利用主成分分析对上海大气环境的多个指标进行了研究.在实际生活中,一般的空气污染不会对人类和自然界造成危害,因而也不会引起人们的关注,但如果这些污染指标急剧变化达到一个很高的极端的水平,则会导致大气污染灾害,很容易引发各种疾病甚至威胁到我们的生命,例如20世纪美国的光化学烟雾事件.因此,同时对大气环境中的多个指标进行极值建模显得非常重要.本文同时研究二氧化硫和二氧化氮两个指标的极值,利用二元阈值方法,给出了两个指标的尾部联合分布.这为环保部门分析这些指标浓度未来的变化趋势提供了一些有效的依据,可以更好地预测这种极端事件在未来发生的可能性.例如,通过联合分布可以计算得到两个指标同时变化到一个极端水平的概率或者只有一个指标急剧变化的概率等,并且可以计算出每隔多少年出现一次大气污染灾害的概率.这样就为我们更好地防范大气环境剧变引发的环境灾害提供初步理论依据.

1 模型建立

极值统计是专门研究很少发生,然而一旦发生却有巨大影响的随机变量极端变异性的建模及统计分析方法.二元阈值方法是一元阈值方法的拓展,比一元方法更实用[5,6].在实际问题中,两个变量常常具有一定的相关性,这时就不能用一元方法建立阈值模型.我们除了考虑单个变量的极值变化,还需要考虑它们之间的相关结构.不同的相关结构对应不同的联合分布,从而具有不同的分布性质.相关结构与边缘分布的关系如下:

Sklar定理[7,8]设F是随机向量(X,Y)的联合分布函数,边缘分布函数分别为Fx(x),Fy(y),则存在一个相关结构函数C,使得

成立.如果F x(x)和F y(y)是连续分布函数,则C是唯一的;否则,C在Ran(F x)×Ran(F y)上唯一确定.反之,如果C是一个相关结构函数,F x,Fy为一元分布函数,则由式(1)定义的函数是一个边缘分布分别为Fx,Fy的二元联合分布函数.

由这个定理可知,当我们确定了两个变量的边缘分布和选定一个合适的Copula函数后,就很容易计算出这两个变量的联合分布.这就为我们构造二元极值联合分布提供了一种方法.这也是Copula函数在实际应用研究的优势所在.两个变量联合分布的确定也不再是难题.对于任意的随机向量(X,Y)~F(x,y),在连续条件下,由于分布可以唯一表示为F(x,y)=C(Fx(x),Fy(y)),所以我们只需要考虑边缘分布和合适的Copula函数.对于边缘分布,由于只是一维的问题,已经有很多方法可以解决,对于Copula的选择则需要具体问题具体分析,并结合一些评判准则来确定.

根据一元极值理论,我们可以得到边缘分布.通常有区组模型和超阈值模型,区组模型的原理是对所得数据进行分块,选取一定时间或一定范围内的最大值,而在实践中不只是数据的最大值才是极值,有时两个或两个以上的大值同处于一个区间内,这样使用区组法就会造成对数据的浪费.超阈值模型避免了这种情况,它的原理是选取一个较大的阈值,把超过这个阈值的数据都看做极值用来建模,这样就提高了数据的利用率.本文将采用这种方法.

定理[6,7]设Xi,i=1,2,…,n是独立同分布的随机变量,分布函数为F(x),对自然数n,令Mn=max{X1,X2,…,X n},如果存在常数列{an>0}和{bn},使得

μ,ξ∈R,σ>0分别是位置、形状和尺度参数,H(x)称为广义极值分布,则对于足够大的阈值u,在X>u的条件下,超出量X-u的分布近似为广义Pareto分布

由此可知,如果最大值Mn近似服从广义极值分布,则超出量X-u近似服从广义Pareto分布,分布函数G(y)上面已经给出,经过推导,可以得到超出阈值数据X的分布为

参数δ反映了X,Y之间的相关程度,当δ=1时,X与Y相互独立,δ越大,X与Y之间的相关性越强,当δ→+∞时,X,Y完全正相关.若令α=1/δ,则C(u,v,δ)=exp{-((-logu)-1/α+(-logv)-1/α)α},0≤α≤1,有时用α表示模型的相关参数,其中α的估计值可以通过极大似然方法得到,于是联合分布的估计为:F(x,y)=Cα(Fx(x),Fy(y)),x>ux,y>u y.

2 实证研究

我们选取上海市2000年1月1日到2010年1月1日的二氧化硫和二氧化氮的API指数两个指标为原始数据,样本容量为3 456个,以下计算均采用R软件完成.

首先这些数据的基本描述统计量如表3.1所示.

其次,分析两个指标之间的相关关系.通过计算得到它们线性相关系数是0.531 263 4,Kendall相关系数是0.442 742 1,Spearman相关系数是0.610 434 9,所以研究它们之间的极值相关有意义.

表1 基本描述统计量

第三,选择一元阈值模型分别对每个分量进行研究.根据平均剩余寿命图,如图1和2,可得到二氧化硫,二氧化氮的阈值可以分别选取65和65,由极大似然估计可以得出两个变量的参数估计值(ξ,σ,ζ)分别为(-0.153,12.96,0.119)和(0.018,25.99,0.111),模型诊断图说明,该模型的选取是合理的.

图1 二氧化硫的平均剩余寿命图

图2 二氧化氮的平均剩余寿命图

通过计算和比较,在众多的Copula函数中,最终采取logistic模型,通过极大似然估计我们得到了参数的估计值和标准误,如表2所示.模型诊断图表明模型拟合的比较好.

根据前面的分析,我们可以得到两个指标的尾部联合分布为

由(1)~(4)我们通过计算可以得到一个发生概率接近于1的高分位数,即我们可以得到二氧化硫的API指数满足条件F(x p)=1-p的高分位数x p,同理也可以求得二氧化氮API指数的高分位数y p,当p取不同的值时,就可以得到二氧化硫和二氧化氮API指数的高分位数估计值x p和y p,如表3所示.以二氧化硫为例,当p=0.05时,得到x p的估计值为75.98,它表示二氧化硫API指数超过75.98的概率为5%,也就是说平均100天有5天会超过75.98,那么一年365天大约有13天二氧化硫的API指数可以超过75.98,这与实际的统计结果非常吻合,同理,根据联合分布我们也可以计算当一个指标取极值时,另一个指标的高分位数.

表3 高分位数x p和y p的估计值

另外,我们根据两个指标的尾部联合分布可以对两个指标未来的走势做一些简要的预测分析.例如,我们可以计算得到二氧化硫API指数超过120的概率为P(X>120)=0.008 3,二氧化氮的API指数超过120的概率为P(Y>120)=0.015,当一个指标API指数超过120时,另一个指标的API指数也超过120的概率分别为P(X>120|Y>120)=0.34,P(Y>120|X>120)=0.61,由此我们可以看出两个指标的极值有较强的相关性.另外,我们还可以计算得到,两个指标的API指数同时上升超过120的概率为P(X>120,Y>120)=0.005,由此可知,每经过1/0.005=200天就会出现二氧化硫和二氧化氮API指数同时超过120,据此判断,一年中基本会有2天两个指标同时超过120.

3 结语

在许多和极值模型相联系的实际问题中,观测指标之间都具有相关性,在这种情况下,要想对这两个分量的尾部关系有更深入的认识,就必须考虑尾部联合分布.具体求解过程就可以利用本文给出的方法,先利用极值模型去拟合它们的边缘分布,然后选取合适的相关结构函数,根据相关结构函数中边缘分布与联合分布的关系就可得到多指标的联合分布.文中通过计算得到了二氧化硫和二氧化氮API指数的尾部联合分布,并且根据联合分布预测了这两种大气环境指标在未来的趋势,在一定程度上可以为环保部门提供一些有效的参考.

[1]杨书申,邵龙义,李凤菊,等.郑州市大气可吸入颗粒物单颗粒污染特征分析[J].辽宁工程技术大学学报(自然科学版),2008,27(5):774-777

[2]侯亚明.郑州市城区环境空气污染特征分析[J].河南科学,2004,22(2):273-276

[3]张兰真,王建英,赵乾杰,等.郑州市区环境空气污染趋势分析[J].河南气象,2006(2):52-54

[4]郭建辉,杨 磊,程新宝.上海市环境空气质量影响参数主成分分析[J].中国科技信息,2005,15:36-41

[5]尹 剑,陈芬菲.介绍一种二元阈值方法在股票指数上的应用[J].数理统计与管理,2002,21(2):26-29

[6]Coles S G.An introdution to statistical modeling of extreme value[M].London:Springer,2001

[7]史道济.实用极值统计方法[D].天津:天津科学技术出版社,2006

[8]梁冯珍.极值统计的理论及其在风险管理中的应用[D].天津大学,2006

[9]于秀林.多元统计分析及程序[M].北京:中国统计出版社,1993

Atmospheric Environment Analysis of Bivariate Extreme Value Index

Ren Guorong Zhang Zhe Li Yingnan
(College of Science,Tianjin University,Tianjin 300072,China)

We offer a multivariate threshold excess model to get the joint distribution of two indicators and study the applications in atmospheric environment indicators.Ultimately,this paper gains the joint distribution of API of sulfur dioxide and nitrogen dioxide in shanghai in recent 10 years through selecting appropriate threshold and Copula.

relevant structure function;threshold;sulfur dioxide;nitrogen dioxide

王映苗】

1672-2027(2011)03-0030-04

O212.1

A

2011-04-11

任国荣(1988-),女,山西忻州人,天津大学理学院在读硕士研究生,主要从事极值统计,数据挖掘研究.

猜你喜欢
二氧化氮尾部二氧化硫
船舶尾部响应特性试验与计算
二氧化氮具有独立急性健康危害 浓度升高显著增加死亡风险
海洋大探险
土地利用对空气污染的影响——基于珠江三角洲二氧化氮浓度分析
党参中二氧化硫残留量的测定
显色法快速检测10种中药材中二氧化硫残留
二氧化氮与水反应的微型实验
“二氧化硫与二氧化碳”知识归纳
二氧化氮标准气体发生装置及方法
烧结烟气中二氧化硫的测试方法