改进二项分布的性质及其应用

2016-02-11 06:37徐鹏鹏苏本跃
关键词:二项分布泊松安庆

徐鹏鹏,苏本跃

(安庆师范大学计算机与信息学院安徽省智能感知与计算重点实验室,安徽安庆246133)

改进二项分布的性质及其应用

徐鹏鹏,苏本跃

(安庆师范大学计算机与信息学院安徽省智能感知与计算重点实验室,安徽安庆246133)

二项分布是一种具有广泛用途的离散型随机变量的概率分布。针对二项分布应用的局限性,提出一种基于二项分布的改进模型,即通过引入控制参数,扩展了二项分布的适用范围,使其处理的数据来源既能满足二项分布的特点,又能满足数据集自身的相关特性。最后通过构造矩方程和极大似然方程可求出估计参数。

计数模型;离散型概率分布;改进二项分布;过离散现象

在对计数模型的探究中,经常会遇到计数资料符合二项分布的特点,但计数值中却存在大量零值,使数据的期望小于方差值。此时,二项分布对该计数资料的分析就存在局限性,需在二次项分布的基础上构建改进分布模型。

1 二项分布

随机变量X在n次试验中,每次试验有且仅有两种对立结果A与A,且每次A出现的概率为P(A)=p,P(A)=1-p=q,那么在n次独立试验中,该事件发生k次的概率为

当X~B(n,p)中参数n很大,p很小,而np大小适中(np≤10)时,二项分布可用泊松分布近似[1],即

当n→∞时,近似效果越佳。

当np≥5且np(1-p)≥5时,通常使用正态分布(Normal Distribution)来替代二项分布,即

(2)式就是著名的棣莫弗-拉普拉斯中心极限定理。当n→∞时,二项分布可以用正态分布来近似,即二项分布的正态逼近。由于是用正态分布近似二项分布,即用连续分布来近似离散分布,为减少近似误差,通常将区间由[a,b]增加到[a-0.5,b+0.5]来替代[2],即

在(3)式中p∈(0.1,0.9)时,近似效果较为理想。

当n很大时,一般都用正态分布来近似计算二项分布,但是当np又较小(比起n来说很小),那么用泊松分布近似计算更简单些,毕竟泊松分布跟二项分布一样都是离散型分布[3]。

2 改进的二项分布

设离散型随机变量K服从的分布为

为方便计算,通常选择将[n+αk]取整,参数α为全局参数,且p∈[0,1]。当α=0时,改进二项分布就退化为二项分布;当α=p时,改进二项分布即变为负二项分布。由概率的正则性公理可知

二项分布的期望np大于方差np(1-p),一般只适用于分布较为集中的数据集[4]。改进的二项分布通过引入参数α增加了概率分布的弹性,在其期望np(1-αp)-1,方差np(1-p)(1-αp)-3中得以体现,通过调节参数α,可以应对不同数据结构,拓宽了应用场景。

实验表明,一般当p<0.1时,甚至n很小,都会有很好的近似效果。例如当p=0.1,n=2,α<<0.1时,如表1所示。

表1 改进二项分布与泊松的拟合逼近

2.1 构造矩方程

2.2 构造极大似然方程

设随机变量X服从(4)式定义的改进二项分布,从总体X中选取一个大小为m的样本x1,x2,…xm,则其对数似然函数为

3 结束语

综上所述,在构造的改进二项分布中,当参数α=0时,该模型就退化成二项分布,此时E(X)=np,方差Var(X)=np(1-p),全局参数α不仅可以控制分布的期望与方差,同时还可用来刻画数据结构。当α<或α>1时,则E(X)≥Var(X),此时就可以处理分布相对集中的数据结构,即处理存在欠离散(Under-Dispersion)现象的数据;当α时,则E(X)<Var(X),此时改进分布就可以处理存在过离散[5](Over-Dispersion)现象的数据了。最后,通过构造适当的矩方程或极大似然方程可估计出参数α的值。

针对数据源本身符合二项分布的特点,但数据集内部隐含的信息(如期望,方差)又不满足二项分布的特征,此时使用二项分布来处理显然不合理。通过构造改进二项分布,使其处理的数据既能满足二项分布的特点,又能满足数据自身的分布特性。所以,通过参数的调节可以增加模型的使用范围和广度,同时也拓展了应用的空间与场合。

[1]周概容.概率论与管理统计基础[M].上海:复旦大学出版社,2004.

[2]魏振军.概率论与数理统计三十三讲[M].北京:中国统计出版社,2013.

[3]于洋.浅析二项分布、泊松分布和正态分布之间的关系[J].企业科技与发展,2008(20):108-110.

[4]范文正,梁亚民.集中与离散是数据集合的本质[J].统计教育, 2006(2):27-28.

[5]BAKSH M F,BöHNING D,LERDSUWANSRIR.An extension of an over-dispersion test for countdata[J].Computational Statistics& Data Analysis,2011,55(1):466-474.

Improved Binomial Distribution Modeland Its Properties

XU Peng-peng,SU Ben-yue
(School of Computer and Information,University Key Laboratory of Intelligent Perception and Computing of Anhui Province,Anqing Normal University,Anqing,Anhui246133,China)

Probability of binomial distribution is a broad use of discrete distribution of random variables.Aiming at the limitations for application of the binomial distribution,an improved model is proposed,which is based on binomial distribution. The scope of binomial distribution is expanded by introducing the control parameters,which makes the processed data source meet the binomial distribution characteristics as well as their own relevant characteristics of the data sets.Finally,the values of the parameters are obtained by constructing themoment equation or themaximum likelihood parameter estimation equation.

count model;the discrete probability distribution;improved binomial distribution;over-dispersion phenomenon

TP3

A

1007-4260(2016)04-0011-03

时间:2017-1-3 17:19

http://www.cnki.net/kcms/detail/34.1150.N.20170103.1719.004.html

2016-04-19

国家自然科学基金(11471093),安徽省教育厅自然科学研究项目(KJ2014A142),国家统计局计划项目(2013LY080)和安徽省高校科研平台创新团队项目。

徐鹏鹏,男,安徽六安人,安庆师范大学计算机与信息学院硕士研究生,研究方向为统计学习与预测、数据挖掘等。

E-mail:1273611645@qq.com

10.13757/j.cnki.cn34-1150/n.2016.04.004

猜你喜欢
二项分布泊松安庆
基于泊松对相关的伪随机数发生器的统计测试方法
安庆师范大学优秀校友
二项分布与超几何分布的区别与联系
鱼殇
一类带有两个参数的临界薛定谔-泊松方程的多重解
安庆师范大学优秀校友
深度剖析超几何分布和二项分布
概率与统计(1)——二项分布与超几何分布
带有双临界项的薛定谔-泊松系统非平凡解的存在性
二项分布参数的E-Bayes估计及其应用