卡方分布的性质与应用探讨

2016-07-03 11:09
中文信息 2016年1期
关键词:孟德尔卡方频数

杜 蒙

(榆林市第一中学,陕西 榆林 719000)

一、卡方分布的理论概述

若n个相互独立的随机变量均服从标准正态分布,则这n个均服从标准正态分布的随机变量的平方和构成一个新的随机变量,其分布规律称为卡方分布。其中参数n称为自由度,自由度不同卡方分布就不同。从以上的定义介绍中我们可以看出,卡方分布实际上是由正态分布构造而成的一个新的分布,这也正说明了正态分布在数理统计中的重要作用。卡方分布是概率论和统计学中重要的一种开率分布。卡方分布常用于假设检验和置信区间的计算。

二、卡方分布的性质

1.卡方分布的图像分布在第一象限,且呈正偏态.

2.卡方分布随着自由度增加而逐渐趋向于对称,df很大时接近正态分布,当df趋向于正无穷大时,分布即为正态分布。

3.卡方分布只有一个参数,即自由度n,不同的自由度决定不同的卡方分布,自由度越小,分布越偏斜。

4.卡方分布的均值为自由度n,记作Eχ2=n,这里的符号“E”是表示对随机变量取平均值的意思;卡方分布的方差为二倍的自由度,即为Dχ2=2n,这里的符号“D”表示对随机变量求方差。

5.卡方分布具有可加性:如果k个服从卡方分布而且相互独立的随机变量,则它们的和仍然服从卡方分布,这个新的卡方分布的自由度为原来的k个卡方分布自由度之和。

6.不管自由度n是多少,卡方分布曲线下的面积都是1.

7.卡方值都是正数。

三、卡方检验的应用

1.卡方检验的简单介绍

卡方检验的基本步骤是:第一步,建立原假设H0(正常情况下结论,不以否定的)和备择假设;第二步,根据理论分布或者理论经验建立期望频数;第三部,由实际频数和计算出来的期望频数来计算样本的卡方值,卡方检验的基本公式是:

其中,表示实际频数,表示期望频数,表示卡方值。在实际应用中,调查资料或者实验得出的若干个实际频数与理论频数之间的差别可以用公式一来表示,如果样本量足够大,要是大于40而且理论频数大于5,则公式一就近似服从卡方分布,样本来那个越大,近似程度就越好;第四步,根据显著性水平α和自由度在卡方分布概率表中找出相对应的卡方临界值,如果卡方临界值小于运算得出的卡方值,就接受原假设,如果卡方临界值大于运算得出的卡方值,就拒绝原假设,接受备择假设。在卡方分布的应用研究中,常用于两种情况:拟合度检验和独立性检验,下面我们就论证了这两种应用。

2.单一因素的卡方拟合度检验

我们都知道,影响一个事物的因素可能是多种多样的。同样的,在非参数检验过程中,只有一个因素改变的检验成为单因素检验,多个因素同时改变的检验成为多因素检验。拟合度检验是对已经制作好的预测模型进行检验,比较它们的预测结果与实际发生情况之间的吻合度。

2.1 检验数据之间有无差异性

检验观测的数据之间的差异性是比较简单的单因素卡方检验,只是简单的检验了分成多项的频数之间在数量上有无明显的差异。下面这个例子是这一检验在语言研究中的应用。

例为了了解学生学习数学的动机,我们做了一次小范围的问卷调查,这次问卷分为了5个项目,调查了100名普通高校大一学生,调查问卷的结果如表二所示。现在的问题是,从问卷调查结果分析学生学习数学的动机有无显著性差异?

表一学生学习英语的动机实际频数表

上表所给的数据是计数数据而且样本量不大,比较适合用卡方拟合度检验。问题具体分析步骤如下:

(1)建立原始假设和备择假设。原始假设认为每个学生学习数学的动机之间没有明显的差异;备择假设则认为学生学习英语的动机有明显的差异。

(2)计算出期望频数。如果学生学习数学的动机没有明显的差异,则100名学生对5个项目的选择概率应该是相等的,所以期望频数的公式是:期望频数=总数/分类的项目数

将表一中的数据代入公式2,得出的结果是:期望频数=总数/分类的项目数=100/5=20

(3)计算卡方值。

(4)计算自由度。在这个问题中共有5个分类项目,即比较5个分类项目的频数,但是在实际计算中,最后一个分类项的频数是由全部频数减去前面4个频数所得到的,因此实际上只有4个独立信息。所以计算这类检验的自由度公式是:df=n-1=5-1=4,所以自由度是4.

(5)查表。查表可知,当自由度为4时,显著性水平位0.05,卡方临界值是 9.49。

(6)得出结论。由于计算出的卡方值23.9大于12.6,这说明观测数据之间存在着明显的差异,因此拒绝原假设接受备择假设,也就是说学生学习数学的动机是存在着明显差异的。

2.2 检验样本分布与理论分布模型之间的拟合度

单因素卡方检验中的另一个重要的用途是检验样本分布与特定分布模型或者某一理论分布模型是否拟合,下面这个例子是检验样本是否服从孟德尔遗传定律。

例按照孟德尔的遗传定律,让开淡红色花的豌豆随机交配,子代可以开出红花、淡红花、白花三类,它们的比例是1:2:1,为了验证这个理论,我们特别安排论了一个实验,实验得到的开红花、淡红花、白花的豌豆的株数分别是26,,66,28,现在的问题是验证这些数据与孟德尔遗传定律是否一致。

如果以分别表示随机交配的豌豆开红花、淡红花、白花这一事件,那么孟德尔遗传定律认为,

p1=,为了验证这些数据与孟德尔遗传定律是否一致,就是要检验

现在共进行了n=26+66+28=120次观测,其中发生的频数分别是26,66,28,而在原始假设下期望的频数是30,60,30,所以

查阅卡方分布概率表得,在自由度为2,显著性水平为0.05时,卡方分布的临界值是5.991,大于1.267,因此不能拒绝原始假设,即实际数据与孟德尔的理论模型没有显著差异。

3.多因素卡方检验

卡方检验除了能进行拟合度检验之外,还能进行分析俩个或多个因素之间有无关联。下面我们来介绍卡方检验在列联表独立性检验和四个表独立性检验中的应用研究。

3.1 列联表独立性检验

随机试验的结果往往要记录各个研究对象的两个或者多个分类属性。这时样本中具有各个属性的频数统计就需要按照各个属性的交叉分类进行。特别的,在两个分类属性时,往往要用一个矩形表来列出两个属性交叉分类下每种组合的频数,这种表就称作为列联表。有一种2×2的列联表叫做四格表。

3.2 齐一性的卡方检验

汇总在两向列联表中的数据,在采集的时候可有各种不同的情况。有时候其中两个属性不能都看为是随机的。

例如在流行病的研究中,为了研究得病与否与某个生活习惯的关系,往往预先规定对一定数量的患者与非患者进行观测。例如,在下表中就是对262名心血管病人和519名(大体上两倍)无心血管疾病的公民询问他们是否有吸烟史的调查结果。希望由此来比较在这两个人群中有吸烟史的比例是不是相同。

?

在上表所示的数据中,被调查的心血管病患者与非心血管病患者的比列是262::519。这个采样比例是根据研究的需要确定的,但是这个比列并不能反映出整个人群中患病的人与不患病的人的比例。因此在分析这个数据的时候,不应该将患病与否这个属性作为随机的。而是应该讲这两个人群分别作为不同的总体,在这两个总体中比较其吸烟者的比列。

四、结束语

综上所述,我们主要研究的是卡方分布的八条性质和卡方分布在现实生活中的应用。本文的难点就是在研究列联表独立性检验和齐一性卡方检验时,卡方统计量的推导以及列联表独立性检验和齐一性卡方检验的区别,也就是说不是很明确在什么情况下用列联表独立性检验,什么时候用齐一性检验,虽然最后的卡方统计量的计算公式是一样的,但是其中的原理确实有很大差异的。

猜你喜欢
孟德尔卡方频数
纪念遗传学奠基人孟德尔诞辰200周年
历史的另类解读——论孟德尔之幸与不幸
卡方检验的应用条件
卡方变异的SSA的FSC赛车转向梯形优化方法
卡方检验的应用条件
学习制作频数分布直方图三部曲
盗汗病治疗药物性味归经频数分析
基于改进卡方统计量的藏文文本表示方法