多组数据方差分析模型:以杀虫剂药效为例

2014-12-27 05:24
科技视界 2014年5期
关键词:区组个区假设检验

陈 维

(天津职业技术师范大学,中国 天津300222)

0 前言

在试验法研究调查中,我们常常采取最传统的方法,分为试验组和对照组两组进行研究。然而,在实际生活中由于研究问题的复杂性,往往需要研究多于两组的研究对象之间的差异,其中多组数据位置的比较就是最基本的问题,我们正是通过方差分析来解决这一问题。在参数统计中,常常需要数据符合正态分布假定[1-3],但是,当先验信息不满足或者不足以支持正态分布时,就要采取非参数方法解决。

1 方差分析法的说明

根据试验设计的不同,我们采取不同的方差分析方法

1.1 完全随机设计

当影响因素只有一个时,如例1,分析这样的数据的方法就叫做单因素方差分析,这是最简单的实验设计。

例1:对三个工厂生产的灯泡进行寿命测试,每品牌随机试验,结果得如下数据(单位:天)

表1

完全随机设计必须具备的两个条件:

(1)试验材料(材质,地质,动植物)是同质

(2)每种处理(温度,照明)要随机安排试验材料

假设检验H0∶μ1=μ2=μ3H1∶∃i,j,i≠j,i,j=1,2,3,μi≠μj(至少有一种处理的均值不等)

1.2 完全随机区组设计

假设需要对A,B,C三种处理的车(在这里三种处理就相当于三种品牌,车包括自行车,摩托车和汽车)油耗设计比较试验,每种处理方法重复观测5次。也就是说,将15辆车分为五组,每组三辆,分别接受三种不同的处理,共生成3×5=15份报告,供三种处理方法进行比较。而实际中,我们知道,由于每辆车自身的不同,油耗的差异可能比较大,若刚好油耗少的分配到较好的处理方法,而油耗大的分配到较差的处理方法,结果可能测不到哪种处理方法更好。这是由于在该实验中,不同的车自身构成除了处理之外的另一个因素,称为区组。如果只取汽车,这就是完全随机区组设计,如例2,其中汽车为区组。

例2:下表是世界三大汽车公司的五种不同的车型某年产品的油耗

表2

完全区组的实验设计的需具备的条件:

(1)试验材料不同应根据需要分成几组,几个性质相近的实验单位为一区组,从而减小区组内个体差异,增大区组间差异。

(2)每个区组内的试验个体随机的全部参加各种处理。

(3)每个区组内的试验数等于处理数。

假设检验H0∶μ1=μ2=μ3H1∶μi≠ μj,∃i,j

1.3 均衡的不完全区组设计

因为不能保证每个区组都有对应的样本出现,这就产生了不完全区组设计。如处理组很大,但同一组的样本数又不允许太大,在一个区组中可能不能完全包含所有的处理,则只能在一个区组内安排部分处理,也就是说不是所有区组的处理都被用于各组的试验中[4],称这种区组设计为不完全区组设计,其中最常用的就是均衡不完全区组设计。

均衡区组设计,记为BIB(k,b,r,t,λ),需具备以下条件:

(1)在同一区组中每个处理最多出现一次。

(2)每个区组的样本数为t,t小于处理个数k。

(3)每个处理出现在同样多的r个区组中。即:b≥r或kffgt;t

(4)在同一区组中,每两个区组相遇次数一样(λ次)。

即:(1)kr=bt

(2)λ(k-1)=r(t-1) (1.1)

(3)b≥r或kffgt;t

特别的:t=k,r=b,则为完全随机区组设计

2 方差分析的检验方法

2.1 Cochran检验

对于一个完全区组设计,如果观测值只有“是”或“否”,“同意”或“不同意”,“1”或“0”等等,这些二元定性数据。因为重复的数据太多,秩方法受到了限制,这就要使用Q检验法,来分析多数据之间的差异是否存在。

假设有k个处理和m个区组,样本为计数数据,如表3。

假设检验

H0:k个总体分布相同(或各处理发生概率相等)

H1:k个总体分布不相同(或各处理发生概率不相等)

表3

分析:

n.j为第j个处理中1的个数,即之间的差异可以显示出各个处理之间的差异。ni.为每一个区组中1的个数表示每格成功概率。

H0成立时,每一区组i内的成功概率Pi,j相等,对∀j=1,2,…,k,∀I,Pi1=Pi2=…=Pik=Pi.,nij服从两点分布b(1,Pi.)。

一般n.j之间并非相互独立,但是当n.j足够大时,认为n.j近似独立,得到自由度为v=k-1的近似χ2分布,即Cochran值为

结论:当检验统计量的值Q<χ2

0.05,k-1,不能拒绝H0,反之接受H1。

2.2 Durbin不完全区组分析法

由前面提到,数据组很大,但是区组允许的样本量有限,一个区组中很难包含所有处理。较常见的就是BIB设计,这里我们介绍一种秩检验,能够应用于均衡不完全区组设计。

分析:

Xij表示第j个处理第i个区组中的观测值,Rij为第i个区组中第j个处理的秩,Ri.=Rij,i=1,2,…,b。

H0成立时,k个处理的秩和非常接近,反之,当某处理效应大时,秩和与总体平均之间的差异也较大,于是统计量为

结论:对于显著性水平α,如果D很大,比如大于或等于D1-α,D1-α为最小满足PH0(D≥D1-α)=α的值,就可以拒绝零假设。在零假设下,对于固定的k和t,当r→∞时,D→χ2(k-1)。

3 实际应用

试验一:现有A,B,C,D四种杀虫剂,在南方四个地区试用,由于试验用蚊子不足,故每种药剂只能使用于三个地方,每一次试验使用400只蚊子,其死亡数如下。如何检验四种药剂的药效是否不同?

表4

分析数据:得到下表,括号内的数,为各组内按4种处理观测值大小。

表5

假设检验问题为

H0:四种药剂的药效相同

H1:四种药剂的药效不同

统计分析:

t=3,k=4,r=3,自由度v=4-1=3,由(1.1)可知此设计为不完全区组设计。要采用Durbin不完全区组分析法,由(2.2)则:

结论:实际测得D=6.75<χ20.05,3=7.82,不能拒绝H0,没有明显的迹象表明四种药剂药效之间存在差异。

实验二:为了考察其中三种杀虫剂的杀虫能力,又设计了一个实验[5],选取12位使用者,对产品投票,若使用者认为满意,则给1分,否则给0分,所得结果如下,分析三种产品效果是否相同。

表6

分析数据,得到下表,分别求出每一区组,和每种处理的得分和

表7

假设检验问题为

H0:三种产品满意程度相同

H1:三种产品满意程度不同

统计分析:

由于各使用者每人杀虫的手法和使用习惯的不同,对药剂的杀虫效果也有差异,故应以使用者为区组,由(2.1),则

结论:实际测得Q=8.2222>χ20.05,2=5.991,接受H1,表明三种杀虫剂满意程度不同,即表明三种药剂杀虫效果不同,C比较受欢迎。

实际上,我们也可以计算一下三种药剂的概率点估计

由计算可得p^.,1=0.12,p^.,2=0.35,p^.,3=0.53也支持了这一结论。

通过以上两种试验设计,第一组试验并没有表明四种药剂的药效区别,依然无法决策。而第二组试验,则分析出了其中三种之中C产品的满意度最好,即药效最好,这就方便了我们做决策。同样的道理,我们还可以分别将三种药剂进行试验,最终得到四种药剂中效果最好的产品。

[1]Rice J.Mathematical Statistics and Date Analysis[M].3rd ed.Boston:Duxbury Press India 2007:22-57.

[2]Vapnik V N.Statistical Learning Theory[M].New York:Wiley-Interscience 1998:8-27.

[3]张尧庭.高等数理统计[M].北京:北京大学出版社,1998:4-34.

[4]刘勤,金丕焕.分类数据的统计分析及SAS编程[M].上海:复旦大学出版社,2002:57-75.

[5]David Hand,等.数据挖掘原理[M].张银奎,等,译.北京:机械工业出版社,2003:173-183.

猜你喜欢
区组个区假设检验
变化区组随机化及其SAS宏实现
如何正确运用方差分析
——平衡不完全区组设计定量资料一元方差分析
两类单纯3-设计的存在性
中医临床研究中区组设计应用现状的计量学分析*
双幂变换下正态线性回归模型参数的假设检验
Primary Question and Hypothesis Testing in Randomized Controlled Clinical Trials
统计学教学中关于假设检验问题探讨