多组数据方差分析模型：以杀虫剂药效为例

2014-12-27 05:24陈维

科技视界 2014年5期

陈维

(天津职业技术师范大学，中国天津300222)

0 前言

在试验法研究调查中，我们常常采取最传统的方法，分为试验组和对照组两组进行研究。然而，在实际生活中由于研究问题的复杂性，往往需要研究多于两组的研究对象之间的差异，其中多组数据位置的比较就是最基本的问题，我们正是通过方差分析来解决这一问题。在参数统计中，常常需要数据符合正态分布假定[1-3]，但是，当先验信息不满足或者不足以支持正态分布时，就要采取非参数方法解决。

1 方差分析法的说明

根据试验设计的不同，我们采取不同的方差分析方法

1.1 完全随机设计

当影响因素只有一个时，如例1，分析这样的数据的方法就叫做单因素方差分析，这是最简单的实验设计。

例1：对三个工厂生产的灯泡进行寿命测试，每品牌随机试验，结果得如下数据（单位：天）

表1

完全随机设计必须具备的两个条件：

（1）试验材料（材质，地质，动植物）是同质

（2）每种处理（温度，照明）要随机安排试验材料

假设检验H0∶μ1=μ2=μ3H1∶∃i，j，i≠j，i，j=1，2，3，μi≠μj（至少有一种处理的均值不等）

1.2 完全随机区组设计

假设需要对A,B,C三种处理的车（在这里三种处理就相当于三种品牌，车包括自行车，摩托车和汽车）油耗设计比较试验，每种处理方法重复观测5次。也就是说，将15辆车分为五组，每组三辆，分别接受三种不同的处理，共生成3×5=15份报告，供三种处理方法进行比较。而实际中，我们知道，由于每辆车自身的不同，油耗的差异可能比较大，若刚好油耗少的分配到较好的处理方法，而油耗大的分配到较差的处理方法，结果可能测不到哪种处理方法更好。这是由于在该实验中，不同的车自身构成除了处理之外的另一个因素，称为区组。如果只取汽车，这就是完全随机区组设计，如例2，其中汽车为区组。

例2：下表是世界三大汽车公司的五种不同的车型某年产品的油耗

表2

完全区组的实验设计的需具备的条件：

（1）试验材料不同应根据需要分成几组，几个性质相近的实验单位为一区组，从而减小区组内个体差异，增大区组间差异。

（2）每个区组内的试验个体随机的全部参加各种处理。

（3）每个区组内的试验数等于处理数。

假设检验H0∶μ1=μ2=μ3H1∶μi≠ μj，∃i，j

1.3 均衡的不完全区组设计

因为不能保证每个区组都有对应的样本出现，这就产生了不完全区组设计。如处理组很大，但同一组的样本数又不允许太大，在一个区组中可能不能完全包含所有的处理，则只能在一个区组内安排部分处理，也就是说不是所有区组的处理都被用于各组的试验中[4]，称这种区组设计为不完全区组设计，其中最常用的就是均衡不完全区组设计。

均衡区组设计，记为BIB（k，b，r，t，λ），需具备以下条件：

（1）在同一区组中每个处理最多出现一次。

（2）每个区组的样本数为t，t小于处理个数k。

（3）每个处理出现在同样多的r个区组中。即：b≥r或kffgt;t

（4）在同一区组中，每两个区组相遇次数一样（λ次）。

即：（1）kr=bt

（2）λ(k-1)=r(t-1) （1.1）

（3）b≥r或kffgt;t

特别的：t=k,r=b,则为完全随机区组设计

2 方差分析的检验方法

2.1 Cochran检验

对于一个完全区组设计，如果观测值只有“是”或“否”，“同意”或“不同意”，“1”或“0”等等，这些二元定性数据。因为重复的数据太多，秩方法受到了限制，这就要使用Q检验法，来分析多数据之间的差异是否存在。

假设有k个处理和m个区组，样本为计数数据，如表3。

假设检验

H0：k个总体分布相同（或各处理发生概率相等）

H1：k个总体分布不相同（或各处理发生概率不相等）

表3

分析：

n.j为第j个处理中1的个数，即之间的差异可以显示出各个处理之间的差异。ni.为每一个区组中1的个数表示每格成功概率。

H0成立时，每一区组i内的成功概率Pi，j相等，对∀j=1,2,…,k,∀I,Pi1=Pi2=…=Pik=Pi.,nij服从两点分布b(1,Pi.)。

一般n.j之间并非相互独立，但是当n.j足够大时，认为n.j近似独立，得到自由度为v=k-1的近似χ2分布，即Cochran值为

结论：当检验统计量的值Q＜χ2

0.05，k-1，不能拒绝H0，反之接受H1。

2.2 Durbin不完全区组分析法

由前面提到，数据组很大，但是区组允许的样本量有限，一个区组中很难包含所有处理。较常见的就是BIB设计，这里我们介绍一种秩检验，能够应用于均衡不完全区组设计。

分析：

Xij表示第j个处理第i个区组中的观测值，Rij为第i个区组中第j个处理的秩，Ri.=Rij，i=1,2,…,b。

H0成立时,k个处理的秩和非常接近，反之，当某处理效应大时，秩和与总体平均之间的差异也较大，于是统计量为

结论：对于显著性水平α，如果D很大，比如大于或等于D1-α，D1-α为最小满足PH0(D≥D1-α)=α的值，就可以拒绝零假设。在零假设下，对于固定的k和t，当r→∞时，D→χ2(k-1)。

3 实际应用

试验一：现有A,B,C,D四种杀虫剂，在南方四个地区试用，由于试验用蚊子不足，故每种药剂只能使用于三个地方，每一次试验使用400只蚊子，其死亡数如下。如何检验四种药剂的药效是否不同？

表4

分析数据：得到下表，括号内的数，为各组内按4种处理观测值大小。

表5

假设检验问题为

H0：四种药剂的药效相同

H1：四种药剂的药效不同

统计分析：

t=3,k=4,r=3,自由度v=4-1=3，由（1.1）可知此设计为不完全区组设计。要采用Durbin不完全区组分析法，由（2.2）则：

结论：实际测得D=6.75＜χ20.05，3=7.82，不能拒绝H0，没有明显的迹象表明四种药剂药效之间存在差异。

实验二：为了考察其中三种杀虫剂的杀虫能力，又设计了一个实验[5]，选取12位使用者，对产品投票，若使用者认为满意，则给1分，否则给0分，所得结果如下，分析三种产品效果是否相同。

表6

分析数据，得到下表，分别求出每一区组，和每种处理的得分和

表7

假设检验问题为

H0：三种产品满意程度相同

H1：三种产品满意程度不同

统计分析：

由于各使用者每人杀虫的手法和使用习惯的不同，对药剂的杀虫效果也有差异，故应以使用者为区组，由（2.1），则

结论：实际测得Q=8.2222＞χ20.05，2=5.991，接受H1，表明三种杀虫剂满意程度不同，即表明三种药剂杀虫效果不同，C比较受欢迎。

实际上，我们也可以计算一下三种药剂的概率点估计

由计算可得p^.,1=0.12，p^.,2=0.35，p^.,3=0.53也支持了这一结论。

通过以上两种试验设计，第一组试验并没有表明四种药剂的药效区别，依然无法决策。而第二组试验，则分析出了其中三种之中C产品的满意度最好，即药效最好，这就方便了我们做决策。同样的道理，我们还可以分别将三种药剂进行试验，最终得到四种药剂中效果最好的产品。

［1］Rice J.Mathematical Statistics and Date Analysis[M].3rd ed.Boston:Duxbury Press India 2007：22-57.

［2］Vapnik V N.Statistical Learning Theory[M].New York:Wiley-Interscience 1998：8-27.

［3］张尧庭.高等数理统计[M].北京:北京大学出版社，1998：4-34.

［4］刘勤，金丕焕.分类数据的统计分析及SAS编程[M].上海:复旦大学出版社，2002：57-75.

［5］David Hand，等.数据挖掘原理[M].张银奎，等，译.北京:机械工业出版社，2003：173-183.