如何正确运用方差分析
——随机完全区组设计定量资料一元方差分析

2022-05-09 10:46胡纯严胡良平
四川精神卫生 2022年2期
关键词:定量资料方案

胡纯严 ,胡良平 ,2*

(1.军事科学院研究生院,北京 100850;2.世界中医药学会联合会临床科研统计学专业委员会,北京 100029

随机完全区组设计简称为随机区组设计或配伍组设计[1-2],它是考察一个试验因素和一个区组因素对定量观测结果影响的一个节省样本含量的试验设计方法。本文将介绍该设计类型的要点、定量资料一元方差分析的模型和计算公式,以及基于SAS软件实现定量资料一元方差分析的具体方法。

1 随机完全区组设计的要点

在单因素多水平的试验研究场合中,若全部受试对象可以按某种重要的属性(例如动物的窝别、样品的批次、患者的血型、受试对象的工作车间等)被分成几个小组,则此时就可采用随机完全区组设计取代单因素多水平设计,以便排除区组因素对结果变量的影响。

随机完全区组设计的具体实施方法:基于定量观测指标,依据研究目的和专业知识,确定试验因素及其水平,并找出对定量观测指标影响最明显且来自受试对象的一个属性变量(也叫区组因素),将属性变量取值(即水平)相同的受试对象划分为一个大组;设试验因素有r个水平,区组因素有s个水平。先从依据研究目的确定的具有同质性的总体中随机抽取s组受试对象,应确保每组受试对象的个数≥r;再从每组中随机抽取r个受试对象并随机分配进入r个试验组中;最后,从每个受试对象身上测定定量观测指标的数值。随机完全区组设计的呈现模式见表1。

表1 随机完全区组设计一元定量资料的呈现模式

2 随机完全区组设计定量资料一元方差分析

2.1 方差分析的模型

假定试验因素A与区组因素B之间的交互作用不存在或可以忽略不计,于是,它们之间各水平组合条件下可以不做重复试验;又假定试验因素A和区组因素B分别有r和s个水平。随机完全区组设计定 量 资 料 一 元 方 差 分 析 模 型[3-4]见式(1):

在式(1)中,Yij为两因素A、B的(i,j)水平组合下定量观测结果,μ为全部条件下定量观测结果的总体平均值,ai为试验因素A的第i个水平的效应,bj为区组因素B的第j个水平的效应,它们满足以下关系式:

在以上各式中,μij为两因素A、B的(i,j)水平组合下定量观测结果的总体平均值。

基于最大似然法,可得到式(2)、式(3)、式(4)的最大似然估计值,分别见式(7)、式(8)、式(9):

为检验一切μij是否相等,可改为检验以下两个假设。

检验试验因素A的无效假设与备择假设分别见式(10)、式(11)。

检验区组因素B的无效假设与备择假设分别见式(12)、式(13)。

2.2 方差分析的公式

从前面式(1)的第1个式子可以看出,随机完全区组设计定量资料一元方差分析模型共有r×s个,即便将式(7)、式(8)、式(9)代入其中,获得基于观测数据的全部模型的最终计算结果,仍然没有解决所需要回答的问题:即试验因素A各水平对观测结果的影响差别是否有统计学意义[对应的检验假设为前文的式(10)和式(11)]?区组因素B各水平对观测结果的影响差别是否有统计学意义[对应的检验假设为前文的式(12)和式(13)]?为了回答这两个问题,需要构造出两个F检验统计量,分别见式(14)、式(15):

在式(14)和式(15)中,MSA、MSB、MSE分别代表试验因素A、区组因素B和试验误差E的均方;SST、SSA、SSB、SSE分别代表全部数据(简称“T”)、试验因素A、区组因素B和试验误差E的离均差平方和;而dfT、dfA、dfB、dfE分别代表总变异T、试验因素A、区组因素B和试验误差E的自由度。各项离均差平方和的计算公式如下:

各项自由度的计算公式如下:

将以上主要公式汇集在一张表中,见表2。

表2 随机完全区组设计两因素各水平组合下进行一次试验的方差分析表

3 随机完全区组设计一元定量资料的实例与SAS实现

3.1 实例与数据结构

【例1】为探索丹参对肢体缺血再灌注损伤的影响,研究者将30只纯种新西兰实验用大白兔按窝别分为10个区组,每个区组的3只大白兔(来自同一窝)随机接受三种不同处理,即在松止血带前分别给予丹参 2 mL/kg(A1)、丹参1 mL/kg(A2)、生理盐水2 mL/kg(A3),并分别测定松止血带前、后1小时内大白兔血中白蛋白含量(g/L),计算白蛋白的减少量[5],见表3。问三种处理的平均值之间差异是否有统计学意义。

表3 随机完全区组设计下三种处理后大白兔血中白蛋白减少量(g/L)

【例2】某研究者希望研究三种减肥方案(试验因素)的效果,分别从两个工作地点(即区组因素,其两个水平分别为“办公室”与“车间”)中随机选取女工15名,再将每个工作地点中的15名女工随机均分入三种减肥方案组中。试验开始之前,测定她们的空腹体重;在接受试验一定时间之后,再测定空腹体重,用第1次测定结果减去第2次测定结果,得到体重改变量(正值为体重减少量,负值为体重增加量)[6],见表4。问哪种减肥方案效果最佳?

表4 三种减肥方案中办公室和车间女工的体重改变量(磅)

3.2 用SAS实现方差分析

3.2.1 对例1的分析与解答

【分析与解答】设例1资料所需要的SAS程序如下:

以上第一部分为随机完全区组设计定量资料一元方差分析总模型的输出结果,F=6.61,P=0.000 2,表明方差分析模型具有统计学意义(误差项的自由度=18)。

以上第二部分输出的是随机完全区组设计定量资料一元方差分析的主要结果,结果表明:处理因素A对白蛋白减少量的影响是不同的(F=32.64,P<0.000 1);而窝别因素对白蛋白减少量的影响无统计学意义,即窝别对结果的影响可以忽略不计。

为节省篇幅,下面仅给出采用TUKEY法对三种处理下的三个均值进行两两比较的结果,见图1。由图1可看出:处理组1、2、3的均值分别为2.580、2.976和4.170;两两比较结果显示,处理组1与组2的均值之间差异无统计学意义,而它们与处理组3的均值差异均有统计学意义。说明相对于生理盐水而言,大白兔接受1 mL/kg或2 mL/kg的丹参处理后,白蛋白的含量明显下降。

图1 采用TUKEY法对三种处理下的三个均值进行两两比较的结果

由于窝别因素对结果的影响可以忽略不计,故本例资料采用单因素三水平设计定量资料一元方差分析更合适,这样可以增大误差项的自由度,使分析结果更加稳定。可采用如下SAS过程步:

【SAS输出结果及解释】

以上为单因素三水平设计定量资料一元方差分析总模型的输出结果,F=34.67,P<0.000 1,表明方差分析模型具有统计学意义(误差项的自由度=27)。

以上第一行结果是单因素三水平设计定量资料一元方差分析的主要结果,结果表明:处理因素A对白蛋白减少量的影响是不同的(F=34.67,P<0.000 1)。

采用TUKEY法对三种处理下的三个均值进行两两比较的结果同图1,不再赘述。

3.2.2 对例2的分析与解答

【分析与解答】设例2资料所需要的SAS程序如下:

【SAS程序说明】第1个过程步是进行随机完全区组设计定量资料一元方差分析;而第2个过程步是进行单因素(指因素A:减肥方案)三水平设计定量资料一元方差分析(前提条件是区组因素无统计学意义,否则,不可以使用第2个过程步)。

【SAS输出结果及解释】

以上第一部分结果表明:随机完全区组设计定量资料一元方差分析模型有统计学意义(F=5.33,P=0.005 4),误差项的自由度为26。

以上第二部分结果表明:减肥方案A的3个水平组均值之间差别有统计学意义(F=7.51,P=0.002 7),表明不同减肥方案的减肥效果是不同的;而工作地点B之间差异无统计学意义(F=0.96,P=0.335 3),表明不同工作地点对减肥效果的影响可忽略不计。

由图2可知:方案3与方案1的均值之间差异无统计学意义,而方案3和方案1的均值与方案2的均值之间差异均有统计学意义。方案3、1、2对应的体重减少量的均值依次为9.4、6.1和2.0磅。

图2 采用SNK法对三种减肥方案下的三个均值进行两两比较的结果

由图3可知:方案3与方案1的差异无统计学意义,而方案1与方案2的差异也无统计学意义,但方案3与方案2的差异有统计学意义。

图3 采用TUKEY法对三种减肥方案下的三个均值进行两两比较的结果

由于工作地点因素对结果的影响可以忽略不计,故本例资料采用单因素三水平设计定量资料一元方差分析(见前文的第2个SAS过程步)更合适,这样可以增大误差项的自由度,使分析结果更加稳定。其SAS输出结果如下:

以上为单因素三水平设计定量资料一元方差分析总模型的输出结果,F=7.52,P=0.002 5,表明方差分析模型有统计学意义(误差项的自由度=27)。

以上第一行是单因素三水平设计定量资料一元方差分析的主要结果,结果表明:减肥方案因素A对体重减少量的影响是不同的(F=7.52,P=0.002 5)。

对减肥方案因素A的三个水平下的均值进行两两比较,基于SNK法和TUKEY法得到的结果分别与图2和图3的结果相同,为节省篇幅,此处从略。

4 讨论与小结

4.1 讨论

随机完全区组设计最适合用于区组因素对定量结果具有不可忽视的影响的试验研究场合,在实际的试验研究中,有时可能同时存在多个重要的非试验因素,在设计试验时,可以将它们复合成一个区组因素。

从方差分析的角度来看,方差分析方法对定量资料的前提条件要求很苛刻,无论试验研究中涉及多少个因素,要求每个因素都必须满足“独立性”“正态性”和“方差齐性”三个前提条件。值得注意的是,独立性是针对整个试验资料中任何两个定量数据而言的,即任何两个定量数据之间是互相独立的;正态性是针对任何一个因素的某一个水平而言的,即该因素每个特定水平下定量资料应服从正态分布;而方差齐性则是针对任何一个因素的全部水平而言的,即该因素各水平下总体方差应相等。仅当前述提及的三个前提条件都满足时,方差分析的结果才是正确的。否则,建议采用混合效应模型分析方法处理资料[4]。

在例2的两两比较的分析结果中,SNK法与TUKEY法给出的结果略有不同,其原因在于这两种方法控制的误差类型不同[7-8]。相对来说,TUKEY法给出的结果可信度更高。

4.2 小结

本文概述了随机完全区组设计的要点,介绍了随机完全区组设计定量资料的方差分析模型和计算公式,借助SAS软件对两个实例进行了分析,对输出结果作出了解释,并给出了统计结论和专业结论。

猜你喜欢
定量资料方案
烂脸了急救方案
有机物官能团的定量关系在解题中的应用
多重荧光定量PCR法同时定量检测4种混合熟肉种源
Party Time
PAIRS & TWOS
JUST A THOUGHT
外汇风险敞口的定量刻画
定边:一份群众满意的“脱贫答卷” 一种提供借鉴的“扶贫方案”
稳中取胜
资料哪去了/等