Aalen模型在医学研究中的应用

2015-03-09 14:17曹志强王杨李
中国卫生统计 2015年2期
关键词:达菲回归系数变量

曹志强王 杨李 卫△

Aalen模型在医学研究中的应用

曹志强1,2王 杨1李 卫1△

Cox比例风险模型[1]是生存分析中最常用的模型,很多实际问题中的协变量并不满足比例风险,而且协变量的效应可能随时间变化。基于这些情况的考虑,Aalen提出了加法危险率模型[2-3],Aalen模型是Cox模型的补充。Aalen模型一个重要的特征就是其回归系数是随时间变化的函数,这种函数没有特定的形式,也不依赖任何参数假定。相对于Cox模型的半参数本质,Aalen模型是非参的,适合用于模型中含随时间变化的协变量效应的研究。

原理与方法

Aalen模型的基本形式如下[4]:

其中α0(t)是基线函数,Zj(t)是第j个协变量在t时刻的值。αj(t),j=1,…,k是回归参数,其作用等价于Cox模型中的回归系数。在实际中,直接估计αj(t)是困难的,因而转向估计与其等价的累积回归系数,定义如下:

假设数据样本的形式是[Tj,δj,Zj(t)],j=1,…,n,其中0=T0<T1<T2<…是排序好的时间,δj是判断Tj是否删失的示性变量是协变量向量。对于第j个个体,定义Yj(t):如果个体j在t时刻是存活的,Yj(t)为1,否则为0。一般利用最小二乘法估计Aj(t),具体做法是先定义一个n×(k+1)的设计矩阵X(t),其构造如下:对于X(t)的第i行,令Xi(t)=Yi(t)(1,Zj(t)),即如果第i个个体在t时刻是存活的,那么Xi(t)=(1,Zj1(t),…,Zjk(t)),否则Xi(t)就是k+1维的0向量。设I(t)是一个n× 1维的向量,如果第i个个体在t时刻死了,那么I(t)的第i个元素为1,否则为0。基于上面的构造,累积回归系数矩阵A(t)=(A0(t),A1(t),…,Ak(t))T的最小二乘估计为:

在这个矩阵中,ID(t)是一个n×n的对角矩阵,其对角线元素等于I(t)。A(t)估计的最大时间Tmax是矩阵Xt(Ti)X(Ti)变为不可逆的最小时间。

为了检验协变量有无统计学意义,Aalen提出了下面的假设检验,原假设为:

用向量U的第j个元素Uj检验Hj:

其中,W(t)是一个对角矩阵的权重函数,对角线元素为Wj(t),j=1,2,…,k+1。这种非参数检验方法只能检验Xt(Ti)X(Ti)是满秩的这段时间。Aalen考虑了两种权重函数,一种是W(t)等于t时刻存活的人数,另一种为下面的(6)式。

Aalen从理论上证明了检验统计量U服从渐近多元正态分布,用(6)式作为权重函数构造出来的检验统计量被称之为TST。对于模型的拟合优度检验,Aalen提出了广义残差法和Arjas plot法。第j个个体的广义残差定义如下:

其中Sj是第j个个体的确定或者删失时间,Z0=(1,Z01,…,Z0k)T是0时刻协变量的取值。如果模型拟合的好,那么可视为来自标准指数分布的样本。Arjas图的思想是比较累计度(cumulative intensity)和真实死亡数,假如模型正确,那么它们的值应该差不多。具体做法是在Aalen模型中,对于每一确定时间Ti≤R,画相对于i的图像,如果模型正确,那么图像近似为一条直线。

实例分析

一项以治疗H1N1流感为目的的研究[5],比较奥司他韦(达菲)和传统中药汤(麻杏石甘汤和银翘散加减方)的治疗效果,410例确诊为轻症H1N1流感的成年患者被随机非盲分成4组:对照组、达菲组、中药组、达菲加中药组。目标变量time为从入组治疗到结束的时间;status指发热是否消退;age是患者的年龄;g2、g3、g4是三个哑变量,分别指患者服用的是达菲、中药汤、达菲加中药;fb48h是发病至入组时间是否大于48小时的二值变量;s2、s3、s4是三个中心哑变量。为了解决结点问题,将time每个值加上[0,1]之间的随机数。

首先用age、g2、g3、g4、fb48h、s2、s3、s4作为协变量,进行Cox回归,结果见表1。

表1 Cox回归结果

从表1可知,age、fb48h、s3无统计学意义,s2在0.1水平下有统计学意义,其他变量在0.05水平下均有统计学意义。本文研究的目标变量是发热持续时间,相对不吃药,如果吃了某种药后发热时间能够显著降低,说明该药有效(此时HR>1)。从结果来看,达菲、中药汤、达菲加中药都能有效治疗H1N1流感。从表1还能得出,达菲的HR值比中药汤的要高一点,达菲加中药的HR值比单纯达菲或中药汤的都要高。然而,通过Wald检验发现,达菲相对中药汤的HR值不显著,但达菲加中药相对达菲的HR是显著的,HR置信区间为[0.072,0.871],P=0.014;达菲加中药相对中药汤的HR值也是显著的,HR值的置信区间为[0.098,0.919],P=0.009。

用log-log图检验Cox模型中的组别变量是否服从比例风险假定。可见中药组的与其它三组有交叉,因此,模型的比例风险假定可能存在问题。文献[6]指出,当Cox模型中的协变量不满足比例风险时,可采用Aalen模型分析。

在具体运用Aalen模型之前,根据模型原理可以推断出累积回归系数的一些特征。如果Aalen模型中某个协变量的回归系数是常数,即α(t)=a,那么其在t时刻的累积回归系数应为A(t)=at这样的一条直线。假设风险因子超过了t0时刻,比如t0=20小时之后,对风险函数不再有影响,则其累积回归系数在20小时后应该等于常数。如果变量在模型中有统计学意义,那么其累积回归系数的置信区间不应该包含0。

表2 Aalen模型变量的检验结果

表2是用TST统计量检验Aalen模型中的变量有无统计学意义。从P值来看,age、fb48h、s3无统计学意义,其他变量均有统计学意义,这和Cox模型选择变量的结果类似。

三组药的累积回归系数图展示了三组药在各时段如何影响风险函数。达菲的累积回归系数在前38小时持续递增,但超过38小时后斜率趋平且有降低趋势,表明达菲对治疗H1N1流感的效果主要体现在前38小时。中药汤的累积回归系数在前19小时显著递增,之后出现类似的转平和减低趋势,表明中药汤的疗效在前19个小时体现更为明确。至于达菲加中药,其累积回归系数在前38小时平稳增加,之后增加的趋势减缓。因此达菲加中药在前38小时的疗效显著,38小时后疗效趋弱。

达菲、中药汤、达菲加中药的累积回归系数的斜率均为正数,说明相对不吃药,它们对治疗H1N1流感都有效。有些学者[7]提出根据累积回归系数的斜率来度量协变量的影响,目前这在文献中不常见,在此我们不提倡根据斜率的大小就定量地确定达菲、中药汤、达菲加中药的疗效到底有多好。

达菲加中药的累积回归系数图的趋势一直递增,而达菲或中药汤的在后面时段下降,以至于达菲在50小时时的置信下限包含0,中药汤在37小时时的置信下限包含0。该信息是对各药物特点(即持续有效时间)的体现,也说明样本量随时间减少,在一定程度上影响估计的精度。达菲、达菲加中药比较好地符合Cox比例风险假定,这一点与之前log-log图中所得的信息一致。

讨 论

在医学研究中,生存资料的多因素分析常采用Cox模型,其回归系数度量的是相对风险。Aalen模型是从绝对风险的角度考虑生存时间和协变量之间的关系。在对两种模型结果进行比较时,如果基于非参数模型在同一变量上给出的P值,大于半参数和参数模型(或前者无、而后者有统计学意义),而下结论Aalen模型不如Cox模型好,这是不合理的,其原因是两个模型对应的检验本身不同。

实例分析表明,当Cox模型的比例风险假定不满足时,我们可以用Aalen模型分析。在检验协变量有无统计学意义时,两个模型得出了相似的结果。如果协变量在不同的时段对风险函数有不同的影响,成比例风险或者不成比例风险,用Aalen模型分析累积回归系数图是有帮助的。Aalen提倡将累加回归系数图作为诊断工具,观察各变量在各时段如何影响风险函数。在本篇的例子中,通过观察累积回归系数图,可以判断药物间的疗效是否大致符合比例风险,以及了解治疗H1N1流感中各药物疗效发挥时段的特点。可以说,累积回归系数图直观展示了协变量影响风险函数的本质。

实际应用中,Aalen模型远没有Cox模型应用广,一个原因是SAS和SPSS软件中没有现成Aalen模型的程序,而Cox模型的程序几乎在每一款统计软件中都早已存在。如今R软件的两个包survival和timereg提供了处理Aalen模型的程序,让使用Aalen模型作为Cox模型的有效补充成为了可能。很多有关Aalen模型的文献,包括Aalen的原创,都是提倡将Aalen模型视为Cox模型的补充,把两个模型结合起来分析问题。总之,这两个模型提供了数据的不同信息,它们不应该视为相互替代,而应是相互补充。这样,我们对数据和问题就会有更全面和更深刻的认识和理解。

1.Cox DR.Regression models and life-tables.Journal of the Royal Statistical Society,Series B(Methodological),1972:187-220.

2.Aalen OO.A linear regression model for the analysis of life times.Statistics in medicine,1989,8(8):907-925.

3.Aalen OO.Further results on the non-parametric linear regression model in survival analysis.Statistics in medicine,1993,12(17):1569-1588.

4.Klein J,Moeschberger M.Survival Analysis:Techniques for Censored and Truncated Data,Springer,1997.

5.Wang C,Cao B,Liu QQ,et al.Oseltamivir compared with the Chinese traditional therapy maxingshigan-yinqiaosan in the treatment of H1N1 influenza:a randomized trial.Annals of Internal Medicine,2011,155(4):217-25.

6.Abadi A,et al.Comparison of Aalen′s additive and Cox proportional hazards models for breast cancer survival:analysis of population-based data from British Columbia,Canada.Asian Pacific Journal of Cancer Prevention,2011,12:3113-3116.

7.Torner A.Proportional hazards and additive regression analysis of survival for severe breast cancer.Stockholm University,2004.

附录:本文的R程序

(责任编辑:郭海强)

1中国医学科学院,北京协和医学院,国家心血管病中心,阜外心血管病医院,心血管疾病国家重点实验室(100037)

2北京师范大学数学科学学院

△通信作者:李卫,E-mail:liwei@m rbc-nccd.com

猜你喜欢
达菲回归系数变量
抓住不变量解题
也谈分离变量
漫画
多元线性回归的估值漂移及其判定方法
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
分离变量法:常见的通性通法
城镇居民收入差距主要因素回归分析
变中抓“不变量”等7则