参数正则稳态脆弱模型在临床复发事件数据分析中的应用*

2017-06-05 14:20王晶晶刘桂芬罗天娥
中国卫生统计 2017年2期
关键词:肉芽肿参数估计正则

郭 强 王晶晶 刘桂芬 罗天娥△

参数正则稳态脆弱模型在临床复发事件数据分析中的应用*

郭 强1王晶晶2刘桂芬1罗天娥1△

目的 探讨参数正则稳态脆弱模型在临床复发事件数据中的应用。方法 以慢性肉芽肿(CGD)患者为例构建参数正则稳态脆弱模型,假定复发事件的基线分布服从威布尔分布、指数分布或Gompertz分布,脆弱项服从正则稳态脆弱分布,采用边际极大似然估计(MMLE)来实现参数估计并进行不同条件下模型对比分析。结果 参数正则稳态脆弱模型既考虑了个体内复发时间的相关性,又考虑了不同个体间的异质性,可以用来分析慢性肉芽肿患者反复住院的影响因素,结果解释合理,软件实现便捷。结论 参数正则稳态脆弱模型适合分析临床复发数据并进行临床疗效评价或者影响因素研究。

复发事件数据 脆弱模型 正则稳态脆弱分布 威布尔分布

在临床医学研究中,Cox[1-2]比例风险模型通常是进行时间-事件数据研究的经典模型,其理论假设是研究对象间是同质的。但对于同一个体多次重复观测所获得的复发事件数据(recurrent event data),其往往具有非独立性或异质性的特点,若直接采用Cox比例风险回归模型分析,会造成参数估计的偏差。Hougarrd和Aalen[3-4]在相关研究中发现,忽略个体的异质性将导致估计的相对危险度有偏高的倾向。Pickles等[5]在对脆弱模型的回顾性研究中发现,模型中忽略个体间异质性的影响会导致协变量系数的估计值趋向于0。目前脆弱模型(frailty model)[6-7]广泛应用于复发事件数据的分析中,此类模型充分考虑了复发事件数据间的非独立性特点,可较好地解释潜在协变量所引起的异质性问题,提高了检验精度[8]。本研究拟构建不同基线分布的正则稳态脆弱模型来对慢性肉芽肿患者反复住院的影响因素进行分析并用R3.3.1软件实现。

原理和方法

1.参数正则稳态脆弱模型

脆弱模型[9-10]是在一般比例风险模型中引入脆弱因子,用于解释异质性或相关性问题的统计分析模型。正则稳态脆弱分布是Hougaard 于1986年提出的一种脆弱分布类型,若令ui为独立同分布的正则稳态脆弱变量,则该变量的概率密度函数如下[11]:

(1)

(2)

结合前面正则稳态脆弱分布Laplace转换式,可以得出第i组威布尔正则稳态脆弱模型的联合生存函数为:

(3)

Hx,c(tij)=H0(tij)exp(βXij)为生存函数中的非条件部分。指数分布和Gompertz分布正则稳态脆弱模型的联合生存函数,其公式除内部累积风险函数H(t)不同外,形式上与公式(3)完全相同。

2.模型的参数估计

Fisher(1921)提出似然概念以来,关于参数估计的似然理论和方法得到了极大的发展和广泛应用[14]。本文采用边际极大似然估计(MMLE)来实现对以上模型的参数估计[13]。假设有i=1,2,…,n个组,每个组有j=1,2,…,q个样本,则可用q个样本的概率乘积来表示第i个组的概率函数,而联合密度函数可用Laplace转换后的第n次求导得出。假定基线风险函数服从威布尔分布,对所有的个体或组求和后的边际似然函数:

L(λ,υ,β,θ)=

(4)

若假定基线风险函数服从指数分布,对所有的个体或组求和后的边际似然函数记作:

L(λ,β,θ)=

(5)

若假定基线风险函数服从Gompertz分布,对所有的个体或组求和后的边际似然函数记作:

L(λ,φ,β,θ)=

(6)

L(D)表示Laplace转换后的第D次求导。

实例分析

该资料是126例慢性肉芽肿患者反复感染的数据[15],欲研究伽玛干扰素对慢性肉芽肿疾病的疗效,患者被随机分为两组,分别给予伽玛干扰素和安慰剂治疗;选入的变量有患者的年龄、性别、身高、体重、遗传方式等因素。部分数据见表1,赋值情况见表2。

表1 慢性肉芽肿患者资料部分数据

表2 慢性肉芽肿患者资料变量赋值表

1.慢性肉芽肿患者资料的分析

由于该资料是慢性肉芽肿患者反复感染的数据,构建模型时需要考虑个体重复观测数据间的相关性,建立参数正则稳态脆弱模型:

β6cortico+β7prophy+β8hospital+β9rIFN+ui)

其中,患者编号i=1,2,…,126,重复观测最多的次数j=1,2,…,8。每个患者的异质性因子为ui,假定为正则稳态分布,以此来反映每位患者重复观测值间的相关性;在给定脆弱因子ui的情况下,可以假定患者重复观测的时间是相互独立的;假定基线分布为威布尔分布、指数分布或Gompertz分布。

2.慢性肉芽肿(CGD)资料参数脆弱模型分析

相关数据采用R 3.3.1软件进行分析,需加载R包有survival,parfm和eha。分别用Weibull比例风险(Weibull PH)模型、威布尔正则稳态脆弱(W-PS)模型、指数正则稳态脆弱模型(exponential-PS)及Gompertz正则稳态脆弱模型(Gompertz-PS)等模型进行拟合并比较,参数估计结果见表3。

表3 慢性肉芽肿患者数据资料的几种模型比较

*:*表示P<0.05。

从模型构建上来说,Cox模型为半参数模型,与参数模型比较不太合理,因为模型估计的参数个数不同,所以模型的AIC和BIC的大小没有可比性。而Weibull比例风险(Weibull PH)模型是假定Cox模型中基线风险服从Weibull分布,为参数模型。因此选用Weibull PH模型与以上三种参数正则稳态脆弱模型进行比较。结果显示,与脆弱模型相比,Weibull PH模型参数估计的绝对值和方差较脆弱模型普遍偏低;这是由于Weibull PH模型没有考虑复发事件资料中不同时间上存在的相关性和异质性问题,导致了参数估计的偏差。这也从侧面说明,脆弱模型至少可以解释资料中的部分未检测到的相关性和异质性。

将Weibull PH模型与其他三种脆弱模型拟合结果比较,-2LL分别为3.90,5.872和5.874,似然比异质性检验有统计学意义(P值分别为0.048,0.015和0.015),资料存在异质性,提示对该资料拟合脆弱模型更好;个体间相关性τ分别为0.068、0.072和0.117,子组间异质性θ=1-τ,θ越小异质性越大。

考虑三个协变量age、cortico和rIFN的脆弱模型拟合结果表明,几种脆弱模型估计结果基本一致。根据AIC和BIC值越小模型拟合越好,该数据选用指数正则稳态脆弱模型(exponential-PS),结果解释为:患者的年龄(age)和是否使用干扰素(rIFN)是影响该病患者反复感染的主要因素,使用干扰素治疗的病人不容易出现反复感染,其反复感染的风险是安慰剂治疗者的0.355倍,其相对危险度(RR)的95%可信区间为(0.192,0.656);另外患者年龄越小,发生反复感染的可能性越大,在其他变量不变的情况下,患者年龄每增一岁,其发生反复感染的风险变为原来的0.968倍,RR的95%可信区间为(0.938,0.998)。具体结果见表4。

表4 慢性肉芽肿患者资料exponential-PS模型参数估计

以患者编号为横轴,每个个体的脆弱值为纵轴绘制图1,可见该资料个体间脆弱因子变异较大,即说明资料具有异质性,构建exponential-PS模型是合适的。

图1 指数正则稳态脆弱模型的脆弱预测图

讨 论

1.脆弱模型是Cox回归模型的扩展,可有效处理临床研究复发时间数据中的相关性和异质性问题。本文通过构建参数正则稳态脆弱模型,对参数采用MMLE方法进行估计。并将该方法应用于慢性肉芽肿(CGD)患者反复感染的影响因素分析,结果显示参数正则稳态脆弱模型在分析中既考虑了个体内复发时间的相关性,又考虑了不同个体的异质性,其结果解释合理,软件实现便捷。

2.参数正则稳态脆弱模型可以指定不同的基线风险函数,而且正则稳态脆弱分布也有其优势,若个体条件风险比和总体风险比都成比例,并且随着时间变量的不断延伸,总体风险比逐渐趋近于1,选择此分布较好。参数脆弱模型由于事先假定了回归方程的分布类型,其参数估计简单方便,结果可靠性较高,而且计算结果可以外延。

3.待深入研究的问题:对于临床复发事件数据构建脆弱模型进行分析时,脆弱分布的选择往往基于数理特点以及分布函数Laplace转换式是否简单,而不是根据数据资料本身的相关结构特点去选择模型。因此,还需进一步探讨选择脆弱分布是否合理的检验方法;对于正则稳态脆弱回归模型,目前的一些软件缺乏较好的模型诊断方法,是今后需要解决的难题。

[1]Cox D.Regression models and life-tables.The Journal of the Royal Statistical Society(B),1972,34(2):187-220.

[2]肖媛媛,许传志,赵耐青.常用生存分析模型及其对时依性协变量效应的估计方法.中国卫生统计,2016,33(3):543-547.

[3]Hougaard P.Frailty models for survival data.Lifetime Data Analysis,1995,1(3):255-273.

[4]Aalen O.Modeling heterogeneity in survival analysis by the compound Poisson distribution.Annals of Applied Probability,1992,2(4):951-972.

[5]Pickles A,Crouchley R.A comparison of frailty models for multivariate survival data.Statistics in Medicine,1995,14(13):1447-1461.

[6]Zhang Y,Chen MH,Ibrahim JG,et al.Bayesian gamma frailty models for survival data with semi-competing risks and treatment switching.Lifetime Data Analysis,2014,20(1):76-105.

[7]Gerster M,Madsen M,Andersen PK.Matched survival data in a co-twin control design.Lifetime Data Analysis,2014,20(1):38-50.

[8]朱玉,梅杨,李杰,等.Cox比例风险Frailty模型简介与软件实现.中国卫生统计,2014,31(3):527-529.

[9]Clayton DG.A model for association in bivariate life tables and its application in epidemiological studies of familial tendency in chronic disease incidence.Biometrika,1978,65(1):141-151.

[10]罗天娥,刘成芳,赵晋芳,等.共享伽玛脆弱模型在癫痫复发的应用及实现.中国卫生统计,2012,29(2):175-176.

[11]Hanagal DD,Dabade AD.Compound negative binomial shared frailty models for bivariate survival data.Statistics and Probability Letters,2013,83(83):2507-2515.

[12]王晶晶.非独立生存数据正则稳态脆弱模型分析及应用.山西医科大学,2012:7-13.

[13]Duchateau L,Janssen P.The frailty model.Springer:New York,2008,33-286.

[14]王宁宁,徐淑一,方积乾.从经典似然到等级似然的理论概述和应用.中国卫生统计,2016,2:364-367+369.

[15]Therneau TM,Grambsch PM.Modeling Survival Data:Extending the Cox Model.Journal of the American Statistical Association,2002,44(457):85-86.

(责任编辑:刘 壮)

Application of Parametric Positive Stable Frailty Model for Analysis of Clinical Recurrent Event Data

Guo Qiang,Wang Jingjing,Liu Guifen,et al

(ShanxiMedicalUniversity(030001),Taiyuan)

Objective To explore the application of parametric positive stable frailty model in analysis of clinical recurrent event data.Methods Taking the data of patients with chronic granulomatous disease(CGD)as an example,establishing the parametric positive stable frailty model,assuming that the distribution of baseline is Weibull distribution,exponential distribution and Gompertz distribution,frailty factor is positive stable distribution.Parameters were estimated by using the Marginal Maximum Likelihood Estimation(MMLE).The models in different baseline distribution were compared and analyzed.Results The parametric positive stable frailty model not only regard the dependent within groups,but also consider the heterogeneity between groups in recurrent event data.This model can be used to analyze repeatedly hospitalized factors of patients with chronic granulomatous disease(CGD).The results are easy to implement with software and its explain is reasonable.Conclusions The parametric positive stable frailty model is suitable for analyzing clinical recurrent event data and studying clinical evaluation or influencing factors.

Recurrent event data;Frailty model;Positive stable distribution;Weibull distribution;

* 国家青年科学基金项目资助(81001294);国家自然科学基金项目资助(81172774)

1.山西医科大学卫生统计教研室(030001)

2.山西省眼科医院

△ 通信作者:罗天娥,E-mail:luotiane1977@163.com

猜你喜欢
肉芽肿参数估计正则
基质金属蛋白酶对结核肉芽肿形成及免疫调控作用的研究进展*
基于新型DFrFT的LFM信号参数估计算法
J-正则模与J-正则环
π-正则半群的全π-正则子半群格
Virtually正则模
克罗恩病肉芽肿检出率相关因素分析
一种GTD模型参数估计的改进2D-TLS-ESPRIT算法
多层螺旋CT诊断在以多发结节、肿块为特征的腮腺嗜酸性淋巴肉芽肿中的意义
基于自适应参数估计的三轴磁传感器实时校正方法
界线类偏结核样型麻风一例