生存分析在随访研究中的应用

2021-09-28 02:03陈金凤
实用老年医学 2021年9期
关键词:对象因素分析

陈金凤

临床医师在实际工作中,会发现有很多问题尚待解决。循证医学是现代医学的核心,疾病的用药、治疗很大程度上依赖于具有循证医学证据的指南。面对临床上遇到的科研问题,采用正确的研究设计解决问题,是获得具有高度循证证据的前提。随访研究是目前运用较多的一种研究设计类型。广义的随访研究是指通过定期随访的形式,观察疾病、健康状况或某卫生事件在一个固定人群中随着时间推移的动态变化情况[1],其包括队列研究、随机对照试验、临床试验、临床注册研究等。其中队列研究属于观察性随访研究,其余均属于试验性随访研究,两者最大的区别是有无进行人为的干预。本研究所指的随访研究为观察性随访研究,即队列研究。

生存分析是用来研究生存时间分布规律以及生存时间与相关因素之间关系的一种统计学方法,是一种针对具有生存时间的数据资料进行统计分析的方法,在随访研究中具有重要的地位。但是,生存分析的规范运用尚存在不足[2]。同时,临床医生对于统计学方法的应用可参考的文献不多[3]。本文旨在阐述随访研究的要素以及生存分析的具体应用,以期提高随访研究论文的质量,提高循证医学证据等级。

1 随访研究的实施

1.1 随访研究的设计 一个科学问题的提出,需要临床医生在工作过程中善于总结并发现问题,通过查找文献,了解研究现状,进一步提出研究问题和研究目的,然后根据研究目的设计合适的研究方案以及研究内容。随访研究对于观察一个新药对某种疾病的治疗效果,探索暴露于某种危险因素的人群的结局转归,或者探讨某一疾病的病因等,是一个相对容易实施又能解决问题的研究类型。但是,在设计随访研究的过程中,应重点关注研究的背景以及研究的目的,通过研究目的进一步确定入选对象、研究因素、研究时间、分析方法等。科学、合理、可行的设计是研究成功的基础,使用正确的统计学方法是得出可靠结果的前提。

1.2 随访研究的实施

1.2.1 研究对象:研究对象是指研究的目标人群。随访研究中,研究对象一般是具有共同暴露特征的一组人群。在选择研究对象时,最重要的是选取具有代表性的样本。其次,要明确研究对象的纳入与排除标准,并严格执行。一般队列研究的对象纳入及排除标准没有随机对照试验严格。另外,随访研究中另一个重要的要素是暴露的确定。有时候,研究的暴露因素可以不止一个,可以是自然形成的(观察性队列研究),也可以是人为给予的(临床试验研究)。除暴露因素外,研究对象的其他基本特征应该在2组中均衡,以使暴露组与非暴露组具有可比性。例如探讨神经浸润对结直肠黏液腺癌预后的预测价值时,直肠黏液腺癌病人是研究对象,选择的样本应是能代表直肠黏液腺癌这个群体的样本;其次,是否有神经浸润是暴露因素,其他因素如性别、年龄、术前营养状态,肿瘤直径、位置、分期等是混杂因素,需要平衡混杂因素在2组中的分布。

1.2.2 样本量:随访研究的样本量应根据结局的发生率、暴露的情况、一类错误概率、生存时间以及删失情况等综合确定。一般来说,随访研究的样本量的计算比较复杂,有软件可以实现[4-5]。但对于大样本队列研究来说,样本量在研究初始可以不用考虑。

1.2.3 分组方法:队列随访研究的分组方法与随机对照试验中采用的随机化分组方法不同,其是根据自然暴露形成的分组。随机化分组时,组间的均衡性能得到保证,但是在队列随访研究中,由于是根据自然形成的暴露因素进行的分组,组间基线资料不一定能均衡可比,在进行数据分析时,可通过多因素校正、分层分析、倾向性评分等方法进行平衡。

1.2.4 研究内容:研究内容包括研究的变量、数据的来源与测量方法等。随访研究中,研究的变量包括结局、暴露、预测因子、潜在的混杂因子和效应修饰因子等。在研究中,应精确描述以上变量的来源和标准化测量的方法。

1.2.5 随访方法:在随访研究实施过程中,随访的方法也是需要慎重考虑的因素。随访研究中,对象的失访对结果的影响较大,在研究过程中,还是应该尽量避免失访。一般随访的方式有电话随访、门诊随访、上门随访,以及最近新兴的互联网随访。选择研究对象时,建议选择依从性好、容易随访的对象。

1.2.6 统计学方法:随访研究的数据除与其他研究,如病例对照研究、横断面研究能收集到的基线信息外,还会有随访的数据信息,包括生存时间、暴露的变化以及结局等,是一个由因及果的过程。在统计分析阶段,可根据不同的研究目的选择合适的统计分析方法。进行基线资料的比较时,可以根据数据的类型选择t检验、方差分析、卡方检验、非参数检验等。对生存时间进行分析时,可以采用生存分析。如果要开展病因研究,如明确研究因素是否为独立的危险因素或影响预后的因素,则需要采用分层分析、多因素分析或倾向性评分等多种方法校正各种混杂因素。如果开展疾病的疗效研究,可以采用Cox比例风险回归模型。

2 生存分析

生存分析是既考虑结局又考虑生存时间的一种统计学方法。随访研究中,通过随访,我们可以收集到很多信息,如暴露因子的变化(性质与强度)、研究对象结局的发生情况以及发生结局的时间等。生存分析可以充分利用时间信息,从而得到阳性结果。例如,分别研究采用胃癌根治术以及化疗方式治疗进展期胃癌的临床效果,即使最终所有的研究对象都死亡,我们还是可以通过生存分析判断2组病人发生死亡的时间是否有差异,进而得出胃癌根治术是否能延缓病人死亡的结论。另外,由于随访研究的失访问题,或者由于经费、时间的原因,导致不是所有的研究对象都能观察到想要的结局,会使研究效率降低。而通过生存分析,能充分利用失访者或者未发生结局者提供的信息,从而得出可信度高的结论,提高研究的把握度。

2.1 生存分析中的概念 进行生存分析前,对随访研究中涉及的变量或概念应有明确的定义,可以使分析报告更具有合理性和说服力。(1)起点事件:对研究对象入选的时间或者研究开始的时间要有明确的定义。起点事件即研究开始时研究对象所处的状态,如以治疗开始为起点、以发病为起点。(2)终点事件:即随访过程中出现所要研究的结局事件,如死亡或者疾病进展、生物学标志物阳性等。对于终点事件,在随访研究中也要有明确的定义。(3)观察终点:由于时间、经费的有限性,随访研究不是无限延长的,因此常常会确定一个观察终点,到终点时间后,所有对象停止观察,这个时间即随访时间。临床随访研究的随访时间常根据疾病的短期预后以及长期预后而有所不同。(4)生存时间:是指从起始事件开始,到研究对象出现终点事件所经历的时间。生存过程中,有可能对象会因为其他原因而死亡,也有可能对象一直未发生想要的结局,导致不能观察到生存时间。(5)混杂因素:随访研究过程中,除了研究因素以外,研究对象的其他特征、暴露的环境等因素均为混杂因素。(6)截尾数据:随访过程中失访、因其他原因死亡以及观察终点仍未出现终点事件的对象的生存时间的数据称为截尾数据,其生存时间为从起点事件到最后一次随访时间所经历的时间。

2.2 生存分析过程

2.2.1 描述生存过程:随访研究有着非常丰富的数据资料,包括研究初始时的基线资料,随访过程中暴露因子、混杂因子的变化及强度,研究对象的生存情况以及结局事件的发生情况等。在对随访研究资料进行分析时,首先应描述研究对象的基线情况、暴露的特征、潜在混杂因素、生存时间、发生结局事件对象的例数、截尾数据情况及失访情况。例如,在研究阿帕替尼用于一线治疗进展后晚期非鳞非小细胞肺癌的疗效时,应描述入选对象的基本特征(年龄、性别、病程、病理分期、吸烟史、手术史、基因突变状态等)、阿帕替尼用药情况、疗效(完全缓解、部分缓解、疾病稳定、疾病进展的例数)、生存时间(无进展生存期、总生存期)以及失访情况。在对总体情况进行描述的基础上,需对阿帕替尼用药组和非用药组分别进行描述并比较组间差异,以判断2组基线资料是否均衡可比。

描述生存时间或生存率的常用方法有寿命表法、Kaplan-Meier法等。Kaplan-Meier法既适用于小样本资料又适用于大样本资料,而寿命表法仅适用于大样本(n>100)资料[6-7]。一般我们可以通过统计软件得到生存曲线,例如采用SPSS软件中的生存分析模块,可以得到生存曲线(如图1),用于估计不同暴露组的生存率(生存函数或中位生存时间)等生存情况。

图1 Kaplan-Meier生存曲线图

2.2.2 比较生存时间:对于随访研究,比较不同暴露组的生存时间的差异可以初步判断暴露对研究疾病的作用。但是,由于生存时间常呈偏态分布,以及有删失数据的存在,采用t检验进行生存时间的比较不合适。实际分析过程中,对于组间生存率(生存曲线)的比较,常采用Log-rank检验、Wilcoxon检验等。

2.2.3 影响因素分析:一般在随访研究中,除了所研究的暴露因素,还有其他很多因素都会影响研究对象的结局,找出影响研究对象生存时间或者结局的因素,或进行病因探索,也是进行研究的目的。由于Logistic回归分析未考虑时间因素,且不能利用截尾数据,故而一般不用,而是采用Cox比例风险回归模型分析。进行Cox回归时,下面几种方法可以用来选择纳入的校正因素。首先是研究变量有无临床意义,这需要研究者阅读相关文献或总结临床经验。其次,可通过进行单因素分析进行初步筛选,然后再将有统计学意义的变量纳入到多因素分析模型中。考虑到变量间可能存在交互作用,因此建议把单因素分析的显著性水准相对设置高一些,并在充分考虑专业意义的基础上再进行选择。Cox比例风险模型的运用前提是2组等比例风险[8-9],这可以通过比例风险假设检验进行判断,或通过生存曲线有无相交来进行简单判断。一些学者对假设检验的方法进行了总结,提出了一些方法,如schoenfeld残差图法及score残差图法[10-11]。

3 随访研究论文撰写

随访性队列研究论文的规范撰写可依据加强观察性流行病学研究报告质量(STROBE)中的报告规范[12]。首先,文章的题目部分要明确随访研究的具体设计类型,使读者通过题目就能很快了解文章的设计类型。摘要部分要具体表述研究目的、做了哪些内容、发现的结果是什么等。前言部分是对研究背景的交待,如前所述,研究背景是一个项目的“前因后果”,应简明、扼要、准确地阐明研究背景。

研究方法部分包括研究设计、现场,研究对象征集、暴露、随访和数据收集的时间,研究对象(合格标准、源人群和选择方法)、随访方法、研究变量(明确定义的结局、暴露、预测因子、潜在的混杂因子和效应修饰因子,并描述变量的诊断标准)、存在的偏倚、样本量的计算以及统计学方法(包括混杂因素、缺失值以及失访的处理)。

随访研究论文的结果描述应包含以下几方面:(1)研究的起始时间以及终止时间,如出现症状或康复的时间、诊断日期以及终止日期等;(2)说明删失数据的种类、原因以及对删失数据的处理方式;(3)描述计算生存率的统计学方法;(4)描述生存率比较的统计学方法以及统计量;(5)描述暴露组以及非暴露组的一般资料、随访时间、生存时间(一般采用中位生存时间)、某一时期的生存率(如5年存活率等)、结局等信息;(6)描述Cox回归的HR以及95%CI,阐明校正的混杂因素及原因。

讨论和总结部分重点描述与假设有关的结果,讨论研究的局限性以及潜在偏倚,结合结果以及其他研究证据,谨慎地进行结果的解释,并讨论结果的外推性,最后得出结论。

总之,随访研究是临床研究中最常用的研究方法之一,设计严谨、实施规范、统计分析正确的随访研究也能具有较高的循证医学证据。在随访研究论文中合理应用生存分析,可以提高论文的质量。

猜你喜欢
对象因素分析
腹部胀气的饮食因素
四大因素致牛肉价小幅回落
晒晒全国优秀县委书记拟推荐对象
隐蔽失效适航要求符合性验证分析
判断电压表测量对象有妙招
电力系统不平衡分析
攻略对象的心思好难猜
电力系统及其自动化发展趋势分析
短道速滑运动员非智力因素的培养
区间对象族的可镇定性分析