存在共同终点的优效性临床试验样本量问题探讨

2013-09-07 09:02吴振强孙业桓

中国卫生统计 2013年5期

吴振强李卫孙业桓王杨

吴振强1，2李卫1Δ孙业桓2Δ王杨1

目的探讨当优效性临床试验存在多个共同终点时，各终点分别计算样本量取最大值的样本量计算方法的合理性。方法运用蒙特卡洛模拟的方法，验证实践中常用的多个主要终点分别计算取最大值的样本量计算方法的合理性;并进一步探讨主要终点间相关性与检验效能之间的关系。结果当多个终点分别计算的样本量相等时，分别计算取最大值的方法不能达到预期的检验效能(80%);当相关系数小于0时，检验效能在60%左右波动;大于0时，随着相关系数的增加，检验效能逐渐增大。结论当多个主要终点算得样本量相当时，取最大值的样本量计算方法并不适用于优效性临床试验;当多个主要终点算得的样本量差距较大时，可以达到试验所需的检验效能。因此，运用时需要考虑其适用条件。

临床试验样本量计算检验效能相关性蒙特卡洛模拟

1．中国医学科学院，北京协和医学院，国家心血管疾病中心，阜外心血管病医院，心血管疾病国家重点实验室，医学研究统计中心(100037)

2．安徽医科大学公共卫生学院

△通信作者:李卫，E-mail:liwei@mrbc-nccd.com;孙业桓，E-mail:sun611007@163.com

临床试验中，病人的反应可能是多种多样的，很多疾病机理并不清楚，因此某些临床研究并不能找出唯一的主要终点指标来证明药物或器械的有效性，此时通常需要设置多个主要终点〔1，2〕。根据试验设计的不同，多终点临床试验大致可分为两类〔3，4〕:(1)多个主要终点中一个有统计学意义，整个临床试验就是成功的;(2)多个主要终点必须同时有统计学意义，整个临床试验才是成功的，此时称为多个共同终点的临床试验。临床实践中，类型(1)主要存在Ⅰ类错误膨胀的问题〔4－6〕。审评机构〔7〕和科学期刊〔8〕通常建议用多重调整的方法解决这类问题(如:Bonferroni法、Holm法、Hochberg法和James等方法)。其中Leon和 Heo在2007年运用随机模拟对这些方法的Ⅰ类错误的膨胀情况进行了比较，得出终点指标间的相关性r≤0.5时Hochberg调整具有更高的检验效能，当r＞0.5时James的方法更为合理〔5〕。类型(2)成功解决了Ⅰ类错误膨胀的问题，但是随之而来的是Ⅱ类错误的膨胀〔2〕，通常解决这类问题的方法是增加样本量〔3，9〕。存在共同终点的临床试验中，对每个主要终点分别计算样本量，然后取最大值作为临床试验所需的样本量是一种实践中常用的方法;但是有些外文文献对这种样本量计算方法的合理性提出质疑，认为这种方法不仅没有考虑指标间的相关性，而且可能会出现检验效能不足的问题。目前国内并无相关研究报道。因此本研究将结合临床实践中的实际数据，运用随机模拟的方法对此样本量计算方法的合理性进行探讨。

方法

在共同终点的临床试验中，为了更加清晰直观地探讨分别计算取最大值样本量计算方法的合理性，本研究仅对实践中常用的两个共同终点的优效性临床试验进行模拟分析。

其中假设临床试验要验证试验药物T优效于对照药物C，需要两个共同主要终点指标P1和P2(高优指标)，其中P1和P2均是来自正态总体的连续性指标，为了使得模拟的结果更加贴近实际，因此本模拟研究假定指标间存在一定相关性。

基于以上假设，本研究将根据两个终点指标计算的样本量相同和不相同分别进行蒙特卡洛模拟。具体步骤如下:

(1)假定两个共同终点间存在相关性，根据终点指标的均值和标准差，产生具有一定相关性的正态分布随机数作为研究样本，并对其进行统计分析;

(2)将组间差异95%的可信区间下限与0比较，并将所得情况记录下来;

(3)若两个指标的下限同时小于0，即拒绝零假设，则将结论记为“正确”;若下限至少有一个大于等于0，即不拒绝零假设，则将结论记为“错误”;

(4)重复步骤(1)至(3)1000次，并记录下得到“正确”结论的次数，其中正确比例即为在此总体特征和参数设置下的检验效能。其中进行多次模拟试验的主要目的是保证结果的稳定性;

(5)根据共同终点间相关程度的不同重复步骤(1)至(4)，并作相应的记录。

结果

1．两个主要终点指标计算的样本量相同

(1)基本指标

试验组和对照组的基本数据均来自某临床试验报告，基本指标如下:

基于以上指标，根据样本量的计算公式:

可以得到两个主要指标所需的样本量n1和n2相等，其中n1=n2=51×2，即临床试验所需的样本量为51对。

(2)随机模拟的结果

①研究的实际检验效能

基于随机模拟步骤，我们将在不同相关系数r(－1.0，－0.9，…，0，…，0.9，1.0)下，研究临床试验检验效能(1－β)的变化情况。结果见表1。

表1 检验效能变化情况

图1 检验效能变化情况

根据模拟的结果，得出:a)当临床试验有两个共同终点，且主要终点指标的相关性小于1时，整体的检验效能均不能达到80%;b)随着相关系数的变化，检验效能也会发生相应的变化;c)相关系数在－1到0之间时，整体检验效能在60%左右波动;d)相关系数从0增加到1时，整体的检验效能从0.645增加到0.799;e)Ⅱ类错误和检验效能是互补的概念，当检验效能达不到预先设定值时，相应的Ⅱ类错误也会高于预先设定的值，出现Ⅱ类错误膨胀的问题。

②达到方案规定检验效能时所需样本量。基于随机模拟步骤，模拟在共同终点间的相关性一定时，随着样本量增大，临床研究检验效能(1－β)的变化情况，汇总结果见表2。

表2 检验效能变化情况(相关系数)

图2 检验效能的变化情况

根据模拟的结果，得出:a)共同终点间的相关系数设定为0.7，每组的样本量达到61时，整体检验效能才能达到预先设定的80%;b)当整体检验效能达到80%时，对于单个终点计算样本量时，检验效能至少需要达到85%以上，因此在用这种方法时一定要与随机模拟方法联合应用，从而保证整体的检验效能;c)随着样本量逐渐增大，单个主要终点的检验效能和整体的检验效能都是逐渐增大的，进一步证明通过样本量的增大可以弥补检验效能不足的问题;d)图2中第一条竖线显示，在单个终点达到80%的检验效能时，整个临床试验的检验效能是达不到预先设定值的，同上部分模拟结果类似。

2．两个终点指标计算的样本量不同

随机模拟的基本指标:

模拟拟次数:1000;

Ⅰ类错误:α1=α2=0．05;

检验效能:1－β=80%。

基于以上信息，进行随机模拟，结果见表3:

表3 随着Δ差距的变化，检验效能的变化情况

根据模拟的结果，得出:a)两个指标的平均效应差异很小时，选取最大样本作为试验所需样本量并不能达到方案预先设定的检验效能(图3两条竖线间的区域);b)两个指标的平均效应差异较大时(图3两条竖线外的区域)，选取最大样本作为试验所需样本是可以达到方案预先设定的检验效能。

图3 随Δ变化的检验效能的变化情况

讨论

本研究通过蒙特卡洛模拟的方法，对实际临床研究中常用的多个共同终点分别计算取最大值的样本量计算方法的合理性进行了探讨，验证了此方法的适用条件;当运用不当时，并不能达到试验方案规定的检验效能，即出现Ⅱ类错误膨胀的问题。另外，随机模拟的结果也充分体现了指标相关性在样本量计算时发挥的作用;考虑终点间的相关性可以在保证试验效能的情况下节省样本量，降低病人暴露风险的可能性;因此分别计算样本量取最大值的方法，并结合随机模拟的方法进行验证不失为一种切实可行的样本量计算方法，但两种方法结合的细节和具体的操作方式仍需探讨。

每次随机模拟都相当于进行了一次临床试验，又因模拟过程是随机的，可能出现很多不满足方差齐性等假设的情况，这样的数据可能更贴近于实际应用临床试验数据〔10〕;因此可用于探讨样本量确定方法的合理性。

综上所述，对于存在两个共同终点临床试验的样本量设计，每个终点分别计算取最大值的样本量计算方法不适用于两个终点间平均效应差距较小的情况，运用时要慎重。

1．Chuang-Stein C，Stryszak P，Dmitrienko A，et al．Challenge of multiple co-primary endpoints:a new approach．Stat Med，2007，26(6):1181-1192．

2．Sankoh AJ，Sr DRB，Huque MF．Efficacy endpoint selection and multiplicity adjustment methods in clinical trials with inherent multiple endpoint issues．Stat Med，2003，22(20):3133-3150．

3．Eaton ML，Muirhead RJ．On a multiple endpoints testing problem．Journal of Statistical Planning and Inference，2007，137(11):3416-3429．

4．Offen W，Chuang-Stein C，Dmitrienko A，et al．Multiple co-primary endpoints:medical and statistical solutions a report from the multiple endpoints expert team of the pharmaceutical research and manufacturers of america．Drug Information Journal，2007，41:31-46．

5．Leon AC，Heo M，Teres JJ，et al．Statistical power of multiplicity adjustment strategies for correlated binary endpoints．Stat Med，2007，26(8):1712-1723．

6．Leon AC，Heo M．A comparison of multiplicity adjustment strategies for correlated binary endpoints．J Biopharm Stat，2005，15(5):839-855．

7．U．S．Department of Health and Human Services，Food and Drug Administration，Center for Drug Evaluation and Research，Center for Biologics Evaluation and Research．Guidance for Industry:E9 Statistical Principles，1998．

8．Altman DG，Schulz KF，Moher D，et al．The revised CONSORT statement for reporting randomized trials:explanation and elaboration．Ann Intern Med，2001，134(8):663-694．

9．Koch GG，Gansky SA．Statistical considerations for multiplicity in confirmatory protocols．Drug Information Journal，1996，33:523-533．

10．王杨，李卫，成小如，等．随机模拟法验证非劣效临床试验样本量计算公式．中国卫生统计，2008(1):26-28．

Sample Size Considerations in Superiority Clinical Trials With Co － primary Endpoints

Wu Zhenqiang，Li Wei，Sun Yehuan，et al．Medical Research ＆Biometrics Center，State Key Laboratory of Cardiovascular Disease，Fuwai Hospital，National Center for Cardionascular Disease，Chinese Academy of Medical Sciences and Peking Union Medical College(100037)，Beijing

ObjectiveTo evaluate the method of selecting a maximum sample size of those obtained from testing individual primary endpoint.MethodsMonte Carlo simulation was used to verify the power of this sample size calculated method．Furthermore，we assessed the effect of correlation coefficient among the co-primary endpoints.ResultsWhen the mean effect sizes are equal in individual primary endpoints，the study power cannot reach 80%．Study power fluctuates around 60%if the correlation coefficient is negative．However，the power increases with the incretion of correlation coefficient when the correlation coefficient is greater than 0.ConclusionThe method of selecting a maximum sample size is under-power when the mean effect sizes are equal in individual primary endpoint．When effect sizes largely varied，the study power is enough．

Clinical trials，Simple size calculation，Power，Correlation，Monte Carlo comsimulation

(责任编辑:丁海龙)

存在共同终点的优效性临床试验样本量问题探讨

方 法

结 果

1．两个主要终点指标计算的样本量相同

2．两个终点指标计算的样本量不同

讨 论

方法

结果

讨论