定量体外诊断试剂参考区间建立与临床评价关系探究

2021-04-03 22:10蔡瑶付文竹付央郭丽徐加发

中国医疗器械杂志 2021年3期

关键词：用途预期受试者

【作者】蔡瑶，付文竹，付央，郭丽，徐加发

1 江苏省药品监督管理局审评中心，南京市，210002

2 广东省药品监督管理局审评认证中心，广州市，510080

3 江苏硕世生物科技股份有限公司，泰州市，225300

0 引言

参考区间研究和临床评价（此临床评价概念包含临床试验，下同）是第二和第三类体外诊断试剂性能研究的重要内容，经确定的参考区间对于临床评价具有重要指导意义，临床评价过程反过来也会检验参考区间的合理性。虽然研究重点和方法不同，但两者相互联系，相互支撑。目前企业在产品研发、临床评价及注册过程中，往往忽略参考区间确定和临床评价之间的协同作用，导致资料前后无法相互印证，甚至有时相互矛盾。

1 参考区间的建立

定量体外诊断试剂的参考区间是参考下限和上限之间的值。某些情况只有其中一个参考限有意义，常为参考上限（x），则其参考区间为0～x[1]。

CLSI C28-A3指南中指出：参考区间建立首先需根据明确的标准选择参考个体，所有参考个体组成参考人群，然后对参考人群进行抽样，得到可代表参考人群的参考样本组，通过观察或测量参考样本组中的参考个体而得到参考值，这些参考值的分布情况形成参考分布[1]。根据被测物的临床意义和产品预期用途，确定参考分布的某一个或几个值为参考限，常见情形是以参考分布的单侧（95%）或双侧（2.5%和97.5%）百分位数为参考限，比如某些被测物浓度过高和过低均提示身体异常，一般以参考分布的2.5%和97.5%百分位数为参考下限和上限；若参考区间分组，则各组也有各自的参考限形成的亚组参考区间。

从参考区间的获得过程可以看出，参考人群和参考样本组是统计学上的总体和抽样样本组的关系。参考人群是一个符合规定标准的总体，参考样本组是从参考人群抽样得到的能代表参考人群的抽样样本组，而参考区间来自抽样样本组，因此设置参考人群的标准不同，参考区间也必然会有差异[2]。参考区间可用于区分个体的健康状况，也可提示人体处于不同生理或病理过程[3]。选择参考个体时应根据产品预期用途设置相应的参考人群标准，这对于临床评价中目标人群的选定具有指导意义。

需注意，不同被测物因预期用途不同而参考个体的选择标准通常不同。某被测物排除的个体可能是其他被测物纳入的参考个体，即使相同的被测物如具有不同的预期用途，其参考个体的选择标准也不同。比如常规C反应蛋白为非特异性炎症辅助诊断指标，其参考个体的选择标准一般为非炎症患者；而超敏C反应蛋白在临床上主要用于评价心血管疾病风险，其参考个体的选择标准一般为非心血管疾病患者。目前很多项目在进行参考区间研究时，往往倾向于选择年轻健康的个体作为参考个体。若被测物受年龄影响，则易导致从年轻健康人群中获得的参考区间与目标人群的实际参考区间差异较大，这种差异会在临床评价中引入较大的偏倚。

获得产品参考区间的常用方法之一是建立参考区间。如已有国家或国际公认参考区间，则可直接获得参考区间，此时需重点关注检测结果的准确性。通常在确定新被测物、不同的人群或新分析方法（比如新方法有更优的灵敏度和特异性）的参考值时，需要建立参考区间。此外如已建立的参考区间不适用或与新产品差异较大，也应建立相应的参考区间。

确定参考上限/下限的两种统计方法为参数法和非参数法，前者要求检测值或经转化后符合正态分布，后者无此要求。目前有些项目在建立参考区间的过程中缺乏对数据进行正态分布的统计学检验，而直接采用参数法计算参考区间，容易导致得到的参考区间与实际情况差异较大。多数情况为从参考样本组获得的数据并不符合或无法转换成正态分布，因此非参数法是建立参考区间更为推荐的方法。但不管采用哪种方法，统计学上要求至少120例样本才能达到参考区间的90%置信限。

参考区间是否分组需要考虑不同组的参考值差异，对临床判断的影响，以及产品预期用途对分组的要求等。当目标人群分层时需要对参考区间进行分组，每组应不少于120例样本。比如检测血清和尿液样本的β2微球蛋白，不同样本类型的参考值有显著差异，需要制定各自的参考区间；又如孕酮因不同性别、年龄段、生理周期中的水平差异较大，如果产品预期用途涵盖了对不同人群的辅助诊断，建议提供各人群的参考区间。

2 参考区间的验证

建立可靠的参考区间是一项巨大且耗时耗力的工作，因此参考区间验证也是确定参考区间的常用方法。此方法采用相对较少的参考个体，将已建立的参考区间转移到另一项研究中，使得该参考区间在新的情况下使用。基于最原始参考值研究的合理性假设，参考区间转移需要重点考虑分析系统和参考人群的可比性。分析系统的可比性主要包括样本采集和处理（如样本类型、采集部位、采集和储存时间、抗凝剂）、分析方法和使用仪器（如采用的校准品及校准方法、仪器的性能参数）等；参考人群的可比性主要包括性别和年龄、地域分布、用药状态、饮食习惯等。如果不同方法间具有可比性，那么参考人群间的差异是参考区间验证的主要影响因素。参考区间验证采用参考个体进行评估和验证，这些参考个体来自接收该参考区间的参考人群，将检测结果与原始参考值进行对比。如果两个分析系统之间差异较大，或者目标人群差异大，则不适用通过这种方法获得参考区间。

参考区间验证的核心问题是参考个体/人群的一致性。验证应建立在参考个体/人群拥有较为一致的背景信息的基础上，这对临床试验设计中目标人群的确定具有十分重要的意义。而目标人群最终体现在产品的预期用途上，这是所有体外诊断试剂在产品设计开发及临床运用中要重点考虑的因素。参考区间验证也是临床机构常用方法，具体可参考相关文件[4]。

3 临床评价

《体外诊断试剂注册管理办法》规定：申请人或者备案人可以通过临床文献资料、临床经验数据、临床试验等信息对产品是否满足使用要求或者预期用途进行确认[5]。临床评价是对产品临床性能进行的系统性研究，是对产品预期用途进行确认必不可少的工作。具体的操作方法可根据国家药监局发布的文件要求进行[6-7]。

根据选择的比较对象不同，临床评价可分为与诊断“金标准”的比较研究及与已上市产品的比较研究。有的“金标准”为单一确定标准，如组织病理学检查、影像学检查、病原体分离培养鉴定等，主要是基于客观的证据；有的为采用多种方法或方式综合判断，如长期随访，结合患者病史、临床症状、多种检测结果等，这实质上是综合多种客观资料尽量降低主观判断带来的误差。

对于与已上市产品比较的临床评价中对照试剂的选择问题，选择对照试剂的一个重要原则是选择最合适的而非最优的。既要考虑已上市产品种类多，质量参差不齐的情况，也要充分考虑对照试剂在诸如方法学、预期用途、性能指标、校准品溯源、参考区间等方面的差异。因为临床评价目的是证明考核试剂和对照试剂等效，如果双方的性能相差较大或预期用途不同，那么证明两者等效的出发点可能就是错误的。另外如果在临床前研究时发现对照试剂的质量与考核试剂差异明显，这种情况更推荐采用与方法学更具有优势的产品或者与“金标准”进行对比。

4 参考区间与临床评价的关系

在临床实践中参考区间往往是临床医生对检测值做出正常/异常判断的标准之一，为临床诊断提供参考。参考区间研究和临床评价必须紧扣产品预期用途。参考区间研究来自参考人群，代表了多数参考个体的被测物的浓度范围。当对某受试者进行检测，检测值落在参考区间外，提示该受试者的身体可能存在异常。参考区间研究中所确定的参考人群即为产品预期用途中所描述的目标人群。临床评价是对产品预期用途进行确认的过程，也可以理解为在真实的临床环境中对目标人群进行检测，并结合参考区间从而确定产品能准确识别或提供信息帮助区分正常和异常人群。

前文提到的与已上市产品对比的临床评价，虽然这类研究是证明申报产品与对照产品等效，但是申报产品依据其参考区间做出的临床判断与样本临床背景的符合性也应重点关注，这种符合性在与“金标准”对比的临床评价中往往是评价产品是否能实现预期用途的标准之一。

以与“金标准”对比的临床评价为例，纳入的受试者包含已经明确了的正常人群和异常人群，根据参考区间对纳入的受试者的检测值进行正常或异常的判断，之后评估该判断与受试者的临床背景信息或临床诊断是否有较好的符合性。因此，研究得到的参考区间一定要适用相应的临床评价，即符合产品预期用途，防止在临床评价过程出现基于参考区间的评价结果与受试者的临床背景的一致性较低的情况（如从A人群中获得参考区间用于判断B人群，导致过多的正常受试者被判定为异常）。

5 对参考区间研究和临床评价的建议

（1）溯源性。影响参考区间的因素除了参考人群外，产品的定值溯源也是重要因素。不同溯源产品的检测结果是否具有可比性是值得商榷的，如果同类产品来自不同的定值溯源，那么相同检测数值代表的量可能是不同的。在实际检测过程中表现为对同一样本进行检测，不同产品的检测结果相差较大。这种情况下即使是相同参考人群，各自得到的参考区间也可能相差较大。因此在临床评价选择对照产品的过程中须考虑校准品的溯源情况。现实中可能存在无法获得对照产品溯源信息的情况，建议尽量选择性能指标等接近的对照产品，同时通过预实验的检测量值来做进一步的评估。

（2）预期用途。在开展参考区间研究和临床评价之前，首先应明确产品预期用途。产品预期用途决定了这两项研究应该如何开展。产品预期用途包括目标人群（如成年人、儿童；性别；疾病史；药物治疗史等）、使用环境（如家用、临床机构使用）、样本类型及要求（如尿液、血清；空腹采集；抗凝剂）、检测结果的预期使用（如诊断疾病、指导用药、提示损伤、预后监测）等。

产品预期用途决定了参考区间研究的参考人群，进而决定了参考区间适用的目标人群。预期用途也决定了临床评价中纳入的受试者，反过来也可以理解为临床评价在哪类受试者中进行了确认，那么即代表产品将来适用于相应的目标人群。例如用于检测成年人群空腹全血的产品，其参考区间和临床评价均应采用成年人空腹全血样本。又如补体C3检测试剂临床评价纳入的受试者均为癌症患者，而该产品的预期用途为主要用于补体低下或免疫缺陷性疾病的辅助诊断，这样的受试者显然缺乏代表性，临床评价考察的人群与产品的预期用途不符。再如用于辅助诊断新型冠状病毒肺炎患者的核酸检测试剂，在临床实验设计时，针对的目标人群主要是《新型冠状病毒感染的肺炎诊疗方案》中明确的疑病例类型，比如有密切接触史，发热和/或呼吸道症状；具有上述肺炎影像学特征；发病早期白细胞总数正常或降低，淋巴细胞计数减少等，但据了解，目前有很多无相应症状的受试者亦被纳入临床试验中作为目标人群，这显然是不合适的[8]。

（3）分组设计。参考区间的分组与临床评价之间有着密切联系。参考区间分组主要考虑以下几点：第一，各个参考值之间的差异较大，是否影响预期用途的实现。造成参考值的差异的来源有多种，比如年龄、性别、样本类型（比如用于多种样本类型检测的产品）、样本取样时间（比如检测血糖的产品）、生理周期和妊娠周期（比如检测性激素的产品）等。在目前很多的产品中，不同样本类型中同一目标物的浓度差异很大，这种情况下，很有必要分别进行参考区间的研究，同时在临床评价中也应有相应的样本验证。第二，根据预期用途的不同来确定是否需要分组。比如用于检测空腹和餐后2 h血糖的产品，参考区间分组为空腹血糖的参考区间和餐后2 h的参考区间，临床评价也相应在这两种受试者中进行评估。第三，临床上会遇到一些比较特殊的群体（例如孕妇或婴幼儿），其检测值通常与正常人不同，如临床上用到的PCT，新生儿出生时的PCT含量往往很高[9]，如果仅根据常人的参考区间很容易误诊。再如C反应蛋白，在怀疑婴幼儿有炎症感染时，临床上常用指尖全血检测C反应蛋白，结合白细胞计数等血常规指标来辅助诊断是细菌感染还是病毒感染以及感染的严重程度。而指尖全血属于末梢血，应考虑独立的参考区间。

参考区间与临床评价作为体外诊断试剂上市前研究的两个重要研究内容，两者相互印证、相辅相成。在产品预期用途的确定、参考人群的选择、统计学方法的运用等方面均存在着密切联系。无论是参考区间研究还是临床评价研究，最终的落脚点都是临床实际中的产品预期用途。根据设定的预期用途，结合参考区间确定过程中需要考虑的因素及方法，在临床评价中遵循临床试验设计的同时，也应严格按照设定的参考标准来对数据结果进行分析统计。只有这样才能真正科学、客观地评价产品的分析性能和临床性能，真正能够用于指导临床诊断、治疗等过程，实现产品的临床价值。