人工智能干预性临床试验报告指南：CONSORT-AI扩展

2021-01-05 01:02译者李子孝熊云云丁玲玲王春雪赵性泉王拥军

中国卒中杂志 2020年12期

译者：李子孝，熊云云，丁玲玲，王春雪，赵性泉，王拥军

随机对照试验（randomized control trials，RCTs）被认为是为干预的安全性和有效性提供证据的金标准试验设计。如果对试验结果进行充分报告，有可能为管理决策、临床指南和卫生政策提供信息。因此，RCTs报告的透明性和完整性至关重要，这样读者才能批判性地评价试验方法和结果，并评估结果中是否存在偏倚。

CONSORT声明为提高RCTs报告的完整性提供了基于证据的建议。该声明于1996年首次提出，此后得到了国际医学期刊的广泛认可。在过去的20年里，它经历了两次更新，对RCTs报告的质量产生了重要的积极影响。最新的CONSORT 2010声明提供了含有25项条目报告内容的最小条目清单，适用于所有RCTs，但它指出某些干预可能需要对这些条目进行扩展或阐述。目前已有一些这样的扩展版本。

AI是人们非常感兴趣的一个领域，它有强大的驱动力，通过发布、实施和市场推广促进新的AI干预。AI系统的相关研究已开展了一段时间。由于在医疗健康领域的应用潜力，近期AI在深度学习和神经网络方面的进展引起了极大的关注。AI系统应用的范围很广，包括用于筛查和分诊、诊断、预后、决策支持和治疗推荐。然而，目前大多数公开证据只有计算机模拟和早期验证。AI研究报告的不充分，以及现有的报告指南并未完全涵盖AI系统特有的偏移潜在来源已经成为一个公认的事实。旨在评估基于或包含有AI成分（本文中为“AI干预”）的新型干预措施的随机对照试验也同样存在设计和报告方面的担忧。这突显了制订AI领域内“目的导向”报告指南的必要性。CONSORT-AI（SPIRIT-AI和CONSORT-AI声明的一部分）是由CONSORT和提高健康研究的质量和透明度（Enhancing the Quality and Transparency of Health Research，EQUATOR）网共同制订的国际倡议，旨在评估现有的CONSORT 2010声明，并在必要时扩展或阐述该指南，用以支持AI干预临床试验的报告。它是SPIRIT-AI声明的补充，SPIRIT-AI声明的目的是提升AI试验方案报告的质量。本共识声明描述了识别和评估候选条目及获得共识的方法。此外，还提供了CONSORT-AI条目清单，其中包括新的扩展条目及相应的解释说明。

1 方法学

SPIRIT-AI和CONSORT-AI扩展是同时为临床试验方案和试验报告制订的。2019年10月，SPIRIT-AI和CONSORT-AI新方案公告发布。这两个指南均根据EQUATOR网的方法学框架制订，并于2019年5月在EQUATOR报告指南库中注册为正在制订中的报告指南。SPIRIT-AI和CONSORT-AI指导小组由15位国际专家组成，以监督研究的进行和审查研究的方法。关键术语的定义见术语表（表1）。

2 伦理批准

该研究获得英国伯明翰大学伦理审查委员会的批准（ERN_19-1100）。在调查完成前和共识会议前，参与者的信息以电子方式提供给德尔菲参与专家。德尔菲参与专家提供了电子知情同意书，并获得共识会议参与者的书面同意。

3 文献综述和候选条目的生成

通过审查已发表的文献，并与指导小组和国际知名专家进行磋商，生成了SPIRIT-AI和CONSORT-AI候选条目的初步清单。文献搜索工作于2019年5月13日进行，使用关键词“artificial intelligence”“machine learning”和“deep learning”搜索美国国家医学图书馆临床试验登记（ClinicalTrials.gov）中列出的涉及AI干预措施的现有临床试验。共有316项注册试验，其中62项已完成，7项已公布结果。有两项研究与CONSORT声明有关，其中一项研究提供了未发表的试验方案。工作小组从这些研究中确定了针对AI的考量因素，并将它们重新构建为候选报告条目。这些候选条目也从既往一项评估医学成像深度学习诊断准确性的系统综述中找到依据。在与指导小组和其他国际专家（n=19）协商后，产生了29项候选条目，其中26项与SPIRIT-AI和CONSORT-AI均相关，3项仅与CONSORT-AI相关。工作小组将这些条目规划到相应的SPIRIT和CONSORT条目中，根据上下文需要修改措辞，提供说明性文字。之后对这些条目进行德尔菲调查。

表1 术语定义

4 德尔菲共识过程

2019年9月，169位国际重要专家参加在线德尔菲调查，对候选条目进行投票，并提出新增条目的建议。项目指导小组确定并联系专家，联系的专家可以举荐其他专家以便进行一轮“滚雪球式”专家招募。此外，还包括在公告发布后联系的个人。指导小组一致认为，在临床试验、AI和机器学习（machine learning，ML）领域的专业人士以及技术的主要使用者应该在协商中得到充分代表。利益相关者包括医疗保健专业人员、方法学家、统计学家、计算机科学家、行业代表、期刊编辑、政策制定者、健康“信息学家”、法律和伦理专家、监管机构、患者和资助者。共进行了两次在线德尔菲调查。电子德尔菲调查使用DelphiManager软件（4.0版），由有效性试验核心结局指标测量（core outcome measures in effectiveness trials，COMET）学术组织工作组开发和维护。给予参与者关于该研究的书面信息，并要求他们提供在AI/ML和临床试验领域的专业水平。每个条目都提交审议（SPIRIT-AI为26项，CONSORT-AI为29项）。参与者用9分制对每个条目进行投票，评分标准如下：1～3分，不重要；4～6分，重要但不关键；7～9分，重要且关键。参与者对SPIRIT-AI和CONSORT-AI分别进行了评级。针对每项条目的投票，可以选择弃权，并且每项投票条目下都有编辑功能，方便参与者提出建议。在德尔菲调查结束时，参与者还有机会提出新的条目。第一轮德尔菲调查收到103份答复，第二轮收到91份答复（占第一轮参与者的88%）。德尔菲调查的结果为随后的国际共识会议提供了依据。德尔菲研究参与者提出了12项新条目，并在共识会议上进行了讨论。德尔菲调查收集的数据是匿名的，在共识会议上对每个条目结果进行讨论和表决。

共识会议于2020年1月举行，为期两天，由英国伯明翰大学主办，旨在就SPIRIT-AI和CONSORT-AI的内容达成共识。德尔菲调查参与者中的31个国际利益相关方应邀讨论了这些条目并进行了投票。选择的参与专家能充分地代表各利益相关团体。会议依次讨论了41项条目，包括在初始文献综述和条目产生阶段产生的29项条目（26项条目与SPIRIT-AI和CONSORTAI均相关，3项条目仅与CONSORT-AI相关）以及参与专家在德尔菲调查期间提出的12项新条目。每项条目连同其德尔菲得分（中位数和四分位间距）以及德尔菲调查参与专家对该条目的所有意见均提交给共识小组。参与专家对每项条目的重要性以及是否应纳入指南发表意见。此外，参与专家就每项条目所附带的说明性文字以及该条目对应于SPIRIT 2013和CONSORT 2010条目清单的位置发表了意见。在对每项条目及是否进行措辞调整进行公开讨论后，进行电子表决，可选择采纳或不采纳该条目。指导小组预设的纳入阈值为80%，认为这可以合理地代表多数人的意见。每个利益相关者都使用转折点（Turning Point）投票设备（Turning Technologies，版本8.7.2.14）进行匿名投票。

5 条目清单预试验

在共识会议后，参会者有机会对条目做出最后评议，参会者达成一致，更新的SPIRITAI和CONSORT-AI条目可代表会议讨论结果。工作小组根据决策树将每项条目分为扩展或阐述条目，产生了SPIRIT-AI和CONSORT-AI条目清单的倒数第二版。倒数第二版条目清单由34位专家进行了预试验，以确保内容措辞清晰无歧义。参加预试验的专家包括：①没有参加共识会议，但是参与了德尔菲研究调查的专家；②没有参加指南制订过程，但在德尔菲研究开始后联系的外部专家。为使读者理解更加清晰，工作小组对措辞进行了最后的修改。

6 指南推荐

6.1 CONSORT-AI清单条目和说明

C O N S O R T-A I 扩展建议在现有的CONSORT 2010声明中增加了14项新条目（11项扩展条目和3项阐述条目）。这些条目对关于AI干预的临床试验报告十分重要，因此除了CONSORT 2010清单核心条目之外，试验报告还应常规包含这些内容。表2列出了CONSORT-AI的具体条目。

扩展中纳入的14项新条目都在共识会上通过了80%赞成票的纳入门槛。CONSORT-AI 2a、CONSORT-AI 5（ii）和CONSORT-AI 19都是在与共识小组讨论后合并两项条目的结果。为了表述清晰，CONSORT-AI 4a（i）和（ii）被分成两项条目，分别进行表决。CONSORT-AI 5（iii）起初未达到纳入标准（77%投票赞成），然而，经过广泛讨论和重新修订，共识小组一致支持重新投票，最终其达到了纳入标准（97%投票赞成）。

6.2 标题和摘要

（1）CONSORT-AI 1a，b（i）阐述：在标题和（或）摘要中指明干预涉及AI/ML，并说明模型类型。

说明：推荐在试验报告的标题和（或）摘要中写明干预涉及的AI的类型，因为这样可以快速说明干预为AI/ML干预，并有助于索引和搜索。标题应该被广大读者理解，因此，推荐使用如“人工智能”或“机器学习”等接受度更广泛的术语。更精确的术语应该在摘要中使用，而不是在标题中使用，除非它们被广泛认为是AI/ML的一种形式。与模型类型和体系结构相关的特定术语应该在摘要中详细说明。

（2）CONSORT-AI 1a，b（ii）阐述：在标题和（或）摘要中说明试验中AI干预的预期用途。

说明：在试验报告标题和（或）摘要中描述AI干预的预期用途。应该描述AI干预的目的和疾病背景。一些AI干预可能有多种预期用途，或者预期用途可能会随着时间的推移而变化。因此，记录这一点可以让读者理解试验中所用算法的预期用途。

6.3 引言

CONSORT-AI 2a（i）扩展：在临床路径下解释AI干预的预期用途，包括其目的及其目标用户（如：医疗专业人员、患者、公众）。

说明：为了阐明AI干预如何嵌入临床路径，应在试验报告的背景部分详细描述其作用。AI干预可以设计为与不同的用户交互，包括医疗保健专业人员、患者和公众，AI干预的应用可以是广泛的（如：理论上，同一AI干预可替代、增强或决定临床决策的某些环节）。清晰地阐述AI干预的预期用途及其预期用户有助于读者理解在试验中评估AI干预的目的。

6.4 方法

（1）CONSORT-AI 4a（i）阐述：在受试者层面说明纳入和排除标准。

说明：应按照非AI干预试验报告的惯例，定义受试者层面的纳入和排除标准（图1）。这与在输入数据层面制订的纳入和排除标准不同，见条目4a（ii）。

表2 CONSORT-AI条目清单

表2（续）

（2）CONSORT-AI 4a（ii）扩展：在输入数据层面说明纳入和排除标准。

说明：“输入数据”是指AI干预达到研究目的所需的数据（如：对于乳腺癌诊断系统，输入数据可以是用于诊断的未处理的或是仪器供应商特定的后处理的乳腺X光扫描数据；对于早期预警系统，输入数据可以是电子病历中的生理指标或实验室结果）。试验报告应预先说明对确定预随机化的输入数据是否有最低要求（如图像分辨率、质量指标或数据格式）。应该具体说明数据评估的时间、方式和人员。例如，如果受试者符合第4a（i）项规定的CT扫描平躺的标准，但扫描质量受损（出于任何特定原因）的程度被认为不适合AI系统使用，则应将其作为输入数据层面的排除标准写入报告。需注意的是，如果输入数据是在随机化之后获得的，任何排除都被认为是来自数据分析，而不是来自数据入选（CONSORT 13b）（图1）。

（3）CONSORT-AI 4b扩展：描述AI干预是如何整合到试验环境中的，包括现场或非现场要求。

图1 CONSORT 2010流程图——适用于AI临床试验

说明：AI算法的通用性有一定的局限性，其中之一是当它们在其开发环境之外被使用时。AI系统依赖于其操作环境，报告应提供对硬件和软件要求的详细信息，以便在每个研究场所对AI干预进行技术整合。例如，应该说明AI干预是否需要特定的供应商设备，每个研究场所是否需要有专门的计算硬件，或者每个研究场所是否必须支持云集成，特别是这些设备是否需要特定的供应商。如果在实施过程中需要在每个研究场所对算法进行任何更改（如对本地数据进行算法微调），则还应清楚地描述此过程。

（4）CONSORT-AI 5（ii）扩展：描述输入数据是如何获取和选择用于AI干预的。

说明：任何AI系统的测量性能可能在很大程度上取决于输入数据的性质和质量。应提供输入数据处理的说明，包括AI系统分析前的采集、选择和预处理。该描述的完整性和透明性对于AI干预在临床试验之外的真实世界的可重复性是不可或缺的。它还可帮助读者判断输入数据在研究场所的处理流程是否标准化。

（5）CONSORT-AI 5（iii）扩展：描述如何评估和处理质量差或不可用的输入数据。

说明：同CONSORT-AI 4a（ii）一样，“输入数据”是指AI干预为达到其目的所需的数据。如4a（ii）所述，AI系统的性能可能会因输入数据质量差或缺失而受到影响（如：心电图上的过度运动伪影）。试验报告应报告缺失数据的数量，以及如何识别和处理这些数据。报告还应说明输入数据是否有最低要求标准，以及未达到最低标准时如何处理（包括对受试者管理路径的影响或任何变化）。

质量差或不可用数据也会影响非AI干预的效果。例如，扫描的质量不佳可能会影响放射科医师解释和诊断的结果。因此，在对照干预中同样报告这些信息是很重要的，它们是相关联的。如果最低质量标准与随机化前评估的合格输入数据的纳入标准不同，应加以说明。

（6）CONTORT-AI 5（iv）扩展：阐述在处理输入数据时是否存在人-AI交互，以及用户需要的专业知识水平。

说明：当处理输入数据时，应提供人-AI接口的描述和成功交互的要求。例如，临床医师从组织学切片中选择感兴趣的区域，然后由AI诊断系统解读，或由内窥镜医师选择的结肠镜检查视频片段作为设计用于检测息肉的算法的输入数据。描述所提供的用户培训，说明用户应如何处理输入数据，使试验流程透明、可重复。对人-AI接口阐述不清可能导致用户无法做到标准化操作，并可能引发伦理问题，特别是在发生伤害的情况下。如：一旦发生错误，可能无法明确是由于人为偏离操作流程，还是AI系统所导致的错误。

（7）CONTORT-AI 5（v）扩展：阐述AI干预的输出内容。

说明：AI干预的输出内容应在试验报告中明确规定。例如，AI系统可以输出诊断分类或概率、推荐的操作、对事件的报警（如药物注射的滴定）或其他输出。AI干预输出的性质直接影响其可用性，以及后续行动和最终结果。

（8）CONSORT-AI 5（vi）扩展：解释AI干预的结果将如何有助于临床决策或临床实践的其他方面。

说明：由于受试者的健康结果可能很依赖用户如何与AI干预进行交互，试验方案应解释AI系统的输出结果如何用于临床决策或临床实践的其他方面。也应详细描述能影响干预结局的下一步干预措施。与CONSORT-AI 5（iv）一样，应详细描述人-AI交互对输出结果的任何影响，包括理解输出结果所需的专业知识水平，以及为此提供的任何培训和（或）指导。例如，一个皮肤癌检测系统，以概率作为其输出，应该解释用户如何解读这一输出结果及如何采取行动，详细说明两种预期的路径（如：如果诊断为阳性，则行皮肤病变切除术）和进入路径的阈值（如：如果诊断为阳性且概率大于80%，则进行皮肤病变切除术）。由对照干预产生的信息也需同样描述，并解释如何使用这些信息来做出患者管理的临床决策。临床决策如何进行与预期如何进行（即试验方案中规定的）之间的任何差异都应报告。

6.5 结果

CONSORT-AI 19扩展：描述性能错误分析的结果，以及如何识别这些错误（如适用）。若没有此计划或未进行，请说明原因。

说明：报告性能错误和分析失败案例对于AI干预尤为重要。AI系统可能会产生难以预见的错误，但如果进行大规模部署，可能会产生灾难性的后果。因此，报告错误案例和确定风险控制策略对于确定何时以及针对哪些人群可以安全实施干预非常重要。应报告任何性能错误分析的结果，并讨论结果的含义。

6.6 其他信息

CORSORT-AI 25扩展：说明是否以及如何访问AI干预和（或）其代码，包括对访问或重复使用的任何限制。

说明：试验报告应明确是否以及如何访问或重复使用AI干预和（或）其代码。应包括相关许可证和访问限制的详细信息。

7 讨论

CORSORT-AI是一个新的报告指南的扩展版，由国际多利益相关者共识发展而来。它的目的是促进AI干预试验报告的透明度，便于批判性评价和证据合成。CORSORT-AI中增加的扩展条目解决了与AI干预的实施和评估有关的一系列具体问题，这些问题应同时参考CORSORT 2010核心条目清单和其他CORSORT扩展版。需要注意的是，这些是最低要求，报告清单或补充材料中未包含的附加条目可能也有价值。

在CONSORT-AI和SPIRIT-AI中，一个主要的重点是增加了几项与干预本身及其在临床环境中应用有关的新条目。增加条目5（i）～5（vi）是为了强调描述干预措施是专门针对AI的。提出了与AI系统相关的具体建议，涉及算法版本、输入和输出数据、与试验环境的整合、用户的专业知识以及根据AI系统建议采取行动的方案。我们一致认为，这些细节对于独立评估与重复试验至关重要。期刊编辑反映，尽管这些条目很重要，但目前在提交用于发表时，试验报告中往往没有这些条目，这进一步突显了将它们纳入扩展条目的重要性。

AI系统的安全性是德尔菲调查评论和共识小组讨论的焦点。不同于其他健康干预措施，AI系统可能产生不可预测的错误，这些错误不容易被人类发现或解释。例如，对人眼来说，不可见的或随机出现的医学影像变化可能会完全改变诊断结果的可能性。令人担忧的是，鉴于AI系统在理论上可以轻易地大规模部署，任何意想不到的有害后果都可能是灾难性的。CONSORT-AI条目19要求详细说明性能错误分析的计划，增加该项是为了强调预测算法产生的系统错误及其后果的重要性。除此之外，也鼓励研究者探索不同人群亚组的表现以及错误率的差异。已有研究表明，AI系统可能有系统误差，出现不同的输出，这可能会导致基于现有特征不同甚至不公平的治疗。

在共识会议期间，参会者详细讨论了一个未包括在CONSORT-AI指南中的主题，即“不断发展”的AI系统（也称为“不断适应”或“不断学习”的AI系统）。AI系统能够根据新数据不断进行训练，随着时间的推移可能会导致性能发生变化。工作小组指出，尽管这一领域很有趣，但它的发展相对处于早期，在医疗保健应用方面没有具体的例子，因此在现阶段将其纳入CONSORT-AI并不合适。工作组将持续关注这一主题，并将在CONSORT-AI的未来更新中重新讨论。值得注意的是，软件的增量更新，无论是连续的还是迭代的，有目的性的还是无目的性的，都可能对部署后的安全性能产生严重的后果。因此，按软件版本记录和识别这些更新是至关重要的，并应制订强有力的部署后监督计划。

本研究是在目前AI在健康领域应用的背景下进行的，因此，应注意以下局限性。第一，在医疗AI领域，已发表的干预试验相对较少，因此，本研究中所做的讨论和决定并不总是得到现有已完成试验实例的支持。这是因为我们的目的是尽早解决该领域报告质量不佳的问题，认识到该领域的强大驱动力以及AI研究设计和报告存在的具体挑战。随着AI科学和研究的发展，我们欢迎与研究人员合作，共同发展试验报告标准，以确保它们的持续相关性。第二，对AI随机对照试验的文献检索使用了“人工智能”“机器学习”和“深度学习”等术语，但没有使用“临床决策支持系统”或“专家系统”等术语，这些术语更常用于20世纪90年代由AI系统支持的技术，与最近的案例具有相似的风险。这些系统如果如今发表很可能会在“人工智能”或“机器学习”下被索引。然而，在本次共识过程中，临床决策支持系统并没有得到积极的讨论。第三，最初的候选条目列表是由范围相对较小的专家组提出，该专家组由指导小组成员和其他国际专家组成。但是，由规模更大的德尔菲专家小组提出的新项目在共识小组进行了讨论，共识会议期间或会后评估期间没有新项目提出。

与CONSORT声明一样，CONSORT-AI扩展旨在作为最低限度的AI报告指南，对于试验报告，还有AI相关的其他注意事项可能值得考虑。此扩展目的是使研究者和读者报告或评价临床试验，不过，它也可以在AI系统的早期验证阶段为AI干预的开发者提供有用的指导。开发和验证AI模型的诊断和预测性能的研究人员，在研究报告时应参考“基于机器学习的个体化预后或诊断的多变量预测模型透明报告”（Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis-Machine Learning，TRIPODML）和“基于AI诊断准确性研究的报告标准”（Standards for Reporting Diagnostic Accuracy Studies-Artificial Intelligence，STARD-AI），这两个报告标准目前都在开发中。其他与研究设计无关的相关指南已在EQUATOR协作网注册。CONSORT-AI扩展有助于AI干预的临床试验在早期进行详细规划，与SPIRIT-AI相结合，将有助于提高AI干预试验的质量。CONSORT-AI指南的开发不包括试验报告讨论部分的附加条目。CONSORT 2010中关于试验局限性、普遍性和解释的指导同样适用于AI干预试验。

AI是一个快速发展的领域，随着技术和新应用的发展，CONSORT-AI也需要更新。目前，AI的大多数应用涉及疾病检测、诊断和分诊，这很可能已经影响了CONSORT-AI条目的类型和优先顺序。随着更多“AI成为治疗手段”应用的出现，根据相关研究继续评估CONSORT-AI将十分重要。此外，计算机技术以及将其整合到临床工作流程的能力在不断进步，将为医疗创新带来新的机遇，从而使患者受益。然而，研究设计和报告也可能伴随新的挑战。为了保证试验透明度，最大限度地减少潜在的偏差，提高结果的可信度和可推广度，SPIRIT-AI和CONSORT-AI指导小组将持续关注指南更新的需要。