儿童针灸领域系统评价的方法学质量和偏倚风险评估

2020-05-25 01:44马圆柯立鑫毛雪艳贺春伟刘佳刘雅莉

中国循证心血管医学杂志 2020年4期

马圆，柯立鑫，毛雪艳，贺春伟，刘佳，刘雅莉

针灸推拿学是我国中医药学的重要组成部分，经过几千年的积淀，历代医家的不断完善和发展，逐渐形成理论体系相对独立、治疗技术特色鲜明、临床运用极为广泛的一门学科[1]。其中针灸在中国有数千年的应用，它不仅在国内应用，同时在世界范围内被广泛应用[2-7]。目前，针灸疗法被广泛用于内、外、妇、儿等各科疾病[8]。而儿童作为一个独特的医疗群体，其身体结构与功能相比成人来说还未发育完全，但基于中医的脏腑经络理论，其在儿科应用仍有一定优势[9]。

系统评价通常被认为是医疗干预可靠的证据来源[10，11]。近年来关于针灸治疗儿科疾病的系统评价日渐增多，但其参差不齐的质量引起了许多国内外学者的关注[12，13]，只有高质量的系统评价才能为临床医师、患者及其他利益相关者提供更为可靠的决策依据[14]，因此评价其质量显得尤为必要。系统评价的质量包括方法学质量和报告质量，目前用于评价系统评价质量的工具已有许多，而其中以AMSTAR（the Assessment of Multiple Systematic Reviews）[15]应用最为广泛，但它主要用于评价纳入随机对照试验系统评价的方法学质量。2017年，AMSTAR工作组基于AMSTAR 制订并发布了AMSTAR-2[16]，它可用于评价纳入随机和（或）非随机对照试验系统评价的方法学质量。ROBIS（Risk of Bias in Systematic Review）[17]工具是2014年英国布里斯托尔大学（University of Bristol）社会医学部制订发布的用于评价系统评价偏倚风险的评价工具，它不仅可评价系统评价的偏倚风险，还可判断系统评价拟解决的目标问题是否与构建的临床问题（PICO）匹配。

本文采用AMSTAR-2和ROBIS分别评价儿童针灸领域系统评价的方法学质量和发表偏倚，探讨两种评价工具的特点，为合理选择AMSTAR-2和ROBIS工具提供参考依据。

1 资料与方法

1.1 纳入与排除标准

1.1.1 纳入标准①研究类型：系统评价和/或Meta分析；②研究对象：患病（病种不限）儿童（≤18岁）；③干预措施：试验组为针灸疗法（包括针刺、灸法、按摩、推拿），或同时联合另一种针灸疗法或其他干预措施，对照组采用不干预、假针刺、另一种针灸疗法、或同时联合另一种针灸疗法或其他干预措施等；④结局指标：不限定。

1.1.2 排除标准①非中、英文文献；②重复发表的文献，重复发表的文献的选取原则为只纳入发表时间最早的一篇；③冠以系统评价或Meta分析的质量评价研究；④会议摘要；⑤尚处于计划书和题目阶段的Cochrane系统评价。

1.2 检索策略计算机检索中国生物医学文献数据库（CBM）、中国知网（CNKI）、万方医药期刊数据库（WanFang Data）、维普（VIP）、PubMed、Cochrane系统评价数据库（CDSR）、EMBASE数据库，检索时限均为从建库至2018年1月。采用主题词与自由词相结合的检索方式，并根据具体数据库调整。中文检索式为“（儿童OR婴儿OR小儿OR青少年）AND（针灸OR灸法OR按摩OR推拿）AND（系统评价OR Meta分析）”。英文检索式为“（children OR adolescent OR Pediatric OR baby）AND（Acupuncture OR Acupoint OR tuina OR Massage）AND（systematic review OR meta analysis）”。

1.3 文献筛选由两位作者独立筛选文献、提取资料并交叉核对；如遇分歧，则咨询第三方（刘雅莉）协助判断，缺乏的资料尽量与作者联系予以补充。文献筛选时首先阅读文题和摘要，在排除明显不相关的文献后，进一步阅读全文，以确定最终是否纳入。

1.4 资料提取预先设计统一的资料提取表。内容主要包括基本信息（包括作者、发表（或更新）年份、针灸的类型、质量评价工具、结局指标等）；基于AMSTAR-2和ROBIS条目设计方法学质量及偏倚评估方面的资料提取表。数据提取前，对数据提取人员进行培训，同时完成3轮预提取。由两位作者同时进行数据提取并交叉核对，出现分歧时通过协商解决。

1.5 方法学质量和偏倚风险评估纳入研究采用AMSTAR-2[16]和ROBIS[17]分别进行方法学质量评价和偏倚风险评价。AMSTAR-2每一条目根据作者是否报告做判断，完整报告计1分，部分报告计0.5分，未报告计0分。ROBIS每一领域的评估包括三个步骤：从系统评价中寻找支持偏倚风险程度判断的信息，回答标志性问题，判断偏倚风险程度。标志性问题的回答以“是”、“可能是”、“可能否”、“否”和“无信息”表示。最后判断该领域的偏倚风险程度时，分为“低”、“高”、“不确定”。如果所有标志性问题的回答是“是”或“可能是”，则该领域偏倚风险程度为“低”；若有任一标志性问题的回答是“可能否”或“否”，则偏倚风险程度为“高”；若提供的信息不足以判断，则偏倚风险程度为“不确定”。如果所有领域的偏倚风险程度均为“低”，则该文献总体偏倚风险为“低”；若有任一领域偏倚风险程度为“高”，则该文献总体偏倚风险为“高”；其余情况则判断为“不确定”。

1.6 数据处理数据采用SPSS 20.0软件分析。分类资料采用例数（n）和百分比（%）描述。

2 结果

2.1 文献检索结果共初检索出924篇儿童针灸领域系统评价相关文献，其中英文文献824篇，中文文献100篇。浏览题目和摘要筛选相关文献，在排除明显不符合纳入标准的试验后，对可能符合纳入标准的试验阅读全文，以确定是否真正纳入，最终纳入文献66篇，其中CDSR、国际期刊、中文期刊分别发表7篇、34篇和25篇。文献筛选流程具体见图1。

图1 文献筛选流程图

2.2 纳入研究的基本特征纳入的66篇系统评价/Meta分析中，25篇为描述性系统评价，41篇为定量的系统评价。有12.12%（8/66）研究报告了更新及更新时间，36.36%（24/66）研究报道了基金资助的情况，37.88%（25/66）研究报告了利益冲突的情况。针灸的干预类型包括针刺、灸法、针刺+灸法、按摩、推拿、按摩+推拿、针刺+灸法+按摩。纳入文献的基本特征具体见表1。

2.3 纳入研究的方法学质量和偏倚风险评估

2.3.1 AMSTAR-2评价结果AMSTAR-2工具评价结果显示，有7个条目报告率＜50%，这7个条目分别为条目2、3、5、7、10、15、16，其中报告率最低的3个条目分别是“是否报告系统评价纳入研究的基金资助信息（7.58%，5/66）”、“研究设计的选择依据是否给予解释（10.61%，7/66）”和“是否提供排除研究的清单以及排除理由（10.61%，7/66）”。详细条目报告见表2。最终16篇在0～5分之间，38篇在6～10分之间，12篇在11～16分之间。详细评分见表2。

2.3.2 ROBIS评价结果ROBIS评价结果显示，92.42%（61/66）的文献总体偏倚风险较高，其中四个领域(领域1研究的纳入排除标准、领域2研究的检索和筛选、领域3数据提取和质量评价和领域4数据合成和结果呈现)的偏倚风险高的文献分别占总数的78.79%（52/66）、81.82%（54/66）、40.91%（27/66）和66.67%（44/66）。各领域偏倚风险见表3。

2.3.3 AMSTAR-2与ROBIS评估结果比较AMSTAR-2评价结果显示，最终16篇在0～5分之间，38篇在6～10分之间，12篇在11～16分之间。在评分为11～16分12篇文献，ROBIS评价显示仅2篇文献判为低偏倚风险，有10篇文献显示具有较高的偏倚风险（表4）。本研究分别对描述性系统评价和定量系统评价做亚组分析（表5），提示在AMSTAR-2评分11～16分间的系统评价，ROBIS评价结果仍可能显示为高风险。

3 讨论

表1 纳入文献的基本特征表

3.1 AMSTAR-22017年9月，基于原始的版本，AMSTAR工作组在BMJ正式发表了AMSTAR-2，AMSTAR-2清单的作者保留了11个原始项目中的10个，并增加了一些附加项目，原有的评级体系也做了一些修改，有助于更规范地制作系统评价。根据AMSTAR的评分标准，将分数转换为三类（高，中，低方法学质量）的可行性仍存争议，而AMSTAR-2在评价过程中，也未对每个被评估的单个项目设定不同的权重，当前也不推荐评分，也很难评价文献总体的质量。另一方面，AMSTAR-2虽易于使用，但仍需要更多的实践不断检验其可行性。

表2 AMSTAR-2质量评价表

表3 ROBIS偏倚风险评估表

表4 25篇描述性系统评价AMSTAR-2评分与ROBIS偏倚风险评估结果比较

3.2 ROBIS系统评价在设计、制作和分析中出现缺陷或局限性，严重影响了系统评价的结果，就会产生偏倚，这被称为系统评价的偏倚风险。在理解系统评价偏倚风险时，需要与系统评价纳入的原始研究的偏倚风险相区别。如原始研究的偏倚风险很高，但系统评价在制作过程中充分考虑并合理处理了这些偏倚，该系统评价的偏倚风险仍可为“低”[18]。ROBIS工具不仅客观评估系统评价制定过程和结果解释过程中的偏倚风险，还评估了系统评价与其纳入的原始研究间的相关性，同时还评价目标问题与系统评价问题的相关性。因此，ROBIS工具是目前值得推荐的一个系统评价偏倚风险评价工具。

本课题组成员在评价儿童针灸领域的系统评价时发现，相比于AMSTAR-2，ROBIS评价过程耗时较长[18]，工作量较大，但ROBIS评判标准明确，易评价系统评价总体的偏倚风险[19]。目前ROBIS适用性较低，其原因可能与ROBIS条目较为复杂，评价者需要更高的专业水平，并且针对评价不一致的条目需要较长时间才能达成共识等有关。如在确定“数据合成是否包括了所有应该包括的研究”时、判断“是否存在发表偏倚和选择性结局报告偏倚”时，常因很难找到充足的依据导致评价较为困难；此外，ROBIS工具也需在应用过程中逐渐完善。ROBIS评价结果显示，儿童针灸领域系统评价的制作在研究的纳入排除和研究的检索和筛选过程存在较大的偏倚风险，建议制作系统评价需规范系统文献检索、文献筛选、方法学质量评价等环节，以提高系统评价结果和结论的可信度。

3.3 系统评价的方法学质量和偏倚风险评价比较AMSTAR-2评价显示12篇文献视为高质量，而ROBIS评价显示3篇文献判为低偏倚风险（表4）。AMSTAR-2评价方法学质量较高的12篇文献中，有10篇文献ROBIS评价显示具有较高的偏倚风险。25篇描述性系统评价AMSTAR-2评分与ROBIS偏倚风险评估结果比较显示，有1（4.00%，1/25）篇高方法学质量的文献存在高风险偏倚。41篇定量的系统评价AMSTAR-2评分与ROBIS偏倚风险评估结果比较，有9（21.95%，9/41）篇高方法学质量的文献存在高风险偏倚。本研究分别对描述性系统评价和定量系统评价做亚组分析，提示在AMSTAR-2评分11～16分间的系统评价，ROBIS评价结果均可能存在高风险偏倚。

表5 41篇定量的系统评价AMSTAR-2评分与ROBIS偏倚风险评估结果比较

有研究表明比较提示AMSTAR-2和ROBIS制订的理论架构不同，前者更多的关注方法学部分，即是否按照给定的操作步骤实施研究，而后者则以关注结果部分为主，即给定的步骤是否对研究结果的可信度产生了影响[20]。总体而言，AMSTAR-2评价方法学质量低的系统评价偏倚评估常呈现高风险，但方法学质量高的系统评价也可能存在高偏倚风险。分析其原因可能如下：第一，两种工具（质量评价与偏倚风险评估）侧重点不同。AMSTAR-2更多地关注系统评价的方法学部分是否采取了正确、充分的方法，而ROBIS则更侧重于评价研究可能存在的偏倚风险。其次，AMSTAR-2和ROBIS评估过程存在主观性。当两种工具针对同一领域进行评估时，由于评价者对本领域评价的内容和尺度有差异，导致结果可能存在不同，如：①AMSTAR-2条目3（研究设计的选择依据是否给予解释）与ROBIS在1.4领域中（纳入标准中所有基于研究特征的限制是否合适）评价结果较有差异。我们发现，在研究特征的这一领域，ROBIS的判断标准比较具体，对研究设计、发表时间、样本量、研究质量和结局指标的限制均进行了考虑，而AMSTAR-2较侧重于研究设计。如按ROBIS的标准认为研究设计的限制较为合适判为“是”时，AMSTAR-2因文献未解释研究设计的选择理由而判为“否”。②关于检索的条目，AMSTAR-2为条目4（是否使用了全面的检索策略），而在ROBIS条目中关于检索这一领域则细化为（2.1检索已发表和未发表；2.2是否使用了除数据库检索外的其他方法来研究相关研究；2.3检索策略的检索词和结构是否能尽可能多地检索到符合的研究；2.4基于时间、发表形式、语言的限制是否合适）。可以看出，ROBIS详细列出检索部分具体哪一方面存在不足。当AMSTAR-2中对条目4判断为“部分是”时，ROBIS在领域的判断结果可能为“可能否”、也有可能为“否”。此处如能阐述判断依据将能提高评价过程的透明性。③ROBIS条目中未考虑利益冲突可能对研究偏倚造成的影响，因此评价者易忽略利益冲突是否会对研究结果产生影响的问题。而AMSTAR-2则有2个条目是关于利益冲突的，分别是条目9（是否报告系统评价纳入研究的基金资助信息），条目16（是否报告潜在的利益冲突来源，包括目前系统评价收到的基金资源）。④ROBIS工具领域4（数据合成和结果呈现）更倾向于评估定量合成过程中可能存在的问题，而对于描述性系统评价并未进行meta分析的情况尚未充分考虑。而AMSTAR-2关于数据领域的条目11（如果执行Meta分析，结果合成的统计学分析方法是否合适）和条目12（如果执行Meta分析，是否评价单个研究偏倚风险对Meta分析结果的影响）则清晰易评价。

3.4 优势与局限性本研究采用系统评价方法学质量/偏倚风险评价工具——AMSTAR-2与ROBIS评价了儿童针灸系统评价的方法学质量/偏倚风险。同时在研究正式开始之前，对相关研究人员进行了工具的使用培训并完成了三次预试验，保证了评价结果的准确性。

局限性有以下两个方面：①本研究结果仅基于儿童针灸域的AMSTAR-2与ROBIS评价结果；②同一组评价员评价同一系统评价时，AMSTAR-2与ROBIS的顺序可能会对评价结果造成影响。

3.5 结论系统评价方法学质量与偏倚风险有联系、也有区别。方法学质量高的系统评价更倾向于出现低的偏倚风险，但也有可能呈现高的偏倚风险。两工具评价的侧重点不同，建议使用者根据具体需求选择AMSTAR-2和ROBIS工具。