《四川精神卫生》杂志发表的干预类随机对照试验的系统评价／Meta分析方法学质量评价

2022-05-09 10:46唐雪莉黎林果银春燕

四川精神卫生 2022年2期

车鹏，胡俊，唐雪莉，黄可，黎林果，银春燕

（四川省精神卫生中心·绵阳市第三人民医院，四川绵阳 621000

系统评价/Meta分析（Systematic Review/Meta Analysis，SR/MA）是公认的评判临床疗效及制订临床指南和规范的基石，临床医生可以通过阅读质量较好的SR/MA来掌握并更新信息［1］。但部分SR/MA存在设计缺陷、研究质量低，可能影响其证据强度。因此，在应用循证证据之前，需对SR/MA进行质量再评价。循证医学认为随机对照试验（Randomized Controlled Trial，RCT）是评价干预性研究效果的最佳方案和金标准［2］。而系统评价针对某一问题的RCT系统全面地收集相关研究，严格评价及筛选后进行定性或定量合成并得出结论。2007年发表的AMSTAR（Assessment of Multiple Systematic Reviews）是目前广泛使用的对系统评价进行质量评价的工具［3］。2017年9月，AMSTAR工作组对AMSTAR进行了修订并发布AMSTAR 2，是目前国际推荐的方法学质量评价工具［4］。《四川精神卫生》杂志是由四川省卫生健康委员会主管、四川省精神卫生中心主办，国内公开发行的精神医学类学术期刊。对其发表的SR/MA进行分析，有助于了解精神医学领域循证医学的发展特点及规律。本研究采用AMSTAR 2对《四川精神卫生》杂志发表的干预类RCT的SR/MA进行方法学质量评价，分析其已发表的SR/MA现状及存在的问题，为今后学者撰写SR/MA提供一定的参考借鉴，明确相关注意事项。

1 资料与方法

1.1 文献检索

于2021年7月31日计算机检索万方数据库、中国知网、维普数据库、中国生物医学文献数据库，检索文种限中文，设置期刊-刊名为“四川精神卫生”，检索时限为1988年至2021年6月30日。中文检索词：“系统评价”“Meta 分析”“系统综述”“荟萃分析”。检索式：（期刊-刊名=“四川精神卫生”）AND（“系统评价”OR“Meta分析”OR“系统综述”OR“荟萃分析”）。

1.2 文献纳入与排除标准

纳入标准：《四川精神卫生》杂志从1988年创刊至2021年6月30日发表的所有干预类RCT的SR/MA。排除标准：①系统评价的研究计划书；②研究对象为动物的文献；③SR/MA的摘要或译文。

1.3 文献筛选与资料提取

根据纳入与排除标准，由两名研究者独立对检出文献进行筛选，删除重复文献，再通过阅读文献标题、摘要及全文进行评估，对排除的文献记录排除理由，对纳入文献进行相互核对，如有争议交由第三名研究者判定。采用Excel 2016制作数据提取表，由两名研究者独立提取数据后交叉核对，如遇分歧讨论解决。提取项目包括作者、发表时间、作者数量、作者单位、基金资助以及质量评价工具。

1.4 纳入文献方法学质量评价及GRADE分级

采用AMSTAR 2对纳入文献的方法学质量进行评价。AMSTAR 2共16个条目［3］，由两名研究者分别使用AMSTAR 2对纳入文献进行评分，如有分歧则通过讨论解决。AMSTAR 2条目评价评为“是”计1分，“部分是”计 0.5 分，“否”计 0分。对“未进行Meta 分析”“仅纳入 RCTs”“仅纳入 NRSI”评价选项不计分，符合该评价选项的用“未进行Meta分析”“仅纳入 RCTs”“仅纳入 NRSI”标识。AMSTAR 2 评分范围0～16分，评分越高，表明文献质量越高。

GRADE分级通过研究局限性、不一致性、不直接性、不精确性及发表偏倚5个降级因素对结局指标进行证据质量评级，其中RCT证据质量评级被预设为高级，降1级为中级，降2级为低级，降3级及以上为极低级［5］。

1.5 统计方法

采用SPSS 22.0进行统计分析。纳入文献的基金资助、作者数量、作者单位数量及性质、质量评价工具以及AMSTAR 2的方法学质量评价结果以［n（%）］表示，计量资料以（±s）表示。对不同发表时间、作者数量、作者单位数量、基金资助情况的文献AMSTAR 2评分比较采用独立样本t检验，对不同作者单位性质的文献AMSTAR 2评分比较采用单因素方差分析。检验水准α=0.05。

2 结果

2.1 文献检索结果

共检出文献198篇，删除重复文献145篇，阅读标题及摘要后排除17篇，阅读全文后排除12篇，最终纳入文献24篇。文献筛选流程见图1。

图1 文献筛选流程图

2.2 纳入文献的一般情况

纳入24篇［6-29］干预类RCT的SR/MA，其中2005年1篇［6］，2008年 1 篇［7］，2009年 3篇［8-10］，2011年 4篇［11-14］，2012 年 1 篇［15］，2014 年 1 篇［16］，2015 年 3篇［17-19］，2017 年 1 篇［20］，2019 年 3 篇［21-23］，2020 年 5篇［24-28］，2021年1篇［29］；基金资助情况：有基金资助5篇（20.83%），无基金资助19篇（79.17%）；作者数量：≤2人9篇（37.50%），≥3人15篇（62.50%）；作者单位数量：19篇（79.17%）文献的作者来自同一单位，5篇（20.83%）文献的作者来自2个及以上单位；作者单位性质：仅大学2篇（8.33%），仅医院18篇（75.00%），均含大学与医院4篇（16.67%）；文献质量评价工具：仅采用Cochrane Handbook评价的有9篇（37.50%），仅采用Jadad评价的有2篇（8.33%），Cochrane Handbook及Jadad评价均使用的有1篇（4.17%），未采用质量评价工具的有12篇（50.00%）。24篇干预类RCT的SR/MA AMSTAR 2总评分为1～11分［（5.21±3.63）分］。见表1。

表1 纳入的SR/MA一般资料

2.3 纳入文献的方法学质量评价

评价纳入的SR/MA在AMSTAR 2各条目中的符合程度：没有文献完全符合16个条目的要求。24篇文献均完整报告的有条目1“是否包括PICO各要素”；报告程度≥50%的条目有条目5“是否由两人独立完成文献筛选”12篇（50.00%），条目6“是否由两人独立完成数据提取”12篇（50.00%），条目8“是否详细地描述了纳入研究的基本特征”20篇（83.30%），条目9“是否使用合理工具评估纳入文献的偏倚风险”12篇（50.00%）。见表2。

表2 纳入的SR/MA方法学质量评价结果［n（%）］

续表2：

2.4 不同类别的文献AMSTAR 2评分比较

在24篇SR/MA中，发表于AMSTAR 2发布前与发布后（t=-5.499）、作者数量≤2人与作者数量≥3人（t=-6.736）、有无基金资助（t=3.319）、不同作者单位性质（F=7.827）的文献AMSTAR 2总评分差异均有统计学意义（P均＜0.01）。作者单位数量1个与作者单位数量≥2个（t=-1.526）的文献AMSTAR 2总评分差异无统计学意义（P＞0.05）。见表3。

表3 不同类别的文献AMSTAR 2评分比较（±s，分）

t/F P项目发表时间-5.499＜0.010作者数量-6.736＜0.010作者单位数量-1.5260.140有无基金资助3.3190.003作者单位性质AMSTAR2发布前（n=15）AMSTAR2发布后（n=9）≤2人（n=9）≥3人（n=15）1个（n=19）≥2个（n=5）有（n=5）无（n=19）仅为医院（n=18）仅为大学（n=2）医院和大学（n=4）AMSTAR 2评分（分）3.07±2.67 8.78±2.06 1.72±0.36 7.30±3.17 4.63±3.69 7.40±3.21 9.30±1.89 4.13±3.31 3.86±3.17 10.50±0.00 8.63±1.93 7.8270.003

对纳入24篇SR/MA的AMSTAR 2中的16个条目评价结果进行比较，其中条目1各文献均为全符合，条目2、7、10、16均不符合。在AMSTAR 2发布前与发布后发表的文献，条目4、5、6、9、11、12、14、15评分差异均有统计学意义（P＜0.05或0.01）。作者数量≤2人与作者数量≥3人的文献，条目4、5、6、9、11、12、13、14、15评分差异均有统计学意义（P＜0.05或0.01）。有无基金资助的文献，条目4、5、6、9、11、14评分差异均有统计学意义（P＜0.05或0.01）。不同作者单位性质的文献，条目5、6、9、11、12、13、14、15评分差异均有统计学意义（P＜0.05或0.01）。作者单位数量为1个与作者单位数量≥2个的文献，条目4评分差异有统计学意义（P＜0.05）。见表4。

表4 不同类别的文献AMSTAR 2各条目评分比较

2.5 纳入文献的GRADE分级

24篇文献中应用Meta分析的结局指标共81个，其中6个结局指标GRADE分级为高级，10个结局指标GRADE分级为中级，其余结局指标GRADE分级均为低级或极低级。阳中明［8］进行的Meta分析结果显示，阿立哌唑治疗前后（D=1.75，95%CI：1.52～1.97，P＜0.05）（GRADE分级为中级）、阿立哌唑与对照组（D=0.09，95%CI：-0.18～0.01，P＜0.05）（GRADE分级为中级）、阿立哌唑与利培酮（D=0.06，95%CI：-0.19～0.07，P＜0.05）（GRADE 分级为中级）、阿立哌唑与其他（D=0.12，95%CI：-0.26～0.03，P＜0.05）（GRADE分级为中级）。陈晓鹭等［17］进行的Meta分析结果显示，有效率（RR=1.13，95%CI：1.04～1.24，P＜0.05）（GRADE 分级为高级）、治愈率（RR=1.37，95%CI：1.16～1.60，P＜0.05）（GRADE分级为高级）、不良反应（RR=1.22，95%CI：0.97～1.54，P＜0.05）（GRADE分级为高级）。葛祥丽等［22］进行的Meta分析结果显示，终点痊愈率（RR=1.91，95%CI：1.58～2.31，P＜0.05）（GRADE分级为中级）、体质量增加（RR=6.21，95%CI：3.37～11.45，P＜0.05）（GRADE分级为中级）、嗜睡（RR=4.26，95%CI：2.17～8.30，P＜0.05）（GRADE分级为中级）。段昌嵘等［24］进行的Meta分析结果显示，合并抑郁组抑郁改善（SMD=-0.33，95%CI：-0.63～0.04，P＜0.05）（GRADE分级为中级）、健康组抑郁改善（SMD=-0.67，95%CI：-1.09～-0.24，P＜0.05）（GRADE分级为高级）、老年组抑郁改善（SMD=-0.38，95%CI：-0.91～0.15，P＜0.05）（GRADE 分级为高级）。孙桂芝等［26］进行的Meta分析结果显示，副作用（RR=0.63，95%CI：0.49～0.80，P＜0.05）（GRADE分级为高级）。王贤等［29］进行的Meta分析结果显示，服药依从性（OR=3.05，95%CI：1.98～4.69，P＜0.05）（GRADE分级为中级）、复发率（OR=0.34，95%CI：0.24～0.48，P＜0.05）（GRADE分级为中级）。

3 讨论

本研究共纳入24篇《四川精神卫生》杂志发表的干预类RCT的SR/MA，其中，作者数量≥3人的文献有15篇，占62.50%，表明较多的研究是合作完成，反映出研究SR/MA需要团队协作。19篇（79.17%）文献是由同一单位人员合作完成，可能存在选择偏倚以及相同时间内获取样本少等缺陷。5篇（20.83%）文献有基金资助，说明SR/MA受重视较少。单位性质为医院的文献数量多于单位性质为大学及大学和医院的文献，说明职业偏向方面医生较老师更致力于证据的寻找及研究。质量评价标准方面，未使用工具评价的文献有12篇（50.00%），仅使用Cochrane Handbook评价的文献有9篇（37.50%），仅使用Jadad评价的文献有2篇（8.33%），Cochrane Handbook及Jadad评价均使用的文献有1篇（4.17%）。说明Cochrane Handbook仍是目前SR/MA文献质量评价的主要工具。总之，本研究结果显示，SR/MA主要由多作者合作、同一单位完成研究、较少有基金资助、主要使用Cochrane Handbook评价、作者单位性质医院多于大学，与既往研究结果基本一致［1］，但均显示出由同一单位的人员完成研究、较少有基金资助等现状。

本研究纳入文献AMSTAR 2总评分为1～11分。纳入的文献均可提取PICO各要素，但主要存在如下缺陷：①纳入文献条目2评价结果显示，未确定前期研究方案；②纳入文献条目7评价结果显示，文献筛选流程仅描述汇总理由，未给出具体的排除清单和理由；③纳入文献条目10评价结果显示，24篇文献均未报告研究资金来源，对系统评价可能产生偏倚；④纳入文献条目16评价结果显示，均未说明资金赞助情况以及是否存在利益冲突。此外，表现突出的问题有：①纳入文献条目3评价结果显示，95.83%的文献未解释纳入研究设计类型的原因，而系统评价的RCT数量较少、结局指标缺失时可选非随机干预研究做补充；②纳入文献条目4评价结果显示，83.33%的文献未完整提及是否检索灰色文献或手工检索等，如排除灰色文献，可导致阳性结果概率增大；③纳入文献条目5、6评价结果显示，50.00%的文献筛选及数据提取由1位研究者单独完成或未提及由几位研究者完成，不符合系统评价中文献筛选和数据提取的标准；④纳入文献条目9评价结果显示，50.00%的文献未采用合理的工具评估纳入研究的偏倚风险；⑤纳入文献条目11评价结果显示，70.83%的文献未使用适当的统计方法进行结果合并分析；⑥纳入文献条目12评价结果显示，83.33%的文献未报告不同偏倚风险的RCT对Meta分析结果的影响；⑦纳入文献条目13评价结果显示，70.83%的文献在对系统评价结果进行解释和讨论时，未考虑研究设计的偏倚风险；⑧纳入文献条目14评价结果显示，75.00%的文献未对研究结果的异质性给予满意的解释和讨论，或未进行亚组分析或回归分析；⑨纳入文献条目15评价结果显示，58.33%的文献未评估发表偏倚以及讨论其对结果的影响。上述问题的存在，表明现有系统评价的写作有待规范，应严格按规范的流程及格式撰写此类论文。

综上所述，《四川精神卫生》杂志发表的干预类RCT的SR/MA类研究数量间断有所增加，且在AM⁃STAR 2发布后发表的文献方法学质量有所改善，但仍存在如下问题：①文献纳入及筛选环节可能存在一定的主观性；②受版面限制，部分文献可能未充分描述相关内容，导致低估部分条目评分结果；③研究人群有局限性，缺乏可能影响研究结果的详细信息，如人种、地域和受教育程度等；④方法学质量、报告质量及证据质量评价存在一定的主观性，且AMSTAR 2条目多，在具体评价过程中可能会削弱对部分信息不全的文献的解读。