循证实践能力评估工具的系统评价

2021-07-12 08:47沈建通卢静雅温秋月

循证护理 2021年7期

张奕,沈建通,卢静雅,温秋月

1.湖州师范学院医学院,浙江313000；2.浙江大学医学院附属邵逸夫医院,浙江311500

循证实践(evidence-based practice,EBP)是指将现有最佳研究证据与病人的价值观和临床情况结合起来进行临床决策的过程[1]。随着20世纪末循证医学的发展,循证实践被迅速地应用于临床实践、临床教育和临床管理等多个方面。许多研究证明其能够提供更好的病人结局,提高病人的安全性,改善护理质量以及减少医院和病人的成本等[2-4]。美国医学研究所提出到2020年90%的临床决策都应以最佳证据为基础[5]。国际护士协会也将循证实践作为高质量护理的金标准[6]。然而有研究显示，临床人员和临床学生的循证实践能力处于中等或低下水平[7],仅12%的医护人员在临床实践中采用了现有的最佳证据[8]。因此,在循证实践教育与培训过程中,应用科学的评估工具评价教学效果有利于进一步采取相应策略提高教学水平。目前,国内外已开发了较多的循证实践能力相关评估工具用于指导教学,但其评估对象、评估内容和有效性各不相同,且尚未形成客观统一的工具。本研究基于循证方法,对循证实践能力评估工具的运用、特点以及有效性进行总结,为循证实践能力评估工具的选择提供科学依据。

1 资料与方法

1.1 纳入和排除标准

纳入标准:①研究类型为随机或非随机对照研究、队列研究或横断面调查研究；②研究内容为循证实践能力评估工具研制或验证；③至少包含一种工具信效度结果的研究；④同一工具有多个版本则纳入最新版本,有多种国家翻译版选择原版。

排除标准:①循证实践能力评估工具推广使用类研究；②工具使用的效果研究；③文献的信息不全或者数据不充分的研究；④无法获得全文,且摘要提供信息不足。

1.2 检索策略

由2名研究人员通过计算机检索PubMed、EMbase、Web of Science(WOS)、the Cochrane Library、CINAHL、中国生物医学文献数据库(CBM)、中国期刊全文数据库(CNKI)及万方数据库(WanFang Data)，检索时限均从建库到2019年12月31日,检索词为主题词和自由词相结合。英文检索词为“evidence-based /EBM”“effect*/assess*/appraisal*/measur*/evaluate*/judg*/estimate*/impact*/validity*/reliability”“tool*/scale*/ instrument*/questionnaire*/approach”,中文检索词为“循证”“工具/量表/评估表/评分表/评估单”“能力/技能”。同时还通过查阅纳入文献的参考文献的方式进行手工检索。

1.3 文献筛选与资料提取

由2名研究人员独立筛选文献,如遇分歧则由第3名研究者裁定。若获得的文献所提供的内容不全或有疑问,将进一步与文献作者联系予以补充。根据文献纳入与排除标准,通过阅读文献标题和摘要,排除明显不相关的文献后,进一步阅读全文,以确定最终是否纳入。

由2名研究者采取事先设计的资料提取表独立提取数据,并交叉核对,如遇分歧讨论解决或交由第三方裁定。提取内容包括作者、发表时间、国家、研究对象、样本量、工具名称、工具测量内容、工具的信效度指标等。

1.4 文献质量评价

采用方法学质量评价工具COSMIN偏倚风险清单对纳入研究的偏倚风险进行评价[9],该清单内容包括量表的研发、内容效度、结构效度、内部一致性、跨文化效度、信度、测量误差、效标效度、结构效度的假设检验及反应度10个独立模块。研究者很少(有时也不需要)效验所有类型的测量属性,可灵活选择对应的测量属性,每个测量属性赋予3个等级,分别为充分(+)、不确定(？)和不充分(-)。根据每个测量属性的评价结果合成每个研究工具的评价结果,参照GRADE方法,根据偏倚风险、研究结果是否一致、样本量、量表的适用人群对每个工具的证据进行分级,分为强、中等、弱和未知。评估工作由2名评估人员独立进行,如有分歧,由第3名评估者参与讨论并达成一致意见。

1.5 统计学分析

根据循证实践教育评估工具分类指南(The Classification Rubric for EBP Assessment Tools in Education,CREATE)[10]对纳入工具从对教育的反应、态度、自我效能、知识、技能、行为、病人获益等方面进行分类比较,采用定性描述的方法对每个循证实践步骤进行评估。

2 结果

2.1 文献检索结果

初次检索到外文文献5 748篇,中文文献954篇,灰色文献87篇,手工检索8篇,共6 797篇文献,剔重后获得文献5 923篇；通过阅读题目和摘要,初步筛选出文献130篇；通过阅读全文,根据纳入及排除标准,最终获得合格文献29篇,其中5篇中文文献,24篇英文文献。文献筛选流程及结果见图1。

图1 文献筛选流程及结果

2.2 纳入文献基本特征

纳入的29篇文献，发表时间为2001年—2017年，其中近5年的文献有7篇；发表地区来自中国6篇，美国9篇，澳大利亚7篇，英国2篇，加拿大1篇，意大利1篇，荷兰1篇，西班牙1篇，德国1篇。随机对照研究1篇，非随机对照研究6篇，自身前后对照研究3篇，队列研究1篇，调查性研究18篇。共获得循证能力评估工具29个，其中国内评估工具5个(2个工具是KACE和Fresno Text的改良版本)。所纳入评估工具的评估条目数为9～84条，评估对象主要为在校师生、护士和医生，样本量40～1 054例。纳入研究的基本特征见表1。

表1 纳入文献基本特征

2.3 偏倚风险和证据强度评价

根据COSMIN 偏倚风险清单进行评价,有10个工具(6个国外评估工具和4个国内评估工具)的证据强度为强,有13个评估工具的证据强度为中等,6个评估工具的证据强度为弱。COSMIN 偏倚风险清单的测量误差、跨文化效度、效标效度3个指标没有文献测量,本研究重点评价信度(内部一致性、信度)、效度(内容效度、结构效度、假设检验)、反应度3个维度。3篇文献测量了工具的4个结局指标,14篇文献测量了工具的3个结局指标,9篇文献测量了2个结局指标,3篇文献测量了1个结局指标。见表2。

表2 方法学质量和证据强度评价结果

2.4 循证实践能力评估工具内容比较

纳入文献涉及的29个评估工具中有6个(20.7%)评估工具包含对循证实践自我认知、知识、技能和应用4方面的评估,10个(34.5%)评估工具涉及循证实践3方面评价,6个(20.7%)评估工具涉及2方面的评价,4个(13.8%)评估工具仅涉及自我认知评估,1个(3.4%)评估工具仅涉及循证实践知识评估。除自我认知、知识、技能和应用4方面,有9个(31.0%)评估工具对循证实践其他方面的内容也进行了评估,包括对组织情况和网络支持的评估。涉及循证实践自我评价的工具共有22个(75.9%),主要包括评估对象对循证实践的态度、学习信心以及接受循证实践教育培训后的体验。涉及循证实践知识评估的工具共有20个(69.0%),涉及循证实践技能评估的工具有18个(62.1%)。

CREATE框架将循证实践能力分为提出问题、检索证据、评价证据、整合和评价5方面。循证护理实践准备度评估量表和医院循证实践组织文化建设量表主要从组织层面进行评估,对循证实践步骤的评价并不明确。在其余27个工具中,20个工具全面评价了循证实践5个步骤,有1个工具只评价了对其中1个步骤,25个工具评价了3个以上步骤内容。有4个工具未涉及质量评价这一步骤内容。见表3。

表3 循证实践评价工具内容分析

3 讨论

3.1 循证实践能力评估工具的现状和存在问题

目前，所开发的循证实践能力评估工具主要针对医学生和临床工作者,以国外评估工具为主,国内仅3个评估工具是针对个体的循证实践能力情况进行评估,仅“循证护理能力评定量表”这一评估工具有较好的评估有效性,但该工具评估内容较为局限,只能评估循证实践的技能和应用情况。通过CREATE量表对国外循证实践能力评估工具的分析总结,发现S-EBPQ、EBNQ、Evidence-Based Nursing Questionnaire、Evidence-Based Practice Questionnaire这4个工具涉及循证实践能力评估最为全面,而EKAN、Self-Report Evidence-Based Practice Tool、EBPSE量表所评估的内容最少。本研究通过对证据进行方法学质量评价以及证据强度分析,发现目前所纳入工具的总体证据强以中等为主,在测量误差、效标效度、跨文化效度的测量上有待进一步测评。在证据质量高的10个评估工具中以国外工具为主,4个国内评估工具中仅有2个评估工具针对个体进行评估。综合证据的偏倚评价和等级强度可以得出EBP评估工具较其他评估工具评估得更为全面,信效度更好,证据质量高；但其有效性还需更多样本量进行验证,从而进行完善。

循证医学能力评价工具往往基于医疗测评工具开发研制,如柏林问卷、弗雷斯诺测试问卷等早期较为经典的测评工具。随着循证护理理念和方法的发展,近期针对护理人员的评估工具逐渐增多,这些工具的测评对象可分为护理学生和临床护士两大人群。护理学生测评工具主要评价学生的意识、知识和技能方法,而临床护士循证能力测评工具还包括证据的使用转化结果和影响因素。

通过本研究发现了目前评估工具存在的一些问题。首先,仅少数研究对评估工具的信效度进行全面评价,有部分评估工具仅验证了其内部一致性。因此,这些评估工具的应用还有待进一步评价,这与另一个研究中所暴露的问题[1]相一致。其次,评估工具的内容效度测量不足,测量欠规范。在量表测量特征中,内容效度是最重要的测量特征,大多数纳入研究仅测量了1个内容效度条目,缺乏充分的内容效度证据。建议今后应重视内容效度的研究,从条目的相关性、理解性、全面性方面对内容效度进行评定,并给出内容效度测量的详细过程。再次,评估工具的评估条目较为笼统,不同使用人群的特征区分不明显。对于不同评估对象应开发具有针对性的工具,使其评估的结构及内容更为清晰,从而提高其有效性和敏感性。有研究通过内科循证医学会建立了具有针对性的评估框架,在条目的建立过程中充分考虑了内科学的实际情况[40]。此外,目前由于国内外循证实践发展情况不同,因此，还缺乏针对国内医学和教育情况进行循证实践能力评估的本土化工具。

3.2 本研究的局限性

本研究存在以下局限性:首先,所纳入的研究类型主要为调查性研究和非随机对照研究,随机对照研究仅为1篇,因此可能会造成一定的偏倚风险从而影响工具的选择。其次,所纳入研究的结局指标测量不够全面,有一些工具仅对内部一致性进行了评价,评价结果存在较大的局限性,影响结果的进一步推广。再次,纳入的中文研究数量较少,大部分为国外的评估工具,研究评价的工具是否适用于国内情况,还需要进一步的研究验证。