功能性动作筛查的可靠性与临床应用的研究进展

2019-07-19 06:44祁旋

运动精品 2019年2期

祁旋

（福建师范大学，福建福州 350100）

近几十年来，体育参与程度增加的同时也带来了肌肉骨骼损伤的风险增加。而先前的损伤、体能以及技能水平的高低等多个因素可能导致损伤的发生。长期以来，孤立的肌肉拉伸是减少肌肉酸痛或肌肉骨骼损伤的有效干预措施；然而，研究表明，为了减少伤害风险，运动医学专业人士早已关注改善运动模式，而不是专注于恢复特定关节[2，3]。Nadler 等人[4]证明了损伤后的康复不应该只限制于到受伤区域，而是应该将运动员作为一个整体，以使运动员返回到最高水平的能力。术语“区域相互依赖性”用于描述身体各个区域之间的关系，以及一个区域中的功能障碍如何影响另一个区域的功能障碍[5]。因此，可靠有效的测量工具要求能够同时评估多个功能区域。

FMS 作为一种损伤风险筛选措施似乎正在获得国际认可[6]，并已被纳入其他筛选体系中[7]。迄今为止，有来自团队研究最新的证据表明FMS评分与多个人群的损伤风险之间的关联，包括美式足球运动员[8，9]，大学生运动员[10]，综合格斗运动员[11]、军事人员[12，13]、消防队员[14]等，最近有研究利用FMS 确定普通成年人损伤潜在风险[15]。然而，FMS 作为预测变量，在损伤风险或临床研究的使用中，应以可接受的心理测量特性为基础。对于任何给定的诊断测量，其有效性的范围受到可靠性的限制[16]。因此，可靠性是研究和临床应用的先决条件。 FMS 测试通常由不同的评估者和在不同的时间点施用，有必要在评估者之间与评估者内部，测试环节之间与测试环节内证明其可靠性。因此到目前为止，出现许多关于信度争议的研究。因此本文通过对FMS 信度研究与临床应用方面总结，以便临床医生和研究人员能够在使用这些动作质量测试措施时做出更加明智的决定。

1 FMS 体系

Cook等描述的功能性运动筛查包含七个运动测试：过头深蹲测试、跨栏步测试、直线箭步测试、肩部灵活性测试、直膝抬腿测试、躯干稳定性俯撑和转动稳定性测试。FMS能进行实时现场测试，该筛查试图识别人体基本的运动模式，这种模式同时测量关节活动范围、稳定性和平衡能力。并已在临床上用于预先筛选和运动损伤研究。通过使用标准化的评分标准对七个动作进行视觉评估，测试期间每个动作评分标准为0-3分，另外还包括三个排除性测试。FMS旨在评估动作质量，暴露出身体局限于不对称性，最终整合得出相关结果。功能动作筛查不是用于诊断，而是用于评估基本动作的标准，一旦确定最严重的不对称性或缺陷，即可根据需要采取更准确恰当的干预措施。FMS具体测试内容的更为详细的描述见参考文献[16，17]。

2 FMS 信度研究

2.1 FMS 评分者之间的信度：在观看视频录像时做出的评分

Gulgin[10]等让20 名健康大学生分别完成七个动作测试，四名评估人员（三名新手一名专家）通过观看视频记录的动作，对这七个动作测试独立评分，来研究不同的经验水平评估者之间的信度。利用Fisher’s Exact 检验来比较评估者之间的评分差异。结果显示评分者之间无显著性差异（p=0.14），组内相关系数为（ICC 范围0 到1，1表示完全可靠）为0.88，这表明评分者间整体具有良好至极好的一致性。Minick 等人[19]描述了FMS 新手（学习过FMS 标准化入门级培训课程并实践不超过一年）和专家（对FMS 的开发并具有超过十多年经验的个体）评估者之间的信度。评分者用FMS 测试的视频记录评分。使用加权Kappa统计分析表明，在大多数测试中，评估者之间存在极好的或基本的一致性。作者建议FMS 可以可靠地用于评估运动员的运动模式，并识别哪些人可能有受伤的风险。Shultz[20]等利用视频记录39 名NCAA 不同专项的职业运动员完成每一项测试。采用6 名评估者进行评估，其中5 名经由已认证过的FMS 管理者进行培训，一名本科生通过自学的方式学习FMS 并在数据收集结束前完成FMS 指导员认证。重测信度分析（ICC=0.6）表明信度相对较好，但Krippendorff’s α=0.38，表明评估者间信度较差，在比较评分时需谨慎。

2.2 FMS 评分者间信度：从实时现场测试观察做出评分

Onate 等人[21]研究一名具有双重认证的运动训练师（具有4 年经验的体能训练认证专家（CSCS）和FMS 认证专家）与只有3 年经验的CSCS 体能训练师（是评估FMS的新手且没有经过认证，只在评分前对评价标准进行一次阅读）对16 名受试者进行实时现场FMS 评分信度，结果表明仍具有较高的评分者间信度（ICC=0.98），但跨栏步测试的Kappa 值为0.33，表明其信度低。Smith 等人[22]用4 名不同教育背景和经验的评估者对20 名健康大学生进行2 次（间隔一周后进行第二次筛查）实时现场FMS 评分的信度研究。这些评估者包括入门级物理治疗学生，已完成超过100 次FMS 测试，但未获得认证（评估者1）；经认证的FMS 测试仪（评估者2）；运动训练的教练员，生物力学和运动科学博士，但没有FMS 的经验（评估者3）；以及没有FMS 经验的入门级物理治疗学生（评估者4）。第1 次实时测试期间（ICC = 0.89； 95%置信区间[CI]：0.80-0.95）和第2 次实时测试期间（ICC = 0.87； 95%CI：0.76-0.94）的结果表明评分者间信度是好的。此外，评估者间的3 次清除测试具有100%一致性。Teyhen 等[23]将八名物理治疗专业的实习生平均分为两组（4 名用于评估，另外4 名用于观察受试者的活动情况）对64 名受试者进行测试评价，从而确定评估者间信度。所有评估者在测试前接受20 小时的FMS 操作培训。数据统计分析结果ICC=0.74 (95%CI：0.，60 -0.83)，这表明FMS 评分者间具有中等的信度。

2.3 FMS 评分者内信度：从观看视频录像做出评分

Gribble 等人[24]使用视频录制来评估总FMS 评分的评分者信度。40 名没有近期骨骼肌损伤的参与者进行视频记录，完成7 个组件的FMS 测试。以前没有使用过FMS 的六名NHS 物理治疗师参加了由经过认证的FMS 医师提供的2 小时的培训计划。评估者然后查看并评价完成40 位参与者FMS 测试的视频录制。结果显示总体FMS 评分者内信度较好（平均ICC=0.754（95%CI：0.526 to 0.872）。Parenteau[25]等采用28 名13-16 岁的男子曲棍球运动员由四名获得FMS 认证资格的人员进行评估。评估者间的可靠性由两名现场评估员（现场）评估。对所有的测试过程进行录像。另外两名评估者对视频进行一次评估，然后在7 周后再次评估，以确定评估者内的可靠性。使用加权Kappa 统计量分析每个FMS 分测验的评分者内和评分者间信度，结果显示：组内相关系数分别为0.960（CI 95%：0.916-0.981）和0.959（CI 95%：0.914-0.981），说明视频评分者在总评分中表现出良好的可靠性。

2.4 FMS 评估者内信度：从实时现场测试观察做出评分

Onate 等人[21]同样对19 名健康的受试者进行的实时现场FMS 评分，结果表明仍具有较高的内部信度，但结果也显示跨栏步(HS)产生最低的kappa 值（k=0.16）；因此，HS 在实时现场评估方面的表现出很低的信度。这可能与评估者所处的观察位置有着很大关联。Smith 等人[22]使用实时评估来评价总FMS 评分的评分者内信度。他们报告不同专业背景和经验的评估者内的信度，结果显示具有良好的评分一致性。但他们也提出经过FMS 认证的人员并不能提高评分者内部信度。Waldron 等[26]通过非参数统计方法对FMS 子测试（共12 个，五个对称测试2 个独立测试）的可靠性进行评估，基于2 次试验（间隔一周）----在赛前、赛季中和赛季末期，对12 名19 岁以下男子橄榄球运动员的运动能力（包括力量，跑动速度和跳高）进行了评分。两次FMS 试验之间没有明显差异（p＞ 0.05），大多数子测试达到100%“完全一致”，反映了FMS 作为筛查工具有良好的可靠性。

3 FMS 在临床中应用

FMS 试图采取全面评估人体的动作方式，并鼓励临床医生在分析问题时不要局限于孤立的区域和单关节运动[17]。尽管在已经发表了使用FMS 的研究中增加了在临床环境中的应用，但临床应用的可靠性尚未得到充分证实。没有明确的可靠性判定临床医生在使用这个工具来衡量身体变化的能力的方面是有限制的。被测试人员的分数之间的差异可能是因为评分与实际变化之间的测量误差。此外，由于对FMS 评分标准的解读，临床医生之间的分数可能会有很大差异。因此，如果使用FMS 来检测临床环境中的内在可修改风险因素，则了解此筛选工具的可靠性和一致性至关重要。最近有人呼吁使用100 分的评价系统[26]来提高预测损伤风险的精度，并为干预策略提供补充方向以纠正有缺陷的运动模式。

在这些已经发表的文献中，使用FMS 评分标准研究评分者间可靠性[10，19-21，27]，但有研究调查评测者内部信度较少[22，26]。虽然有发现评分信度水平中等至良好，但在临床环境中的适用性方面存在显着的局限性。FMS 的综合得分≤14 通常被认为是个体潜在的潜在风险的阈值。以下段落突出了使用这一阈值的潜在局限性，包括研究之间缺乏一致性；敏感性差；测试后的决策能力差。

Kiesel 等人[9]在46 名NFL 运动员的研究中利用受试者工作特征曲线（ROC）首次确定了的FMS 及格线，他们发现当：在一个赛季里FMS 综合得分≤14 的球员受伤的几率远远大于得分超过14 分的球员。Lisman 等[12]利用同样的阈值来预测874 名海军陆战队候选军官在军事训练中的损伤风险。但这几项研究都是在小而均匀的群体中进行的，这限制了在人群中的应用。例如，不同运动项目，性别，技能水平和成熟度水平的运动员的及格线可能会改变。Brown 等[29]对大学55 名三大球女性运动员进行损伤预测研究，结果发现FMS 评分低于16.5 则有很大的受伤风险。徐建武等[1]对北京市217 名不同项目的优秀运动员FMS 测试结果与损伤风险之间关系进行研究，结果表明FMS 测试总分小于等于17 分能够很好的预测运动损伤风险。Perry等[30]对622 名健康的中年人（男性、女性平均年龄分为52.1 岁和48.8 岁）分别进行FMS 的七个测试，男性与女性的平均得分分别为14.5（SD=2.80）和14.0（SD=2.80），并同时证实了年龄与BMI 等与FMS 评分显著相关，但这只是表明了中年人较为规范的参考值并没有得出能够预测中年人损伤的截断值。不同的截断值或研究无法准确识别任何的截断值与损伤的关系，这加剧了FMS 评分的困境，同时也破坏了FMS 综合得分≤14 分截断值的有效性。

另外一个问题就出现了，因为FMS 被定义为“筛查”，通常用于高灵敏度测试的术语。FMS 评估方法作为损伤预测工具的六项研究的综合分析指出0.24（95%CI ：0.15—0.36）的敏感性和0.85（95%CI ：0.77—0.91）的特异性[31]。24%的敏感度表明，有24%的运动员最终遭受损伤则说明FMS 预测结果是阳性的。换句话说，使用FmS 及格线≤14 将忽略76%最终受伤的人。使用meta 分析，计算阴性似然比（—LR）的结果为0.87（95%CI 0.82—0.92）[31]。作为筛检工具，报告的—LR 为0.87，表明FMS无法排除得分在14 分以内个体的潜在的损伤风险。这些统计数据表明FMS 不是有效的筛查。

当FMS 作为伤害筛查时，另外要注意的是迄今为止研究中使用的损伤的变量定义。关于损伤的流行病学资料完全取决于损伤的定义。变量损伤定义使得个人处于不同的伤害分类，使得难以比较研究结果。对于最初的Kiesel等人[9]的研究，损伤定义为在伤病储备名单上至少停留3周。相比之下，Chorba 等人[32]将伤害定义为（1）由于参与有组织的校际实践或竞赛设置而发生，（2）要求获得医疗观察或来自认证的运动训练师，运动训练学生或医师的建议。因此，这两个研究产生了非常不同的结果，因为它们采用损伤的定义是不同的。

4 总结

目前现有关于信度的研究结果是相似的。总体上，FMS评分者信度是可靠的。这也说明FMS 可以被训练有素的人使用。无论实时现场评估或者使用视频录像进行评估均有良好的信度。Moran 等[27]也有指出从实况观察得到的评分信度优于从观看视频记录的评分信度。然而，似乎新手评分者也存在良好的可靠性，且误差处于可接受范围内。在实验室或模拟临床环境特征执行的研究中，可能会产生可接受的预期结果，但不能充分代表通常的实践环境，研究者可以引入改善研究中的偏倚风险的条件，从而改善内部信度[27]。迄今为止，关于FMS 研究方法的限制性和准确的数据统计（灵敏度和LR）足以令人担心，它不能放心地用作预测运动损伤的筛选工具。FMS 作为筛选工具主要在较小同质的人群中进行了研究，意味着临床有效性应限于那些同一群体。此外，FMS 的最近研究表明[33]，使用单个FMS综合评分可能是有缺陷的，因为FMS 的每个子测试是相对独立的，每个子测试强调其自己独特的构造。FMS 作为一个整体或部分的衡量结果是否能够准确预测，应该继续调查。

5 建议

随着康复专业人士在不同临床环境中使用FMS，在实时监管中确定不同评估者的可靠性至关重要。那些通过研究创新出的筛查方法，必须通过高质量的、严格的研究对其进行考量，并且能被证实可以运用于实践。而作为运动医学相关的工作者，在将FMS 广泛的实施于临床实践中去预测损伤应审慎。建议未来的研究，应考虑在实际的临床应用中所遇到的设计特征，如：在评估深蹲动作中将足跟垫高时，脚底踩在板上的位置等。以及运用科学的方法对其测试的灵敏性进行补充说明，如：在执行测试中的-关节角度变化，受力情况、足底压力中心或目标肌肉的放电情况的变化等。