人工智能在儿童骨龄影像检测中的应用

2021-03-23 10:02孙梦莎丁永红颜子夜苏晓鸣
中国医疗设备 2021年3期
关键词:阅片骨龄骨化

孙梦莎,丁永红,颜子夜,2,苏晓鸣

1. 杭州依图医疗技术有限公司,浙江 杭州 310012;2. 上海市医学影像与知识图谱人工智能重点实验室,上海 200051

引言

近年来,儿童超重肥胖问题日渐突出,儿童性早熟患病率逐年上升,发育迟缓患病率仍需进一步降低。中国居民营养与慢性病状况报告(2020年)显示,6~17岁及6岁以下青少年儿童超重肥胖率分别达到19%和10.4%[1]。这些小儿内分泌问题的发生与遗传、环境因素以及生活方式有密切关系,若不及时治疗,会给患儿体格发育、心理发育、就业、婚姻等带来许多不良影响。而诊断该类疾病的关键指标之一就是骨龄,但是现有骨龄评估方法在效率、准确上还存在不足,制约了骨龄检测在临床的广泛应用。

随着人工智能技术的快速发展,图像识别相关的人工智能技术在医学影像领域内得到了深度应用,例如糖尿病眼底视网膜病变,乳腺癌淋巴结转移的早期预警和皮肤癌的分类等[2-3]。在骨龄检测领域,2018年RSNA骨龄机器学习挑战赛中,数十名挑战者上传了模型,证明AI在做出准确而省时的预测上具有巨大潜力[4]。斯坦福医学院的一项研究也表明,深度学习卷积神经网络模型对儿童骨龄成熟度评估的准确性与放射科专家相似[5]。

1 儿童骨龄定义及测量方法

1.1 骨龄定义

骨龄是通过评估骨骼在不同阶段的不同发育形态,以年龄的形式、以岁为单位进行表达的生物学年龄。儿科医生和内分泌学家认为骨龄可以反映孩子的生物学年龄,并且是从出生到成年常规使用的唯一独立生物学成熟度指标[6]。检查骨龄仅需拍摄左手(包含全掌和腕部)X光正位片,有效辐射剂量小于0.00012 mSv,对儿童非常安全[6-7]。

许多因素影响骨骼发育的进程,包括营养、遗传、激素和疾病状态等[6]。与日历年龄相比,骨龄与身体发育的许多指标(例如生长速度、初潮、肌肉质量、骨矿物质质量)具备更强的相关性,更能准确反应儿童及青少年生长发育实际情况[8]。患有发育迟缓、生长激素缺乏、甲状腺功能减退、营养不良等疾病的儿童,骨龄通常落后于年龄;患有性早熟、先天性肾上腺增生、超重肥胖等疾病的儿童,骨龄通常提前于年龄[9-10]。因此通过检测骨龄可以及早了解儿童的生长发育潜力以及性成熟趋势,对于一些内分泌疾病的诊疗具有很大的指导意义。接受治疗的内分泌疾病患儿,需要每半年或一年到院监测骨龄以评估疗效。除临床诊断外,在体育科研领域,骨龄是预测运动员发育的关键指标[11-12];在法医学领域,骨龄作为鉴定年龄的重要手段,有助于精准量刑[13]。

1.2 儿童骨龄检测方法

骨龄的评价方法主要有计数法、图谱法和计分法三种:① 计数法通过计算腕部骨化中心数目推算骨龄,误差较大,且需要多部位摄片,增加了辐射剂量,目前几乎不再使用;②Greulich-Pyle(G-P)图谱法,是将被检者的手腕部X光片与标准Ⅹ光片图谱比较(标准图谱代表该年龄儿童的平均水平),以最相像的标准片作为被检者的骨龄。目前该方法在全世界使用最为广泛,但图谱法精度只能精确到半年至一年,主观性强。研究表明,同一个阅片者采用G-P图谱法进行两次读片,两次骨龄差异可达0.89岁,不同阅片者之间对同一骨龄片评定骨龄的差异可达1.25岁[14-16];③Tanner-Whitehouse(TW)计分法,根据手腕部20个骨化中心的出现及形态改变进行成熟度评级,计算评分总和得出骨龄TW法操作繁琐,需要进行专业训练,使用起来非常耗时,判读一张骨龄片至少需要20 min。因此,当前的骨龄判读存在以下几个挑战:

(1)骨龄判读耗时长,儿科医生资源少,难以进行精细化判读。国内儿科医疗资源紧缺,只有极少数医生有精力开展精准骨龄检测。

(2)主观因素影响大,难以精准评估发育状况。由于医生之间阅片经验与能力的差异,判读结果一致性不佳;同一位医生对于同一张片子前后判读结果、不同医生之间判读结果均有差异。

(3)随访过程长,难以准确追踪疗效。对于生长发育异常的儿童,需要每半年或者一年时间进行骨龄复查,追踪其疗效,但是骨龄历次变化细微,没有专业追踪随访工具以及严谨的评价标准,很难准确追踪其临床疗效(图1)。

图1 一名生长激素不完全缺乏儿童,在接受生长激素治疗后,每半年的骨龄复查图像。

(4)国内儿童发育状况变化大,参考人群具有年代局限性。我国专家在TW计分法基础上进行了多次改良,最新的参考人群标准为2006年修订制定的中华05法,距今已有十余年[16]。

2 基于深度学习的辅助检测骨龄方法

骨龄影像智能检测模型包括影像体位自动检测、关键骨化中心识别、关键骨化中心评级、生长发育测评等模块如图2所示。

图2 基于深度学习的AI骨龄系统模型

2.1 影像体位自动检测模块

手腕骨影像质量(如轻微旋转、伪影等不规范拍摄问题)会影响结果准确性。因此,系统在阅片初始需要对骨龄片进行位置校正,从而提升识别精确度和拍片质量容错性。模块采用卷积层用于提取骨龄图像特征,建立特征点与手部在现实空间中深度之间的关系,从而获得图像景深,实现骨龄摄片中手腕骨在3D空间的映射。在3D的状态下对各个手腕骨进行识别和定位,对于非标准姿态的手腕骨影像,进行定位多层迭代优化,从而识别摄片中旋转或者非标准的手姿态,自动将其纠正至标准体位(图3)。

图3 手腕骨影像体位自动检测,提升拍片质量容错性

2.2 关键骨化中心识别模块

骨龄图像关键骨化中心包括远端桡骨、远端尺骨、腕骨、掌骨和指骨,骨化中心的准确定位直接影响检测结果。针对各类骨化中心的分布、密度特征、边缘形状等特点,系统采用基于卷积神经网络上的Faster R-CNN深度学习技术,得出具有高辨识度的特征图,应用基于全卷积神经网络的Region Proposal Network(RPN)技术提取候选框,得到一系列疑似手指骨及腕骨的区域,再通过ROI classifier得到特征区域的精确定位并进行检测识别,从而完成关键骨化中心的自动分割和勾画。

2.3 关键骨化中心评级模块

系统通过基于深度学习的对齐定位算法获取每块骨骼对应的多个关键点,将待检测骨化中心生长发育点的特征信息与数据库中与对应性别的多个基准骨化中心特征信息应用贝叶斯网络的不确定性知识推理模型进行预测,确定该骨骼生长阶段,实现准确分级,综合分析得出骨龄(图4)。

图4 卷积神经网络和深度级联回归算法实现骨龄准确分级

2.4 生长发育测评模块

骨龄影像智能检测系统依据临床常用指标(儿童身高体重,父母身高等参数),自动生成详细完善的诊断报告,包含骨龄评价、身高评价、发育评价、身高预测等指标。同时基于精确到月的骨龄结果,结合历史随访数据,系统可对生长趋势和临床疗效进行全方位监测如图5所示。

图5 AI骨龄影像智能检测系统

3 临床性能验证

骨龄影像智能检测系统已广泛应用于临床工作,可有效提升医生诊断效率与准确率。

3.1 基于TW3标准的性能验证

该试验随机选取了250份儿童骨龄片(男性125份,女性125份),由依图AI系统与医生(4位经验丰富的内分泌学家和2位经验丰富的放射学家)使用TW3标准分别进行判读,将两者的判读效率、准确性和可靠性进行比较[17-19]。

判读效率上,TW3-AI模型的平均处理时间为1.5±0.2 s,明显短于内分泌科医生或放射科医生花费的平均时间525.6±55.5 s。

准确性与可靠性上,TW3-AI模型与专家判读结果的均方根(Root Mean Square,RMS)为0.50年,表明两者高度一致,AI性能不逊于医生人工评估;且由于AI与医生的RMS优于医生间的RMS,因此相对于医生AI具有更高的稳定性(表1和图6)。

图6 AI模型与阅片者之间的骨龄评估一致性

表1 6名阅片者与AI-TW3模型之间骨龄评估的统计学差异

3.2 基于G-P标准的性能验证

该试验随机选取了745份生长发育异常病例骨龄片(360名男孩和385名女孩),金标准由两名经验丰富的医生(1名具有10年阅片经验的放射科医生和1名具有15年阅片经验的内分泌科医生)使用G-P标准达成的骨龄结果共识,通过该试验分析基于G-P标准依图AI系统的阅片效率与结果准确性[20]。

阅片效率上,两位医生每张骨龄片的平均判读耗时约2 min,而AI模型仅需要1~2 s;这表明与人工分析相比,人工智能系统效率明显。

准确性上,AI系统与金标准相差1岁以内的平均比例为84.60%,其中12~18岁组别的比例最高,可以达到89.45%(图7)。该结果表明依图AI系统可以提供与经验丰富的审阅者相当的骨龄评估能力[20]。

图7 通过不同年龄组与金标准的比较来确定AI 骨龄系统的判读准确性

3.3 基于中华05标准的性能验证

该试验选取了52个生长激素缺乏儿童病例,每个儿童在两年随访内每隔6个月拍摄一张骨龄片,入组骨龄片共290张。两名经验丰富的儿科医生使用中华05标准对入组影像进行判读,首先在无AI辅助下独立判读,几周后加入AI辅助判读。通过试验分析在AI辅助下,医生的阅片效与结果一致性是否得到提升。

阅片效率上,纯人工组阅片单张骨龄判读平均耗时达2.6 min,在AI辅助下1位专家的阅片速度提升了1倍,阅片速度达到1.45 min/张;另一位专家阅片速度提升2倍,达到0.84 min/张。说明依图AI可以极大提升阅片速度。

一致性上,经混合线性模型检验,两位医生在骨龄动态评估中存在显著差异(P<0.001);在使用AI辅助评估后,两位医生在骨龄动态评估中无明显组间差异(P=0.91)(表2),表明使用依图AI系统辅助评估可以降低医生差异对骨龄结果的影响,提升结果一致性。从图8可以直观看出,使用AI辅助前两位医生的骨龄评估值存在一定差异,而AI辅助后两位医生的评估值非常接近(几乎重合);同时医生2的骨龄判读结果基本都超过儿童日历年龄,与生长激素缺乏儿童骨龄表现不符,而在AI辅助下的骨龄判读结果更接近临床病症表现。

表2 AI辅助前后医生间对骨龄动态评估值的影响

图8 在AI辅助下,两个医生的判读一致性更高

4 讨论

由上述对比研究表明使用人工智能方法进行骨龄的判别是可行的。在此过程中现有TW3和G-P方法存在的精度和速度问题可以得到显著改善。其中在准确性方面,人工判读除了精度外,还存在的阅片者之间以及在重复阅片判读的差异问题。在本研究中对不同阅片者之间的差异进行了对比,表明利用人工智能后可使医生之间的诊断结果无差异。对于重复阅片问题,需要设计一定的洗脱期,将作为下一步的研究重点。

在产品功能上,在进行骨龄判读基础上,提供了发育测评的功能。本研究中是以回顾式方法对现有的随访结果进行了对比研究,表明评估结果对既有的发育是相符的。在后续研究中,以前瞻式开展长期的随访研究来进行发育水平预测,尤其是与治疗过程相结合,形成对治疗的预后评估,具有重要的研究价值。

5 结论

精准判定骨龄是开展儿童内分泌诊断和治疗的基础。本文利用依图AI系统进行对照试验,与既有研究相比,本研究对TW3、G-P和中华05三种方法都进行对比,并进行了阅片者之间差异性对照。同时在骨龄判读基础上,进行了发育测评的研究。上述研究结果表明骨龄影像智能检测系统将骨龄的阅片时间从15 min缩短至秒级,有效提升了放射科和儿科医生的工作效率,减轻了医生的工作压力。在判读准确性上,临床试验证明系统与专家判读结果高度一致,同时系统对于同一张片子数次检测结果的统一性可有效避免人为主观误差,保证判读结果稳定性,对于疗效追踪时观察骨龄细微变化有着重要作用。

在我国儿科医疗资源紧缺,尤其基层儿科医生诊疗能力不足的环境下,该系统的推广有望提升基层骨龄检测能力,从而有利于儿童内分泌疾病筛查和诊疗的开展,更好地保证我国儿童的健康成长。

猜你喜欢
阅片骨龄骨化
《住院医师规范化培训教学阅片指南(2022年版)》解读
评估身高需要定期测骨龄吗
仙灵骨葆胶囊联合阿法骨化醇片治疗骨质疏松症的临床观察
骨龄预测身高靠谱吗
阅片列表在耳科住院医师颞骨CT影像阅片教学的应用与实践
计算机辅助检测系统(CAD)在16层CT低剂量肺癌筛查肺结节检出中的应用价值
骨龄测评软件在矮身材、性早熟儿童身高管理中的应用
膝关节胫侧副韧带Ⅲ度损伤并发异位骨化的临床研究①
SP-1000i全自动推片染色仪及CellaVision DM96自动阅片仪在形态学检验人员镜下比对中的应用
骨化三醇辅助治疗糖尿病肾病的效果观察