人工智能骨密度测量系统与QCT测量骨密度的一致性研究

2023-05-29 07:23陈刘萍潘亚玲王晗琦
中国医学计算机成像杂志 2023年2期
关键词:骨质疏松症骨密度椎体

陈刘萍 余 卓 潘亚玲 王晗琦 陆 勇

骨质疏松症可以通过检查骨密度来早期预测。QCT(quantitative computed tomography),又称定量CT,具有分别测量骨松质及骨皮质密度的优势,预测骨折风险的能力高[1]。然而,目前所使用的QCT软件后处理工作多是机械的人工操作,耗费大量的时间和人力成本,这使得我们迫切需要一种全自动的人工智能(artificial intelligence, AI)程序来辅助完成这项工作。因此,本研究的目的是构建一种基于低剂量胸部CT的AI骨密度测量系统,旨在从常规胸部CT中测量骨密度,并验证其与QCT测量骨密度的一致性。

方 法

1.研究对象与一般资料

通过回顾性纳入2020年5月至2020年11月接受低剂量胸部CT肺癌筛查的健康体检者。纳入标准:20周岁以上的体检健康者。排除标准:①近期准备怀孕或者已怀孕的女性;②上腹部扫描范围内有金属植入物的患者[2]。共纳入研究对象1 427例,其中女性613例,男性814 例。年龄范围为22~86 岁,平均年龄为(49.2±15.2)岁。所有受试者的CT扫描设备为荷兰飞利浦公司的iCT 256 CT扫描仪,扫描范围为肺尖到L2椎体下缘。扫描参数:管电压120 kV,平均管电流30 mA,采用自动毫安秒技术,扫描层厚×层距=5 mm×5 mm,矩阵512×512,扫描视野500 mm。采用标准算法重建,重建层厚×层距=1 mm×1 mm。

2.AI骨密度测量系统的构建

AI 骨密度测量系统包括椎体分割和骨密度的回归预测。椎体的分割使用Unet 全卷积神经网络,选取T12~L2 椎体进行感兴趣区(ROI)提取,ROI 的设置为以椎体中心点向周围扩散取最大体积立方体,同时不包含骨皮质。骨密度提取采用DenseNet 卷积神经网络,最终计算出以mg/cm3为单位的骨密度值。

3.椎体分割模型

Unet 最早由德国弗莱堡大学的Olaf Ronneberger于2015 年提出[3],之后Unet 及其改进型模型被广泛应用于医学生物领域的图像分割[3]。Unet 是一种编解码的卷积神经网络结构,整个网络类似一个U型结构,如图1所示。

图1 Unet网络结构

图2 DenseNet预测骨密度的流程图

图3 分割效果图A~D依次为原始图像、金标准、分割结果、3D渲染的分割结果。

图4 AI骨密度测量系统和QCT测量骨密度值的相关性散点图(A)和Bland-Altman图(B)

图5 AI骨密度测量系统检测骨质疏松ROC曲线

Unet 模型是2D 图像作为输入,输出为与原图大小相同的分割结果。模型分为左半部的下采样和右半部的上采样组成。在下采样部分,模型共进行4 次下采样,分别获得不同尺度的特征图{F1,F2,F3,F4};每次下采集之前,先进行2次核大小为3×3的卷积,然后进行核大小为2×2的最大池化操作,最后使用激活函数层ReLU 完成下采样。在上采样部分,模型同样进行4 次上采样,分别获得不同尺度的特征图{F5,F5,F7,F8};上采样操作时,首先进行核大小为2×2的卷积完成上采样,然后将得到的特征图Fx与对应尺度的特征图F(9-x)由进行拼接,然后使用核大小为3×3 进行卷积。在获得最后的上采样的特征图F8后,再进行2 次卷积操作,最后通过核大小为1×1 的卷积完成输出,实现端到端的分割。

Unet 分割模型采用Dice 系数作为评价指标,公式如下:

其中,e和f分别表示真实分割图与模型分割图。Dice系数越高,证明模型分割结果越接近真实分割图,分割性能越好。

4.骨密度预测模型

为解决神经网络加深而带来的退化问题,2017年康奈尔大学、清华大学、Facebook AI 研究院的学者联合提出一种新的卷积神经网络结构DenseNet[4]。DenseNet 解决网络退化的最大特点即它将低层的神经网络层通过短连接的方式连接到高层的神经网络层。DenseNet 中的基本单元为密集块(dense block,DB),DB 模块是由批归一化层(batch normalization,BN)、ReLU 激活函数层、卷积层组成,简称为BNReLU-Conv 结构。另外DenseNet 使用这种统一的DB模块可以有效避免各级输出的特征图尺寸不一致的情况。图2为使用DenseNet进行图像分割的示意图,模型通过多个DB 模块对输入图像进行特征的提取和学习,最终实现端到端的分割。对于DenseNet 的评价指标与Unet等网络一致。

由于DenseNet 的密集连接会使得在高层的网络由于不断的concat连接而导致通道数扩大,从而可能大大增加计算量,因此在每个DB 模块前往往添加一个瓶颈层(bottleneck layer)即1×1 的Conv 操作,可以降维减少计算量,同时又能保证多个通道的特征不丢失。

5.QCT骨密度测量方法

QCT 骨密度测量使用QCT Pro Model 4 骨密度测量系统(QCT Pro 6.1,美国 Mindways 公司)分别在T12、L1 及L2 椎体骨松质中央放置椭圆形的ROI,深度设置为9 mm,避开周围骨皮质和后方椎静脉丛。

6.统计学分析

所有的统计分析都是通过SPSS26.0 统计学软件进行的,显著性水平设定为P<0.05。计量资料用平均值±标准差表示。采用配对t检验比较AI 骨密度测量系统和QCT 获得骨密度的差异和Bland-Altman 法分析2 种方法的一致性。双变量线性相关性系数和单因素线性回归分析被用来评估2 种方法所得骨密度相关性。根据美国放射学会(ACR)腰椎QCT 骨质疏松诊断标准[5],将QCT 骨密度值分为3 个亚组,即<80 mg/cm3为骨质疏松;80~120 mg/cm3为骨量减低;>120 mg/cm3为骨量正常。采用单因素ANOVA 检验评估AI 骨密度测量系统所得骨密度在3 个亚组间的差异,事后比较采用LSD 法。绘制AI 模型预测骨密度值的受试者工作特征 (receiver operating characteristic, ROC)曲线,计算灵敏度、特异度及曲线下面积(area under of curve, AUC)。

结 果

1.AI骨密度测量系统分割椎体的性能

本研究采用NVIDIA 1080Ti GPU 计算,计算时间141 s,资源消耗1 960 Mb,在测试集上测试得到相应的Dice 系数为0.969。分割效果如图3 所示,可以看出分割结果基本上与标签达到一致,并通过3D 渲染的后处理方法,分割效果较好。分割结果Dice 评分和训练数据集数量成正比,当训练数据集为300 时,Dice 系数为0.7 左右,当数据集为2 000例以上时,Dice 系数可以逐渐收敛达到0.96 以上。

2.AI 骨密度测量系统与QCT 测量骨密度的一致性

AI 骨密度测量系统与QCT 测量T12、L1、L2椎体骨密度的Pearson 相关系数分别为0.988、0.992、0.990(均P<0.001)。整体回归检测模型误差性能的平均绝对误差(MAE) 为3.660,见图4A。Bland-Altman 分析显示AI 骨密度测量系统与QCT 测量T12~L2 椎体骨密度具有高度的一致性,2种方法测量的T12、L1、L2 椎体骨密度差值均数分别为2.96(95%CI 2.62~3.31) mg/cm3(P<0.001),1.46 (95%CI 1.18~1.74) mg/cm3(P<0.001) 及1.61(95%CI 1.30~1.92)mg/cm3(P<0.001),差值大部分位于差值平均值±1.96 标准差范围内,见图4B。

3.不同性别和年龄段人群骨密度差异分析

以L1 和L2 椎体骨密度平均值[骨密度ave(L1+L2)]作为诊断骨质疏松症的依据。采用AI 骨密度测量系统和QCT测得的L1和L2椎体骨密度平均值,在各年龄段中的差异均没有统计学意义(均P>0.05),详见表1。

表1 2种方法测量不同年龄段的骨密度差异± s,mg·cm-3

表1 2种方法测量不同年龄段的骨密度差异± s,mg·cm-3

年龄/岁<30 30~34 35~39 40~44 45~49 50~54 55~59 60~64 65~69 70~74 75~79 80~84≥85女性骨密度(n=613)男性骨密度(n=814)例数52 78 73 53 50 56 56 72 70 34 17 P值0.380 0.435 0.479 0.548 0.667 0.757 0.622 0.879 0.790 0.830 0.745例数83 100 100 91 60 54 63 94 81 54 26 1 1 QCT测量179.43±26.87 181.01±29.68 178.87±24.20 176.64±28.58 161.21±27.14 142.89±31.84 112.75±23.37 100.19±21.50 94.80 ±30.73 84.97 ±33.84 75.00±23.72 76.95 131.71 AI测量174.98±24.21 177.46±27.04 176.13±22.29 173.37±27.27 158.92±25.99 141.06±30.93 110.62±22.29 99.64±21.06 93.43±29.98 83.27±31.08 72.60±18.70 81.81 133.76 7 1 QCT测量166.11±29.10 170.42±27.00 159.70±26.69 154.02±30.25 149.30±23.34 133.11±28.46 129.69±31.10 118.03±24.28 111.09±31.61 96.26±26.60 90.18±31.06 108.38±34.88 111.21 AI测量165.21±27.73 169.26±25.37 158.49±25.49 152.99±29.82 147.97±21.93 132.55±27.03 129.10±29.60 117.17±22.68 109.37±27.75 96.66±26.09 90.49±29.11 106.65±27.91 110.30 P值0.838 0.752 0.744 0.816 0.749 0.916 0.914 0.804 0.714 0.937 0.971 0.920

4.AI骨密度测量系统对骨质疏松症的诊断效能

AI骨密度测量系统测量3个亚组的骨密度ave(L1+L2)(单 位: mg/cm3) 分 别 为161.63±26.08、 101.55±11.65、66.31±13.06,3个亚组两两之间骨密度差异均具有统计学意义(均P<0.001)。如图5 所示,在测试集上,AI 骨密度测量系统预测骨密度值诊断骨质疏松的性能表现优秀:AUC=0.996 (95%CI 0.994~0.998),P<0.001,灵敏度为0.989,特异度为0.905。实验结果表明此系统用于实际临床诊断。

讨 论

本研究构建了一种基于低剂量胸部CT 的AI骨密度测量系统,该系统设计用于与QCT 结果对比,旨在评估其测量骨密度的准确性。在不同性别、年龄、体重指数和无论骨骼健康状态如何的情况下,AI 骨密度测量系统与QCT 获得的骨密度之间有很强的正向关联性和高度的一致性,因此,本研究结果表明这种基于常规CT 的AI骨密度测量系统能够成功地预测各种人群的骨密度。当以QCT 结果为标准时,AI 骨密度测量系统预测骨密度能够准确地区分骨量正常、骨量减低和骨质疏松,这表明该模型在使用胸部CT图像确定骨骼健康分类方面可能与QCT 一样是有效的。

骨质疏松症以骨密度降低为特征,与脆性骨折有关。骨密度可以反映70%~75%的骨强度变化,从而被认为是目前临床筛查、诊断及监测骨质疏松症的主要指标[6]。DXA 是诊断骨质疏松和进行全身骨密度评估的最广泛的技术。然而,DXA 容易受腹主动脉钙化和脊柱退行性变的影响。QCT 可以通过多平面的立体空间定位测量,可以有效规避上述病变,在骨质疏松症的评估中得到医生的广泛认可[7-8]。由于后处理设备的需要和后处理工作的繁琐,QCT 在大多数医院并没有得到广泛的应用。本研究构建了基于常规CT 的AI 骨密度测量系统的方法全自动测量骨密度,结果表明,在测试集上测试得到相应的Dice 系数为0.969,分割效果较好。通过AI 骨密度测量系统获得的平均骨密度的Pearson相关系数非常接近1,与QCT 得到的平均骨密度值之间存在很强的相关性。并且,Bland-Altman 一致性限值表明,2 种方法之间没有显著差异。椎体压缩骨折常见于胸腰椎交界区(T10~L2)[9],我们验证了AI 骨密度测量系统测量T12 椎体至L2 椎体骨密度是有效且准确的,有潜力预测这些存在高风险压缩性骨折的椎体的骨折风险。一项基于QCT 的全国多中心研究中国骨质疏松症患病率的研究[7]指出,年龄≥50岁的男性骨质疏松症患病率为13.5%,几乎是基于DXA 研究报道的2倍。这促使我们寻找一种便捷而有效的工具,以便应用于所有性别人群骨质疏松症筛查中。我们的研究结果表明在不同性别和年龄段的人群中AI 骨密度测量系统与QCT 测量结果均没有显著差异,这为全自动骨密度测量模型的临床推广提供了参考依据。

Savage 等[10]构建了一种基于常规CT 的AI 骨密度测量模型,可以成功地确定椎体CT 衰减值,并与DXA 结果呈现中度相关,但在此研究中样本量只有65 例,且部分受试者接受两种检查的时间间隔长达2年,可能降低研究结果的精确性。Pan 等[11]的研究基于全自动骨密度测量系统与QCT 对T12~L2 椎体骨密度测量的相关性达0.96 左右,该研究只纳入了50岁以上人群数据。Fang 等[12]提出了一种深度卷积神经网络算法,该算法模型能够计算出类似于QCT 的骨密度值,经该算法回归模型所得的L1~L4椎体骨密度与QCT 得到的骨密度的Pearson 相关系数在0.98 以上,两者之间存在很强的相关性,然而他们的模型在不同厂商的CT扫描仪上获得的骨密度存在一定差异。本研究使用了优化后的AI 骨密度测量系统,测量T12~L2 椎体骨密度的相关系数均在0.99 以上,稍优于既往研究报道的结果。与此同时,本模型有利于用在胸部CT 机会性筛查骨质疏松,其扫描范围一般包括L1 椎体下界[13]。另外,本研究结果表明该模型预测各年龄段和不同性别人群的骨密度均有较高的准确性,可能有机会拓展AI 骨密度测量系统用于骨质疏松症筛查的适用人群。

本研究具有如下的优点:首先,利用了基于多个中心的数据建立的AI 骨密度测量系统,该模型较之前诊对单中心,单一CT 扫描仪的数据模型有进一步的优化。其次,纳入了大样本不同性别、年龄和体质指数的体检人群,可以作为将该AI 系统代替QCT 应用于临床筛查骨质疏松的参考依据。第三,验证了该模型用于筛查骨质异常的准确性,结果表明可以通过从常规CT扫描中获得的骨密度预测骨质疏松症。

本研究也存在一些局限性,首先,只对平扫CT数据进行分析,增强后AI 与QCT 测量骨密度一致性需要进一步验证[14]。其次,该模型尚不能自动排除有骨岛等异常的椎体,这些椎体的骨密度与实际情况相差较大,可能对临床诊断结果有显著影响。

猜你喜欢
骨质疏松症骨密度椎体
健康老龄化十年,聚焦骨质疏松症
预防骨质疏松,运动提高骨密度
经皮椎体成形术中快速取出残留骨水泥柱2例报道
天天喝牛奶,为什么骨密度还偏低
骨质疏松症为何偏爱女性
不要轻易给儿童做骨密度检查
老年骨质疏松性椎体压缩骨折CT引导下椎体成形术骨水泥渗漏的控制策略探讨
超声检查胎儿半椎体1例
椎体内裂隙样变对椎体成形术治疗椎体压缩骨折疗效的影响
OSTEOSPACE型超声骨密度仪故障案例解析