基于CT临床放射组学列线图与深度学习鉴别非典型肺错构瘤和肺腺癌

2024-03-27 08:56王传彬李翠平郜言坤钱宝鑫董江宁吴兴旺
安徽医科大学学报 2024年2期
关键词:放射科组学医师

王传彬,李翠平,曹 锋,郜言坤,钱宝鑫,董江宁,吴兴旺

肺错构瘤(pulmonary hamartoma, PH)和肺腺癌(lung adenocarcinoma, LA)分别是肺部最常见的良性和恶性肿瘤,二者的临床处理方式不同,前者以随访为主,后者则主张手术切除[1-2]。高分辨率CT(high resolution CT, HRCT)是术前诊断PH和LA的最常用方法[3],“爆米花”样钙化或脂肪密度是PH的典型征象,而LA则表现出“毛刺征”、“空泡征”等典型征象。当二者缺乏上述征象,分别表现为非典型肺错构瘤(atypical pulmonary hamartoma, APH)和非典型肺腺癌(atypical lung adenocarcinoma, ALA)时,极易混淆。放射组学和深度卷积神经网络(deep convolutional neural network, DCNN)通过将具有生物学信息的医学图像转化为可进一步分析的高维数据提高非侵入性诊断能力,目前已被广泛应用于多种临床实践中[4-7],该文拟建立基于临床-影像学特征和放射组学特征的临床放射组学列线图(clinical radiomic nomogram, CRN)及DCNN的两种预测模型,提高APH和ALA的鉴别诊断能力,探讨基于DCNN的人工智能(artificial Intelligence, AI)评价肺结节Lung-RADS分类水平的能力。

1 材料与方法

1.1 病例资料回顾性收集2012年10月至2022年10月来自安徽医科大学第一附属医院和中国科学技术大学附属第一医院的经病理确诊的PH和LA患者共2 283例,根据CT征象,将APH定义为CT图像上缺乏可见钙化和可测量脂肪(CT值≤-20 HU)的PH,将ALA定义为缺乏空洞或空泡征、缺乏毛刺征、胸膜凹陷征、血管集束征等恶性征象的LA。其他纳入标准为:① 直径为≥1 cm和≤3 cm的实性结节(文献[8]认为<1.0 cm的病变通常无法获得有效的放射组学特征,>3.0 cm的结节通常具有典型的CT特征);② 具有标准算法重建出的薄层胸部CT图像(层厚/间距为1.25 mm);③ 图像质量高,不影响肺结节的轮廓勾画和分割。最终纳入患者共307例,其中机构1的患者(n=263)按照7 ∶3的比例随机分为训练集(n=184:APH=97,ALA=87)和内部验证集(n=79:APH=41,ALA=38),机构2的患者作为外部验证集(n=44:APH=23,ALA=21)。实验设计流程见图1。

图1 CRN模型和DCNN模型建立过程

1.2 图像采集及特征提取两家机构的扫描设备均为美国GE公司16排以上CT,包括Light speed VCT、Optima CT 660及Discovery CT750 HD。主要参数如下:管电压120 kV,管电流150~300 mA;扫描层厚及层距均为5 mm,薄层重建图像为标准算法,层厚及间距为1.25 mm。由两名高年资放射科主治医师(W.C.B.和C.F)共同完成临床及影像学特征的统计,包括患者的性别、年龄、病变的位置、平均直径(取结节最大层面长径与短径之和的1/2,单位mm)、形状(分叶征)和CT值(在标准算法的薄层纵隔窗图像上进行测量,感兴趣区(region of interest, ROI)放置于病灶中心并尽量避开容积效应的影响,面积约占病灶的1/2~2/3,单位HU)。采用ITK-SNAP(version 3.8, www.itksnap.org)软件包,由上述两名医师在薄层肺窗图像上,沿靶病灶边缘逐层勾画出分割线,分割线一般不超过病变边缘1~2 mm,同时对靶病灶上下缘轮廓显示不完整的层面予以舍弃,最后保存为三维容积感兴趣区(volume of interest, VOI),利用人工智能科研平台(汇医慧影,http://radcloud.cn),完成放射组学特征的提取(共1 316个),包括:一阶特征、形状特征、二阶特征[灰度共生矩阵 (gray level co-occurrence matrix, GLCM)、灰度行程矩阵 (grey-level run-length matrix, GLRLM)、灰度区域大小矩阵 (grey-level size zone matrix, GLSZM)、附近灰度色调差矩阵 (neighbourhood grey-tone difference matrix, NGTDM)、灰阶依赖性矩阵 (grey-level dependence matrix, GLDM) ],以及小波变化(wavelet)、拉普拉斯(log)和局部二值模式滤波器(LBP)变化特征。

图2 组间相关系数图

1.4 DCNN模型的建立利用经典的深度学习3D Resnet-50[6]建立APH和ALA的分类模型,模型结构如图1所示,在残差模块中,具有可学习参数的层用矩形框表示,每个矩形框代表一个卷积核,分别对应1×1×1、3×3×3以及1×1×1卷积核,黑色实线箭头对应卷积操作,虚线箭头表示特征图之间的密集连接。Resnet-50网络结构可以分成7个部分,第1部分不包含残差块,主要对输入进行卷积、批归一化、激活函数、最大池化的计算。第2、3、4、5部分结构都包含了残差块(阶段1~阶段4)。在Resnet-50网络结构中,残差块都有3层卷积,网络总共有1+3×(3+4+6+3)=49个卷积层,加上最后的全连接层总共是50层。本研究将所有感兴趣区域调整到64×64×32像素并采用最大最小值的方式对图像进行归一化处理。将训练集中的感兴趣区域影像输入3D Resnet-50网络,经过前5部分的卷积计算,池化层会将其转化成1个特征向量,通过反向传播更新模型参数,以网络的输出作为分类结果,计算输出和标签的二进制交叉熵作为损失函数。使用数据增强策略减轻过度拟合,即每个训练图像被随机旋转30°、60°、90° 和180°(在验证集中没有数据增强技术),以及使用了策略包括L2正则化(权重衰减为0.000 5)和早期停止。将批处理大小设置为8,学习速率设置为1×10-4,并应用Adam优化器进行优化。课题组使用的神经网络代码是运行于Ubuntu16.04系统,神经网络训练过程使用到的程序包包括Python3.6.8、Pytorch 1.6.0、Opencv、Numpy、SimpleITK等,同时在2块NVIDIA的1080Ti图形处理单元上训练模型多达1 000次迭代。

1.5 AI辅助评价Lung-RADS分类重新招募1名有15年诊断经验的放射科医师对机构1的263个病例(APH=138,ALA=125)进行Lung-RADS分类,根据Lung-RADS 1.1版本[3]和本研究的入组标准,上述263例均被定义为4A~4X类,表明这些结节均有一定的恶性概率(可疑恶性)。利用AI以概率法重新评估上述病例中结节的性质,并与放射科医师评估的Lung-RADS分类做对比,进一步判别在AI的协助下Lung-RADS分类的调整情况,包括无变化、升级或降级。

2 结果

2.1 研究对象及临床-影像学特征筛选一般资料见表1。训练集中的ALA组和APH组在性别、年龄和病变位置的差异性无统计学意义(P=0.737、0.514、0.196),在CT值、直径和分叶征的差异性有统计学意义(P=0.001、0.000、0.000),其中APH组的CT值、直径和分叶征比例均表现更小;进一步的多因素分析显示,训练集中的ALA组和APH组仅在CT值和直径的差异有统计学意义(P值均为0.000)(表2)。

表1 训练集、内部和外部验证集中患者的临床特征

表2 训练集中临床特征的多变量分析

2.2 放射组学特征筛选及CRN模型建立两名观察者间的ICC为0.89,将其中1 203个ICC≥0.75的放射组学特征进行LASSO降维后,最终筛选出3个关键特征:特征1(original-glcm-MCC,最大相关系数), 特征2(original-shape-flatness,平面度)和特征3(original-shape-sphericity,球形度),每个患者对应的Radscore值=-0.075 9-2.823 6×original-glcm-MCC-0.438 8×original-shape-flatness-2.403 7×original-shape-sphericity。Spearman相关分析及热图显示3个特征的组内相关性较弱(r<0.5)(图3)。最后,基于CT值、直径和Radscore评分建立了CRN模型,并使用列线图(图4)将模型可视化(Nomo=-2.520 8+0.866 1×Radscore+0.098 4×直径+0.026 9×CT值)。在CRN预测模型中,预测概率范围为0.01~0.09,Radscore的风险参数最高,其次是平均直径和CT衰减值。决策曲线(图5)评估列线图的获益程度显示,对所有患者使用CRN模型的预测比干预或不干预更有益。

图3 训练集(A)、内部(B)和外部验证集(C)中3个放射组学特征的组内相关性的热图

图4 临床放射组学列线图

图5 训练集(A)、内部(B)和外部验证集(C)中评价CRN模型的实用性的决策曲线

2.3 CRN及DCNN模型的性能评价及比较ROC曲线(图6)结果显示,各组模型中DCNN模型的AUC值均高于CRN模型。CRN模型在训练集、内部和外部验证集中的AUC值分别为0.968、0.953和0.932(表3),分别低于DCNN模型在各验证集的AUC值(0.983、0.973和0.942)(表3),但德隆检验(表4)结果显示上述差异性均无统计学意义(P=0.23、0.31、0.34)。

表3 基于DCNN模型和CRN模型的训练集、内部和外部验证集的性能

表4 德隆检验比较CRN 模型和DCNN 模型的性能

图6 训练集(A)、内部(B)和外部验证集(C)中比较CRN和DCNN模型性能的ROC曲线

2.4 AI辅助评价Lung-RADS分类在AI的重新评估下(表5),138例APH中有7例被AI错误判断为恶性结节(错误率5%,7/138),其相应的Lung-RADS分类不变,余下131例被AI正确判断为良性结节(准确率95%,131/138),其相应的Lung-RADS分类降级;125例ALA中有106例被AI正确判断为恶性结节(准确率85%,106/125),其相应的Lung-RADS分类不变,余下19例被AI错误判断为良性结节(错误率15%,19/125),其相应的Lung-RADS分类降级。根据调整后的Lung-RADS分类结果,AI判断APH的准确率明显高于放射科医师,判断ALA的准确率与放射科医师基本一致。

表5 AI辅助下对放射医生评估的 Lung-RADS分类调整情况(n)

3 讨论

提高APH和ALA的无创性诊断能力有助于患者在临床决策中受益,然而这对于依赖诊断经验的放射科医师来说较为困难,本研究建立了基于CT图像的临床放射组学列线图和DCNN的两种预测模型,在解决上述问题方面取得了较为理想的结果。

CT值和直径是本研究中构建CRN模型的重要影像学特征,本研究中APH组的CT值及直径均低于ALA组,可能原因如下:在组织学上,PH主要是由CT值较低的黏液和脂肪组织构成,因此相对的“低密度”是区分PH与其他肺部病变的重要特征[9];在生物学行为方面,PH则具有良性肿瘤生长缓慢的特点,与肺癌快速生长明显不同,Hansen et al[10]报道了14例PH的平均直径在平均4.1年内仅增加了(3.2±2.6)mm。

基于CT图像的放射组学特征能够间接反映出病灶内部的衰减分布,这是一般影像学特征无法实现的[11-13]。本研究筛选出的3个放射组学特征中,APH组的original-glcm-MCC,original-shape-flatness均高于ALA组,这两个特征分别是纹理复杂度的测量和ROI中最大和最小主成分之间的关系[13-14],这一结果表明,APH的内部衰减分布比ALA更不均匀,APH的组织成分的差异大于ALA,这可能是由APH组织成分的多样性引起的[9],放射组学的定量特性可以帮助医师识别这种差异性。此外,这也提示肿瘤的异质性不仅仅代表恶性病变,也有可能与复杂的组织成分有关。APH组的另一个关键特征original-sham-sphericity亦高于ALA组,该特征有可能反映了病变的扩张性和相似程度[13-14],表明APH比ALA更有可能显示出球形的形态,这也符合良性肿瘤的膨胀性生长的特点[7]。

最后,课题组利用上述影像学特征及放射组学特征所建立的CRN模型获得了较好的诊断性能,实现了在训练集、内部验证集和外部验证集依次为0.968、0.953和0.932的AUC值。个性化预测的列线图显示,Radscore在区分ALA和APH方面优于影像学特征,进一步揭示了放射组学在鉴别诊断方面的能力可能优于放射科医师[10-12]。

DCNN是一种深度人工神经网络,它可以捕获影像图像在初始卷积层中存在的纹理信息[4-7],近年来取得了一些比放射组学更先进的成就[13-15]。在一项预测肺腺癌EGFR突变的研究中,Wang et al[13-14]采用DCNN方法获得的结果明显优于放射组学方法。Li et al[15]在另一项研究中采用了DCNN和放射组学方法预测了弥漫性胶质瘤的分子亚型,前者在大多数情况下表现更好。本研究中,在区分ALA和APH方面,DCNN模型取得了一个相对于CRN模型更好的结果(训练集、内部和外部验证集的AUC分别为0.983vs0.968、0.973vs0.953和0.942vs0.932),表明DCNN可能是更有前途的医学应用。

肺结节的Lung-RADS分类是否准确直接影响到患者的临床决策。在临床工作中,放射科医师对肺结节Lung-RADS分类的判断是以结节的直径和影像学特征作为参考的,并受到一定的主观判断性的影响,这常常导致分类结果不能真实反映出病灶的性质。根据Lung-RADS 1.1版本[3]和入组标准,本研究的263例病灶在术前均被放射科医师定义为4A~4X类(可疑恶性),意味着138例良性的APH在术前均被错误定性。而在人机竞赛实验中,AI将131例APH(94.9%,131/138)判断为良性,相应的Lung-RADS分类被降级,表明AI在评估APH病变性质方面的表现明显优于放射科医生,可以显著降低APH的误诊率;同时AI将106例ALA(84.8%,106/125)判断为恶性,相应的Lung-RADS分级保持不变,表明AI在评估ALA病变的性质方面倾向于与放射科医生的判断一致,有助于帮助放射科医师增加对ALA诊断的信心。此外,研究[15]表明,DCNN方法在研究队列较大时将表现得更好,在本研究中,仍有7例APH和19例ALA被AI误判,可能需要更大的样本去验证。

综上所述,DCNN及CRN在区分APH和ALA方面均具有较高价值,前者表现更优;AI在评价肺结节的Lung-RADS分类方面亦表现出优于放射科医生的能力。DCNN在肺结节的临床实践中有可能具有更广阔的应用前景。

本研究仍有一些局限性。首先,需要一项包含更多中心成像数据的前瞻性研究来验证研究结果。其次,本研究仅选择了APH和ALA作为研究对象,需要纳入其他性质不同但影像表现相似的肺部结节进行研究。第三,不同CT设备采集的图像和不同人工分割的图像可能会影响结果。

猜你喜欢
放射科组学医师
放射科住院医师职业倦怠研究进展
我国放射科住院医师规范化培训现状的调查与思考
中国医师节
韩医师的中医缘
放射科专业基地入科教育的实践探讨
口腔代谢组学研究
基于UHPLC-Q-TOF/MS的归身和归尾补血机制的代谢组学初步研究
医师为什么不满意?
代谢组学在多囊卵巢综合征中的应用
放射科安全管理