基于三维卷积神经网络肺结节深度学习算法模型临床效能初步评估

2019-09-25 02:26王祥李清楚邵影邹勤孙安陈彦博陈如谭高耀宗刘士远萧毅
放射学实践 2019年9期
关键词:精准度实性灵敏度

王祥,李清楚,邵影,邹勤,孙安,陈彦博,陈如谭,高耀宗,刘士远,萧毅

表2 测试集5台CT机器详细扫描参数

肺癌是全球范围内发病率及死亡率最高的恶性肿瘤[1,2],患者早期往往没有任何临床症状而被忽视,研究表明肺癌患者五年生存率约为10%~16%[3],大多数患者检出时已经失去了早期根治的机会。早期发现、早期诊断及早期治疗可以显著提高肺癌患者五年生存率[4]。低剂量胸部 CT 具有较高的空间分辨率、扫描时间短及可对病变进行三维重建等优点,广泛应用于肺结节的检出及鉴别诊断。然而,CT筛查数量急剧增加及扫描层厚越来越薄,影像医生工作强度显著提升,临床工作中漏诊及误诊现象时有发生[5,6]。因此一个准确的肺结节自动检测系统将给影像科医生提供巨大帮助,有望真正成为医生的好帮手。

传统肺结节计算机辅助检查技术虽然可以提高肺结节检测的效率和准确性,但是由于该方法对磨玻璃结节检出率低、假阳性率高等问题,因此在临床应用中并未常规使用[7,8]。随着医疗大数据库的建立及计算机硬件水平的发展,深度学习算法在医疗诊断领域优势明显,为实现医学影像的自动智能诊断提供了新的契机[9]。目前,虽然部分研究者采用深度学习算法对肺结节进行自动检测[10,11],但大部分算法还是基于2D或2.5D影像[12],没有有效利用CT影像中的三维信息。因此,笔者建立了基于三维卷积神经网络的肺结节自动检出模型,并对其在独立测试集上进行验证。

材料与方法

1.病例资料

本研究经长征医院伦理委员会批准并免除了患者知情同意书。本研究属于回顾性研究,所涉及到的患者信息均进行了脱敏处理。所有数据分为训练集及测试集两部分,训练集用于训练三维卷积神经网络,测试集用于验证三维卷积神经网络的效能。训练数据集来自2018~2019年多家医院以及临床机构收集到的回顾性数据。训练数据集分别来自体检、门诊及住院患者中采集的胸部CT影像。

病例纳入标准:①行薄层CT(层厚≤1 mm)检查;②术前未有治疗史;③术后病理报告完善;④所有结节大小均≤3 cm;⑤薄层CT上无明显空洞。

病例排除标准:①肺叶扫描不全;②图像存在严重伪影;③图像存在缺层或断层;④图像不符合DICOM 3.0协议。

通过纳入及排除标准的筛选,最终7144例患者共45662个结节纳入训练集。7144例患者中女4000例(56%),年龄20~96岁,平均(51.0±14.7)岁;男3144例(44%),年龄19~94岁,平均(52.2±14.3)岁。

测试数据集来自长征医院2012年7月至2017年3月回顾性纳入的400例患者(男173例,女227例,年龄27~80岁)。采用与训练集相同的纳入标准与排除标准,最终经过筛选96例患者共733个肺结节纳入测试集。所有入组病例均为多发结节,每个结节视为独立结节,本研究没有考虑不同结节之间的相关性影响。训练集与测试数据集中肺结节大小和类型的分布见表1。

表1 数据集中不同大小、不同类型结节的分布

2.图像采集

测试集数据扫描范围自肺尖至后肋膈角下缘,包括两侧胸壁、腋窝。患者吸气末屏气扫描,避免呼吸运动伪影。所有测试病例均行胸部薄层MSCT扫描,CT图像采集来自5台CT机器,详细扫描参数见表2。

图1 三维卷积神经网络的fROC曲线。

3.标准测试数据集

参照胸部CT肺结节数据标注与质量控制专家共识[13],建立本次肺结节测试数据集。对入组的733个结节的 CT影像学特征在标准肺窗(窗宽1500 HU,窗位-450 HU)进行标注,每个结节均由3位胸部影像诊断医师(5年以上胸部亚专业工作经验)同步盲法诊断并标注,判断结节类型,当诊断结果不一致时,由第4位高年资亚专业国内权威影像医师作为仲裁专家进行判定,最后汇总意见作为结节诊断及标注金标准。本测试数据库根据结节大小分为3组:<5 mm、5~10 mm和>10 mm。结节密度分为钙化结节与非钙化结节(实性结节、亚实性结节)。其中,亚实性结节进一步分为纯磨玻璃密度结节与混杂磨玻璃结节,纯磨玻璃密度结节指肺实质内圆型或类圆形边界清楚的密度增高影,其内血管及支气管显示清晰,通过纵隔窗判断有无实性肿瘤成分,无实性成分者为纯磨玻璃密度结节,反之判断为混杂磨玻璃密度结节[14]。特殊部位的结节主要纳入胸膜结节,定义为与胸膜广基底相连的圆形、类圆形或不规则形的局灶性密度增高影。结节尺寸测量以肺部CT肺结节数据标注与质量控制专家共识为标准,在标准肺窗测量,选取结节最大横截面长径及短径计算其平均直径,平均直径为(长径+短径)/2[13],并记录检出结果。本次测试集总纳入733个肺结节,其中实性结节277个,磨玻璃结节390个,胸膜结节39个,钙化结节27个。肺结节大小范围为3~30 mm,平均肺结节直径为6.5 mm,其中恶性结节145个,均经病理证实。

4.CAD性能统计学指标

本研究从肺结节检出的灵敏度(Sensitivity),精准度(Precision)以及平均每例假阳性个数来衡量肺结节筛查算法的综合性能。真阳性检出(True Positive)指当CAD系统检出的肺结节定位框与金标准中任意一个肺结节定位框有重合时,则这个肺结节检出被认为是一个真阳性检出;反之,则认为这个肺结节检出是假阳性检出。CAD系统的肺结节灵敏度定义为CAD系统真阳性个数/金标准肺结节总个数;精准度定义为CAD系统真阳性个数/CAD系统检出肺结节的总个数;平均每例假阳性个数定义为总共假阳性检出数量/总共测试集的病例个数。肺结节检出的灵敏度反映了CAD系统对肺结节的检出率,精准度和平均每例假阳性个数体现了CAD系统肺结节检出的假阳性。

分别使用本研究建立的三维卷积神经网络模型,Siemens syngo.via(VB 3.0)及Philips ISP(V8)CAD软件进行标准测试数据集中肺结节的检出。通过与医生确立的肺结节“金标准”对比,计算三类方法在肺结节检出的灵敏度、精准度以及平均每例患者假阳性检出的个数,同时比较对于不同大小、不同类型肺结节检出的灵敏度。

结 果

在测试集733个肺结节中,三维卷积神经网络算法模型共检出658个结节,另外有273个为假阳性检出。整体肺结节检出灵敏度为90%,精准度为71%,平均每例患者假阳性检出2.8个。验证的三维卷积神经网络的自由响应受试者工作特征(free-response receiver operating characteristics,fROC)曲线[15]见图1,绿色框在fROC曲线所对应的点是该三维卷积神经网络的临床应用的操作点。

Siemens syngo.via工作站CAD软件共检出263个结节,另外有117个为假阳性检出,整体肺结节检出灵敏度为36%,精准度为69%,平均每例患者假阳性检出1.2个。在同样的假阳性检出下,fROC曲线显示三维卷积神经网络的灵敏度为67%,z检验表明该灵敏度显著优于syngo.via工作站(P<0.05)。

Philips ISP工作站CAD软件共检出249个结节,另外有90个为假阳性检出,整体肺结节检出灵敏度为34%,精准度为73%,平均每例患者假阳性检出0.9个(表3)。在同样的假阳性检出下,三维卷积神经网络的灵敏度为59%,z检验表明该灵敏度显著优于Philips ISP(P<0.05)。

表3 基于标准测试集的肺结节检测各项指标

表4 测试集中不同大小、不同类型的肺结节检出个数及灵敏度

注:表中数据分别表示肺结节检出个数及灵敏度(括号);*表示在该类型的肺结节检出上,三维卷积神经网络显著优于所比较方法,差异有统计学意义(Z检验,P<0.05)。

图2 基于级联学习的肺结节辅助筛查流程图,绿色方块表示肺结节,红色方块表示非肺结节。

针对不同大小、不同类型的肺结节进行分层统计,分别计算三维卷积神经网络、Siemens syngo.via以及Philips ISP对于各类结节检出的灵敏度。对于三维卷积神经网络,<5 mm的实性结节检出237个(99%),5~10 mm实性结节检出35个(100%),>10 mm实性结节检出2个(100%);<5 mm的磨玻璃结节检出109个(71%),5~10 mm的磨玻璃结节检出157个(88%),>10 mm的磨玻璃结节检出52个(88%);胸膜结节检出39个(100%);钙化结节检出27个(100%)(表4)。

通过与syngo.via以及Philips ISP进行对比,可以看出三维卷积神经网络几乎在所有类别的肺结节检出上都有更高的灵敏度,尤其在<5 mm的实性结节、磨玻璃结节、胸膜和钙化结节上,其灵敏度的优势更为明显。

讨 论

肺结节早期检出并明确诊断对肺结节的临床管理至关重要。我们前期基于回顾性数据建立了基于三维卷积神经网络算法的肺结节深度学习算法模型,所建立的肺结节检出算法是基于特征金字塔网络的检测框架[16],采用三维卷积操作来替代传统的二维卷积操作。整个算法的流程图如图2所示,通过多个检测网络对胸部CT肺结节进行检出。基于深度学习计算的肺结节影像特征,每个检测网络会对图像中的任意一个位置是否存在肺结节进行判断。只有所有检测网络一致认为存在肺结节的位置,才会被算法输出给医生进行审阅。通过结合多个深度学习检测网络,该算法模型可以有效并准确地检出肺结节的位置。通过对模型的准确性进行独立验证,并与传统CAD系统(Siemens syngo.via VB 3.0 和Philips ISP V8)在肺结节检出灵敏度、精准度以及平均每例假阳性个数等多个指标方面进行优效验证,结果显示该模型基于三维卷积神经网络,可以充分反映每枚结节的三维空间信息,较传统CAD模型具有较明显的优势。基于三维卷积神经网络算法的肺结节自动检测模型较传统CAD肺结节检出系统具有更高的灵敏度,整体肺结节检出灵敏度为90%,精准度为71%,平均每例患者假阳性检出2.8个,尤其对于<5mm的肺结节的检出提升效果更为显著。在不考虑结节大小对模型假阳性影响的情况下,对结节假阳性率的控制稍优于Li等[17]的研究结果,该算法模型在实性结节,胸膜结节及钙化结节检出上有着较高的灵敏度,但在磨玻璃结节检出上灵敏度仍有不足。主要原因是由于磨玻璃结节在训练集中仅占7.8%,大量标注结节为实性结节,因此训练得到的算法模型偏向于学习实性结节的影像特征,对实性结节表现灵敏,而对样本量较少的磨玻璃结节则相对不灵敏。

通过对测试集假阳性结节进行回顾性研究,笔者发现导致误诊的主要原因包括扩张支气管内分泌物、迂曲增粗的血管、正常小叶核心结构、马赛克样局限气体潴留及一些不同病因导致的炎性感染病变等。同样对于密度较淡磨玻璃结节、隐藏在血管旁结节、肺门旁结节、气管内结节及胸膜旁结节是主要的漏检原因。 对于一款肺癌筛查软件来说,较高的假阳性率在肺结节临床筛查中尚可接受,但假阴性率需尽力避免,因此,本研究模型虽然灵敏度较高,但对于临床应用来说仍有较大的提升空间。

通过对本研究的初级模型的检测结果可以看出,由于深度学习算法需要大量带有肺结节标注的胸部CT影像数据来进行训练,数据的多样性以及标注质量直接决定了算法的效能;从而反映出一个深度学习的算法模型,其训练集数据的量和数据的标注质量至关重要,同时训练集的数据分布也直接影响着模型的鲁棒性[18]。

本研究有以下局限性:①本研究属于回顾性研究且测试集样本量相对较少,存在选择偏倚;②没有对结节特殊位置进行详细分类;③不同类别的样本量不均衡,会导致算法训练性能下降,这是机器学习中常见的问题[19]。下一步我们将建立经过质控达标的标准测试集来验证深度学习模型的效能,并对漏诊结节分析其漏诊原因,有针对性地增加模型训练集分类权重进一步迭代优化。

综上所述,三维卷积神经网络算法模型相较于传统CAD系统,在肺结节检出灵敏度上有显著提升,通过对漏诊结节的补充训练迭代,有望在临床上提高医生的阅片效率并降低漏诊率,成为影像医生的助手。当然,这仅仅是用于结节筛查,肺结节鉴别诊断模型有待进一步研发验证。

猜你喜欢
精准度实性灵敏度
胰腺实性浆液性囊腺瘤1例
让党建活动更加有“味”——礼泉县增强“两新”党建精准度
导磁环对LVDT线性度和灵敏度的影响
基于高精度差分法的线性常微分方程边值问题研究
2017年IoT设备DDoS攻击更严重
论提高不动产产权保护精准度的若干问题
地下水非稳定流的灵敏度分析
实时超声弹性成像诊断甲状腺实性结节的价值
穿甲爆破弹引信对薄弱目标的灵敏度分析
胰腺实性假乳头状瘤14例临床诊治分析