3D/2D卷积神经网络评估颅内出血的临床价值

2022-03-11 12:14赵施竹

中西医结合心脑血管病杂志 2022年4期

杨光，赵施竹

颅内出血是严重威胁健康的重大疾病，病人死亡率较高[1]。早期准确诊断对急性颅内出血管理具有重要意义[2-3]。颅内出血的早期和准确诊断受到多种因素影响[4]，急诊室环境中，脑部非增强CT(non-contrast CT，NCCT)检查和报告可能需要较长的时间。这些可能影响病人管理，由于出血扩大导致病情急剧恶化常在症状发作初始3.0～4.5 h内发生[5-7]。因此，发现颅内出血快速准确的诊断工具可能有助于及时治疗，并最终改善预后。

自动化定量出血工具除可测定颅内出血外，还可为预测和监测病人提供可靠的指标[8-9]。脑实质内出血(intraparenchymal hemorrhage，IPH)的定量临床标准依赖于简化公式(ABC/2)计算，该公式通常评估IPH体积达30%[10]。虽然手动划定出血可准确估算体积，但时间限制这种方法在急诊情况下的实现。因此，需要一种快速量化颅内出血体积的全自动和客观化工具，提供准确详细的信息，以指导临床决策。

本研究提出一个基于深度学习的卷积神经网络(convolutional neural networks，CNN)工具，这种新型技术可进行图像解析[11]。CNN的有效性基于在无明确的人工编程情况下进行自组织和模式识别能力的算法。Prevedello等[12]研究显示，通用算法可用于广泛筛选各种急性NCCT(出血、肿块效应、脑积水)，总体敏感度和特异度分别为90%和85%。通过定制新的基于兴趣的掩码区域CNN(掩码R-CNN)架构扩展这一初步工作，该架构为颅内出血评估和网络训练。除验证回顾队列外，还将其在前瞻验证队列中进行测试。通过测定现实环境中此种工具的性能，评估其在临床实践中实施的可行性。本研究的3个关键目标包括深度学习算法的开发和评估最终训练的CNN性能：①颅内出血包括IPH、硬膜外出血/硬膜下出血(EDH/SDH)和蛛网膜下腔出血(SAH)；②颅内出血体积的量化；③作为自动化流程的一部分，对独立的现实样本进行前瞻性实时推论。

1 资料与方法

1.1 研究对象确定两个单独的队列分别用于训练和前瞻验证。训练队列为2018年1月—2018年7月在研究机构进行的NCCT扫描；验证队列时间为2018年10月—2019年2月急诊科的NCCT 检查。对于这两个队列，从临床报告中发现阳性出血病例(IPH、EDH/SDH和SAH)，并通过专业放射科医生确认。使用本研究开发的自定义半自动基于Web的注释平台，为所有阳性出血病例生成3D纹理真实掩码。所有掩码准确性均由专业放射科医生目视检查。

1.2 卷积神经网络从掩码R-CNN算法派生的自定义体系结构用于检测和分割出血[13]。掩码R-CNN体系结构为候选区域(region proposal)、对象检测(分类)和实例分段并为进行评估提供一个灵活高效的框架(见图1)。测试预先设置的分布在不同形状和分辨率的边界框可能存在潜在异常，之后识别排名最高的边界框，并用于生成候选区域，从而将算法的注意力集中在图像特定区域上。这些复合候选区域使用非最大抑制法进行修剪，输入到分类器中确定是否存在出血。在测定阳性出血情况下，使用网络的最后一个分割分支生成二进制掩码。

图1 Mask R-CNN方法(A为测试预先配置的不同形状和分辨率的边界框是否存在潜在的异常；B为确定排名最高的边界框，并用于生成引起算法注意的候选区域；C为使用非最大抑制修剪复合候选区域，并将其输入分类器中，以确定是否存在出血；D为阳性的出血病例生成分割掩码)

掩码R-CNN架构效率来自一个共同的骨干网络，该骨干网络生成一组共享的图像特征，用于各种并行检测、分类和分割任务。卷积神经网络 ConvNet 分为4大层。①图像输入Image Input：为减小后续BP算法处理的复杂度，一般建议使用灰度图像。使用RGB彩色图像，此时输入图像原始图像的RGB三通道。输入的图像像素分量为[0，255]，为了方便计算一般需要归一化，若使用sigmoid激活函数，则归一化到[0，1]；若使用tanh激活函数，则归一化到[-1，1]。②卷积层(convolution layer)：特征提取层(C层)-特征映射层(S层)。将上一层的输出图像与本层卷积核(权重参数w)加权值，加偏置，通过一个sigmoid函数得到各个C层，之后采样subsampling得到各个S层。C层和S层的输出称为Feature Map(特征图)。③光栅化(rasterization)：与传统的多层感知器MLP全连接，将上一层的所有Feature Map的每个像素依次展开，排成一列。④多层感知器(MLP)：最后一层为分类器，一般使用Softmax，若是二分类，也可使用线性回归Logistic Regression，SVM，RBM。详见图2。

图2 卷积神经网络的基本结构

本研究采用的骨干网络是特征金字塔网络(feature pyramid network，FPN)的自定义混合3D/2D变体[14]。定制骨干网络使用标准的瓶颈残差块(residual bottleneck blocks)[15]，无迭代调整，由于观察到R-CNN架构，特别是基于FPNS架构，对许多设计选择均是稳健的。执行过程中，大小为5×512×512的三维输入矩阵被映射到不同分辨率的二维输出特征映射图，使用投影操作匹配矩阵维数，将来自FPN自下而上路径(bottom-up pathway)的三维输入添加到自上向下路径(top-down pathway)的二维输出特征映射图中。通过这种方式，网络利用紧邻感兴趣区域的5个切片的背景信息预测出血的存在和位置。

1.3 实现过程采用原始快速R-CNN实现中[16]描述的近似联合训练方法，对候选区域网络(RPN)、分类器和分割进行并行优化。掩码 R-CNN结构使用每张图像128个采样ROIS进行训练，正负样本比例固定在1∶3。推理过程中，RPN排名前256个候选区域(proposals)使用非最大限度地抑制修剪，并生成用于分类的检测框。RPN锚跨越4个尺度(128×128，64×64，32×32，16×16)和3个高宽比(1∶1，1∶2，2∶1)。

使用启发式方法初始化网络权重[17]，最终的损失函数包含一个l2正则化网络参数术语。应用Adam实现优化，该方法是基于低阶矩自适应估计的随机目标函数一阶梯度优化算法[18]。观察到训练损失平台时，初始学习速率为2×10-4。

采用python 3.5编写软件代码，使用开源TensorFlow r1.4程序库[19]。实验在一个GPU优化的工作站上进行，工作站上有4块NVIDIA GeForce GTX Titan X 卡(12 GB，Maxwell architecture)。使用单一GPU配置确定推断基准速度。

1.4 图像预处理对于每一卷，轴向软组织重建系列自动确定是自定义基于CNN的算法。若有必要，可将该卷调整为平面内分辨率矩阵为512×512。所有矩阵值均小于-240 HU或更高+240 HU，重新调整整卷为[-3，3]。

1.5 统计学处理研究的主要终点是在每次检查的基础上测定出血。若在任何给定切片上有任何单个候选区域为出血阳性，认定预测为NCCT有出血。基于此，评估算法性能，包括准确性、敏感度、特异度、阳性预测值(PPV)和阴性预测值(NPV)。通过改变用于出血分类的softmax评分阈值，计算受试者工作特征曲线下面积(AUC)。除完整的数据集评估之外，平衡数据集的性能统计信息(阳性和阴性病例数相等)可同时计算出来。使用平衡分布，准确度根据出血类型(IPH、EDH/SDH和SAH)和出血量多少(点状、小、中、大；定义分别为<0.01 mL，0.01～5.00 mL，5.10～25.00 mL，>25.00 mL)计算。

研究的次要终点是准确估算出血量的能力，包括2种评估方法：预测出血的二进制掩码使用Dice评分系数与手动分割进行比较；使用Pearson相关系数(r值)将预测的出血量与金标准进行比较。

1.6 训练队列评价五重交叉验证方案评估初始训练队列，将集中的80%数据随机分配到训练队列中，其余的20%用于验证。之后重复此过程5次，直到整个数据集中的每项检查均经过验证。验证结果报道整个数据集的累积统计信息。

1.7 独立测试队列评估调整算法设计和参数后，最终训练网络应用到新的前瞻队列。整个推理流程完全自动化，包括将新获得的检查从PACS实时传输到自定义GPU服务器，识别正确的输入序列和训练有素的网络推理。除初始验证统计信息，可报道来自独立测试数据集的结果。

2 结果

2.1 研究对象选择初始训练队列共10 159次NCCT检查，其中901次(8.9%)符合脑出血，包括IPH(358次，3.5%)，EDH/SDH(319次，3.1%)和SAH(224次，2.2%)；共生成512 598张图片。中位出血量为28.2 mL。

独立测试数据集队列共682次前瞻NCCT检查，其中82次(12.0%)符合脑出血，包括IPH(23次，3.4%)，EDH/SDH(38次，5.6%)和SAH(21次，3.1%)；生成2 368张图片。中位出血量为24.9 mL。详见表1。

表1 出血类型和出血量大小分布单位：次

2.2 颅内出血测定完整数据集总体算法性能，包括训练队列预测准确性、AUC、敏感度、特异度、PPV和NPV，分别为0.975，0.983，0.971，0.975，0.793和0.997；前瞻队列分别为0.970，0.981，0.951，0.973，0.829，和0.993。进行颅内出血类型分层时，训练队列中IPH，EDH/SDH和SAH检测的灵敏度分别为98.6%(353/358)，97.4%(311/319)和94.2%(211/224)；前瞻队列分别为100.0%(23/23)，94.7%(36/38)和90.5%(19/21)。训练队列中2.9%(26/901)出血判错，前瞻队列中4.9%(4/81)出血错判(见图3、图4)。根据出血量分层的平衡数据集结果显示出通用算法精度，出血量>5 mL(0.977～0.999)高于出血量<5 mL(0.872～0.965)，两队列中仅4例(EDH/SDH)出血>5 mL被错判。点状出血<0.01 mL的检测准确度(0.872～0.883)较少量出血(0.01～5.00 mL)的准确度(0.906～0.965)更具挑战性。进一步对出血类型分层，最具挑战性的是点状SAH或EDH/SDH的测定，训练队列为0.830～0.881。平衡数据集完全分层结果见表2。

图3 颅内出血分割实例[A列为输入的CT切片；B列为对应的手工分割(蓝线)；C列为相应的半自动分割(红线)；D列为全自动分割(绿线)]

图4 网络预测实例[该算法的假阳性和假阴性网络预测包括异常区域的边界框候选区域(以聚焦算法注意力)和最终的网络预测结果的置信度。假阳性的出血预测(紫色)包括运动伪影和/或后颅窝束的硬化(A)或高密度模拟皮质钙化(C)。排除性出血的假阴性预测通常包括小的体积异常，密度相对较低，从而降低显著性。此病例包括沿右额叶后部(B)和右顶下叶(D)的微小蛛网膜下腔出血]

表2 平衡数据集出血类型和大小分层性能

2.3 颅内出血量化与手工分割比较，由CNN分割评估IPH、 EDH/SDH和SAH的Dice系数分别为0.931，0.863和0.772。CNN分割IPH、EDH/SDH和SAH出血量的Pearson相关系数r值分别为0.999，0.987和0.953。与简化公式ABC/2得到的IPH相比，Pearson相关系数r值为0.954。平均而言，ABC/2得到的出血量高估约20.2%，CNN得到的出血量低估约2.1%。

2.4 网络统计值收敛前每个网络进行相应的验证折叠训练约100 000次迭代。根据用于训练分配的GPU卡数量，此过程每一折叠平均需要6～12 h。训练后，掩码R-CNN网络在平均0.121 s确定新测试案例中是否存在出血，这一过程包括单个GPU工作站上的所有预处理步骤。

3 讨论

本研究测定IPH、EDH/SDH和SAH颅内出血准确，CNN通过Dice评分系数反映出高精度的颅内出血定量(0.772～0.931)和Pearson相关(0.953～0.999)。将自动推理流程用于前瞻队列，深度学习工具通过NCCT检查准确测定和量化颅内出血。

较多传统学习技术用于颅内出血测定，如模糊聚类[20-21]、Bayesian分类[22]、设置阈值水平[23]和决策树分析[24]。目前给定的NCCT进行头部检查存在大量图像多样性，最终限制从先验规则和硬编码的假设中得到算法的准确性。有研究使用决策树分析进行IPH测定的灵敏度为0.60，PPV为0.447[25]。硬编码逻辑倾向于产生仅针对单项任务。一种用于出血的水平设定技术，量化产生的Dice得分为0.858～0.917[23]，该算法对出血的测定是有限的，由于其未在设计中排除阴性检查出血。

鉴于对医学成像深度学习潜力的认识不断提高，越来越多的研究倾向于使用CNN方法。开发了用于肺结节的多尺度CNN对CT图像进行测定[26]，相关研究设计了一个12层的CNN预测乳房X线照片上的心血管疾病[27]及脊柱转移的测定[28]。有研究报道了一种深度学习方法，将几个预先训练的网络用于20个案例的小型测试集[29]。

这些初步工作十分重要，仍存在一些关键限制，临床应用深度学习工具前需解决这些问题。首先，除具有较高的算法性能外，临床上可行的工具必须解决传统无法合理化给定的解释。一些技术通过生成显著性地图[30]或类活化地图[31]改善，这是传统的基于整体CNN图像分类(或数据卷)的已知局限性。候选的自定义掩码R-CNN体系结构通过将基于注意力的物体检测网络与传统的分类和分割组件结合，允许算法明确定位可疑CT发现并提供某些发现可能代表颅内出血的视觉反馈或模仿。

其次，临床使用工具需在非过滤数据进行测试。本研究通过将训练好的网络应用在一个完全自动化的推理流水线中模拟这一过程，这个流水线可执行所有支持算法预测的必要步骤，从PACS图像传输到序列识别，再到GPU启用的推理，这些均不需要人工监控。这种背景下使用前瞻性独立测试集，是目标人群的抽样样本，这些样本是在急诊放射学检查的NCCT头部扫描。算法性可在前瞻测试中保持良好，表明深度学习工具具有潜在的临床应用价值，同时指出适应算法验证所需的数据库大小。虽然大型数据集在医学影像学中少见，但病理学代表性样本对算法精确性的验证是重要的。本研究结果显示，神经网络难学习和归纳[点状出血<0.01 mL，约占所有检查的0.5%(56/10 841)]，因此，需要大量具有代表性的数据集评估这些关键的罕见现象。大型数据库可促进算法学习，通过增加训练样本多样性，帮助网络选择通用的预测特征。无颅内出血的病例和颅内出血的病例同样重要，由于算法必须正确识别无出血的多数病例，尽管可能存在任何潜在的病例。为了解决这些问题，本研究利用大型训练数据集优势，该数据集包括512 598张图片，较以往研究数量较多。

准确的出血检测工具突出的用例是分诊系统，可提示医生潜在的阳性检查，以便加快判读，从而有助于减少全程结果回报时间(TAT)。有研究显示，超过80家机构将减少TAT达标的重要性作为优先考虑的事件之一，总分6.0分得到5.7分[32]，从而加快病人的治疗分流。快速识别IPH病人将有助于在症状出现的最初3.0～4.5h控制血压，避免症状急剧恶化[5-7]。INTERACT-2试验进一步证实了这一点，结论是早期诊断提供的强化治疗与功能改善有关[33]。

除出血测定，颅内出血的定量指标可精确和有效量化疾病初始负担和后序变化，可能具有重要的临床意义[34-35]。IPH发病2～3 h，出血量可急剧变化[5-7]。出血量是30 d死亡和并发症发生的已知预测因子[8-9]。目前，临床估计脑出血量的标准是ABC/2公式，其中A、B、C分别代表血肿长、宽和厚度[10，36]。虽然易于使用，但这种方法的局限性是对所有IPH来说血肿均是椭圆形。本研究结果显示，这一方法高估出血量20.2%，与手工分割比较相差30%[10]。虽然手工标测是黄金标准，但急诊应用中这种方法既费时间又存在技术的挑战。经过训练CNN可快速、准确地定量IPH体积，与手工测量的相关系数为0.999，可方便临床，同时作为手工测量的一种变通方法。

本研究存在一些局限性：①研究结果是在单一中心得到的，结果普适性可能不高，今后将其用于其他机构扫描仪和不同扫描设备进行预测性能评价。CT检查本质上采用hounsfield单位标准化，并显示出较X平片或磁共振成像较少的影像变异性。②深度学习算法易受到对抗性噪声的影响，图像中微小但高度模式化的扰动可能导致不良的预测结果[37]。目前数据集并未遇到这种情况，使用网络集成和去噪音自动编码器可一定程度降低这种可能性[38]。

总之，高性能全自动、深入的学习算法可对头部NCCT扫描检测和定量IPH、EDH/SDH和SAH。嵌入在自动化推理环境中的前瞻性独立测试集算法的高性能表现，这种深度学习工具在今后具有临床可行性，可作为一种快速量化颅内出血体积的方法，加快病人治疗的分流，并提供准确、详细的信息指导临床决策。

3D/2D卷积神经网络评估颅内出血的临床价值

1 资料与方法

2 结 果

3 讨 论

2 结果

3 讨论