基于3D U-Net实现人体耳软骨MRI图像的解剖结构分割

2022-01-18 08:14孙若凡张唯唯

中国生物医学工程学报 2021年5期

孙若凡张唯唯

(中国医学科学院基础医学研究所北京协和医学院基础学院，医学分子生物学国家重点实验室，北京 100005)

引言

小耳畸形是一种常见的先天性颌面部畸形，一般表现为重度耳廓发育不全，据流行病统计学显示其发病率在中国为5.18/10000[1-2]。耳廓重建术是治疗该病的整形外科方法，其中耳软骨支架构造的环节，除材质以外，在对称和美观上对临床都有极高的要求[3-4]。因此，所构建的耳软骨支架在形态上要求与健侧耳廓软骨具有较高的一致性，特别是在皮肤扩张和覆盖后与健侧耳廓仍可以保持对称。目前，作为耳廓再造的临床实践标准，基于自体肋软骨的人工雕刻支架需要在手术过程中参考通用模版实施，但是仅靠二维X 光图片制作的模版难以提供完整耳软骨的立体结构信息，术后效果依赖于医生的经验[2，5]。近年来，新兴的组织工程和3D生物打印技术的发展为耳廓再造和修复提供了新思路，研究者通过患者健侧的3D 激光表面扫描或者CT 图像运用计算机来设计可打印的耳软骨复合物支架，在一定程度上缓解了对人工雕刻的依赖。但是这些技术的具体实施同时对基于医学图像的耳软骨分割的准确性提出了更为严苛的要求[6-8]。

首先，为了构造结构精准的耳软骨(复合物)支架，需要医学成像设备能清晰的呈现单纯耳软骨的形态。严格来说，3D 激光表面扫描仅能对外耳轮廓进行成像，同样CT 图像难以区分耳软骨与周围组织[9-10]。核磁共振成像(magnetic resonance imaging，MRI)软组织对比度高，无电离辐射，非常适合先天性小耳畸形人群(学龄儿童为主)进行健侧耳软骨成像[10]，但是已知常规的MRI 结构成像序列难以对软骨清晰成像。最近，在肌骨系统成像研究中，应用超短回波时间序列(ultra-short echo time，UTE)对关节软骨具有良好的成像效果，提示可作为耳软骨成像的选择[11-12]。其次，考虑到耳软骨独特且复杂的形态结构[13]，高质量的支架构建离不开高效率的耳软骨及其子结构的图像分割算法，尤其是针对解剖子结构的分割算法可以完整的提供耳软骨各部分的立体结构信息，通过计算化的修饰和调整能够有效辅助耳软骨再造手术和3D 生物打印(或耳软骨组织工程)。有研究指出使用抑脂扰相梯度回波(Spolied Gradient-echo with Fat Saturation，FSSGE)MRI 序列结合手动分割可以准确的描绘耳软骨[10]，但这种人工勾勒的方法费时费力，不易推广。虽然目前没有关于耳软骨自动分割的报导，但是很多该类方法已经应用于膝关节和腕关节软骨分割，其中包括传统的图像处理算法、基于图谱的方法、经典的贝叶斯和K 近邻等机器学习方法，以及深度学习方法，尤其是后者近年来在关节软骨分割领域获得了非常积极的进展[14-15]。

虽然使用UTE 序列产生的图像可以将耳软骨呈现为高亮信号，但是脂肪、结缔组织，和皮肤同时也会呈现为亮信号，因此，很难从信号强度上将耳软骨和周围组织区分。这也导致传统分割算法，比如阈值、区域生长，甚至机器学习的聚类等方法，难以对纯耳软骨区域实现自动分割。另一方面，基于图谱方法十分依赖于配准工具和技术，不同的形变方式所产生的结果差异明显，耗时不等。还有，机器学习方法多数用于分类任务而且需要大样本量来训练，难以满足纯耳软骨区域的语义级别的分割需求。此外，如果缺乏耳软骨解剖子结构的先验知识(或专家级的标注)，对使用传统的图像分割方法以及机器学习方法是巨大的挑战和困难。基于深度学习的图像分割算法具有很强的自学习能力，能够很好的提取图像特征，甚至完成基于像素的语义分割，例如全卷积网络(fully convolutional networks，FCN)[16]、U-Net[17]、3D U-Net[18]、V-Net[19]等已广泛应用到医学图像分割任务中。FCN 在卷积层之后连接了全连接层，可以实现像素级的分类完成语义级别的分割，但由于没有充分考虑像素之间的关系，并不适用于边界复杂的软骨分割[16]。U-Net 在FCN 的基础上引入了上采样的对称路径，增加跳跃连接设计，实现了多尺度估计，具有较好的泛化能力[17]。U-Net 出现之后被多次使用在软骨分割研究中，取得了较为满意的效果[14]。3D U-Net 是U-Net架构的三维扩展，可以对三维图像进行语义分割，V-Net 为3D U-Net 的变形，在整体框架中引入了残差结构和卷积代替了池化和上采样，虽然精度较高，但是模型参数量太大很多情况需要对图像切块进行训练，难以保证分割结果的连续性[18-21]。

针对耳软骨UTE 图像特点，本研究提出对3D U-Net 进行优化和改进，并利用监督学习实现耳软骨12 个解剖结构的自动分割。首先，使用UTE MRI序列对耳软骨进行成像；然后，由专家制定分割策略对单纯耳软骨进行手动标注，并进一步基于解剖特点精细分割出12 个解剖结构；接下来，在3D UNet 架构的基础上，根据耳软骨图像尺寸较大和结构复杂等特点，提出在编码层增加残差结构和使用卷积替代池化两方面优化网络构架，并采用多尺度融合的输出方式结合不同维度的特征信息，以及使用加权Dice 损失函数缓解类间不平衡问题；最后，在后处理中增加三维全连接条件随机场对结果进一步优化，完整地实现耳软骨解剖结构的自动分割。本研究首次将深度卷积神经网络应用于人体耳软骨MRI 图像分割，将有助于先天性小耳畸形的耳廓再造和修复。

1 材料和方法

1.1 数据采集

数据采集获得了中国医学科学院基础医学研究所伦理委员会的审阅和批准，所有志愿者均签署知情同意书。共招募40 位健康志愿者(年龄(29.7±7.4)岁，女性/男性＝25/15)进行右侧外耳廓MRI矢状位扫描(其中两位因右耳损伤改为左侧扫描)。扫描设备为3 T 磁场强度的Achieva 机型(Philips Medical Systems)及32 通道的头线圈。扫描序列为UTE，扫描参数如下:TR＝5.58 ms，TE＝0.14 ms，翻转角＝15°，层厚＝1.2 mm，层间距＝0.6 mm，体素＝0.25 mm×0.25 mm×0.6 mm，图像矩阵＝800×800×80 体素。

1.2 数据预处理

数据预处理步骤主要包括格式转换、转向、调整尺寸、配准、裁剪。首先，将收集到的图像从DICOM 格式转换为NIFTI 格式后，将图像转到标准空间，并统一图像尺寸；接着，使用刚性配准将数据统一对位到挑选出来的参考图像上；最后，在已对位的图像上进行定位裁剪，保留完整的耳软骨结构的基础上尽可能减少图像背景，使图像矩阵改变为80×192×224 体素。

使用UTE 成像序列对外耳进行图像采集，需识别和区分耳软骨组织及周围组织并手动绘出耳软骨。手动分割步骤和规则由两名具有5年以上临床整形外科背景的医生和两名专业的医学影像分析研究者依据离体耳软骨解剖结果结合影像学特征科学规划和制定。实际分割专家为1 名经过专业培训且具有3年以上医学图像分割经验的研究者。

参照文献[22]的方法，基于UTE 图像，使用3D Slicer 4.10.1 软件，手动逐层绘制出每位志愿者的耳软骨标签，并将耳软骨标签作为UTE 图像的蒙版，可去除耳软骨以外的脑骨等背景区域。专家根据单纯耳软骨的标签或蒙版，结合耳廓解剖结构的定义和整形外科的临床需求，对以下耳软骨的12 个解剖子结构进一步手动分割:对耳轮(antihelix)、对耳轮脚(crura anthelicis)、三角窝(fossa triangular)、耳轮(helix)、耳轮脚(crus of helix)、耳甲艇(cymba conchae)、耳舟(scapha)、耳屏(tragus)、对耳屏(antitragus)、耳屏间切迹(intertragic notch)、外耳道(external auditory canal)、耳甲腔(cavum conchae)，以及3 次独立重复的操作，每次分割间隔时间为1个月，重复方式为同1 名专家重复分割3 次，并将结果均以NIFTI 格式存储。

1.3 基于深度学习的耳软骨分割

针对耳软骨结构的复杂性，基于3D U-Net 网络构架提出改进以实现完整耳软骨结构的高质量分割。一般的3D U-Net 架构由编码层和解码层构成，一共包含三级下采样和三级上采样，在每个层级都有两个3×3×3 卷积操作和1 个ReLU 操作，并在编码层和解码层同级之间使用了跳跃连接，用来合成高分辨率的特征图。本研究提出的改进点包增加网络深度，引入残差模块，使用卷积替代池化进行下采样，增加多尺度融合输出，改用权重损失函数，以及后处理优化，使分割精度得到提升。

改进模型的架构如图1所示，首先，与3D U-Net不同的是增加一级网络深度，从而增加模型的非线性表达能力，以便学习耳软骨复杂的结构特征。其次，参照文献[19]的设计，在编码层的每一级相应的增加残差结构[23]。如图1中灰色箭头及加号所示，残差结构中的“跳跃连接”可以跳过一次或多次卷积执行恒等映射，该方式可以避免因网络加深导致的梯度消失等问题，使网络更好地优化。具体的残差结构如图2所示，它由两个核大小为3×3×3 的卷积层和一个随机失活层(dropout)构成。其中，卷积操作前后特征图数量保持一致，卷积层的激活函数选用LeakyReLU，能让输入小于0 的部分的值为负且具有微小的梯度，这使得在反向传播过程中，对于输入小于0 的部分，也可以计算得到梯度(而不是像ReLU 一样值为0)，避免梯度方向的锯齿问题。为了加快网络收敛，卷积层中还加入归一化(instance normalization，IN)的处理。引入的随机失活层(失活概率设置为0.6)，可以使部分神经元在训练中失活，避免参数过拟合，从而提高网络的泛化性能。然后，如图1中棕色箭头所示，在编码层每级之间使用3×3×3 的卷积核对特征图进行卷积，步长大小设置为2，卷积后特征图数量翻倍，达到池化的效果，也可以在训练网络时保证性能的情况下占用更小的GPU 内存。此外，如图1中黑色虚线箭头所示，跳跃连接的保留能够将同级的编码层特征图和解码层特征图进行拼接，使底层特征与高层特征进行融合，让网络保留更多高层特征图和细节信息。在最终输出时，融合多个解码层特征图的多尺度信息，提高图像分割的精度，如图1中浅绿色部分所示，将解码层第2 级和第3 级中间特征图经过核为1×1×1 的卷积操作和上采样，此时特征图尺寸与解码层最后一级的输出保持一致，输出特征图数量为13 即需要分割的13 类(12 个结构与背景)，并将这3 层解码层信息融合作为输出结果。

图1 网络结构Fig.1 The network architecture

图2 残差结构Fig.2 The structural diagram of residual block

为了解决耳软骨形态复杂以及子结构间形态差异大的问题，对图像多个结构分割设计了加权Dice 损失函数，即

式中，C为类别数，αi为对应类别设置的权重，pi为真实值，qi为预测概率。通过设置超参数αi可以调整网络模型分割时平衡的关注每一个结构，提高分割结果。

相邻的体素共享大量的空间上下文信息，网络产生的分割结果应该是连续平滑的实体。然而，在训练中的局部极小值和输入图像中的噪声会导致一些虚假输出，在预测中存在很小的孤立区域、孔洞或不连续的地方，尤其是耳软骨的结构与结构之间会存在这些问题。为了强化耳软骨多个结构间的关系，使用三维全连接条件随机场(3D fully connected dense conditional random fields，3D DenseCRF)作为后处理[24]，提高结构化的预测。

1.4 训练和测试

在改进的网络训练中，将40 例数据采用8∶1∶1的比例划分为32 例训练集、4 例验证集和4 例测试集，由于40 例数据均有对应的手动分割结果，因此使用十折交叉验证的方式验证模型的性能。优化函数采用自适应矩估计(adaptive moment estimation，Adam)，可以对学习率进行自适应约束，加速神经网络的参数收敛。初始学习率LR 设为0.001，最大迭代次数设为150。本研究在基于Python 3.6 的PyTorch 框架下进行神经网络的搭建，实验环境为1 块存储空间为11 GB 的NVIDIA GTX1080Ti GPU。

1.5 评估指标

对神经网络的性能评估，使用两个指标，其中一个为Dice 相似度系数(dice similarity coefficient，DSC)

另外一个为95% Hausdorff 表面距离(95%Hausdorff surface distance，HD95)

对于每个耳软骨解剖结构，S是分割图像中该结构的点集合，R是标准标注图中该结构的点集合，∂S和∂R分别是对应的边缘点集合。其中表示某点集合V中点的数量，dm(v，V) 表示点v和点集V中所有点的最小欧几里德距离(Euclidean distance)，inf5%v∈V(dm) 表示点集V内最大前5%的dm值的下确界。DSC 指标越大表明比较的两者重合度越高，HD95 指标越小表明边缘相似度越高。本研究以测试集图像上各评价指标的平均值和标准差作为评判各神经网络性能的依据。

2 结果

2.1 数据预处理结果

图3分别从不同层面展示了耳软骨的UTE 图像、耳软骨、解剖结构手动分割的结果。对12 个结构的体积、表面积和厚度进行了计算测量并对3 次重复的结果进行了方差分析(P>0.05)，结果表明耳软骨12 个结构的3 次重复手动分割在形态学指标上均无显著性差异。另外，对3 次重复手动分割解剖结构两两之间计算DSC 值，结果显示耳软骨重要的支撑性结构，如耳轮、对耳轮，组间DSC 值达到了93%，所有解剖结构的组间平均DSC 达到了88%。这些结果显示3 次重复手动解剖结构分割具有高度一致性，表明手动分割策略制定科学且可以重复。图4中展示了各个结构在耳软骨中的占比情况。同时，对训练集和验证集共36 例数据的体积、表面积和厚度进行了组内的方差分析(P>0.05)，结果表明个体数据间无显著性差异。

图3 耳软骨UTE 图像与手动分割结果(每行从左到右依次为横断面、矢状面、冠状面和三维重建展示)。(a)耳软骨的UTE 图像；(b)UTE 图像中描绘的耳软骨轮廓和三维重建结果；(c)UTE 图像中描绘的耳软骨解剖结构轮廓和三维重建结果Fig.3 The multiple views of UTE image and the manual segmentation results of auricular cartilage(From left to right in each line，there are axial，sagittal，coronal view，and their three-dimensional reconstructions).(a) The view of UTE image of auricular cartilage；(b) Pure auricular cartilage delineated in UTE image and its three-dimensional reconstruction；(c) Anatomical structures of auricular cartilage delineated in UTE image and their threedimensional reconstructions

图4 耳软骨解剖结构手动分割结果各结构占比Fig.4 The proportion of each anatomical structure of auricular cartilage in the manual segmentation results

2.2 网络分割结果

表1分别展示了3D U-Net 模型、改进模型、及其增加3D denseCRF 后处理的耳软骨12 个解剖结构的DSC 和HD95。该指标计算均为测试集网络预测输出与金标准(手动分割结果)的比较结果。可以看出，基础的3D U-Net 在12 个结构中平均DSC指标是0.758，平均HD95 指标为5.103。改进的模型在12 个结构中平均DSC 指标是0.807，平均HD95 指标为2.158，两项指标的方差也均有下降。增加3D denseCRF 后，平均DSC 指标是0.818，平均HD95 指标为1.917。

表1 基于深度学习的自动分割结果(平均值±标准差)Tab.1 The deep learning-based automatic segmentation results (mean±standard deviation)

表2则进一步展示了使用改进模型和优化后处理后，每个耳软骨解剖子结构分割结果以及相对应手动分割结果的体积、表面积和厚度，也展示了DSC和HD95，该指标计算同样为网络预测输出结果与金标准(手动分割结果)的比较结果。从解剖测量结果来看，自动分割结果的12 个结构的体积、表面积和厚度与手动分割结果数值接近，平均数值差异为8.7%。从指标结果来看，重要的支撑结构，耳轮和对耳轮的平均DSC 指标值可以达到0.907 和0.901，而对于较小的结构比如对耳轮脚、三角窝和耳轮脚，平均DSC 指标值对应为0.763、0.768 和0.723，其他结构的平均DSC 指标可以达到0.823。平均HD95 的指标值显示除了对耳轮脚、耳屏间切迹和耳甲腔的平均HD95 较高外，其他结构的平均HD95 指标结果较低。

表2 基于改进网络(及后处理)的多解剖结构分割结果与手动分割结果比较(平均值±标准差)Tab.2 The comparison between the proposed network(and CRF)and manual segmentation results of multiple anatomical structures(mean±standard deviation)

另外，改进模型的结果与手动分割结果在体积、表面积和厚度t检验中显示对耳轮、对耳轮脚、三角窝、耳轮、耳轮脚、耳甲艇、耳舟、耳屏、对耳屏、耳屏间切迹这些结构的结果无显著性差异(P>0.05)，但是在耳甲腔的厚度和外耳道的体积和表面积有一定差异性。

图5中给出了本研究模型的预测结果与金标准的三维重建对比。在对照图中可以看出模型可以对12 个结构都有准确的分割结果，结构清晰，没有多余的碎块和破洞，结构之间没有明显的不连续孔洞，连接紧密。但是，从精细的结构形态可以看出，模型分割结果的结构边缘不够平滑，部分边缘存在锯齿状。图6显示了对耳轮(包括对耳轮脚)和耳轮两个支柱性结构的局部放大对比图。图中可以看出，模型的分割结果和手动分割结果在解剖形状上非常接近。

图5 多解剖结构分割结果比较(每行左为基于深度学习的自动分割，右为手动标签)。(a)耳正面；(b)耳背面Fig.5 Results of multiple anatomical structure segmentation (In each line，the left is deep learningbased automatic segmentation and the right is by manual labeling).(a) The front of ear；(b) The back of ear

图6 对耳轮和耳轮的分割结果(每行左为基于深度学习的自动分割，右为手动标签)。(a)对耳轮；(b)耳轮Fig.6 Results of the segmentation for antihelix and helix (In each line，the left is deep learning-based automatic segmentation and the right is by manual labeling).(a) Antihelix；(b) Helix

3 讨论

基于3D U-Net，本研究针对UTE 图像的人体耳软骨解剖结构分割，提出改进的网络构架。基础3D U-Net 训练时GPU 显存占用约为9.8 GB，使用改进模型训练时占用约为9.5 GB，基础3D U-Net 预测时占用约为6.3 GB，使用改进模型预测时占用约为5.9 GB。实现了降低了训练和预测时GPU 的存储空间载荷。在参数上，基础3D U-Net 模型的参数412 万，而改进模型将参数量减少到了178 万，实现在网络中整幅图像的输入输出并取得了较好结果。

从表1中的实验结果来看，改进模型比3D UNet 基础模型平均DSC 指标值提高了4.9%，HD95平均指标值降低了2.945，整体评价显著提高(P<0.01)，说明改进模型分割的耳解剖结构和真实的结构在形态上具有很高的相似度。增加三维全连接条件随机场处理步骤之后，平均DSC 指标进一步提高1.1%，平均HD95 下降0.241，说明三维全连接条件随机场可以根据图像获取更多的边缘细节，可以进一步提高分割结果的准确性。从表2和图6的结果来看，临床上所关注的重点结构——耳轮和对耳轮的平均DSC 指标可以达到0.907 和0.901，表明在重要结构的分割结果与金标准非常接近。然而，对耳轮脚、三角窝和耳轮脚的指标值并不是很高，可能的原因是这些结构的体积相对较小，但边缘复杂，在模型关注度不高的情况下难以保证与手动分割有较高一致性。耳屏和耳屏间切迹结构虽然体积占比也相对较低，但是在图像中解剖特点明显，模型分割难度不高，指标值结果比其他小体积结构高。对于耳轮脚、耳屏间切迹和耳甲腔获得较高的平均HD95 指标值，这可能由于耳轮脚和耳屏间切迹两个结构体积较小，边界的定义不明显，特别是耳甲腔与多个结构相邻，不利于识别和标注，一定程度上造成人工和机器识别的出入。从模型的结果与手动分割结果在12 个结构的体积、表面积和厚度的的统计分析结果来看，只有耳甲腔的厚度和外耳道的体积和表面积有一定差异性，说明在多数结构的解剖测量中模型分割结果与手动分割结果有较高一致性，其中差异性的造成可能是由于耳甲腔与外耳道结构相连且边界复杂，造成模型的分割结果难以达到手工分割的精准程度。整体来看，提出的改进模型，通过多个优化点提高了平均分割精度，分割结果比较精准，但是在较小结构和个体间差异很大的结构的分割结果未能达到理想水平。

尽管数据运用了对位裁剪的预处理，但耳软骨区域和背景之间，以及不同大小的结构之间仍然存在严重的类间不平衡问题，导致小结构的分割效果不够理想。为了尽可能的减少类间不平衡，使用耳软骨标签作为蒙版提取UTE 图像中耳软骨区域，可以进一步减少脑骨、皮肤等背景因素的影响。但是通过UTE 图像可以看出，耳廓是一个比较特殊的器官，整体表现为漏斗形结构，在图像每一层中有结构区域的占比很低，仍然存在较多的背景。经统计，裁剪后背景仍然占到了整个图像体素点的95%，一些较小结构如三角窝和耳轮脚的占比还不到0.2%，图4也显示出结构之间的体积占比差异也非常明显。为了解决此类的问题，本研究对Dice 损失函数进行改进，针对每一个结构在图像中的占比赋予了不同权重，即给予背景非常小的权重以减少背景的影响，而给予小结构较大的权重使模型能够更专注于分割小的结构，有效的提高分割结果。

在临床应用上，耳软骨解剖结构的图像自动分割结果能够有效辅助耳软骨再造手术、3D 生物打印(或耳软骨组织工程)和术后评估。首先，解剖结构分割结果可以作为特异性或个性化的健侧参考模板，它比之前临床使用的通用模板更立体更充分的显示个体的解剖结构。特别的，操作者可以使用分割结果对具体的解剖结构进行拼接合成适合患者肋软骨雕刻的支架模型，辅助医生更好的完成对每个患者的个性化支架的雕刻过程。然后，分割结果经过格式转换后可以提供可打印的模型，各个结构可以根据实际需要自由的调整尺寸或拼接来搭建支架，并且可以用于后续相关的力学、材料等研究。最后，针对耳软骨支架植入术后进行无创检测和评价[25]，对采集到的UTE 组合图像可以通过本研究提出的方法，提取已植入耳软骨支架的分割结果，辅助医生观察和判断支架的整体以及各个结构的形态学变化，计算出相关的几何指标结果，方便医生对术后各个时间段的情况进行评估，及时的进行修复或者调整。

本研究存在一些局限性，首先是使用的训练集数据量相对较少。实验中使用了40 例数据，训练数据仅为32 例，这会影响模型的精度也会容易导致过拟合。进一步增加数据量可以有效提高模型的鲁棒性和泛化性，但由于是全监督训练，增加训练数据的同时也意味着需要对应的分割标签，除了数据采集之外手动分割也是一项繁杂的工作。在后续的研究中需要探索自动生成网络可用标签的方法，权衡增加数据量所带来的人工标注问题。其次，虽然通过预处理和改进损失函数可以一定程度改善类间不平衡，提高小结构的分割精度，但最终小结构的指标还是难以达到如对耳轮和耳轮的水平。在未来的工作中，网络优化方面考虑增加注意力机制等模块来提高网络的性能，也会尝试使用Transformer 新框架[26]验证耳软骨的分割性能。

4 结论

在小耳畸形的整形外科手术中，为患者构建高质量耳软骨支架一直是临床研究的重点。本研究将UTE 序列应用于耳软骨数据采集，以此对数据进行耳软骨及解剖结构实施手动标注，并基于3D UNet 提出改进模型实现MRI 图像人体耳软骨的解剖结构自动分割。研究结果显示，改进的3D U-Net 网络模型在招募的数据集上有很好的适用性，可以准确的分割出耳软骨及其12 个子结构，有望优化临床自体肋软骨雕刻方案、为耳软骨组织工程或者3D生物打印提供可打印模型以及完善支架植入术后无创评估方法。

(致谢:感谢中国医学科学院整形外科医院蒋海越教授、刘霞副教授，博士研究生杨国珺、王迪，以及清华大学生物医学工程学院生物医学影像研究中心负责人李睿与影像技术顾问何乐、朱艳东)