基于改进U-Net 网络的肺部CT 图像分割算法研究

2023-08-24 06:48卢小燕袁文昊
智能计算机与应用 2023年7期
关键词:全局残差注意力

卢小燕, 袁文昊, 徐 杨

(贵州大学大数据与信息工程学院, 贵阳 550025)

0 引 言

目前,在肺部疾病的临床实践中,CT 作为一种低成本、准确、高效的诊断工具,可以帮助医生诊断病灶区域[1-2]。 医生可通过检视CT 图像,判断患者是否具有肺炎的显著特征,包括磨玻璃影、肺纤维化和胸腔积液等。 然而,随着现代工作节奏的加快,人工筛查病灶区域成为了一种繁琐和费时的工作。 为了加速诊断以及提高患者的治愈率,建立快速自动分割肺炎感染区域的辅助系统对疾病的评估至关重要。

近年来, 许多基于深度学习的人工智能(artificial intelligence, AI)系统已经被提出,并且取得了令人满意的效果。 与传统的图像筛查严重依赖人力相比,人工智能能够提供更安全、准确、高效的成像解决方案。 人工智能在肺炎诊治中的应用主要包括专用医学成像平台、肺部感染区域分割、临床评估和诊断、以及临床研究。 分割作为预测疾病进化的重要步骤,可以在CT 图像中标记目标区域,从而进一步评估和量化。 针对多站点数据差异大的问题,周子棋等学者[3]提出了一种基于U-Net 的深度卷积网络,通过重采样体素间距和ROI 提取,并且运用了深监督和集成分割来提升网络性能。 Wu 等学者[4]开发了一种新型的联合分类和分割系统, 用来完成新冠肺炎肺部CT 的实时和解释诊断。 Fan等学者[5]提出了边缘注意模块和反向注意模块来增强病灶区域表示;为了缓解数据短缺问题,同时设计了基于随机选择传输的半监督框架。

然而,目前现有的CT 影像病灶分割网络仍然具有分割准确度不够高、病灶边缘不清晰以及误分割区域明显等问题。 并且由于肺部CT 影像组织纹理复杂以及与附近器官之间的对比度较低,完成肺部病灶分割任务异常艰巨。 为此,本文基于U-Net提出了一种注意力特征融合网络(LG-Net),用于肺部CT 图像中的肺炎感染区域分割。 提高在具有复杂纹理的CT 影像下的病灶分割准确度。 本文主要贡献有以下3 点:

(1)在编码器中,设计了一种多级连接的残差卷积结构。 多分支残差连接的方式显著提高了网络在下采样期间的特征重用频率,增强网络对病灶区域的特征提取性能。

(2)在跳层连接中,设计了一种有效的局部与全局注意力机制。 在多尺度的感知范围内,计算像素位置相关性,扩大同类像素的激活区域。 同时,由跳层连接将此局部与全局融合的像素位置注意力信息传输到解码器中,有效修正上采样时的特征像素值偏差,提高病灶区域的分割精度。

(3)在解码器中,设计了一种新颖的特征融合模块。 该模块可进一步强化局部与全局注意力机制与各级上采样输出的特征像素值,优化特征融合效果。

1 相关基础知识

1.1 U-Net 基础模型

Ronneberger 等学者[6]于2015 年提出了经典的医学图像分割算法U-Net 网络模型。 其整体网络结构呈现“U”型,左侧是编码器,进行下采样,完成图像特征提取;右边是解码器,进行上采样,完成图像尺寸恢复。 其中,U-Net 的编码器和解码器通过跳跃连接将同层次的特征图进行融合,从而提高细节轮廓信息的定位精度。 U-Net 网络结构如图1 所示。

图1 U-Net 网络结构Fig. 1 U-Net network structure

1.2 基本残差单元

一般情况下,随着神经网络深度的增加,提取到的不同层次信息会越多,但是达到某个程度后会出现饱和状态,随着深度加深,网络性能却在退化。 在2016 年,He 等学者[7]提出了深度残差的卷积神经网络结构,很好地改善了深度神经网络难以训练的问题,比如:梯度消失、梯度爆炸的问题。

不同于卷积神经网络,残差网络的特殊之处在于多了一个残差单元,具体结构如图2 所示。 输入特征X1,经过3× 3 卷积层、批归一化处理(BN) 和ReLU激活函数后,得到残差项X2,然后与残差分支合并得到残差结果X。 针对残差网络,关键是残差项X2,当残差项为0 时,相当于恒等映射;当其不为0 时,相当于一个卷积神经网络,有效防止了网络产生特征退化的现象,获得更优的性能。 残差项X2和残差结果X可由如下公式进行计算:

图2 基本残差单元Fig. 2 Basic residual unit

其中,f(·) 表示3×3 卷积操作。

1.3 像素关联度计算

图像分割是一项基本的计算机视觉任务,目的是对原始图像进行像素级分类。 为了更好利用像素的上下文信息,加强像素关联度,Wang 等学者[8]提出了像素关联模块(Pixel Correlation Module,PCM)。 和传统的自注意力机制相比,PCM 去掉了残差连接。 其结构是自注意力机制的核心部分,经过一定程度的修正,并且通过正则化的监督训练,使用余弦距离来评估像素间的特征相似度,数学计算公式见如下:

其中,f(·) 可计算像素位置相关性,使用像素间的余弦距离表示。

此外,对于像素间的位置相关性,使用归一化特征空间的内积来计算, 在式(3)上积分并加以修改,从而得到:

其中,ReLU激活函数有效抑制负值激活相关性;表示输入xj对应的位置信息;θ(·) 可通过1×1 卷积实现。

2 本文研究成果

2.1 改进的U-Net 模型

本文在U-Net 模型的基础上构建了自动分割肺部病灶区域的LG-Net 模型,其整体架构如图3所示。 该模型保留了U-Net 模型的编码-解码结构,具体保留了4 次下采样和4 次上采样操作以及4 条跳层连接支路。 与U-Net 模型不同的是,在各级下采样尾部,LG-Net 增加了提出的多级残差卷积结构,提高特征提取性能;在各跳层连接支路中,LG-Net 嵌入了一种局部与全局的注意力机制,通过局部与全局的像素位置相关性计算扩大特征感知区域;在各级上采样中,传统的U-Net 模型只是将浅层的特征与上采样特征按通道维度进行拼接,这样并不能很好地融合语义特征,从而达到紧耦合的程度。 LG-Net 利用所提出的特征融合模块首先增强跳层连接支路和上采样的输出特征像素显著性,再进行特征融合,提高低级语义和高级语义特征的融合质量。

图3 LG-Net 模型的架构图Fig. 3 The architecture of the LG-Net model

从具体的图像处理流程来说,首先将CT 影像切片输入到编码器中逐级提取肺炎病灶特征;同时,各级跳层连接支路中的局部与全局注意力机制计算像素位置相关性,扩大图像特征感知区域;再将编码器和跳层连接的特征信息输入到解码器中,经过线性插值和特征融合操作将特征图逐级恢复到原始输入图像尺寸;最后,利用Sigmoid激活函数计算像素分类得分,得到语义级病灶区域像素分类。

2.2 多级残差卷积

为了将残差结构的优势应用到传统的U-Net模型中,本文对基本残差单元做了相应的改进,所提出的多级残差卷积如图4 所示。 多级残差卷积设计了3 组基本残差结构,逐级进行特征提取。 同时,该模块将各级残差单元的结果作为输出,并在模块的末尾进行融合。 由此强化残差结构的作用,提高网络的特征提取性能。 不同于基本残差单元,多级残差卷积的主干以卷积、批归一化、ReLU激活函数(CONV+BN+ReLU)作为一个处理单元;残差分支增加了卷积和批归一化处理(CONV+BN)。 批归一化和ReLU激活函数的加入使得网络利于训练,并加快收敛速度。

图4 多级残差卷积Fig. 4 Multi-level residual convolution

2.3 局部与全局注意力融合模块

注意力机制可以使得卷积神经网络自适应地关注到图像中重要的区域,有效提高网络的分割性能。而U-Net 模型的跳层连接旨在通过拼接将浅层特征的位置信息与深层的语义信息相融合。 鉴于此,本文将注意力机制与U-Net 模型的跳层连接相结合,捕获来自浅层特征的位置区域,增强其特征属性。

受到PCM 模块的启发,本文设计了一种局部与全局的注意力融合模块(Local and Global Attention Fusion module,LG-Attention)处理不同感知范围内的像素位置相关性,进一步细化病变区域,如图5 所示。

图5 局部与全局注意力融合模块Fig. 5 Local and global attention fusion module

基于等分的思想,LG-Attention 将通道数、长和宽分别为C1、H、W的全局特征图F均分为4 组通道数、长和宽分别为的局部特征子图f1、f2、f3、f4。 对于每一个局部特征子图,首先整形为与的一维形式,再使用PCM 模块进行上述的像素相似性计算得到尺寸为的局部注意力图同时,全局特征图也进行同样的像素相似性计算得到全局注意力图F∗。 然后,将所有局部注意力图按原始位置拼接并调整尺寸与f∗一致,再与F∗进行像素加权聚合得到融合了局部与全局注意力的特征图。 最后,将得到的注意力特征图与原始输入特征图按元素相乘以达到增强特征区域的效果。 整体计算过程可用如下公式进行描述:

其中,Split(·) 将输入特征图均分为4 组局部特征图;PCM(·) 表示像素相似性计算;Cat(·) 与Reshape(·) 是局部注意力图拼接与整形的过程;PWA(·) 表示像素加权聚合。

由于局部注意力与全局注意力的像素相关性计算范围不同,所以关注到的特征区域也就不同。 如何将计算出的局部注意力值与全局注意力值进行有效地融合,本文提出了一种像素加权聚合的方法。具体而言,在特征图的同一位置局部注意力与全局注意力所计算得到的值并非一致,若直接按照对应元素相加会造成错误计算的非特征像素值更加显著的结果。 而像素加权聚合的方法可按照局部与全局注意力计算得到的结果按比例对特征图的对应像素值加权相乘再聚合,达到能够自主突显特征区域而抑制非特征区域的效果。 相应数学公式具体如下:

其中,i是像素索引,xi、yi分别表示局部与全局的注意力特征值。

2.4 特征融合模块

在传统的U-Net 模型中,来自跳层连接的浅层特征与上采样特征直接按照通道维度进行拼接,这使得后面的网络层能够在浅层特征与深层特征之间自由选取,有利于完成语义分割任务。 然而,这种简单的拼接方式只保证了特征信息无障碍传递,并不是最好的选择。

为此,本文设计了一种特征融合模块(Feature Fusion module, FF),具体结构如图6 所示。 图6中,L1、L2分支是该模块的关键部分,浅层特征与深层特征按通道维度拼接后分别输入到L1、L2分支中进行特征强化。 在L1、L2分支中,首先使用1×1 卷积降低特征图的通道数;再使用批归一化和ReLU激活函数调整元素值大小;然后分别使用3×3 卷积和5×5 卷积在不同感受野下捕捉多尺度的像素特征;最后,采用与SE 模块[9]相似的通道特征提取模块RSE 提高特征区域的显著性。L1、L2分支的输出结果可视为浅层特征与深层特征的权重特征图。 浅层特征与深层特征进行加权融合后再按照通道维度进行拼接,在进行特征传递的同时有效地增强了特征表现力。

图6 特征融合模块Fig. 6 Feature fusion module

特征融合模块中的RSE block 结构如图7 所示。 首先使用1×1 卷积层改变通道维度,接着通过3×3 卷积层获取通道数、长和宽为C、H、W的特征图。 其中,3×3 卷积层后使用Drop out和批归一化处理。 为了得到全局特征权重,使用全局平均池化操作Fsq,得到维度为1× 1×C的特征映射z,即:

图7 RSE 模块Fig. 7 RSE block

然后,通过2 个全连接层捕获通道依赖关系。为了进一步降低模型的参数复杂度,第一个全连接层以1 ∶6 的比例降低通道维度,经过激活函数Fex后,第二个全连接层将通道恢复到原始维度,各个通道学习到的激活值可以表示为:

全局平均池化和全连接层重新调整特征图中各通道的权重,增强病灶区域相关像素的权重,并抑制噪声权重。 残差块的引入是为了防止梯度加深时,出现模型无法收敛的问题。 RSE block 可以在稍微增加模型复杂度和运算量的同时显著提高特征融合质量。 RSE block 的函数表达式为:

其中,x是输入,y是输出。

2.5 损失函数

在图像分割领域,广泛采用交叉熵损失函数为主函数。 为了解决CT 图像类别不平衡以及难分类样本的问题, 本文通过结合Dice Loss函数和Focal Loss函数来训练LG-Net 模型。

(1)Dice Loss函数。 定义见下式:

(2)Focal Loss函数。 定义见下式:

因此,推得的最终的损失函数的公式为:

其中,c设为某个特定类;TPp(c),FNp(c),FPp(c) 为对应的的真阳性率、假阴性率、假阳性率;pn(c) 指像素n为c类时的概率;gn(c) 指像素n为c类的真实情况;C为总类数;N为像素数量总和;α和β分别为假阴性和假阳性的惩罚权重,均设置为0.5;γ与1-γ为Dice Loss和Focal Loss的权重,γ设置为0.3。

3 实验设置与评价指标

3.1 实验设置

本次实验所用数据集由 COVID - 19 CT segmentation dataset 和COVID-19 CT Segmentation dataset nr. 2 共同组成,总共有6 804 张切片。COVID-19 CT Segmentation dataset 由意大利医学和介入放射学会收集的20 名COVID-19 患者的100张轴向CT 图像组成。 COVID-19 CT Segmentation dataset nr. 2 由Radiopaedia 机构提供。

本实验基于Nvidia RTX3080TI GPU, 网络基于Ubuntu20.04 系统的Pytorch 深度学习框架,编程语言为Python。 网络使用Adam 优化器训练,将数据集的批尺寸设置为4,图片尺寸设置为512×512,初始学习率为0.01,执行120 次迭代。

3.2 实验评价指标

为了评估本文所提模型的分割效果,采用图像分割中常用的准确度(Accuracy,ACC)、 平均交并比(Mean Intersection over Union,MIoU) 作为评价指标。

(1)ACC。 是被正确判断的像素占总像素数的比例,可由下式来求值:

(2)MIoU。 是2 个集合的交并比的平均值,可由下式来求值:

4 实验结果与分析

4.1 主流网络对比

为了评估本文算法的性能,做了3 种主流网络模型的对比实验,分别是:所提出的网络、SegNet 网络[9]、U2-Net 网络[10]。 结果见表1,加粗表示最好结果。 通过数据分析可知,本文所提出的LG-Net在数据集上相较于SegNet 网络准确度提高了16%,平均交并比提升了17%;相较于U2-Net 网络准确度提高了12%,平均交并比提升了4%。 结果证实了本文所提网络的有效性。

表1 不同网络的病灶分割结果Tab. 1 Lesion segmentation effect of different networks

图8 展示了各模型在实际训练中的准确度变化。 可以看出,本文算法相较于SegNet 和U2-Net都有明显的提升。 在训练初期相较于其他网络LGNet 更加稳定。 本文提出的多级残差卷积、注意力模块和特征融合模块在特征提取以及信息融合方面获得了良好的进展。 由此得出,本文模型性能优于SegNet 网络和U2-Net 网络。

图8 不同模型下的准确度Fig. 8 Accuracy under different models

图9 是5 张不同CT 图像分割结果的可视化图。从图9 中可以看出,SegNet 网络和U2-Net 网络在一些复杂CT 影像切片中分割不够准确。 而本文所提出的LG-Net 相比于其他对比网络,病灶区域分割更加完整,边缘轮廓更加清晰。 LG-Net 的分割结果最接近于专家金标准,对肺炎感染区域的分割能力相较于其他网络有较强的竞争力。

图9 部分分割结果可视化Fig. 9 Visualization of segmentation results

4.2 消融实验

为清晰地说明本文提出的多级残差卷积、局部与全局注意力融合模块和特征融合模块的贡献大小,本节进行了消融实验,结果见表2,加粗表示最好结果。 以原始的U-Net 为基准,在加入本文提出的3 种模块之后,各算法性能指标均有不同的提升。其中,加入局部与全局注意力模块后的提升最为明显。 准确度与平均交并比的提升比例分别为18.5%和9%。 本文提出的LG-Net 在分割上的准确度和平均交并比可达到91.5%和80.3%,相较于U-Net分别提升了17.6 和15%。 综上所述,在肺炎感染区域分割任务上,LG-Net 分割精度更高,更具有优势。

表2 消融实验结果Tab. 2 Ablation studies of the proposed method

为直观地了解各模块的作用,本文选取了部分分割测试图进行对比,如图10 所示,黄色框表示分割不准确的区域。 图10(a)表示在U-Net 的基础上加入多级残差卷积后的分割结果对比。 得益于多级残差卷积使得网络的特征提取能力增强,在纹理较为复杂的CT 影像中,病灶分割区域明显更为完整,更加接近于专家金标准。 从图10(b)中可看出,在跳层连接中嵌入局部与全局注意力模块后,病灶区域中的局部微小非感染区域分割更为准确。 由于像素位置相关性的计算,很好地修正了病灶特征像素值,减少了像素误分类情况。 最后,加入特征融合模块的分割结果对比如图10(c)所示。 可以看出,病灶区域的边缘细节特征分割更为明显。 特征融合模块在上采样过程中增强了病灶特征的表现力。

图10 分割效果的可视化Fig. 10 Visualization of segmentation effect

5 结束语

基于深度学习的医学图像分割在计算机辅助诊断中具有极其重大的意义。 本文提出了一种针对肺炎病灶区域的分割模型,首先,基于多级残差卷积结构和局部与全局注意力融合模块,能够有效提高特征提取性能,提高局部细节特征的表现力。 其次,在解码分支引入了特征融合模块,实现特征增强,减少像素误分类情况。 实验结果表明,提出的模型优于其他医学图像分割模型,能够得到更精确的分割结果。 在未来工作中,将对网络进行多方面的优化,将2D 与3D 结合,并应用于其他2D 医学影像分割任务中。

猜你喜欢
全局残差注意力
Cahn-Hilliard-Brinkman系统的全局吸引子
基于双向GRU与残差拟合的车辆跟驰建模
量子Navier-Stokes方程弱解的全局存在性
让注意力“飞”回来
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
落子山东,意在全局
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
平稳自相关过程的残差累积和控制图