平衡多尺度注意力网络的视网膜血管分割算法

2023-02-21 12:53梁礼明周珑颂冯新刚
计算机工程与设计 2023年2期
关键词:尺度视网膜卷积

梁礼明,余 洁,陈 鑫,周珑颂,冯新刚

(1.江西理工大学 电气工程与自动化学院,江西 赣州 341000; 2.江西理工大学 应用科学学院 机电工程系,江西 赣州 341000)

0 引 言

近些年,随着计算机视觉技术的发展,许多自动提取视网膜血管的算法被提出。这些算法主要被分为两类:传统图像处理[1-5]和深度学习处理[6,7]。朱承璋等[8]采用随机森林算法分割视网膜血管;蔡轶珩等[9]采用高斯匹配滤波、形态学底帽变换和支持向量机等算法进行血管分割;Wu等[10]将残差块引入编码-解码结构以分割血管;Ronneberger等[11]设计U-Net网络进行分割,提升精度。上述方法虽能有效地分割视网膜图像中的血管,但分割结果普遍存在细小血管分割不足,未能区分病灶区域。为此本文提出平衡多尺度注意力网络的视网膜血管分割算法,主要工作为:①设计多尺度特征提取模块进行编码,提升网络捕获多尺度目标信息的能力和精细血管分割质量;②引入细节增强模块,对编码层输出执行全局池化操作,并计算注意力向量来校准特征信息的权重,提高网络对血管特征的敏感性;③在解码结构中使用校准残差模块替代普通卷积层,进一步学习血管细节特征,拟制噪声所带来的影响;④在解码器输出结构中引入平衡尺度注意力模块,将不同层级的特征信息融合,平衡语义和细节特征,使特征图中深层特征与浅层特征相互补充,增强血管注意力,提升分割性能。

1 网络结构

1.1 多尺度特征提取模块

由于视网膜图像中血管大小不一,仅使用普通卷积进行编码将无法获取输入特征图的多尺度特征信息,这对细小血管分割是不利的。常见的多尺度特征融合网络结构有:并行多分支结构、串行跳跃连接结构。并行多分支结构能获取当前层不同感受野下的特征信息将其融合后传递给下一层,串行跳跃连接结构能将不同层的特征信息进行融合传递给下一层,其原理都是提取不同感受野下的特征信息进行融合。Inception模型[12]通过并行不同大小的卷积核进行多尺度特征提取,但在有效提取多尺度特征的同时未考虑特征通道之间的相互依赖关系。

为了解决这个问题,本文设计如图1所示的多尺度特征提取模块(multi-scale feature extraction module,MFEM)对输入图像进行编码,获取语义与上下文信息。MFEM拼接3个具有不同扩张率的空洞卷积、一个1×1卷积层和一个特征重标定层的特征图完成特征融合。其中,通过3个不同扩张率的空洞卷积获取多尺度特征信息,并在保持良好性能的同时降低参数数量。1×1卷积层用于保留当前尺度特征信息,而特征重标定层旨在明确建立特征与通道之间的关系,通过自我学习获取图像的全局特征信息和各个通道的重要性。特征重标定层首先对输入特征图X进行全局平均池化将W×H×C的张量转化为1×1×C的张量F

图1 多尺度特征提取模块

(1)

其中,X表示输入特征图,像素点xi,j∈X, G(·) 表示全局平均池化运算。

然后经过两个1×1卷积层将其转化为F′,再经过Sigmoid函数将其权重重新标定得到F″

(2)

其中, C(·) 为两层卷积运算, S(·) 为Sigmoid激活函数运算,像素点f′∈F′。

最后将输入特征图X与F′相乘得得到输出Y

(3)

1.2 细节增强模块

跳跃连接将上采样输出与对应编码器特征图进行拼接,修复下采样操作损失的细节信息,但这也导致一些噪声的叠加。本文在跳跃连接处引入细节增强模块(detail enhancement module,DEM),利用细节增强模块提高网络对特征信息的敏感度,同时在编码器输出中拟制无用信息,提取有效特征信息与解码器特征融合以消除上采样时一些细小血管与边缘信息无法恢复的情况。提出的细节增强模块如图2所示。首先对特征图X分别进行全局最大池化和平均池化得到输出X′和X″,全局最大池化的目的在于过滤掉较多无用信息,使目标特征更加鲜明,而全局平均池化是为了获取整体信息,防止高维信息丢失。其次将X′和X″分别进行两次1×1卷积操作后融合,再经过Sigmoid函数得到权重系数α;然后将权重系数α校准特征图X得到输出α×X,再将特征图α×X分别进行Channel Max与Channel Mean操作后融合,经过1×1卷积、Sigmoid函数得到通道系数β。最后将特征图X用通道系数β校准得到最终输出特征图Y。

图2 细节增强模块

1.3 平衡尺度注意力模块

通过编码—解码结构能获取视网膜图像不同尺寸的特征图,这些特征图分辨率越高包含细节信息越多,但其语义信息较低,噪声更多;分辨率越低语义越强,细节信息较低。基于局部特征图提取相关信息,将导致血管分割结果中存在血管断裂与伪影现象。因此,本文提出平衡尺度注意力模块(balanced scale attention module,BSAM),用于网络末端,将不同层级特征图结合起来进行最终预测,以平衡特征图中细节特征与上下文信息,自动获取每个像素的比例权重,校准不同比例上的特征信息,进而更好地分割不同尺度的血管。BSAM由平衡特征分支(balanced feature branch,BFB)和尺度注意力模块(scale attention module,SAM)构成。

平衡特征分支将解码器不同层级的特征图经过双线性插值上采样到原始图像大小,并用1×1卷积层将其压缩为通道数为4的特征图层,减少运算量后将这些特征图层拼接,使不同尺度特征图的深层特征与浅层特征相互融合,平衡血管细节特征,得到混合特征图F(大小为64×64×16),其结构如图3所示。再将混合特征图F输入尺度注意力模块,学习每个尺度图像的特征权重,校准不同尺度上的特征信息。尺度注意力模块工作原理如下:首先对混合特征图F进行全局平均池化(global average pooling,GAP)与全局最大池化(global max pooling,GMP)后用多层感知机(multi-layer perceptron,MLP)获取通道注意力系数α,并将其结果求和输入Sigmoid函数中获取每个通道的尺度注意力系数,尺度注意力系数向量表示为λ∈[0,1]1×1×C; 然后用尺度注意力系数向量λ校准F得到输出F′=F×λ, 再将F′经过3×3卷积层、ReLU、1×1卷积层和Sigmoid操作生成空间注意力系数μ∈[0,1]1×H×W。 因此λ×μ表示为按像素缩放注意力系数。平衡尺度注意力结构如图4所示,最终输出为

图3 平衡特征分支

图4 平衡尺度注意力模块

F″=F·λ·μ+F·λ+F

(4)

1.4 校准残差模块

在网络中合并更多编码器-解码器分支后会增加参数数量与训练难度,导致产生过拟合和退化现象。因此本文提出一个校准残差模块(calibration residual module,CRM)代替原始卷积层进行解码,其结构如图5所示。采用两个3×3卷积构成残差部分,进一步学习纹理与细节特征,有效拟制过拟合现象。正如前面所提到的,一些微小血管特征难以被提取,每个通道图的高级特征可以被视为一个类的特定响应,薄血管、厚血管和其它噪声可看作不同类别。因此在残差块后引入SE模块[13],利用特征通道之间的相互依赖关系,在提高血管类别特征通道权重的同时拟制其它类别特征通道的权重,使精细血管特征更易于提取。

图5 校准残差模块

1.5 平衡多尺度注意力网络

视网膜血管分割面临的主要是语义与位置之间内在张力问题,虽然全局信息可以缓解语义问题,但局部信息可以缓解位置问题,而将粗分割结果与细分割结果相结合能够使模型在不违背全局预测结果的情况下进行最大化局部预测,并最小化语义和位置之间的内在张力问题。因此,本文构建了如图6所示的平衡多尺度注意力网络(balanced multi-scale attention network,BMSA-Net)用于视网膜血管分割,其总体结构与标准U-Net相似,但其局部与U-Net存在差异:①在编码路径中使用MFEM模块代替普通卷积层,在不增加计算量的情况下扩大感受野,提取更丰富的多尺度特征信息;②在跳跃连接处嵌入细节增强层,细节增强层的使用可以获取必要的目标细节信息,并结合低层和高层的特征信息来精准重建分割边界的形状;③设计BSAM用于网络的末端,利用多层次信息互补优势,学习更具有区分度的特征信息,以实现精确的视网膜血管分割。

图6 平衡多尺度注意力网络

具体操作流程如下:首先将视网膜图像预处理后输入编码器,经过卷积层和四层MFEM与下采样操作,其对应输出特征通道数分别为64、64、128、256和512。在编码结束后将最后一层MFEM的输出特征图输入到空间金字塔池化模块(spatial pyramid pooling module,SPPM)进行多尺度特征融合,SPPM由4个并行的池化层构成,分别为1×1pool、2×2pool、3×3pool、6×6pool。然后对其进行上采样操作并与同层细节增强模块的输出特征图进行拼接后通过校准残差模块进行解码,反复操作直到输出特征图恢复到输入原始图像大小。最后将解码器各层特征图输入BSAM,平衡深层与浅层信息,自动学习每个尺度图像的特定权重,以校准不同尺度特征得到最终的分割结果。

2 实验结果与对比分析

2.1 数据集与预处理

本文在DRIVE公共数据集上进行实验。DRIVE数据集由40张彩色视网膜图像构成,每幅图像的分辨率为565×584,其中33张属于健康受试者,7张具有病理特征。官方已将其划分为各包含20幅图像的训练集和测试集,其中训练集中每幅图像配有一个专家手动分割结果,测试集中每幅图像配有两个专家手动分割结果。

尽管网络在原始视网膜图像上表现良好,但适当的图像预处理操作可以使图像特征更加明显,提升分割性能。本文所进行的预处理操作如下:首先提取彩色眼底图像中的绿色通道作为输入,这是因为绿色通道中血管与背景有较高的对比度,血管特征最为明显;然后采用限制对比度的自适应直方图均衡化进一步提高血管和背景的对比度;再后利用伽马变换提升暗部细节;最后采用旋转和裁剪等数据扩充过程来提高训练性能。图7展示了原图像与预处理图像。

图7 图像预处理

2.2 实验设置

实验环境配置为Inter Core i7-6700H CPU,显卡为NVIDA Geforce GTX 2070,16 G内存,采用64位Win10操作系统。本文模型在Tensorflow2.0框架上进行实验,batch size设置为16,训练epoch设置为100,采用Cross-Entropy Loss作为损失函数,选择Adam算法进行优化,初始学习率设置为0.001。

2.3 评估指标

为了定量评估本文算法对视网膜血管的分割性能,本文采用灵敏度(Se)、特异性(Sp)、准确率(Acc)、F1分数(F1-score)、ROC曲线下AUC面积和PR曲线下AUC面积作为客观评价指标,公式见表1。

表1 评价指标公式

其中,TP为正确识别的血管像素个数,TN为正确识别的背景像素个数,FP为被错误标记为血管像素的背景像素个数,而FN为被错误标记为背景像素的血管像素个数。灵敏度(Se)表示正确分类血管像素占血管总像素的比例,特异性(Sp)表示正确分类背景像素占背景总像素的比例,准确率(Acc)表示正确分类血管像素与背景像素总和占图像总像素的比例。

2.4 实验结果分析

在DRIVE数据集上对BMSA-Net分割结果进行验证,并同文献[11,14]所提算法进行对比,文献[11]在编码-解码架构的基础上,增加跳跃连接提出U-Net算法;文献[14]对文献[11]所提算法进行改进,将双向长短期记忆模块、密集连接模块与U-Net相结合提出了BCDU-Net算法,性能得到一定的提升。

2.4.1 整体分割效果对比

图8展示了不同算法在DRIVE数据集上分割结果图,其中第一行为健康视网膜图像,第二行为视网膜脉络膜病变图像,第三行为糖尿病性视网膜病变图像。图8(a)~图8(e)分别为预处理图像、金标准、本文算法分割、文献[11,14]分割结果。

图8 不同算法分割结果

由图8第一行可知,由于视盘周围光照不均,文献[11,14]均出现主血管断裂与细小血管误分割现象,而BMSA-Net较好地避免主血管断裂的同时能区分不同尺度的血管;由图8第二行可知,文献[11,14]误将色素上皮改变区域误分割为血管,且在视网膜边界周围未能准确分割应有的细小血管,而BMSA-Net很好地区分色素上皮病变区域,准确分割细小血管,避免了误分割现象产生;由图8第三行可知,文献[14]在血管交叉处出现了血管断裂现象,而BMSA-Net与文献[11]较好地避免血管断裂现象,但文献[11]存在将背景误分割为微血管,而BMSA-Net准确地区分背景与目标,分割出更多血管且不易断裂。综上,本文算法不仅能准确分割健康视网膜血管,避免血管断裂,而且对视网膜病变图像分割同样具有良好的分割性能。

2.4.2 细节分割效果对比

为了将本文算法性能优势更进一步展现出来,图9给出DRIVE数据集上本文算法与文献[11,14]血管分割细节图。图9(a)~图9(e)分别为预处理图像、金标准、本文算法、文献[11,14]分割细节。

图9 分割结果细节对比

观察图9第一行,文献[11,14]在视盘周围均出现血管合并现象,而本文算法引入细节增强层与平衡多尺度注意力结构,融合多尺度特征信息,提高血管特征捕捉能力,很好避免血管合并现象产生。

观察图9第二行,由于细小血管与背景对比度低,文献[11,14]存在血管分割断裂现象。这是因为文献[11,14]仅采用普通卷积进行编码和解码,无法获取输入特征图的多尺度特征和恢复池化操作损失的血管局部细节。相较而言,本文采用MFEM代替普通卷积层进行编码,获取多尺度特征信息的同时,降低光照不均的影响;利用CRM代替普通卷积层进行解码,消除上采样时一些血管与边缘信息无法恢复的影响,因此能够较好地解决血管断裂问题。

综上,本文算法与文献[11,14]相比具有一定的优越性,可以更好地获取多尺度特征信息,增强细小血管特征,有效地克服血管尺度不一及光照不均的影响,更加准确分割血管。

2.4.3 分割效果客观分析

不同算法在DRIVE数据集上的性能指标见表2,其中加粗部分为该指标的最优值。本文算法的准确率、灵敏度、特异性、F1分数、ROC曲线下的AUC面积和PR曲线下的AUC面积分别为:96.42%、83.17%、98.27%、85.06%、98.63%和93.43%,与文献[11,14]相比,除特异性比文献[14]仅低0.09%外,其它性能指标均有不同程度的提升。

表2 DRIVE数据集上的平均性能指标对比结果

2.4.4 与其它先进算法进行对比

为了进一步验证本文算法的血管分割性能,表3给出BMSA-Net与其它先进算法在DRIVE数据集上灵敏度、特异性和准确率的对比,表中数据来自源文献,加粗部分为该项指标最优值。

由表3可知,在DRIVE数据集上BMSA-Net的灵敏性、特异性和准确率分别为0.8317、0.9827和0.9642,除特异性仅比文献[20]所提算法低0.09%,其它指标均优于其它先进算法。综上,BMSA-Net在灵敏度和准确率表现优异,整体上BMSA-Net优于其它先进算法,可以更好地区分血管像素与背景像素,具有较强的鲁棒性。

表3 在DRIVE与其它先进算法的性能指标对比

2.4.5 消融实验

为进一步说明BMSA-Net各个模块对分割性能的影响,本文在DRIVE数据集上进行消融实验。M0为仅使用U-Net的分割结果,M1是在U-Net加入DEM的分割结果,M2为使用MFEM代替原U-Net解码器卷积层的分割结果,M3是在M2的基础上加入DEM的分割结果。实验结果见表4。

表4 算法改进前后结果对比

由表4可知,M1在U-Net中仅加入DEM时分割结果相比原U-Net,虽然特异性降低了0.09%,但灵敏度显著提升,提升了0.72%,表明DEM提高了网络对微血管特征的提取能力;M2在U-Net中引入MFEM,除Sp与原U-Net基本持平外,Se得到较大幅度提升,其它指标提升明显,说明MFEM能获取更丰富的多尺度特征信息,提高网络分割细小血管的性能;M3在M2的基础上引入DEM,有效解决目标与背景之间权重不平衡问题;BMSA-Net与其它行对比说明:随着网络中上述模块依次融合,F1分数、准确率、AUC(ROC)与AUC(PR)稳定上升,Se与Sp逐渐平衡。当所有模块合理组合后分割性能最好,说明本文算法的合理性与有效性。

3 结束语

本文针对视网膜血管分割问题中存在不能准确区分病灶区域与分割细小血管等问题,提出了一种平衡多尺度特征注意力网络用于视网膜血管分割,在网络架构上,MFEM使用不同扩张率的空洞卷积和特征重标定层来获取不同大小的视网膜血管信息和全局上下文信息,并减少参数提高算法速度;DEM结合浅层信息和深层信息,以恢复丢失的浅层信息,同时获得空间信息;CRM在减少过拟合现象的同时拟制非重要特征;BSAM融合解码不同层级特征信息以平衡细节信息,提升网络性能。实验结果表明,本文算法分割结果优于其它算法,有着较好的分割性能。

猜你喜欢
尺度视网膜卷积
深度学习在糖尿病视网膜病变诊疗中的应用
基于3D-Winograd的快速卷积算法设计及FPGA实现
家族性渗出性玻璃体视网膜病变合并孔源性视网膜脱离1例
高度近视视网膜微循环改变研究进展
财产的五大尺度和五重应对
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
复明片治疗糖尿病视网膜病变视网膜光凝术后临床观察
宇宙的尺度
9