基于半监督级联网络的高质量医学图像集增强

2022-06-01 09:49

浙江工业大学学报 2022年3期

(浙江工业大学计算机科学与技术学院,浙江杭州 310023)

基于深度学习的神经网络已在自然图像处理、物体识别[1-2]和特征提取[3]等热门领域取得了显著突破。然而在医学图像领域,由于某一特定病种的病例相对较少,且出于对病人隐私的保护,使得医学影像数据集的数量通常比较少,基于深度学习的神经网络性能也受到局限。同时,为了防止网络在学习过程中出现过拟合现象,模型对具有更高多样性的数据集也有很大需求。因此,针对增强医学图像数据集的研究是迫切的、有意义的。目前,一方面,传统的数据集增强方法不擅长生成包含过于细节的高质量图像,尤其无法满足医学图像对生理解剖学特征的需求;另一方面,虽然GAN的提出一定程度上缓解了上述问题,但在临床表征复杂的情况下,仍然无法得到理想的医学图像合成图。

针对上述问题,设计了一种基于半监督学习的多输入多分辨率多模板的生成对抗网络。在级联拉普拉斯金字塔生成网络的基础上,通过双通道的网络输入为模型分别提供了基于监督学习和无监督学习的优化目标,并使用网络级联的策略分解了高分辨率图像的生成难度。此外,为了使级联生成网络训练的稳定性得以提升,在各级网络转换时增加了“过渡机制”使其可以平滑地过渡到下一级网络,并且在每一级网络的生成器中加入了稠密块Dense block[4]的网络结构,有效减少了网络的参数量,避免梯度消失问题。

1 数据增强和图像超分相关工作

主要研究工作是医学图像集的增强,主要技术手段是图像超分辨率。以下讨论图像集增强以及图像超分辨率的相关工作。

1.1 数据增强

数据增强可以防止大型神经网络过度拟合,特别是在训练样本数量有限的情况下尤为重要。传统的数据增强通常基于预定义的变换,如图像翻转、裁剪、旋转或颜色变换,使数据集尽可能地扩充并且产生一些随机性,避免过拟合的产生。与使用预定义的转换不同,笔者使用基于深度学习的方法来进行数据增强。

GAN是由Goodfellow等[5]提出的用于图像生成的学习模型,它已被应用于各种领域,如图像超分辨率[6]、图像配准[7]、图像分割[8-9]和数据增强等。在医学图像领域,一系列基于GAN的网络GANs也被广泛应用,如Dong等[10]利用级联的3D全卷积网络从相应的核磁共振MR图像合成电子计算机断层扫描CT图像,为提高合成CT图像的真实性,除对抗性训练外,他们还通过逐像素重建损失和图像梯度损失训练模型。Jelmerjm等[11]用循环一致性生成对抗网络CycleGAN将2D MR图像转换为CT图像,用无需匹配的图像对训练,而且由于成对训练数据集并不是完美匹配的,他们的训练不受此影响,甚至会带来了更好的结果。Dlaz-Pinto等[12]提出了一种基于深度卷积生成对抗网络DCGAN的新型视网膜图像合成器,用于训练青光眼评估的半监督学习方法。Costa等[13]将GAN用于彩色视网膜图像合成,该模型从一个简单的概率分布中进行采样,该概率分布被施加到相关的潜在空间上,根据用户的需要生成尽可能多的视网膜图像及其相应的血管网络。Hojjat等[14]实现了使用DCGAN来对胸部X光片进行增广,使用真实图像和合成图像的组合来训练深度卷积神经网络,以检测5 种类型的胸部X光片的病理状况。通过对真实图和合成图组合训练的深度卷积神经网络的比较研究表明:在病理学分类中,这些网络优于仅由真实图像训练的类似网络,这种改进的性能很大程度上归因于使用GANs合成图像的数据集的平衡。

直接用GANs一步生成全尺寸的高清图像比较困难,Wang等[15]解决了合成多参数磁共振成像数据的问题,使用分段式GAN将一个大的任务分解成几个仅生成子图像的较简单任务,进而使用隔行的方式将子图像无缝融合在一起,成为完整尺寸的图像。Denton等[16]提出了拉普拉斯金字塔生成对抗网络LAPGAN,该网络模型基于拉普拉斯金字塔原理,通过级联的生成对抗网络GANs实现由粗略到精细逐级生成高分辨率的图像,其网络级联的思想对后面的研究产生了极大的影响。NVIDIA实验室提出了一种基于网络级联的生成对抗网络模型PGGAN,其主要思想是网络“渐进式生长”,在该网络模型中,随着网络的不断训练,网络中的层数会不断地增加,越后面的网络层用来训练相对更高频的特征,并且可以平滑地过渡,这就意味着网络可以利用更小的代价来增加网络对低频特征部分的训练,从而使网络可以更快地学习高频特征。

1.2 图像超分

深度卷积神经网络在单幅图像上的超分辨率取得了非常好的效果,Manjon等[17]和Rouseau等[18]也将图像超分辨率应用到了医学图像上。图像超分辨率的一种常见方法是基于实例的方法,该方法利用高分辨率图像和低分辨率图像的信息,生成近似原始高分辨率图像的超分辨率版本。现有的大部分超分网络都是基于监督学习的,如Dong等[19]提出的基于卷积神经网络的超分辨率重建SRCNN和深度递归卷积网络DRCN[20]。Ledig等[6]提出了超分辨率生成对抗网络SRGAN,其使用GAN训练超分网络以恢复在视觉上更令人信服的超分辨率SR图像。渐进式增长模型的提出大大提高了超分网络训练的稳定性,如基于稀疏编码的网络[22]和深层拉普拉斯金字塔超分辨率网络LapSRN[22]。Zhao等[23]提出了一种新颖的拉普拉斯超分辨率生成对抗网络LSRGAN来提高心脏磁共振成像MRI的分辨率,该方法的亮点是将GAN和拉普拉斯金字塔相结合,该模型解决了分辨率不足和在超分辨率后产生MRI幻觉细节的问题,为医学专家提供了一种出色的超分辨率方法,被应用于诊断和治疗心肌缺血和心肌梗塞。Goyal等[24]提出了一种基于加权最小二乘优化的医学超分辨率重建方法,该网络通过多尺度卷积神经网络来进行病变的定位,加权最小二乘优化策略特别适用于逐步粗化输入图像并同时提取多尺度信息。

2 半监督级联生成对抗网络

笔者所提网络模型是一种基于半监督学习的级联生成对抗网络,总体网络框架如图1所示。总体网络框架由生成模板模块、生成器模块G和判别器模块D组成。在级联拉普拉斯金字塔生成网络的基础上,给网络设计了两条输入通道,一条是无监督学习部分(实线部分),将一个随机噪点输入到生成器模块,经过级联GAN网络的对抗学习逐级生成高分辨率图像,该部分利用GAN网络生成图像的随机性来保证增广后数据集的多样性;另一条是有监督学习部分(虚线部分),将生成模板中逐级下采样后得到的4×4像素的真实医学图像作为网络的输入,经过每一级网络后进行2倍超分,并将生成模板中其他分辨率级的图像作为网络真值Ground-truth来监督网络学习,生成模板的输入使生成器生成的医学图像更符合临床意义。此外,为了使级联生成网络训练得更加稳定,在各级网络转换时增加了“过渡机制”使其可以平滑地过渡到下一级网络。在每一级网络的生成器中加入Dense block[4]的网络结构,有效减少了网络的参数量和避免了梯度消失问题。以下介绍生成模板的结构和使用、生成器模块和判别器模块的作用以及文本模型在不同输入通道下所用到的优化目标及公式。

图1 整体网络框架Fig.1 Global network framework

2.1 生成模板

考虑到所生成图像为医学图像,因此在训练过程中需保证图像的合成符合医学图像人体解剖学结构的低频特征(轮廓、结构和形状等)。针对该问题,提出了生成模板策略,如图2所示。生成模板中的图像为真实的医学图像,用于辅助网络训练以及作为增广过程中的参考,将512×512分辨率大小的医学图像原图经过高斯下采样以2倍的分辨率逐级递减,每张图再经过2倍上采样得到模糊图,将模糊图与上一级的原图相减得到每一级的残差图。生成模板有两个作用:1) 在无监督学习中(绿色路线),将生成模板中各级分辨率大小的真实医学图和残差图输入到对应层级网络的辨别器中,有助于生成器所生成图像的风格和模板中的医学图像风格一致;2) 在有监督学习中,将生成模板中最后一级4×4分辨率大小的图像作为初始输入传给网络,而模板中的其他各级真实数据则作为Ground-truth监督生成器,并输入到相应分辨率级别的判别器模型中。

图2 生成模板Fig.2 Generation template

2.2 生成器模块和辨别器模块的结构和作用

笔者设计的网络一共有8层级联,最终生成的医学图像分辨率为512×512。第一层网络中采用解码器结构,实现从一个随机噪点到4×4分辨率医学图像的合成,从第二层网络开始,实现从低分辨率图像到高分辨率图像的转换,使得低分辨率的医学图像依次超分到2倍的分辨率。网络中各级生成器接收来自上一级网络的输出图像作为输入,在有监督学习阶段中,生成器还输入生成模板中对应分辨率下的真实医学图像和残差图并计算L1损失,目的是帮助生成器生成更符合真实医学图像解剖学特征的合成图。在无监督学习阶段中,判别器模块中共有8组判别器,每组判别器中有1个残差图判别器和1个医学图像判别器。残差图判别器接收来自网络生成的残差伪图和生成模板中的真实残差图,医学图像判别器接收来自网络生成的医学伪图和生成模板中的真实医学图像,分别计算出对抗损失并反传给生成器。

在每一层网络的生成器中引用了Dense block[4]的网络结构,在每一个稠密块中,每层网络处理得到的结果会被其他所有层所共享,这样的特征处理方法不仅可以和Resnet一样避免梯度消失的问题,而且具有加强特征传播、支持特征复用和减少参数量等优点,并且有效提升了网络生成图像的清晰度。

在训练过程中分辨率加倍时,网络任务量的突然增加会造成网络性能下降。借鉴PGGAN模型中的“过渡机制”,让网络平滑地过渡到下一级别的分辨率,使网络整体的训练更加稳定。将较高分辨率下的网络层视为残差块,与模糊图采用可变权重参数α相加后再传给下一层网络。其权重参数α从0到1线性增加。当网络开始改变分辨率时,α的取值为0,整个网络的工作量几乎没有变化。随着网络训练的进行,让α逐渐增大,网络输出的图像也慢慢清晰,直到α的值等于1,说明网络已经完成对该级分辨率上超分过程的适应,就可以继续进行下一级分辨率的提升。

2.3 网络模型的优化目标

用来训练生成器G的数据一共有两条线路,第一条线路是无监督学习方式,如图3所示。从随机噪点Z出发,经过编码器放大到4×4大小分辨率的图像,再上采样到8×8分辨率的模糊图像,将该图输入到生成器G,G生成的8×8分辨率的残差图和8×8分辨率的模糊图像叠加,生成8×8分辨率的高清图像,以此类推直到生成最终的高分辨率图像。每一层的D模块都包含一个残差图判别器和一个医学图像判别器,分别对输入的残差图和融合后的医学图像计算损失值,并反馈给G模块。判别器中的真实样本来自于生成模板中高分辨率的真实医学图像经过高斯下采样后得到的真实图和残差图。

图3 无监督学习的训练Fig.3 Training of unsupervised learning

其中第一层网络中的G1用于将随机噪点生成4×4分辨率大小的医学图像伪图g1(z),d1则用于判别其真伪,对抗损失函数Adv的计算式为

(1)

式中:x为生成模板中提供的真实医学图像;z为低维的随机噪点;E(*)表示分布函数的期望值;P(x)表示真实样本的分布;P(z)表示低纬的噪声分布。

第二层网络以后的d1,g1需要对生成的医学图像伪图和残差伪图分别计算损失,计算式为

(2)

无监督学习线路的总损失函数的计算式为

LAdv=Adv1+Adv2

(3)

第二条线路是有监督学习方式,如图4所示。由生成模板中的4×4分辨率真实医学图像作为网络生成器模块的输入,上采样后经过和第一条线路一样的步骤,输入给G生成残差图并和上采样后的模糊图合成为高清图。不同的是,线路二不经过判别器D,而是和生成模板中对应分辨率的图像进行逐像素的L1损失计算得到特征图域的差值损失,并将损失反传回G模块。该线路可以使得生成器G模块的生成图像更加符合真实医学图像的解剖学特征。有监督学习线路的均方误差损失函数MAE的计算式为

(4)

(5)

L1=MAE1+MAE2

(6)

图4 有监督学习的训练Fig.4 Training of supervised learning

根据无监督学习和有监督学习所涉及到的损失L1和LAdv,可将笔者总体的优化目标概括为

LOSS=LAdv+λL1

(7)

式中:LOSS为网络总体损失函数;λ为超参数,用来控制LAdv与L1之间的权重,其中的对抗损失LAdv是为了确保生成的图像与生成模板中的医学图像风格保持统一又不缺失多样性,逐像素损失L1是确保生成图像符合医学图像的解剖学特征(临床意义)。通过该优化目标的整合,既有效地提高了增广后医学图像集的质量,也提升了下游用于医学图像处理的深度学习网络性能。

3 结果与分析

3.1 数据集和训练参数

实验采用数据为与浙江大学医学院第一附属医院合作所得的腹部CT数据集,共2 000张,样本分辨率均为512×512。选取其中1 800张作为训练集,200张作为测试集。网络训练总共迭代1 000个epoch,batch-size设为4,模型所用优化器为Adam,初始学习率设为0.000 1,训练设备为4联2080TI GPU,训练框架为pytorch 1.1。

3.2 对比方法和评价指标

研究动机是生成大量高质量的医学图像,超分辨率是在生成过程中使用的一种技术手段,为了验证所提方法的有效性,分别进行了图像生成过程中超分辨率阶段的性能实验和最终生成图像质量及多样性的实验。采用了多组对比实验模型如PGGAN、DCGAN、LAPGAN[16]以及基于Wassertein距离和梯度惩罚的主成对抗网络WGAN-GP[25],采用两种常用的图像质量标准峰值信噪比PSNR和结构相似性SSIM来评价网络超分辨率阶段的性能,采用正态分布距离FID[26]和信息保真度IFC[27]来衡量网络所生成图像的质量和多样性。FID是一种广泛使用的度量GAN网络生成图像质量好坏以及多样性的标准,它用于计算真实样本和生成样本在特征空间之间的距离,Wang等[28]和Zuo等[29]用来评价医学图像生成的质量,较低的FID意味着图片有较高的质量和较好的多样性。IFC是通过计算图像之间的相同信息来衡量待评图像的质量优劣,也被用于评价医学图像的质量[30-31]。

3.3 超分辨率实验结果

将笔者方法与现有图像超分算法在定量结果和视觉结果方面进行比较。将一张原始分辨率的腹部CT图像分别用双三次下采样到2倍、4倍和8倍的大小,然后在相同的硬件设备上使用不同方法进行了2倍、4倍和8倍的超分辨率重建,并计算出PSNR值和SSIM值,粗体数字表示最佳结果,如表1所示。由表1可知笔者的方法性能最好。为了更直观地进行视觉上的比较,提供了实验效果图,如图5所示。在4倍和8倍的超分辨率上,模型能生成更清晰的边缘和形状,而其他方法给出的边缘和形状较为模糊。实验结果证明了笔者模型在图像超分辨率阶段的有效性。

表1 不同网络超分辨率性能比较

图5 不同方法在4倍和8倍超分辨率的视觉比较Fig.5 Visual comparison of different methods in 4× and 8× super resolution

3.4 生成图像的质量和多样性

将笔者模型与现有基于GAN的图像生成算法进行了比较,在相同的硬件环境下,分别让网络生成256×256和512×512分辨率大小的图像,并分别计算其FID[26]和IFC[27]。如表2所示,在两种不同分辨率结果下,笔者方法的FID[26]和IFC[27]指标都较好于其他生成模型。笔者方法与其他基于GAN方法生成的512×512分辨率的腹部CT图像如图6所示。由图6可知:其他网络模型生成的医学图像存在着生理结构错位、清晰度差、噪声过多、多样性差等问题,而笔者模型生成的医学图像生理结构清晰且有更好的多样性,实验结果证明了笔者所提网络模型可以生成高质量且满足多样性需求的医学图像。

表2 笔者方法与其他GAN方法在生成不同分辨率图像上的性能对比

图6 不同方法所生成的512×512图像Fig.6 512×512 images generated by different methods

4 结论

为了增强高质量的医学图像数据集,提出了一种新颖的基于半监督学习的多输入多分辨率多模板的级联生成对抗网络。通过双通道的网络输入分别为模型提供了基于监督学习和无监督学习的优化目标,并使用网络级联的策略分解了高分辨率图像的生成难度,所设计的生成模板在每个分辨率尺度上为双通道的合成图提供了多类别的参考模板,提升了生成图临床表征的准确性。分别对所提方法进行了超分辨率阶段性能测试和图像最终生成质量及多样性的测试实验。实验结果证明了笔者所提方法的有效性。但是,基于深度学习的医学图像集增强算法在面对生理结构更复杂的医学图像时,难以精准地生成符合人体解剖学特征的图像,其延展性还有待提高。因此,未来的工作重点是在此算法基础上加以改善,解决更复杂生理结构医学图像的合成,使模型具有更好的泛化性和准确性。