基于噪声估计与引导的低剂量CT图像盲去噪方法

2021-09-24 13:13张怀天李金宝

黑龙江大学工程学报 2021年3期

张怀天，李金宝,*

(1.黑龙江大学计算机科学技术学院，哈尔滨 150080；2.齐鲁工业大学(山东省科学院) 山东省人工智能研究院，济南 250014)

0 引言

计算机断层扫描(Computed tomography, CT)是一种准确、非侵入式的体内异常监测技术，现已被临床医生广泛应用于器官异常检测和癌症诊断。然而CT扫描过程中X光的辐射会对患者产生伤害，病人在胸部X光扫描中接受的辐射量相当于10 d的本底辐射[1]。降低辐射剂量可显著减弱辐射风险，其中最常用的方法是减少X射线通量，但X射线通量越低，重建CT图像的噪声就越大，导致CT图像质量降低，影响医生的临床诊断。因此，研究低剂量CT图像去噪算法具有重要的临床意义和研究价值。

现有的研究工作主要集中于单一剂量CT图像去噪，由单个去噪网络模型直接实现图像去噪，能够达到较好的效果。然而在实际的临床应用中，CT的辐射剂量通常是未知的，导致单一剂量模型的应用场景受到了一定限制。针对该问题提出了一种基于噪声估计与引导的低剂量CT图像盲去噪方法，可应用于CT图像的剂量未知的情况。该网络由噪声估计网络和去噪网络组成，见图1。

图1 网络的整体结构

网络首先针对未知CT图像的噪声特征，设计了由噪声特征提取和噪声分类组成的噪声估计模型，该模型将真实数据集中CT图像剂量水平作为分类标签，并通过噪声等级分类的弱监督方式估计潜在的噪声特征。其次，通过噪声特征与噪声图像融合的方式引导低剂量CT图像关注自身噪声的分布特点，进而使用残差编码—解码卷积神经网络进行端到端的深度映射，从而生成高质量的CT图像。此外，采用感知损失来降低去噪后图像与目标图像在高维空间中的感知特征相似性，并联合MSE损失使模型提取CT图像潜在的有效特征，保留图像重要细节信息。

1 相关工作

由于CT图像噪声的来源形式各异且复杂多变(如电流扰动，光子数量，扫描方式，X射线的多色性以及系统自带的电子噪声等)，导致CT图像的噪声特征难以估计，通常采用剂量水平来简单的衡量噪声的嘈杂程度。近年来大量研究工作致力于解决CT图像去噪问题。传统的CT图像去噪方法大致分为3种：投影域滤波算法、迭代重建算法和图像处理算法。

早期的投影域滤波旨在对滤波反投影(Filtered back projection, FBP)变换前的CT图像原始数据进行去噪处理。未经处理的原始数据中噪声的分布直接与其来源相关(如加性的高斯噪声)，通过分析噪声特点设计某种滤波算法可以抑制其中的噪声，达到去除噪声的效果[2-3]，其中具有代表性的有结构自适应滤波[4]、双边滤波[5]和惩罚加权最小二乘算法等。上述算法速度较快，但使CT图像变得平滑、模糊，且难以去除图像中的复杂噪声(如伪影)。

投影域滤波算法只采用一次FBP来重建CT图像，而迭代重建法是在FBP基础上额外引入了正投影技术，通过多次反复迭代的方式来提高CT图像重建的准确率。尽管迭代重建算法的去噪性能优于投影域滤波法，能够较好地去除CT图像伪影并获得较高的空间分辨率，然而该类算法存在两大缺陷：①该类算法是设备供应商特定(vendor-specific)的，用户无法获取原始CT扫描数据、扫描仪的几何形状以及具体校正步骤的细节；②迭代重建过程中需要大量的计算开销。因此，上述缺陷极大地限制了临床应用。

由于用户难以获取CT扫描原始数据，使得基于原始数据的投影域滤波法和迭代重建法应用受到极大限制，而基于图像处理的去噪算法直接对重建好的CT图像进行去噪，不受上述限制，具有更广阔的应用前景和研究价值，如非局部均值滤波法[6]和BM3D[7]等。非局部均值滤波法主要对图像域内的相似块进行加权平均以获得平滑的滤波效果，并能够保留图像边缘细节；BM3D同时结合了非局部均值滤波和小波变换等频域算法，在图像去噪上达到很好的效果。另一类CT去噪工作是基于压缩感知理论，Lubner M G等[8]建立了一种基于离散梯度变换的降维视图下动态CT重建的先验图像约束压缩感知算法，并证实这些变换对真实结构和噪声都非常敏感；Chen Y等[9]采用K-SVD[10]算法，通过构建字典学习对图像进行稀疏编码来达到去噪效果。

受益于GPU算力增强以及批标准化[11]、残差结构[12]等技术在深度学习中的应用，越来越多的基于卷积神经网络的深度学习方法被应用于CT图像去噪，并取得了较高的性能。Chen H等[13]最早将轻量级的3层CNN网络用于低剂量CT图像去噪；在此基础上，Nishio M等[14]提出了自编码卷积网络用于低剂量CT图像去噪；Chen H等[15]进一步将残差结构与编解码网络相结合，提出了残差编解码卷积神经网络，在噪声抑制、结构保持和损伤检测方面获得了良好的效果;Kang E等[16]设计了一种24层卷积网络用于计算低剂量CT图像的小波变换系数，利用方向小波变换提取伪影的方向分量以及带内和带间的相关性，可以有效抑制CT图像特有的噪声，并采用残差结构加速模型训练，提升去噪性能;Yang Q等[17]采用感知损失来训练去噪模型，减小输出图像与真实图像在高维空间的图像特征差异;Suzuki K等[18]提出NNC(Neural network convolution)，经过滤波反投影变换后的低剂量CT图像和高剂量CT图像同时输入NNC中，由后者指导NNC直接学习低剂量CT到高剂量CT的映射;UNet[19]整个网络呈现U型结构，采用卷积层和上层采样对图像进行特征提取与恢复;Yi X等[20]提出一种条件生成对抗网络，获得了较高PSNR和SSIM客观指标，去噪后图像视觉效果较好；Maryam G A等[21]提出采用不同扩张率的扩张卷积并结合残差结构来更高效的提取图像特征信息，同时利用传统的Sobel算子在水平、垂直、对角线方向提取边缘图像并与原图连接，采用MSE损失和感知损失联合训练的方式以保留CT图像的结构细节；Won D K等[22]提出采用Octave卷积来同时提取图像的高频特征和低频特征，能够在降噪的同时保留更多边缘细节。

传统的CT图像去噪算法大多认为噪声服从某种统一的分布，这种分布与CT的剂量无关，因此无需关注CT的剂量问题，但与此同时，也导致了算法无法对特定剂量的CT图像进行精准去噪。深度学习方法通常使用单一的剂量进行训练产生针对该剂量噪声的模型，虽然使用单一剂量简化了去噪的难度，但通常需要针对每种剂量单独训练模型。在单一剂量的深度学习模型中，将噪声剂量进行混合训练，因为缺少了对于CT剂量的先验知识，通常会得到效果低于特定剂量的模型。因此，本文主要解决剂量未知的情况下如何达到甚至超越使用单一剂量的深度学习模型。

2 方法

2.1 噪声估计网络

设计的噪声估计网络见图2，主要由特征提取网络和分类网络组成。将数据集中CT图像的剂量水平作为弱监督标签，采用剂量分类的方法来训练噪声估计网络，并以分类损失为目标函数提取噪声特征。

特征提取网络分别采用卷积核大小为3×3与1×1的卷积块来对输入图像的通道进行扩张与压缩。输入维度为512×512×1的 CT图像经过特征提取网络得到相同大小的噪声特征图。分类网络利用3×3的卷积块对得到的噪声特征图进一步压缩，经过6个卷积块可将特征图压缩至8×8×2 048，再经过全局平均池化并展平后得到2 048维的特征向量，最后通过全连接层以及Softmax函数输出4维的CT剂量分类概率。所用卷积块均由一层卷积层，一层批标准化层以及一层ReLU非线性激活层组成。

2.2 去噪网络

整体去噪网络结构见图3，主要由噪声特征融合网络和残差编解码卷积神经网络(RED-CNN)组成。噪声特征融合网络主要用于将输入图像与噪声特征图充分融合，同时保持输入RED-CNN的图像维度不变。RED-CNN作为主要去噪网络，对输入进行进一步的去噪处理，得到最终去噪后的高质量CT图像。

图3 去噪网络整体结构

由2.1得到噪声特征图后，采用concatenate的方式将噪声特征图与输入图像进行堆叠，将输入图像的维度由512×512×1扩张到512×512×2，将其输入噪声特征融合网络，重新得到维度为512×512×1的特征融合图像作为RED-CNN的输入。RED-CNN整体结构主要由前5层的自编码网络和后5层的反卷积网络组成，网络在UNet[19]基础上加入残差结构以避免训练过程中的梯度弥散，并去除了所有池化层和步长大于1的卷积层等下采样层，维持了各层输入输出图像大小不变，并能够保留更多图像细节，提升了网络提取图像内在特征的性能。

2.3 目标函数

设计的CT图像盲去噪框架主要分为：①利用交叉熵损失对噪声估计网络进行充分训练;②采用均方差损失与感知损失联合训练去噪网络。

交叉熵损失Lce可表示为

(1)

其中：K为数据集中CT剂量类别数；yi为真实剂量标签；pi为概率预测向量中属于第i类剂量的概率值。

联合损失训练去噪网络,如式(2)

L=Lmse1+Lprec+Lmse2

(2)

其中：Lmse和Lprec分别为均方差损失和感知损失;Lmse1用于监督噪声特征融合网络的训练；Lprec和Lmse2联合训练RED-CNN。

(3)

采用均方差损失和感知损失联合训练能够降低图像过渡平滑和伪影的影响，保留更多结构细节。因此，在去噪模型训练过程中，将待预测图像x和y目标图像同时输入RED-CNN的前5层自编码网络，提取深层特征表示用于计算感知损失，提出了具有稀疏特性的L1距离作为感知损失函数，可表示为

(4)

其中：f(·)代表RED-CNN的前5层自编码网络，通过最小化低剂量CT图像与全剂量CT图像的深层特征差异，可使得去噪图像与目标图像在语义上更加相似。与其他研究中使用额外的感知空间不同(如使用预训练的VGG网络)，提出的感知损失是在RED-CNN的编码空间中，没有引入额外的计算开销。

3 实验

3.1 实验数据集

所采用的真实CT图像数据集源自一只死亡仔猪—piglet dataset[20]，数据集作者通过控制管电流为50%、25%、10%和5%来获得不同剂量的CT扫描图像。每一类剂量均有850对CT图像，每对图像包含一帧低剂量CT图像与对应的常规全剂量目标图像。整个数据集包括了2 720对训练数据集以及680对测试数据集。

3.2 实验设置

整个实验在pytorch框架下进行。在训练过程中，batch size设置为12，epoch设置为200，所用GPU型号为GeForce RTX 3090。训练过程中采用Adam优化器更新模型参数，初始学习率设置为10-4，采用ReduceLROnPlateau策略来更新学习率，其中factor参数设置为0.5，patience参数设置为3，最小学习率设置为10-7。

3.3 实验结果与分析

评估提出的CT图像盲去噪网络的有效性：①设计噪声特征估计实验，验证噪声估计网络提取未知剂量CT图像的噪声特征的能力；②设计去噪实验，将本文提出的算法与BM3D[7]、UNet[19]、RED-CNN[15]、Maryam G A[21]、Won D K[22]等5种现有去噪算法性能进行定性与定量的比较；③设计消融实验，对比加入噪声估计网络以及噪声特征融合网络前后网络去噪性能的差异。

3.3.1 评价指标

采用分类准确率指标Acc以及可视化噪声特征图来验证噪声估计网络的有效性；采用峰值信噪比(Peak Signal-to-Noise Ratio，PSNR)，结构相似性(Structural SIMilarity，SSIM)，均方根误差(Root Mean Squard Error，RMSE)3个主要图像质量评价指标来评估网络去噪性能。

假设大小均为m×n的低剂量图像和全剂量图像I，其均方误差(MSE)定义为式(5)，在此基础上，PSNR定义为式(6)。

(5)

(6)

SSIM主要用于衡量低剂量图像K和全剂量图像I之间在亮度(luminance)、对比度(contrast)、结构(structure)上的综合差异，式(7)～式(9)分别为亮度差异、对比度差异和结构差异的计算公式。

(7)

(8)

(9)

其中:μ为图像像素均值；σ为图像像素方差，为避免分母为0，c1,c2,c3为常数，其中c3=c2/2。

SSIM的数学定义经简化后为

(10)

其中：α,β,γ均为1。

RMSE用于衡量低剂量图像K和全剂量图像I之间标准均方误差，可表示为

(11)

3.3.2 噪声特征估计实验

首先测试了噪声估计网络的噪声特征提取性能，实验记录了训练100个epoch的分类准确率以及交叉熵损失Lce的变化曲线，见图4。

图4 噪声估计网络训练100epoch的损失(红)与准确率(蓝)变化曲线

由图4可见，红色虚线代表训练损失Lce，蓝色虚线代表模型分类准确率Acc，随着训练轮数增加，Lce不断下降，在训练20轮epoch之后，Lce趋近于0，分类准确率Acc可以达到99%以上，表明噪声估计网络可以有效地提取未知剂量CT图像的噪声特征并进行准确分类。

随机选取了测试集中两个位置5%，10%，25%，50% 4类剂量的CT图像用作测试。2个不同部位的CT图像及其噪声图见图5。

由图5可见，5%～50%剂量CT图像的噪声逐渐减弱，噪声估计网络着重提取了各剂量CT图像的噪声细节，实现对未知剂量CT图像的噪声估计。

图5 不同剂量CT图像的噪声图对比

3.3.3 去噪实验

定量实验结果：对所提出的CT图像盲去噪网络与BM3D[7]、UNet[19]、RED-CNN[15]、Maryam G A[21]、Won D K[22]等去噪算法在piglet测试集上进行横向对比，结果见表1。

表1 本文方法与其他去噪方法性能对比

BM3D融合了空间去噪算法和频域去噪算法，是目前效果最好的经典算法之一；UNet整个网络呈现U型结构，采用卷积层和上采样层对图像进行特征提取与恢复，是深度学习图像处理领域重要的Baseline；RED-CNN通过在编解码网络之间增加残差连接，进一步提升了网络去噪性能；文献[22]采用Octave卷积层同时提取图像的高频特征和低频特征，保留了更多图像重要细节；文献[21]引入了图像边缘特征信息，并采用均方差损失和感知损失联合训练的方式达到了较高的去噪水准；提出的方法由于引入了噪声先验特征分布，同时也采用均方差损失和感知损失联合训练的方式，在各剂量的去噪性能上均优于现有算法。

定性实验结果：使用不同方法对同一部位不同剂量进行去噪，其结果见图6。由图6可见，每张图片右侧为放大后的切片细节。BM3D对5%、10%剂量CT图像的去噪结果图仍包含较多噪声，对25%、50%剂量的CT图像则产生过渡平滑的现象，丢失了大量细节。UNet、RED-CNN出现较多蜡质伪影，本文所提出的方法相比于文献[21-22]，图像细节更加清晰，能够适应不同剂量的CT图像去噪任务。

图6 不同剂量CT图像的去噪效果

3.3.4 消融实验

为了验证提出方法的有效性，对不同模块对网络性能的影响做了消融实验，结果见表2。其中RED-CNN表示原去噪网络训练测试得到的实验结果；RED-CNN-Only表示采用噪声估计网络、噪声特征融合网络以及RED-CNN训练，测试仅采用RED-CNN的实验结果；Our表示训练测试均采用噪声估计网络、噪声特征融合网络以及RED-CNN的实验结果。

由表2可见，在相同的实验参数设置下，Our相比于RED-CNN对各类剂量CT图像的去噪性能有大幅提升，对5%剂量CT图像的去噪性能提高最多，PSNR和SSIM分别提升了0.771 4，0.007 4，RMSE则降低了0.368 6，证明网络在训练和测试过程中利用图像的噪声特征信息能够实现更精准的去噪。

表2 消融实验结果对比

另外，如RED-CNN-Only的实验结果所示，该实验在训练阶段考虑了噪声先验信息，然后在测试阶段采用RED-CNN进行单独去噪测试，在各类剂量CT图像上的去噪性能相比于不考虑噪声先验信息的原网络也有较大提升，由此证明加入噪声估计网络和噪声特征融合网络进行训练能够指导原单一去噪网络获得更好的性能。

4 结论

本文主要提出CT图像盲去噪网络用于估计未知剂量CT图像的噪声分布，采用表征学习的方式训练噪声估计网络，并通过可视化对比实验证明了噪声估计网络对噪声特征提取的有效性。将输入图像与所提取的噪声图像通过噪声特征融合网络进一步融合，采用均方差损失与感知损失联合训练去噪网络。经实验证明，结合噪声估计网络和特征融合网络训练，能够提升原去噪网络的性能，通过与现有去噪算法的性能对比，本文所提出的整体盲去噪网络对不同剂量CT图像均取得了较好的去噪效果。