面向CT成像的深度重建算法研究进展

2022-03-13 02:35陆志凯
中国体视学与图像分析 2022年4期
关键词:先验投影神经网络

吴 凡, 刘 进,, 张 意, 陈 阳, 陆志凯

(1. 安徽工程大学 计算机与信息学院, 芜湖 241000; 2.东南大学 计算机科学与工程学院, 南京 210096; 3.四川大学 网络空间安全学院, 成都 610207; 4.中国人民解放军联勤保障部队第906医院骨科, 宁波 315211)

0 引言

临床中广泛使用X射线计算机断层扫描(Computed Tomography,CT)技术来揭示人体组织器官内部结构。由于人体组织或器官是由多种不同密度的物质成分构成,所以不同位置对X射线的吸收系数也是相异的,由此可得到各组织器官的灰阶分布图,便于医生通过影像中病灶的空间位置、形态和尺寸等变化情况来诊断病情并制定后续相应治疗方案[1]。CT系统扫描组件主要包括扫描架、X射线管以及探测器阵列,X射线管主要功能是产生X射线,X射线穿过人体会与骨骼或组织发生作用,从而被吸收和衰减。探测器阵列接收穿过人体的X射线信号,由光电转换器将其转变为电信号,再利用模拟/数字转换器将模拟信号转化为数字信号,输入计算机进行处理并重建。本文中的重建具体指从投影数据重建到CT图像的过程。随着硬件及数据处理算法的发展,使其时空分辨率不断增加,其应用面也越来越广泛。尽管X射线CT成像在形态学诊断方面取得了巨大成就,但仍存在一定的不足,如辐射剂量降低引起的重建质量下降、图像噪声与伪影的存在和组织对比度低等问题。其中,以剂量的降低与图像质量提升最为主要,这也是CT成像领域的核心研究方向[1-2]。

影像重建的质量和诊断准确性之间存在明显的依赖关系。降低剂量会导致重建图像中产生条状伪影和斑点噪声,从而影响诊断准确性,尤其易造成面积小、形态细微的早期病变出现误诊和漏诊的情况。因此,需要优化相应的低剂量重建算法来对图像质量进行提升。降低辐射剂量可以采取减少投影角度、降低管电流等方式。稀疏角度采样方法作为减少投影路径数量的重要方式之一,具有加速数据采集与减少辐射剂量的优点,但该种方式采集的稀疏投影数据具有不完备性,重建图像通常具有较多伪影。另一方面,管电流值与CT辐射剂量成正比,临床广泛应用的自动管电流调制技术也是基于人体解剖衰减特性差异进行的。降低管电流会导致探测器上接收到的光子数量减少,使重建图像的效果变差,尤其是在低对比度的部位,由于噪声和伪影的出现,对其图像密度的分辨率会产生重大影响。如果没有对噪声进行足够的控制,与之关联的图像质量会不同程度地受到影响。此外,减少X射线照射量也是降低辐射剂量的主要方式,这类方法(如内部扫描、稀疏角度、有限角度)获取的投影数据不完备,对数据处理及重建算法性能有更高的要求[3-4]。

除了高性能X射线探测器和高精度数据采集系统之外,作为CT成像系统中的核心技术,数据处理及重建算法对所提供的影像信息的准确性有着密切相关性。在不改变原有硬件条件情况下,提高成像效果的同时降低辐射低剂量主要有三种途径:①从CT图像角度出发:研究人员设计出专业的图像复原及处理算法,以降低噪声和抑制伪影,可获得高信噪比和高对比度图像。但不同扫描设备、扫描模式及重建方法下,CT图像的噪声伪影表征差异大,且缺乏投影数据的信号补充,这也导致该类方法效果有限。②从CT投影数据角度出发:对原始数据或对数变换后的投影数据进行降噪、复原等处理,以提高投影数据的一致性,进而可提高重建效果。但由于投影数据敏感性较高,处理过程中,易出现欠校正、过校正及数据一致性下降等情况。③从图像重建算法角度出发:近二十年来大量的迭代重建算法被提出并表现出了不错的性能,尤其是基于先验信息约束的统计迭代重建算法。但是这类算法面临的主要问题有:超参数多,难以自适应优化;算法复杂度高,需要重复迭代计算;先验信息不稳定,泛化能力差等,使得这类迭代重建算法在临床应用场景下难以充分发挥其价值[4-6]。

随着计算能力的提升与大规模数据的产生,基于数据驱动的学习型算法在众多领域中表现出优异的性能,这也为医学图像重建算法的发展带来了新的契机。在影像大数据环境下,基于深度重建方法(本文指利用深度神经网络或者深度学习的方法来提升图像质量的重建算法)也是CT成像发展的重要方向[5-6]。本文将从有监督学习和无监督学习两方面介绍国内外应用于改善CT重建图像质量的相关方法,包括CT重建模型、优化方法、不同重建框架及学习策略的介绍与分析等。

2 传统CT图像重建算法

2.1 投影及噪声

投影是CT图像重建所需的源数据,它由X射线穿透被测物体经衰减作用后,被探测器接收而获得。CT投影是根据物体和射线的相互作用原理来进行的,通过物体的射线被物体所吸收并发生衰减,X射线的强度在一定程度上被减弱,且X射线的衰减变化符合Beer指数定律。离散化的形式可以转换为一个线性系统:p=Au,其中u∈RN表示要求解的衰减系数分布,p∈RM表示投影数据,A∈RM ×N是预先指定的扫描几何的系统矩阵[7]。从原理上讲,只要投影数据满足方程求解需求,就能够反解出u的分布情况。再依据各个器官组织具有特异性衰减系数特性,使用衰减系数分布图判断病灶的存在及其位置。一般而言,CT扫描中投影数据p的不确定性主要由以下三部分组成[8]:①统计噪声:也称为量子噪声,是扫描过程中的主要噪声成分,源于X射线光子发射的统计波动。②电子噪声:当数模信号进行转换时会产生电子噪声,主要是由电路本身和电子器件所产生的。③舍入误差:由于数字信号的精度有限,舍入误差来源于数据截断。

2.2 传统重建算法

重建算法是CT系统中的关键技术之一,它的优劣将直接关系到成像质量。传统重建算法主要包括解析法和迭代法。解析类重建算法以滤波反投影(Filtered Back Projection, FBP)和FDK(Feldkamp)为代表,是建立在中心切片定理和傅立叶变换理论基础之上的一种空域变换技术,具有算法简洁、计算速度快等优势,在商业CT中得到了广泛的应用。但解析法需要高质量投影数据,投影数据的完备性及信噪比直接影响重建结果。在不完备数据及噪声高的情况下,解析重建难以取得较好的成像效果,重建图像往往会受到严重的噪声和伪影干扰,影响后续临床任务开展[7]。

迭代重建算法是基于成像系统的物理模型和探测数据的统计特性来构造模型,然后利用迭代算法对目标函数进行迭代求解,其结果优于传统的解析方法。此外,迭代重建还可以通过在目标函数中添加能够反映待重建图像先验信息的约束项,来提升图像重建效果。统计重建的一般目标函数可以表示为:

(1)

式中,Σ为投影噪声相关的对角矩阵[9];R(u)为先验约束项;λ为正则化参数。式(1)中第一部分为保真项,以衡量重建结果与测量数据的一致性,常采用最小二乘函数;第二部分为先验约束项,以约束重建图像的特定信息,统计迭代重建中先验约束项R(u)的设计一直是重建领域的研究热点。

在过去的20年间,随着对CT图像特性理解的提高,各种先验约束项被提出。如将变换域信号稀疏作为先验信息,并以此模型构成约束项。代表性工作如Sidky等提出的经典全变差(Total Variation,TV)约束迭代重建,可在一定程度上减少CT图像中的噪声伪影,随后大量改进形式的TV迭代重建算法被相继提出[10-14]。相比于TV类约束,特征字典学习可以有更冗余的结构信息,能有效地处理图像局部细节。如Xu等将字典学习约束引入到迭代重建框架中,构建基于全局字典学习及自适应字典学习的两种重建目标函数,重建效果得到了较大的提升[15]。在此基础上系列新型的字典学习方法被提出,如Lu等提出的对偶字典[16],Liu等提出的三维特征字典[17],Zheng等提出的快速聚类字典[18]等,都在一定程度上提高了CT图像重建效果。为避免图像块操作的不一致性,Bao等首次将卷积稀疏编码框架用于CT重建中,并提出了卷积稀疏编码约束重建方法,实现了稀疏角度CT重建中的噪声和伪影抑制[19]。Duan等以图像质量为标准,建立以质量为引导的迭代重建算法,可实现自适应的超参数调节,并提高成像质量[20]。这类迭代重建算法能在一定条件下取得较好的重建效果,但由于超参数难调、算法复杂度高、处理时间长和数据不相容导致的稳定性差等原因,在临床应用场景中难以充分发挥其价值。

3 深度重建算法

近年来,深度学习(Deep Learning, DL)方法已成为解决医学成像中逆问题的重要方法,与统计迭代重建相比具有更优异的性能和更快的处理速度。在CT图像重建领域,DL模型可通过捕获图像高层特征来显示其学习不确定噪声分布能力。由于它可以有效地适应任何噪声类型。因此,对于CT重建的整体性能提升有显著促进作用[21-22]。

3.1 深度学习

DL技术是利用神经网络学习输入数据的特征,并通过非线性叠加将低层特征提取组合,实现任意复杂非线性函数的近似最优化逼近,学习所需要的信息。根据训练是否对配对数据具有依赖性,DL方法可以被划分为有监督式和无监督式两种。如图1所示,面向CT成像的深度重建算法主要分为有监督学习和无监督学习深度重建方法两个方面,在下文详细阐述。

图1 深度重建算法分类

监督学习是通过数据的预测与样本标签计算损失值,获得相应的学习模型。监督学习类方法主要包括:支持向量机模型(Support Vector Machines, SVM)、卷积神经网络模型(Convolutional Neural Networks, CNN)、循环神经网络模型(Recurrent Neural Networks, RNN)等[23-24]。由于监督学习方法需要大量的标注样本,但误标样本和低质量样本会大大降低模型性能,而无监督学习方法的优势在于无需对样本标签进行预先标注,以数据集中样本间的相似度为依据,自动提取特征并预测。无监督类学习类方法主要包括:变分自编码器(Variational Autoencoder, VAE)、深度信念网络(Deep Belief Network, DBN)、聚类(Clustering)、玻尔兹曼机(Boltzmann Machine, BM)、生成对抗网络(Generative Adversarial Nets, GAN)等[25-26]。

3.2 有监督学习的深度重建

基于有监督学习的图像重建方法使用配对数据来学习将低质量输入回归到高质量输出的深度神经网络映射。深度重建中,有监督的学习模式最为常见,按照DL在重建算法中使用方式,可以将此类重建方法分为三类:①域变换类方法:使用深度神经网络替代FBP运算;②模型类方法:使用深度神经网络替代统计迭代重建中的先验约束项;③迭代展开类方法:使用深度神经网络实现迭代求解。如图1所示。

3.2.1 域变换类方法

域变换类方法其核心思想是使用深度神经网络来替代FBP运算,与此同时还可以对投影域和图像域的数据加以处理,以进一步提升重建图像质量。域变换类深度重建算法执行过程如图2所示[6, 27]。这类深度重建网络的输入和输出通常分别是投影数据和图像数据。按照解析重建的数据处理流程,可在域变换基础上增加两个子网络,分别作用于投影域和图像域数据,这两个子网络通常都使用卷积神经网络实现。投影数据首先被送入第一个子网络,在其中可以对其进行去噪校正等预处理。然后,使用域变换将预处理后的投影数据转换为CT图像数据。最后,运用第二个子网络对CT图像进一步处理以提高重建效果。多数文献中用于图像处理的网络也都能适应于进行两个域的数据处理。由于投影域和图像域的CT噪声统计分布差异较大,两个域的处理过程可以互补,使重建过程更加有效和稳定。

图2 域变换类深度重建算法流程

整个深度重建流程中,域变换用于实现两类数据之间的信息交换,最简单的域变换就是FBP,如图2(a)所示。FBP的一个主要优点在于可以将投影数据直接变换成合适的数值范围,对后续的图像域处理更加友好。代表性的研究有:FBPConvNet[31]、Domain progressive 3D residual convolution networks(DP-ResNet)[28]、hdNet[29]、Dual-domain Residual-based Optimization NEtwork(DRONE)[33]、ADAPTIVE-NET[34]、Dual Domain Network(DuDoNet)[35]和Dual- Domain Adaptive-Scaling Non-local Network(DAN-Net)[36]等。除此之外,域变换还可以是FBP view-by-view的形式,这种变换将投影数据反投影到图像空间中的多通道中,每个通道都是来自一个投影视图的反投影,这样可将数据从多个视图中分离出来,获得更多信息。如Tao等[32]构造了一种可体现不同投影角度上反投影数据信息的张量(VVBP-Tensor),并分析了其特性及构建了一种深度重建网络模型,实现了VVBP-Tensor与重建图之间映射。考虑到投影数据与图像数据的互补性,许多学者尝试通过交互训练来建立不同域数据之间的关系,如Wang等[37]提出了一种用来解决CT金属伪影抑制问题的交互式双域并行网络IDOL-Net;Zheng等[38]构造投影域的卷积神经网络来估计缺失投影数据,采用线性解析算子将数据从投影域转换到图像域,在图像域中增加卷积网络进行图像细化。

受DL技术启发,研究人员构建了不同形式的网络来取代传统的域变换,直接通过网络学习实现Radon逆变换,如图2(b)所示。代表性的网络如AUTOMAP[39],它是通过全连接层将投影数据映射到重建图像。然而,受计算机存储成本制约,这种架构在大多数医学图像重建情况下是难以应用的。随后许多低计算量和低存储量的改进型学习域变换网络被提出,如He等提出沿射线轨迹线性求和的方式构建网络iRadonMap,可使全连接层的权重稀疏,降低模型参数量[40]。后续人们对几何形状和体积进行了下采样,提出了一种DSigNet网络,可进一步降低计算成本[41]。使用共享参数也是降低学习型域变换计算成本的一种有效方法,如Li等提出的iCTNet,是使用域变换的共享参数处理不同视图的测量,可获得较传统变换更好的性能[42];Fu等提出一种层级式的网络架构,其参数比一般网络所需的参数要少得多,并且可将共享参数逐级的应用于像素层上[43]。与传统变换相比,学习变换有可能获得更好的性能。

在CT成像数据流上使用深度神经网络替代传统的处理,可有效地提高重建图像质量。然而域变换类重建的泛化能力有限,尤其是学习型域变换对成像几何依赖性较大,当扫描几何和重建图像大小与训练数据不一致时,训练后网络将不适用。相比之下,传统的变换更稳定,只需要针对不同的几何形状和重建图像大小进行调整即可应用。未来,提高域变换类深度重建算法的泛化能力尤为重要。

3.2.2 先验约束模型类方法

先验约束模型类方法其核心是使用深度神经网络来替代统计迭代重建中的先验约束项。DL技术能利用大数据有效解决复杂问题,因此,利用深度神经网络构造可学习的先验约束项是可行的。大量研究表明,用神经网络代替传统构造的先验约束项,能取得优于传统统计迭代重建的结果。

先验约束模型类深度重建算法是将预训练好的模型作为先验信息。这类方法一般采用交替方向乘子法、原始对偶法等将待求解问题分解为若干个子问题,并通过预训练网络的方式来解决其中部分子问题,即插即用型的深度重建算法是近年研究的热点。CT重建模型可表示为:

(2)

式中,D(u)为预训练神经网络,以替代先验约束项。

有两种方法可以训练这里的先验约束模型。

第一种方法是为所有迭代训练一个通用先验约束模型[9]。这种策略可以使用噪声图像和相应的标签图像作为训练对来获得先验约束模型。然而,先验约束模型很难在每次迭代中达到最佳约束性能。代表性的研究有:Venkatakrishnan等[44]提出即插即用的先验,以匹配成像系统的前向模型与图像约束模型;Wu等[45]采用一种K稀疏神经网络作为先验项,提高了低剂量CT图像重建质量;Gupta等[46]将投影梯度下降算法中的投影算子用残差网络进行了代替,并设计了一种可学习的松弛投影梯度下降算法,该算法具有较好的收敛性,在稀疏角度CT成像中取得了较传统稀疏表示迭代重建更好的图像质量;Zhang等[47]使用了残差形式的自编码网络作为重建中的先验,在稀疏角度CT重建性能表现更加优越;Zhi等[48]利用卷积神经网络从全采样投影数据中学习图像先验信息,并用于4D-CBCT图像重建中。Gao等[49]通过常规剂量图像数据学习特定的组织纹理先验,可在高超低剂量扫描下,重建出的CT图像具有更好的纹理特性。Majee[50]等设计了一种2.5D卷积神经网络,可很好地利用数据冗余特性获取先验,在稀疏角度和有限角度CT重建中取得更好的性能。

第二种方法是通过动态训练依赖于迭代的先验约束模型。这种策略是在每次迭代中,先验约束模型将对具有不同参数的中间图像进行约束处理,以优化重建性能。当然,每次迭代的训练模型参数将需要更高的计算成本。代表性的研究有:He等[51]提出了一种参数化即插即用ADMM重建方法,该方法中先验网络可在迭代更新的过程中学习获得;Shen等[52]设计了一种参数微调网络,并借助强化学习思想,在迭代重建中进行先验的动态训练;Chun等[53]提出了一种BCD-Net先验方法,训练中可随着迭代次数进行更新,以实现低剂量CT快速稳定优质重建。Baguer等[54]提出深度可学习先验的概念,通过逐次迭代学习获得先验信息,并在迭代中逐步提高了重建图像质量;Chun等[55]提出了一种Momentum的迭代神经网络,实现逆问题快速有收敛的求解;Ye等[56]提出了一种统一的有监督-无监督学习的重建框架,该框架中基于网络的先验项可通过交替的方式训练,实现权重更新。

基于先验约束模型的方法是在传统迭代算法的基础上进行的,其训练和优化是分开的,可以使用小规模的训练数据集,重建出较高质量的图像。如图3所示为基于先验约束模型的前向和后向处理过程流程,其中蓝色和红色箭头分别代表前向和后向。基于先验约束模型的方法采用单独的训练策略,存储计算成本较低,因此,可使用更多次的迭代进行重建,并且训练后的先验约束模型可以嵌入到不同的优化方案中,使得基于先验约束模型的方法更加灵活。尽管如此,基于先验约束模型的方法仍然需要手动设置参数,这对性能有很大影响。因此,基于先验约束模型的方法更重要的是适当设置参数并与自适应参数调整方法相结合。

图3 先验约束模型类深度重建方法的前向和后向处理过程

3.2.3 迭代展开类方法

迭代展开类方法其核心思想是使用DL实现迭代求解。迭代展开是将迭代优化过程展开为有限数量个阶段,并将它们映射到神经网络中,如使用增广拉格朗日方法(Augmented Lagrange Method, ALM)进行展开。因此,这类方法主要研究如何采用深度神经网络模块通过训练的方式实现迭代求解过程。迭代展开类方法中,一部分学者研究采用端到端的训练方式实现迭代求解过程的可学习,另一部学者研究采用卷积神经网络实现迭代重建中超参数的部分学习。迭代求解过程的可学习的深度重建模型可表示为:

(3)

式中,v、t为辅助变量,ρ为正则化参数。使用交替方向乘子方法(ADMM),目标函数(3)可分解为如下:

(4)

式(4)为迭代重建的展开式,迭代展开类方法就是将上述三个优化问题使用不同的神经网络来替代,以实现端到端的重建。此类深度重建方法代表性的研究有:Adler等[57]利用卷积神经网络来学习对偶算子的解,以降低采用原始对偶法求解CT重建问题的复杂度;Chen等[58]研究了基于“Fields of Experts”的正则项与卷积神经网络的卷积层间关系,并使用网络来实现重建算法的每次迭代过程。Chen等[59]同时结合了解析重建、统计迭代重建与DL算法三者的优点,利用Proximal Forward Backward Splitting算法将目标函数的求解问题转化为保真项与先验约束项的迭代求解过程,其中先验约束项是通过稠密网络进行学习的;Zhang等[60]提出了一种具有自学习特性网络MetaInv-Net,通过神经网络来学习共轭梯度下降算法的初值。Xia等[61]采用卷积神经网络学习最速梯度下降法中的正则化项,提出一种能够同时捕获图像像素级特征与拓扑特征的先验信息;Xiang等[62]将快速迭代收缩阈值算法进行网络形式的展开,提出了一种解决病态医学图像重建问题的FISTA-Net;Ghani等[63]通过整合数据和图像先验的一致均衡,建立了统一的深度重建框架DIPIIR,实现了重建图像质量的提高;Ding等[64]通过展开式的半二次分裂算法实现深度低剂量CT重建,该算法中不仅使用了可学习的先验约束,而且能针对不同噪声水平数据实现自适应超参数调节;Su等[65]提出一种泛化的迭代展开式深度重建方法DIR,实验表明三种不同展开架构均能取得较好的稀疏角度重建效果;Komolafe等[66]使用迭代级联DenseNet和去卷积网络实现重建算法的迭代展开,在投影域和图像域同时使用深度先验更新策略;Hu等[67]在ACID重建框架的基础上,提出了一种基于残差学习的深度迭代优化网络DIRO,可进一步提高有限角度CT的成像效果;随后为抑制4D-CBCT重建中的伪影,在网络设计中引入先验图像特征融合模块,并通过迭代展示的方式形成出了一种先验正则化迭代优化算法PRIOR,能大幅度提高4D扫描时的重建图像质量[68]。

基于先验约束模型的方法是在传统迭代算法的基础上进行的,其训练和优化是分开的。基于迭代展开的方法是一个端到端的过程,优化被纳入训练中。如图4所示,迭代展开的方法与先验约束模型的方法的前向数据流相似,但展开类方法的后向数据流是端到端的,即完整的反向数据流是从输出到输入的误差信号的反向投影,可以以统一的方式进行训练,其中所有参数,包括正则化参数,都可以从训练中获得。然而,不可避免的是模型需要更大的存储空间,从而限制了展开的迭代次数。尽管迭代展开策略能为CT重建任务提供一种新的网络结构设计思路,但根据展开优化方案的性能很难直接判断网络的性能,如何展开优化方案并对其进行最优训练仍然是一个重要的课题。

图4 迭代展开类深度重建方法的前向和后向处理过程

3.3 无监督学习的深度重建

随着DL的出现及迅猛发展,与神经网络有关的图像重建方法逐渐得到广泛研究。现有的有监督图像降噪网络需要在大量匹配成对/标记数据中进行训练,然而匹配成对训练数据一直是医学图像重建及处理领域中的难题。一方面,通过模拟的方法获得的噪声数据与真实的噪声存在较大差异,泛化性能往往并不理想;另一方面,真实的匹配数据对采集需要特殊设备或局限于静态场景,条件限制苛刻。而无监督学习本质上是一个统计方法,在没有标签数据的情况下,通过数据自身存在的规律,来发现潜在的一些结构特征。由于对数据集没有严格要求,近年来,无监督学习逐渐成为生物医学图像处理等领域的研究热点,尤其是针对无监督学习中的自监督学习和基于生成模型这两种类方法,如图1所示。

3.3.1 自监督学习类方法

自监督学习旨在从数据本身自动生成监督标签,再以构造的监督信息训练网络,由于其具有良好的数据利用效率和泛化能力,因而在许多机器学习实例中得到应用。对于回归任务,例如图像去噪、图像重建等,自监督学习通常通过一种掩模形式来实现,其中部分数据对网络隐藏并用于定义训练标签。对于图像重建,使用基于物理先验的自监督学习来解决正则化最小二乘问题,其重建质量可与监督式深度重建相媲美。在这种情况下,掩模是在数据保真步骤中执行的,与先验约束项相分离,并且有助于使用在不同域数据的损失函数。

自监督学习为图像重建神经网络提供了一种不需要配对数据的训练方法,其中数据欠采样自监督学习(Self-Supervised learning via Data Undersampling, SSDU)的方法,是医学图像重建中一种泛化的掩模训练过程,基本流程如图5所示[69]。在重建流程中,扫描数据p通过掩模θ分成pθ和pθC两部分,HθC(·)为掩模集θC对应的域变换算子,DC表示与深度神经网络相关的数据一致性单元,用于实现扫描数据一致性操作。理论上掩模θ是随机选择的,在基于傅里叶变换的变换域使用基于高斯概率密度的可变密度掩模方法,可实现对傅里叶空间中低频内容的更密集采样用于数据一致性单元。然而,用于掩模的高斯密度需要一个控制其方差的超参数。因此,在后续的研究将SSDU扩展到多掩模操作,可使用多个掩模来定义损失,实现掩模真正意义上的随机选择,同时,也避免了超参数的设置[70]。此外,当域变换操作不适定时,多个掩模的使用也可以提高重建性能。

图5 自监督学习的迭代展开式深度重建算法流程

尽管这类自监督学习的方法已用于医学图像重建,但相关研究还处在探索阶段,如磁共振成像、功能磁共振成像等[71-72]。CT成像领域研究相对较少,大多是在无监督学习的CT图像处理领域。如Li等[73]提出了一种三维自注意卷积神经网络,并使用自监督学习的感知损失训练,提高低剂量CT图像的去噪效果;Wu等[74]提出一种自监督学习方法,学习相邻帧图像的映射,并用于动态CT灌注图像的去噪;Fang等[75]使用自监督的Noise2Noise先验,实现迭代式的CT材料分解;Zhang等[76]在集成投影域超分辨率模型和图像域模糊模型,建立一种自学习的混合模型并用于CT图像超分辨率重建中;Han等[77]通过低剂量CBCT图像重投影及伯努利采样的形式丢弃部分投影数据,并使用自监督学习来补充,以减少重建后低剂量CBCT图像的噪声;Choi等[78]利用三维CT图像数据不同方向上信号差异,并使用Corr2Self自监督学习框架,实现低剂量CT图像的复原。

在自监督学习的深度CT重建方面,相关研究还处于探索阶段,代表性的研究有:Hendriksen等[79]提出的Noise2Inverse重建框架,该方法通过自监督神经网络学习获取先验并用于CT重建,实验结果表明,能很好地降低CT重建图像中的噪声;Lagerwerf等[80]提出的Noise2Filter重建框架,该方法属于域变换类,以投影数据自监督学习方式建立解析重建的滤波器,实现快速三维CT成像;Yu等[81]通过投影域和图像域的交叉自监督学习,实现CT图像金属伪影的去除;Unal等[82]仅使用投影数据进行自监督学习,获取解析重建的权重并进行重建,实验结果表明,在低剂量CT重建中能获得较好的成像效果;Zang等[83]提出的IntraTomo重建框架,该方法是以退化或不完整的投影数据为输入,通过自监督学习的形式进行投影数据合成与预测,并结合局部与非局部先验进行重建;Zhou等[84]提出的Noise2Projection重建框架,该方法是通过相邻角度投影的自监督学习来去除投影数据中的噪声,其中学习网络为U型架构。未来,这类无监督学习方法将是医学图像重建中的重要研究方向,必将在低剂量CT重建、稀疏角度CT重建、能谱CT重建等领域大放光彩。

3.3.2 生成模型类方法

无监督学习生成模型的任务是建立一个从隐向量生成预期数据的模型。以生成模型为基础的特征学习,从网络结构和目标函数的角度提出了许多重建方法,大体上包括隐式的概率模型(如VAE等)和显示的概率模型(如GAN等)两种。VAE主要是使用对数似然函数作为训练目标,而GAN是使用对抗性训练来最小化模型和数据分布之间的f散度或积分概率度量。

使用常规无监督学习方法用于图像重建的流程图如图6所示,该流程图由无监督的先验学习步骤和迭代重建步骤组成,重建目标函数与基于先验约束模型类方法相同。在先验学习阶段,旨在通过网络训练来学习图像的数据概率分布,特别是学习先验的梯度。在迭代重建阶段使用训练好的先验模型,可以在约束数据保真项的同时约束整体解空间来实现迭代重建算法。交替迭代重建过程可写成:

图6 生成模型类深度重建的流程图左侧为先验学习过程;右侧为迭代重建过程

(5)

式中,Ψ(·)为生成模型网络,α和β为拉格朗日乘子。

GAN大多用于CT图像或数据的复原处理等,此类研究相对成熟[85-87]。基于生成模型的深度CT重建方法较少,代表性的研究有:Wu等[45]采用K-稀疏自动编码器用于无监督的特征学习任务,并在重建过程中最小化重建图像和流形表示之间的距离以及数据保真度来提高图像重建质量;Bai等[88]在有限角度CT重建中,使用一种自编码的卷积神经网络生成有限角度扫描缺失的投影数据,以提高重建质量;Barutcu等[89]使用自学习的生成模型为约束项,与全变差约束相结合以提高有限角度CT重建图像质量,实验结果表明在噪声抑制和图像细节恢复上具有很好的效果;Kandarpa等[90]以双U-net为生成器,建立从投影到图像的直接深度网络重建框架;蔡等[91]通过构建和分析普通CNN与GAN两者的性能差异,提出了一种创新的扫描方式,可有效获取低噪声的微米级计算机断层扫描(Micro-CT)数据,并取得了很好的重建效果;Xing等[92]以自注意力GAN建立深度迭代重建框架,可实现噪声或不完全投影数据的高质量重建;Zhang等[47]提出一种REDAEP算法,该方法是在去噪自编码先验模型的基础上,采用变量增强技术和正则化约束以挖掘图像更高维的先验信息。Song等[93]以基于分数生成模型为基础,建立全无监督的逆问题求解框架,该方法可以实现医学图像的无监督重建;Zhang等[30]为实现低剂量CT 重建过程中的细小结构的增强,设计了一种CLEAR网络,该网络包括混合域生成器与图像域判别器,并使用复合损失函数联合优化,实现了从投影数据到高质量图像数据映;Unal等[94]以深度生成正则化为先验,实现无训练数据的无监督低剂量CT重建,实验结果表明该方法较TV重建具有一定优势;He等[95]以深度梯度先验为生成模型,并以梯度下降的更新方式实现低剂量CT图像重建;Zach等[96]以无监督学习策略获取图像全局感受野内的参数化正则项,实现高层特征的统计信息,此为先验框架可实现不同扫描条件下的CT重建。Zhu等[97]提出一种深度能量模型的新型CT重建方法,该方法通过郎之万动力学迭代更新训练的先验,并将数据一致性作为条件项集成到迭代生成模型中,以提高重建图像质量。尽管生成模型在处理自然图像方面取得了成功,但在医学图像重建领域的研究却不是很多,尤其是在CT重建方面。

3.4 损失函数

CT图像重建方法表现与网络结构、训练数据以及训练过程中采用的损失函数有关。损失函数用于评估数据在特定网络模型中的建模效果,通常由一个或多个损失函数组成,对重建的最终图像质量有很大的影响。

均方误差(Mean Square Error, MSE)是许多深度模型中广泛采用的一种损失函数,MSE处处可导,且收敛速度较快,但异常值处理并不健壮,且其均值操作会导致纹理信息丢失、过度平滑以及生成虚假病变信息等问题[29],当训练数据中存在噪声时,这种影响尤为突出。以平均绝对误差(Mean Absolute Error, MAE)作为MSE的替代方法成为了优化DL模型的一种较理想的方法,实验结果表明,它可以克服MSE损失引起的图像模糊问题[28]。但MAE优化的DL模型也有一些缺陷,如重建图像存在的畸变问题。将压缩感知去噪思想引入网络训练中,可提高网络的噪声伪影抑制能力,但同样会出现过平滑现象,如TV损失[94]。在预训练网络VGG发布后,将感知损失引入DL模型优化过程中,可一定程度克服MSE和MAE损失造成的重建图像退化问题,能够获得较好的视觉效果[73, 85]。但仅采用感知损失重建出的图像容易出现网格伪影,因此,感知损失通常与MSE相结合来优化DL模型。保持结构信息方面,有结构相似性(Structural Similarity, SSIM)损失函数,SSIM表现优于MSE,且去噪能力更好[94]。此外,多尺度SSIM损失可结合不同分辨率的图像细节,能够在不同比例上保存结构和上下文信息,也是一种优秀的损失函数。另外,边缘损失也能在一定程度上保持图像内容结构信息[98]。

无监督学习中,尽管对抗损失能够生成与目标分布具有相似纹理的图像,但在数据量不足的情况下,会引入解剖学不正确的伪影结构。因此,基于像素内容的MAE和MSE损失常常被添加到对抗损失中引导图像的内容信息重建过程。研究证明,基于对抗损失网络存在一定程度的难以收敛问题[85],因此,在文献[85]中,通过引入带梯度惩罚的Wasserstein距离作为损失函数来克服收敛性问题。此外,在循环GAN网络和最小二乘GAN网络中使用的循环一致性损失和最小二乘损失,也可以在一定程度上克服GAN网络训练过程存在的各种问题[86]。联合不同域的数据损失也是重建中的一种可选方法,如投影域数据损失,该损失是将损失函数作用于投影数据中,可有效提高数据的一致性,通常与图像域的损失联合使用[94]。深度重建模型中常用损失函数及其优缺点如表1所示。

表1 深度重建模型中常用损失函数

4 讨论与展望

深度重建方法可以将CT重建过程协同集成到神经网络中以获取优异的成像性能,而受到越来越多的关注。随着近几年深度神经网络的快速发展,研究人员从不同的角度提出了许多深度重建方法。尽管这些方法在实验数据中表现优异,但针对实际临床应用仍需进一步改进。DL应用于CT重建领域仍然面临一些问题:①深度重建模型的泛化性。由于设备、扫描部位、扫描模式等差异,会导致重建图像在局部区域CT值、对比度、噪声纹理以及伪影特征等方面存在差异,应用训练后的深度重建模型时,其泛化能力会成为一个重大问题,如基于域变换类深度重建算法。此外,部分深度重建模型中超参数较多,大多需要手动设置,这也限制了其在不同设备数据间的泛化能力,如基于先验约束模型类方法。因此,构建能够在临床应用中保持性能的健壮深度重建模型尤为重要。②深度重建模型的稳定性。在不同噪声干扰下、图像结构信息变化下、训练数据变化下,绝大多数深度重建算法缺乏稳定性。在临床成像系统中,稳定准确的图像重建尤为重要,这是疾病筛查诊断治疗的必要条件,因此,在提高重建准确性的同时,保证其良好的稳定性也至关重要。③深度重建模型的可解释性。DL缺乏直接的物理模型或理论可解释机制,其深度重建模型难以被临床医生接受。近年来,通过构建可解释性的神经网络或提高网络的可解释性成为DL领域的热门研究,未来构建可解释网络并与重建的融合,做到真正意义上的深度可解释迭代重建,值得深入研究。

除此之外,在深度重建研究领域,近年来还出现了一些新的学习型的方法,来提高CT重建质量,部分研究已取得一定的进展。①Transformer网络:将注意力集中在重要特征上,以实现基于图像内容和特征的自适应处理,在计算机视觉领域中显示巨大优势。在Transformer网络思想基础上,已有一些新的深度重建策略[99, 102],未来这一方向有望进一步提高医学图像重建性能。②任务驱动重建:重建后的CT图像最终是为筛查诊断和介入治疗服务。以特定任务为目标,在深度重建中使用具体任务损失函数相关的共享特征层,可进一步提高成像效果。通过优化成像数据流,增加不同阶段的数据处理及图像理解工作,重建出更适合预期临床任务的图像将是未来研究的重要方向[103-104]。③质量评估驱动成像:深度神经网络可更好的实现医学图像的质量评估。然而,基于DL的图像质量评估不仅可以评估重建质量和诊断性能,还应该以损失函数的形式辅助重建。未来将会出现更多的DL图像质量评估方法,并应用于医学成像中[105-107]。④域泛化学习重建:CT数据的差异性尤为明显,数据差异带来的泛化性下降是制约深度重建临床应用的主要因素。域泛化学习思想是通过多个不同域数据(但具有一定的相关性)学习一个统一的模型,引起了广泛关注。将域泛化学习思想应用于深度重建中,有望提高深度重建模型在不同扫描数据中的泛化性,加速深度重建类方法的临床落地应用[108-109]。

5 总结

本文介绍了CT成像原理、投影过程、噪声情况,并对基于传统和DL的图像重建算法所涉及模型框架进行系统介绍与分析,并从学习策略及模型优化角度概述了国内外学者在CT深度重建领域的研究成果。其中,重点介绍了DL中的有监督学习方法和无监督学习方法,有监督学习方法主要包括对传统重建算法中的解析重建过程、迭代重建正则化项、迭代重建迭代求解过程使用DL方案;而无监督学习重建则以自监督学习方法和生成模型作为典型代表,自监督类学习主要是使用掩模策略用于图像处理和重建,而生成模型重点以编码器和生成器相互协作作为训练手段。与此同时,本文还对图像重建的常用损失函数也进行了总结,介绍了各损失函数的优势和局限性。最后,讨论了基于DL的CT深度重建方法所存在的一些问题及面临的挑战。随着数据的增加和计算能力的快速发展,自动化的影像数据处理和分析的需求不断增加,而高质量的成像是实现高效精准诊断和决策的前提,基于DL的深度重建算法将是成像领域新的热点研究方向。借助DL优异的数据表达性能,深度重建方法有望促进快速、高效、经济和安全的医学成像技术的发展,更好的服务于患者。

猜你喜欢
先验投影神经网络
解变分不等式的一种二次投影算法
基于最大相关熵的簇稀疏仿射投影算法
神经网络抑制无线通信干扰探究
基于无噪图像块先验的MRI低秩分解去噪算法研究
找投影
找投影
基于自适应块组割先验的噪声图像超分辨率重建
针对明亮区域的自适应全局暗原色先验去雾
基于神经网络的拉矫机控制模型建立
基于平滑先验法的被动声信号趋势项消除