基于深度学习的单帧图像超分辨率重建技术

2023-07-17 09:30黄梦宇祁佳佳魏东等
计算机应用文摘 2023年13期
关键词:注意力机制深度学习

黄梦宇 祁佳佳 魏东等

摘要:超分辨率重建技术将低分辨率图像通过算法重建成高分辨率图像。深度学习方法已经在超分辨率重建中取得了显著的进展,文章综述了基于深度学习的单帧图像超分辨率重建技术。首先,介绍了超分辨率重建的研究背景及意义、传统方法的缺陷,以及常见的公开数据集。然后,阐述了近年来基于残差网络及注意力机制的单帧图像超分辨率重建技术等研究内容。最后,对基于深度学习的超分辨率重建技术进行了展望与总结,虽然当前已经取得了一些进展,但仍然面临很多挑战,如模型的泛化能力不足、复杂场景下的超分辨率重建等问题。随着深度学习技术的不断发展和改进,超分辨率重建技术将会有更加广泛的应用。

关键词:深度学习;超分辨率;残差网络;注意力机制;Transtormcr

中图法分类号:TP391 文献标识码:A

1 研究背景及意义

图像超分辨率(Super⁃Resolution,SR)重建技术是计算机视觉领域重要的数字图像处理技术,它通过使用一系列算法和模型,从低分辨率(Low⁃resolution,LR)图像中重建出高分辨率(High⁃resolution,HR)图像,由于图像的高分辨率模式包含较多细节和信息,因此该技术在许多领域具有广泛的用途。目前,该技术已经在医疗图像分析、卫星遥感观测、人脸识别及刑侦分析、监控视频复原、视频娱乐系统、工业成像监测等领域得到越来越多的实际应用。

1.1 基于像素插值的重建算法

该方法通过简单的像素插值技术来提高图像的分辨率。虽然这种方法非常简单,但其重建效果通常较差,因此它不能有效地处理图像中的高频信息。

1.2 基于边缘信息的重建算法

该方法利用图像中的边缘信息来提高图像的分辨率。这种方法通常比插值方法更有效,但它对噪声和图像伪影的处理效果并不理想。

1.3 基于局部统计的重建算法

该方法利用图像中的局部统计信息来重建高分辨率图像。这种方法通常需要高质量的低分辨率图像和精确的统计模型,条件较为苛刻。

1.4 基于深度学习的重建算法

该方法基于深度学习技术使用卷积神经网络(CNN)或生成对抗网络(GAN)来训练图像的重建模型,这种方法通常具有较高的重建质量和准确度。在深度学习的框架下,超分辨率重建的任务通常被视为学习从低分辨率图像到高分辨率图像的映射函数,主要可以分为2 类:基于重建的算法和基于生成的算法。

1.4.1 基于重建的算法

基于重建的算法通过学习映射函数将低分辨率图像重建成高分辨率图像。通常使用卷积神经网络对图像进行特征提取和重建,其中SRCNN[1] 是第1个使用深度卷积神经网络进行超分辨率重建的网络,它采用3 个卷积层来提取特征,3 层分别为特征提取层、非线性映射层和重建层,然后使用反卷积层进行图像重建。

1.4.2 基于生成的算法

基于生成的算法使用生成对抗网络来学习生成高分辨率圖像。其中,SRGAN[2] 是第1 个使用生成对抗网络进行超分辨率重建的网络,它使用了1 个生成器网络和1 个判别器网络,生成器网络负责将低分辨率图像转换为高分辨率图像,判别器网络则负责区分生成器生成的图像和真实高分辨率图像。

2 常见数据集

在超分辨率重建算法的研究中,为了评估算法的性能和效果,需要使用一些公开的数据集进行测试和比较。表1 列举了较为常见的几个公开数据集,其被广泛应用于单图像超分辨率重建的算法研究和评估中。研究者可以使用这些数据集进行算法的训练、调试和测试,以提高超分辨率重建算法的性能和效果。

3 相关方法

3.1 基于残差网络的超分辨率重建技术

残差网络是一种深度神经网络结构,主要用于解决深度网络训练中的梯度消失问题。残差网络引入了跳跃连接来学习残差,即学习输入和输出之间的差异,从而避免了传统的深度神经网络中梯度消失的问题,其可以有效地学习到图像的非线性特征,从而提高重建图像的质量,因此其被广泛应用于单图像超分辨率任务中。由于受残差网络结构的启发———通过增加网络层数来加深网络结构,因此极深卷积神经网络的图像超分辨率网络VDSR[3] 被提出,并取得了更好的图像重建效果。此后,也有极具代表性的网络EDSR[4] 通过加深和加宽残差模块,使其学习到更复杂的图像特征,该方法在提高图像质量和保留细节方面都表现出色,并且具有较快的速度和较小的模型尺寸,该模型所具有的网络结构成为后续大量相关研究工作所参考的基线。

大量研究表明,使用残差网络的单图像超分辨率方法可以提高图像的重建质量,使重建图像更接近于原始高分辨率图像。此外,许多研究还通过比较不同的网络结构和训练方法,进一步优化了残差网络的超分辨率重建性能。

3.2 基于注意力机制的超分辨率重建技术

注意力机制是一种在深度学习中广泛应用的技术,它可以使网络集中于输入图像的特定区域,从而提高网络的性能和准确性。单图像超分辨率重建技术可以提高网络对于图像细节的捕捉和重建能力,常用的主要有通道注意力机制、空间注意力机制和自注意力机制3 种。注意力机制中的全局注意力机制能够关注整张图像,对图像中所有的细节进行捕捉;局部注意力机制则可以关注特定区域,对细节进行更加精细的捕捉。

RCAN[5] 网络首次将注意力机制使用在超分辨率图像处理任务中,其仅使用了通道注意力作为该模型的注意力模块,其余部分与EDSR 网络相同,有了通道注意力的加持,该模型效果较EDSR 相比有显著的提升。Transformer[6] 是另一类神经网络结构,它完全消除了递归和卷积,可以同时对输入序列中的所有位置进行处理,在自然语言处理和计算机视觉任务中表现出显著的性能增强。Yang 提出了一种新的图像超分辨率纹理Transformer 网络TTSR[7] ,其由4 个相关联的模块组成,包括可学习纹理提取器、嵌入模块、用于纹理转移的硬注意模块和用于纹理合成的软注意力模块,这些模块针对图像生成任务进行了优化。该网络可以通过注意力机制发现对应的深层特征,纹理变换器可以使用跨尺度方式进一步堆叠,从而能够以不同放大率进行纹理恢复。

通过应用注意力机制,单图像超分辨率重建模型可以更加准确地提取图像特征,并在重建过程中更加关注重要的信息,从而提高重建质量和效果。

4 未来展望

使用残差网络的单图像超分辨率已成为一种有效的图像重建技术,具有广泛的应用前景。但是,尽管该方法已经取得了较好的效果,但仍有许多挑战需要克服。例如,如何处理复杂的图像结构和纹理信息,如何减少计算成本等,未来仍需要继续研究和探索这一领域。同时,在单图像超分辨率任务中使用Transformer 可以实现更好的图像重建效果,该技术可以作为未来研究的参考方向,以进一步提高图像超分辨率的性能。这些方法的不同设计,也提供了不同的思路和灵感,可以启发更多的创新想法。

5 结束语

超分辨率重建技术已成为计算机视觉领域一个重要的研究方向,虽然现有的技术和方法已经取得了一定的成果,但在真实场景中的应用还需要进一步的研究和改进。例如,训练好的超分辨率重建模型在未见过的数据上的表现通常不如在训练集上的表现,这可能是由于训练数据不够多样化或者过拟合等引起的。另外,对于复杂场景下的图像,如多物体、多纹理、有遮挡等,当前的超分辨率重建技术往往表现不佳。某些基于深度学习的超分辨率重建方法需要大量的计算资源和时间来进行训练和推理,这限制了它们的实际应用。对于高倍率的超分辨率重建,当前的技术还无法满足高质量的需求。随着深度学习技术的不断发展和改进,这些问题有望得到解决。未来,随着硬件和软件技术的不断发展,基于深度学习的超分辨率重建技术必将有更广泛的应用领域。

参考文献:

[1] DONG C,LOY C C,HE K,et al.Learning a Deep ConvolutionalNetwork for Image Super⁃Resolution[C]∥European Conferenceon Computer Vision,2014:184⁃199.

[2] LEDIG C,THEIS L,HUSZAR F,et al.Photo⁃Realistic SingleImage Super⁃Resolution Using a Generative AdversarialNetwork[C]∥Proceedings of the IEEE/ CVF conference onComputer Vision and Pattern Recognition,2017:4681?4690.

[3] KIM J,LEE J K,LEE K M.Accurate Image Super⁃ResolutionUsing Very Deep Convolutional Networks[C]∥ Proceedingsof the IEEE/ CVF conference on Computer Vision and PatternRecognition,2016:1646⁃1654.

[4] LIM B,SON S,KIM H,et al.Enhanced Deep Residual Networksfor Single Image Super⁃Resolution [C] ∥ Proceedings of theIEEE/ CVF conference on Computer Vision and PatternRecognition,2017:136⁃144.

[5] ZHANG Y L,LI K P,LI K,et al. Image Super⁃ResolutionUsing Very Deep Residual Channel Attention Networks[C]∥European Conference on Computer Vision,2018:286⁃301.

[6] VASWANI A,SHAZEER N,PARMAR N,et al.Attention Is AllYou Need [C] ∥Advances in Neural Information ProcessingSystems,2017:30.

[7] YANG F,YANG H,FU J,et al.Learning Texture TransformerNetwork for Image Super⁃Resolution[C]∥Proceedings of theIEEE/ CVF conference on Computer Vision and PatternRecognition,2020:5791⁃5800.

作者简介:

黄梦宇(1992—),硕士,研究方向:计算机视觉( 通信作者)。

祁佳佳(1996—),硕士,研究方向:MEMS 集成智能传感器。

魏东(1968—),硕士,副教授,研究方向:计算机视觉。

揣荣岩(1963—),博士,教授,研究方向:MEMS 集成智能传感器。

猜你喜欢
注意力机制深度学习
面向短文本的网络舆情话题
基于自注意力与动态路由的文本建模方法
基于深度学习的问题回答技术研究
基于LSTM?Attention神经网络的文本特征提取方法
基于注意力机制的双向LSTM模型在中文商品评论情感分类中的研究
InsunKBQA:一个基于知识库的问答系统
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望