基于轻量化网络的图像超分辨率研究综述

2020-03-24 03:48宇,宁
智能计算机与应用 2020年11期
关键词:残差特征提取轻量化

王 宇,宁 媛

(贵州大学 电气工程学院,贵阳 550025)

0 引言

近年来,为了提升图像的质量,人们从设备着手,通过对硬件进行升级改造可以提升成像系统性能,提高图像分辨率。然而,考虑到各方面的因素,诸如硬件的制作成本、制作工艺等一些限制,学者通过研究对原始图像进行图像处理操作来获得更高分辨率的图像,因此产生了图像超分辨率技术[1-2]。

基于深度学习的图像SR 积累了大量的关注度,它已经延伸到各种现实世界的应用中。如医学成像、视频监控、遥感、图像分类、检测、识别和去噪。然而,现有的用于图像SR 的卷积神经网络一般有两个局限性:一是网络深度很深,不仅削弱了自下而上的信息流,而且模型容量大,计算负担大;其二网络架构往往是前馈式的,使得前几层无法捕捉到后几层的有用信息,限制了特征学习能力。

因此,根据网络模型中存在的大量冗余参数,研究者提出了网络模型压缩方法,并将模型压缩方法分为浅层压缩和深层压缩两大类。具体分类如图1所示。本文主要从轻量化网络模型出发,介绍提出的几种轻量化网络模型。

图1 模型压缩分类Fig.1 Model compression classification

1 轻量化网络

神经网络轻量化的原则是获得更高效的网络,优化网络结构和卷积计算,减少网络参数的同时不损失性能,加强对网络内部的理解。下面将主要介绍近年来的几种轻量化压缩网络。

1.1 LGCN

文献[3]中提出了一种针对SISR 的快速轻量级组卷积网络(LGCN)模型,该模型结构如图2 所示。其主要由三部分组成:特征提取网(F-Net)、级联记忆群卷积网(C-Net)和重建网(R-Net)。创新之处主要集中在C-Net 上,即级联多个记忆群卷积网(MGCN),结构如图3 所示。具体来说,MGCN 包含一个记忆单元和一个通道注意单元。记忆单元由多个交替的组卷积层和1×1 卷积层组成,采用密集连接的结构建立记忆机制。与DenseNet[4]不同,利用1×1 卷积层作为中间层,逐步收集局部信息。因此,MGCN 中的1×1 卷积层不仅可以对组卷积层的输出进行线性组合,而且可以逐步收集局部信息。信道关注单元的灵感来自于挤压和激励网[5]的思想,本文将挤压和激励网[5]中的完全连接层替换为1×1 卷积层,以更好地模拟通道方面的关系。

图2 LGCN 整体框架结构Fig.2 LGCN overall framework structure

图3 MGCN 内部结构Fig.3 Internal structure of MGCN

通过实验比较了LGCN 与几种轻量级SISR 方法。其中包括Bicubic、SRCNN[6]、VDSR[7]、LapSRN[8]、MSLapSRN[9]、DRRN[10]和IDN[11]。实验在4 个基准数据集上评估了超分辨率图像的平均峰值信噪比(PSNR)和结构相似度(SSIM)值,其结果见表1。在大多数缩放因子下,提出的LGCN 方法在大多数数据集上实现了最佳性能。模型在Set5 上与IDN 相比,在2×和4×尺度上的PSNR 表现稍差。需要注意的是,Set5 数据集是最小的数据集,只包含5 张图片。以4×尺度为例,模型在Set14 数据集上比IDN 高0.05 dB,在具有挑战性的Urban 100 数据集上比IDN 提高0.08 dB。此外,在所有数据集上,LGCN 在所有缩放因子下都能获得最高的SSIM 值,并且能够生成与原始高分辨率图像具有高度结构相似性的图像。

此外,还选择了两种非轻量级SISR 方法,即SRResNet[12]和EDSR[13]进行比较,结果见表2。由表2 可见,两种方法都优于LGCN。这是一个合理的结果,因为其有更深、更广的网络结构,包含大量的卷积层和参数。实际上,SRResNet 和EDSR 的参数分别为1 543K 和43 000 K,而LGCN 的参数只有660 K。

表1 对比最新的SISR 算法的量化结果Tab.1 Comparison of quantification results of the latest SISR algorithm

表2 对比非轻量化网络结果Tab.2 Comparison of non-lightweighted network results

实验同时在Set14 数据集上进行了四倍缩放因子的视觉比较,如图4 所示。在图4 中可以观察到,大部分的比较方法都会因高频信息的丢失而导致红框中的花朵出现模糊伪影。相比之下,LGCN 方法可以清晰地恢复花上的红点。

在每个区块训练了不同分组大小,即G=1、2和4 时所提出的LGCN,并在表4 中显示了它们的参数和PSNR。G=1 是无组的标准卷积。当分组大小为2 时,性能下降0.11 dB,对于222 K 参数减少。当分组大小改为4 时,性能比G=2 时降低0.16 dB,参数减少110 k。可以看出,随着组数的增加,性能越来越差,而参数数却迅速减少。因此在最终的LGCN 模型中选择G=2。从图5 中可以看出,LGCN在G=2 时,实现了一个相对轻量级的模型,同时表现出了优异的重建质量。

图4 set14 数据集的四倍因子的视觉比较Fig.4 Visual comparison of the four-fold factor for the set14 dataset

图5 模型参数对比Fig.5 Comparison of model parameters

2.2 FRNN

2019 年,xu[14]提出了一种基于反馈的轻量级复用神经网络(FRNN)。FRNN 是由一系列递归的密集连接块(DCBs)与低分辨率(LR)图像特征和输出前的DCB 作为输入。每个DCB 自适应地融合来自侧面输出中间特征图的多层次特征,生成强大的特征表示。同时,DCB级联了一组多尺度残差块(MRB),每一个MRB 都有一个放大的视场,以充分捕捉多尺度的上下文信息。

图6 介绍了MFRSR 的网络框架,包括一个上采样分支和一个残差学习分支。

图6 MFRSR 的结构图Fig.6 Structure of the MFRSR

上采样分支利用一个简单的双线性上采样核来调整LR 输入的大小,使其与HR 输出的大小相同。残差学习分支由LR 特征提取块(LRFEB)组成。

如图8 所示,密集连接块包含N个多尺度残差快,展示了MRB 的内部结构,利用不同的内核来捕捉具有跳转连接的多尺度上下文信息。

图7 DCB 结构Fig.7 DCB structure

图8 MRB 结构Fig.8 MRB structure

针对几种算法(SRCNN、VDSR、MSRN[15]、DDBRN[16]、SRFBN[17])进行了仿真实验。由图9 可以看出,其它几种算法都会产生更多错误的文本方向或令人不快的伪影。相比之下,MFRSR 能够生成精确和真实的SR 图像,准确地重建细节。

文献[14]的创新之处在于:

(1)提出了一种基于反馈的轻量级RNN,用于高精度的SISR。该网络充分利用了LR 图像中丰富的多尺度上下文信息,生成了强大的特征呈现,这对于精确的SISR 来说至关重要。

(2)设计了一种新型的多核融合机制,能够在多尺度输入的情况下动态调整输出特征表征的感受野大小。因此,网络不需要通过加深层数来扩大输出表征的接受场大小,从而实现模型容量的轻量化。

(3)提出的MFRSR 是轻量级的,只有4.5M 的参数,如图10 所示。但却在5 个基准数据集上的PSNR 和SSIM 方面达到了最先进的性能。

图9 不同算法实验效果对比Fig.9 Comparison of the experimental effects of different algorithms

图10 不同算法PSNR 对比Fig.10 Comparison of different algorithms PSNR

2.3 AMSRN

Liu[18]提出了一种针对SISR 的轻量级网络,即基于注意力的多尺度残差网络(AMSRN)。整个网络的主框架由一个残差空间金字塔池化(ASPP)块以及一个空间和信道感知的注意力残差(SCAR)块交替堆叠构成。残差ASPP 块利用不同扩张率的平行扩张卷积,来达到捕捉多尺度特征的目的。SCAR块在双层卷积残差块的基础上增加了通道注意力(CA)和空间注意力(SA)机制。此外,在SCAR 块中还引入了分组卷积,在防止过拟合的同时进一步降低参数。同时还设计了一个多尺度特征注意模块,为浅层特征提供指导性的多尺度注意信息。特别是提出了一种新颖的升标模块,采用双路径联合使用亚像素卷积层和最近插值层,对特征进行升标,而不是单独使用解卷积层或亚像素卷积层。

为了使网络集中在重要的特征上以增强其表示能力,根据通道和空间位置的相互依赖性,设计了一个空间和通道感知的注意力残差块,将SA 单元和CA 单元结合成残差块。图11 描述了所提出的空间和通道感知注意力模块。

AMSRN 的框架如图12 所示,其中包括5 个部分:初始特征提取阶段、多尺度特征提取阶段、深层特征提取阶段、上尺度特征提取阶段以及重建阶段。

图12 AMSRN 的整体结构Fig.12 Overall structure of the AMSRN

定量的角度对提出的AMSRN 模型与一些最先进的方法进行评估,包括SRCNN、VDSR、DRCN[19]、LapSRN、MemNet[19]、EDSR、CARN[20]、MSRN、DCSR[21]、AWSRN[22]和DADN[23]。

图13 描述了Set14 图像的平均PSNR 与运行时间的权衡。值得注意的是,所提出的方法在保证重建性能的前提下,速度相对较快。

图13 不同方法的精度和速度的比较Fig.13 Comparison of accuracy and speed of different methods

通过实验,Liu[18]提出的模型达到了与最先进的方法相媲美的效果,网络非常轻巧。然而,在升级因子较大的情况下存在不足。

2.4 LIN

Zhao 等[24]提出了一种轻量化横向抑制网路来进行精准磁共振(MR)图像超分辨率(SR)。所提出的网络是受横向抑制机制的启发,其假设相邻神经元之间存在抑制效应。网络的主干由若干个侧向抑制块组成。其中,抑制效果是由一个级联的局部抑制单元明确实现的。当模型规模较小时,明确抑制特征激活,能进一步探索模型的表达能力。为了更有效地提取特征,还使用了多个并行的扩张卷积,直接从输入图像中提取浅层特征。

为了提取不同接受场的浅层特征大小,在特征提取子网中使用一组3×3 稀释率不同的conv 层,如图14所示,只应用一个3×3 的conv 层来重建最终输出。

通过适度的模型参数和计算开销,实现了高精度和快速的SR 重建。在横向抑制机制的激励下,设计了一个局部抑制单元(LIU),明确地对特征图进行抑制调节,减轻了模型的表示负担。通过整合不同接受场大小的浅层特征,提升了模型性能。通过这种策略增加提取特征的多样性。将侧向抑制机制与浅层特征提取相结合策略提高了深度模型的性能。

通过对几种典型图像超分辨率算法(NLM[25]、SRCNN、VDSR、IDN、RecNet[26]、FSCWRN[27])进行实验对比分析,这些方法的定量结果直接利用峰值信噪比(PSNR)和结构性分析,并且只比较与LIN模型参数数量大致相似的模型。此外,还采用了几何自编的技巧来进一步提高模型的性能,在这种情况下,其被表示为LIN+,见表3。

图14 横向抑制网络的整体结构Fig.14 Overall structure of the transverse suppression network

表3 几种典型SR 模型之间的定量比较Tab.3 Quantitative comparison between several typical SR models

根据表4,执行最慢的是NLM,因为其是基于迭代优化处理的。此外,基于深度CNN 方法的运行时间也很相似,都是每卷小于5 s。本文模型的效率与其它快速模型相当。例如,IDN 和RecNet,由于这些模型规模相似,提出的LIN 和LIN+的性能明显优于这些模型,见表3。该模型不仅在SR 性能上有很高的准确性,而且在应用中也有实际作用。

表4 比较模型处理的运行时间Tab.4 Comparison of model processing runtimes

在不同的MR 图像上进行的广泛实验表明(如图15),所提出的模型优于其他轻量级SR 模型。由于模型规模和性能之间更好的权衡,LIN 模型更适合现实世界的应用和部署。

图15 多种模型实验仿真Fig.15 Experimental Simulation of Various Models

3 结束语

本文介绍了几种轻量化网络模型,这一些网络模型在很大程度上都比传统的神经网络在网络参数、视觉效果上都有很明显的优势。特别是在移动设备上的应用,小型化的神经网络的研究将会使得移动设备图像超分辨率拥有更广泛的发展前景。特别是解决传统神经网络运算需求过大而无法在移动设备上高效运行的问题,但是其具有任务单一、泛化性差的缺点,因此,未来需要对网络搜索算法进行研究,在不同的应用场景下,可以根据网络搜索对该场景下最优的轻量化网络进行搜索并应用,使得不同的轻量化网络都能发挥出其最优的性能。基于轻量化网络搜索的超分辨率将是未来的一个研究方向。

猜你喜欢
残差特征提取轻量化
同步定位与建图特征提取和匹配算法研究
基于ABAQUS的某轻卡车蓄电池支架轻量化
中低速磁浮直线感应电机轻量化研究
基于残差-注意力和LSTM的心律失常心拍分类方法研究
重卡车架轻量化设计
融合上下文的残差门卷积实体抽取
基于残差学习的自适应无人机目标跟踪算法
基于深度卷积的残差三生网络研究与应用
空间目标的ISAR成像及轮廓特征提取
一种轻量化自卸半挂车结构设计