基于深度学习的红外图像超分辨率重建

2020-12-08 07:13史永祥蒋斌黄雍晫杨桂生李庆武张志良
应用科技 2020年4期
关键词:残差分辨率红外

史永祥,蒋斌,黄雍晫,杨桂生,李庆武,张志良

1.国家电网溧阳市供电公司,江苏 溧阳 213300

2.河海大学 物联网工程学院,江苏 常州 213000

红外成像技术提供了重要的目标热辐射信息,在诸多领域都有着广泛应用,包括热分析、视频监控、医疗诊断和遥感等方面。然而,由于红外传感器线性尺寸的关系,热成像仪捕获的红外图像空间分辨率低、清晰度差[1];同时高分辨率红外成像仪制作困难、成本昂贵。因此,本文在不改变硬件成像设备的情况下,通过输入低分辨率红外图像(low resolution infrared image,LRI),利用深度学习算法重建高分辨率红外图像(high resolution infrared image,HRI),提高红外图像的质量,以支持高层的计算机视觉任务[2]。

传统的超分辨率重建(super resolution,SR)算法主要有3 类:插值算法[3−4]实现简单、处理迅速,但会丢失图像细节信息,导致重建图像模糊;基于重建的算法通常需要利用多帧图像,并结合先验知识,属于多帧图像超分重建算法;而人工设计表示特征的局限性导致基于机器学习[5]的超分辨率重建算法也表现一般[6]。

近年兴起的深度学习在图像分类、图像分割和目标检测识别等计算机任务有着显著的效果,研究人员也尝试通过设计深度神经网络来解决超分辨率重建问题[7]。Dong 等[8]提出的SRCNN (image super-resolution using deep convolutional networks)首次使用卷积神经网络来完成超分辨率重建任务,模型能够自主学习低分辨率图像和高分辨率图像间的非线性映射关系,不需要人工参与设计特征,与传统算法相比,重建效果得到了显著提升;随后的SRGAN(photo-realistic single image superresolution using a generative adversarial network)[9]则引入了残差网络[10],使用残差块构建模型,并利用生成对抗网络[11](generative adversarial network,GAN)辅助训练,提高了重建图像的视觉效果和真实感;Lim 等[12]对SRGAN 的生成网络SRResNet网络的结构进行了修改,去除了残差块内的批归一化层(batch normalization,BN),构建了EDSR 网络,使得重建图像质量得到了进一步的提升;近期的SinGAN[13]网络,创新性地提出了只通过对单幅自然图像进行学习,通过在单个样本上训练应用于特定任务的模型,可用于图像的超分辨率重建。通过构建金字塔结构的全卷积生成对抗网络,捕捉不同尺度图像内部块的分布信息,从而生成保留原始目标结构和图像块分布的高质量的样本。

但是,SRCNN 等[14]网络都是为了解决可见光图像超分辨率重建问题而构建的,不能直接应用到红外图像的超分辨率重建问题上。因此,本文根据红外图像噪声大、图像细节信息模糊的特性,在EDSR 网络结构的基础上,构建了针对红外图像超分辨率重建的IEDSR(enhanced deep residual networks for infrared image super-resolution)网 络。首先,针对EDSR[11]简单地移除BN 层可能带来的训练困难问题,IEDSR 引入了池化层,解决训练过程中的梯度弥散问题,同时还能有效缩减模型参数量,提升性能;其次IEDSR 在残差模块中新加入了一层卷积层和激活层,通过增加网络深度,提高网络的学习能力,用于有效恢复图像的边缘、纹理等细节信息;最后模型在预测时使用了增强预测算法,通过取均值来达到提高精准度的目的,有效地优化重建图像,提升重建高分辨率红外图像质量。

1 IEDSR 网络结构

IEDSR 网络以残差网络结构作为骨干网络,和EDSR 网络相似,模型只需要学习图像高频信息,提高了学习速度;同时在网络输出端都使用了反卷积层,实现图像空间分辨率的提升。不同的是,IEDSR 网络针对红外图像分辨率低、信噪比差和对比度低等特性,对残差模块进行了改进:加入了新的卷积层和池化层,扩大感受野,提高模型的学习能力。另外,在模型预测时使用了增强预测算法来提高精准度。

1.1 残差网络

残差网络[15]是由多个结构相同的残差块通过级联的方式连接而成,单个残差块如图1 所示。残差块分2 条路径处理输入:短接路和学习路,并在输出时融合2 条路径的特征数据。残差网络减轻了网络的学习负担,网络只需学习输入与输出的差别信息,有效地解决了深层网络训练困难的问题,同时也能保证良好的性能。

图1 单个残差块

残差网络的引入,使得图像超分辨率重建效果得到了进一步的提高。各网络残差块结构如图2 所示。在残差模块中,输入经卷积处理后,还需要通过批归一化(batch normalization,BN)层,BN层通过计算卷积处理后的数据的均值和方差,增加正则化参数,使批次数据具有相同的分布模型。因此,批归一化层对特征进行了规范化,缩小了数据的变化范围[16],因此EDSR 网络去除了BN层,其残差块结构如图2(b)所示。

图2 各不同残差模块对比

1.2 残差块的改进

如图1 所示,x为输入图像,U(x)为学习路径的输出,残差模块的输出为F(x),则有

F(x)=max{0,U(x)+x}

对于普通的堆叠非线性层的神经网络,网络需要学习的映射函数为F(x),增加短接路后,残差网络只需要学习映射函数U(x)=F(x)−x,原来的非线性映射函数变成了U(x)+x。通常情况下,优化残差网络映射函数要比优化原来的映射函数容易得多。特别地当网络要学习的是等价映射函数时,学习U(x)=0要比学习F(x)=x简单得多[8]。

在生物神经网络上,一个神经元所反应的刺激区域叫做该神经元的感受野,对应卷积神经网络,每个卷积层输出的特征图上的像素连接到输入图像上的区域即为感受野(receptive field,RF)。卷积神经网络某一层的感受野计算如式(1)所示,感受野的计算要由后层向前层推算,且最后一层输出的特征图的感受野即为其卷积核的大小。

式中:R为本层感受野的大小;R′为后一卷积层感受野大小;S为卷积步长;K为卷积核的大小。由式(1)可知,卷积和池化的层数越多,层数越靠后,该层的感受野越大,网络学习时“反应”的图像范围更大,整体性更强,提取的特征也更高级、抽象,表达图像的能力更强。

因此,在构建IEDSR 网络时,选用了残差网络作为骨干网络用于训练,同时在残差块的调整中,与EDSR 网络一样,IEDSR 网络移除BN 层,但由于BN 层能够使网络模型更好地学习,避免出现梯度弥散现象,因此只是简单地移除BN 层可能会带来训练困难的问题。所以在移除BN层的基础上,加入了池化层,即使用池化层替代BN 层,提高训练效率,同时也能进一步扩大感受野。

深层神经网络依靠其更大的感受野范围,能够提取图像更加深层次、更加抽象的特征,有利于更好地重建图像。因此,在IEDSR 的残差模块中增加了卷积层和激活层的层数,通过增加局部残差模块的感受野,提高学习能力[17],用于有效恢复图像的大规模结构信息,如图2(c)所示。改进的残差网络通过增加残差模块的卷积层,能够增强模型非线性映射能力,扩大感受野,在保证网络深度的同时,避免出现梯度弥散现象;同时池化层能够减少网络参数量、减小过拟合。

1.3 增强预测算法

增强预测[18]算法通过沿边翻转、旋转等数据增强方式,生成多张输入,再对多个预测结果取均值,得到最终输出结果。增强预测通过平均,使模型对同一“输入”的预测不会产生较大的偏差,保证模型预测稳定,提高重建精度。

对于卷积神经网络,卷积运算具有平移不变性和旋转鲁棒性,旋转等操作对特征提取不会有较大影响。因此,可以将增强预测加入到模型测试阶段,提高重建精度。具体到本文,在对IEDSR模型进行测试时,分别将输入图像以4 条边线为轴翻转,再对输入旋转180°处理,得到5 张输入,经过网络重建,将单张预测复原到正常位置,取5 张预测的均值,得到最终的重建结果。

2 实验过程与结果分析

本文将可见光图像的超分辨率重建算法EDSR引入到红外图像的超分辨率问题上,并根据红外图像的特性对网络结构进行了改进,合理选择网络参数,有效减少了网络需要学习的参数和计算量。

本文模型的残差网络部分由16 个具有相同结构的残差块级联组成,卷积核尺寸均为3×3,其中残差块的特征图的深度维数为256。相对于EDSR 网络的32 个残差块、256 通道特征图,IEDSR模型需要学习的参数大大降低。

2.1 训练过程

本文训练过程采用Adam(adaptive moment estimation)优化算法,Adam 算法通过使用指数加权平均和偏差修正算法更新权重,能够加速梯度的下降,加快网络收敛,具有较快的学习速度;并使学习率离散下降,在不同的迭代次数内使用不同的学习率。具体的超参数设置如下:初始学习率为0.001,学习率衰减因子设置为0.5。在DIV2K数据集上预训练时的迭代次数为300,每经过100次迭代,学习率衰减为原来的0.5 倍;使用红外图像对模型进行微调时,初始学习率为0.001,训练迭代次数为60 次,每经过20 次迭代,学习率下降为原来的0.5 倍。Adam 算法权重衰减等其他超参数采用默认值,不做调整。

原始高分辨率图像Y经下采样得到的低分辨率图像为X,模型预测得到的重建图像为。良好的超分辨率算法,其重建图像与原始高分辨率图像Y应该尽可能的相同。因此,本文在训练时选用了均方根误差(mean squared error,MSE)函数作为网络损失函数,使与Y具有最小欧氏距离:

式中M、N为重建图像的宽、高。

2.2 训练策略

由于网络规模较大,而红外图像数据资源比较稀缺,因此,为了保证模型收敛到较优的位置,在训练时首先使用了DIV2K 数据集来对模型进行预训练,学习可见光图像重建映射函数;完成初步训练后,再使用红外图像对模型进行微调,实现对红外图像的超分辨率重建。

微调训练的数据集红外图像大小为320×240,由于初步训练使用的是彩色RGB 通道图像,因此微调时,使用了Matlab 算法对单通道红外图像进行了伪彩色上色处理,转换为3 通道彩色图像,增加图像特征的丰富性[19]。预训练模型放大倍数为3。为方便计算峰值信噪比(peak signal-to-noise ratio,PSNR),训练前将图像裁剪到318×240大小。将大小为318×240的图像作为真值图像(ground truth,GT),使用Matlab 的双立方插值算法下采样3 倍得到大小为106×80的图像作为训练图像,也即LR图像。数据集由256 张红外图像组成,其中240张用作训练集,剩余的16 张作为测试集。预训练和模型微调过程均在配置为NVIDIA-1080 的GPU,内存32 GB 的工程机上完成,网络在PyTorch 神经网络平台上搭建。图3 为训练过程中模型在测试集上PSNR 随迭代次数变化图。

2.3 实验结果分析与比较

为了很好地表明本文算法的有效性和优越性,本节从主观和客观2 个方面来对本文提出的方法进行定性和定量分析。主观定性分析主要观察重建图像的直观视觉效果;定量分析主要采用常用的峰值信噪比(PSNR)和结构相似度(structural SIMilarity index,SSIM)作为重建图像质量评价指标。PSNR 即最大像素值与均方误差的比值,该值越大,重建图像的失真越小。其计算为

式中:MSE 为均方根误差,计算如式(2)所示;MAX为图像像素的最大值,对于本文的RGB 图像,MAX即为255。SSIM 的计算为

式中:Y、表示原始高分辨率图像和重建图像;µ、σ表示图像的均值和方差;表示2 幅图像的协方差;C、C′为接近0 的正常数。SSIM 的计算基于图像亮度、对比度和结构信息,其值越大,表示2 幅图像的相似度越高。

图3 训练过程中PSNR 增长曲线

实验对IEDSR、双三次插值算法(Bicubic[20])、EDSR 和SinGAN 算法重建图像的PSNR 和SSIM进行比较。在16 张测试集中随机选取5 张红外图像完成对比实验,定性分析如图4 所示,为了更好地对比重建效果,将局部细节放大2 倍并放置于图像的左上方。从左往右依次为原图(HR)、Bicubic 算法、EDSR 算法、SinGAN 算法及本文IEDSR 算法重建的图像。可从主观角度观察红外图像的超分辨率重建效果。表1 展示了客观评价指标的对比结果,实验选择的评价指标为重建图像的PSNR 和SSIM。

图4 不同算法实现红外图像重建效果

表1 不同算法放大3 倍重建红外图像的PSNR 和SSIM

3 结论

1)针对红外图像超分辨率重建问题,提出了改进的残差网络,构建IEDSR 深度神经网络,解决了深层网络训练困难问题,避免了过拟合问题,提高网络的学习表达能力,在保证重建红外图像质量的同时,提高了图像空间分辨率,更好地支持后续检测识别等任务。

2)使用可见光图像和红外图像样本对模型进行训练拟合,丰富了训练数据集的容量,提高模型的泛化能力,对不同场景的红外图像都能够实现较好的重建效果,利用增强预测算法增加模型的鲁棒性,提升重建红外图像的精度。

实验证明,本文方法重建红外图像清晰度高、视觉效果好,并且算法处理迅速,具有较强实用价值。不足的是,仅实现了3 倍超分辨率放大,放大后的红外图像尺寸相对也较小。因此,高倍数红外图像超分辨率重建是下一步需要研究的方向。

猜你喜欢
残差分辨率红外
基于双向GRU与残差拟合的车辆跟驰建模
网红外卖
闪亮的中国红外『芯』
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
8路红外遥控电路
TS系列红外传感器在嵌入式控制系统中的应用
原生VS最大那些混淆视听的“分辨率”概念
一种提高CCD原理绝对值传感器分辨率的方法
基于深度特征学习的图像超分辨率重建