红外与可见光图像渐进融合深度网络

2023-02-18 03:06邱德粉胡星宇梁鹏伟刘贤明江俊君

中国图象图形学报 2023年1期

邱德粉，胡星宇，梁鹏伟，刘贤明，江俊君

哈尔滨工业大学计算机科学与技术学院，哈尔滨 150001

0 引言

身处信息爆炸时代，各种成像技术飞速发展。可见光成像技术虽然具有更高的空间分辨率、更丰富的细节和更少的噪声，且更符合人类的视觉感知。但是，由于可见光波段受限，可见光成像在夜间工作的效果比较差，对雾、霾等恶劣天气的适应性也比较差。而红外热成像技术利用红外传感器对物体的红外辐射进行探测成像，具有较强的环境适应性，可在夜间和恶劣天气下工作，但是由于红外波段辐射波长较长，红外图像的空间分辨率较可见光图像低。因此，红外与可见光图像融合可以较好地挖掘被融合图像中的互补信息，得到更符合人眼或机器视觉特性的融合效果。红外与可见光图像融合在许多实际问题中有广泛的应用，包括监控(Bhatnagar和Liu，2015)、遥感(Eslami和Mohammadzadeh，2015)和农业(Bulanon等，2009)等。

红外与可见光图像融合最近几年发展迅速，越来越多的学者开展了研究工作。然而，红外与可见光图像融合仍然面临一些挑战，例如如何有效地从不同模态中提取信息，以及如何设计融合规则来更好地利用不同模态的互补信息。许多研究人员针对这个问题提出了不同的解决方案，大致可分为传统方法和基于深度学习的方法两类。

传统方法首先对红外图像和可见光图像进行图像变换以得到各图像分解后的系数表示，然后对这组系数表示按一定的融合规则进行融合处理。Burt和Adelson(1985)提出了第1个基于拉普拉斯金字塔变换的图像融合算法，并取得了良好的性能。之后，出现了一系列基于多尺度分解的算法。Li等人(1995)提出了基于离散小波变换的图像融合算法，离散小波变换在提取图像低频信息的同时，还可以获得水平、垂直以及对角3个方向的高频细节信息。在理论上，与传统的基于金字塔变换的图像融合算法相比，具有更好的融合效果。Yang等人(2007)提出了一种基于非下采样轮廓波变换的融合方法，它是离散小波变换的扩展，可以用更少的系数更好地表示边缘信息。Yang和Li(2010)首次将稀疏表示作为图像融合的显著特征。然后，Yu等人(2011)使用基于联合稀疏表示的方法提取共同的特征和独有的特征。Liu等人(2016)使用卷积稀疏表示解决基于块的稀疏表示方法带来的缺点。最近，基于多尺度分解的方法有了新进展。霍星等人(2021)利用显著性分析和空间一致性提出了新的双尺度图像融合方法。刘明葳等人(2021)为了解决细节“光晕”和伪影现象，利用各向异性的导向滤波对图像进行更好的分解以及权重优化。

传统方法通常对源图像进行假设，然后手动设计图像分解方法来提取特征，然而这些特征并不全面，可能会导致对高频或主要成分的敏感性，从而产生图像失真或伪影。近年来，深度学习成为解决计算机视觉和图像恢复问题的有吸引力的工具，基于数据驱动的深度学习的图像融合方法成为普遍采用的方法。基于深度学习的方法可以分为两类。第1类主要采用卷积神经网络进行融合；第2类采用生成对抗网络(generative adversarial network，GAN)产生融合图像。Liu等人(2018)使用一个卷积网络来融合红外和可见光图像并产生了良好的效果。Li和Wu(2019)通过将源图像分解成两部分然后设计适当的基于深度学习的融合策略来融合它们，进而得到融合结果。基于卷积神经网络的方法中，中间层提取到的信息大都没有得到充分利用。Li和Wu(2019)通过使用自编码器网络来融合源图像并且通过密集块结构来利用中间层提取到的信息。一般来说，在图像融合任务中很难获得真值，这就意味着使用GAN解决这个无监督问题是一个不错的选择。Ma等人(2019)首先将GAN应用于红外与可见光图像融合，但是基于GAN的方法在充分保留图像细节方面仍面临着挑战。

在具有良好表现的同时，DenseFuse(Li和Wu，2019)网络在编码器的最后一层输出特征上进行特征融合，解码器对融合特征进行重建来获得最终的重建图像。DenseFuse没有下采样算子，无法提取多尺度特征，因此没有充分组合利用图像的局部与全局信息、空间与灰度信息。不同尺度的图像表示包含着特有信息，这对图像处理是非常有用的。因此，本文提出一个基于U-Net(Ronneberger等，2015)的融合模型ProFuse(progressive fusion)，该模型可以提取源图像的多尺度信息，并将提取到的多尺度特征进行逐层融合、重建，最终得到融合图像。与DenseFuse相比，本文方法是在不同尺度、不同空间分辨率上分别进行的，这有利于细节恢复和小尺度特征的保留，因此可以获得更好的融合效果。

1 ProFuse模型结构设计与分析

1.1 ProFuse结构

本文提出的ProFuse是一种渐进式红外与可见光图像融合方法，网络结构主要包含编码器、融合模块(feature module，FM)和解码器3部分，如图1所示。

图1 ProFuse网络结构

编码器和解码器的网络架构是基于U-Net进行设计的。由于基于U-Net的模型在训练阶段收敛速度较慢，参考R2U-Net(Alom等，2018)的结构，在模型中增加了循环残差卷积单元(recurrent residual convolution unit，RRCU)来加速网络的收敛以及增加网络的稳定性，如图2所示。

图2 循环残差卷积单元

(f1,f2,…,fK)=FE(X)

(1)

(2)

式中，FD代表解码器。多尺度自编码器网络逐步恢复清晰的图像，具有更少的伪影和更精细的细节。与简单的单尺度图像融合方法相比，基于多尺度的图像融合方法可以更好地保留融合图像中源图像对的像素强度和梯度信息。

RRCU是提出的深度学习模型中一个重要的组成部分。循环和残差操作不会增加网络的参数量，但是它们对训练和测试性能有着积极的影响。网络中增加RRCU之后，网络在训练阶段更容易收敛。循环操作则帮助网络具有更好和更强的特征表示能力。因此，RRCU有助于提取更多对图像融合任务至关重要的信息。

1.2 训练阶段

在训练阶段只考虑编码器和解码器。由于红外与可见光图像数据集不足且质量参差不齐，参考以前的图像融合方法，使用大型自然图像数据集COCO(common objects in context)(Lin等，2014)进行训练。训练阶段旨在通过最小化重建损失来准确重建原始图像。即重构误差越小，提取的特征越具有代表性，重构图像的质量越好。输入的训练数据调整为256 × 256像素并转换为灰度。批量大小设置为4。学习率设置为1×10-4。本文方法是在NVIDIA RTX 2080Ti GPU上实现的，网络架构基于Pytorch进行编程。

1.3 损失函数

训练阶段的目标是获得对源图像进行多尺度分解的编码器和能够重建融合图像并很好地保留源图像信息的解码器。为了实现训练阶段的目标，采用像素损失和结构相似性(structural similarity，SSIM)损失作为重构损失，具体为

LTotal=αLPixel+LSSIM

(3)

式中，LTotal、LPixel和LSSIM分别代表重建损失、像素损失和结构相似性损失(Wang等，2004)，α是超参数，在实际中设置为1。SSIM损失可以描述为

(4)

(5)

1.4 融合策略

经过训练，得到了一个能够提取多尺度特征的编码器和一个能够重构的解码器。在测试阶段，主要探索3种融合方法，分别是通道注意力方法(Fu和Wu，2021)、平均方法和空间注意力方法。测试过程如图3所示，本文主要介绍基于空间注意力的融合方法。

图3 测试过程

Li和Wu(2019)使用基于空间注意力的融合方法处理图像融合任务。基于空间注意力的融合方法通过计算每个像素的活动水平处理融合。

(6)

然后，利用 softmax 操作计算最终的融合权重ωir和ωvis，具体为

(7)

然后，有

(8)

2 实验与性能评估

2.1 模型评价指标

为了评估本文方法的融合性能，在公开可用的TNO(Toegepast Natuurwetenschappelijk Onderzoek)和INO(Institut National D’optique)数据集上进行实验，并与其他先进融合方法进行比较。由于很难以直接方式区分最佳或最差融合方法，因此，在主观评价中与其他方法一起评价本文方法，并使用信息熵(entropy，EN)(Roberts等，2008)、结构相似性(SSIM)(Wang等，2004)、边缘保存度Qabf(Piella和Heijmans，2003)、互信息(mutual information，MI)(Qu等，2002)、标准差(standard deviation，STD)(Rao，1997)以及差异相关性总和(sum of the correlations of differences，SCD)(Aslantas和Bendes，2015)等6项定量指标来客观评价融合性能。

参考FusionGAN(generative adversarial network for infrared and visible image fusion)等方法将SSIM应用于图像融合问题，具体为

(9)

SSIM用于对图像失真进行建模，衡量源图像和融合图像之间的结构相似性。SSIM主要由相关性损失、亮度失真和对比度失真3部分组成，将3个分量的乘积作为融合图像的评估结果。

(10)

2.2 消融实验

为了验证RRCU模块和多尺度特征的有效性，分别进行消融实验，对比结果如表1和图4所示。

表1 消融实验的对比结果

2.2.1 RRCU模块

在RRCU模块的消融实验中，一个网络保持原始网络结构，另一个网路不包含RRCU模块，其他部分与本文网络结构保持一致。在训练阶段，相较不包含RRCU的网络，本文网络更早收敛。在测试阶段，如图4所示，没有RRCU的网络的结果比较暗、对比度差，本文方法可以保持红外图像中的热辐射信息，并且结果看起来更自然。这说明RRCU可以确保更好和更强的特征表示。表1的客观对比结果也证明了RRCU模块的有效性。

2.2.2 多尺度分解

在多尺度特征的消融实验中，一个网络保持原状，另一个网络没有多尺度策略，即不包含池化操作，也不会将特征通道数加倍。从图4第1、3、4行可以看出，实验组没有很好地保留红外图像的热辐射信息，没有多尺度特征网络的结果对比度差，而本文方法可以很好地保留红外图像的热辐射信息和可见图像的像素强度，例如第2行人图像对的结果。表1的定量结果也显示了多尺度策略的普遍优势。

2.3 与其他方法对比

为了更直观地说明融合效果，在TNO和INO数据集中分别选择5个典型图像对，将本文融合方法与现有的红外与可见光图像融合方法DenseFuse(Li和Wu，2019)、基于小波变换的多传感器图像融合方法DWT(discrete wavelet transform)(Li等，1995)、用于红外和可见光图像融合的生成性对抗网络FusionGAN(Ma等，2019)、基于低通金字塔比率的图像融合方法RP(ratio of low-pass pyramid)(Toet，1989)、具有多分类约束的红外与可见光图像融合生成对抗网络GANMcC(generative adversarial network with multiclassification constraints for infrared and visible image fusion)(Ma等，2021)和基于曲线变换的遥感图像融合方法CVT(curvelet transform)(Nencini等，2007)进行主观对比评价，不同模型在TNO和INO数据集上的融合结果如图5和图6所示。

从图5可以看出，与其他方法相比，本文方法最大程度地保留了可见光和红外辐射的详细信息。同时，结果中引入的噪声和伪影非常少。例如，红框内的广告牌、树枝和树叶就特别清晰；第2行中人的辐射信息本文方法也保存得更好。相比之下，DWT产生的结果具有块状伪影，而RP产生的结果受到噪声的严重破坏。本文方法在保存红外图像的热辐射信息和可见光图像的纹理细节方面比其他融合方法具有更好的性能。

从图6可以看出，本文方法的融合结果明显具有更高的对比度、更多的细节和更清晰的目标。如图6所示，本文提出的ProFuse与其他方法相比，融合结果更清晰且具有更少的噪声，与基于GAN的方法FusionGAN和GANMcC相比，融合结果包含更少的伪影。

对于客观评价，选择EN、SSIM、Qabf、MI、STD和SCD作为客观指标，在TNO数据集中选择20个图像对，对本文提出的方法与DenseFuse、DWT、FusionGAN、RP、GANMcC和CVT等6种图像融合方法的融合性能进行比较，结果如表2所示。可以看出，本文方法在EN、Qabf、MI和STD上取得了较大的值。较大的EN值表明本文方法比其他竞争对手保留了更丰富的信息。Qabf是一种新颖的融合图像的客观质量评估指标，Qabf的值越高，融合图像的质量越好。标准差STD是衡量图像信息丰富程度的客观评价指标，该值越大，表示图像灰度分布越分散，图像承载的信息越多，融合后的图像质量越好。MI值越大，从源图像中获得的信息越多，融合效果越好。本文网络在大多数质量指标上都有较好的表现，表明本文方法是红外与可见光图像融合任务的有效方法。

表2 不同模型在 TNO 数据集上的融合结果的客观比较

3 结论

针对DenseFuse的不足，以及传统基于多尺度分解的图像融合方法的启发，本文提出了一种改进的基于U-Net的渐进式红外与可见光图像融合框架ProFuse。ProFuse可以进行从高层到低层、从小尺度到大尺度逐步进行多层次多尺度的图像融合，克服了 DenseFuse仅在单层特征单一尺度上进行图像融合的限制，使得红外图像和可见光图像特征相互融合更加充分，进而达到了比较好的效果。在TNO和INO数据集上的实验结果表明，本文方法在多项指标上已经超越许多现有的红外与可见图像融合方法，主观视觉效果也更好，验证了本文方法的有效性。

虽然只在红外与可见光图像融合任务上进行了测试，但是本文方法的原理依旧适用于其他图像融合任务。因此，对于未来的工作，拟将本文方法进一步扩展到其他图像融合任务，例如多聚焦图像融合、医学图像融合。此外，还将探索基于神经结构搜索(neural architecture search)的多层次多尺度图像融合网络，自动设计和优化网络结构，从而更加高效地进行多源信息融合和图像重建。