基于特征引导的遥感图像显著性目标检测

2024-01-08 12:13顾军华崔彭滔徐雯佳
现代计算机 2023年20期
关键词:解码器像素卷积

顾军华,崔彭滔,徐雯佳

(1. 河北工业大学人工智能与数据科学学院,天津 300401;2. 河北省大数据计算重点实验室(河北工业大学),天津 300401;3. 河北省水文工程地质勘查院(河北省遥感中心), 石家庄 050021)

0 引言

近年来,随着卫星和航拍飞机技术的发展,光学遥感图像的分辨率有所提升,图像包含的信息更加丰富,其颜色、纹理、形状等特征更加清晰。精准且快速地提取出显著目标,在建筑物分割、飞机检测、精确制导等领域有着极其重要的意义。因此,光学遥感图像显著性目标检测受到了广泛关注。

随着深度学习在图像领域的发展,卷积神经网络(CNN)以其强大的自主学习能力和特征捕获能力得到了越来越广泛的关注。2015 年,Long等[1]提出了全卷积网络(FCN),将传统CNN中的全连接层换成卷积层,这样网络的输出将是热力图而非类别;此外,为了解决卷积和池化导致的图像尺寸变小的问题,它采用上采样方式对图像尺寸进行恢复。同年,Ronneberger等[2]提出了U-Net 用于语义分割任务,将编码器-解码器的方法用于图像领域,这为后续的研究提供了思路。Li 等[3]提出了LV-Net,该网络首先采用双流金字塔模块将一系列互补的信息层次化地抽取出来,目的是保留显著对象的多尺度信息和局部细节,然后使用编码器-解码器结构抑制图像噪声。Li等[4]设计了一个并行融合网络来实现遥感图像显著性目标检测。Zhang等[5]提出的DAFNet 受到U-Net 和注意力机制的启发,设计了密集注意流结构来结合多层次特征信息,并使用全局上下文感知模块使特征保持一致性。尽管上述方法可以获得较好的显著性检测结果,但是采用U-Net作为主干网络,使得遥感图像在编码的过程中,随着网络层数的加深,其特征所包含的纹理信息越来越少,这会导致网络中特征图所包含的信息越来越抽象,从而不利于遥感图像显著性目标检测。另外,U-Net 的编码层和解码层中间通常使用跳跃连接的方式直接进行传输,这会导致在编码层向解码层传输特征的过程中,将浅层特征中的噪声一并传输给解码层,从而降低网络对小目标检测的准确度。因此,本文提出了一种特征引导网络(feature-guided networks,FgNet)用于光学遥感图像显著性目标检测,并在EORSSD 数据集上进行验证。

1 特征引导网络

本研究提出的特征引导网络模型旨在提取遥感图像中丰富的语义信息和纹理信息,去除其中的干扰信息,强化网络特征提取能力,以解决显著目标误判的问题,其网络结构如图1所示。模型由编码器、亚像素卷积解码器和特征引导解码器组合而成。对于给定的输入图像首先经过编码器,提取出多个不同尺度下的特征图。之后将提取出来的多个特征图分别输入到亚像素卷积解码器和特征引导解码器中,再将生成的两个特征图进行融合,最后通过输出模块生成最终的预测结果。其中使用深监督的训练方式对亚像素卷积解码器和特征引导解码器的输出结果进行辅助训练,用来解决网络训练梯度消失和收敛速度过慢等问题。输出模块使用卷积层和激活函数组成。

图1 特征引导网络模型

1.1 特征引导解码器

为了解决光学遥感图像显著性检测算法中存在的显著目标误判问题,设计了特征引导解码器,使网络精确地识别显著区域,抑制背景噪声和无关信息,提高网络对显著目标整体的识别精度和鲁棒性。

特征引导解码器是由四个全局注意力模块组成的,全局注意力模块网络结构如图2所示,具体流程如下:首先将深层的特征输入到卷积模块中,之后将三维特征图变成二维特征图,再将其进行转置并与自身进行矩阵相乘;然后再次与自身相乘,使特征图恢复到原先尺度,进行跳跃连接操作;最后通过卷积模块与较浅层的特征图相融合输出结果。其中卷积模块由卷积层、激活函数和归一化层堆叠而成。计算过程如下:

图2 特征引导模块

其中,Ei为第i层编码器的输入,C3(·)为3 × 3卷积操作,f为卷积结果,R(·)为将三维特征转换为二维特征,R-1(·)为将二维特征转换为三维特征,T为转置操作,W为输出结果。

通过矩阵相乘使特征图中的像素点与整个特征图进行计算,计算出当前像素点在全局中的权重,因此全局像素之间的关系被有效地编码。最后通过跳跃连接补充特征信息,在丰富特征信息的基础上,也保持了整个显著性区域的特征一致性。

1.2 亚像素解码器

亚像素解码器的目的是在上采样的过程中减少信息的丢失,提高特征的丰富性,从而更好地进行检测和分割。它主要是由四个亚像素卷积模块组成,其中亚像素卷积模块的作用是将高层次抽象的特征图与低层次的特征图进行融合,使特征图所包含的信息变丰富,以提高模型对显著目标检测的性能。因为通常情况下,高层次特征图对应着全局语义信息,而低层次特征图则对应着更为细节化的信息,亚像素卷积模块的结构如图3所示。

图3 亚像素卷积模块

具体流程如下:首先模块将特征图Ei输入到1 × 1 卷积层进行通道调整,其目的是降低通道数,减少模型参数量,提高模型运行速度。同时将Di+1进行亚像素上采样使特征尺度变大,之后将调整后的Di+1和Ei分别输入到3 × 3 卷积层中进行融合,并进行像素级相乘操作,再将输出与亚像素上采样的输出进行像素级相加,最后通过3 × 3 卷积层输出,为接下来的操作做准备。其计算公式如下所示:

其中,Di代表第i个亚像素卷积模块的输出,C1代表卷积核大小为1 × 1 的卷积操作,E'i代表中间输出,Sub(·)代表亚像素上采样。

亚像素上采样不同于普通的上采样操作,图像的双线性插值上采样算法中,目标图像中新创造的像素值,是由源图像位置在它附近的2 × 2 区域4 个邻近像素的值通过加权平均计算得出的。双线性插值的缺点之一是在高频纹理的情况下会出现模糊和失真的情况。这是因为双线性插值只考虑了目标像素周围4个像素的值来计算插值结果,而没有考虑更广泛的区域。因此,当目标像素周围存在高频纹理时,双线性插值会产生过度平滑的结果,导致图像失真。逆卷积上采样中,把一张小图片变成大图片,需要在空白处填充0,这对于网络来说是无效信息。但是亚像素上采样不一样,它主要是对特征图进行卷积操作,并在通道的维度上划分成若干个组,并在每一组间将组内的特征图按照一定的规律重新组合成一个分辨率更高的特征图,从而完成上采样。它可以使图像在增加分辨率的同时保留更多的细节,减少信息损失,降低模糊度,不会出现高频分量受损和无效填充等问题,从而提高网络语义分割的性能。其详细过程如下,特征图中每四个通道按照一定的规则合成一个通道,之后特征图的尺度会变为原来的两倍,通道变为原来的四分之一,从而实现特征图的两倍上采样,如图4所示。

图4 亚像素上采样

1.3 损失函数

在显著性目标检测中,交叉熵损失通常用于衡量模型的预测结果与真实标签之间的差异。由于显著性目标检测任务的特殊性质,通常采用二分类交叉熵损失来度量模型对于每个像素点是否属于显著目标,作为判断网络模型准确性的标准之一。其计算过程如下:

其中,Gij和Pij为标签G和预测的显著图P在位置(i,j)的值。

与交叉熵损失函数不一样的是,交并比损失(IoU)主要用于衡量模型预测的显著图和标签之间的重叠程度,进而指导模型优化,其计算过程如下:

结构相似性损失的主要思想是比较两张图像的结构相似性指数(SSIM),SSIM 是基于人类感知对图像质量的评估而提出的一种图像相似性度量方法。通过计算两张图像的结构相似性指数,可以得到它们的相似程度。具体地,结构相似性指数包含三个方面的信息:亮度、对比度和结构。其计算过程如下:

其中,x、y分别是预测图和标签,μx是x的平均值,μy是y的平均值,是x的方差,是y的方差,σxy是x和y的协方差,M1和M2是维持稳定的两个变量。之后将三个损失函合作为本模型的损失函数,计算方式如下:

为了使模型的性能有所提高,将深层次监督的方法用于本网络训练中,因为深层次监督方法主要是通过在中间层添加监督,使网络更容易训练和优化。特征引导解码器生成的显著图S1的损失计算如下:

亚像素解码器生成的显著图S2的损失计算方式如下:

基于以上讨论,模型最终的损失函数定义如下:

2 实验分析

2.1 实验设置

该实验使用EORSSD 数据集来验证模型。EORSSD 包含2000 张图像,其中1400 张图像用于训练,600 张图像用于测试。值得注意的是,EORSSD数据集中的每一幅图像都提供了像素级注释。此外,为了训练提出的模型,我们对图像进行了90°、180°和270°的角度旋转,并对这些图像进行镜像反转来进一步增加训练集的数量。

该模型是使用PyTorch 框架在CPU 型号为E5-2620 V4,显卡型号为NVIDIA GTX 3060GPU的设备上实现的。此外,采用Adam 算法对网络进行优化,其中初始学习率、批量大小和最大迭代数依次设置为1e-4、8和200。

2.2 实验结果对比分析

为了证明我们所提出网络的有效性,将提出的方法与其它17 种目前最先进的方法进行了比较。这些方法包括PoolNet[6](CVPR 2019)、EGNet[7](ICCV 2020)、DSS[8](CVPR 2017)、RADF[9](AAAI 2018)、PFAN[10](CVPR 2019)、GateNet[11](ECCV 2020)、SUCA[12](IEEE 2020)、PA-KRN[13](AAAI 2021)、LVNet[3](IEEE 2019)、MJRBM[14](IEEE 2021)、SARNet[15](RS 2021)、EMFINet[16](IEEE 2021)、CSNet[17](ECCV 2020)、SAMNet[18](IEEE 2021)、AGNet[19](CVPR 2022)、ERPNet[20](IEEE 2022)、CorrNet[21](CVPR 2022)。表1显示了不同方法在三个指标上的比较,以及本文方法和其它显著性目标检测方法在F 度量、平均绝对误差(MAE)、S度量上的评价得分。其中,平均绝对误差越小越好,其它指标都是越大越好。

表1 对比实验结果

如表1所示,本模型在F 度量、平均绝对误差、S度量三个指标上均有所提升,为了更加直观地比较,本文提供了图5的比较结果,以展示所提出模型的优越性。从第1、2、3、4 行可以看出,本模型所展示的结果更加完整。从第5、6、7 行可以看出本模型更加关注显著目标的轮廓。对于背景干扰的问题,在图5中也展示出了更加全面的对比,说明本模型对背景噪音有较强的抑制力。综上所述,实验结果充分证实了该方法在遥感图像显著目标检测任务上的有效性和优越性。

图5 不同模型之间的实验对比结果

2.3 消融实验

本文进行了一系列的消融实验来研究所提不同模块的重要性,该实验将采用相同的实验设置,如图6 所示。其中,基础网络中的编码器由ResNet网络构成,解码器由三个卷积块构成。之后先使用亚像素卷积解码器替换解码器,再加入特征引导解码器作为本次测试的最终网络。

图6 消融实验结果对比

2.3.1 亚像素卷积解码器的分析

与基础模型相比,引入了亚像素卷积解码器后的结果变化如表2所示,F度量从0.8710提高到0. 8849,提升了1.39 个百分点。平均绝对误差从0.0113 降低到0.0097,下降0.16 个百分点。S度量从0.8960提高到0.9114,提升了1.54个百分点。

表2 消融实验结果

此外,通过图6(c)列和(d)列的对比,从第一行可以看出,显著目标的整体轮廓更加清晰,说明添加亚像素卷积解码器后,网络能够提取更多的特征。

2.3.2 特征引导解码器的分析

引入了特征引导解码器后的结果变化如表2所示,F 度量从0. 8710 提高到0. 8901,提升了1.91 个百分点。平均绝对误差从0.0113 降低到0. 0083,下降0.3 个百分点。S 度量从0.8960 提高到0.9213,提升了2.53个百分点。

从消融实验结果对比中可以看出添加该模块后,网络的抗干扰能力有明显的提升,对于显著目标的提取以及抑制周围环境干扰有明显的改善。例如在图6(c)列和(e)列的对比中,从第一行可以分析出引入特征引导解码器能够明显提高显著目标的完整性,另外也使模型对周围的噪声进行有效的抑制;从第二行可以看出,引入特征引导解码器,能够更加完整地提取显著目标,说明本模块能够保持特征的一致性。

综上所述,这两个模块都可以提高网络的性能,且这两个模块的组合可以进一步提高检测结果的质量。具体来说,与基准相比,本文模型的F 度量提高了2.83 个百分点,S 度量提高了3.48 个百分点,而平均绝对误差则降低了0.5个百分点。

3 结语

提出特征引导网络来检测遥感图像中的显著目标,其中的两个关键部分是特征引导解码器和亚像素卷积解码器,主要是为了解决网络模型特征提取能力不足,特征图中包含干扰信息而导致显著目标残缺的问题。具体来说,对图片进行多尺度操作,提取出多个不同尺度的特征图,并分别放入到两个解码器中,针对遥感图像中多方面的信息进行提取,提高网络对特征的提取能力,使预测结果更加完整。与其它方法相比,本文提出的特征引导模型更加注重显著目标的整体性。最后通过对比实验和消融实验证明了本模型的有效性和优越性,并且证明了各个模块的可行性。在EORSSD 数据集上,使用特征引导网络后的F 度量提高到了0.8993,平均绝对误差降低到了0.0063,S 度量提高到了0.9308。

猜你喜欢
解码器像素卷积
赵运哲作品
像素前线之“幻影”2000
科学解码器(一)
基于3D-Winograd的快速卷积算法设计及FPGA实现
科学解码器(二)
科学解码器(三)
线圣AudioQuest 发布第三代Dragonfly Cobalt蓝蜻蜓解码器
“像素”仙人掌
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法