基于深度学习方法的SAR场景分类研究

2023-05-20 13:05
中国新技术新产品 2023年4期
关键词:协方差卷积分类

周 易

(绵阳职业技术学院,四川 绵阳 621000)

0 引言

合成孔径雷达(Synthetic Aperture Radar, SAR)遥感图像[1]具有抗干扰能力强、可实时工作的特点。然而,图像中大量的图像噪声[2]或前景冗余使场景变得复杂。此外,SAR 图像中物体类别的相似性和非局部相关结构使场景分类比光学图像更难。

目前,国内外学者就神经网络用于SAR 遥感场景图像分类进行研究,很多方法采用平均池化、最大池化等技术。Zhang Y 等[3]提出一种无标度卷积神经网络(SF-CNN),并用于遥感场景分类。其中,全球平均池化(Global Average Pooling,GAP)层可完成最后的特征输出;Elawady I 等[4]将局域性约束的仿射子空间编码(Localityconstrained Affifine Subspace Coding, LASC)池化到神经网络中,实现SAR 遥感场景图像分类,该方法仅考虑单一特征,缺乏更全面的特征表示;董张玉等[5]提出了多层叠加协方差网络(Multilayer Stacked Covariance Pooling,MSCP)用于SAR 遥感场景分类,并结合残差网络,但是该方法忽视空间之间的相互依存关系以及其卷积特征的通道维数。

该文采用1 种多视图交叉注意网络,对SAR 遥感图像[6]进行场景分类。由于该文提出的方法融入了自注意力模块、全局协方差池化层和AlexNet 的基本结构,因此,其在SAR 数据集上的遥感图像场景分类效果比其他模型更好。

1 研究基础

1.1 SAR 图像介绍

1.1.1 SAR 图像的统计分布

SAR 图像与光学图像中常见的加性噪声不同[7],该类图像的噪声受固有成像机制的影响,SAR 图像通常采用乘性模型进行建模[8]。假设SAR 系统返回值为γ,该值代表2 个独立随机场的乘积,即γ=X·Y(X为SAR 图像携带的所有有用信息,并经过被标定的地形后向映射区域散射后的数据;Y为散斑噪声)。

1.1.2 SAR 图像的成像弱点

由于拍摄设置设备不同,例如四轴的飞航稳定程度、航轨改变与成像装置的差别,使各时刻所获得的SAR 遥感图像位于相同坐标的地表数据存在差别[9]。因此很多算法都需要采用多时刻各相位的SAR 图像完成精准匹配[10]。事实上,如果无法获得精度较优的图像匹配结果,就会出现很多伪变化的图像区域,而这类变化是由SAR 图像错位形成的。

1.2 SAR 图像的基本处理策略

1.2.1 SAR 遥感图像校准的流程

SAR 遥感图像多采用特征点的获取、校准以及分析进行处理[11]。其中,SAR 遥感图像的校准主要利用空间位置的转变映射到坐标系,以获得参数。SAR 遥感图像的校准主要是基于特征获取的,因此选择算法性能优秀的特征提取方法是实现该功能的重点。

1.2.2 SAR 遥感图像的差异子图

SAR 遥感图像的差异子图多是在图像变化检测中所采用的重要策略。将初始SAR 遥感图像S1={S1(m,n),1≤m≤M, 1≤n≤N}与S2={S2(m,n),1≤m≤M, 1≤n≤N}完成各种运算,从而获得与初始SAR 遥感图像大小相近的SAR图像,该图就是SAR 遥感图像的差异子图。获得SAR 遥感图像主要目标完成像素的初始区分,但是基于斑点图像噪声的作用,所获图像的结果存在一定的差别[12]。因此,有些方法最终能识别不同SAR 遥感图像的关键是获得图像质量优良的差异图。

1.3 场景分类方法

1.3.1 传统SAR 遥感图像场景分类方法

颜色直方图、纹理提取、等比例调整、尺度不变特征匹配和定向梯度直方图都是很经典的特征提取方法,这些方法都可以直接完成SAR 遥感图像场景分类。但是SAR 遥感图像场景的背景通常比较复杂,其原因是同一个场景可能包括不同的目标。为了弥补传统特征提取方法的不足,采用经典的特征提取方法表示图像的局部特征,并通过自编码方法进一步处理这些特征。

此外,无监督特征学习方法也被广泛应用于场景分类。然而,这种方法只通过底层功能无法捕获到SAR 遥感图像场景丰富的特征信息。

1.3.2 基于深度学习的SAR 遥感图像场景分类方法

随着技术和硬件的成熟,在图像处理设备方面,深度学习已经迅速发展,并成功地应用于图像处理的各个领域。卷积神经网络(Convolutional Neural Network,CNN)可以有效地处理复杂的图像,完成模式识别的相关任务。为获得整幅图像的高质量特征细节,SAR 遥感图像场景分类精度得到显著改善,这里以深度学习为基础的方法也越来越受欢迎。例如端到端的SAR 遥感图像场景分类方法依赖于高级抽象特性。当面对复杂场景分类问题时,通过感受野与权重的共享策略获得参数,从而具有较高的精度和较好的鲁棒性。

1.4 小结

第1 节主要介绍了基于深度学习方法的SAR 场景分类的研究基础,首先介绍SAR 图像的统计分布机理,并分析了SAR 图像的成像弱点,从而介绍SAR 图像的基本处理策略,包括SAR 遥感图像校准的流程,SAR 遥感图像大多数是通过特征点的获取、校准和分析实现的。利用空间位置的位置转变映射到坐标参数,以完成SAR 遥感图像的校准工作。

2 基于深度学习方法的SAR 场景分类方法

该文所提出的基于深度学习方法的SAR 场景分类方法包括2 个分支,即空间分支和通道分支。每个分支都包括1 个全局的自注意力模块、协方差池化层以及快速归一化层。可将这2 个分支的输出连接,从而将其归于损失函数中。该文方法的整体模型如图1 所示。

图1 该文方法的整体模型

2.1 特征获取模块

2.1.1 自注意力模块

该文提出的方法的自注意力模块包括空间自注意力模块和通道式自注意力模块,如图1 所示。深度学习方法的SAR 场景分类方法可以根据2 个模块之间的相互依赖性进行建模,并分别设定在卷积特征的空间维度和通道维度之间。可给定深度卷积特征X∈RH×W×C,并将该特征输入GAP 中,以生成参数。通过压缩操作,局部卷积操作具有全局感受域。而激励操作包括2 个全连接层、整流线性单元层和一个分类层,该模块可以利用简单的门控机制统计各通道之间的相关性。其中,第一个全连接层主要完成SAR 遥感图像的降维工作,第二个全连接层主要使SAR 遥感图像的维数增加。

2.1.2 全局协方差池化层

该文方法的全局协方差矩阵作为二阶特征量,说明了全局特征表示的相互关系。针对空间全局协方差池化层,可以进行重构,并通过计算获得较好的空间输出。其中,空间和信道上的协方差矩阵都可以通过矩阵更新和推导。

2.1.3 归一化层

该文提出的方法的迭代矩阵平方根归一化层可以证明矩阵平方根归一化的正确性,并改进SAR 遥感图像的分类任务。空间信道协方差矩阵为对称正定型,通过特征分解或使用奇异值分解算法可以求解平方根。

2.2 特征映射模型

该文提出的方法是由许多隐藏层组成的,这些隐藏层学习特征均可分层表示。具体来说,这类隐藏层主要包括3种结构,即卷积、池化和完全连接的层。输入数据先被输入卷积层,卷积层就会通过不同大小的卷积核提取特征。该模块被称为特征映射层,可通过非线性激活函数完成转换。池化层通过该操作降低特征映射的维数,实现最大或平均运算。一种密集的特征向量是将最终的特征图进行扁平化而产生的,这是多次卷积和池化的过程。密集连接可将矢量送入全连接层来生成预测结果并且在训练过程中反向传播,这种过程多通过最小损失值完成参数更新,并根据预测和参考标签计算结果。

2.3 分类模型

AlexNet 作为公认的卷积网路先驱,该网络也兼具良好的分类功能。相同的模型对不同类型的数据有不同的性能。由于该模型没有统一标准的分类性能,模型之间的关系架构和数据类似于一个黑盒子。该文所采用的数据集包括多种类型的遥感图像场景。其分类结果是由DNN 模型生成的,所得数据也有助于分析模型之间的相互作用。该文的研究主要考虑2 个主要因素来定义特征信息。第一个因素是网络的前馈过程。当图像是模型的输入时,对该文设定的模型来说,其维度来自分辨率和数字图像的通道。可以将图像输入的每个像素都视为一个维度。此外,该文选用随机参量分析法训练网络参数。

2.4 小结

该文提出的方法可根据2 个模块之间的相互依赖性进行建模,并分别设定在卷积特征的空间维度和通道维度之间。该文提出的方法还采用激励操作模块,该模块包括2个全连接层、整流线性单元层和1 个分类层,该模块可利用简单的门控机制统计各通道之间的相关性。其中,第一个全连接层主要完成SAR 遥感图像的降维工作,第二个全连接层主要增加SAR 遥感图像的维数。该文提出的方法由许多的隐藏层组成,这些隐藏层学习特征均可分层表示。该文提出的方法表现出强大的学习能力,可有效地对像素进行分类。

3 基于深度学习方法的SAR 场景分类试验分析

3.1 分类基准数据

在该文的研究中,以6 个RSI 数据集作为分类基准数据,其主要原因如下:1)RSI 数据集具有不同的数据类型。该分类基准数据集是使用不同的传感器从不同的区域采集的,例如光学、多光谱和SAR 图像,其具有不同的分辨率和补丁。2)各类地物。该文的分类基准数据集中包括各种常见的地面对象,例如群山、海滩、河流、建筑物和跑道。这些地面物体是也是遥感分类中的主要对象。

该数据集至少包括10 000 张SAR 遥感图像,在原始光学航空图像的各个类别中,所有的图像都是来自不同的远程成像传感器。每个SAR 遥感图像类中均有100 张以上的256×256 的图像,这些图像均来自于美国地质调查局国家地图城市区域的大图图像集合,SAR 遥感图像场景示例如图2 所示。

图2 SAR 遥感图像场景示例

3.2 试验分析

3.2.1 试验基础

该文所构建的SAR 遥感图像分类场景在图像数据集主要使用有代表性的卷积网络模型进行对比。该文的训练模型将学习率设置为0.000 1,其批大小设置为32。该文对训练模型的学习率是0.0001,其批大小是32。该文该模型训练了50 轮。

由表1 可知,基于深度学习方法的SAR 场景分类方法在不同类型的RSI 数据集上均有不同的表现。其平均准确度达到82.48%。在32 类光学数据中,27 个模型的准确率达到90%或以上,其余场景的准确率在80%以上。

表1 SAR 遥感图像场景群山、海滩、河流、建筑物和跑道的分类准确率(单位:%)

一般来说,基于深度学习方法的SAR 场景分类方法在光学数据集上的整体精度比SAR遥感图像高。由于AlexNet被公认为卷积神经的先驱,因此直接采用AlexNet作为SAR场景分类模型,在所有的RSI 数据集产生60%或以上的平均精度。此外,通过分析光学集和SAR 数据集的不同适应关系,文献[3]在2 个SAR 数据集上的精度分别为78.11%和63.61%。基于深度学习方法的SAR 场景分类方法在光学数据的准确性高于SAR 图像。EuroSAR MS、MSRAT 以及NWPU- RESISC45 等数据集,与RSI 数据集相比,在应用前须进行预处理。因此,该文选用RSI 数据集进行分析和处理。

3.2.2 SAR 遥感图像场景分类分析

为探讨SAR 遥感图像特征信息之间的关系,可以分别计算光学数据集和SAR 数据集的Pearson 相关系数。对光学数据集来说,Pearson 系数为-0.36、-0.80、-0.75 以及-0.86 的算法。因此,L2 摄动距离与特征信息的丰富度是呈负相关性光学数据集,这个特征也与攻击算法有统计学意义。对文献[3]提出的方法来说,特征信息间相关性的摄动距离不可靠。该文FGSM 是较优的攻击算法,但是该方法却产生了更多的对抗性扰动。因此,文献[3]需要改变更多的SAR 遥感图像像素,并在大多数像素性级别的功能信息基础上实现。相比之下,该文对比该文方法和文献[3]方法用于RSI 数据集下的场景分类,该文方法的分类准确率越高,以SAR 遥感图像场景的群山、海滩、河流、建筑物和跑道见表1。

对SAR 数据集来说,Pearson 系数为0.22、0.97、0.92以及-0.80。与一贯在光学图像的相关性方面不同,SAR数据集与特征信息的丰富性和相关性不一致。

3.2.3 SAR 遥感图像场景分类准确率分析

通过以上的研究结果可知,由于该文方法融入了自注意力模块、全局协方差池化层和AlexNet 的基本结构。因此,该文提出的方法在光学数据集中比其他模型的遥感图像场景分类结果要好。SAR 遥感图像场景中,文献[3]与该文方法相比,其分类效果不佳,其原因是SAR 遥感图像数据集的场景更复杂,所产生的遥感图像场景分类的误判率较高。相比之下,通过AlexNet 的场景分类示例可知,在相同条件下,该文方法的误判率为17.52%,这说明针对SAR遥感图像的场景具有可转移性,而文献[3]在很大程度上受所使用的模型的影响。具体来说,图2 展示的SAR 遥感图像场景(例如群山、海滩、河流、跑道以及建筑物)来自不同的RSI 数据集。针对上述SAR 遥感图像场景,所采用的分类模型使用不同卷积结构。由此,给出在RSI 数据集中该文提出的方法的SAR 遥感图像场景分类混淆矩阵,如图3 所示。

图3 在RSI 数据集下的该文方法SAR 遥感图像场景分类混淆矩阵

3.3 小结

第3节主要完成基于深度学习方法的SAR场景分类试验分析,首先,研究分类基准数据,并选择6 个RSI 数据集作为分类基准数据,RSI 数据集具有不同的数据类型:该分类基准数据集是使用不同的传感器从不同的区域采集的,从而完成试验分析,其原因是该文所构建的SAR遥感图像分类场景在图像数据集主要使用有代表性的卷积网络模型进行对比。由表1 可知,基于深度学习方法的SAR 场景分类方法在不同类型的RSI 数据集上均有不同的表现。其平均准确度达到82.48%。而文献[3]在2 个SAR 数据集上的精度约为63.61%。该文提出的方法可以根据每层扰动距离的分布对原始数据进行计算。

4 结语

该文提出的方法和文献[3]所采用的模型和算法思路不同,在不同的SAR 遥感图像场景中,很多所采用的地貌实例具有很高的相似性,这些均为遥感图像场景分类带来了挑战。

在SAR 遥感图像场景分类领域中是否有类似的场景会成为影响场景分类准确度的问题,例如作为宫殿和教堂。因此,在训练过程中,该文提出的方法完成了测试组SAR 遥感图像场景的算法性能观察,不同卷积网络结构在识别SAR 遥感图像场景的过程中,针对不同的SAR 遥感图像场景类型均有较优的识别结果。该文采用一种基于深度学习方法的SAR 场景分类方法,该方法由特征提取模型、特征映射模型和分类模型3 个部分构成。特征提取模型的自注意力模块包括2 个分支,即空间分支和通道分支。每个分支都包括1 个全局的自注意力模块、协方差池化层以及快速归一化层。此外,该文提出的方法还包括许多隐藏层,这些隐藏层学习特征均可分层表示。该文提出的方法所表现出的强大学习能力可以有效地完成像素分类和场景理解。该文在RSI 数据集的基础上完成基于深度学习方法的SAR 场景分类试验分析,结果表明,不同类型的RSI 数据集有不同的表现,其平均准确度达到82.48%,比对比方法高,其原因是该文提出的方法融入了自注意力模块、全局协方差池化层和AlexNet 的基本结构。因此,该文提出的方法在RSI 数据集上比其他模型的遥感图像场景分类结果好。

该文下一步将主要针对高阶特征的组合和表示,并进一步提高SAR 遥感图像场景分类的准确率。

猜你喜欢
协方差卷积分类
基于3D-Winograd的快速卷积算法设计及FPGA实现
分类算一算
从滤波器理解卷积
分类讨论求坐标
数据分析中的分类讨论
基于傅里叶域卷积表示的目标跟踪算法
多元线性模型中回归系数矩阵的可估函数和协方差阵的同时Bayes估计及优良性
二维随机变量边缘分布函数的教学探索
不确定系统改进的鲁棒协方差交叉融合稳态Kalman预报器
一种基于卷积神经网络的性别识别方法