基于模型微调与AM-Softmax的极化SAR图像分类

2022-11-03 11:56赵明钧程英蕾秦先祥张碧秀

空军工程大学学报 2022年5期

赵明钧，程英蕾，秦先祥，王鹏，文沛，张碧秀

(1.空军工程大学信息与导航学院，西安，710077；2.93575 部队,河北承德，067000；3.93897 部队, 西安，710077)

极化合成孔径雷达(synethetic aperture radar，SAR)图像分类既可作为极化SAR图像解译的输出，也可作为其他解译手段的重要支撑，被广泛应用于民用、军事领域[1]。从极化SAR图像分类的一般步骤来看，主要有特征提取、表示分类器的设计和优化两个主要步骤[2]。其中针对第一个步骤，传统方法一般基于极化目标分解，对散射特性进行建模和解释，存在特征表示能力弱、特征选择过程复杂等问题。近年来，基于深度学习方法已经从单通道SAR图像发展到极化SAR图像[3]。具体方法有卷积神经网络[4](convolutional nerual network，CNN)、全卷积网络[5]、深度自编码器[6]、深度置信网络[7]等。深度学习方法可学习图像的高层次语义特征，具有传统方法不具备的优势。其中以CNN为代表已成为目前极化SAR图像分类中效果最好、最常用的方法。但CNN方法也存在一定的弊端，最突出的就是其复杂的计算过程和由此所需的大量训练时间[8]。基于此许多学者研究模型迁移的方法以减少深度CNN的训练时间、加快网络收敛。该方法以预训练网络提取深度特征，再设计相应分类器，构建迁移分类模型[9-14]。预训练网络作特征提取器可以避免繁复的手工特征提取，加入微调可取得比原网络更好的效果。研究表明深度CNN所提取特征具有更丰富的表现力、更强的泛化性能，这有利于处理具有类内差异的遥感数据集[15]。相应分类器的设计可与深度特征相配合，取得比传统特征更好的分类效果。

极化SAR图像由于其成像机制，存在不同类别地物散射特征相似、相同类别地物散射特征不同的情况[16]。这导致了一些地物类别类内差异大(如城市区域)、一些类别类间差异小(如水体、道路)，给细粒度的极化SAR图像分类问题造成一定的困难。并且在极化SAR图像分类领域，CNN方法一般以像素邻域图像块作为输入，因此不免存在单一样本包含多类地物的情况。由于CNN主要基于Softmax函数，虽然能够优化类间差异，但并不要求类内紧致与类间分开，在某些类内差别较大的情况下，难以取得较好的分类效果。

本文针对CNN方法的上述缺陷，提出一种基于模型迁移与AM-Softmax的极化SAR图像分类方法，首先ImageNet上预训练的CNN，考虑到极化SAR图像与光学图像具有一定差异，在整体迁移网络上进行微调，使迁移模型在新的目标域数据中提取适合于新任务的深度特征。其次以AM-Softmax函数[17]取代CNN常用的Softmax分类函数，以应对极化SAR图像分类任务中类内差异较大的情况。

1 本文方法

为解决极化SAR图像分类中，CNN方法训练时间长、收敛速度慢，以及Softmax函数无法对类内差别较大的极化SAR数据有效区分的问题。本文提出一种基于模型微调与AM-Softmax的极化SAR图像分类方法。首先利用在ImageNet上预训练的VGG-16[18]网络作特征提取。最后为缓解类内差异较大带来的错分问题，以AM-Softmax作为整体分类模型的分类损失函数。整体模型分类过程分为预处理、特征提取、分类器设计、分类结果的输出4部分，方法示意如图1所示。

图1 本文方法示意图

1.1 预处理

在数据预处理方面，为减少相干斑影响，对实验数据均采用加权最小二乘滤波处理[19]。本文以20像素×20像素的图像块尺寸作为预训练网络输入，并采用双线性插值方法，将图像块尺寸扩充至40像素×40像素。

对于极化SAR图像每个像素点可以用相干矩阵的9维向量表示：

V=(T11,T22,T33,real(T12),imag(T12),real(T13),

imag(T13),real(T23),imag(T23))

(1)

式中：Tij为相干矩阵元素;real(·)和imag(·)分别为求实部和虚部操作。

由式(1)可知，整幅极化SAR图像有9个通道。预训练模型要求输入为3个通道的归一化数据，本文首先对原始极化SAR数据归一化，然后采用主成分分析[20]法实现数据降维，将排名前3的主成分构成的归一化数据作为深度迁移网络的输入。

1.2 深度特征提取

预训练的CNN已被证明可提取深度特征的提取器[21]，这一过程主要依赖于卷积和池化操作。本文采用在整体特征提取部分微调的方式构建深度迁移网络。深度网络模型如图2所示。

图2 预训练特征提取网络结构图

根据图2，深度迁移网络的特征提取部分包括输入层、卷积层、池化层等共13层。通过预训练部分整体的参数微调可使深度网络更关注极化SAR图像上的分类任务。网络参数迁移使深度网络所提取的特征泛化性能更好，从而有助于应对新数据集上的类内差异。此外，迁移网络无须从头开始训练，大大提高了网络训练效率。

1.3 分类器设计

Softmax是深度学习模型常用的分类函数，它与其他分类方法相比可以直接输出分类的概率，具有简单方便的特点[22]。但Softmax并不要求类内紧凑和类间分离，给类内差异较大的分类任务造成了一定的困难[23]。

Softmax将输入矢量从N维空间映射到类别并返回概率形式的分类结果，Softmax一般使用交叉熵损失函数：

(2)

式中：Li代表第i类的损失；N代表类别数;fi代表最终全连接层输出的第i个分量。由于f是由该层参数矩阵W与输入向量相乘所得，所以可表示为：

(3)

式中：xi代表最终全连接层输入向量x的第i个分量；fi=WiT×xi，fi也被称为第i类样本的目标逻辑；θi代表第i个类别输入向量与参数矩阵之间的夹角。Softmax函数在处理二分类问题时的决策函数是：

‖W1‖‖x‖cos(θ1)>‖W2‖‖x‖cos(θ2)

(4)

Softmax决策函数在处理分类问题时主要根据目标逻辑。当f1>f2即判定为第1类，反之则判定为第2类，在两类之间并没有类间距离的要求也并没有限制类内紧致。因此在处理类内间距较大甚至超过类间间距的问题时，效果会变差[23]。基于Softmax函数的上述缺陷，在人脸识别领域出现了针对Softmax的改进函数，文献[23]提出L-Softmax，通过在参数W与x之间增加一个约束变量m，从而使分类条件更加苛刻，使得学习到的特征之间具有更大的角度可分离性。在此之后，文献[24]提出了一种A-Softmax 损失函数，A-Softmax对原本的Softmax损失函数进行了限制，将‖Wi‖设置为1(即对参数矩阵进行了归一化)，并且将偏置设置为0。

在L-Softmax和A-Softmax的基础上，文献[17]提出了一种更简便、更适合于深度网络前后向传播的AM-Softmax函数，其优异性能已在人脸识别任务中得到了验证。AM-Softmax借鉴了L-Softmax和A-Softmax引入约束变量m的思想，在类间施加加性边际约束。其在A-Softmax参数矩阵归一化和偏置置为0的基础上，对特征也进行归一化。在这种限制下每个类别的目标逻辑只与cos(θ)有关，AM-Softmax损失函数可以写为：

(5)

式中：c=N-1，超参数s用来缩放余弦值；超参数m用来控制类间间隔。由式(5)可知，AM-Softmax损失函数在正向传播过程中只需要计算cos(θ)-m，若将cos(θ)视为未知量，则反向传播过程中的梯度始终为1，大大方便了神经网络的前后向传播计算。根据AM-Softmax的损失函数可推导出其决策边界，以二分类为例在类1决策边界处有：

(6)

式中：其中W1为类1的边界向量；P1为类别1的决策边界；以二分类为例AM-Softmax与Softmax决策边界的对比如图3所示。

由图3可知，AM-Softmax是以决策区域替代决策边界，通过在对每一类别各设置一个决策边界形成一块可移动的固定区域，将两类样本特征向边缘处挤压，从而使不同类别之间的距离加大，相同类别之间更加紧凑，一定程度上克服了Softmax类间无间隔、类内不紧致的缺点。

(a)传统Softmax决策边界

1.4 分类结果的处理

分类模型完成训练后，本文采用逐像素赋予标签的方法，首先将原始图像作预处理得到采样像素点的领域图像块，最后输入至训练好的模型中预测，将预测标签依次赋予给中心点，得到分类结果。为保证图像边界处能够取到足够大小的样本且图像块大小恰好被图像整体的大小整除，本文对整幅极化SAR图像进行了零填充。

2 实验设计与结果分析

2.1 实验环境及数据集

为验证本文方法有效性，以深度学习框架Tensorflow为实验环境，Tensorflow为GPU 2.6.0版本。实验运行环境为：CPU配置11th Gen Intel(R) Core(TM) i5-11260H 2.60Hz 、GPU配置GeForce RTX 3060 6GB。选取2组数据集实验，分别是由机载SAR系统拍摄的德国OberPfaffenhofen地区的L波段数据(数据集1)，以及由美国机载合成孔径雷达(AIRSAR)系统获得的荷兰Flevoland地区L波段数据(数据集2)。数据集1图像大小为1 300 像素×1 200像素，数据集2图像大小为750 像素×1 024 像素。2组数据的PauliRGB图像见图4。

(a)OberPfaffenhofen数据

2.2 AM-Softmax超参数确定

AM-Softmax中超参数s用来缩放余弦值，m用来控制类间间隔，二者取值影响了AM-Softmax的分类性能。为取得两超参数的较优值，取每类1%数量标记样本作为训练集，按照1.4节所述方法划分测试集，以总体精度为指标，根据文献[17]将s设置为20、30，以0.5为步长变化m(0.1到0.9之间)，进行实验，结果折线图如图5所示：

根据图5，在两数据集上各自选择总体精度最高的一组参数即数据集1上选择s=30、m=0.8，数据集2上选择s=30、m=0.25作为本次实验AM-Softmax损失函数的超参数。

(a)数据集1超参数测试结果

2.3 预训练网络的选择

为兼顾预训练网络特征提取的有效性和分类结果的准确性，选取Keras中VGG16、ResNet50[25]和MobileNet[26]3种预训练网络进行试验，由于CNN的全连接层限制了图像输入尺寸大小[27]，因此去除3种网络的全连接层。表1为3种网络模型的参数对照表。

表1 预训练模型参数对照

每一类选取1%的标记样本作为训练集，由于一些类别标记样本数量较少，所以设置每一类所取样本至少为50个，样本标记情况表如表2、3所示。分类函数(AM-Softmax)、超参数设置保持不变，变换输入尺寸和预训练网络模型，划分训练集和验证集比例为4∶1，3种模型在验证集上的准确率如表4～5所示。

表2 数据集1样本标注情况表

表3 数据集2样本标注情况表

以分类模型在验证集上的准确率作为分类模型特征提取能力的评价指标。由表4～5可知，3种预训练模型在不断增加输入图像尺寸的情况下，准确率都得到提高。其中ResNet50、MobileNet模型提升较为明显，而VGG16模型因为网络的层数较少，对于小尺寸图像具有较好适应度。因此本文选择预训练VGG16模型及40像素×40像素的输入尺寸对所提方法进行验证。

2.4 方法效率比较

为了验证所提方法与传统CNN方法相比具有效率上的优势，将本文方法(方法1)与VGG16网络方法(方法2)在数据集1上进行比较，为保证两种方法损失计算一致，以AM-Softmax替代VGG16的Softmax，并保持两种方法超参数设置、样本集设置(均为1%与2.3节一致)、训练集和验证集比例(4:1)、训练次数保持一致(epochs均为5)，对比结果如图6所示：

(a)方法1、2在数据集1上损失

由图6可知，本文方法在初始训练轮次，具有75.4%的准确率，方法2在初始训练轮次仅为12.3%，在5次训练中本文方法已经基本稳定在97%左右，方法1仍然处在优化阶段，且精度为87.57%。使用早停策略将方法1训练至大致收敛，方法1与方法2训练时间对比如表5所示：

由表6可知，在训练次数超过20次后，方法2基本收敛且精度稳定在93%左右。虽然每轮的训练时间两种方法相差不大，但本文方法仅经过5次训练就基本收敛，根据收敛轮次可以得出，本文方法相较于传统VGGNet方法节约了大约60s的训练时间。

表6 方法1与方法2训练时间对比表

2.5 方法准确率比较

为验证本文方法在准确率上的优势，以1.4节方法划分测试集，将本文方法(方法1)与VGG16+Softmax方法(方法2)、预训练VGG16微调+Softmax方法(方法3)、文献[14]所提方法(方法4：预训练VGG16参数复制+Softmax多层感知机)在两个数据集上进行分类预测准确率比较。在方法比较实验中，训练样本均取1%(与2.3节一致)，将所有方法训练到收敛。方法1、方法2、方法3与方法4分类结果如图7所示。方法1、方法2、方法3与方法4在两数据集上的分类精度如表7～8所示。

由图7可知，本文方法在整体结果上取得较好的区域一致性，并在城区等类内差异较大区域错分像素明显少于其它几种方法；方法3结果好于本文方法外的其他两种方法，迁移部分的整体微调可以获得在新数据集上优势更明显的深度特征。

由表7～8可知，在2个数据集上，本文方法均获得96%以上的总体分类精度，优于其他几种方法。方法3较方法4总体精度提升明显，表明预训练网络的参数整体微调可以使迁移模型更关注于新的分类任务；方法3相较于方法2在两数据集上准确率提高了3%左右，表明深度迁移网络在预训练部分整体微调取得比参数随机初始化方法(方法2)更好的效果。对比方法1与方法3，二者在总体分类精度上相差不大，方法1略优于方法3。但在某些类别上(建筑区、建筑物等)的分类，AM-Softmax函数明显优于Softmax函数。说明AM-Sotfmax与迁移网络特征提取相配合，可以缓解由类内差异导致的错分。

2.6 分类函数比较

为进一步验证本文方法能缓解类内差异导致的错分问题，选取城区加拿大radarsat-2星载极化SAR系统拍摄的美国San Francisco地区的C波段数据(数据集3)进行分类函数比较实验，其地物分布图如图8所示。

图8 San Francisco 3类地物分布图

在本次实验中，每一类选取1 000个样本，选择本文方法和方法3进行实验，保持两种方法的超参数设置不变，分类结果如图9所示。

(a)方法1分类结果图

分类精度如表9所示：

表9 AM-Softmax与Softmax分类精度对比表单位：%

由图9可知，本文方法分类结果较好且在红色城区部分的分类明显好于方法3。根据表8，AM-Softmax与Softmax在类内差别较小区域(林地和海洋区域)，分类性能较为接近。在类内差异较大的区域(城区部分)，AM-Softmax相较于Softmax的优势较为明显。Softmax擅长优化类间差异，不擅长优化类内差异，AM-Softmax通过加性间隔的设置使深度迁移网络所提取的深度特征类内特征紧致、类间特征分离，在类内差别较大的极化SAR图像分类任务中，表现出超越Softmax的良好性能。

3 结语

本文针对卷积神经网络方法训练效率低且对类内差异不能有效应对的问题，提出一种基于模型微调与AM-Softmax的极化SAR图像分类方法。以模型迁移获得效率上的优势并提取深度特证，并结合AM-Softmax损失函数从而优化深度特征的类内距与类间距，提升迁移网络在类内变化较大情况下的分类效果。

虽然本文方法取得较好的效果，但特征提取部分网络的参数的微调，较一般模型微调方法大大增加需计算的参数，造成一定的计算负担。本文方法可以快速收敛，但也极其容易因为参数设置不合理导致整体分类模型过拟合。下一步的研究工作将从源域与目标域之间的相似关系入手，在更小样本条件下以更小的计算代价完成迁移模型的分类。