基于多尺度特征融合的土地利用分类算法

2020-04-24 08:54闫文杰石陆魁

计算机工程与设计 2020年4期

张军，解鹏，张敏，闫文杰，石陆魁+

(1.河北工业大学人工智能与数据科学学院，天津 300401；2.河北省科学技术厅河北省大数据计算重点实验室，天津 300401)

0 引言

近年来，大量高空间分辨率遥感图像被应用于土地利用调查。然而，高分图像地物组成丰富多样，空间格局复杂多变，现有分类方法仍无法满足土地利用调查精确性要求。土地利用分类成为一个极具挑战性的课题。相对于传统的基于底层[1,2]、中层[3-5]特征方法，卷积神经网络(convolutional neural networks，CNNs)所提取的高层语义特征更具表达性，在土地利用分类中有突出表现[6,7]。大多数研究成果[8-10]采用CNNs全连接(FC)层的输出作为图像的最终表达。然而，Liu等[11]和Yue-Hei Ng等[12]证明了不同卷积层之间存在大量的互补信息。因此融合多层特征图谱对于提高分类精度具有重要意义。然而直接连接多个卷积层特征，不仅会导致卷积神经网络的参数规模过大，融合方法也缺乏灵活性[13]。

为克服上述问题，本文在迁移学习思想的基础上提出了一种基于多尺度特征融合的土地利用分类算法，简称为TL-MFF(transfer learning and multi-scale feature fusion)。多尺度特征融合部分采取多尺度池化方式提取每幅图像不同卷积层的不同尺度特征，并对提取的特征进行自适应融合，进而获得更准确的特征表示。迁移部分首先利用预训练网络提取的深度特征对多尺度特征融合部分和全连接层进行预训练，最后对整个模型进行微调，从而得到最终完整的CNNs。本文在UCMerced_LandUse(UCM)和WHU-RS19(WHU19)两个公开的遥感数据集上进行了实验，验证了本文提出的算法的精度优于现有较好的算法的精度。

1 基于多尺度特征融合的模型

1.1 模型结构

由于计算资源和遥感场景小样本数据的限制，大型卷积神经网络的训练过程容易导致过拟合。一种简单可行的解决方法是利用基于ImageNet[14]的预训练CNNs提取图像特征进行场景分类。在ImageNet上预训练的CNNs模型具有较强的泛化能力，且光学遥感图像与通用光学图像具有很强的低层相似性，所以在ImageNet数据集上训练的CNNs对于UCM和WHU19数据集的分类具有重要的意义。在图像识别领域，已有包括AlexNet[15]、CaffeNet[16]、GoogleNet[17]和VGGNet[18]在内的一些成功的CNNs架构。所有这些在ImageNet[14]上训练的CNNs模型都可以下载并经常作为迁移学习[19]使用。为适应遥感数据集，本文在迁移效果较好的AlexNet基础上进行改进，在第五层卷积层后添加第六层卷积层，conv6层卷积核大小设为3×3，步长为1×1，隐藏单元为256。对conv1和conv6进行多尺度特征自适应融合，将融合后的特征表达输入到全连接层中。出于对分类精度和计算时间的考虑，将全连接层设置为三层FC1、FC2、FC3，每层的隐藏单元分别为1024、512和C，其中C为数据集的类别数。其它参数设置、激活函数与优化器的选取等均与AlexNet保持一致。完整的TL-MFF模型如图1所示。

图1 TL-MFF模型

1.2 多尺度特征融合

由于传感器的高度变化使得场景包含的地物对象尺度变化明显(图2)，严重限制了分类精度的进一步提升。金字塔池化[20](SPP)在提取多尺度特征时能保留局部空间块的空间位置信息，并且对物体形变具有鲁棒性[20]。金字塔池化的结构如图3所示。将卷积层输出任意大小的特征(n维)输入到金字塔池化，分别用多个不同分辨率的池化层池化后连接起来，生成固定大小的特征向量(图3中生成的特征向量大小为14×n)。本文采用多层金字塔池化结构对多个卷积层特征进行多尺度信息提取，在充分利用不同卷积层有效信息的基础上，保留了局部不同尺度空间块的空间信息。既针对性地解决了场景图像地物尺度不一的问题，又对多个卷积层高维特征进行了有效降维，大大减小了网络参数规模。

图2 飞机和储罐场景中物体的尺度变化

图3 金字塔池化结构

多尺度特征融合部分的方法如图4所示，这里省略其它卷积层与全连接层。对卷积层conv1和conv6进行融合，先将这两层输出的特征向量进行金字塔池化，将输出的一维特征分别用SF1和SF2表示，然后两个特征分别乘以λ1和λ2，再将它们连接起来构成最终的特征融合向量输入到全连接层FC。融合系数λ1和λ2可以看作两个去除偏置的神经元的权重，SF1和SF2作为输入，经过正向传播和反向传播不断更新λ1和λ2，使融合系数可从数据中自动学习得到，系数调节变得更加灵活，对卷积神经网络的适应性更强。

图4 多尺度特征融合结构

1.3 TL-MFF模型训练步骤

训练TL-MFF模型分为两个步骤：预训练和调整。

步骤1 预训练。固定预训练AlexNet模型前五层卷积层权重，输入高分遥感图像对多尺度特征融合部分和全连接部分进行充分的预训练，保存权重。

步骤2 调整。对训练集做数据增强(增强方法是将原图像分别旋转90度，180度，270度，将训练集扩大至原来的4倍)，加载步骤1中保存的权重，将增强后的训练集输入到网络中，利用随机梯度下降法对整个网络进行微调，得到最终完整的TL-MFF卷积神经网络。

2 实验和分析

为了测试TL-MFF模型的土地利用分类性能，本文采用UCM数据集和WHU19数据集分别测试该算法，同时和较好的土地利用分类算法MS-CLBP[5]，MS-CLBP-FV[5]，SICNN[6]，GBRCN[7]，CaffeNet+FV[8]等进行比较。

2.1 场景分类实验设置

UCM是从大型航空正射影像中人工采集的，包含21个不同的土地类别，每类由100张大小为256×256像素的图片组成，每一张图片的空间分辨率为1英尺。WHU19数据集来源于Google Earth，它是一种全新的公开数据集，由950张大小为600×600像素的图片组成，均匀分布在19个场景类中。图5和图6为UCM与WHU19的一些示例图像。对于UCM数据，每类数据随机选取80%作为训练样本，其余作为测试样本；对于WHU19数据集，每类选取60%作为训练样本，其余作为测试样本。考虑到AlexNet对输入图像的预定义尺寸要求，本文使用双三次插值法将所有图片的像素大小缩小为227×227。

图5 UCM数据集

图6 WHU19数据集

在实验中，两层金字塔池化层的池化网格均设置为1×1、2×2、3×3，λ1和λ6分别初始化为0.5和1。训练与微调过程中，学习率设为0.001，Dropout率设为0.5，优化器选择随机梯度下降法，训练批次UCM数据集设为70，WHU19数据集设为95，训练迭代次数为300，微调次数为300。实验所用的硬件是两个型号为NVIDIA Tesla P40的GPU，处理器型号为Intel Xeon E5-2680 v4 (2.4 GHz)，软件环境为Ubuntu Server 16.04.1 LTS 64位操作系统、Tensorflow框架。

实验包括两个部分：特征融合实验；TL-MFF与现有方法对比实验。

2.2 特征融合实验

为了验证融合系数λ1和λ2的有效性，本文做了有无融合系数的对比实验，对比实验使用UCM数据集，特征融合层为conv1与conv6，其它参数保持不变。在无融合系数的实验中，将conv1与conv6生成的多尺度特征SF1与SF6直接连接起来。在有融合系数的实验中，SF1和SF6分别乘上自适应系数λ1和λ6。实验发现，如果没有融合系数，训练精度仅为12.80%，测试精度为17.38%，几乎无法进行分类，原因在于SF1特征数值分布范围大，SF6特征数值分布范围小，将两个直接连接，过大或者过小的特征值会影响分类效果。有融合系数的实验，训练精度与测试精度分别为99.81%和96.67%。实验结果表明，自适应融合系数可以消除不同卷积层特征的分布差异，能使其更好的融合分类，提高分类精度。

为了验证多层特征融合的优势以及最优的融合方式，本文做了c6、c1_c6、c2_c6、c3_c6、c4_c6及c5_c6的实验，每种方法实验5次，取平均值作为最终结果，见表1。其中“c*”为第*卷积层的多尺度特征，“_”表示连接(例如，c6代表单层多尺度池化，c1_c6代表第一层卷积的多尺度特征与第六层卷积的多尺度特征融合方法)。从表1中可以看出，单层的多尺度池化c6的精度低于多层特征融合的方法，在多层特征融合的方法中(c1_c6、c2_c6、c3_c6、c4_c6 和c5_c6)，各方法精度差距较小，考虑到连接后特征维度的大小，TL-MFF模型中的特征融合方式使用c1_c6。多层特征融合方法相对于单层多尺度池化方法的优势也可从图7的混淆矩阵看出，图7(a)为单层多尺度池化方法，图7(b)为c1_c6多层特征融合方法。在图7(a)中建筑、密集型住宅和储罐的分类误差较大，在图7(b)中这些场景分类效果得到明显提升。图8为 c1_c6 实验(即TL-MFF实验)的训练过程。从图8中可以看出，在调整过程中迭代200次后训练精度和测试精度达到收敛。

2.3 TL-MFF与现有方法对比实验

为进一步测试所提方法的有效性，与已有方法进行比较，这些方法在UCM数据和WHU19数据集上的平均精度见表2。从表2中可以看出，在UCM数据集上，TL-MFF方法的准确率(96.67%)高于MS-CLBP[5]、MS-CLBP-FV[5]、SICNN[6]，GBRCN[7]、CaffeNet+FV[8]这些方法；对于WHU19数据集，TL-MFF方法比MS-CLBP[5]、MS-CLBP-FV[5]、CaffeNet+FV[8]获得了更高的准确率(95.47%)。

表1 不同卷积层的融合结果

图7 UCM数据集混淆矩阵

图8 TL-MFF训练过程

方法UCM精度WHU19精度MS-CLBP[5]90.6%±1.493.4%±1.1MS-CLBP-FV[5]93.0%±1.294.32%±1.2GBRCN[7]94.53-SICNN[6]96.00-CaffeNet+FV[8]95.71±0.6993.68±0.93TL-MFF96.6795.47

3 结束语

为了提取更准确、更全面的特征描述以及减小过拟合风险，本文提出了一种基于多尺度特征融合的土地利用分类算法。多层多尺度特征融合充分利用了单个卷积层不同尺度的特征信息以及不同卷积层之间的互补信息。在两个公开数据集上，通过实验验证了自适应融合系数能使不同卷积层的特征更好的融合分类，并且验证了多层特征融合提取的特征描述比单层提取的特征描述更准确，实验结果表明本文方法的精度优于现有较好的土地利用分类方法的精度。

然而，本文方法仍有不足之处，例如，对UCM数据集内密集型住宅和中等密集型住宅的分类不太理想，原因在于这两个场景类别仅仅是结构密度存在微小差距，类间距极小，未来工作将通过减小深度特征类内距离，增大类间距离来进一步提高土地利用分类算法的性能。