基于CNN-CBIR的遥感图像分类检索方法

2021-07-21 03:30马广迪杨为琛

北京测绘 2021年5期

马广迪杨为琛

(浙江国遥地理信息技术有限公司, 浙江湖州 313200)

0 引言

随着20世纪70年代自美国发射气象卫星,人们就开始进行卫星遥感图像的分类研究,但实质仍然是目视判读,在遥感图像分类方法上并没有突破。20世纪80年代主要是利用统计模式识别方法进行遥感图像的计算机分类。例如,神经网络算法用于遥感图像分类始于1988年,国外学者MURA.H提出了基于神经网络和知识发现的分类方法。除此之外,Vapnik提出的支撑向量机遥感影像特征提取技术是通过事先定义的非线性变换函数集的方法进行的。这些方法虽然都取得了较好的效果,但是部分学者并没有充分考虑影像的几何模型特征,往往根据方法和经验进行分类,分类结果只满足空间分辨率,不能达到高精度,在图像查全率和查准率上还存在欠缺。20世纪90年代至今,也不断涌现出大量的遥感图像分类方法,遥感数据获取技术也在向着高光谱分辨率、高空间分辨率、高时相分辨率的趋势发展,导致遥感图像数量呈指数级别疯长。据统计研究发现,美国航空航天局(National Aeronautics and Space Administration, NASA)地球观测系统每天需要接收约4 TB量级的遥感图像[1]。庞大的遥感图像数据为人们提供更多信息的同时,也为用户应用遥感图像数据提出了极大的挑战。反观国内,贾永红提出的基于Back Propagation神经网络的多源遥感影像分类方法是应用了动量法和学习率自适应的调整策略,提高了影像分类速度。刘志刚探讨了一种基于支撑向量机遥感影像不完全监督分类的新方法,是基于加权无标识样本支撑向量机称重未标记样品支持向量机(Weighed Unlabeled Sample Support Vector Machine, WUS-SVM)的基础上发展出来的方法,节省了物力人力。骆剑承提出了基于支撑向量机遥感影像空间特征提取新方法,是基于支持向量机(Support Vector Machine，SVM)的遥感影像系统空间特征提取模型,处理高维数据存在的难以收敛,计算复杂和结果难以解释等问题,但上述方法同样在检索性能方面还不够精准,如何高效地分类检索遥感图像是解决上述问题的关键,也是现今海量数据处理领域中重点研究课题之一。

在20世纪90年代初产生了基于内容的遥感图像分类检索技术,简称为CBIR(Content-Based Image Retrieval)技术,具备高效、直观的特征。遥感图像海量性、复杂性与多样性的特征,对遥感图像分类检索提出了更高的要求,导致CBIR方法出现查全率[2]、查准率[3]低的问题,无法满足现今遥感图像应用的需求,故提出基于CNN-CBIR的遥感图像分类检索方法研究。卷积神经网络(Convolutional Neural Networks，CNN)即卷积神经网络,通过构建多层神经网络训练机制来模拟人脑学习过程,以此为基础,自动完成特征提取,降低人为干预、环境不清晰的影响。但是卷积神经网络层数较多,参数规模也较大,直接训练卷积神经网络存在一定的难度。为此将CNN与CBIR进行有效的结合,即基于内容的遥感图像相似性匹配需求与遥感图像特征提取能力相结合,为遥感图像分类检索提供新的技术支撑,相对于已有的分类检索方法,着重于改善遥感图像分类检索的性能,以此来提升对遥感图像分类检索的查全率与查准率。

1 遥感图像分类检索方法

1.1 遥感图像高层特征提取

为了精确分类遥感图像,基于CNN提取遥感图像高层特征。

卷积神经网络被广泛地应用在遥感图像分类领域中,并取得了一定的成就,发展为多种模型。通过对比研究发展,此研究选择VGGNet-16模型作为卷积神经网络模型[4]。

VGGNet-16模型结构较为清晰,性能较为优越。VGGNet-16模型中每个卷积层应用同一尺寸的卷积核,每个池化层利用同一尺寸的池化区域进行采样[5]。该模型具备丰富的卷积层,能够提取较多的特征,为下述遥感图像分类做准备。VGGNet-16模型结构如图1所示。

如图1所示,VGGNet-16模型中利用连续的小卷积核替代大卷积核,大幅度减少了卷积神经网络的参数量,使网络模型性能提升。VGGNet-16模型层级划分情况如表1所示。

表1 VGGNet-16模型层级划分表

图1 VGGNet-16模型结构图

通过VGGNet-16模型获取遥感图像卷积特征与池化特征。其中,遥感图像卷积层特征是在VGGNet-16模型预训练过程中提取的,某个层次输出值为

f=[x1,x2,…,xj,…,xC]

(1)

式(1)中,xj表示的是第j个遥感图像特征图;C表示的是遥感图像特征图的总数量。

如公式(1)所示,将f直接转换为特征向量,

即为遥感图像卷积层特征。

设定遥感图像输出特征图尺寸为s×s,池化区域尺寸为m×m,需要注意的是m≤s。为了提取丰富的遥感图像池化特征,设置池化步幅为1,此时池化区域数量为(s-m+1)×(s-m+1),为了方便后续的处理,将其简记为k[6]。遥感图像池化区域面积平均值计算公式为

(2)

遥感图像池化区域面积最大值计算公式为

(3)

通过上述公式,将遥感图像池化特征转换为特征图数量为C的形式,表达式为

cp=[x1,x2,…,xj,…,xD]

(4)

遥感图像卷积特征与池化特征均反映的是遥感图像局部特征,无法成为遥感图像分类的依据,故将卷积特征与池化特征进行聚合,得到遥感图像综合高层特征表达式为

Y=[y1,y2,…,yj,…,yC]

(5)

式(5)中，yj表示的是第j个遥感图像局部特征图。

上述过程完成了遥感图像高层特征的提取,为下述遥感图像分类提供精确的数据依据。

1.2 遥感图像分类

以上述获取的遥感图像高层特征为依据,利用模糊分类算法分类处理遥感图像,具体分类过程如下所示。

VGGNet-16模型得到的遥感图像高层特征具备较高的置信度,故以此为基础,计算遥感图像每个类别的概率,计算公式为

(6)

式(6)中,a表示的是Softmax输出层输入的N个向量;i的取值范围为[1,N]。

以公式(6)结果为基础,依据下述规则对遥感图像进行模糊分类为

(7)

式(7)中,μ(pi)、ξ(pi)与ω(pi)分别表示的是遥感图像分类置信度三个区间;Th1与Th2分别表示的是阈值,需要注意的是Th1

由公式(7)可以看出,当遥感图像置信度低于Th1,极有可能出现错误分类的现象,故将其称为低置信区间;当遥感图像置信度高于Th2,认为遥感图像分类结果均是正确的,故将其称为高置信区间;当遥感图像置信度处于Th1与Th2之间时,图像分类结果准确性较高,故将其称为中间置信区间[7]。

1.3 遥感图像检索

依据得到的遥感图像分类结果，利用CBIR技术制定遥感图像分类检索程序，实现遥感图像的分类检索[8]。现有方法虽然具备较高的性能，但普遍适用性较弱，传统CBIR技术无法满足现今图像检索的需求，将其与CNN模型进行有效结合，依据遥感图像高层特征度量遥感图像之间的相似性，为遥感图像检索提供帮助[9]，拉大相似程度低遥感图像之间的距离[10]。

对比嵌入度量学习方式的损失函数表达式为

式(8)中,n表示的是遥感图像数据集总数量;yi,j表示的是遥感图像i与j是否属于同一类别;Di,j表示的是遥感图像i与j高层特征的距离度量[11];α表示的是损失函数的参量,常规情况下,取值范围为[1,3];[*]+表示的是当前最小值为0,即max(0,*)。

依据公式(8)制定遥感图像分类检索程序,具体程序如图2所示。

图2 遥感图像分类检索程序图

遥感图像分类检索具体步骤如下:

(1)将CNN预训练参数分别转移至查询遥感图像q与遥感图像数据集M中。由1.1节可知,聚合特征是针对卷积特征与池化特征进行的,故删除VGGNet-16模型的全连接层,同时将VGGNet-16模型中的卷积层与池化层参数分别转移至查询遥感图像q与遥感图像数据集M中[12]。如图2所示,c1、c2、…、c5-3均为VGGNet-16模型卷积层,relu5-3表示的是激活函数层,pool5表示的是最后一个池化层[13];

(2)提取查询遥感图像q与遥感图像数据集M的CNN特征[14]。该步骤中,将查询遥感图像q与遥感图像数据集M中的全部图像输入至VGGNet-16模型中(CNN),将c5-3、relu5-3与pool5输出值作为特征向量,将M中全部类别遥感图像CNN特征记为FM=[f1,f2,…,fN],其中,N表示的是遥感图像数据集中类别数目;将查询遥感图像qCNN特征记为fq;

(3)获取查询遥感图像q与遥感图像数据集M聚合特征[15]。由于卷积特征与池化特征较为片面,故应用BoVW算法聚合图像高层特征,分别记为AM=[a1,a2,…,aN]与aq;

(4)归一化处理步骤三获取的聚合特征。由于遥感图像各个特征向量单位具有较大的差异,无法直接进行应用,故需要对其进行归一化处理。此研究采用L2范数归一化算法[16],具体归一化过程如下所示。

假设遥感图像某个l维聚合特征向量为

ai=[ai1,ai2,…,aij,…,ail]

(9)

式(9)中,aij表示的是ai的第j个特征元素。

对AM每一特征进行L2范数归一化,表达式为

(10)

依据上述过程对查询遥感图像聚合特征向量aq进行L2范数归一化,表达式为

(11)

(5)计算遥感图像特征与数据集类别特征之间的相似度,并反馈最相似的n幅遥感图像[17]。

相似度度量公式为

(12)

式(12)中,dqi表示的是相似度;l表示的是特征的维数。

依据公式(12)结果构成相似度向量,记为dq=[dq1,dq2,…,dqi,…,dqN],为了能够统一处理,对相似度向量进行L2范数归一化,表达式为

(13)

依据公式(13)结果对数据集中遥感图像进行降序排列,取前n幅遥感图像作为检索结果,输出遥感图像检索结果。

通过上述过程实现了遥感图像的分类检索,为用户提供更加精确的遥感数据,也为遥感技术应用助力。

2 仿真实验与结果分析

2.1 实验准备

为了验证提出方法的性能,采用MATLAB软件设计仿真实验。在仿真实验过程中,遥感图像数据集采用UC-Merced与WHU-RS,数据集中遥感图像种类约为1 000种,遥感图像数量约为130万。另外,仿真实验相似度利用欧式距离计算,评估标准利用归一化修改检索等级ANMRR判断,常规情况下,ANMRR数值越小,表明遥感图像检索性能越好。

在仿真实验过程中,影响实验结果的因素较多,通过研究发现,池化区域尺寸是最为关键的影响因素,故在实验准备阶段中,需要确定合理的池化区域尺寸,确保实验数据的精确性。

通过测试得到池化区域尺寸变化趋势如图3所示。

图3 池化区域尺寸变化趋势图

如图3所示,横坐标数值的双倍即为池化区域尺寸。在遥感图像数据集UC-Merced与WHU-RS下,当池化区域尺寸为5×5时,ANMRR数值最小,表明遥感图像检索性能最好。故确定最佳池化区域尺寸为5×5。

遥感图像输入尺寸也影响着CNN特征的获取性能,不同输入尺寸对应平均归一化检索秩(Average Normalized Modified Retrieval Rate，ANMRR)数值如表2所示。

表2 不同输入尺寸对应ANMRR数值表单位：%

如表2数据显示,当输入尺寸为224×224时,ANMRR数值较小,则确定最佳输入尺寸为224×224。

2.2 实验指标选取

为了精确反映方法的性能,选取查全率、查准率作为仿真实验指标,计算公式为

(14)

式(14)中,R表示的是查全率;N表示的是反馈检索结果中与查询遥感图像相关的图像数量;S表示的是数据集中与查询遥感图像相关的图像总数量;P表示的是查准率;M表示的是检索反馈遥感图像总数量。

常规情况下,查全率与查准率数值越高,表明方法检索性能越好。

2.3 实验结果分析

依据实验准备数据进行仿真实验,将实验数据输入SPPS软件中进行整理与计算,得到查全率与查准率数据,并对其进行分析,得到实验结论。

通过实验得到查全率数据如表3所示。

表3 查全率数据表单位：%

如表3数据所示,提出方法在UC-Merced数据集中查全率范围为79.45%～84.00%,在WHU-RS数据集中查全率范围为84.44%～88.50%,通过对比发现,提出方法查全率均大于标准数值70.25%。

通过实验得到查准率数据如表4所示。

表4 查准率数据表单位：%

如表4数据所示,提出方法在UC-Merced数据集中查准率范围为70.00%～77.15%,在WHU-RS数据集中查准率范围为70.00%～79.41%,通过对比发现,提出方法查准率均大于标准数值69.45%。

通过上述实验数据显示:与标准数值相比较,提出方法的查全率与查准率较高,充分说明提出方法具备更好的检索性能。

3 结束语

此研究将CNN-CBIR技术引入到遥感图像分类检索过程中,极大地提升了遥感图像检索的查全率与查准率,为遥感图像检索提供了性能更好的方法,也为遥感数据应用与发展提供一定的参考。但是本文的方法在实际应用中会受到学习速度,自适应能力等较多因素的影响,并且该方法的算法精度一定程度上取决于卷积层的特征效果,提取的特征维数相对较高,需要降维,日后的研究将在这一方面进行完善与提升。