神经网络在SAR图像目标识别中的研究综述

2021-11-08 01:58冯博迪杨海涛李高源王晋宇张长弓
兵器装备工程学报 2021年10期
关键词:卷积模板噪声

冯博迪,杨海涛,李高源,王晋宇,张长弓

(航天工程大学 a.研究生院;b.航天信息学院,北京 101416)

1 引言

SAR因为其独特的成像特点,在侦察,导航,制导,遥感等领域都发挥着重要的作用[1]。随着SAR成像技术的不断提升,SAR图像中的目标信息也呈指数型增长,而SAR图像的图像特点决定了它不能像光学图像一样通过人眼就可对其进行直观解译,SAR图像的判读往往需要依靠专家的经验知识,解译效率低下。由于传统的人工判读方法已经无法做到快速且精准的实现SAR图像的目标识别与检测,加快数据处理和提高检测精度已成为新的挑战,因此基于SAR图像的自动目标识别技术也受到越来越多的重视。

目前如何更好地利用所获取的信息,加快数据处理和提高检测精度是该技术研究和发展的主要方向之一。在传统的SAR图像目标识别方法中,特征的提取方法通常是由手工设计,而不同类型的目标所依赖的特征不同,该方法缺乏通用性。

因此需要一种方法能够自动学习图像有效特征进而对其进行分类识别,基于大数据的深度学习方法满足了这一需求。近年来,深度学习在众多领域都有着令人叹为观止的应用进展,其中,在众多网络模型中,卷积神经网络(convolution neural nNetwork,CNN)[2]已经在图像分类与识别、语音信号识别等众多领域做出了杰出贡献[3-9]。

卷积神经网络具有自动进行特征提取的特点,省去了人工特征选择的工序,并且能够实现对目标潜在特征信息的挖掘,也由其优异的图像分类识别效果,在雷达图像处理领域的应用日趋广泛,已成为了新的研究热点。人工智能技术在雷达目标识别领域的应用也必将对未来相应技术的发展开辟一片新的天地,为进一步提升雷达目标识别效果提供帮助。

本文对SAR图像目标识别的内外研究进行了综述,其中,对于CNN在SAR图像目标识别中的应用进行了重点介绍,同时探讨了该网络在SAR图像目标识别中的未来发展趋势。

2 SAR目标识别技术及其基本流程

SAR图像目标识别技术的主要宗旨是利用计算机处理技术,无需人工直接干与,短时间内从场景里自动完成对目标的定位,识别和分类,同时能够分析出目标类型、型号等信息。

传统的SAR图像识别过程如图1所示,首先在高分辨率大场景SAR图像中,利用目标和背景图像的灰度纹理差异,检测找到感兴趣的目标区域,然后通过一定的预处理剔除掉非目标区域,以获得待识别的精准目标,最后通过特征提取得到目标的有效特征信息并采用合适的分类器对其进行分类和判别,以实现对于目标类别和型号等的识别。

图1 典型SAR图像目标识别基本流程框图

由于现阶段高分辨率大场景的SAR图像获取成本较为昂贵,现今SAR图像目标识别的相关研究大抵都是以国际上通用的数据库来进行的,样本集一般只包含目标切片。因此,现阶段的研究重心集中在数据预处理,特征提取、分类判别。研究的关键点有:对于SAR图像相干斑噪声的抑制,探寻既能有效抑制相干斑噪声又能保持图像纹理信息的有效方法、探讨研究如何提升提取的图像特征的有效性以及提高图像自身信息利用率,和如何提升分类识别精度以及分类模型的泛用性。

3 传统SAR图像目标识别方法及其优缺点

3.1 基于模板匹配的方法

在SAR图像目标识别方法研究的初期,主要采用基于模板匹配的方法。其识别流程分为模板构建和分类识别2个阶段。先将已标注的训练图像构建形成一系列的模板集,然后在分类阶段将待测数据按照某种相似度配准规则与该模板集进行配准得到识别结果。

最简单的模板匹配方法是直接模板匹配法,即直接将训练图像用作模板,通常为了提高识别准确度,会对其进行旋转、位移、去噪等相关操作。美国麻省理工学院林肯实验室[10]基于MSTAR图像库使用模板匹配方法进行了识别研究,研究者把MSTAR图像中的目标能量相加取平均后作为模板,在形成模板之前,考虑到SAR图像对目标方位角敏感,首先在全角范围内对MATAR图像进行方位区间划分,使每类目标不同方位的图像都在各自接近的方位区内形成模板。在方位区间间隔确定之后,对每个区间的目标能量做统计平均,从而形成一个模板。然后设计相应的分类器,将给定的测试图像与模板库中的所有模板按照最小均方差(minimum suqared-error,MSE)进行比较,得出识别结果,在MSTAR数据集上,对10类目标的识别率为93.9%。由于该方法易受到SAR图像质量的影响,如相干斑噪声,图像分辨率等,算法不够鲁棒。同时在使用模板匹配的方法中,方位区的选取与模板数据库的存储容量,分类时间以及分类效率这3个因素有关,若要提高分类准确率就要增大模板数据库的存储容量,从而导致分类所用的时间增长。反之,如果要减少模板数据库的存储容量和分类时间,就必须以降低分类概率为代价。因此当目标类别较多时,存在模板库存储量大,计算复杂度较高等问题,大大限制了该方法在实际场景中的应用。

为了抑制图像的杂波干扰,提高算法鲁棒性,获得更稳健的识别效果,研究者们提出了先将原图像进行相关变换操作,在变换域再进行模板匹配[11]的相关滤波匹配法。典型的方法有Casasent提出的合成判决函数方法[12],除此之外,还有例如最小平均能量相关滤波器[13]和最小噪声和相关能量滤波器[14]等方法也取得了不错的识别效果。

从原理上看基于模板的方法的实现应当更加简单,但该方法常常需要存储大量的模板,所需的模板库样本很难得到,实现起来较为困难。而且现实中目标背景复杂,目标本身结构的变化、遮挡等变化,都会引起SAR图像或图像特征发生变化,从而影响识别性能。

3.2 基于模型的识别方法

基于模型的目标识别方法就是先提取出训练样本和测试样本的有效特征,然后用分类器对其进行分类。数据库中存储目标物理模型,通过对模型的处理预测目标特征的假设,包括目标任意姿态和类别等,将这些预测特征和输入的实际SAR图像进行比较,通过不断地校正假设直到和测量图像的特征矢量匹配。在基于模型的方法中目标的特性一般是通过物理模型来表示的。三维电磁散射模型与CAD 模型是目前常用的识别模型。CAD模型方法通过抓住目标的外形特征来进行建模,使用该方法进行识别时首先需要对感兴趣的目标建立CAD模型,然后使用电磁仿真软件计算目标CAD模型的电磁散射图像,在识别阶段,需要分别对输入的SAR图像和CAD模型形成的散射图像进行特征提取,然后通过搜索匹配算法完成识别。具体的识别方法仍然是由特征提取和分类决策2个步骤组成。具体的流程如图2所示。

图2 基于CAD模型的SAR图像目标识别流程框图

周雨等[15]采用了基于模型的SAR目标识别算法,该方法首先在离线阶段计算了目标CAD模型的电磁散射,然后在识别阶段,先对电磁散射结果以及待处理目标进行特征提取,然后进行搜索匹配来实现分类识别,在考虑方位角误差的情况下,对MSTAR数据集中的3类目标识别准确率可达到95.69%。

尽管CAD模型取得了较好的分类效果,但模型的算法复杂度成为了制约其发展的关键因素,三维电磁散射模型就是在这一基础上产生的更为简洁的算法模型。该模型利用电磁散射原理将目标特征转化为一系列参数,能够自适应的提取不同频段条件下的目标特征信息。除此之外,Zhou等[16]提出一种基于全局散射中心模型的识别方法,可以预测不同目标姿势下的散射中心特征,同时,可以修改模型以预测各种目标结构的特征,通过阈值化和形态学运算来提取待测SAR图像的区域特征。将提取到的特征与不同目标的预测散射中心特征相匹配,以得到识别结果。

基于模型的方法较基于模板的方法而言具有较好的鲁棒性,但是该方法对图像的质量要求较高且模型构建和在线预测会增加自动目标识别系统的复杂性,因此在识别性能和系统复杂性之间总是存在折中。

4 卷积神经网络

4.1 卷积神经网络的原理及组成

卷积神经网络是一种带有卷积结构的深度神经网络,在神经网络的基础上增加了特征提取器来完成特征提取。卷积神经网络的网络结构有3个重要思想,其一是局部感受野,其二是权值共享,其三是池化层,该网络模型有效减少了网络中的参变量,缓解了模型的过拟合问题。

图3所示为典型的LeNet-5结构,该网络结构由卷积层、池化层、全连接层组成。

图3 LeNet-5网络结构示意图

卷积层的功能是对图像进行特征提取,由多个可学习的滤波器(即卷积核)对目标图像进行卷积,在这一过程中,卷积核在原始图像中以一定的步长顺次循环卷积整个输入图像,卷积核与原图像的连接权值不同,会得到代表不同特征的特征图。同时CNN采用权值共享的思想降低了模型过拟合的风险。

下采样层也称作池化层,常见的池化方式有最大池化和均值池化2种形式。池化可以适当的降低参数数量,功能是将低维特征提取成高维的抽象特征。常用的滤波器大小有3×3,2×2,步长为2,一般不使用尺寸更大的滤波器,这样会丢失掉更多的图像信息。

全连接层中的每一层是由许多神经元组成的平铺结构。其本质上是一种感知器,可对输入的数据进行分类或回归。

4.2 卷积神经网络在光学图像分类领域的应用

1998年LeNet网络的概念被提出,但由于当时网络简单功能有限,该网络的提出并未受到广泛关注。随着Relu函数和dropout的提出,CNN的发展前景逐渐明朗。2012年,AlexNet网络首次将 CNN 用于大规模图像识别,大幅提高了识别的准确率,并在ILSVRC比赛中轻松取胜[17]。引发了图像分类识别领域算法的变革,为CNN的迅猛发展拉开了序章。2014年牛津大学提出了VGGNets[18],VGG网络进一步加深了网络深度,该网络全部采用3×3卷积层和2×2子采样层,通过对卷积层和子采样层的层叠,VGGNet构建了16~19层深的卷积神经网络。VGG网络的成功构建表明了加深网络深度和使用小卷积核会使其网络性能不断提升。同年,GoogLeNet[19]在ILSVRC2014的比赛中,以绝对优势夺魁。GoogLeNet中引入一个新的网络结构Inception模块,该网络结构不仅考虑了网络的深度,同时考虑了网络的宽度,该模块的引入使网络模型在参数量和计算量下降的同时保证了准确率。2015年,何凯明团队提出了ResNet[20],并引入了一种跳连的结构,采用该结构可进一步增加网络的深度,防止了当网络太深时存在的梯度消失问题。该网络模型的层数达到了152层。在进行图像分类时成功率超过96.53%,分辨能力已经超越了肉眼。

5 卷积神经网络在SAR图像目标识别的应用进展

美国国防高等研究计划署(DARPA)在MSTAR计划中公布的合成孔径雷达地面目标实测数据被称为MSTAR数据集,是目前SAR图像目标分类识别研究数据的主要来源。图像分辨率为0.3 m×0.3 m,像素尺寸大小为128×128,极化方式为HH,该数据集包括多种不同型号的车辆目标在多个方位角下的SAR图像信息。同时,MSTAR数据集还包含少量环境场景数据,其中包括农村和城市场景。由于获取成本的限制,目前普通研究机构很难获得各种车辆目标的大场景SAR图像,通常选择将数据库中包含的大幅场景和切片目标进行合成处理,利用合成处理的图像进行关于检测识别的相关研究。

5.1 基于卷积神经网络的SAR图像噪声抑制方法

SAR图像目标识别的紧要步骤在于特征提取。由于SAR图像成像的特性,使得获取的SAR图像均存在相干斑噪声,影响了图像中目标的边沿和纹理信息,降低了图像的质量,使得在对SAR图像进行后续处理时的复杂程度更高。因此为了更好地推动SAR应用,准确有效地完成对图像中目标的检测、识别和分类,采用合适的去噪算法对图像中的斑点噪声进行抑制削弱,以便于提高后期的目标识别准确率。

目前,主要从2个方向对SAR图像的斑点噪声进行抑制,一是成像前的非相干多视处理,二是成像后的滤波处理。非相干多视技术在抑制相干斑噪声的同时不可避免的会降低图像的地面分辨率。但是,当前对于SAR图像的研究都依赖于图像的高分辨率,降低图像分辨率会对下一步的研究造成很大的影响。因此,众多研究者都是在成像之后进行滤波处理,并且提出了很多方法。

传统的SAR图像降噪方法有空域滤波和变换域滤波2种思路。空域滤波不对图像进行变换,直接在空间域进行平滑处理,过滤掉特定的噪声频率,能够有效抑制均匀区域的噪声,但是该方法在去除噪声的同时会弱化图像的边缘信息,可能导致图像局部的重要细节丢失。常用的方法有Lee[21]滤波、Kuan[22]滤波和Frost[23]滤波等。变换域滤波算法不直接对图像进行运算,而是通过例如傅里叶变换或小波变换等方法将原始信号转移到对应的变换域中进行处理,再对降噪后的信号进行逆运算得到噪声抑制后的图像。这一类方法较空域滤波极大地提高了图像降噪的效果,在去除斑点噪声的同时保留了图像细节和边缘信息。但是过度去噪又会造成图像质量下降,图像复原后,边缘出现虚假信息,即吉布斯(Gibbs)现象。传统的噪声抑制算法均会对图像的边缘信息造成一定的损失。

在深度学习以及人工智能迅猛发展的当下,CNN作为一个特征提取目标分类的网络结构尤为突出,它独特的优势使得越来越多的学者争相研究,逐渐被应用到图像去噪领域。图像噪声的抑制可以看作是把含噪图像映射为干净无噪图像的过程[24]。卷积神经网络能够由低级到高级自动提取图像的特征,具有较强的映射能力,因其不可忽视的优势,2008年,Jain等[25]使用卷积神经网络对自然图像进行去噪,卷积网络提供了与传统的去噪方法相当的性能,并且在某些情况下具有更好的性能。Zhang等[26]提出了一种用以图像去噪的深度卷积神经网络(DnCNN)该网络采用残差学习来分离噪声和观测噪声,并引入了批量归一化的方法与残差学习相结合来加快训练过程。因为SAR图像的噪声可以看作是乘性噪声,因此Chierchia等[27]采用对数转换的方式将SAR图像噪声转化为加性噪声,然后在DnCNN的基础上进行改进,使用残差学习的方法来实现对SAR图像的去噪。文献[28]提出了一种ID-cnn网络,首先在卷积层完成学习得到散斑分量的估计值,然后将输入图像与估计值相除以达到去除图像散斑的效果。文献[29]中提出了一种双级耦合神经网络结构,去斑点和分类耦合神经网络,用于区分散斑强且变化的合成孔径雷达图像中的多类地面目标。它首先用去斑子网络来降低噪声,然后通过分类子网络学习残留散斑特征和目标信息,以解决神经网络的噪声鲁棒性问题,分类精度达到82%。文献[30]中提出了一种新的深度学习方法,即利用扩张残差网络学习噪声图像和干净图像之间的非线性端到端映射,该方法在强散斑噪声方面有较好的效果。以上研究都表明使用卷积神经网络对SAR图像噪声的去除颇有成效,与传统的去噪方法相比,使用CNN的去噪方法,在抑制噪声的同时,较好地保持了图像的细节信息和图像清晰度,在使用CNN抑制噪声的过程中,设计合适的网络结构极为关键,目前常见的改变网络结构来增加去噪性能的方法有通过改变代价函数,改变网络宽度或网络深度,在CNN中使用跳跃连接,选取合适的卷积核大小,利用组卷积的方式,将目标的不同角度图像作为网络输入,还有多通道输入的方式等,通过不同的网络改进方式,探讨研究如何更好地抑制相干斑噪声,且能有效提高去噪效率。总结来说,使用CNN来恢复潜在干净图像是非常有效的,因此卷积神经网络在SAR图像去噪领域的应用可以进一步探索。

5.2 卷积神经网络在SAR图像目标识别中的研究进展

2014年Chen等[31]作为初步研究,采用单级卷积网络自动学习对合成孔径雷达目标识别有用的特征。在3类和10类目标的MSTAR数据集分类中,利用学习的形态特征,分别获得了90.1%和84.7%的准确率,之后Chen等[32]为了减少自由参数的数量,防止由于样本集数量过少在训练过程中的严重过拟合问题,在2016年又提出了一种新的全卷积网络,它只由稀疏连接的层组成,没有使用全连接层。网络具体结构由5个卷积层和3个子采样层组成,在MSTAR数据集上的实验结果表明,该算法对10类目标的分类平均准确率明显优于传统算法,对10类目标的分类准确率可达到99%,充分体现了神经网络在用于SAR图像识别领域的优越性。2016年,田壮壮等[33]对误差代价函数作出改进,在函数中添加了类别可分性度量正则化项,利用SVM对CNN提取出的特征图进行分类,提高了网络对于不同类别的分辨能力。2017年,Housseini[34]提出了将CNN和卷积自编码器相结合的识别方法,从卷积自编码器中提取训练好的过滤器,并在CNN中使用它们,该方法大幅降低了算法的时间复杂度且没有降低识别精度。Wagner等[35]提出了将CNN和SVM结合的SAR图像目标识别方法,该方法首先利用卷积神经网络来获得目标信号特征信息,然后将其送入SVM的分类器中进行分类判别处理,该分类方法有较准确的识别率和较好的鲁棒性。Furukawa等[36]通过中心裁剪等数据增强方式,扩充训练数据,并借鉴残差网络的思想,训练了具有18层卷积层的深度残差网络,使用扩充的训练数据的CNN实现了高达99.56%分类精度,充分体现了扩充训练数据对于提升分类精度的有效性。

以上实验研究都体现了卷积神经网络在SAR图像目标识别上的优秀性能,各网络具体的识别方法和识别效果如表1所示。

表1 CNN在SAR图像目标识别中的部分识别方法与识别效果

目前对于基于深度学习的SAR图像目标识别分类问题。研究者们的研究大多是基于2个方面来进行。

第一个方面针对的是算法的识别精度与识别速度问题。通过改进网络结构和优化网络算法,旨在提高网络识别精度的同时降低网络复杂度且有效减少训练网络所用的时间。例如为了提升训练速度,减小振荡,能够更快的寻求参数最优值,通常采用小批量动量梯度下降的算法。Li等[37]提出了一种快速训练的识别算法,将CNN的卷积和池化层看作CAE用于无监督训练以提取高级特征,将全连接层看作浅层神经网络作为分类器进行训练。实验表明,该方法可以大幅减少训练时间。He等[38]利用CNN提出了一种无监督检测方法,首先利用MSTAR数据集训练一个浅层神经网络对其进行分类,然后提取训练好的网络模型的第一个卷积层的输出,通过最大采样和聚类处理,实现了目标的快速检测。

第二个方面是小样本数据集问题。SAR图像由于其独特的成像方式,导致其图像获取成本较高,对提取到的图像块标注也较为复杂,由于SAR图像数据的宝贵和稀缺,现实中缺少有效尺寸的标注实测SAR图像数据,因此,小样本问题一直是SAR图像目标识别领域较为突出的问题,而卷积神经网络的学习训练过程往往需要较为大量的数据,进而从大量数据中提取有效特征。为了满足学习训练过程对于样本数据量的需求,通常通过数据增强的方式来扩充样本数据,防止由于训练数据过少带来的模型过拟合问题。数据增强的主要方式是利用已有数据,对其进行翻转,平移,旋转,尺度变化以及添加噪声等操作,创造出更多的数据,提高网络的泛化和学习能力。此外,通过仿真生成模拟数据,也是解决该问题的一个十分有效的方法。文献[39]中使用CAD生成模拟数据,将模拟数据与真实数据一起用作训练数据,以填补数据空白,实验表明,使用模拟数据是提高CNN对SAR图像分类结果的一个有效手段。在文献[40]中先使用仿真出来的SAR图像预训练CNN,再结合迁移学习的方法,将预训练网络迁移到真实的SAR图像数据继续进行训练,有效地解决了由于SAR图像数据不足带来的过拟合问题。近来,生成对抗网络也在SAR领域得到了应用,GAN通过模型学习的方式在某种程度上可以学习到分布相近的新图像样本,文献[41]将GAN应用在SAR图像处理领域,利用生成对抗网络生成SAR目标切片图像,生成特定方位角的SAR图像,实现了SAR目标图像数据集的增强,Zheng等[42]在2019年提出了一种结合生成对抗网络和CNN的半监督识别方法。用GAN生成未标记图像,并将其与原始标记图像一起作为CNN的输入,从而在有限的训练样本下实现有效的训练和识别。该方法具有提高神经网络系统精度和鲁棒性的能力,同时,在SAR图像去噪和SAR图像超分辨率重建等方面,GAN具有很好的应用前景。

另外,同一目标在不同方位角下所呈现的SAR图像会有很大差异,只应用目标的单一方位角观测图像并没有充分利用到合成孔径雷达图像的丰富信息。近来,研究人员研究了多视角图像的识别问题。并得出结论,多视角图像序列可以提供比单个图像更丰富的分类信息,2018年,Wang等[43]提出了一种基于多特征融合合成孔径雷达目标识别方法,将强度特征和梯度幅度特征这2个特征信息进行融合之后输入分类网络并经过实验验证了该方法的有效性。Zou等[44]提出了一种利用多方位角SAR图像进行目标识别的思路,将3个方位角的SAR图像数据合成一副伪彩色图像参与处理,有效降低了目标在不同方位角的差异性,提高了识别效果。Pei等[45]在此基础上,改进了多视角SAR数据的生成方式,在不需要许多原始合成孔径雷达图像的情况下可以保证网络训练的大量输入,采用多输入信号并列的拓扑结构,分层学习,多层融合,实现了优越的识别性能,降低了对原始SAR图像数量的需求。

6 发展方向

基于深度学习的SAR图像目标识别方法近年来受到人们的广泛关注,由于深度神经网络能够自动地学习输入数据的特征,不再依赖于人为设计特征,并且通过反向传播调整网络参数,在该领域表现出强劲的发展动力。目前应用深度学习在特定样本集的检测与识别已经取得了较好的结果。

基于卷积神经网络的SAR图像目标识别精度受制于参数设置问题以及网络结构的设计问题,目标识别过程包含大量参数,但目前相关参数的选取大多仍依赖人工选择,因此参数的自适应选取应当是下一步的重要研究方向之一。在网络结构方面,单纯增加结构复杂度会导致过拟合等问题,因而如何优化网络结构也是亟待解决的重要问题。

传统的SAR图像目标识别方法利用图像的统计和物理特征手工建模,识别的特征及模型都有明确的含义,因此传统的识别方法拥有较强的可解释性。而应用深度学习的SAR图像目标识别技术尽管已经取得了比较显著的识别效果,但作为黑匣子的神经网络其运作原理和决策逻辑无法被精确解释,使得SAR图像目标识别技术在军事目标侦察等应用中可靠性及应用的可信程度较低,关于各识别方法的优缺点具体情况如表2所示。

目前关于基于深度学习的SAR图像目标识别可解释性问题,已经引起了研究人员的关注。德国宇航局(DLR)的Datcu M教授及其团队[46]在关于SAR数据的可解释性人工智能方面开始进行了初步的探索,未来关于该问题的研究还需引起重视与解决。

深度学习模型的引入在带来识别准确率的提升的同时,也带来了运算量大、训练时间过长的问题。一般来说,网络越深,性能越好,但是大而深的神经网络模型运算量大,时间上不能满足许多应用场景的需求。此外,大而深的神经网络模型需要很大的内存空间,而对于嵌入式设备以及一些小型的移动设备来说无法应用。所以,如何让大模型变小并且变小后的模型具有同大模型一样的性能是一个很重要的研究方向。SAR图像的处理也是如此,在保证性能的前提下考虑更为简洁的网络结构,开发轻量网络结构的优化方法,降低模型复杂度,应当是未来发展的重要方向。

7 结论

本文简要介绍了SAR图像目标识别的传统方法,重点介绍了卷积神经网络在SAR目标识别的相关研究。指出了目前基于卷积神经网络的SAR图像目标识别研究中存在的缺陷与未来发展方向。

猜你喜欢
卷积模板噪声
高层建筑中铝模板系统组成与应用
基于全卷积神经网络的猪背膘厚快速准确测定
铝模板在高层建筑施工中的应用
特高大模板支撑方案的优选研究
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
基于声类比的仿生圆柱壳流噪声特性研究
Inventors and Inventions
汽车制造企业噪声综合治理实践