基于深度学习神经网络的SAR星上目标识别系统研究

2017-11-04 01:45袁秋壮魏松杰

上海航天 2017年5期

关键词：权值卷积神经网络

袁秋壮，魏松杰，罗娜

(南京理工大学计算机科学与工程学院,江苏南京 210094)

基于深度学习神经网络的SAR星上目标识别系统研究

袁秋壮，魏松杰，罗娜

(南京理工大学计算机科学与工程学院,江苏南京 210094)

实现对地面目标的智能识别，对一种基于深度学习的卷积神经网络(CNN)的星载合成孔径雷达(SAR)星上目标识别系统进行了研究。系统由星上和地面两部分组成。其中：地面部分进行网络结构设计、SAR图像数据预处理、CNN模型训练、模型压缩及上传；星上部分接收上传模型并解压缩、目标识别、识别后粗筛图像下传地面；地面进行人工筛查，筛查后的正确图像作为训练数据对CNN模型进行再训练，逐步获得精度更高的模型。提出的CNN架构为卷积层2个、下采样层2个、Dropout层3个、Flatten层1个、全连接层2个，最终输出标签11类。为使训练后的CNN模型能部署到卫星上使用，采用数据精度压缩和剪枝两种数据深度压缩方法以减小数据存储量和减低网络复杂度。在Keras深度学习开源库环境中实现设计的CNN模型，对运动和静止目标获取与识别(MSTAR)数据库中的11类军事目标识别的实验结果表明：识别和分类的效果良好，整体识别成功率达96.29%；模型能压缩至原来的1/13，精度损失小于2%。

SAR图像；智能目标识别；深度学习；卷积神经网络；深度压缩；数据精度压缩；剪枝；模型效率

0 引言

星载合成孔径雷达(SAR)是一种工作在微波波段的成像雷达，具高分辨率和大面积的数据获取能力，可全天候全天时工作，也有一定的植被和遮盖物的穿透能力[1]。因此，星载SAR在民用和军事领域获得了广泛应用。与光学成像后可直接获取目标不同，SAR图像需经复杂的数据处理才能识别图像中感兴趣的目标，其中特征提取、图像分析专家审查等多个环节需要人工参与，这直接影响了SAR图像应用的时效性，特别是在军事SAR遥感应用领域。尽管SAR图像处理的时效性在稳步提升，但与军事应用需求相比还有较大差距。2006年，HINTON提出了基于深度学习神经网络的人工智能算法，为自动提取图像特征和识别图像中目标提供了有效的技术途径[2]。

深度学习是近年来机器学习领域中的一个新研究热点，为语音识别、视觉对象识别、对象检测等领域带来了显著突破。其本质是一种特征学习方法，将原始数据通过一些简单的非线性模型转变成更高层次、更抽象的表达[3]。2006年，HINTON等提出了深度置信网络，与传统神经网络不同，该网络应用无监督学习方法初始化权值，从而引出了深度学习的概念[4]。此外，还出现了其他深度学习模型，如深度卷积神经网络(CNN)、深度并发神经网络(RNN)等[5-6]。由于使用原始图像作为网络的输入，CNN在图像分类或模式识别等领域取得了大量成果。深度学习神经网络被认为是目前计算机图像处理领域中最先进的技术之一，虽然其功能强大，但网络中大规模的权值参数消耗了大量的计算和内存资源，如AlexNet模型超过200 MB，VGG-16模型超过了500 MB，这使将训练好的模型部署到嵌入式系统中变得十分困难。解决这一问题的有效途径是压缩网络模型，为此提出了深度压缩的概念。目前，常用的深度压缩方法有网络剪枝、权值量化和哈希网络(HashedNets)等[7-9]。2016年，文献[10]综合了上述三种方法对一些经典神经网络模型进行压缩和测试，并获得了较好的效果。

本文主要研究将CNN应用于SAR图像目标识别领域，设计了一个基于CNN的SAR图像目标识别系统，以实现对地面目标的智能识别。该系统可在星上运行，并将识别的特定目标图像传输到地面，从而减少卫星至地面的传输量。为使模型能在星上运行，采用深度压缩方法对模型进行压缩。最后用实验对设计的CNN网络模型的识别和分类效果进行验证。

1 系统设计

卷积神经网络的计算量相对较少，可自动提取图像的多层次信息，便于对图像进行分类，因此本文将之用于星载图像处理，处理流程如图1所示。本系统由星上和星下(地面)两部分组成。星下进行网络结构设计、对SAR图像数据的预处理、训练CNN模型、压缩模型并将其上传到星上；星上接收地面上传的模型并对其解压缩，进行目标识别，将识别后的粗筛图像传至地面，地面进行人工筛查并将筛查后的正确图像作为训练数据对CNN模型进行再训练，逐步得到精确度更高的模型。

2 基于深度卷积神经网络的SAR模型

2.1卷积神经网络

CNN是一种特征的前馈神经网络，通过局部感受域、权值共享与池化三种核心技术实现高效的特征提取与学习，现广泛用于手写字符识别、人脸识别等图像分类或模式识别领域[11-12]。CNN的基本网络结构由输入层、卷积层、全连接层和输出层四部分叠加组成，如图2所示。

a)输入层：若处理的是图像，则输入数据为图像的像素值。

b)卷积层(图2中C块)：一般有多层，用于特征提取。每层可采用多个不同的卷积核，每个卷积核提取一个特征平面，多个不同的卷积核则可提取多个不同的特征平面。

c)下采样层(图2中S块)，也称池化层，紧接着卷积层，主要是利用图像局部相关性，对卷积层提取的特征平面进行信息降维，减少数据处理量，提升网络学习的速度[13]。下采样不仅能使特征平面降维，而且一定程度上可防止网络出现过拟合学习，提高网络的泛性。一般包括最大值、平均与随机三种池化操作过程。

d)全连接层：相当于多层感知机的隐含层部分，即采用全连接方式前向传播，加权组合得到输出。

e)输出层：若CNN网络的目的是分类任务，则输出层通常是一个分类器，如支持向量机(SVM)、Softmax多分类器。

2.2基于深度卷积神经网络的SAR模型设计

本文设计的深度CNN架构如图3所示。其中：输入为灰度图像，网络结构包含卷积层2个、下采样层2个、Dropout层3个、Flatten层1个、全连接层2个，最终输出标签11类，实现SAR图像中目标分类与识别。

a)数据输入层(Input)

输入层直接输入图像的像素值，图像尺寸为1×128×128。

b)Conv1卷积层

采用32个不同的卷积核，每个卷积核大小为3×3，即Conv1卷积层从输入数据中进行特征的选择与学习，最终输出32个特征平面。因每个卷积核需要训练3×3=9个参数和1个偏置参数，故32个卷积核则一共需要学习的参数为(3×3+1)×32=320个。实验输入图像大小为128×128，卷积核卷积操作滑动步长为2像素，卷积后特征平面的映射大小为((128-3+2)/2)×((128-3+2)/2)=63×63。

c)S1下采样层

对Conv1提取的32个63×63的特征平面进行无重叠的最大值下采样处理，采样区域为2×2，因此S1层的输出为32个降维后的((63/2)+1)×((63/2)+1)=32×32个特征平面，将数据量减少为原来的约四分之一。

d)Dropout层

深度网络常会由于网络结构过于复杂，而训练样本数量不足，出现过度学习拟合现象。对此，研究者提出了一种新思路：Dropout。Dropout是指在网络模型在每次训练时随机以概率p输出为0(该层中的p=0.2)，使网络某些隐含层节点的权重不参与训练，权重保留之前训练的结果，暂不更新，其物理意义相当于某些节点的网络连接线断开。反向传播学习时也同样忽略这些断开的节点。

e)Conv2卷积层、S2下采样层与Dropout层

原理同b)、c)、d)，进一步抽象与泛化提取图像数据的特征。

f)Flatten全连接层

Flatten层用于将输入“压平”，即将多维的输入一维化，常用于从卷积层到全连接层的过渡。

g)Dense 全连接层

该全连接层共有神经节点512个，每个神经节点都与上一层的所有神经节点连接。每个神经元的输出可表示为

(1)

式中：xi为全连接层输入的神经元的值；wi,j为权值；bj为偏置。激活函数仍采用ReLU函数。全连接层的神经元个数直接影响网络的拟合效果和训练速度。

h) Dropout层

为进一步防止过拟合，添加一层Dropout，p=0.5。

i)Dense输出层

采用Softmax多分类器，输出为0～1间的数值，代表样本属于某类标签的概率。本文研究中共有地物目标11类，因此输出层设神经元11个。Softmax的表达式为

(2)

式中：yi为第i个神经元输出的结果；n为神经元个数。

3 模型压缩

用上述卷积神经网络训练获得的模型大小可达数百上千兆字节，若将其传输至星上将耗费相当的时间，且模型在星上运行还会占用相当大的计算和内存资源，因此需对原始模型进行压缩，以便于传输和部署到星上。本文用于深度压缩的方法有数据精度压缩和剪枝两种。

3.1数据精度压缩

本文训练好的神经网络模型保存的权重数据类型是32位浮点型，每个数据占用4 B。如能减小单个数据的存储量，整个模型的大小就会因此减小。为此，本文对权重数据的精度进行压缩，压缩的基本原理如图4所示。

假设网络中的权重数据精度为1×10-8，即保留到小数点后8位，若将精度压缩为1×10-4，只存储到小数点后4位的数据，则数据占用的字节数会减少到原来的一半。但如直接压缩数据而不考虑被压缩的部分，会影响数据精度，从而影响模型的准确度。因此，本文采用对数据进行选择性压缩的方法，具体如下。

对一个浮点数0.d1d2…dn来说，可将其表示为d1d2…dn×10-n，即精度为1×10-n。若将精度压缩为1×10-m，只存储到小数点后m位，即表示为d1d2…dm×10-m，则其精度损失为

(d1d2…dm.dm+1…dn×10-m-d1d2…dm×10-m)/10-m=0.dm+1…dn

转换成百分比为

L=0.dm+1…dn×100%

(3)

式中：L为精度损失的百分比。本文选择压缩L值在某些阈值范围内的数据，当L≤30%时，认为被压缩的部分精度损失较小，可忽略；当L≥70%时，认为精度损失较大，需在d1d2…dm的基础上加1；当L为30%～70%时的数据被认为对压缩的影响较大，不作压缩处理。因此，理论上可有60%的数据被压缩。

3.2剪枝

神经网络通常是过参数化的，训练得到的网络模型保存了所有连接的参数，这导致模型有巨大的冗余。为降低网络的复杂度和过拟合，本文对网络进行剪枝，所用方法是对小权值的连接进行剪枝，即移除权值低于既定阈值的所有连接。

剪枝的基本原理如图5所示。考虑一个全连接层神经网络，对第N-1层和第N层来说，第N-1层的每个神经元都与第N层的所有神经元连接，每个连接可视作是一个带权值的“枝”。这些“枝”的权值大小代表连接的重要性，权值越大连接越重要，反之，权值越小连接越不重要。剪枝的作用就是将不重要(权值较小)的连接从网络中移除，可将较密集的网络变成稀疏网络，显著降低网络的复杂度。

剪枝后的参数矩阵变成了一个稀疏矩阵，本文用压缩稀疏行(CSR)格式存储相应权值。CSR是常用的存储矩阵的格式，该格式压缩存储行信息，仅显式保留每行第一个非零元素的位置。

考虑一个稀疏矩阵A，其非零元素个数为nnz，行数为n。定义3个数组：1个浮点型数组val；2个整型数组col_ind，row_ptr。其中：val存储A中非零元素，大小为nnz；col_ind存储val数组中元素的列索引，大小为nnz；row_ptr保存A每行第一个非零元素在val中的的索引，一般定义row_ptr(n+1)=nnz+1。这种方法只需存储数据2nnz+n+1个，可大幅节省存储空间。

3.3模型效率评估

本文用压缩后模型的效率评估压缩效果。有

(4)

式中：E为压缩后模型的效率；rCP为压缩前后识别率的比值；rCR为压缩前后模型大小的比值。可知：E越大，压缩模型的效率越高。

4 仿真实验与分析

4.1试验环境SAR数据集选择

为验证本文提出的基于深度卷积神经网络模型针对星载SAR遥感图像中目标自动识别的可行性和准确性，在深度学习开源库Keras环境中实现深度卷积神经网络模型。实验的工作站采用64位的Ubuntu15操作系统，处理器为Intel© Xeon(R)CPU，型号为E5-2609 v3@1.90 GHz×12，内存为31.3 GB，独立显卡型号为Quadro K2200/PCIe/SSE2。

4.2SAR数据集

4.2.1 数据集介绍

实验数据集采用美国国防研究规划局(DARPA)和空军研究实验室(AFRL)联合资助的运动和静止目标获取与识别(MSTAR)遥感SAR数据库。MSTAR数据库里包括BRDM2，BMP2，BTR60，BTR70，D7，ZIL131，ZSU234，T62，T72，2S1，SLICY共11类地物目标，如图6所示。同一大类中不同型号的实际差异为目标的军事配置不同，如同类坦克有无机关枪、油箱，以及天线是否展开等，称为变形目标。数据库在设计时考虑SAR 图像对方位因素十分敏感，故而对每类目标采集大量不同方位的图像，方位范围为0°～360°。

4.2.2 图像数据预处理

由于MSTAR数据集的SAR图像训练样本图像分辨率与大小各异且数量不足，无法直接用于深度卷积神经网络学习，易导致过拟合，因此本文用以下方法进行数据预处理和训练样本库扩充。

a)规范化数据集

为保证所有图像大小与分辨率的一致，从原生的Sun floating point format格式提取分辨率为95%的JPEG格式图像，并统一规范图像尺寸为128×128。

b)实时数据提升

在网络模型训练学习时，进行实时数据提升，包括图片随机转动的角度、图片水平偏移的幅度、图片竖直偏移的幅度、逆时针方向的剪切变换角度、随机缩放的幅度等变化。

c)加噪声

添加人工噪声，防止网络的过度拟合，增加模型的鲁棒性。

4.3实验设置

实验采用的MSTAR训练集和测试集见表1。在11类目标的识别实验中，目标包括BRDM2，BMP2，BTR60，BTR70，D7，ZIL131，ZSU234，T62，T72，2S1，SLICY共11类目标。训练样本为17°俯仰角下不包括变体(即不包括BMP2_SNC21，BMP2_SN9566，T72_SN812，T72_SNS7等型号)的SAR图像数据，测试样本为15°俯仰角下包含上述变体的各目标SAR图像数据。

表1 MSTAR标准数据集中训练集与测试集样本分布

4.4深度CNN识别SAR图像目标实验结果

本文的深度卷积网络模型的测试分类结果见表2。由表2可知：SAR图像目标分类结果较好，平均识别率达到96.29%，其中T72(132)，2S1，BTR60，D7，SLICY，ZSU的识别率均大于99%。此外，对相同类型不同变体的SAR目标(BMP2，T72)识别效果也较好。文献[14]基于卷积神经网络建模，采用同样的MSTAR训练集和测试集进行实验测试，平均识别率为93.76%。由此可见，本文的深度卷积神经网络一定程度优于文献[14]的方法，SAR目标识别率更高。

4.5深度CNN识别SAR图像目标系统泛化能力

验证本文模型的泛化能力，即指经训练后的神经网络对未在训练集中出现的(但来自同一分布的)样本做出正确反应的能力。针对MSTAR中T72坦克大类目录下9类不同目标配置或型号的其他坦克进行测试，识别结果见表3。由表3可知：整体上T72变形目标的识别正确率可达84.31%，其中个别类的变形目标识别能力较差，如A04，A10；对812，S7，A62三类坦克的识别率均大于90%，分类结果较好。

表2 MSTAR11SAR目标识别结果

表3 对T72坦克中不同目标配置与型号的识别结果

4.6压缩后CNN模型的压缩率和识别能力分析

本文对实验用的CNN模型进行了压缩，并测试了压缩后模型的识别能力。模型压缩前后的识别正确率、压缩率及效率见表4。本文测试了用不同压缩算法压缩后的模型，并得到了效率最高一个，由表4可知：本文提出的数据精度压缩+剪枝的方法将模型从40.6 MB压缩到3.1 MB(原来的1/13)，而精度仅损失1.16%，证实了压缩方法的有效性。

表4 模型压缩前后的统计数据

5 结束语

针对卫星SAR图像目标识别的时效性难以满足快速军事应用的问题，本文提出利用深度卷积神经网络进行快速智能识别SAR图像中的军事目标。仿真实验表明提出的新方法无需人工干预，能快速实现智能识别星载SAR图像目标。此外，本文还使用了深度压缩算法对训练好的CNN模型进行了压缩，便于将其移植于计算资源有限的星上环境使用，最终实现星上成像数据的实时识别与应用的目的，为军事和民用提供有效技术支撑。压缩实验结果表明：压缩后的模型对目标的识别率并未出现明显的降低，设计的CNN网络模型具良好的识别和分类效果，压缩模型的识别准确度损失较小。

[1] TOMIYASU K. Tutorial review of synthetic-aperture radar (SAR) with applications to imaging of the ocean surface[J]. Proc IEEE, 1978, 66(5): 563-583.

[2] HINTON G E. To recognize shapes, first learn to generate images[R]. University of Toronto: UTML TR 2006-003, 2006.

[3] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.

[4] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554.

[5] LECUN Y. Generalization and network design strategies[D].Toronto: University of Toronto, 1989.

[6] BODEN M. A guide to recurrent neural networks and backpropagation[J]. Dallas Project Sics Technical Report T Sics, 2001, 1-9.

[7] HAN S, POOL J, TRAN J, et al. Learning both weights and connections for efficient neural networks[J]. Computer Science, 2015, 1136-1143.

[8] GONG Y C, LIU L, YANG M, et al. Compressing deep convolutional networks using vector quantization[J]. Computer Science, 2014, 1-9.

[9] CHEN W, WILSON J T, TYREE S, et al. Compressing neural networks with the hashing trick[J]. Computer Science, 2015， 2285-2294.

[10] HAN S, MAO H, DALLY W J. Deep compression: compressing deep neural networks with pruning, trained quantization and Huffman coding: ICLR[C]∥ San Juan: 2016 International Conference on Learning Representation, 2016.

[11] CIRESAN D C, MEIER U, GAMBARDELLA L M, et al. Convolutional Neural network committees for handwritten character classification[C]∥ International Conference on Document Analysis and Recognition. [S. l.]: IEEE Computer Society, 2011: 1135-1139.

[12] ROYCHOWDHURY A, LIN T Y, MAJI S, et al. One-to-many face recognition with bilinear CNNs[J]. Computer Science, 2016: 1-9.

[13] 尹宝才, 王文通, 王立春. 深度学习研究综述[J]. 北京工业大学学报, 2015, 41(1): 48-59.

[14] 田壮壮, 占荣辉, 胡杰民, 等. 基于卷积神经网络的SAR图像目标识别研究[J]. 雷达学报, 2016, 5(3): 320-325.

ResearchonSARSatelliteTargetRecognitionSystemBasedonDeepLearningNeuralNetwork

YUAN Qiu-zhuang， WEI Song-jie， LUO Na

(School of Computer Science and Technology, Nanjing University of Science and Technology, Nanjing 210094, Jiangsu, China)

To realize the intelligent recognition of ground target, a synthetic aperture radar (SAR) satellite target recognition system based on deep learning (DL) convolutional neural network (CNN) was studied in this paper. The system composed of two parts of onborne segment and ground segment. The network structure design, SAR image pretreatment, CNN model training, and the model compression and uploading were carried on in the ground segment. The compressed model receiving and decompressing, target recognition, recognized coarse screening image downloading were carried on in the onborne segment. Then the images downloaded were screened by manual labour in the ground segment. The screened images were served as the training data for CNN model again. It would obtain higher precision images step by step. There were 2 convolutional layers, 2 lower sampling layers, 3 Dropout layers, 1 Flatten layer, 2 connection layers and 11 output label in the CNN structure. To use the trained CNN model onborne, two deep compression method were adopted to decrease the data memory and network complex, which were data precision compression and pruning. The CNN model proposed was realized in Keras deep learning open source library. The experimental results in recognizing 11 classes of military targets in the database of Moving and Stationary Target Acquisition and Recognition (MSTAR) showed that the effect of recognition and classification was well. The overall recognition success rate was 96.29%. The model could be compressed to 1/13 of the original one while the accuracy loss rate was less than 2%.

spaceborne synthetic aperture radar (SAR) image; intelligent target recognition (ITR); deep learning (DL); convolutional neural network (CNN); deep compression; data precision compression; pruning; model efficiency

1006-1630(2017)05-0046-08

2016-12-08；

2017-02-23

国家自然科学基金资助(61472189)；上海航天科技创新基金资助(F2016020013)

袁秋壮(1994—)，男，硕士生，主要研究方向为图像处理。

TN957.52

10.19328/j.cnki.1006-1630.2017.05.007