基于堆栈式稀疏自编码器的高光谱影像分类

2016-11-17 02:19戴晓爱郭守恒杨晓霞刘汉湖

电子科技大学学报 2016年3期

关键词：堆栈编码器光谱

戴晓爱，郭守恒，任淯，杨晓霞，刘汉湖

（成都理工大学地学空间信息技术国土资源部重点实验室成都 610059）

基于堆栈式稀疏自编码器的高光谱影像分类

戴晓爱，郭守恒，任淯，杨晓霞，刘汉湖

（成都理工大学地学空间信息技术国土资源部重点实验室成都 610059）

为挖掘高光谱影像数据的内在光谱特征，该文基于深度学习理论，引用堆栈式稀疏自编码器构建原始数据的深层特征表达。首先通过稀疏自编码器，得到原始数据的稀疏特征表达。其次通过逐层学习稀疏自编码器构建深度神经网，输出原始数据的深度特征。最后将其连接到支持向量机分类器，完成模型的精调。实验结果分析表明：基于堆栈式稀疏自编码器的最优分类模型，总体精度可达87.82%，优于实验中的其他方法，证明了深度学习方法在高光谱影像处理中具有良好的分类性能。

深度神经网；特征提取；高光谱影像分类；堆栈式稀疏自编码器；支持向量机

高光谱影像分类是高光谱影像处理中的重要环节，由于Hughes现象［1］的影响，在不进行降维处理的情况下传统分类算法很难在高光谱影像分类中取得理想结果［2］。支持向量机（SVM）算法［3］能够较好地解决Hughes现象，近年来在高光谱影像分类中得到了广泛应用［4］。但其直接通过原始像元来进行分类，由于影像获取过程中，传感器和成像条件等因素的影响，使同类像元在原始特征空间中具有不稳定性，导致分类精度降低。通过深度学习（deep learning，DL）算法，可提取原始像元的深度特征，使其具有更好的鲁棒性［5］。

深度学习模型由多层非线性运算单元组成，较低层的输出作为更高层的输入，最终学习到的特征表达中包含输入数据的许多结构信息，实现了对数据的抽象表达，从而提升分类的准确性［6］。

本文利用深度学习理论中的堆栈式自编码器（stacked autoencoder，SAE）模型［7］对高光谱影像像元进行非监督的特征学习，学习到的深度特征用于支持向量机分类器的学习。在自编码器模型中加入稀疏表示［8］的限定条件，以提高模型的泛化能力与分类精度。通过调整参数得到基于堆栈式稀疏自编码器（stacked sparse autoencoder，SSAE）的最优分类模型，与传统方法进行比较，证明了其分类精度更优。

1 堆栈式稀疏自编码器

1.1 稀疏自编码器

自编码器由一个三层前馈神经网构成。通过解码器重构特征与原始特征之间近似的优化条件来进行非监督训练，使未标记样本能用于训练，解决了高维数据分类时，需要大量标记训练样本的困难。稀疏自编码器是在编码过程中加入稀疏表示的限制条件。

算法步骤如下：

1）原始数据x∈R1n（n1为输入层神经元数），通过线性函数和激活函数f（·），映射到隐含层得编码结果x∈Rn2（n2为隐含层神经元数），有：

通过同样的过程将X映射到重构层得Z∉R1n，有：

式中，X为原始数据的特征表达； W1、 W2、 B1、 B2分别为输入层到隐含层、隐含层到重构层的权重及偏移系数。

2）调整W1、W2、 B1、 B2使x与Z之间近似，并加入稀疏表示的限制条件，有数学表达式：

式中，N为样本数据个数；ρi为N个数据的第j个分量中非零元素占比；ρ为可设定的超参数。

得到损失函数为：

文献［8］提出稀疏编码特征学习算法，证明了其特征表达更优，且可降低系数矩阵的复杂度。

3）通过迭代算法优化损失函数对训练参数W1、W2、B1、B2进行更新，直至算法收敛，可得训练参数和编码结果为：

式中， x（k）、 Z（k）为第k个原始数据和重构数据；α表示学习率。

1.2 逐层学习堆栈式稀疏自编码器

堆栈式稀疏自编码器是由若干稀疏自编码器结构单元组成的深度神经网，模型技术流程如图1所示。随着稀疏自编码器层数的增加，学习得到原始数据的特征表达更抽象。

图1 模型技术流程

2 基于堆栈式稀疏自编码器的高光谱影像分类实验设计

2.1 实验数据获取

采用挪威NEO公司Hyspex成像光谱仪以地面成像方式在选定试验区获取影像数据进行模型性能的测试，光谱范围为400～1 000 nm，谱段数为108，大小为350×450，试验区内地物具有较好代表性，适于进行本文实验验证。

2.2 影像预处理与样本选取

用Hyspex成像光谱仪辐射定标模块中的校准函数进行辐射校正，通过平场域法反演像元的相对反射率。采用随机选取感兴趣区得到训练样本与测试样本，选取全部108个波段数据，样本共7类，具体选取如表1所示。

表1 试验区样本数据

3 模型调整与分析

由于深度学习模型中超参数调节较复杂，本文实验根据文献［9］给出的超参数选取意见，设定隐含层平均活动神经元参数ρ为0.05，正则项权重λ为3×10-3，稀疏惩罚项权重μ为3，迭代次数为400。文献［10］比较了不同支持向量机核函数在高光谱分类中的精度，得出径向基核函数效果最好。采用网络搜寻法［11］选取径向基核函数的参数σ为0.01，惩罚参数为100。实验分析中讨论隐含层神经元数，隐含层层数对分类精度的影响。

3.1 隐含层神经元数对分类精度的影响

图2 不同隐含层神经元数分类总体精度和训练时间比较

当隐含层神经元数过少时，可导致特征表达能力不足。反之，又可导致过拟合［12］。由于原始数据维数为108，选取隐含层神经元数｛50，100，150，200，250｝。采用单层稀疏自编码器连接支持向量机，重复进行40次实验，分类总体精度如图2a所示，盒内横线表示总体精度的平均值，盒子的边缘是第25和第75百分数位，盒须表示最小点和最大点。训练时间如图2b所示，圆点表示平均值，竖线表示标准差。故隐含层神经元数为150时，分类精度最高。训练时间随隐含层神经元数增多明显增加，且由于深度神经网参数多，训练时间长。

3.2 隐含层w层数对分类精度的影响

当层数增加时，能得到更抽象的特征，但层数过多又易使模型陷入过拟合［13］。由上节得，取隐含层神经元数为150，为降低参数调整复杂度，不同隐含层神经元数保持一致，设隐含层层数｛1，2，3，4，5｝。重复进行40次实验，分类总体精度如图3a所示，训练时间如图3b所示。故当隐含层神经元数为150，隐含层层数为3时，得到最优分类模型，分类精度最高达87.82%，训练时间保持在4 min左右。

图3 不同隐含层层数分类总体精度和训练时间比较

3.3 基于堆栈式稀疏自编码器分类模型与3种常见模型的比较分析

3.3.1 模型比较分析

将基于堆栈式稀疏自编码器的最优分类模型与3种模型进行比较分析。3种模型分别为：支持向量机，最小噪音分离（minimum noise fraction，MNF）降维后连接支持向量机，主成分分析（principal component analysis，PCA）降维后连接支持向量机。选取最小噪音分离与主成分分析提取特征数为4，支持向量机参数同上节。分别进行40次实验，取最优结果。4种模型比较分析如表2所示，得SSAE-SVM模型分类精度最高且测试时间最短。

表2 4种分类模型的比较分析

3.3.2 影像分类效果图

为验证SSAE-SVM模型性能，在上节比较总体精度（全部测试样本中被正确分类的样本数与总样本数的比值）的基础上，选取SVM模型与之进一步比较分析。给出两种模型下每类地物的分类精度，即制图精度（单类地物中被正确分类的样本数与单类地物中总样本数的比值），如表3所示。

总体精度与制图精度转换关系为：根据各类地物测试样本数将制图精度进行加权平均可得总体精度。进行整幅影像分类，如图4b、图4c所示。

由此可得，直接使用SVM时，小叶女贞易被错分为草和苏铁，苏铁易被错分为花岗岩，分析得由于光照大气等因素的影响，错分处地物光谱曲线与标准曲线存在偏差，且小叶女贞和草及苏铁和岩浆岩光谱曲线具有相似性，故造成错分。通过SSAE-SVM首先提取原始像元的抽象表达，得到像元的深度结构信息，这种深度特征使地物类间可分性增强。各类地物分类精度比较及效果图说明，SSAE-SVM分类模型使分类精度提高，尤其苏铁和小叶女贞分类精度明显提高，地物的总体分类效果得到改进。

表3 两种分类模型的不同地物制图精度

图4 试验区原始影像图和分类效果图

4 结论

本文以Hyspex成像光谱仪影像数据为例，引入深度学习理论，采用一种基于堆栈式稀疏自编码器的分类模型对影像进行分类。得出以下主要结论：

1）在隐含层神经元数为50～250，隐含层层数为1～5的区间内进行实验测试其对分类精度的的影响，得出当隐含层神经元数为150，隐含层层数为3时分类精度最佳，表明两种参数设置过大或过小均会对分类精度产生影响。

2）利用堆栈式稀疏自编码器提取的深度特征来进行分类与直接使用原始特征相比可将分类精度由82.68%提高到87.82%，同时深度特征明显优于传统的MNF和PCA等方法提取的特征。

3）由于深度学习模型参数调整复杂，选取不当可使模型陷入局部最小或过拟合，影响分类结果。因此下一步需对参数调整方法进行深入研究。同时考虑获取更广泛的影像数据来验证模型的普适性及拓展深度学习理论在高光谱遥感领域中的应用。

本文的研究工作得到了成都理工大学骨干教师培养计划（DG0002）的资助，在此表示感谢！

［1］ HUGHES G. On the mean accuracy of statistical pattern recognizers［J］. IEEE Transactions on Information Theory，1968， IT-14（1）： 55-63.

［2］ CAMPS-VALLS G， BRUZZONE L. Kernel based methods for hyperspectral image classification［J］. IEEE Transactions Geoscience and Remote Sensing， 2005， 43（6）： 1351-1362.

［3］ CORTES C， VAPNIK V. Support vector network［J］. Machine Learning， 1995， 20（3）： 273-297.

［4］ MELGANI F， BRUZZONE L. Classification of hyperspectral remote sensing images with support vector machines［J］. IEEE Transaction and Geoscience and Romote Sensing， 2004， 42（8）： 1778-1790.

［4］ DONG Yu， LI Deng. Deep learning and its applications to signal and information procession［J］. IEEE Signal Processing Magazine， 2011， 28（1）： 145-154.

［6］ ANTHES G. Deep learning comes of age［J］. Communication of the ACM， 2013， 56（6）： 13-15.

［7］ VINCENT P， LAROCHELLE H， LAJOIE I， et al. Stacked denoising autoencoders［J］. Journal of Machine Learning Research， 2010， 11（12）： 3371-3408.

［8］ IAN G， COURVILLE A， BENGION Y. Large scale feature learning with spike and slab sparse coding［C］//International Conference on Machine Learning. Scotland： Edinburgh，2012： 1439-1446.

［9］ BENGIO Y. Practical recommendations for gradientbased training of deep architectures［J］. Neural Network： Tricks of the Trade， 2012， 7700： 437-478.

［10］谭坤，杜培军. 基于支持向量机的高光谱遥感图像分类［J］. 红外与毫米波学报， 2008， 27（2）： 123-129. TAN Kun， DU Pei-jun. Hyperspectral remote sensing image classification based on support vector machine［J］. J Infrared Millim Waves， 2008， 27（2）： 123-129.

［11］ HSU C W， CHANG C C， LIN C J. A practical guide to support vector classification［R］. Taibei， Taiwan， Chian：University of National Taiwan， Department of Computer Science and Information Engineering， 2003， 67（5）： 1-12.

［12］ LAROCHELLE H， BENGIO Y， LOURADOUR J. Exploring strategies for training deep neural network［J］. Journal of Machine Learning Research， 2009， 10（12）： 1-40.

［13］ BENGIO Y. Deep learning of representations for unsupervised and transfer learning［C］//International Conference on Machine Learning. Washington： Bellevue，2011， 7： 17-37.

编辑漆蓉

HypersUpesicntrga tlh Re eSmtaoctkee Sde Snpsianrgs eI mAaugtoee Cnchoadsseirfication

DAI Xiao-ai， GUO Shou-heng， REN Yu， YANG Xiao-xia， and LIU Han-hu
（Key Laboratory of Geo-Spatial Information Technology， Ministry of Land and Resources，Chengdu University of Technology Chengdu 610059）

To extract rich features of hyperspectral image， this study explores the deep features of the raw data by using a stacked sparse autoencoder in the deep learning theory. First we create a sparse expression of raw hyperspectral image using sparse autoencoder. Then a deep neural network generating the deep features of raw data is built through learning stacked sparse autoencoder layer by layer. In addition， the deep feature-related model parameters are precisely calibrated by the statistical learning algorithm of the support vector machine （SVM）. The performance of the experiment indicates that the overall accuracy of classification model based on stacked sparse autoencoder reaches 87.82%， superior to other experimental methods. From our experiments， it follows that the deep learning theory and stacked sparse autoencoder are of high potential in hyperspectral remote sensing image classification.

deep neural network； feature extraction； hyperspectral image classification； stacked sparse autoencoder； support vector machine （SVM）

TP751.1

10.3969/j.issn.1001-0548.2016.02.012

2015 - 05 - 26；

2015 - 12 - 10

国家自然科学基金（41201440，41071265，41102225）；教育部高等学校博士学科点专项科研基金（20135122120009）；四川省教育厅科研项目（15ZB0066）；国土资源部地学空间信息技术重点实验室课题（KLGSIT2013-02）

戴晓爱（1979 - ），女，博士，副教授，主要从事遥感与GIS方面的研究.

基于堆栈式稀疏自编码器的高光谱影像分类

1 堆栈式稀疏自编码器

2 基于堆栈式稀疏自编码器的高光谱影像分类实验设计

3 模型调整与分析

4 结 论

4 结论