东洞庭湖湿地植被高光谱数据降维与分类

2019-10-31 03:39李世波
中南林业科技大学学报 2019年11期
关键词:降维贡献率方差

李世波,林 辉,葛 淼

(1.中南林业科技大学 林业遥感大数据与生态安全湖南省重点实验室,湖南 长沙 410004;2.贵州林业勘察设计有限公司,贵州 贵阳 550001;3.润雅信息技术(上海)有限公司,上海 215008)

湿地植被的识别与分类是林业遥感研究中的难点。常见多光谱遥感存在波段少、光谱范围较宽和波段不连续,无法满足湿地植被间的精细识别[1-3]。而高光谱遥感具有光谱分辨率高、波段连续、多波段数的特点,另外高光谱数据信息丰富和图谱合一等特点,为湿地植被的精细识别与分类提供了数据源支持[4-7]。但高光谱数据量大,维数太多容易导致维数灾难[8-9]。所以在利用高光谱数据进行植被分析必须先对数据进行降维处理。

高光谱数据降维常用的算法有主成分分析(Principal component analysis,PCA)[10-11]、非线性降 维(Linear Discriminant Analysis,LDA)[12-13]、独立分量分析(Independent component analysis,ICA)[14-15]等,因PCA 应用领域较广,且取得较好的降维效果,故本文采用PCA 算法对高光谱数据进行降维。不同的湿地植被在采用PCA 降维后是否能显示各湿地植被的特征,在这方面的研究还比较少。本研究主要从以下几个问题着手,分析PCA 算法在湿地植被反射率数据降维后的效果:1)PCA 算法是否对变换后的高光谱反射率数据特征都有效,变换后的高光谱反射率数据经过PCA降维后是否有差异;2)PCA 算法如果对各个湿地植被可以提取差异,那么他们在累计方差贡献率达到一定时,保留的主成分个数是否相同,且对应在相同主成分时,累计方差贡献差别有多大;3)利用PCA 算法所提取的特征,是否对所有分类方法都有效,即多种变换后的高光谱数据经过PCA降维后,所对应的分类算法是否一致,如果不一致,则哪种组合方式最优。

本研究对滤波后的湿地植被高光谱反射率数据及3 种预处理数据采用PCA 算法进行降维处理,采用马氏距离(Mahalanobis distance,Md)、朴素贝叶斯(Naïve Bayes,NB)、K邻近分类器(Knn)、随机森林(Random forest,RF)、径向基内核支持向量机(SVM-RBF)等[16-20]5 种分类算法对降维后的数据进行分类和精度检验,并对分类精度进行比较分析,讨论PCA 算法在湿地植被变换后再降维的分类效果,以及对分类精度的影响,最后获得最优的湿地植被识别组合方法。

1 研究区概况及数据来源

1.1 研究区概况

研究区位于湖南省东洞庭湖自然保护区,总面积190 000 hm2。坐标28°59″~29°38″N,112°43″~113°15″E。保护区内有多种湿地类型,其中,永久性淡水湖面积21 710 hm2,占湿地面积的81%。土壤为湖沼土和河沼土。平均气温16.7 ℃,降水量1 200~1 350 mm,无霜期274 d。常见湿地植被为苔草Carex tristachya、辣蓼Polygomum flɑccidum、芦苇Phragmites australis、芦蒿Artemisia selengensisi。

图1 研究区位置Fig.1 Location of study area

1.2 数据来源

高光谱数据外业采集时间为2014年11月 2—4日,采集地点位于湖南省东洞庭湖自然保护区。仪器采用美国ASD(Analytical spectral device)公司生产的FieldSpecPro FRTM 光谱仪。光谱测定均在晴天、无风时进行,观测时间为10:00—14:00,太阳高度角大于45°,阳光几乎直射。采集湿地植被高光谱数据时,确保探头保持垂直向下。为使数据不受地理位置的影响,湿地植被高光谱数据均匀分布于东洞庭湖。观测湿地植被分别为苔草、辣蓼、芦蒿、芦苇和杨柳等5 种(表1)。

表1 东洞庭湖湿地植被名录Table 1 Five kinds of wetland vegetation in east Dongting lake

2 数据预处理与分析方法

2.1 数据预处理

剔除异常数据,共观测有效数据480 条。因仪器自身原因,不可避免产生低频噪声,因此,在分类前先采用S.Golay 对湿地植被高光谱数据进行平滑处理。经过平滑后的高光谱数据,舍弃了400 nm 之前和1 300 nm 之后噪声较大的光谱数据,保留了400~1 300 nm 之间的光谱数据。因光谱仪仪器在350~1 000 nm、1 000~2 500 nm 范围光谱分辨率不一致,为降低维数和随机噪声,将平滑后的光谱数据重采样成3 nm,重采样后的数据仍然保持其原有的高光谱特征(图2)。

图2 平滑后的湿地植被高光谱曲线Fig.2 Hyperspectral curves of wetland vegetation after smoothing

由于光照条件及观测背景因素对观测结果有影响,为了消除这些噪声,对重采样后的湿地植被高光谱数据分别进行导数变换(d(R))、对数变换(log(R))和归一化变换Nr(R)。

2.2 数据降维

本文将重采样后的数据分别进行导数变换、对数变换和归一化变换,然后进行PCA 降维,得到4 组湿地植被降维数据,再将每组中每一类别的湿地植被数据按照1、2、3 编号,当遇到另外一类别的植被数据时,重新按照1、2、3 的顺序编号,至所有的数据编完号为止。选择编号为1、2 的作为训练数据,编号为3 的作为测试数据。训练数据和测试数据分配方式如表1所示。

2.3 高光谱数据降维分类测试

分别采用马氏距离(Md)、朴素贝叶斯(NB)、K 邻近分类器(Knn)、随机森林(RF)、径向基内核支持向量机(SVM-RBF)对4 种类型(重采样后的光谱数据,导数变换、对数变换、归一化变换的光谱数据)的湿地植被高光谱数据分别进行分类,通过降维与分类精度,探讨不同预处理方法和不同主成分个数对分类精度的影响,分析预处理方式与分类算法的组合形式,筛选适用于湿地植被精细识别的最优组合。

3 结果与分析

3.1 PCA 降维结果分析

4 种类型数据经过PCA 降维后,选取前30 个主成分(第30 个主成分的累计方差贡献率已达到100%),各种类型的累计方差贡献率如图3所示。

从图3可以得出,R(重采样后的光谱反射率数据)、dr(R)、log(R)、Nr(R)经过PCA 降维后的第一主成分的累计方差贡献率差异明显,分别为:94.30%、92.47%、78.78%、76.77%。从数据变换后的累计方差贡献率可以发现,变换后的数据在第一主成分中所占有植被特征相对少,植被特征被逐步分散到剩下的主成分中。一阶微分变换在去除低频背景光谱时,引入了高频噪声,而对数变换和归一化变化可以消除光照条件引起的乘性因素影响,故两者的累计方差贡献率在对应主成分上差异不大。

4 种类型的数据经过PCA 降维后累计方差贡献率达到98%时,包含的主成分个数差异也比较明显,R、dr(R)、log(R)、Nr(R)的主成分个数分别为4 个、8 个、5 个、6 个,变换后的数据在累计方差贡献率达到一定值时,包含主成分个数较变换前多,说明植被特征分散的主成分个数越多。根据累计方差贡献率的数字柱状图显示,R、dr(R)累计方差贡献率变化梯度均匀,而log(R)、Nr(R)变化梯度差异较大。

图3 PCA 降维后的累计方差贡献率Fig.3 Contribution of cumulative variance of wetland vegetation after dimensionality reduction by PCA

3.2 分类结果对比分析

采用5 种分类方法对4 种经过PCA 降维后的湿地植被数据进行分类,分类精度见图4。

图4 主成分数与分类精度关系Fig.4 The relationship between the number of main components and classification accuracy

由图4可知,主成分数量增加,分类精度也随着提高,波动幅度也随之变化。但数据预处理方式不同,经过PCA 降维后,其分类精度也有所差异。

1)第一主成分植被信息含量最丰富,但分类精度不一定最高,累计贡献率达到98%以后,分类精度有明显的提高。经过不同的数据预处理方式,当分类算法处于第一主成分时,分类精度为15%~45%,说明第一主成分虽然含湿地植被的大量信息,但不能代表分类精度就越高;当累计方差贡献率达到98%时,其所含的主成分包含了光谱数据绝大部分信息,全部分类算法的分类精度为20%~90%,说明累积方差贡献率与分类精度之间并不存在必然的联系。

2)在4 种预处理中dr(R)经PCA 降维后分类效果最理想,从图3(b)中可以明显观察到当主成分个数从1 个增加到11 个的过程中,分类精度基本上与累计的主成分的个数呈直线上升,分类精度逐渐提高,当主成分个数超过12 个时,各种分类方法的分类精度保持在较高水平不再大幅度波动。说明前11 个主成分可以描述5 种湿地植被的主要特征,剩下的分量中所包含的湿地植被特征基本可以忽略。

3)针对不同变换方式,用不同的分类方法进行湿地植被的精细识别时,随着主成分个数的不断增多,分类精度变化曲线并不一致。数据经过平滑处理、导数变换、对数变换后,在主成分个数累计达到5 个时,随机森林和径向基内核支持向量机分类精度趋于基本平稳,精度波动范围差值在5%以内,随机森林波动幅度较小,而径向基内核支持向量机上下波段较明显。Knn 分类算分针对数据变换拥有相似的分类精度曲线,当主成分个数累计达到8 个后,分类精度保持不变。在导数变换时,马氏距离与径向基内核支持向量机、Knn、随机森林分类精度曲线走向相似,但其在数据平滑、归一化变化、对数变化中,分类精度极其不稳定,波动幅度大,随着主成分个数的增加分类精度无明显规律。朴素贝叶斯针对导数变换和对数变换呈现的分类精度曲线极其相似。

4)同一分类算法运用在不同的预处理方式中,稳定性不一定相同。针对4 种预处理方式,径向基内核支持向量机、随机森林稳定性极强,分类精度曲线呈线性上升,当主成分个数达到一定个数时,精度曲线始终保持平稳。Knn 的稳定性次于径向基内核支持向量机和随机森林,分类精度曲线与径向基内核支持向量机和随机森林相似。而马氏距离、朴素贝叶斯稳定性最差,分类精度不高,分类精度曲线波动幅度较大,在同种预处理方式中,马氏距离、朴素贝叶斯测试的分类精度总是低于径向基内核支持向量机和随机森林测试的分类精度。说明高光谱数据不同的预处理方式影响分类方法的稳定性。由图3中可以看出,log(R)-PCA 降维-RF、dr(R)-PCA 降维-径向基内核支持向量机为湿地植被的组合方式最优,其最高分类精度可达98.5%。

4 结论与讨论

通过对东洞庭湖湿地植被高光谱数据降维和分类研究,主要得到以下结论:

1)运用PCA降维后的湿地植被数据用于分类,累计方差贡献率与湿地植被分类精度不存在必然联系,即累计方差贡献率达到98%时,分类精度不一定达到最高。对分类精度造成影响的是PCA降维后的主成分个数,对湿地植被进行主成分降维后,最适宜的主成分数量为前8~11 个主成分。

2)将PCA 算法应用于湿地植被高光谱数据分类中,数据平滑和数据变换方法对PCA 降维有显著的影响,导数变换和对数变换的数据最适合PCA 降维。

3)径向基内核支持向量机、随机森林针对4种预处理方式都表现出极强的稳定性,马氏距离、朴素贝叶斯稳定性最差,分类精度不高、且波动幅度较大,Knn 分类算法不适用于数据平滑,对去除噪声后的数据变换较适应。根据分类方法对数据预处理和数据降维后的灵敏度,log(R)-PCARF、dr(R)-PCA-SVM-RBF 为湿地植被精细识别的最佳组合方式。

主要证据如下:①与藏卓[10]在乔木树种的识别上得出相似的结论。以往的分类研究在主成分分析应用较多,但对与主成分个数的讨论较少,如宋仁飞[2]研究湿地植被高光谱数据变换及识别。②藏卓[10]在应用主成分变换对乔木树种的高光谱数据进行分析,得出前15~20 个主成分较为合适的结论,说明湿地植被在识别方面保留的主成分个数小于乔木树种,原因可能与地形、树种立地背景、植被盖度、叶绿素等因素有关。③主要原因是一阶微分在消除背景因素的影响上较为有利,但引入了更多的噪声;对数变换和导数变换不但可以增强可见光波段范围的光谱差异,而且还有助于降低因光照变化引起的乘性因素的影响,引入的噪声较少。④主成分分析和随机森林在多光谱影像的识别与分类上取得较好的效果[21-22],但该组合应用于多光谱影像是否取得相同的效果,有待进一步研究。⑤本文在利用数据变换、主成分分析、分类方法组合研究上对湿地植被分类虽然取得较好的效果,但不能识别具体湿地植被较敏感的波段窗口。下一步将从高光谱湿地植被的波段窗口并结合多光谱遥感进行湿地植被分类研究,形成高光谱数据与多光谱数据对湿地植被分类相结合的纽带。

猜你喜欢
降维贡献率方差
混动成为降维打击的实力 东风风神皓极
概率与统计(2)——离散型随机变量的期望与方差
一种通用的装备体系贡献率评估框架
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
降维打击
关于装备体系贡献率研究的几点思考
方差生活秀
揭秘平均数和方差的变化规律
方差越小越好?
一种改进的稀疏保持投影算法在高光谱数据降维中的应用