基于无人机多源遥感数据的亚热带森林树种分类

2022-05-26 10:02秦海明张志明王伟民周伟奇
生态学报 2022年9期
关键词:植被指数数据源波段

姚 扬,秦海明,张志明,王伟民,周伟奇,4,5,*

1 中国科学院生态环境研究中心城市与区域生态国家重点实验室,北京 100085 2 云南大学生态与环境学院暨云南省高原山地生态与退化环境修复重点实验室,昆明 650091 3 深圳市环境监测中心站,国家环境保护快速城市化地区生态环境科学观测研究站,深圳 518049 4 中国科学院大学,北京 100049 5 北京城市生态系统研究站,北京 100085

树种多样性是生态学研究的重要内容。树木的种类和空间分布是生物多样性保护、森林生态系统服务等研究的基本数据源[1—2],服务于森林资源保护与森林可持续性管理[2—3]。但传统的森林清查和其他基于现场的数据采集很难获取详细的树种空间分布信息[4—5]。卫星遥感数据在树种分布研究中尽管已成功应用,但由于其较低的空间分辨率和光谱分辨率,精度普遍较低[6—7]。无人机近地面遥感技术可以采集得到具有更多信息量的数据,如可见光数据、高光谱数据、激光雷达数据(Light Detection And Ranging,LiDAR)等,并对应提取分类特征[4—5,8],从而实现树种分类精度的提升[9—10]。

目前基于无人机数据的树种分类研究已经在温带森林取得一定研究成果,分类精度较高。如Huang等基于高光谱数据对中国9个北方树种进行分类,分类精度高达95.7%[8]。Prosek等基于可见光纹理信息和多光谱信息对捷克温带森林中6个植物种进行分类,精度为88.2%[11]。Beyer等基于多光谱植被指数、可见光纹理以及热红外冠层温度特征,对温带9类树种进行分类,制图精度达到89.0%[12]。而热带、亚热带森林由于其丰富的物种多样性,一直是生态学研究的重点区域,但其林分条件复杂,树冠茂密,物种众多,一直难以获得较高精度的树种分类结果,如Féret和Asner基于高光谱影像对夏威夷森林的9个树种开展分类,精度仅为70%[13],Sothe等用高光谱波段分类巴西亚热带森林的12种树种,最高精度为72.3%[14]。尽管部分学者获得了较高精度的制图结果[3,15],但分类树种数相对偏少。多树种的热带、亚热带森林的分类精度提升一直是一个难点。

本实验利用可见光、高光谱、LiDAR等多源无人机遥感数据,基于机器学习的方式和特征融合的理念探究无人机遥感多源数据在亚热带林分条件下的树种分类潜力,分析机器学习分类器、不同数据源、不同分类特征等分类过程与方法对分类精度的影响,为亚热带森林高精度分类制图提供经验和例证。

1 数据与方法

1.1 研究区

研究区位于深圳市坪山区马峦山(114.4083°—114.4133°E,22.6886°—22.6931°N),平均海拔100m,海拔梯度较大。该区域的气候类型是亚热带海洋性气候,土壤类型为砂壤土,主要植被类型是热带植被和亚热带植被。研究区内植物种类较多,包括马占相思(Acaciamangium)、木荷(Schimasuperba)等树种、红茅草(Rhynchelytrumrepens)、芒萁(Dicranopterispedata)等草本植物。研究区位置及正射影像见图1。

图1 研究区Fig.1 Study area

1.2 影像采集及树种调查

本研究数据采集于2019年8月5日,当日晴朗无风,阳光充足。航线的航向重叠度设置为65%,旁向重叠度设置为80%,以确保图像的多视图和清晰的表面特征。传感器及数据信息见表1。

表1 数据信息Table 1 Data information

在飞行区域均匀布设控制点,通过架设实时动态全球定位系统(RTK-GPS),测量并记录控制点的经纬度和高程信息,用于后续对可见光、高光谱影像进行几何校正和绝对坐标系配准。实地树种调查主要包括样地内树种信息、优势种信息以及经纬度信息。

1.3 数据预处理及分类特征提取

1.3.1可见光数据

可见光影像的处理主要包括两个过程,一是利用运动恢复算法SfM(Structure from Motion)完成稀疏点云匹配和重建,二是根据多视立体视觉算法MvS(Multi-view Stereo)生成稠密点云[16—17]。在此基础上通过克里金插值生成研究区的格网和纹理,最后获得正射影像。根据正射影像计算其纹理特征,具体包括均值、方差、协同性等。

1.3.2高光谱数据

高光谱数据依次进行辐射校正,反射校正,几何校正等预处理工作,以去除干扰,提高影像几何精度,并将原始影像的DN值转换为反射率[3,8],之后对相邻条带做影像配准后再进行镶嵌拼接[18]。基于高光谱影像提取最小噪声变换(Minimum Noise Fraction Rotation,MNF)分量[8,19]和窄带植被指数[20],以实现高光谱影像降维,并反映植物冠层光谱信息的差异。具体选取包括代表叶面积和冠层结构[21—23],叶和冠层色素[22,24—25],植物胁迫[26—27]和光能利用效率[28—30]等20余个窄带植被指数。

1.3.3Lidar数据

LiDAR点云数据基于去噪、滤波等预处理,消除噪声干扰,并区分地面点和非地面点。基于地面点平均高程生成数字高程模型(Digital Elevation Model,DEM)[31],之后利用非地面点生成数字表面模型(Digital Surface Model,DSM)[32],二者做差即为冠层高度模型(Canopy Height Model,CHM)[9,33]。此外,为进一步挖掘不同树种的结构特征,在分类软件中计算点云高度分位数,均值,众数等特征。

1.4 样本选取

根据实地树种调查的点位信息,手动勾画样本,按照7:3的比例将70%的样本用于树种分类,30%用于分类后检验。分类样本各类型数量见表2。

表2 分类样本数量统计表Table 2 The quantity of the classification samples

1.5 分类方法与精度评价

1.5.1分类方法

本研究使用面向对象的分类范式将影像分割为有意义的对象,分割方法为多尺度分割,使用所有特征参与分割[34—35],并基于ESP插件来选取最适分割参数[36—37]。通过ESP结果和目视检查,最终光谱带的权重为1,CHM的权重设置为5,分割尺度设置为15,形状指数设置为0.3,紧凑度设置为0.5。

计算每个分割对象的纹理、植被指数、结构等分类特征,点云高度分位数和众数的计算公式如下

(n-1)×p=i+j,Hp=(1-j)×Hi+1+j×Hi+2

(1)

式中,n为区域内点云个数,p为分位数比率,i,j为计算结果的整数和小数部分,Hp为高度分位数,Hi+1、Hi+2为区域内点云高度排序后的第i+1、i+2个点云的高度。

HMode=Hmean-3×(Hmean-H50%)

(2)

Hmode是点云高度众数,Hmean是点云高度均值,H50%是点云高度中位数。

本研究选择机器学习中较为常用的四个分类器,随机森林(Random Forests,RF)、支持向量机(Support Vector Machine,SVM)、贝叶斯(Bayes)以及K最近邻(K-Nearest Neighbor,KNN)来探究不同分类器对分类精度的影响,参数设置见表3。

表3 各分类器优缺点及参数设置Table 3 Advantages and disadvantages of each classifier and parameter settings

1.5.2精度评价

利用总体精度Overall accuracy(OA)和Kappa系数评估分类模型总体准确性和可靠性。基于F1分数(生产者精度和用户精度的调和平均数)来评估特定类别的分类性能。

Z统计量被用来检验两个分类混淆矩阵之间的差异性,进而表征不同方法间的统计学差异,其计算公式为

(3)

式中,k1,k2为混淆矩阵,var(k1)和var(k2)代表混淆矩阵的方差。

基于总体分类精度及各类别的F1分数,对四个分类器的效能和分类精度进行评价。

1.5.3分类模型与特征重要性

在最优分类器下,将可见光、高光谱、LiDAR数据按照单数据源、双数据源以及多数据源的方式,构建分类模型,并比较其总体分类精度和Kappa系数,判定基于不同数据源模型的分类精度差异。之后基于精度最高的分类模型,重新排列分类特征的顺序或逐级加入分类特征,通过测量每种特征对模型预测准确率的影响,计算所有分类特征的重要值。

2 结果

2.1 分类器精度比较

各分类器的分类精度和Z统计值结果见表4,总体精度从高到低的排序为RF、SVM、Bayes、KNN,四者的总体精度均存在显著差异。其中精度最低的KNN分类器,OA和Kappa系数低于0.9,另三种分类器的OA和Kappa系数则均高于0.9。

表4 各分类器精度Table 4 The accuracies of all classifiers

各分类器的分类结果见图2,图中可以看到KNN分类器的分类结果较其他有较大差别,另三个分类器的分类趋势和图斑分布则相对较为一致。

图2 不同分类器分类结果Fig.2 Classification results of different classifiersRF:随机森林,Random Forests;SVM:支持向量机,Support Vector Machine;Bayes:贝叶斯,KNN:K最近邻,K-Nearest Neighbor

各树种的F1分数结果见图3,不同分类器对不同树种的响应情况不同,基于RF分类器的各树种F1分数表现最好,除黄槿之外,其余类别的F1分数均高于0.9。其他分类器的各树种精度差异较大,精度最低的KNN分类器,除红茅草,马占相思外其余树种F1分数均低于0.9。Bayes和SVM分类器中的部分树种F1分数虽高于RF,但精度较RF低的类别更多,尤其是芒草和小叶榕,其分类精度显著低于RF分类器。综上,RF分类器的分类效果最好。

图3 不同分类器各树种F1分数Fig.3 F1 score of each tree species of the different classifiers

2.2 多源数据精度贡献

基于RF分类器的多源数据模型精度差异如表5,各数据源和模型之间的显著性检验结果见表6。当使用单一数据源时,总体精度和Kappa系数从高到低的排序分别为高光谱数据、LiDAR数据、可见光数据,且三者之间的差异极显著。说明三种数据所含信息量的高低排序分别为丰富的光谱信息,结构信息和可见光纹理信息。

表5 多源数据模型精度差异Table 5 The accuracies of different models

表6 多源数据模型Z统计量Table 6 The Z-statistics of different models

从双数据源看,可见光结合LiDAR数据的分类精度分别从74.66%、77.45%提升至87.68%(表5),差异极显著,高于单独使用高光谱数据的分类精度(0.35%)。而高光谱再结合可见光、LiDAR数据,精度将进一步分别提升3.09%和6.1%,达到90.42%和93.43%,且差异极显著。而当使用全部数据源的时候,较高光谱与LiDAR结合时,精度提升2.2%达到最高(95.63%),但差异不显著(Z=1.504)。高光谱与LiDAR结合的模型便可较好地区分各树种,引入可见光纹理数据并未显著提高分类精度。

不同分类特征的重要性结果如图4。重要性最大的是结构特征,包括点云高度特征、DEM、CHM等,其次是植被指数,如改进光化学反射指数(Modified Photochemical Reflectance Index,MPRI),叶绿素含量指数(Datt Chlorophyll Content Index,Datt),红边指数(Red Edge Index,REI),调整植被指数(Soil-Adjusted Vegetation Index,SAVI),花青素含量指数1(Anthocyanin Content Index1,ACI1)等。纹理特征和MNF的前五分量重要性相对较低。其中,绿光波段的纹理特征的重要性要高于红光和蓝光,而随着分量维数的增加,MNF的前五分量重要性逐渐下降,可见最小噪声变换分量在对高光谱数据降维的同时会损失较多信息量,在亚热带森林分类过程中难以体现优势。

图4 分类特征重要性Fig.4 The importance of different classification featuresDEM:数字高程模型,Digital elevation model;Height_mean:冠层高度均值,Mean canopy height;Height_95%:冠层高度95%分位数,The 95% quantile of the canopy height;Height_90%:冠层高度90%分位数,The 90% quantile of the canopy height;CHM:冠层高度模型,Canopy height model;MPRI:改进光化学反射指数,Modified Photochemical Reflectance Index;Datt:叶绿素含量指数,Datt Chlorophyll Content Index;REI:红边指数,Red Edge Index;SAVI:调整植被指数,Soil-Adjusted Vegetation Index;ACI1:花青素含量指数1,Anthocyanin Content Index 1;Vog2:Vog植被指数2,Vogelmann Red Edge Index 2;PPR:植物色素比,Plant Pigment Ratio;Green_mean:绿光波段均值,The mean value of green band;GI:绿度指数,Green Index;NDVI:归一化植被指数,Normalized Difference Vegetation Index;MRESRI:改进红边比值植被指数,Modified Red Edge Simple Ratio Index;SIPI:结构不敏感色素指数,Structure Insensitive Pigment Index;Red_entropy:红光波段信息熵,The entropy of red band;Green_correlation:绿光波段相关性,The correlation of green band;MNDVI:改进型归一化红边植被指数,Modified Red Edge Normalized Difference Vegetation Index;B550:550nm处波段值,The band value of 550nm;Green_homogeneity:绿光波段协同性,The homogeneity of green band;ARI2:花青素反射指数2,Anthocyanin Reflectance Index 2;Blue_correlation:蓝光波段相关性,The correlation of blue band;Blue_ second moment:蓝光波段二阶矩,The second moment of blue band;Red_homogeneity:红光波段协同性,The homogeneity of red band;Grenn_entropy:绿光波段信息熵,The entropy of green band;PSSR:特异性色素简单比值指数,Pigment-Specific Simple Ratio;Red_dissmilarity;红光波段相异性,The dissmilarity of red band;Red_mean:红光波段均值,The mean value of red band;Blue_homogeneity:蓝光波段协同性,The homogeneity of blue band;Green_contrast:绿光波段对比度,The contrast of green band;Blue_entropy:蓝光波段信息熵,The entropy of blue band;B660-740:660—740nm处均值,The mean value of 660—740nm;RI2:比值植被压力指数2.Ratio Index 2;Height_mode:冠层高度众数,The mode of the canopy height;Blue_variance:蓝光波段标准差,The variance of blue band;PSI:植物压力指数,Plant Stress Index;Blue_dissimilarity:蓝光波段相异性,The dissimilarity of blue band;Red_variance:红光波段标准差,The variance of red band;CI2:叶绿素指数2,Chlorophyll Index 2;Red_contrast:红光波段对比度,The contrast of red band;Green_ dissimilarity:绿光波段相异性,The dissimilarity of green band;Green_ second moment:绿光波段二阶矩,The correlation of green band;RVSI:红边植被压力指数,Red Edge Vegetation Pressure Index;Green_variance:绿光波段标准差,The variance of green band;SR:红边斜率,The slope of red edge;Blue_mean:蓝光波段均值,The mean value of blue band;EVI:增强型植被指数,Enhanced Vegetation Index;MNF1:最小噪声分离变换分量1,The first component of the Minimum Noise Fraction Rotation;MNF2:最小噪声分离变换分量2,The second component of the Minimum Noise Fraction Rotation;Blue_contrast:蓝光波段对比度,The contrast of blue band;Red_ second moment:红光波段二阶矩,The second moment of red band;B750:750nm处波段值,The band value of 750nm;MNF3:最小噪声分离变换分量3,The 3th component of the Minimum Noise Fraction Rotation;MNF4:最小噪声分离变换分量4,The 4th component of the Minimum Noise Fraction Rotation;MNF5:最小噪声分离变换分量5,The 5th component of the Minimum Noise Fraction Rotation

3 讨论

3.1 树种分类精度

对于分类器,本研究证明在亚热带林分条件下,RF分类器的总体精度和单类树种分类精度均为最高,虽然不同分类器在不同情境下的表现力存在一定差异[38—39],但RF分类器具有较好的先天优势,其对参数设置不敏感,可以在多物种数分类过程中获得较高的精度,在各种树种配置条件下均有较高的分类适用性[39]。

对于数据源,高光谱影像在热带亚热带树种分类过程中的应用前景较好[13—14]。本研究中只基于高光谱数据的模型,总体精度即达到87.33%。各类别的光谱曲线如图5。

图5 各类别光谱曲线图Fig.5 Spectral curves of each category

不同类别间存在较明显差异,唯独马占相思和木荷,阴香和芒草之间存在一定的曲线重叠和波形相似。而窄带植被指数的使用显著放大了各类别间的差异,只基于高光谱窄带植被指数数据即可达到86.24%的分类精度,而只基于MNF变换分量的模型分类精度极低,仅为50.34%。虽然二者结合使精度提升1.09%(87.33%),但引入MNF数据前后的差异并不显著,因此降维后的数据会损失较多信息量,MNF数据的重要性和价值有待进一步探究。后续研究应进一步挖掘高光谱信息特征,尝试使用原始波段信息,而不是降维后的数据。

单独使用LiDAR或可见光数据得到的分类精度均不足80%,说明单一的纹理或结构信息均不足以作为分类的解释因子。但基于二者融合后的数据,分类精度提升至87.68%,精度提升则主要归因于LiDAR的结构信息[40]。高光谱数据结合LiDAR、可见光影像数据,其中的纹理信息和结构信息可以帮助区分具有相似光谱特征但冠层高度、冠层大小不同的物种[3,41],能够显著提高分类精度,较单独的高光谱数据整体精度提高了8.3%。全特征模型与高光谱+LiDAR模型之间无显著差异,因此高光谱和LiDAR双数据源的结合提供了最主要的信息量,而在此基础上引入可见光纹理数据不会对分类结果产生显著影响。

3.2 分类特征的重要性

排名靠前的分类特征的重要性占比如图6,在所有分类特征中,前15个分类特征的重要性之和超过60%,其中前5个都是结构特征,分别是DEM,高度均值、高度95%分位数,高度90%分位数,CHM。第6—15位中,窄带植被指数占到9个,纹理特征中重要性最高的为绿光波段均值,排第十三位。

图6 重要性前15的分类特征Fig.6 The top 15 of the classification features

本研究中各树种DEM和CHM均值情况见图7,样地内的各树种分布区域的DEM差异显著,存在较为明显的地带性分布,各树种之间的高度存在显著差异。因此在分类特征重要性排序上DEM和结构分类特征的重要性较高,与其他研究结果较为一致[12]。而部分研究也证明当使用所有分类特征时,LiDAR数据得出的分类特征比高光谱特征对物种准确预测的贡献更大[42],但结合不同传感器的分类精度结果,高光谱数据仍然是保证分类精度的最主要数据源。

不同植物在550nm附近的绿光波段和700—1000nm的近红外波段,反射峰存在显著差异,且后者的反射峰对植物分析十分重要[12,43]。本研究中重要性排名靠前的窄带植被指数,如改进光化学反射指数,花青素含量指数,植物色素比属于绿光谱段的植被指数,其余六个均属于700—1000nm的波谱范围或含有该谱段的信息(图6)。而纹理信息中重要性排名最前的也是绿光波段的均值(图6)。

此外9个最重要的植被指数中,改进光化学指数属于反映光能利用效率的植被指数,其在判定芽期树种发挥着重要作用[42]。而叶绿素含量指数、红边指数、花青素含量指数等均属于反映叶和冠层色素的植被指数,调整植被指数、归一化植被指数属于反映叶面积和冠层结构的植被指数,均可反映植物生长状况的差异[8,21,25]。

3.3 存在不足与展望

本实验尚存在一定的不足,主要在于亚热带林分条件下,受限于采集样本的数量,为避免维数陷阱,无法充分利用高光谱数据光谱信息,而是参照Huang等[8]的处理,使用了MNF变换分量和多种窄带植被指数,实际结果表明MNF分量难以代表原数据,而植被指数虽然突出了不同树种间的差异,但尚无法体现不同树种的光谱特征。对于更大范围更多种数的亚热带热带森林制图,仍需对高光谱特征进行深入挖掘,对应树种建立特征库。其次在实验方法上,部分研究已成功基于可见光影像和深度学习实现高精度的温带树种分类[16,44],而在亚热带森林,受限于样本库的容量,这方面的研究仍然较少,后续对于林分条件更为复杂的区域,可基于多源数据融合的手段基于深度学习的方法实现更高精度的树种分类。

4 结论

本研究探讨了可见光、高光谱、LiDAR等多源无人机近地面遥感数据在亚热带森林中树种分类的潜力,发现基于机器学习和利用多源数据可以实现多树种的分类精度的提高。随机森林分类器分类精度最高,总体精度为95.63%,Kappa系数为0.948,除黄槿外,其余各类别的F1分数均高于90%。利用多源数据可以显著提高分类精度,全特征模型精度最高,较单独使用高光谱数据提升了8.3%,且高光谱和LiDAR数据显著影响全特征模型分类精度,可见光纹理数据作用较小。众多分类特征中,重要性从大到小排序为结构特征,DEM数据,植被指数,空间纹理和MNF分量。且纹理和MNF特征在亚热带林分下,无法有效对树种进行区分,而MNF降维后的数据会损失较多信息量,高光谱数据应重点挖掘原波段信息。

猜你喜欢
植被指数数据源波段
最佳波段组合的典型地物信息提取
冬小麦SPAD值无人机可见光和多光谱植被指数结合估算
基于植被指数选择算法和决策树的生态系统识别
河南省冬小麦产量遥感监测精度比较研究
基于PLL的Ku波段频率源设计与测试
Web 大数据系统数据源选择*
小型化Ka波段65W脉冲功放模块
L波段kw级固态功放测试技术
基于不同网络数据源的期刊评价研究
基于真值发现的冲突数据源质量评价算法