面向Sentinel-2A影像的大理市土地利用分类方法适用性研究

2022-12-07 03:08贾玉洁刘云根杨思林徐红枫郑淑君
浙江农林大学学报 2022年6期
关键词:面向对象决策树农田

贾玉洁,刘云根,杨思林,王 妍,张 超,徐红枫,郑淑君

(1. 西南林业大学 生态与环境学院,云南 昆明 650224;2. 西南林业大学 云南省山地农村生态环境演变与污染防治重点实验室,云南 昆明 650224;3. 西南林业大学 林学院,云南 昆明 650224)

土地利用是城市发展规划及资源开发利用的关键信息,同时也是区域土地利用变化研究的重要基础[1]。然而高原山区的遥感影像自动分类相比其他地形区而言,传统的遥感分类方法在分类精度上受各方面因素影响,难以满足研究需求[2]。传统的监督分类方法和非监督分类方法,是基于像元的数理统计法,地物分类时考虑的主要为像元的光谱信息,对遥感影像的形状、纹理及空间关系等利用不够充分[3],容易发生“同物异谱”和“同谱异物”。近年来,国内外许多学者尝试利用不同类型遥感影像来提高土地利用分类精度,在遥感影像的使用上多以Landsat和Modis系列的中低分辨率数据为主,分类精度经常受到影像空间分辨率的限制,在地物破碎的区域提取草地、水塘和小规模村庄等时存在较大的局限性[4]。近年来采用高分辨率卫星作为实验数据的分类研究逐年增多[5−7],高分辨率影像可利用清晰的地物几何特征和纹理等信息,具有覆盖范围大、重访周期短、定量化探测等优点,但影像成本较高,获取难度较大[8]。哨兵二号遥感卫星最高的空间分辨率可达10 m,与传统遥感数据相比,Sentinel-2A遥感数据新增加的4个红边波段与叶绿素含量关系紧密[9]。在地物提取分类研究领域中,近年来有众多学者运用红边波段进行湿地提取[10]、作物识别[11]、地物类型划分[12]等方面的研究,均取得了较好的效果。随着计算机和3S技术的发展,遥感研究的逐渐深入,新的分类方法不断涌现,如多重滤波[13]、面向对象分类法[14]、模糊分类法[15]、随机森林分类法[16]、神经网络法[17]等。尽管这些分类方法在不同程度上均提高了分类精度,然而在分类结果中依然存在着或多或少的“椒盐效应”[18]。本研究以云南省大理市为研究区域,以Sentinel-2A遥感影像为数据源,提出一种面向对象特征与决策树规则相结合的分类方法,依靠多维遥感信息复合技术,充分利用地物的光谱特征[19]、几何结构和纹理等提高遥感影像在大理市不同土地利用类型的区分效果,可探索提高高原山区分类精度的有效途径。

1 研究区概况

云南省大理市地处云贵高原,大理州中部,25°25′ ~25°58′N,99°58′ ~100°27′E,总面积为 1 815 km2,基础海拔1 000 m以上,地面起伏较大,地形以山地为主,其中山地面积为1 278.8 km2,山区、半山区面积达70.5%。总体特征是西北高,东南低,四周高,中间低。研究区地处盆地,中部是洱海,被四周的高山环抱,西部是苍山,东侧为马尾山,四周山坡均朝向洱海。

2 研究方法

2.1 数据来源与预处理

本研究使用的Sentinel-2数据源通过欧空局的哥白尼数据中心下载,辅助数据包括2.5 m天地图影像数据和从地理空间数据云获取的大理市行政边界矢量数据。利用欧洲航天局(ESA)官方提供的SNAP软件和sen2cor插件对下载的原始影像进行大气校正,得到L2A级数据,采用最近邻插值法将波段重采样为10 m分辨率,基于ENVI软件对其进行几何校正。因高原山区云雾较多,为降低影像云覆盖对分类精度影响,将2020年1月1日至12月31日大理市Sentinel-2A影像最小云量进行年度多时相合成,通过大理市行政边界矢量数据对遥感影像数据进行裁剪。

2.2 土地利用分类体系

土地利用分类标准在参照GB/T 21010—2017《土地利用现状分类标准》[20]的基础上结合高原山区各方面特征,将研究区分为七大类,选出准确可靠的7个类型样本,进行样本间的分离度计算,计算结果如表1所示。

表1 各种类型地物样本组合的 Jeffries-Matusita距离Table 1 Jeffries Matusita distance of various types of feature sample combinations

2.3 面向对象特征的决策树分类

2.3.1 决策树分类模型粗分类 为能充分利用基于像素和面向对象分类方法优势,组合方法已被广泛应用于土地利用分类领域[21]。QUEST决策树从运算速度和分类精度方面均衡考量,优于其他决策树方法[22]。利用面向对象特征的遥感分类方法,可结合研究对象的光谱、形状、纹理、空间关系等不同属性信息,将相同性质的像元组成为基本处理单元“对象”完成分类[23]。对研究区各地物类型的光谱特征、纹理特征和几何特征分析后,以第3绿光波段、第8近红外波段、第4红波段和第11短波红外为特征波段,再提取农田、草地、冰川积雪和其他等4个不同类别地类的面向对象特征,根据各特征建立分类规则进行建模。构建面向对象特征与QUEST决策树相结合的分类模型,如图1所示。

图1 分类模型流程图Figure 1 Flow chart of classification model

①水体区域提取。基于研究区实地情况,本研究采取归一化差异水体指数(NDWI)方法[24]将研究区水体部分划分出来。根据对样本数据的初步分析以及人工判读,先将QUEST决策树分类条件设置为NDWI>0.412 5。②植被区域提取。因为Sentinel-2数据的优势是在红边范围含有3个波段的数据,且研究区是典型的高原山区,全域植被覆盖率较高,所以归一化植被指数(NDVI)能从影像中更加有效地提取植被区域[25]。以此为基础将决策树分类条件设置为NDVI>0.312 5,可将植被区域与非植被区域分离开,且不与水体区域混淆。再通过设置NDVI指数范围阙值,进一步将植被中的农田、草地分类条件设置为0.312 5<NDVI<0.654 3,林地则设置为0.654 3<NDVI<1.000 0。③非植被区域提取。将研究区的水体和植被两大类提取成功后,其余部分则为非植被区域。为了进一步将建筑用地从非植被区域提取出来,在前几步的基础上又计算了归一化建筑指数(NDBI),并将QUEST决策树分类条件设置为NDBI>0,发现此时可将研究区大部分建设用地从非植被区域提取出来。

2.3.2 面向对象特征的细分类 面向对象可充分利用各对象的各类特征信息,本研究使用了面向对象的光谱特征、几何特征和纹理特征,其定义如表2所示。

表2 面向对象特征定义表Table 2 Object oriented feature definition

本研究采用多尺度分割算法进行影像分割,共设置了一个分割层次,主要目的是将农田与草地、冰川积雪与其他进行区分。在确保影像分类精度的前提下进行多次实验,最终结果表明:分割尺度设置为30较为适宜,此时,各个分类对象均有较好的可分离性,且各个对象内部的同质性较高。再根据相邻对象的纹理特征和内部一致性确定归并尺度,对分割好的原始影像进行迭代归并,进一步完成相邻同类对象的归并。经多次实验,确定的归并尺度为65最为适宜。①草地与农田的面向对象特征。草地与农田相比,具有规则的几何形状,同时,草地与农田的光谱均值也有一定差异。所以,可将农田的对象筛选条件设置为:面积>3 000 m2,矩形形状参数>0.3,光谱均值>3 000 nm,余下不满足设定的农田筛选条件的地区为草地。②冰川积雪与其他的面向对象特征。其他用地类型延伸率较小且形状不规则,光谱均值也有较大差异,而冰川积雪大都分布于苍山高海拔地区,且连续性高,面积较大。所以为将两者区分开来,设定其他用地的筛选条件为:延伸率<3.5,1 210 nm<光谱均值(第4波段)<1 360 nm,1 225 nm<光谱均值(第3波段)<1 335 nm,1 400 nm<光谱均值(第2波段)<1 465 nm ,符合该条件的区域可判定为其他用地,余下不满足设定条件的则为冰川积雪。

2.4 其他分类方法

本研究还运用了最大似然分类法、ISODATA法与面向对象特征决策树法进行比较。ISODATA法分类与最大似然法均未引入面向对象特征,ISODATA法使用ENVI 5.3软件,选择IsoData分类器,预设22个类别和最大迭代次数为10进行分类计算,最后通过目视识别分类结果合并为本研究的7个类别。最大似然法基于ENVI 5.3软件使用ROIS方法定义7类训练样本进行分类。面向对象特征决策树分类使用IDL8.5结合ENVI 5.3编程实现。

2.5 精度评定

为了检验研究区影像分类解译结果的可信度,通过野外调查和2.5 m精度的天地图相结合的方式目视判读检验研究区各个样本点的真实土地利用类别,采用误差矩阵方法进行检验。在研究区内利用ArcGIS软件随机生成500个检验样本点,各地类验证点个数如表3所示。

表3 各地类验证点个数Table 3 Number of verification points of each class

3 结果与分析

3.1 不同分类方法空间分布比较

将3个分类结果与同期高分辨率天地图影像进行叠加对比(图2):ISODATA法相比前2种方法虽然显示结果较差,但具有明显特征的地物基本都能被识别出来,冰川积雪与建筑用地因光谱特征类似,从而产生了部分混淆。最大似然分类和面向对象决策树分类得到的研究区地物分布与天地图影像显示结果基本一致。但是,由于高原山区草地和部分农田分布较为破碎,且研究区地表植被覆盖度较高,所以利用最大似然方法提取的某些林地、草地和面积较小的农田会产生部分混淆。而面向对象决策树分类由于构建特征指数将不同地物差异放大,且引入了面向对象特征,更有利于决策规则的制定,所以提取的结果在空间表现上相比与其他分类方法更合理。

图2 基于不同分类方法得到的大理市2020年土地利用类型示意图Figure 2 Land use type map of Dali City in 2020 based on different classification methods

对3种土地利用分类方法各地类的面积进行统计,并与欧空局公布的2020年10 m分辨率土地利用数据进行验证对比。结果如图3所示:面向对象特征的决策树法提取的研究区内林地面积最大,其次是农田、草地、水体、建设用地和冰川积雪,面积最小的为其他用地:3种分类方法中此方法结果与研究区的实际情况最为符合。 ISODATA法基于机器学习,在地物分布较为破碎的区域,机器学习的效果会受样本中噪声的影响,产生过拟合现象。最大似然法是基于统计分析的原理,可减轻样本中噪声的影响,提取结果在空间分布上也更为合理。面向对象特征的决策树法以对象为处理单元,充分利用研究对象的光谱、形状、纹理、空间关系等不同属性信息,所以提取的结果与实际情况最为接近。

图3 各类地物面积统计Figure 3 Area statistics of various features

3.2 不同地类的方法适用性比较

为进一步比较不同方法下各类地物的提取差异,采用2.5 m天地图的500个样点结合野外调查对3种方法的分类结果进行验证,利用误差矩阵分析得到的分类结果进行精度评价,结果如表4所示。从制图精度角度看,ISODATA法制图精度由高到低依次是其他、建设用地、水体、林地、农田、冰川积雪和草地,其中精度最高的其他为89.37%,最低的草地仅为58.00%。对于用户精度,ISODATA法的水体用户精度最高,为97.44%。余下的地类用户精度由高到低分别为林地、其他、冰川积雪、草地、建设用地和农田。从以上2个精度对比来看,林地和水体的分类精度最高,建设用地、草地、冰川积雪和其他分类精度也较高,农田分类精度较低。分析认为,由于水体的光谱特性相对单一,误分状况较少。而林地、农田和草地三者误分与互相之间光谱特性重合有较大关系。建设用地的误分区域主要分布在洱海周边和建成区周围的裸地,因裸地和房屋具有相似的高反射特性,主要误分为建设用地和草地,草地和冰川积雪误分为建设用地由光谱特性相近导致。

表4 ISODATA法遥感解译误差矩阵Table 4 ISODATA remote sensing interpretation error matrix

由表5可得:基于最大似然法的水体制图精度最高,为94.79%,余下6个地类制图精度由高到低分别为林地、草地、其他、农田、冰川积雪和建设用地。用户精度最高的地类是水体,为100.00%,其他地类用户精度由高到低分别是林地、建设用地、草地、农田、其他和冰川积雪。冰川积雪精度最低,仅为66.67%。通过分析认为,水体的光谱特性较为单一,极少出现误分。充分利用不同类型的光谱表现特征和周边地理环境,所以林地和农田区分度较好,但和草地仍有部分混淆。部分建设用地位于山区,受周边地理环境影响较大,加之城区建设用地光谱特征较为复杂。农田误分主要是误分为林地、草地和建设用地,由于前三者均属于绿色植被,在气温湿度均较好的情况下,选择样本时会经常造成3类间的误分。与建设用地的误分由于山区农田与建设用地交错分布,难以分辨。其他地类误分为建设用地由于两者具有相似的高反射特性,极易造成混淆。

由表6可以看出:基于面向对象特征决策树法中的水体制图精度仍是最高,为93.94%,其他地类制图精度由高到低分别是林地、农田、草地、建设用地、其他和冰川积雪。冰川积雪虽然精度最低,但仍达76.92%。面向对象特征决策树法制图精度由高到低分别是水体、其他、林地、冰川积雪、草地、农田和建设用地,其中用户精度最高的水体为95.88%,最低的建设用地精度为83.61%。分析认为,误分情况主要是由于决策树粗分类时3个指数的参数设置原因。农田和草地之间的部分误分也与面向对象特征参数设置有关,此方法分类中冰川积雪和其他2个地类无错分现象,由此看出面向对象特征参数设置较为适合。

以上精度分析可以看出,面向对象特征决策树法相比于其他方法在农田、草地、建设用地和其他这4类分类精度上有了显著提高,且在高原山区特有地类冰川积雪的信息提取上也有较好的适用性。而对于研究区水域和林地的提取来说,最大似然法的适用性更好。

3.3 不同分类方法总体精度比较

一般总体精度在80%以上可以认为精度良好,表7表明:3种分类方法分类精度良好。其中,ISODATA法总体分类精度最低,但也满足基本分类需求,总体分类精度为82.60%,Kappa系数为79.40%;其次是最大似然法,总体分类精度较ISODATA法略有提高,总体分类精度为85.00%,Kappa系数为81.90%,但最大似然法基于机器学习的提取方法也可能会带来过拟合效应,导致提取精度偏高;面向对象特征决策树分类方法精度最高,总体分类精度可达90.20%,Kappa系数为87.95%,说明此方法的分类结果与实际情况最为贴近,更加适用于高原山区土地利用分类。

表7 3种分类方法比较Table 7 Comparison of three classification methods

4 结论

本研究结果表明:①从地物空间分布上看,面向对象与决策树相结合的方法得到的最终分类结果与同期高分辨率天地图影像较为一致,表明与地物的实际分布情况更为接近。②从地类方法适用性角度来看,最大似然分类法在水域和林地的提取上适用性较好,面向对象特征决策树法在农田和草地、建设用地和其他这些光谱特征较为相似的地类区分度较好。在高原山地特有的地类冰川积雪提取上也表现出了极大的优越性。③从不同方法总体分类精度角度看,面向对象特征的决策树法在大理市的土地利用信息提取中效果最好,总体分类精度和Kappa系数分别为90.20%和87.95%,较传统的最大似然法和ISODATA法分类精度均有提升,可实现大理市土地利用的高精度提取。

本研究在进行大理市土地利用分类时,利用先粗分类再进一步细分类的思想,将面向对象特征与决策树规则相结合,粗分类先设计决策树分类规则,在决策树基础上进行类别的细分类,此方法可避免区域之间的混淆问题,反映了提高遥感影像分类精度的一个方法,具有良好的应用前景[26]。面向对象特征辅助决策树分类,其分类精度和准确性虽有提高,但与欧空局面积仍存在一定的出入,说明分类过程中仅提取面向对象特征辅助是不够的。因此,在今后的计算机分类过程中,需进一步加强遥感影像计算机自动解译的研究,充分利用地物形状、纹理、空间关系、空间位置等特征,对影像进行综合评判,提高影像的分类精度。

猜你喜欢
面向对象决策树农田
达尔顿老伯的农田
达尔顿老伯的农田
山西省2020年建成高标准农田16.89万公顷(253.34万亩)
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于决策树的出租车乘客出行目的识别
面向对象Web开发编程语言的的评估方法
峰丛洼地农作物面向对象信息提取规则集
基于面向对象的车辆管理软件的研制与开发
基于肺癌CT的决策树模型在肺癌诊断中的应用