多源多特征集成的南美洲典型地区湿地制图

2023-07-13 06:11黄玉玲杨刚孙伟伟朱琳黄可孟祥超

遥感学报 2023年6期

黄玉玲，杨刚，孙伟伟，朱琳，黄可，孟祥超

1.宁波大学地理与空间信息技术系,宁波 315211;

2.宁波大学信息科学与工程学院,宁波 315211

1 引言

湿地作为地球上对人类和自然最有价值的生态系统之一，在维持生态系统多样性、涵养水源、保持土壤、促进全球碳和甲烷循环等方面发挥了重要作用（Adam 等，2010；Mahdavi 等，2018）。但由于人类活动等因素的影响（Junk，1993）湿地在全球范围内呈现了不同程度的退化趋势，因此对不同湿地类型进行大规模监测至关重要（Hu等，2017）。

与实地调查相比，遥感技术具有覆盖范围广、信息量丰富等优势，被广泛应用于各种土地覆盖、湿地制图与监测等研究中（Amani 等，2021；Mao等，2020；张磊等，2019）。目前，用于湿地识别和分类的遥感数据主要包括光学数据和雷达数据。光学数据中多光谱数据虽然具备长时序、大尺度等优势，但其光谱分辨率较低且易受云层覆盖影响；高光谱数据的光谱分辨率较高可用于湿地精细分类，但目前还无法提供足够的数据进行长时间、大尺度观测。SAR 数据对地物的介电特性敏感，可提供光学影像不具备的独特信息，且不受云层覆盖影响，但噪声现象明显且极化方式较少。如何结合多源遥感数据进行大尺度湿地精确制图仍是一项具有挑战性的任务。

研究表明，结合光学和雷达数据能够提高湿地的分类精度（Li和Chen，2005；Wang等，1998）。如Amani等（2017）协同使用RapidEye、Landsat光学影像和Radarsat-2 SAR 影像进行加拿大纽芬兰5个研究区的湿地制图，分类的总体精度在81%—91%。但限于数据获取困难且处理过程繁琐，融合光学和雷达数据进行分类主要集中于小区域。欧洲航天局发布的哨兵1 号和哨兵2 号数据为协同使用光学和雷达影像进行大尺度湿地分类提供了更好的机会。哨兵1号卫星携带C 波段合成孔径雷达系统，以10 m 分辨率获取地表的后向散射系数，哨兵2号卫星具有红边波段和短波红外波段，结合两种数据的优势进行土地覆盖制图、湿地制图成为当前研究热点（Borges 等，2020；Whyte 等，2018；常文涛等，2020）。Cai 等（2020）以洞庭湖湿地为研究区，结合哨兵1 号和哨兵2 号数据，利用面向对象的随机森林分类方法进行湿地分类，最终总体精度和Kappa 系数分别为92.46%和0.92。Slagter 等（2020）以南非St.Lucia 湿地为研究区，结合哨兵1 号、哨兵2 号数据和随机森林方法构建了湿地分层分类框架，结果表明与使用单一数据相比，结合两种数据能够显著提升分类精度。其他研究表明光学、雷达以及地形数据的结合可进一步土地覆盖分类和湿地分类精度（Borges 等，2020；Ruiz 等，2021；Whyte 等，2018）。云平台的出现为实现大尺度、多时相的湿地制图提供了新的机遇。GEE（Google Earth Engine）具备PB 级的公用遥感影像数据和高速并行计算能力，用户可以通过GEE 提供的应用编程接口（API）实现海量数据和算法的访问，极大减少了数据获取和处理的工作量（Tamiminia等，2020）。已有诸多学者利用GEE 平台做出大尺度湿地制图尝试（Amani等，2019a，2019b；Mahdianpari 等，2021）。多源多特征组合虽然有利于湿地类型的识别，但过多特征会造成数据冗余和维度灾难（Schratz 等，2021）。递归特征消除随机森林算法（RF_RFE）是一种比较常见的特征优选方法，如周小成等（2021）发现RF_RFE 算法可选出有利于林分类型分类的特征，提高了分类精度。

监督分类是遥感地表覆盖分类常用的一种方法，其中随机森林算法在湿地分类方面具有一定的优势（Amani等，2019a）。监督分类结果的好坏与样本质量直接相关，为保证分类结果的准确性，应选择具有典型性、代表性的纯净像元作为样本（Yan 和Zhou，2021；郑利林等，2019）。采样方法主要包括现场实地采样和基于高分影像进行人工目视解译。实地采样具有最高的准确性，但由于本文研究区的特殊性，无法进行实地采样，因此采用人工目视解译方法采集样本。传统的人工目视解译方法是基于Google Earth 平台进行目视判别，但这种方法获取样本费时费力。同时，对于湿地而言，Google Earth 能提供的影像数据类型、时相有限，无法保证湿地样本的准确性，因此，亟需提出一套有效的湿地样本选取流程以保证样本的高质性。当前已发布的多种尺度的全球土地覆盖数据集为湿地样本点的选取提供了丰富的辅助数据。Collect Earth Online 平台是由美国国家航空航天局主导开发的专业、开源在线影像解译平台，主要用于土地覆盖数据的收集、管理，该平台具备数字地球（Digital Globe）、Bing Maps 及GEE 平台上提供的多种遥感影像源，同时还可进行光谱指数（如NDVI）时间序列分析，可为大尺度湿地样本的采集提供平台支撑（Saah 等，2019）。

本研究选取南美洲典型湿地地区为研究区研发大尺度湿地分类提取方法。首先，基于现有土地覆盖数据集和湿地数据集制定大尺度湿地样本采样流程，然后结合光学数据、SAR 数据及DEM数据构建多特征集合，设计多特征组合方案，结合随机森林分类器和RF_RFE特征优选方法确定适合南美地区湿地制图的分类方案，为完成南美洲全域湿地制图提供技术支撑。

2 研究区及数据源

2.1 研究区概况

南美洲大部分地区属于热带雨林气候和热带草原气候，西部有呈带状分布的热带沙漠气候和地中海气候，东南部则为亚热带季风和季风性湿润气候，年降水量为几十毫米到5000 mm 不等（Junk，1993）。南美洲湿地面积占其陆地总面积的20%以上（Junk，1993；Junk等，2013；Lehner和Döll，2004）。主要包括与亚马逊河、奥里诺科等大河相关的大量洪泛湿地，由地下水、当地降雨和融雪形成的内陆湿地，以及数千公里的沿海湿地（如红树林等）（Junk 等，2014；Kandus 等，2018）。

综合考虑南美洲主要湿地类型和其生态区位置，本研究选取了4 个5°×5°格网大小的区域作为研究区（图1）。研究区1 主要气候类型为亚热带季风和季风性湿润气候，研究区2 为热带草原气候，研究区3为高原山地气候和热带草原气候，研究区4 为热带雨林气候。图1 中研究区矢量边界来源于ArcGIS Online世界矢量边界，一级生态区矢量为USGS EROS数据中心和美国EPA NHEERL-WED所绘，具体信息见网页http：//www.ecologicalregions.info/data/sa/sa_eco_l3.htm［2022-05-23］。

图1 研究区位置Fig.1 Location of the study area

2.2 卫星遥感数据

本研究基于GEE 平台获取了研究区哨兵1 号、哨兵2 号、SRTM 数据。哨兵1 号数据为GEE 平台提供的宽幅（IW）地距模式（GRD）的双极化数据，经过热噪声消除、辐射定标和地形校正等预处理。哨兵2号数据为GEE平台Level-2A产品，筛选得到2020 年云量小于20%的影像之后利用质量评估（QA）波段进行了云掩膜处理，研究区哨兵1号和哨兵2号影像覆盖情况如图2所示。SRTM 数据为由NASA JPL 提供的SRTM1 3.0 版本（SRTM Plus）数据，具体信息见表1。

表1 卫星遥感数据Table 1 Satellite remote sensing data

图2 研究区影像数量统计Fig.2 Statistics of the number of images in the study area

2.3 辅助数据集

本研究利用3 个土地覆盖数据集和3 个湿地数据集作为辅助数据集。GlobeLand30 全球地表覆盖数据是由中国研制的30 m 空间分辨率的土地覆盖数据，包括10 个一级类型，其中GlobeLand30 V2020 数据总体精度为85.72%，Kappa 系数为0.82。Esri Landcover 是Esri 公司基于10 m 的哨兵数据使用深度学习方法制作的全球土地覆盖数据，该数据一共分为10 类，据验证该数据的总体精度为85%。ESA World Cover 土地覆盖数据集是欧州航天局主导结合哨兵1 号数据和哨兵2 号数据制作，包括11 个地物类别，数据的总体精度为74.4%。全球湖泊湿地数据集（GLWD）是世界野生生物基金会（WWF）和德国卡塞尔大学环境系统研究中心结合各种已有信息所绘，数据包括较大的水库和湖泊、较小的水体以及湿地3个一级类别。全球潮间带数据集（Global-Intertidal）是由马里兰大学基于Landsat 数据生成的全球潮滩分布数据，经验证数据集的总体精度为82.3%。全球红树林数据集（GMW）是日本航空航天局基于ALOS PALSAR、Landsat数据和随机森林分类器生成的红树林全球范围分布图，精度为93.6%—94.5%。数据具体来源见表2。

表2 辅助数据集Table 2 Auxiliary dataset

2.4 湿地分类体系

参考《湿地公约》及其他相关文献资料（张海英等，2017），结合研究区湿地分布情况，制定以下分类体系（表3），包括木本沼泽、草本沼泽、水体、洪泛湿地、盐田、滩涂、森林或灌丛、草地、耕地、不透水面或裸地、雪地11 类地物，其中前6项为湿地类，后5项为非湿地类。

表3 湿地分类体系及描述Table 3 Wetland classification system and description

3 方法

3.1 技术路线

本研究首先依托GEE 平台对哨兵1 号、哨兵2 号和SRTM 数据进行预处理，并构建特征变量集合；其次结合辅助数据集和Google Earth Engine、Google Earth、Collect Earth Online 平台构建多源数据样本采集流程获取样本数据；最后，结合不同类型特征组合和基于随机森林递归特征消除法（RF_RFE）获得的优选特征集合设置7组实验，使用随机森林分类器进行分类，以获得最佳分类方案。总体的技术路线如图3所示。

图3 技术路线Fig.3 Technical scheme

3.2 样本采集流程

本研究结合已有辅助数据和人工目视判别来提升湿地样本准确性。本研究首先利用ArcGIS工具在研究区范围内产生随机点，其次结合GlobeLand 30 2020 年30 m 的土地覆盖数据提取湿地、水体、非湿地样本点，并基于GEE 平台和Collect earth Online 平台对湿地样本进行目视解译。然后利用ESRI Land Cover 2020 数据、ESA Land Cover 2020和GLWD 数据对非湿地和湿地样本点进行样本筛选以保证样本点的准确性和一致性，接着基于谷歌地球影像进一步对湿地样本点进行目视判别。最后为保证湿地样本数量充足，本研究结合已有专题数据和平台进行湿地样本的补充以生成最终样本集（图4）。各研究区所用各类别训练和验证样本统计如下表4所示。

表4 各研究区样本数量统计Table 4 Statistics of samples in each study area

图4 结合多源数据的样本采集流程Fig.4 Sample collection process that combines multi-source data

3.3 湿地分类流程

3.3.1 特征提取

本研究联合多源数据派生了6 类特征，共计82个特征变量（表5）。为突出哨兵2号数据多光谱波段和红边波段的优势，构建光谱特征变量、植被指数、水体指数、红边指数及NDVI 时序特征；针对哨兵1号雷达数据，构建雷达极化特征和由其极化特征生成的灰度共生矩阵GLCM（Gray-Level Co-occurrence Matrix）纹理特征（https：//developers.google.com/earth-engine/apidocs/ee-image-glcmtexture？hl=en［2022-05-23］）。针对SRTM 数据，提取其高程和坡度特征。本研究对哨兵1 号和哨兵2 号数据采用了年度均值合成和中值合成，年度中值合成和均值合成是计算每个匹配波段像素的中值和均值，本研究通过这种方式增加数据可用性并提高各类别地物可分性。

表5 特征信息Table 5 Feature information

3.3.2 特征优选

特征选择方法可以减少特征空间中可能的噪声并提高预测性能（Schratz 等，2021）。递归特征消除（RFE）是一种集成方法，结合递归特征消除和随机森林方法在特征选择上可以达到较优的性能（Demarchi 等，2020）。其基本过程是在随机森林特征重要性的基础上对特征进行排序，每次从特征集合中去掉重要性小的特征，逐步迭代到特征集为空（杨珺雯等，2015）。在此过程中，采用分层交叉验证将样本数据等分为10 份，即每个特征集分类时依次使用其中9 份作为训练数据、1 份作为验证数据，10 次分类精度的均值作为该特征集的分类精度，最后对比不同特征集下的分类精度确定最佳特征子集（周小成等，2021）。本研究通过基于随机森林的递归特征消除法进行特征优选。

3.3.3 随机森林分类

本研究采用随机森林方法进行湿地分类提取。随机森林（Random Forest）是以决策树为基本分类器的一种集成学习方法（Breiman，2001）。随机森林建立的步骤主要分为3步，首先从原始样本中通过有放回的方式抽取N个样本建立多个子样本集，然后基于子样本集分别建立N棵决策树，在决策树生长过程中，每棵树的每个节点处随机抽取m个特征（总特征数为M，m≤M），根据Gini 系数最小原则选择一个最具有分类能力的特征在决策树内部进行节点分裂，最后将生成的决策树组成随机森林分类器，采用投票的方式进行分类（杨珺雯等，2015；夏盈等，2021）。在随机森林建立的步骤中主要需要设置两个参数：决策树的数量N和每棵树的每个节点的特征数m（张磊等，2019）。本研究通过实验确定决策树的数目为245，分类节点的特征数目默认为参与分类总特征数目的平方根。

3.3.4 精度评价

常用的精度验证方法利用验证样本点计算混淆矩阵（Confusion Matrix）。本研究将70%的样本数据作为训练数据，30%的样本数据为验证数据，利用混淆矩阵计算总体精度OA（Overall Accuracy）和Kappa 系数、用户精度UA（User’s Accuracy）和生产者精度PA（Producer’s Accuracy），分别对实验方案的分类结果进行精度评价。

4 实验与分析

4.1 实验对比方案

本研究设计了7种方案对比多源特征变量对湿地信息提取精度的影响，其中前6种方案作为对比方案，方案七为特征优选方案，各方案中的哨兵1 号特征为极化特征和纹理特征，哨兵2 号特征为原始光谱波段特征、常用光谱指数特征、红边指数特征和NDVI 时间序列特征，地形特征包括高程特征和坡度特征，特征变量及方案设计见表6。

表6 特征组合方案Table 6 Feature combination scheme

4.2 特征优选结果

从各研究区特征数量与交叉验证分数之间的关系图（图5）可看出，随着参与分类特征个数的增加，贡献率高的变量先输入随机森林模型，此时交叉验证分数急速上升，到中期上升速度降低，后期提升速度趋于平缓。研究区1优选特征个数为37 个，研究区2 优选特征个数为11 个，研究区3优选特征个数为40 个，研究区4 优选特征个数为30个。

图5 特征选择结果Fig.5 Feature selection results

本研究根据归一化Gini 指数重要性来评估各类别特征变量重要性排序（Nembrini 等，2018）。从各研究区特征变量重要性排序图（图6）可看出，（1）各研究区中高程特征均为重要性得分最高的特征。（2）各研究区的优选特征均包括3种数据源获取的特征，说明加入多源特征有助于分类。（3）就各个研究区优选特征分布来看，研究区1优势特征主要为哨兵2 号原始光谱波段特征和哨兵1 号纹理特征，其次为哨兵2 号红边指数特征。研究区2 优势特征为地形特征，其次为哨兵2 号原始光谱波段特征和哨兵1 号纹理特征。研究区3 优势特征为哨兵2 号原始光谱波段特征和哨兵2 号红边指数特征，其次为哨兵1 号纹理特征和地形特征。研究区4 优势特征为地形特征和哨兵2 号原始光谱波段，其次为哨兵2 号常用光谱指数特征和哨兵2号红边指数特征。（4）就研究区整体来看，各类特征重要性排序为哨兵2 号原始光谱波段特征＞地形特征＞哨兵1 号纹理特征＞哨兵2 号红边指数特征＞哨兵2 号NDVI 时序特征＞哨兵2 号常用光谱指数特征＞哨兵1 号极化特征。（5）研究区1 归一化特征重要性得分排序前5 的特征为elevation，NDVI_7590，NDVIre3_mean，B12_mean，B12_median。研究区2 归一化特征重要性得分排序前5 的特征为elevation，slope，VV_mean_idm，NDVI_1025，B12_mean。研究区3 归一化特征重要性得分排序前5 的特征为elevation，slope，VH_mean_imcorr1，VV_mean_dent，B12_mean。研究区4 归一化特征重要性得分排序前5 的特征为elevation，B5_median，slope，VV_mean_savg，B6_median。

图6 特征变量重要性排序图Fig.6 Feature variable importance ranking map

4.3 分类结果及精度评价

4.3.1 分类结果比较

研究区1主要湿地类型为木本沼泽、洪泛湿地，从研究区1 整体分类效果来看（图7），几种方案整体分类效果相似。但方案三（图7（c））和方案五（图7（e））的湿地识别效果较差，存在木本沼泽和森林误分情况；方案四（图7（d））和方案六（图7（f））的不透水面/裸地这一类别错分较多；方案一、方案二和方案七整体来看分类效果相似。

图7 研究区1的7种方案分类结果Fig.7 Classification results of seven schemes in study area 1

图8 研究区1 示例区不同方案分类结果，方案三（图8（d））和方案五（图8（f））分类效果最差，存在洪泛湿地漏分，同时草本沼泽和木本沼泽的误分也较严重；方案四（图8（c））和方案六（图9（g））中洪泛湿地与不透水面/裸地之间误分较为严重；方案二（图8（c））中耕地这一类别误分较多，方案一（图8（b））和方案七（图8（h））整体表现较为相似，但方案七水体识别目视效果更佳。

图8 研究区1示例区分类结果Fig.8 Example area classification results in study area one

图9 研究区2七种方案分类结果Fig.9 Classification results of seven schemes in study area two

研究区2主要湿地类型滩涂及滨海的木本、草本沼泽。研究区2 整体分类结果（图9）显示，方案三（图9（c））和方案五（图9（e））将滨海水体错分为滩涂；方案四（图9（d））和方案六（图9（f））整体分类效果相近，但都将耕地这一类别错分为草地。方案一、方案二和方案七整体分类效果相似。

从研究区2 示例区细节图可以看出，方案三（图10（d））和方案五（图10（f））分类效果差；方案四（图10（e））和方案六（图10（g））分类效果类似，不透水面/裸地和耕地这两类别漏分严重，同时将洪泛湿地误分为不透水面/裸地；方案一（图10（b））、方案二（图10（c））和方案七（图10（h））分类表现相似，基本都能正确分出木本沼泽、草本沼泽、滩涂这几类主要湿地。

图10 研究区2示例区分类结果Fig.10 Example area classification results in study area two

研究区3主要湿地类型为盐田。从该研究区整体分类效果来看（图11），方案三（图11（c））和方案五（图11（e））分类效果最差，盐田、不透水面/裸地、草地这三类错分、漏分较多；方案二（图11（b））和方案六（图11（f））主要将人工地表/裸地误分为洪泛湿地；方案一（图11（a））和方案七（图11（g））整体分类效果相似。

图11 研究区3七种方案分类结果Fig.11 Classification results of seven schemes in study area three

研究区3 示例区的分类结果（图12）显示，方案三（图12（d））和方案五（图12（f））分类效果较差，水体、不透水面/裸地和盐田误分严重，方案四（图12（e））和方案六（图12（g））中洪泛湿地和不透水面/裸地误分严重；方案一（图12（b））和方案二（图12（c））的整体分类效果较为相似，但方案一存在洪泛湿地与水体误分现象。

图12 研究区3示例区分类结果Fig.12 Example area classification results in study area three

研究区4位于亚马逊河流域，主要湿地类型为木本沼泽和草本沼泽。受天气状态影响，该研究区光学影像成像质量较差，方案二（图13（b））和方案六（图13（f））分类效果都受到光学影像质量影响，方案四（图13（d））中利用哨兵2 号特征和地形特征分类后效果改善较大，方案三（图13（c））为利用哨兵1 号特征和地形特征进行分类所得到的效果，相比与方案五（图13（e））噪声现象也有明显改善，方案一和方案七分类效果较好。

图13 研究区4七种方案分类结果Fig.13 Classification results of seven schemes in study area four

从研究区4示例区分类结果可以看出，方案五（图14（e））分类图存在明显噪声现象，方案三（图14（c））在方案五（图14（e））的基础上分类效果有所改善，但将洪泛湿地误分为水体。方案六（图14（f））木本沼泽与森林误分较多，方案四（图14（e））中草本沼泽与水体误分较多。与方案一（图14（b））和方案七（图14（h））相比，方案二（图14（c））的森林/灌丛类别漏分较多，方案七和方案一的整体表现较为相似。

图14 研究区4示例区分类结果Fig.14 Example area classification results in study area four

4.3.2 分类精度比较

从研究区1 的各方案精度对比表格（表7）可以看出，方案二和方案六对比，哨兵1号雷达特征加入后，湿地类别中只有木本沼泽的UA 提升了20.47%，其他湿地类别精度提升不大甚至有所降低，非湿地类别中耕地和不透水面/裸地两类的精度有大幅提升，而加入DEM特征后的方案一的总体表现要明显优于方案二，特别是草本沼泽这一类别的精度提升较大，方案七的整体表现要优于方案一，木本沼泽、水体、洪泛湿地这3种湿地类型的精度都表现较好。但由于非湿地样本均为辅助数据集迁移所得，样本质量相对较差，非湿地类别精度普遍较低。研究区1中森林/灌丛、草地这两类非湿地类别的制图精度低。研究区1中方案七精度表现最好，总体精度为82.11%，Kappa系数为0.7714。

表7 研究区1各方案精度统计Table 7 Accuracy statistics of each scheme in study area one

研究区2 的各方案精度对比表格见表8，方案二和方案六精度对比可发现，木本沼泽的UA 由88.24%提升至93.33%，草本沼泽的UA 由64.58%提升至72.09%，非湿地类别中的草地、耕地、不透水面/裸地这3 类的UA 较大，说明在研究区2 雷达特征的加入提升了木本沼泽和草本沼泽的可分性，且对非湿地类别的精度提升也较为明显。方案七的湿地类别精度整体表现优于其他方案，与方案一对比可发现，草本沼泽的UA 和PA 提升了3.26%和7.69%，滩涂这一类别的UA 虽然有所下降，但PA由57.14%提升至85.71%。研究区2中方案七精度表现最好，总体精度为83.89%，Kappa系数为0.8101。

表8 研究区2各方案精度统计Table 8 Accuracy statistics of each scheme in study area two

研究区3地物类型复杂，该研究区各方案精度对比表格（表9）可看出，方案三和方案五湿地类别精度表现最差，其他各方案湿地类别精度相差较小，方案一木本沼泽和洪泛湿地精度表现最好，方案七盐田精度表现最好。方案四的总体精度表现最好，比方案七总体精度高0.3%，Kappa 系数高0.004，分析发现方案七与方案四的第一个区别在于方案七中具有SAR 极化特征和由极化特征生成的纹理特征，且对洪泛湿地和盐田两类湿地的分类精度要高于方案四，说明SAR 本身的极化特征和纹理特征对湿地识别具有贡献，能够为光学特征提供有效补充；第二个区别在于方案七的光学特征变量总数为32 个，方案四光学特征变量总数为42 个，方案七的非湿地类别精度表现和总体精度表现低于方案四，说明丰富的光谱特征有利于非湿地类别分类，同时说明特征优选方案也可能存在特征冗余，导致特征优选方案没有获得最佳精度表现。研究区3 方案四总体精度表现最好，总体精度为86.49%，Kappa系数为0.8322。

研究区4地物类别简单，从其精度表格（表10）中可以看出，方案七木本沼泽这一类别的UA 较高，同时非湿地类别的精度表现也比其他方案表现要好，但草本沼泽、洪泛湿地这两类湿地精度表现不如方案一，总体而言方案七精度最优。研究区4 方案七精度表现最好，总体精度为92.16%，Kappa系数为0.8954。

表10 研究区4各方案分类精度统计Table 10 Accuracy statistics of each scheme in study area four

通过对比各个研究区方案一和方案二的精度表现可以看出，去掉地形特征后总体精度和Kappa系数整体呈下降趋势。分析各研究区方案一、方案三和方案四精度表现可以发现，去掉哨兵1号或者哨兵2 号特征之后总体精度和Kappa 系数都有所降低，但去掉哨兵2 号特征后总体精度和Kappa 系数下降幅度更大。总体来看以多源特征为基础的方案一总体精度和Kappa系数高于基于单源特征的方案二到方案六，但低于进行特征优选后的方案七，由此可见，对比单源特征，多源特征的加入有利于提高分类的总体精度，但存在特征冗余，在多源特征的基础上进行特征优选后总体精度得到提高。

综合考虑各研究区整体分类表现，本研究选取方案七为最终分类方案。对4个研究区的方案七进行总体精度评价后得到，总体精度为85.62%，Kappa系数为0.8333，具体各类别精度见表11。

表11 4个研究区方案七总体精度统计Table 11 Overall accuracy statistics of program seven in four study areas

5 结论

本研究结合已有数据集提出了适用于大区域样本采集的方法，并以南美洲4个典型湿地研究区为例，构建了适用于该地区湿地分类的多源数据特征集合，结果表明：（1）样本采集方案可有效提高样本质量，可为大尺度分类样本采集提供参考。（2）哨兵1 号和哨兵2 号数据结合能够提升土地覆盖制图精度，地形特征有助于大幅度提升分类总体精度和各类别地物的精度。对湿地类别而言，多源数据特征的加入能够提升湿地类别的可分性。（3）特征优选结果表明，各种类型特征按照重要程度排序为哨兵2 号原始光谱波段特征＞地形特征＞哨兵1 号纹理特征＞哨兵2 号红边指数特征＞哨兵2 号NDVI 时序特征＞哨兵2 号常用光谱指数特征＞哨兵1 号极化特征，SAR 极化特征和派生获得的纹理特征可作为光学特征的有效补充，但优势特征占比较少。其中地形特征按重要性排序为高程特征＞坡度特征；哨兵2 号特征中优势特征为短波红外波段（B12）、红边波段（B6、B5），其次为红边指数特征（NDVIre3）和NDVI 时序特征（NDVI_1025，NDVI_7590）；哨兵1 号特征中较有优势的特征为GLCM 纹理特征（VV_mean_idm，VV_mean_dent，VV_mean_savg，VH_mean_imcorr1）。（4）基于随机森林的递归特征消除方法可提升总体精度和Kappa系数，减少特征冗余。

尽管本研究中特征优选方案在3个研究区得到了最高的总体精度和Kappa系数，但某些研究区的非湿地精度并不理想，这可能是分类时所采用的非湿地样本为辅助数据集迁移所得导致。本研究采用的为C 波段SAR 数据，结果表明该数据的重要性相对较低，可能是因为该数据的探测能力有限，有论文指出X/L波段的SAR数据对湿地类别的识别效果更好（Rapinel等，2020）。本研究重点探究了不同特征对湿地信息提取的影响，也尝试利用NDVI 时序特征来获取不同湿地类别的物候信息，但缺乏深入思考，后续将进一步挖掘时间序列数据对湿地信息提取的贡献。下一步工作中，将在现有研究的基础上，结合已有方法解决当前存在的问题，以实现南美洲全域的湿地制图。