基于遥感影像与逻辑回归模型的延河流域沟壑分布概率预测

2022-07-03 03:09范天程贾云飞李云飞赵建林
水土保持研究 2022年4期
关键词:延河沟壑流域

范天程, 贾云飞, 李云飞, 赵建林

(长安大学 地质工程与测绘学院, 西安 710054)

黄土高原位于我国西北部,覆盖青海、甘肃、宁夏、陕西等省,是我国水土流失最严重的区域之一[1]。根据“中国水土流失与生态安全综合科学考察”报告,黄土高原总面积约为64万km2,其中土壤侵蚀面积约占39万km2[2]。严重的土壤侵蚀使黄土高原形成了纵横交错的沟壑系统和千沟万壑的地形景观。基于黄土高原46个流域的沟壑密度与泥沙贡献研究表明,当沟壑区的沟壑密度大于30%时,沟壑区对流域泥沙的贡献率达到了75%以上[3]。因此,研究沟壑分布对于黄土高原生态系统和经济发展等问题具有重要的意义。

沟壑分布图的绘制是研究区域沟壑分布的主要手段,目前关于沟壑分布图的绘制,主要方法为目视解译法,目视解译法是以影像为数据源,人工识别出沟壑区域。关于航空影像提取沟壑最早是从20世纪40年代开始,随着科学技术的发展,到了20世纪60年代,遥感技术已经成为大多数研究人员获取数据信息的途径,因为其可以获取多个时间段的数据,且成本较低,在提取沟壑分布的过程中,遥感技术成为人们的首选[4]。但是在大尺度的研究范围内,人工提取方法费时又费力,工作效率不高,相比之下,机器学习方法运算速度快,稳定性高,具有明显的优越性。近年来,不少学者采用面向像元的分析方法,基于高分辨率遥感影像在不同领域的大尺度范围内进行研究,比如在国外研究中,Broeckx等[5]基于逻辑回归模型分析了整个非洲区域的滑坡点分布情况;Vanmaercke等[6]基于随机森林模型预测了东非大裂谷北部的沟壑密度。在国内研究中,胡涛等[7]基于逻辑回归模型对思南县的滑坡易发性进行研究;陈黔等[8]基于分类回归树(CART)模型和支持向量机(SVM)模型估算毛乌素沙地灌木覆盖度,并对比两种方法结果;修晓敏等[9]基于分类回归树(CART)模型、支持向量机(SVM)模型和普通最小二乘法(OLS)模型,估算安徽省零散草地生物量,并对比每种方法精度;杨敏等[10]基于Landsat8 OLI影像建立神经网络模型反演生成了南京市叶面积指数分布图,模型可靠性较高。以往的研究表明机器学习方法在不同领域大范围研究中得到了广泛的应用,同时目前对于沟壑地貌空间分布预测和制图较少,特别是大尺度范围的预测和制图较少。

因此,本文以黄土高原延河流域为研究对象,通过系统样本和高清影像的人工勾绘延河流域沟壑地貌样本,在此基础上以光谱因子和辅助数据为变量因子,采用逻辑回归模型研究延河流域沟壑样本光谱特征,预测延河流域沟壑的像元概率分布。本研究结果为大尺度预测流域沟壑分布和模拟以及延河流域土壤侵蚀和泥沙治理提供方法和数据基础。

1 试验材料与方法

1.1 研究区概况

延河流域位于陕北黄土高原中部,地理位置在36°21′—37°19′N和108°38′—110°29′E,流域面积为7 725 km2[11],地势西北高,东南低。流域处于东部季风湿润区和内陆干旱区的交叉处,年降水量少,多年平均降水量为520 mm,降水量主要集中于夏季,冬季有少量降雪[12]。该流域是黄土高原水土流失最严重的区域区之一,大部分属于黄土高原丘陵区第二副区,地形破碎[13],沟壑密度为2.1~4.6 km/km2[14]。延河流域土壤侵蚀程度剧烈,沟壑分布广泛,是研究沟壑分布的较好选择。

1.2 沟壑提取和沟壑概率估算

Google Earth Pro平台拥有丰富的高分辨率遥感影像数据,其中延河流域范围内的遥感影像数据分辨率达到了0.3 m,能够保证本研究的人工勾绘精度要求。本文基于Google Earth Pro平台,采用系统样本法和人工勾绘,建立延河流域沟壑样本库,并把沟壑提取的结果作为研究过程中的实测沟壑概率。如图1所示,沟壑样本提取的流程如下:首先,在研究区域内均匀分布272个3 km×3 km的矢量样本,样本区覆盖整个延河流域;其次,将样本区导入Google Earth Pro平台中,采用目视解译的方法勾绘各样本区内的沟沿线:沟沿线的闭合区域即为沟壑地貌。样本区内沟壑地貌以外的区域为非沟壑地貌;最后,将勾绘的沟壑地貌做进一步分析。

图1 沟壑提取过程

本文选用的遥感影像的分辨率为30 m,为研究沟壑地貌的光谱特征,在提取矢量沟壑地貌后,将其转换为对应的30 m分辨率的栅格沟壑概率。转换的方法如下:首先创建与遥感影像数据像元一致的缓冲区,基于缓冲区对沟壑矢量和非沟壑矢量进行分割,使得分割后的每一个区域完全覆盖所对应的像元,然后计算分割后沟壑区域和非沟壑区域内像元对应的矢量面积,再结合像元面积得到每一个像元的沟壑地貌面积占比,该面积比即为该像元的沟壑概率(GP),计算公式如下:

(1)

式中:GP为每个像元值,即像元的沟壑概率;A为每个像元中人工勾绘的沟壑面积(m2)。

1.3 逻辑回归模型

(2)

式中:xi为自变量;bi为回归系数,该方程结果P为0~1的一个数字。在本研究中,P为某一像元的沟壑概率。

1.4 数据来源和变量选择

本文基于Landsat8 OLI(Operational Land Image,陆地成像仪传感器)影像数据和DEM(Digital Elevation Model,数字高程模型)数据获取光谱因子和辅助因子,Landsat8 OLI影像和DEM数据都来自地理空间数据云平台(http:∥www.gscloud.cn),空间分辨率为30 m。

考虑到研究区域的大小和影像获取过程中地表植被因素的影响,成像时间选择为2018年10月29日(两景)和2018年12月25日(一景),所选影像研究区域上空无云层遮挡,成像质量良好。Landsat8 OLI多光谱遥感数据在获取过程中已经经过系统的辐射和几何校正,在此基础上,基于ENVI平台对影像进行辐射定标和大气校正;对预处理后的影像进行拼接和匀色处理,获取研究区域的Landsat8 OLI多光谱影像。考虑到遥感影像各波段之间的相关性,需要对影像数据降维,去除冗余信息[15]。目前常用的方法主要有主成分分析和缨帽分析,如岳程鹏等[16]基于Landsat8 OLI影像使用主成分分析方法反演了乌梁素海浮游植物生物量;傅姣琪等[17]提出了一种基于卫星遥感数据使用缨帽变换提取水边线信息的方法。本文基于预处理后遥感影像,采用主成分分析获得影像7个波段(B1—B7)前三个主成分波段因子,同时采用缨帽分析获得影像前5个波段和第7波段(B1—B5,B7)中3个光谱因子。此外,归一化植被指数NDVI(Normalized Difference Vegetation Index)能够反映植被覆盖率,且沟壑密度和植被分布存在联系,因此本文选取NDVI作为一个变量因子,计算公式如下:

(3)

式中:NIR为近红外波段反射率;R为红光波段反射率。

对于DEM数据,对其进行投影变换后提取本研究所需要的相关地貌因子,主要包括高程、坡度和坡向信息。

最后本文选取主成分变换因子(3个)和缨帽变换因子(3个)为光谱因子,植被指数因子(1个)和地形因子(3个)为辅助因子,共10个变量因子(表1)建立逻辑回归模型。

表1 建模因子

1.5 逻辑回归模型建立

1.5.1 训练和验证样本建立 本文基于逻辑回归模型预测沟壑分布,建立沟壑与非沟壑的训练样本。通过面积比例确定某一个像元是否为沟壑像元或者非沟壑像元。本研究定义当一个像元的沟壑面积比例大于0.9时,定义为沟壑像元,赋值为1;当像元沟壑面积比例小于0.1时,定义为非沟壑像元,赋值为0,剩下的混合像元则舍弃。再从赋值后的数据集中分别筛选出10 000个数据组成新的数据集,作为建立逻辑回归模型的数据源。

在荒漠区样方中,将探地雷达所测每条测线的土壤体积含水量进行克里金插值,所得样方内土壤含水量的分布图如图2所示。

1.5.2 控制变量选取与模型建立 本文共建立了10个沟壑概率预测控制因子,基于单因子和多因子蒙特卡洛分析建立最优的逻辑回归预测模型,具体步骤如下:

首先,基于单因子分析,分析Wald检验在p<0.05显著性水平下各单个变量因子在逻辑回归模型中的显著性。

1.5.3 模型评估 基于上述确定的最优因子组合和1.5.1所获取的2/3训练样本建立最终的预测模型,对剩余的1/3验证样本进行二分类验证。选取ROC曲线下面积AUC作为模型验证指标,ROC曲线是衡量分类精度的常用指标,以非沟壑像元被预测为沟壑像元的比例(假阳性率,FPR)为横轴,以沟壑像元被预测为沟壑像元的比例(真阳性率,TPR)为纵轴绘制曲线。

2 结果与分析

2.1 逻辑回归模型建立

(4)

式中:B为Brightness;G为Greenness;W为Wetrness;S为Slope。

表2 变量因子统计

注:M1为Brightenss,M2为M1+PCA1;M3为M2+Greenness;M4为M3+Wetness;M5为M4+PCA3;M6为M5+slope;M7为M6+aspect;M8为M7+elevation。

基于上述建立的最优逻辑回归模型,本文使用所建立模型对验证样本的1/3沟壑数据进行预测,其精度为73.72%。根据验证样本的预测结果检验逻辑回归模型,其ROC曲线下面积AUC为0.80(图3),表明模型预测结果准确度较高[19]。

图3 验证样本ROC曲线

2.2 延河流域沟壑密度预测及其分布

本文基于最优逻辑回归模型(公式4)预测延河流域沟壑分布概率,结果见图4。整个延河流域中,像元沟壑概率最大值为98.28%,最小值为0.57%,均值为52.05%,若将像元沟壑概率假设为真实的像元沟壑地貌面积占比,则基于本模型预估的延河流域沟壑地貌面积占比为52.05%。将沟壑概率分布图(图4)以10%的间隔进行分级评定,得到延河流域沟壑概率分级图(图5),结合图5和表3,在整个延河流域内,沟壑概率在0~50%的区域(约占整个流域面积的44.95%)相对集中在西北地区,沟壑概率在80%~100%的区域(约占16.11%)则集中分布在中部和东南部,而沟壑概率在50%~80%的区域(约占38.94%)则是均匀分布在整个延河流域。整体来看,从西北方向到东南方向,沟壑分布呈现越来越集中的特点。

图4 延河流域沟壑概率预测

3 讨 论

沟壑地貌作为黄土高原地区重要的地貌之一,是土壤侵蚀最严重的区域,也是黄河流域泥沙主要来源。因此开展沟壑地貌分布的研究对于黄土高原地区土壤侵蚀治理和泥沙输移控制具有重要意义。本文研究基于遥感影像和逻辑回归模型,以延河流域为研究对象,对大尺度区域像元单位沟壑地貌概率分布进行预测和建模。基于本研究结果估算延河流域沟壑地貌约占整个流域面积的52.05%,且延河流域的沟壑分布呈现出从西北方向到东南方向逐渐集中分布的特点,沟壑密度从西北向东南方向逐渐增大,这与前人研究结果一致[20]。因此,采用本文相关方法能够在大尺度区域对沟壑地貌的空间分布进行预测。

图5 延河流域沟壑预测概率分级

表3 沟壑分级面积占比

但在本文研究中,也有一定的局限性,首先是人工提取的矢量沟壑,沟壑和非沟壑区域的界定并不明显,因此沟壑提取过程中主观性较强,提取过程中存在一定误差;其次是遥感影像的选取,本文选取的遥感影像分辨率为30 m,属于中高分辨率,但随着科学技术的发展和影像获取手段的进步,高分影像的获取逐渐平民化。因此在未来的研究中,可以对上面提到的两点不足加以改进,选取更高精度的遥感影像进行分析,并把这种方法运用到更大的研究区域中。

由于本文所建立模型的精度较高,本文所预测的延河流域沟壑概率图和概率分级图可以为相关部门改善延河流域环境和修复延河流域生态提供重要沟壑分布数据,从而有针对性的提出合理的治理措施;同时也可以为相关学者研究延河泥沙变化和沟壑之间的联系提供一定基础数据。

4 结 论

(3) 对最优逻辑回归模型进行评估,得到验证样本预测精度为73.72%,ROC曲线与坐标轴围成的面积即AUC值为0.80,模型准确度较高。

(4) 在延河流域,沟壑概率小于50%的区域集中分布在西北方向,而沟壑概率大于80%的区域则集中分布在中部和东南部,总体呈现从西北到东南方向沟壑概率逐渐增加的趋势,且沟壑地貌约占延河流域总面积的52.05%。

猜你喜欢
延河沟壑流域
压油沟小流域
延河晨晓(小提琴独奏)
昌江流域9次致洪大暴雨的空间分布与天气系统分析
沟壑
沙颍河流域管理
哲理漫画
《延河之畔》
延河在我心上流
Why the brain has so many folds
河南省小流域综合治理调查