基于GIS与证据权模型的明光市地下水潜力分析

2022-04-08 09:11魏建飞赵卫东钱家忠
关键词:共线性缓冲区曲率

魏建飞,马 雷,赵卫东,钱家忠

(合肥工业大学 资源与环境工程学院,安徽 合肥 230009)

地下水潜力分析(groundwater potential analysis,GWPA)是通过分析一定区域内多个影响地下水存在的因素,为确定地下水开发的最佳区域而进行的研究[1]。通常用于确定地下水最佳开发区域的传统方法,如现场调查、钻井、地球物理方法等,存在周期长、投资大且复杂的缺点,而地理信息系统(geographic information system,GIS)具有处理大型空间数据集的能力,可以应用于环境和地质领域[2-4]。近10年来,随着GIS技术的发展,结合空间统计模型和GIS技术的GWPA成为研究热点。文献[5]利用122个水井数据库,通过基于GIS的多变量和双变量模型对伊朗北部Shahroud平原进行地下水潜力绘图;文献[6]利用基于GIS的逻辑回归和功能树模型对陕西柠条塔地区进行GWPA。然而由于区域地质环境、气候因素、区域尺度的不同,各种模型具体应用效果存在一定的差异。此外,对于模型评价因子的选取相关研究较少。文献[7-9]利用模型进行GWPA,发现证据权(weights-of-evidence,WoE)模型具有很好的客观性,并易于实现,因此,结合评价因子分析的WoE模型值得研究。

本文以安徽省明光市为研究区,在对明光市地下水井点详查和分析的基础上,选取多种相关评价因子,进行多重共线性筛选,结合WoE模型,采用ArcGIS10.2软件对该区域地下水潜力进行分析区划,以利于开展区域水文地质调查工作。

1 研究区概况与研究方法

明光市位于安徽省北部,地处嘉山盆地西侧,属于中纬度内陆地区,位于东经117°48′10″~118°27′40″,北纬32°26′40″~33°14′10″,最高海拔为423 m,总面积为1 127.1 km2。研究区地处华北板块和扬子板块交界处,区内主要断裂为郯庐断裂,地质构造复杂。

研究区地貌上属丘陵地区,全区地形南高北低,呈狭长形,东西窄,南北长,低山、丘陵、平原兼有。东南及南部为低山,为江淮分水岭;中西部为丘陵地区,丘陵广布;北部为平原。总体地形走向由西南向东北延伸。该地区为亚热带湿润季风气候,冬季寒冷,夏季炎热,降水主要集中在六月至九月,多年平均降雨量为941.1 mm,多年平均蒸发量为909 mm。

本研究包括以下4个阶段。

(1) 准备建模数据集。通过广泛野外地质调查,共确定112个井点,井点被随机分为2组。其中78个井点(70%)用于训练数据集,其余34个井点(30%)用于验证数据集。训练和验证井点的位置如图1所示。其余材料包括:研究区地形图,比例尺为1∶50 000;研究区地质图,比例尺为1∶200 000;数字高程模型(digital elevation model,DEM)空间分辨率为30 m×30 m。研究区地下水数据库数据类型见表1所列。

图1 明光市海拔高度及井点分布图

表1 研究区地下水数据库数据类型

(2) 结合研究区地质条件选择11个地下水评价因子,包括高程、坡度、坡向、平面曲率、剖面曲率、地形湿度指数(topographic wetness index,TWI)I、河网密度、公路缓冲区、断裂缓冲区、水系缓冲区和岩性,对因子进行多重共线性筛选。

(3) 采用WoE模型进行区域GWPA。

(4) 使用模型的接受者工作特征(receiver operating characteristic,ROC)曲线来评估模型性能。

2 地下水评价因子确定

2.1 评价因子

正确理解地下水出露的评价因子与其潜力之间的关系对GWPA非常重要[10],区域内地下水的出现与若干环境参数有关。GWPA试图量化环境参数的影响,并得出其与地下水井点有关的函数关系。选择地下水评价因子没有通用的指导原则[11]。本研究选取11个评价因子,各评价因子分级结果如图2所示。

图2 各评价因子分级结果

(1) 高程。高程作为影响地下水潜力的一个重要因素,经常被用于潜力预测。不同高程的气候条件差别很大,导致了土壤和植被的差异。本文根据自然断点法将高程(单位为m)分为10类:[0,13)、[13,26)、[26,40)、[40,55)、[55,72)、[72,91)、[91,116)、[116,152)、[152,209)、[209,+∞)。

(2) 坡度。坡度对于预测地下水的潜力也至关重要,与坡向不同,它控制斜坡的倾斜度。本文根据自然断点法将坡度(单位为(°))分为7类:[0,1.72)、[1.72,3.47)、[3.47,5.78)、[5.78,9.14)、[9.14,14.15)、[14.15,23.52)、[23.52,+∞)。

(3) 坡向。坡向表示斜坡的方向并控制了斜坡的形成,影响降雨、风和阳光的作用。与阴坡相比,阳坡的日照时间更长,气温更高,蒸发作用更强烈。这种水热条件的差异会影响当地土壤、水文、植被、地形等自然地理要素的分异。本文将坡向分为9类:平面、北、东北、东、东南、南、西南、西、西北。

(4) 平面曲率。平面曲率被描述为轮廓线的曲率,其通过水平面与表面相交而形成,这种形态特征会影响地表径流的收敛和发散[12]。

本文根据自然断点法将平面曲率分为5类:[-∞,-0.29)、[-0.29,0.06)、[-0.06,0.06)、[0.06,0.29)、[0.29,+∞)。

(5) 剖面曲率。剖面曲率多用于表示坡度梯度在最大坡度方向上变化的速率。与平面曲率一样,剖面曲率也被分类为5类:[-∞,-0.49)、[-0.49,-0.13)、[-0.13,0)、[0,0.27)、[0.27,+∞)。

(6) TWI。TWI与土壤条件有关,多用于描述地形对位置的影响,因此,它是分析研究地下水潜力的地形因素。TWI计算公式为:

其中:α为上坡面积,即流经地表某点的单位等高线长度上的汇流面积,反映径流在流域中任一点的累积趋势;β为该点的坡度,反映径流沿坡面移动的趋势。将该因子分为6类:[0, 3.45)、[3.45, 6.33)、[6.33, 9.21)、[9.21, 12.09)、[12.09, 13.70)、[13.70,+∞)。

(7) 公路缓冲区。道路因素距离在地下水的预测中起着重要作用,一旦在该地区修建道路,将改变地形,并且将影响斜坡的结构。本文从地形图和Google卫星图中提取路网,设置500 m间隔的缓冲区,分为6类(单位为m):[0, 500)、[500,1 000)、[1 000,1 500)、[1 500, 2 000)、[2 000,3 000)、[3 000,+∞)。

(8) 水系缓冲区。河流是地下水补给的重要来源,研究区内水系密布,正确计算从井到最近的河流距离对于本研究有重要影响。结合研究区水文条件,将水系两侧缓冲区分为6类(单位为m):[0,100)、[100,200)、[200,300)、[300,400)、[400,500)、[500,+∞)。

(9) 河网密度。河网密度代表着地表径流的距离接近程度和数量之间的联系,河网密度大会导致地表水的渗透量降低,对地下水资源产生负面影响。流域河网密度可用平均河长和平均相邻面积之比表示。

若面积为A的流域河流或河段总长度为L,则河网密度D为:

使用ArcGIS10.2中的线密度函数模块,将河网密度(单位为km/km2)划分为5类:[0,0.17)、[0.17,0.47)、[0.47,0.76)、[0.76,1.11)、[1.11,+∞)。

(10) 断裂缓冲区。断层可能是潜在的导水或阻水通道,对地下水潜力分析有一定影响。本文从1∶200 000的地质图中矢量化断层信息,在ArcGIS10.2中利用栅格到断层线的欧氏距离将断裂缓冲区分为6类(单位为m):[0,500)、[500,1 000)、[1 000,1 500)、[1 500,2 000)、[2 000,3 000)、[3 000,+∞)。

(11) 岩性。岩性决定了含水层的孔隙度和渗透率。本文从研究区域地质图中提取岩性类别,将岩性单元按地层分组重新分类为12类,其岩性特征见表2所列。

表2 研究区岩性特征

2.2 因子多重共线性分析

因子存在多重共线性会降低线性模型的预测精度。统计学中,多重共线性分析能检验多元回归模型中每个变量的独立性,对确保回归模型预测的准确性非常重要。在GWPA中还没有接近完美的线性组合因子。方差膨胀因子(variance inflation factor,VIF)和公差(tolerance,TOL)经常用于确认各因子之间的多重共线性,而TOL小于0.2或VIF大于5表示因子具有多重共线性问题。

3 WoE模型

WoE模型最初是为矿产潜力评估而开发的。作为贝叶斯概率模型的一种,该方法的核心是提取与所发生事件相关一组诱发因子的“易发生”与“不易发生”的二值化数值,构成预测模型,定量化地分析每个因子的影响权重,并预测未来事件可能发生的概率大小[13-14]。本文结合因变量(井位置)和自变量(地下水评价因子)之间的空间关系,计算每类因子的权重W,其表达式为:

(1)

C=Wi+-Wi-

(2)

(3)

(4)

(5)

(6)

(7)

该方法首先计算每类因子的栅格数和水井数,然后通过(1)~(7)式计算每类因子的权重W,基于其总和W总得到基于WoE的地下水潜力图,即

W总=W海拔高度+W坡度+W坡向+W平面曲率+

W剖面曲率+W地形湿度指数+W河网密度+

W公路缓冲区+W断裂缓冲区+W水系缓冲区+W岩性

(8)

4 评价过程及结果分析

4.1 多重共线性分析与模型计算

多重共线性诊断结果见表3所列,VIF的最高值为4.137,TOL的最低值为0.259,表明本研究中11个评价因子之间没有多重共线性。

表3 多重共线性诊断值

计算单元大小对于评价模型的精度有重要影响,本文选取栅格大小为30 m×30 m,使用ArcGIS10.2获取各评价因子图层,转换为栅格数据。根据(1)~(7)式进行计算,得到评价因子的证据权重W。

根据(8)式进行叠加分析,获得评价单元的综合权重W总,最大值为26.22,最小值为-4.62,数值越大,反映该因子对地下水存在潜力的贡献越大,地下水存在的可能性越大。为了将累积的权重转换成有意义的图,对综合权重进行重分类,最后得到基于W总的地下水潜力区划。

本文将研究区地下水潜力等级划分为低、中、较高、高4类。

WoE模型评价结果如图3所示。

图3 WoE模型评价结果

4.2 评价结果和分析

各评价因子分类及证据权重见表4所列。

表4 各评价因子分类及证据权重

续表

高程在[91,116)区间内,W有最大值1.810,表明高程在该区间对研究区地下水潜力有最积极的影响,W值通常与研究区域的高程成正比关系。坡度中,只有第1类[0,1.72)和第2类[1.72,3.47)和地下水的存在有关系,其余类则起到相反的作用,该结果表明随着坡度增加,渗透量减少,径流量增加。坡向的9类中,仅南(W=2.437)、西南(W=1.460)和西(W=0.474)3类对地下水存在有积极的影响,可以根据优势径流方向来解释。平面曲率在[-0.29,0.06)、[0.06,0.29)类W为正,表明平坦区域更有利于地下水的出露。

剖面曲率W值表明[-0.13,0)类对地下水存在具有最积极的影响。TWI表示保水的形态趋势,随着TWI增大,对地下水出露的积极影响总体上是增加的。河网密度方面,各类W值随着河网密度增加而减少。水系缓冲区方面,只有[500,+∞)类对地下水的发生具有积极影响,其他类具有消极影响,这可能是由研究区内地下水补给地表径流导致的。对于公路缓冲区, [0, 500)、[2 000,3 000)、[3 000,+∞)3类对地下水的出露具有积极影响。断裂缓冲区中除[500,1 000)、[1 500,2 000)2类外其余4类W均为正值,这表明断裂破碎带很可能是区域导水通道,对研究区地下水的发生有积极影响。岩性中第四系粉砂岩、桂五组气孔状玄武岩、张桥组砂岩的W较大,可以解释为不同岩性水力传导率不同。

4.3 模型验证

评价模型准确性受很多因素控制,如评价因子的权重和数据质量的好坏等。通过比较分类结果与实际结果之间的“匹配”度可以判断一个模型预测质量的有效性。本研究用ROC曲线来判断评价结果的有效性,其ROC曲线下面积(area under the curve,AUC)可用来判断模型评价结果的精度。AUC指标越接近1,表明评价效果越好。ROC曲线如图4所示,WoE模型的AUC值为0.783 5,具有较好的精度。

图4 ROC曲线

此外,将训练点形成的区划结果与验证点分布情况进行叠加分析,统计结果见表5所列。区内地下水高潜力区和较高潜力区的面积分别为554.9、839.5 km2,分别占总面积的22.98%、34.76%;验证点数量分别为10、13个,占总验证点比例分别为29.41%、38.24%。中潜力区和低潜力区验证点分布较少。上述结果表明,验证数据集的分布和模型评价结果具有较好的相关性,地下水潜力区划能够客观地反映区内地下水的可能分布情况。

表5 地下水潜力区划统计结果

5 结 论

(1) 在GWPA中,基于空间统计方法的WoE模型具有较高的精度,WoE模型通过对各因子图层与井点分布图层的叠加分析,获得评价指标权重值,较客观地反映各评价因子影响大小。本文选取高程、坡度、坡向、平面曲率、剖面曲率、TWI、河网密度、公路缓冲区、断裂带缓冲区、水系缓冲区和岩性11类因子作为GWPA评价因子,采用WoE模型和多重共线性分析对明光市地下水潜力进行评价和分区。结果显示,WoE模型的ROC检验AUC值为78.35%,表明该模型能较客观地评价明光市地下水潜力。

(2) WoE模型得出的明光市地下水低、中、较高、高潜力区分别占研究区面积的13.08%、29.18%、34.76%和22.98%。验证结果显示,地下水井点集中分布在中、高潜力区内,占总验证井数的91.18%。

(3) WoE模型结合地下水井数据库和专题图层信息可以较好地避免权重赋值时的主观性,生成较为可靠的GWPA图,简单易操作,具有更好的时间和成本效益。

猜你喜欢
共线性缓冲区曲率
一类具有消失χ 曲率的(α,β)-度量∗
儿童青少年散瞳前后眼压及角膜曲率的变化
南瓜SWEET蛋白家族的全基因组鉴定与进化分析
银行不良贷款额影响因素分析
面向复杂曲率变化的智能车路径跟踪控制
不完全多重共线性定义存在的问题及其修正建议
我国寿险需求影响因素的岭回归分析
串行连续生产线的可用度与缓冲库存控制研究*
基于ARC的闪存数据库缓冲区算法①
不同曲率牛顿环条纹干涉级次的选取