黄河下游豫北区高砷地下水空间分布研究

2023-01-30 08:30翟文华曹文庚李泽岩
人民黄河 2023年1期
关键词:决口环境变量黄河

翟文华,付 宇,曹文庚,李泽岩,任 宇

(1.华北水利水电大学 地球科学与工程学院,河南 郑州 450046;2.华北水利水电大学 测绘与地理信息学院,河南 郑州 450046;3.中国地质科学院 水文地质环境地质研究所,河北 石家庄 050061)

砷(As)是地壳的一种天然元素,无机砷化合物是一种毒性很强的物质。部分地区饮用水和灌溉地下水中存在砷超标现象。当地下水中砷质量浓度超过世界卫生组织(WHO)设定的生活饮用水最高容许质量浓度10 μg/L时,便可认为是高砷地下水。长期饮用高砷水会损害人体胃肠道系统、皮肤和神经系统[1]。我国是受砷影响较为严重的国家之一,塔里木盆地、额济纳盆地、黑河盆地、柴达木盆地、东北平原、华北平原等地区被确定为潜在高砷地区[2]。黄河下游冲积平原豫北区位于华北平原南部,浅层地下水水质较差,砷超标问题较为严重[3],如新乡市封丘县曹岗乡高砷暴露区病人症状表现为皮肤色素沉着或色素脱失[4],这表明高砷地下水已经对当地用水安全和人体健康造成威胁。江欣悦等[5-6]研究黄河下游冲积平原豫北区高砷地下水空间分布及成因表明,该地区地下水还原性较强,不同沉积环境条件下生物地球化学和水文地质作用是砷富集的驱动因素。

高砷地下水空间分布研究可以帮助人们快速识别高砷地下水影响范围。随着科学技术的发展,机器学习为非线性问题的解决提供了较好的方法,并且在地下水砷研究方面取得了丰富的成果。Bindal等[7]采用1 473个地下水砷采样数据,结合地球化学环境、含水层条件和地形等20个变量,基于随机森林和单变量特征选择的混合集成模型预测了印度北方邦高砷地下水的空间分布。Podgorski等[8]采用23 799个地下水砷实测值和26个环境参数,利用随机森林模型预测了印度高砷地下水的空间分布,研究表明印度有18万~3 000万人处于地下水砷质量浓度超过10 μg/L的地区。Liang等[9]采用反向传播神经网络方法对中国台湾兰阳平原地下水砷浓度进行了预测,与普通克里金法比较发现,反向传播神经网络方法具有更高的预测精确度。当前研究大多采用单一机器学习模型预测高砷地下水的空间分布,其中线性分类器处理非线性数据时性能不佳,神经网络方法则容易陷入局部极小值,且学习收敛速度较慢,因此传统的机器学习模型预测高砷地下水空间分布难度较大。为了解决该问题,本文采用堆叠(Stacking)集成学习模型,充分发挥基学习器中每个机器学习算法的优势,降低单一算法泛化能力不佳的风险,提高模型的预测精确度。

为了识别黄河下游豫北区地下水中潜在高砷区域,基于研究区1 081个地下水砷质量浓度实测值,选取人类活动、气候、沉积环境、土壤理化特征、水文地质等作为环境因子,采用Stacking集成学习模型对黄河下游豫北区高砷地下水空间分布进行建模,预测该地区高砷地下水的空间分布,明确在预测过程中环境变量对地下水砷分布的相对重要性,以期为该地区地下水资源的合理利用和有效管理提供依据。

1 研究方法

1.1 研究区概况

研究区位于黄河下游河南省北部冲积平原地区(见图1,其中ρ(AS)为砷质量浓度),面积19 733.75 km2,地势总体由西南向东北倾斜。研究区属于温带大陆性季风气候区,四季分明,年均气温13.3~15.6℃,年降水量496.7~751.3 mm,降水集中在7—9月,年蒸发能力988.0~1 023.9 mm,5月、6月蒸发最为强烈。黄河和卫河是研究区两大主要河流。研究区为历史上黄河决口、改道最频繁的地区之一,地表仍有黄河河道变迁的遗迹。研究区地下水总体径流方向与地势变化基本一致,在太行山前由西向东流动,最终在华北平原东部入海。研究区地下水补给来源主要为地表水、大气降水及灌溉水下渗,排泄以人工开采和蒸发为主[4]。

1.2 环境变量选择及处理

含水层中砷的迁移和流动受地貌、水文地质、生物地球化学和人类活动影响[10-16],例如地形、地貌、沉积物特征、土壤性质、土地利用类型、地下水流量和植被覆盖等,有学者利用这些环境变量进行了地下水砷分布预测。Tan等[17]基于地面标高、坡度、气温、降水量、蒸散量、地貌类型、地下水水位等90个环境因子,利用提升回归树模型对孟加拉国高砷地下水分布进行了预测。综合分析可能影响研究区高砷地下水空间分布的环境变量,选择气候、人类活动、沉积环境、水文地质、土壤理化特征等6类共21个初始环境变量进行研究区高砷地下水分布预测,见表1(与河流距离为构建距离河流间隔为500 m的多环缓冲区,地下水水位累计变幅计算年份为1949—2020年,水位年际变化计算年份为2019—2020年,黄河决口情况为历史累计黄河决口次数,第四纪地貌类型有冲洪积扇及冲洪积平原、泛滥平原、海积平原、湖泊、洼地、河道带、黄土状土、基岩,浅层和深层土壤理化特征包括砂粒含量、粉砂含量、黏土含量、土壤有机碳含量、土壤pH值,土地利用类型包括耕地、建筑用地、林地、水系、草地)。研究区环境变量均按照500 m空间分辨率划分像元。由于环境变量较多,其中可能含有与研究区高砷地下水空间分布预测不符的冗余信息和噪音,因此利用以随机森林为迭代分类器的递归特征消除技术消除冗余信息和噪音[18]。通过反复计算各环境变量对砷分布重要性影响占比,并删除重要性影响占比小的环境变量,最终选出含有18个环境变量的最佳变量子集,即删除黏性土层、富水性、土地利用类型3个环境变量。

表1 模型预测变量及对砷分布重要性影响占比

1.3 模型构建与验证

在利用机器学习算法进行地下水水质建模时,线性模型(逻辑回归、支持向量机SVM和线性判别分析LDA等)、极端梯度提升(XGBoost)、随机森林(RF)、神经网络等都有较好的预测性能[19-22],其中随机森林模型可以较好处理高维数据、异常值、噪声、过拟合和多重共线性问题;极端梯度提升模型可以很好地处理高维数据,不易陷入过拟合,同时通过多线程并行计算提高计算效率;支持向量机可以将非线性问题转化为某个高维空间的线性问题;线性判别分析模型简单,无需调参,且可以较好地处理不同类别训练样本量差别很大的数据。相对于以上独立机器学习模型,Stacking模型的优势在于将不同类型的机器学习模型进行组合。不同类型机器学习模型对于数据空间以及结构的学习存在较大差别,Stacking模型可以从不同角度观察数据特征,更加全面地学习数据,从而得到更加准确的结果。目前Stacking模型在医学、大气污染、金融和工程造价等领域广泛应用。孙麟[23]通过Stacking模型将多种算法结合起来,提高了病人是否患有宫颈癌的预测精确度,为医学相似问题的预测提供了新思路;赵滨等[24]利用Stacking模型建立地面PM2.5浓度估算模型,提高了大范围区域大气污染预测的精确度。

基于以上论述,根据Stacking模型“基学习器好而不 同,元 学 习 器 好 而 结 构 简 单”的 原 则[25],将XGBoost、RF、SVM作为Stacking模型的基学习器,LDA作为Stacking模型的元学习器进行融合得到集成模型,用于预测高砷地下水的空间分布。Stacking模型构建流程见图2。

图2 Stacking模型构建流程

二元目标变量的预测可以提高模型预测的准确性和有效性,因此将10 μg/L作为阈值,将砷质量浓度≤10 μg/L、>10 μg/L重新编码为0、1。砷质量浓度≤10 μg/L、>10 μg/L的采样数据在数据量上存在差异,需要进行类平衡处理,将经过重新编码和类平衡处理的362个采样点数据按7∶3划分训练集(X_-train,Y_train)和测试集(X_test,Y_test),其中X_train、X_test为筛选的18个环境变量数据集,Y_train、Y_test为砷质量浓度编码数据集。首先,利用训练集采用RF、XGBoost、SVM模型进行五折交叉验证,训练后每种模型得到一组与训练集数量相同的数据,将这3组数据进行组合,作为元学习器的特征数据。在对训练集进行5折交叉验证的同时,对测试集进行计算,不同的是需要将计算结果进行平均,将3种模型计算的结果进行组合,作为元学习器的测试集。然后,将得到的元学习器的特征数据用于LDA模型训练,测试集用于验证Stacking模型的性能。通过ROC曲线下面积(AUC)、准确率(Accuracy)、特异性(Specificity)和敏感性(Recall)对模型性能进行评估,其中:AUC值越大,模型性能越好;Accuracy是全部预测正确的样本占所有样本的比例;Recall指正确分类砷质量浓度>10 μg/L样品的能力;Specificity指正确分类砷质量浓度为≤10 μg/L样品的能力。最后,利用构建好的Stacking模型,对黄河下游冲积平原豫北区高砷地下水空间分布进行预测,并绘制研究区高砷地下水概率分布图。

2 结果与讨论

2.1 地下水砷质量浓度统计与分布特征

研究区地下水采样数据来自2010—2020年中国地质科学院水文地质环境地质研究所与河南省自然资源监测院进行的水文地质调查结果,调查采集浅层地下水样品共1 081组,采样点位置见图1。经计算,研究区地下水砷质量浓度最大值、最小值、平均值分别为0.1、190、7.06 μg/L,中值、标准差分别为1.20、16.52 μg/L,变异系数为2.34,具有强变异性,表明研究区地下水砷质量浓度具有较强的空间变异特征。研究区高砷地下水采样点共181个,超标率为16.74%。从采样点分布看,高砷地下水分布呈东北—西南走向,研究区中部、南部高砷地下水主要分布在太行山前洼地及黄河决口扇地区;东部以濮阳为中心,高砷地下水呈不均匀分布。

2.2 地下水高砷分布特征

XGBoost、RF、SVM、Stacking模型在测试集上的评估结果见表2,Stacking模型具有最大的AUC、Accuracy、Specificity和Recall值。从模型评估指标来看,Stacking模型预测精确性最高,Recall、Specificity分别为0.75、0.877 2,表明Stacking模型可以准确预测研究区砷质量浓度≤10 μg/L、>10 μg/L的区域。

表2 不同模型性能对比 %

采用XGBoost、RF、SVM、Stacking模型计算研究区各单元地下水中砷质量浓度超过10 μg/L的概率,计算结果见图3。XGBoost、RF、SVM、Stacking模型计算的高砷地下水空间分布总体趋势相似,研究区地下水砷污染范围较大,主要集中在中部、南部和东部部分地区,但不同模型计算的局部区域差异明显。XGBoost、RF模型计算结果中,新乡市封丘县、安阳市滑县北部高砷地下水分布概率较大,不能精确展现高砷地下水分布情况。SVM模型计算结果不能细致描绘局部地区高砷地下水分布变化情况。Stacking模型计算结果可以较好表达局部高污染区域细部变化,局部没有采样点的地区也能较好地进行预测,且与实际情况相符,原因是,Stacking模型能够充分结合不同机器学习算法的优势来消除误差。Stacking模型计算的高砷概率为0.09~0.88,根据概率阈值0.5划定高砷地区面积为6 673.25 km2,占研究区总面积的33.82%,高砷地下水集中分布在研究区太行山前洼地及黄河决口扇地区,具体分布在新乡市延津县、原阳县和封丘县北部,安阳市滑县和内黄县南部,濮阳市范县和濮阳县等地。其中高砷地下水分布概率大于0.8的地区主要分布在新乡市延津县、原阳县和封丘县北部,面积为1 237.25 km2,占研究区总面积的6.27%,这些地区应加强地下水水质监测与管理。

图3 地下水砷质量浓度超过10 μg/L的概率分布

2.3 驱动因素分析

特征重要性分析可以用来评估不同环境变量对高砷地下水分布的影响。基于随机森林的gini方法计算得到研究区不同环境变量对砷分布重要性影响占比,见表1。黄河决口情况、年均气温、年降水量、高程、水力梯度是对高砷地下水分布影响排序靠前的环境变量,根据环境变量重要性综合排序结果可以得出,沉积环境(黏砂比、黄河决口情况、第四纪地貌类型、高程)对地下水砷富集具有较大影响。黄河决口情况对地下水砷空间分布影响最大,原因是黄河决口和改道形成了砂与土互层的沉积环境。研究区高砷地下水主要分布在太行山前洼地与黄河决口扇所在的沉积环境中,其中太行山前洼地位于新乡市北部与安阳市滑县交界处,属于冲洪积扇前洼地,地下水在此径流不畅,含水层中砂层颗粒变细且厚度逐渐变薄,黏土厚度逐渐增大,水量变小,形成还原环境为主的地下水环境,随着地下水还原性增强[26],地下水中砷质量浓度逐渐升高;在黄河冲积平原,黄河频繁决口泛滥为该地区提供了大量的有机质及较好的低氧-缺氧条件,加之受黄河侧向补给影响,浓缩作用及还原环境导致该地区地下水砷质量浓度较高[27-29],即黄河频繁决口地区有利于含水层中砷的释放。

年均气温和年降水量对地下水砷分布也有较大影响,年降水量和年均气温通过调节地表径流进而影响地下水砷质量浓度,当年降水量增大时,河流湖泊等地表水水位上升,地表水补给地下水,对地下水中砷起稀释作用。同时地表水中含有溶解氧,将氧气等氧化剂带入地下水,阻碍了砷的还原性释放,地下水砷质量浓度不断降低。气温升高导致蒸发量增大,可利用地表水不断减少,地下水补给量相应减少,对地下水的稀释作用减弱,而研究区所处还原环境有利于砷的释放和运移,因此地下水砷质量浓度上升,这与曹永生等[30]的研究结果一致。

高程和水力梯度对高砷地下水的分布也有一定影响,高程和水力梯度主要通过地下水流速影响地下水砷质量浓度。在低海拔和低水力梯度的平原地区,沉积物颗粒较细,地下水流速缓慢,增加水岩作用时间,O2、NO-3等氧化剂缺乏使得沉积物中氧化物被还原,吸附在沉积物上面的砷被释放,水体中砷质量浓度相应提高。在高海拔、高水力梯度的山前补给区,沉积物颗粒较粗,地下水流速快,地下水补给也快,将O2等氧化剂带入含水层,不利于砷的富集。

3 结论与建议

通过构建Stacking模型,预测了黄河下游冲积平原豫北区高砷地下水空间分布,分析了环境变量对高砷地下水分布的影响。研究区地下水砷质量浓度为0.01~190 μg/L,超标率(砷质量浓度>10 μg/L)为16.74%,表明研究区地下水存在威胁人体健康的风险。高砷地下水主要分布在研究区太行山冲洪积扇前洼地及黄河决口扇地区,具体分布在新乡市延津县、原阳县和封丘县北部,安阳市滑县和内黄县南部,濮阳市范县和濮阳县等地。构建的Stacking模型相较于XG⁃Boost、RF、SVM独立机器学习模型,具有最大的AUC、Accuracy、Specificity和Recall,Stacking模型性能优于独立机器学习算法模型的性能,可以提高当前机器学习模型对地下水砷分布预测的精确度。黄河决口情况、年均气温、年降水量、高程、水力梯度是影响高砷地下水分布的重要环境变量,沉积环境(黏砂比、黄河决口情况、第四纪地貌类型、高程)与地下水中砷富集显著相关。

基于本文研究结果,针对黄河下游豫北区高砷地下水提出以下防治建议:地下水和土壤是相互作用的,在地下水受砷污染严重的地区,通过注射井向该地区土壤中的黏土层注入改性物质及表面活性剂,经改性后的黏土可以吸附地下水中的砷污染物;在条件允许的地区构建集雨系统,利用雨季降水补给地下水,进而稀释地下水中砷污染物;集中开发无法饮用的高砷水作为工业用水;在高砷地下水区域,打井抽取地下水造就地下水漏斗,使地下水漏斗区的水位明显低于周围地区,加快漏斗区地下水的循环和更新速度,达到改善水质的目的;在地下水砷污染较为严重的地区,加快地下水动态监测网络建设和污染防治技术攻关,对地下水水质进行监测,以便提前采取地下水污染防治措施。

猜你喜欢
决口环境变量黄河
2020年吉林德惠饮马河决口抢险案例分析
多彩黄河
黄河宁,天下平
渤海湾盆地秦皇岛32-X油田决口扇储层的沉积特征与区分标准
从桌面右键菜单调用环境变量选项
『黄河』
彻底弄懂Windows 10环境变量
村翁雨中田间排水
基于三阶段DEA—Malmquist模型的中国省域城镇化效率测度及其收敛分析
基于权变管理理论的科技期刊管理模式研究