基于PCA与熵权的 贝叶斯地下水环境质量评价模型

2018-12-26 08:46唐金平陈友良
节水灌溉 2018年12期
关键词:权法水质评价赋权

胡 漾, 唐金平,陈友良 ,张 强

(1. 成都理工大学 地球科学学院,成都 610059;2. 成都理工大学 地质灾害防治与地质环境保护国家重点实验室,成都 610059)

地下水环境质量评价涉及因子众多[1],通常在实际评价工作中,人为的选取因子进行综合评价可能导致对部分关键污染因子的忽略。同时各个因子所包含的信息往往存在一定的重叠,人为选取评价指标,将不可避免的产生一些不必要的计算和评价工作。在不同的地下水系统中水质因子对地下水环境的贡献率也不同[2]。如何准确的筛选出对水质造成影响的主要指标并给予其合理的权重,是地下水质量评价工作中关键的一步。评价结果对于评价方法的科学性也有很强的依赖性,不同的评价方法所获得的结果往往也存在着差异。因此,科学合理的评价体系显得尤为重要。

主成分分析法(PCA)[3,4]在保证原始信息损失最小的前提下,经过线性变换和舍弃部分信息,以少数的综合变量取代原有的多维变量,使数据结构大为简化,避免了主观随意性,因而在寻找综合因子、样本排序、事物分类等方面获得了广泛的应用。运用主成分分析法进行因子选取能够很好的弥补人为选取评价因子的缺陷。但大量的数据分析表明,由于其本身的性质,单独使用主成分分析法进行综合评价,其最终结果并不一定符合实际情况,有时甚至完全失效,存在着一系列问题[5]。熵权法[6,7]是目前应用范围极广的一种客观赋权方法。熵值的确定立足于各评价因子所包含的信息,由于因子间存在信息重叠的特性,在传统方法中直接运用信息熵对各项评价因子赋权,必然出现重复性赋权的问题,从而造成赋权结果存在偏差。贝叶斯[8,9]是一种基于概率统计但又不同于传统统计学方法。其将所有的参数看作是一组随机的变量,从已有资料中获取先验概率,在新增信息的条件下再将先验概率转化为后验概率结果。避免了因资料不全或受主观因素过重等带来的影响,使其评价结果更加合理、可靠,且计算过程较为简便。但贝叶斯方法虽能对水质指标进行有效等级划分,但在选择目标水质指标时具有一定的盲目性,不能突出主要污染因子影响,增加了水质等级判断的困难性。

本文综合上述三种方法的特点,相互弥补其各自的缺陷。利用主成分分析方法选取关键的综合评价因子,简化评价工作又弥补贝叶斯评价因子选取盲目与熵权法赋权信息重叠的缺陷。熵权法赋予各评价因子相应的权重值,避免贝叶斯方法对各水质因子贡献率的忽视。贝叶斯评价方法进一步简化评价且能够很好的避免主成分分析评价法的适用性窄、易失效的问题。最终以新疆准东煤田二号矿区及周边区域地下水为研究对象,进行地下水水质评价,进而验证该方法的可行性与评价结果的可信性。

1 研究方法

1.1 主成分分析法

主成分分析法通过降维的方式,从众多评价因子中选取独立的综合因子并确保其原始数据信息能够最大化的保留。其基本原理与计算过程可参考文献[10,11]。本文利用统计软件Statistical Program for Social Sciences 21(SPSS21)对初始数据进行主成分分析处理。根据处理后获得的主成分荷载值来选取主成分主要控制因子,并将其作为贝叶斯综合评价因子。

1.2 熵权法

熵源于热力学领域,表征系统的无序程度[12]。在信息论中,因子携带信息量的多少可以由熵值反映,熵值越小表征因子携带的信息越多,在综合评价中该因子起到的作用也就越大,赋予的权重也越大。在水质综合评价过程中熵权法计算样本各因子权重的关键步骤:

(1)设定m个样本与n个评价因子,构建m×n原始矩阵。

(1)

(2)数据标准化处理获得归一矩阵。

(2)

当评价因子检测值与表征属性正相关时:

(3)

当评价因子检测值与表征属性负相关时:

(4)

(3)计算因子的信息熵。

(5)

(6)

注:若Tij=0,则定义limTijTijlnTij=0。

(4)计算权重。

(7)

显然,Wj∈[0,1]且∑Wj=1。

1.3 贝叶斯评价方法

贝叶斯评价方法[13]是一种基于数理统计的方法,但其又不同于传统统计学方法。贝叶斯将所有参数看作是一组随机变量,从已有资料中获取先验概率,在新增信息的条件下再将先验概率转化为后验概率结果。

贝叶斯水质评价模型及计算步骤[14]:

(8)

式中:xi为水质检测因子,i=1,2,…,n;yij为检测因子i的评价类型,j=1,2,…,5)。

在进行水质评价时,通常缺少评价对象的水质先验信息,故可视先验概率P(yij)为相等,P(yi1)=P(yi2)=…=P(yi5)=1/5。

似然概率P(xi|yij)常用正态分布法或几何距离值法进行计算。本次选用后者,利用评价因子实际检测值与标准值差的绝对值的倒数进行计算。

(9)

Lij=|xi-yij|(j=1,2,3,4,5)即第i个评价因子检测值与水质类型j的标准值之间的距离值。

综合水质评价即利用上述步骤获得的各评价因子属于各水质等级的后验概率P(yij|xi)乘以熵权法赋予的对应权重wi。即:

(10)

最终水质等级的确定目前常用的是最大似然概率原则,仅需依据所获得Pj并选取最大似然概率即可确定等级[15]。本次引入模糊综合评价方法中加权平均原则来进行水质等级的最终确定。将水质等级定量处理,每个等级赋予相应的秩(即Ⅰ~Ⅴ类水对应赋予1~5的数值)。将Pj的分量分别与对应等级的秩加权求和,将获得的最终数值四舍五入后即为水质等级[16]。

(11)

式中:k为待定系数,通常取2。

2 实例应用

研究区位于准噶尔盆地东部北缘,整体地势北高南低。区域内地下水类型主要为基岩裂隙水、碎屑岩类层间裂隙孔隙水和第四系松散岩类孔隙水。地下水主要来源于上游北部卡拉麦里山区的大气降水或冰雪融水,经地下长途运移后形成。本次以2016年7-8月水质监测资料为原始数据,筛除部分未检测指标,初步选取氨氮、氯化物、硫酸盐、硝酸盐、亚硝酸盐、氟化物、锌、镍、总硬度、TDS等10项指标作为评价因子。使用前述方法对新疆准东煤田二号矿区地下水水质进行综合评价,并对评价结果进行对比分析。地下水水质监测原始数据见表1。

表1 准东煤田二号矿井地下水水质原始监测数据Tab.1 Raw monitoring data of groundwater quality in No. 2 mine of Zhundong Coalfield

2.1 评价标准

本次评价依据《地下水质量标准(GB/T 14848-2017)》。由于标准中缺少Ⅴ类标准上限,以标准中Ⅰ类水上限值作为Ⅰ类上限值,以第Ⅰ类和第Ⅱ类水上限值的平均值作为Ⅱ类上限值,依次类推[17]。

2.2 适用性检验

利用SPSS软件对数据进行KMO与Bartlett检验(表2)。可知KMO检验值较小,但显著性(Sig.)远小于0.05,即表明各因子间相关性较强,可进行主成分分析[18]。

表2 KMO与Bartlett检验结果Tab.2 KMO and Bartlett test results

2.3 主成分分析

利用SPSS软件对原始数据进行主成分分析,选取初始特征值大于1的前3个主成分即可[19]。3个主成分累计方差贡献率为89.763% > 85%,满足后续的分析需求(表3)。对选取的成分进行主成分荷载计算,获得主成分荷载矩阵(表4)。

可知第一主成分的主要控制因子为氯化物、硫酸盐与TDS,该主成分表征主要污染来源与原生地层和地下水的运移途径有关;第二主成分的主要控制因子为氨氮、硝酸盐与亚硝酸盐,该主成分表征地下水污染次要原因与地下厌氧微生物有关;第三主成分的主要控制因子为锌、镍等重金属,该成分表征地下水污染可能与当地工业活动关系密切。因此最终选取氯化物、硫酸盐、TDS、氨氮、硝酸盐、亚硝酸盐、锌、镍等8项指标作为评价因子。

表3 特征值及方差贡献率Tab.3 Eigenvalue and variance contribution rate

表4 主成分荷载矩阵Tab.4 principal component load matrix

2.4 权重计算

目前对各项权重的赋权方法有很多,不同的赋权方法往往仅能反映水体某一方面的属性。研究数据表明,当水体存在多个污染物时,熵权法赋值评价结果更为科学合理[20]。因此本次使用熵权法对各评价因子权重赋值。利用matlab软件实现熵权的计算,计算结果见表5。

表5 熵 权Tab.5 Entropy rights

2.5 贝叶斯评价

根据贝叶斯评价原理及步骤,使用excel对主成分分析法处理前后的数据进行计算。同时为便于验证熵权法赋予权重值的可靠性,与超标法赋权结果做对比分析,评价结果见表6。

表6 贝叶斯评价结果Tab.6 Bayesian evaluation results

将赋权方法作为单一变量进行对比分析:基于超标法的评价结果总体较为悲观(图1),其根本原因是超标倍数法赋权,仅考虑了单个因子与标准值之间的关系,而忽略了多个样本之间相互的联系,因此评价结果往往与实际情况存在一定偏差。且该方法在评价多个样本时,需要对每个样本的每个指标的权重重新进行计算,工作量较大。基于熵权法的评价结果,考虑了多个样本之间的关系,降低了异常值的影响,评价结果也更加的合理、准确。

图1 不同赋权法的贝叶斯水质评价结果对比Fig.1 Comparison of Bayesian water quality evaluation results by different weighting methods

以是否通过主成分分析处理为单一变量进行比较分析:基于超标法的贝叶斯评价结果前后一致率为69.23%[图2(a)],这是由少数样本中某些超标因子被主成分分析法筛除(如X7样本的氟化物)以及超标法赋权仅考虑检测值与标准值之间的关系所导致的。而基于熵权法的贝叶斯评价结果前后一致率为92.31%[图2(b)],这是因为熵权法是基于评价因子本身所携带的信息多少而给出的权重值,主成分分析仅筛除了评价因子但对样本包含的信息进行了最大化的保留,如图2。因此,将主成分分析法和熵权法两种手段与贝叶斯水质评价耦合是切实可行的。

图2 主成分分析处理前后贝叶斯水质评价对比Fig.2 Comparison of Bayesian water quality evaluation before and after principal component analysis

3 结 论

(1)基于熵权的贝叶斯评价结果显示新疆准东二号矿区地下水水质总体较好、多为Ⅱ、Ⅲ类水,而基于超标法的贝叶斯评价结果显示该区域地下水水质情况总体较差,多为Ⅳ、Ⅴ类水。说明不同的赋权方法,往往造成评价结果的差异性。总体而言,熵权法赋权结果更为可信。

(2)研究区内的污染因素主要包括原生地层与地下水迁移途径、地下厌氧微生物和工业活动等。因此,该区域内地下水的污染防治可从以上三方面考虑。

(3)利用主成分分析法选取评价指标,在简化评价数据的同时又确保原始信息能够最大化保留,使评价计算工作变得更加简单。

(4)基于主成分分析和熵权的贝叶斯水质评价模型,在处理水质样本数据较多时,可从指标选取、权重计算和综合评价等多个环节降低计算的工作量,具有很强的适用性和实用性。

(5)本文仅讨论了熵权法与超标法赋权之间的差异,不同权重对基于主成分法的贝叶斯水质评价方法的影响在未来仍有待进一步的研究。

猜你喜欢
权法水质评价赋权
基于熵权法的BDS钟差组合预测模型的建立
基于熵权法改进的TOPSIS法和灰色关联度分析的压榨脱水过程优化研究
宿州市河流水化学特征及水质评价
论乡村治理的有效赋权——以A县扶贫项目为例
阿什河哈尔滨段水质评价
基于赋权增能的德育评价生态系统的构建
基于熵权法的城市轨道交通系统运营效率
企业数据赋权保护的反思与求解
秦皇岛北部地表水和地下水水化学特征及水质评价
浞河浮游藻类的调查研究与水质评价