基于主成分分析的高品质再生水源水水质评价

2023-11-10 10:21裴超迎张宏宇魏新鲜李康康李彩凤谢雨岍
中国资源综合利用 2023年10期
关键词:原始数据高品质水厂

裴超迎,张宏宇,郝 雪,魏新鲜,李康康,李彩凤,谢雨岍,崔 勇,

(1.北京亦庄检测有限公司;2.北京亦庄环境科技集团有限公司,北京 100176)

我国是一个严重缺水的国家,水体污染及淡水资源短缺已成为制约国民经济发展的重要因素之一。污水再生利用是解决水资源短缺问题的有效途径,也是满足国家水资源可持续利用重大需求的有力保障[1],生产出高品质再生水替代自来水作为水源用作工业用水具有重要意义。水源水质状况如何对高品质再生水厂工艺设计及稳定运行具有重要意义,而对水质进行评价是了解水质状况的有效途径。目前,国内常用的水质评价方法有单因子指数法、综合污染指数法、模糊综合评价法、人工神经网络法、主成分分析法和聚类分析法等[2-5]。

高品质再生水厂进水设计控制指标较多[6],而在日常运行中,检测指标较少。综合考虑再生水厂的设计与日常运行指标的控制,相比其他水质评价方法,主成分分析法更加适用于高品质再生水厂水源水质的评价。主成分分析法是考虑多指标间的相关性,通过降维处理,在尽量少损失信息的情况下,将多个指标综合成少数几个指标的一种多元统计方法,此方法已在河流、水库、农作物、土壤等[7-10]方面的评价中得到广泛应用并取得较好效果。本文以北京市某高品质再生水厂水源水质为研究对象,对一定时期内的水质进行评价,分析水质变化特点,为高品再生水厂的工艺选择及后期运行提供技术支撑。

1 研究方法

1.1 样品采集与检测

样品采集时段为2021年6月至2022年1月,每天09:30 左右进行样品采集。样品采集执行《水质 采样技术指导》(HJ 494—2009),样品采集后及时进行检测,对于不能及时检测的样品,依据《水质采样样品的保存和管理技术规定》(HJ 493—2009)进行保存。各指标的检测执行相关国家标准和行业标准。根据高品质进水水质要求,选择的水质检测指标有化学需氧量(COD)、五日生化需氧量(BOD5)、悬浮物(SS)、氨氮(NH3-N)、总氮(TN)、总磷(TP)、总溶解性固体(TDS)、总有机碳(TOC)、总硬度、pH 和总碱度。

1.2 数据处理

一是对原始数据进行标准化处理。去除数据的单位限制,消除量纲的影响,便于不同单位或量级的指标能够进行比较和加权。二是对数据进行是否适合主成分分析的判定性检验。KMO 检验和Bartlett 球度检验用于验证各水质检测指标运用主成分分析的适宜性。KMO 检验用于检验变量间的相关性和偏相关性,KMO 检验值介于0~1,KMO 检验值越大,意味着变量间的相关性越强,原有变量越适合进行因子分析,一般来说,当KMO 检验值大于0.5 时,原始变量间存在较强的相关性,适合做主成分分析。Bartlett球形检验主要用于检验相关系数矩阵中各变量间的相关性,判断其是否为单位阵。其显著性系数P小于0.05 时,数据呈球形分布,相关系数矩阵不是单位阵,即原始变量之间存在相关性,适合做主成分分析。三是计算特征根,确定主成分个数。用来替代水质指标的主成分的个数确定原则为:做主成分分析后,特征值大于1;累计贡献率大于80%;绘制碎石图,综合考虑,确定主成分个数。四是计算特征向量,确定主成分表达式,计算主成分得分[11-12]。

2 主成分分析

将2021年6月至2022年1月每周样本检测数据取平均值,每月获得4 个样本值,共计32 个样本值,即样本量为32 个。将COD、BOD5、TP、NH3-N、TN、SS、TOC、TDS、总硬度、pH 和总碱度的数据导入Stata15.1 软件,可以得到各指标数据的分布特征,如表1所示。从表1 可以看出,样本的TDS、总硬度、总碱度指标值相对较大并且比较分散,其中TP 指标值最小并且最为集中。

表1 原始数据分布特征

2.1 原始数据标准化及相关系数矩阵

将各指标检测值的每周平均数据导入Stata15.1软件,采用式(1)对其进行标准化处理,原始数据的标准化结果如表2所示。在标准化数据矩阵的基础上,计算原始指标的相关系数矩阵R。相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量,结果如表3所示。

表2 原始数据标准化结果

表3 原始数据相关系数矩阵

2.2 适宜性检验

适宜性检验是做主成分分析的前提,各检测指标进行KMO 检验和Bartlett 球度检验。经KMO 取样适当性度量,KMO 检测值为0.65,大于0.5。经Bartlett球度检验,近似卡方值为158.87,自由度为55,显著性系数为0.00,小于0.05,表明原始变量间存在相关性,适合做主成分分析。

2.3 主成分个数确定

计算相关系数矩阵R的特征根λi(λi是主成分的方差,i=1,2,…,n,λ1≥λ2≥…≥λn),明确累计方差占比。通过Stata15.1 软件计算出特征根相应的累计方差贡献率、特征向量,如表4所示。第一主成分特征值为5.36,第二主成分特征值为3.70,均大于1;第一主成分方差贡献率为48.73%,第二主成分方差贡献率为33.64%,累计贡献率达到82.37%。根据主成分个数的确定原则,结合碎石图,综合考虑,确定主成分个数为2。前两个主成分包含原始数据的绝大多数信息,可以对水质特征进行评价。

表4 总方差解释

2.4 初始因子载荷矩阵

通过主成分计算得到初始因子载荷矩阵,它表示各主成分与评价指标之间的相关系数,数值越大说明该指标对主成分的影响越大,对污染程度的贡献越大。从表5 可以看出,水质污染程度第一主成分与BOD5、TDS、TOC 密切相关,它反映出水体受有机物和可溶性盐类污染的作用较强。第二主成分与总硬度、总碱度密切相关,反映出水体受易结垢离子(Ca2+、Mg2+、CO32-、HCO3-、OH-等)的影响较大。综合可知,源水水质状况与有机物和可溶性盐类密切相关。

表5 主成分初始因子载荷矩阵

2.5 确定主成分表达式

用因子载荷矩阵中的数据除以主成分相对应的特征值的平方根,得到对应的特征向量a,并与标准化后的数据ZXi(i=1,2,…,11)相乘,便可得出主成分Fi表达式。主成分得分采用式(2)计算。代入计算数据,第一主成分F1、第二主成分F2的表达式如式(3)和式(4)所示。

2.6 确定综合评定函数

以每个主成分所对应的特征值占所提取主成分特征值之和的比例作为权重,确定主成分的综合评定函数F,如式(5)所示。代入计算数据,其表达式如式(6)所示。

2.7 主成分综合得分

主成分综合得分越高,说明水质受污染程度越严重,水质越差,随时间分布的主成分得分结果如表6所示。其中,F表示综合主成分得分,F1表示第一主成分得分,F2表示第二主成分得分。

表6 随时间分布的主成分得分结果

3 源水水质评价

对随时间分布的主成分得分结果进行可视化分析,走势如图1所示。从图1 可知,综合主成分F在水样检测时间段(2021年6月至10月初)的整体得分逐渐减少,10月第1 周综合主成分F达到最小,说明此时段内水质逐渐变好。10月第1 周水质最好,从10月第2 周起,水质明显变差。

图1 主成分得分结果走势

2021年6月至10月初,第一主成分F1相对稳定,而第二主成分F2逐渐减少,第二主成分F2与综合主成分F走势基本一致,说明在此时间段内,水质好坏与F2所代表的主要易结垢离子的含量密切相关。6—7月,第二主成分F2波动较大,说明水样中易结垢盐分离子的含量波动较大,整体水质不稳定。2021年10月第2 周至2022年1月,综合主成分F走势与第一主成分F1走势基本一致,呈逐渐升高趋势,而第二主成分F2缓慢升高,说明此阶段水质污染以有机物和可溶性盐类为主,其在2022年1月第2 周达到最高,2022年1月整体水质最差。

4 结论

本文以北京市某高品质再生水厂源水水质为研究对象,运用主成分分析法对2021年6月至2022年1月水质的主要影响指标进行分析,建立综合评价函数模型,并对水质进行综合评价。11 个水质指标综合为2 个主成分进行解释,解释率达到82.37%。主成分分析法评价结果表明,源水水质变化的主要综合控制指标为BOD5、TDS、TOC、总硬度和总碱度,因此,源水水质状况与有机物和可溶性盐类含量变化密切相关。在监测时段内,2021年6—7月和2021年10月至2022年1月水质较差,1月水质整体最差,8—9月水质相对较好,6—7月水质波动较大,水质稳定性较差。2021年6—10月第1 周,源水水质主要受可溶性盐类含量影响;2021年10月第2 周至2022年1月,水质主要受有机物含量影响。

猜你喜欢
原始数据高品质水厂
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
打造高品质流翔高钙对比示范村
受特定变化趋势限制的传感器数据处理方法研究
高品质的忠实还原 FIBBR Ultra Pro2 HDMI光纤线
超滤膜在再生水厂应用工程实践
水厂自动化技术的应用解析
光伏扶贫如何保证高品质
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶
水厂环状管网平差计算与分析
跟着明星感受高品质的吃喝玩乐