基于随机森林的河涌水质评价模型构建★

2023-10-11 05:15宋际洲李茂亿
山西化工 2023年9期
关键词:水质评价需氧量溶解氧

宋际洲,李茂亿

(广东省中山生态环境监测站,广东 中山 528400)

水是生命之源,是人类赖以生存和发展不可缺少的重要资源。对水体水质开展监测评价对掌握水质状况至关重要。水质评价是在开展水质监测调查的基础上按照环境质量标准对水质状况进行分类评价,以此来判断水质的用途和是否需要对水体进行水质治理。水质监测评价是水环境资源保护中的重要一环。目前常用的水质评价方法主要有单因子指数评价法、综合污染指数评价法、模糊数学评价法等,使用不同的水质评价方法可能会得到不同的评价结果[1-2]。

本文以中山市河涌为研究对象,在对中山市部分河涌水质开展化学需氧量、总磷、氨氮、溶解氧等项目监测的基础上,对水质监测项目监测结果情况进行统计和Pearson 相关性分析,并使用地表水环境质量标准对水质状况进行分类。为了能够更好地对河涌水质状况进行预测评价,构建基于随机森林算法的河涌水质评价模型。

1 水质监测

1.1 水质监测分析

从2022 年1 月—9 月,对中山市部分河涌开展了水质监测,获得了135 组水质监测结果。监测的项目有化学需氧量、总磷、氨氮、溶解氧。开展监测采样时,按照地表水监测技术规范开展样品采集和保存,采集河涌的表层样品,并在现场使用溶氧仪对样品中溶解氧进行现场测定,其余项目按要求加入固定剂后送到实验室在样品保存期内进行分析测定。

1.2 监测情况统计

1.2.1 各监测项目监测结果情况统计

化学需氧量、总磷、氨氮、溶解氧4 个监测项目监测结果情况统计见表1。从表1 知,化学需氧量均值为11 mg/L,范围为2~24 mg/L;总磷质量浓度均值为0.129 mg/L,范围为0.02~0.94 mg/L;氨氮质量浓度均值为0.661 mg/L,范围在未检出~6.54 mg/L 之间;溶解氧均值为6.73 mg/L,范围为2.28~9.70 mg/L。按照《地表水环境质量标准(GB 3838—2002)》标准限值[3],化学需氧量均值为Ⅰ类水质,总磷和氨氮均值为Ⅲ类水质,溶解氧均值为Ⅱ类水质。

表1 水质监测结果统计情况 单位:mg/L

1.2.2 监测项目相关性分析

使用R 语言,计算出本次研究的化学需氧量(图1中以COD 表示化学需氧量)、总磷(图1 中以TP 表示总磷)、氨氮(图1 中以NH3表示氨氮)、溶解氧(图1中以DO 表示溶解氧)4 个监测项目的Pearson 相关系数,用来度量监测项目之间的相关性大小,具体结果见图1。由图1 知,溶解氧和其他3 个项目呈负相关,相关系数范围为-0.449~-0.251。其他项目之间呈一定程度正相关,相关系数范围为0.369~0.472,其中化学需氧量和总磷的相关性最高(0.472)。

图1 监测项目相关系数图

1.2.3 水质分类情况统计

以《地表水环境质量标准(GB 3838—2002)》[3](见表2)作为评价标准,先按单项指标对各监测项目分别进行分类评价,再对各单项指标进行比较,以类别最高的指标所属类别作为该点位的总体水质类别,计算出各单项指标和总体类别后,统计出各类别数量情况,汇总于表3。由表3 知,单项指标中,化学需氧量以Ⅰ类水质为主,总磷以Ⅱ类、Ⅲ类水质为主,氨氮以Ⅰ类、Ⅱ类水质为主,溶解氧以Ⅰ类、Ⅱ类水质为主;点位总体评价中,水质类别以Ⅱ类、Ⅲ类水质为主,分别出现了46 次、44 次。

表2 地表水环境环境质量标准限值 单位:mg/L

表3 各监测项目评价情况统计 单位:mg/L

2 模型构建

2.1 随机森林算法[4-6]

随机森林(Random Forests,RF)算法是由Breiman在2001 年提出。它是一种基于分类树原理构建的有监督学习的集成模型,其基本单元是决策树。随机森林算法通过平均决策树可以大大降低过拟合,提高算法准确度,是一种性能优秀机器学习算法。

2.2 模型构建过程

将化学需氧量、总磷、氨氮、溶解氧等监测项目作为自变量,将水质类别作为因变量;选取其中98 个数据作为训练集,剩下的37 个作为测试集;使用R 语言,基于随机森林分类算法,使用3 折交叉验证对模型参数进行训练;以水质类别的真实值和预测值的符合程度来作为模型的评价指标完成模型构建。

2.3 模型构建结果

模型训练集结果准确度达到98%,测试集预测结果准确度为92%,预测结果优秀。具体测试集预测类别和真实类别对比情况见表4 训练集混淆矩阵。

表4 训练集混淆矩阵

从表4 测试集模型预测结果的混淆矩阵可知:作为测试集的37 个河涌水质中,34 个水质预测类别和真实类别完全吻合,3 个水质预测类别与真实类别不同。其中,水质类别为Ⅱ、Ⅲ类的各13 个水质的预测类别与真实类别完全吻合,真实水质类别为Ⅳ类的6 个水质有1 个预测成了Ⅲ类,真实水质类别为Ⅴ类的2 个水质有1 个预测成了Ⅳ类,真实水质类别为劣Ⅴ类的3 个水质有1 个预测成了Ⅳ类。

3 结论

本文在对中山市河涌开展水质监测的基础上,构建了基于随机森林算法的水质分类评价模型。结果表明,基于随机森林分类算法的水质评价模型训练集预测准确度达到98%,测试集预测准确度达到92%,模型预测结果表现优秀,可以用来对河涌水质进行预测评价,为管理河涌和治理水质提供一定的参考依据。

猜你喜欢
水质评价需氧量溶解氧
黄河口附近海域化学需氧量和石油烃分布及其关键控制环境因子分析
浅析水中溶解氧的测定
《水质化学需氧量的测定》新旧标准区别探讨
滻灞河水质评价方法研究
污水活性污泥处理过程的溶解氧增益调度控制
城市河道洲滩对水流溶解氧分布的影响
基于概率统计和模糊综合评价法的水质评价模型及其应用——以拉萨河水质评价为例
基于SPAM的河流水质评价模型
模糊数学评价法在水质评价中的应用
连续流动分光光度法测定水中化学需氧量