基于监督学习算法的污水出水化学需氧量(COD)预测

2022-07-15 21:10张凌超胡铭杨刚轶金李涛
科技研究·理论版 2022年4期
关键词:机器学习

张凌超 胡铭 杨刚轶 金李涛

摘要:出水化学需氧量(COD)是衡量污水处理效果的核心指标之一。本文采用线性回归、K近邻、决策树、梯度提升回归树等监督学习算法,构建机器学习模型,对某市污水处理厂出水化学需氧量进行预测,误差均值为3.14mg/L。提供了一种预测出水化学需氧量的方法,为污水处理的优化提供了一种有效的方法。

关键词:机器学习;监督学习;COD预测

引言:城市的高速发展导致了用水量急剧增长,相应的污水排放量不断增加,使得污水的处理与排放显得尤为重要。如何快速、准确的衡量污水处理效果并保证出水水质的稳定十分关键,是污水处理行业所追求的目标[1]。出水的化学需氧量(COD)是衡量污水处理效果的重要指标,通过对出水COD的预测,可以为污水处理高效稳定的运行提供帮助。

人工智能(ArtificialIntelligence,AI)作为计算机科学行业的顶尖技术之一,从1956年达特茅斯会议上正式提出开始就一直备受各行业关注。人工智能技术随着算法的不断改进和算力的不断提升,进入了飞速发展的时期,在各领域都有广泛的应用[2-3]。机器学习(MachineLearning,ML)是人工智能的核心,通过让机器去模拟人类学习的能力,从而使机器变得更加智能。

本文基于传统污水处理工艺技术及某市污水处理厂监测公开数据,结合进水化学需氧量、PH值、氨氮、色度、悬浮物等与污水处理出水水质密切相关的几大因素,使用机器学习中的监督学习算法:线性回归(LinearRegression)、K近邻(K-NearestNeighborKNN)、决策树(DecisionTree)和梯度提升回归树(GradientBoostingRegressionTree),通过对进水样本特征的建模与计算,提供了一种有效预测出水COD的方法,为污水处理工艺高效稳定的运行提供帮助。

1出水化学需氧量预测模型的建立

1.1实验样本的来源

本文實验所用样本来自于某市生态环境局2018年至2019年间共9个月的污水处理厂监督性检测数据。样本包含进水PH值、进水生化需氧量、进水化学需氧量、进水色度、进水氨氮、进水总氮、出水化学需氧量等15个特征,共计112组样本。其中随机选取93组样本作为训练集,19组样本作为测试集。

1.2线性回归模型(LinearRegression)

线性回归是一种用于回归的线性模型,通过寻找参数w和b,使得预测值y与真实值y的均方误差最小。线性回归的预测公式为:

设有数据集{(x1,y1),(x2,y2)…(xn,yn)},

预测值y=wx+b。

本次实验将样本中进水COD和出水COD的值作为输入(x)和输出(y),进行线性模型的训练。最终求得模型斜率(w)为-0.038,截距(b)为29.073。模型预测出水COD与实际出水COD的误差范围为[0.39,9.71],误差均值为4.86,均方误差为29.97。

1.3K近邻(KNN)回归模型

K近邻算法通过在训练集中寻找与预测值距离最相近的K个数据点,根据“投票法(voting)选取距离最近的K个数据点中出现次数最多的标签,作为预测值的标签。

本次实验的数据样本特征均为连续值,根据K近邻算法的特性,决定对训练集和测试集进行K近邻回归分析与建模;并使用欧氏距离(EuclideanDistance)计算测试集样本与训练集样本特征的差值。

欧氏距离计算公式如下:

设有数据点A(x1,x2…xn),数据点B(y1,y2…yn),则A、B两点间的欧氏距离为:

此算法通过迭代的方式,为每一个测试集中的样本采用欧氏距离计算与所有训练集样本特征间的差值,从而找出K个距离该测试点最近的训练集样本,则K个距离最近训练集样本标签的平均值为测试点的预测结果(出水COD)。同时,由于K近邻算法的k值(邻居数量)对模型的准确度影响极大,为了得到最优解,需要对不同K值对模型精确度的影响进行分析。

经过实验分析,模型预测出水COD与实际出水COD的误差范围为[0.52,12.26],误差均值为3.64,均方误差为19.79。

1.4决策树(DecisionTree)回归模型

决策树算法是一种非常常用的机器学习算法,广泛应用于分类和回归任务。决策树是一种树形结构,由一系列节点和分支组成。节点表示学习或决策过程中需要考虑的属性,不同的分支则由不同的属性构成。利用某事例的属性值,从决策树的树根节点往下搜索,直至叶子节点,便可对该事例进行学习,做出决策[4]。构建决策树模型的具体方法是:检测所有的属性,计算信息增益(InformationGain),并选择信息增益最大的属性作为决策树结点,并根据该属性的不同取值建立分支,再对各分支的子集采用递归的方式建立决策树结点的分支,直到所有子结点仅包含同一类别的数据为止[5]。

信息增益(InformationGain)的计算方法:假设划分前样本为S,并用属性A来划分样本S,则信息增益IG(S,A)等于样本S的熵(Entropy)减去划分完毕后子集的熵。公式如下:

经过实验分析,模型预测出水COD与实际出水COD的误差范围为[0,9],误差均值为3.68,均方误差为20.84。

1.5梯度提升回归树(GradientBoostingDecisionTree,GBDT)

集成(ensemble)是一种通过合并多个机器学习的模型,从而构建出一种更加强大的模型的方法。梯度提升回归树应用了此集成方法,通过合并多个决策树来构建一个更加强大的机器学习模型。梯度提升树模型中的主要参数是树的数量(n_estimators)、学习率(learning_rate)和每棵树的最大深度(max_depth)。其中决策树的数量决定了模型的复杂程度;学习率控制每一棵树对前面一棵树错误的纠正强度;限制每棵树的最大深度用于降低每棵树的复杂度,使得内存占用的更少,预测速度更快。

经过实验分析,对于本样本来说,树的数量选用默认值、学习率取0.12、树的最大深度为2时,模型泛化能力较强,模型精确度较高。最终,模型预测出水COD与实际出水COD的误差范围为[0.13,6.84],误差均值为3.14,均方误差为13.41。

2模型预测结果分析

本文共建立了四个监督学习模型对污水处理厂出水化学需氧量进行预测。四种模型的预测值和实际值对比如表1、图1所示。表1四种监督学习算法模型预测值与实际值的对比

各模型预测出水COD值和实际出水COD值的误差范围、误差均值和均方误差如表二所示。

对出水COD的预测误差介于0.13~6.84ml/L之间,误差均值为3.14ml/L,相较于线性回归模型、K近邻模型、决策树模型算法,梯度提升回归树模型的预测结果更加显著。

3结论

本文通过线性回归、K近邻、决策树、梯度提升回归树等机器学习中的监督学习算法,对某市污水处理厂出水化学需氧量进行预测研究。得到了一种可以快速有效预测出水化学需氧量的方法,对实际污水处理过程的优化、调控具有一定的指导意义。

参考文献

[1]陈威,陈会娟,戴凡翔,李忠.基于人工神经网络的污水处理出水水质预测模型[J].给水排水,2020,56(S1):990-994.

[2]任成.人工智能技术发展综述[J].中国安防,2020(10):81-83.

[3]郝欣恺.人工智能技术发展及应用研究综述[J].环渤海经济瞭望,2020(09):152-153.

[4]魏茂胜.数据挖掘中的分类算法综述[J].网络安全技术与应用,2017(06):65-66.

[5]罗可,林睦纲,郗东妹.数据挖掘中分类算法综述[J].计算机工程,2005(01):3-5+11.

猜你喜欢
机器学习
基于词典与机器学习的中文微博情感分析
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
下一代广播电视网中“人工智能”的应用
基于支持向量机的金融数据分析研究
基于Spark的大数据计算模型
基于朴素贝叶斯算法的垃圾短信智能识别系统
基于图的半监督学习方法综述
机器学习理论在高中自主学习中的应用
极限学习机在图像分割中的应用