基于Fast-RVM的在线软测量预测模型

2015-09-08 05:57许玉格刘莉曹涛
化工学报 2015年11期
关键词:离线污水处理向量

许玉格,刘莉,曹涛

(华南理工大学自动化科学与工程学院,广东 广州 510640)

基于Fast-RVM的在线软测量预测模型

许玉格,刘莉,曹涛

(华南理工大学自动化科学与工程学院,广东 广州 510640)

生化需氧量(biochemical oxygen demand,BOD)是评价水质好坏和污水处理效果的关键指标之一。由于污水生化处理过程复杂,在线仪表维护困难,生化需氧量无法得到快速精确地测量。针对这一问题,提出了一种基于Fast-RVM的在线软测量回归模型来实时在线预测出水指标BOD。该模型采用基于贝叶斯框架的相关向量机来在线预测输出指标,并且引入快速边际似然算法来加快模型的更新速度。通过污水数据的仿真实验,结果表明该在线模型的预测精度高于离线模型,泛化能力强,模型在线更新的快速性尤为突出,能较好地实现污水处理中出水水质的实时在线预测。

Fast-RVM算法;在线建模;软测量;预测;污水处理

由于污水处理过程复杂,往往存在着参数时变、多变量耦合、强非线性、大滞后等特点,面对这些特点,传统传感器无法得到有效应用,以致重要变量无法得到快速精确测量。国际水质协会(International Association on Water Quality,IAWQ)推出ASMs和ADM1等机理模型,但实际的污水处理现场条件太多,很难建立精确的机理模型。为了达到对污水处理这个非线性、大时滞对象的测量和控制效果,国内外专家提出了多种非机理软测量方法[3]。文献[4-5]中采用神经网络预测污水出水水质,文献[6-7]采用最小二乘支持向量机建立污水软测量模型,上述软测量方法在污水出水水质测量上都取得一定的成果。但神经网络预测过程占用大量资源,训练时间过长,且存在局部极小、过拟合、权值不易在线调整等缺陷[2,8],支持向量机随着训练样本的增加,训练时间会变长,且自适应能力差,鲁棒性不强[9-10]。这些缺陷一方面限制了模型在污水预测上的广泛应用,一方面影响了污水出水水质在线测量的实时性。

针对污水出水指标预测误差大、难以准确在线测量的问题,本文提出了一种基于快速相关向量机的污水水质BOD在线预测的软测量回归模型。该方法通过相关向量机来建立预测模型,利用快速边际似然法提高模型的学习速度,并且对模型进行在线更新。

1 软测量预测模型的建立

1.1快速相关向量机的基本模型

相关向量机是一种在贝叶斯框架下的稀疏概率模型[11],给定污水数据集N是样本数。根据概率论观点,目标值可以表示为

与支持向量机类似,函数 y( x)定义为

根据先验概率分布和似然估计分布,可得权重的后验概率分布

其后验协方差和均值分别为

为了使超参数快速达到稳定值从而获取权值,本文引入快速边际似然算法[12]。该算法对训练样本的超参数进行快速估计,去除训练样本的非相关向量,保证模型的稀疏性,从而减少训练时间。对 L(α)进行变换得

L (α-i)表示当αi=∞时,相应的基本向量φi被移除后所对应的边界似然函数的对数,而l (αi)表示边界似然的对数函数中只与αi有关的独立部分,其中。对L(α)关于超参数αi求一阶和二阶偏导可得唯一极大值点

在经过大量的污水数据学习后,大部分超参数会趋近于无穷大,而与其对应的权值为 0,从而使RVM 具有较高的稀疏性。给定一个测试点x∗,相应的污水出水水质预测值t∗的预测分布为,预测值为,x∗是输入值。

综上所述,快速相关向量机回归基本算法步骤如下:

(1)初始化σ2;

(3)计算Σ、μ并对所有M个基函数φm初始化sm和qm(m=1,2,…,M);

(4)从所有M个基函数 φm集合中选择候选的基函数 φi;

(6)若θi>0且αi< ∞(基函数φi在模型中),重新估计αi;

(7)若θi> 0 且αi=∞(基函数 φi不在模型中),添加φi到模型中并重新估计αi;

(8)若θi≤0且αi< ∞,删除φi并设置αi=∞;

(10)重新计算协方差矩阵Σ,权重矩阵μ以及相应迭代过程中的ms和mq;

(11)若超参数收敛(超参数值不再变化)或者达到最大迭代次数,则保存权重值和偏差值并终止程序;否则转步骤(4)。

最大边缘似然估计超参数过程中,超参数更新需要计算后验权值的协方差矩阵,矩阵求逆需要计算复杂度O(M3)和存储空间O(M2),其中M为基函数的个数。

快速相关向量机算法中基函数个数从1开始不断增加直至获取相关向量,而且Σ与Φ只包含当前模型中存在的基函数,后面的矩阵求逆所需要的时间较少,因此该方法计算速度要快得多。

1.2基于快速相关向量机的污水出水水质预测软测量在线模型

由于污水处理过程中进水水质、水量、操作条件等的变化,导致BOD软测量模型不能适应新的工况,因此在实际应用中必须对软测量模型进行在线矫正。将精选后的辅助变量与BOD历史输出数据构成快速相关向量机的训练样本集,然后根据新的观测数据预测输出,并且更新训练样本,重新学习模型。假设最新的污水输入属性为 xnew,实际的出水BOD值为 ynew,则出水BOD的在线更新算法步骤如下:

(1)根据历史数据使用1.1节所述快速相关向量机回归算法建立初始模型;

(2)如果来了新数据,则对新来的污水数据xnew进行预测;否则转到步骤(8);

(3)添加一个新样本( xnew, ynew)到模型中并初始化权重w为0,αnew初始化为1,并删除模型中最前面的一个历史数据,保持模型中训练数据的个数不变,由T来表示;

(4)For i=1:T

If (θi>0且αi< ∞),重新估计αi,计算公式为

Else if (θi> 0且αi=∞),添加 φi到模型中并需要重新估计αi;

Else if (θi≤0且αi< ∞),把φi从基向量矩阵中删除并设置αi=∞;

End if

End for

(6)重新计算Σ、μ以及相应迭代过程中的 sm和 qm;

(7)若收敛或者达到最大迭代次数,则保存权重值和偏差,转步骤(2)用更新后的模型对新数据进行预测;否则转步骤(4);

(8)程序结束。

2 仿真实验与结果分析

2.1实验辅助变量

软测量的基本思想是对于一些难以测量或暂时不能测量的重要变量,选择另外一些容易测量且与其相关的变量,通过构造某种以辅助变量为输入、主导变量为输出的数学模型,用计算机软件实现主导变量的估计[13]。本实验采用加州大学数据库(UCI)提供的污水数据,该污水数据是由城市污水处理厂在将近两年时间里所测得的数据,数据涵盖一年四季不同情况,采样间隔不等,最大间隔2 d,最小间隔0 d,共528组,38维。对数据进行聚类填补,去粗大值预处理,并提取与BOD预测相关的属性数据,最后得到400组,共20维数据,其中输入辅助属性为19维,输出属性BOD为1维。输入辅助属性变量如表1所示。

表1 实验输入辅助变量列表Table 1 Auxiliary list of experiment

2.2出水水质预测的离线仿真实验

预测出水水质,目的是对水体进行监测,使废水处理厂能及时处理异常情况,加强对污水处理的运行控制。仿真实验采用的计算机环境为: Intel Pentium 处理器,主频为 2.1 GHz,4 GB内存,320 G硬盘。选取处理后的400组数据,其中200组用于训练模型,200组用作测试数据测试模型精度。分别建立支持向量机SVM[14]、相关向量机RVM[15]、快速相关向量机Fast-RVM的离线模型来预测出水水质BOD。相关向量机和快速相关向量机初始核宽都设为3,支持向量机用GA寻优算法来初始化两个参数,得到惩罚参数c为118.5625,径向基函数参数g为0.129。预测结果如表2所示,图1~图3 是3种模型预测输出归一化后所绘制的图。表2中MSE是均方根误差,Training time是模型训练时间,Vector是相关向量的个数。3种模型使用相同的污水数据和计算机环境。RVM与Fast-RVM迭代终止的条件是迭代次数达到或者超参数值不再变化,达到稳定,SVM的迭代终止条件是达到预先设置的迭代次数。SVM、RVM和Fast-RVM算法的预设迭代次数分别是200、1200和500。其中SVM算法在迭代次数超过200次之后,训练时间会更长,而MSE几乎不变。

表2 3种离线预测方法性能的对比Table 2 Comparison of performance of different off-line model

图1 支持向量机离线预测Fig.1 Off-line predictor of support vector machine (SVM)

图2 相关向量机离线预测Fig.2 Off-line predictor of relevance vector machine (RVM)

从表2可以看出,在高度复杂、非线性、强干扰的污水处理系统中,快速相关向量机拟合能力更强,提高了预测精度。在 3种模型中,RVM和Fast-RVM的训练时间相对SVM要短很多,这是因为 RVM只有一个核宽度参数需要寻优[16-17],可以采用点搜索,而SVM有两个参数,无论是用网格搜索还是用遗传等优化算法寻优都是非常耗费时间的[18]。从相关(支持)向量个数来看,RVM训练出来的模型包含的向量个数少,模型更稀疏。而Fast-RVM比普通的RVM更加稀疏,相关向量个数从60个减少到了16个,Fast-RVM通过快速似然估计算法,可以更快得到稀疏性更好的超参数,减少模型的计算复杂度,提高了模型的训练效率。

图3 快速相关向量机离线预测Fig.3 Off-line predictor of Fast-RVM

从图1~图3可以看出,3种模型在采样最初和最后,其预测更贴近实际值,而中间时段的采样预测效果并不理想,反映出3种离线模型并不能一直有效预测并且适应BOD的变化。为了对水体进行实时监测,使废水处理厂能及时处理异常情况,加强对污水处理的运行控制,本文采用基于快速相关向量机的在线预测模型。

表3 3种模型在线测试结果Table 3 Comparison of performance of different on-line model

图4 支持向量机在线预测Fig.4 On-line predictor of support vector machine(SVM)

图5 相关向量机在线预测Fig.5 On-line predictor of relevance vector machine (RVM)

图6 快速相关向量机在线预测Fig.6 On-line predictor of Fast-RVM

2.3出水水质预测的在线仿真实验

UCI数据库采集的数据记录了污水厂每天的出水BOD浓度,进行在线仿真实验时,需要对每一组新的数据加入模型进行更新[19]。训练数据通过采取限定记忆的方式来保持其容量。限定记忆[13]是指训练数据始终是有限组,每增加一组最新的观测数据,就随即丢弃一组最早的观测数据,从而保证模型中都包含新数据的信息,避免历史所含数据信息淹没新数据所包含的信息。根据第1节所述快速相关向量机建模的步骤,先用200组历史数据建立初始模型,剩下200组数据用作测试数据。当模型有最新输入时,预测出水水质BOD浓度的最新输出,然后将这一新输入和输出数据加入到训练样本中,对训练样本进行更新,为了保持训练样本的容量,将训练样本中最早的样本丢弃,然后按照快速相关向量机在线建模的步骤建立快速相关向量机在线预测模型,并且与支持向量机、相关向量机对 BOD浓度在线预测效果进行对比,结果如表3所示,图4~图6是3种模型的预测输出归一化后所绘制的图。表 3中的仿真时间是指模型的在线运行时间,包括了对200个新数据的模型更新时间。

对比表2和表3可知,3种在线模型的预测精度都得到了显著的提高,由图4~图6可知在每个采样点的预测值都更贴近实际值,表明3种在线模型更能有效适应出水指标 BOD的变化。虽然Fast-RVM的预测精度在3种模型中不是最高的,预测误差为0.0329,但远小于离线模型中预测误差最小的Fast-RVM的0.0813,因此是可接受的预测效果。从模型更新速度方面对比,Fast-RVM在线模型的训练更新速度比RVM和SVM的在线测量模型要快很多,这个指标对于在线模型更加重要。出于实时预测的考虑,软测量模型对快速性要求更高,在满足预测精度的前提下,能快速更新的模型才更加适合BOD的在线预测,因此本文所提的快速相关向量机在线模型能更好地满足实时预测的要求。

3 结 论

针对污水生化处理过程复杂,在线仪表维护困难,导致重要出水指标预测误差大,难以建立准确在线测量这一问题,本文提出了一种基于Fast-RVM的在线软测量回归模型来实时在线预测出水指标BOD。通过与支持向量机和相关向量机在离线和在线情况下的预测效果和模型更新速度对比,结果表明本文提出的模型预测输出精度高,模型更稀疏,模型训练更新速度更快,能较好地实时跟踪出水BOD的浓度变化。

References

[1]Huang Daoping (黄道平), Liu Yiqi (刘乙奇), Li Yan (李艳). Research and application of soft measurement in the sewage treatment process [J]. CIESC Journal (化工学报), 2011,62 (1): 56-64.

[2]Guo Nan (郭楠), Qiao Junfei (乔俊飞). Research of BOD soft measuring instrument based on neural network [D]. Beijing: Beijing University of Technology, 2014.

[3]Chen Zhaobo (陈兆波), Ren Yueming (任月明). Sewage Treatment Plant Measurement, Automatic Control and Fault Diagnosis (污水处理厂测量、自动控制与故障诊断) [M]. Beijing: Chemical Industry Press, 2009, 16-18.

[4]Tian Yi (田奕), Qiao Junfei (乔俊飞). Neural network soft measurement of BOD based on genetic algorithm [J]. Computer Technology and Development (计算机技术与发展), 2009, 19 (3): 127-133.

[5]Li Guihong (李贵宏), Zheng Hua (郑华). Application of artificial neural net work in wastewater treatment//Second International Conference on Information Science and Engineering, ICISE 2010 [C]. Hangzhou, 2010: 4373-4375.

[6]Chen Zhiming (陈志明). Wastewater treatment prediction based on chao GA optimization LS-SVM//Proceedings of the 2011 Chinese Control and Decision Conference, CCDC 2011 [C]. Guizhou, 2011: 4013-4016.

[7]Yang Baolei (杨鲍蕾). Prediction system of sewage outflow COD based on LS-SVM//Proceedings of the Second International Conference on Intelligent Control and Information Processing, ICICIP 2011 [C]. Hangzhou, 2011: 399-402.

[8]Ran Weili (冉维丽), Qiao Junfei (乔俊飞). BOD soft-measuring approach based on PCA time-delay neural network [J]. Transaction of China Electrotechnical Society (电工技术学报), 2004, 19 (12): 78-82.

[9]Su Shuhui (苏书惠), Zhang Shaode (张绍德), Tan Jinghui (谭敬辉). Research of waste water soft-measuring approach based on support vector machine [J]. Automation & Instrumentation (自动化与仪表), 2009, (6): 6-9.

[10]Pani A K, Mohanta H K. Application of support vector regression, fuzzy inference and adaptive neuro fuzzy inference techniques for online monitoring of cement fitness. [J]. Powder Technology, 2014, 264: 484-497.

[11]Tipping M E. Sparse Bayesian learning and the relevance vector machine [J]. Journal of Machine Learning Research, 2001, 1 (3): 211-244.

[12]Michael E Tipping, Anita Faul. Fast marginal likelihood maximization for sparse Bayesian models//Proceedings of the Ninth International Workshop on Artificial Intelligence and Statistics [C]. Key West, 2003.

[13]Xu Jiping (许继平), Chen Chen (陈晨), Liu Zaiwen (刘载文), Wang Xiaoyi (王小艺). Research on BOD online detection instrument based on the theory of soft instrument [J]. Control Engineering of China (控制工程), 2010, 17: 101-108.

[14]Zhang Xiuju (张秀菊), An Huan (安焕), Zhao Wenrong (赵文荣), Zhang Qinling (张琴玲). Application of waste water prediction based on support vector machine [J]. Chinese Rural Water Conservancy and Hydroelectric Power (中国农村水利水电), 2015, (1): 85-89.

[15]Xu Yuge (许玉格), Cao Tao (曹涛), Luo Fei (罗飞). The prediction of effluent quality of waste water treatment based on relevance vector machine [J]. Journal of South China University of Technology: Natural Science Edition (华南理工大学学报: 自然科学版), 2014, 42 (5): 111-117.

[16]Wang Huazhong (王华忠), Yu Jinshou (俞金寿). Research on kernel function and its application in soft measurement modeling [J]. Automation & Instrumentation (自动化与仪表), 2004, 25 (10): 22-25.

[17]Masuda Kazuaki. Global optimization of point search by equilibrium search of gradient dynamical system [J]. Electronic and Communication in Japan, 2008, 91 (1): 19-31.

[18]Su Jieqiong, Wang Xuan, Liang Yong. GA-based support vector machine model for the predictor for the monthly reservoir storage [J]. Journal of Hydrologic Engineering, 2014, 19: 1430-1437.

[19]Thomas Buchgraber, Dmitriy Shutin, Vincent Poor H. A sliding-window online fast variable sparse Bayesian learning algorithm//2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) [C]. 2011: 2128-2133.

On-line soft measuring model based on Fast-RVM

XU Yuge, LIU Li, CAO Tao
(School of Automation Science and Engineering, South China University of Technology, Guanzhou 510640, Guangdong, China)

Biochemical oxygen demand (BOD) is a significant indicator to evaluate the effluent quality in wastewater treatment process. Complex wastewater treatment process and high requirement for instrument maintenance make it very difficult to obtain BOD quickly and accurately. In order to solve this problem, a novel BOD on-line soft measuring model based on fast variable relevance vector machine (Fast-RVM) is proposed in this paper. Relevance vector machine algorithm with Bayesian framework is used to build up predictive model and fast marginal likelihood algorithm is applied to accelerate updating speed of the model. Simulation experiments show that the real-time on-line prediction performance and generalization ability are better by using the proposed model than those of off-line model. The online updating speed is particularly outstanding. These experimental results verify that the proposed method is very suitable for real-time on-line prediction of effluent quality in the wastewater treatment process.

Fast-RVM algorithm; on-line modeling; soft measurement; prediction; wastewater treatment process

引 言

随着工业化进程的不断加快,我国的水污染情况也在不断加剧。在污水处理过程中,BOD是反映污水中生物可降解有机物含量的参数,是表征水体有机污染程度的综合指标,广泛用于水体监测和废水处理厂的运行控制[1]。能否对BOD进行实时监测已成为提高治污质量的关键。目前污水处理厂多采用大滞后的离线分析法:BOD5离线分析测定周期为5 d,不能及时反映污水处理实际情况,不能实现对BOD在线测量[2]。

date: 2015-05-06.

XU Yuge, xuyuge@scut.edu.cn

supported by the National Natural Science Foundation of China (61473121).

10.11949/j.issn.0438-1157.20150566

TP 273

A

0438—1157(2015)11—4540—06

2015-05-06收到初稿,2015-07-20收到修改稿。

联系人及第一作者:许玉格(1978—),女,博士,副教授。

国家自然科学基金项目(61473121);广州市珠江科技新星项目(2011J2200084);华南理工大学中央高校基本科研业务费专项基金项目(2014ZZ0027)。

猜你喜欢
离线污水处理向量
我国乡镇污水处理模式的探讨
向量的分解
农村黑臭水体治理和污水处理浅探
太原市61个村要建污水处理设施严禁直排入河
异步电机离线参数辨识方法
聚焦“向量与三角”创新题
浅谈ATC离线基础数据的准备
FTGS轨道电路离线测试平台开发
离线富集-HPLC法同时测定氨咖黄敏胶囊中5种合成色素
涌浪机在污水处理中的应用