基于概率组合的水质预测方法

2011-12-21 00:50孙兆兵王保良冀海峰黄志尧李海青浙江大学控制科学与工程学系工业控制技术国家重点实验室浙江杭州310027
中国环境科学 2011年10期
关键词:概率分布预测值概率

孙兆兵,王保良,冀海峰,黄志尧,李海青 (浙江大学控制科学与工程学系,工业控制技术国家重点实验室,浙江杭州 310027)

基于概率组合的水质预测方法

孙兆兵,王保良*,冀海峰,黄志尧,李海青 (浙江大学控制科学与工程学系,工业控制技术国家重点实验室,浙江杭州 310027)

当前水质预测研究中,组合预测缺少一般框架性组合方法,概率性预测多以水质指标服从某种概率分布为前提.针对这一状况,提出了一种概率性组合预测方法.组合预测采用优势矩阵法对预测结果加权融合,能够有效改善预测效果,并可以进一步扩展新方法;概率性预测基于对历史预测的统计,并对其进行有效性检验,进而给出水质指标在一定置信度下的区间估计.将基于灰色模型群法和指数平滑法的概率组合预测方法应用于浙江鸠坑口进行预测实验,实验结果表明,组合预测方法的总体预测效果优于单一预测方法,统计概率有效性可以得到验证并且能够有效给出一定置信度下水质指标波动曲线的包络线.概率组合预测可以有效优化预测精确度和稳定性,能够成功给出概率性的预测结果,为进一步决策奠定了基础.

水质预测;组合预测;概率性预测

饮用水安全事关国计民生,而水处理工艺对原水水质变化的响应滞后严重威胁饮用水安全,及时有效地水质预测可以为水厂赢得更多的应急响应时间.另外,水质预警系统对水质进行实时分析评价、预警,可以有效控制和减少水质恶化造成的危害,达到对水质恶化的有效认知、控制的目标,使整个饮用水安全保障体系进入良性循环.而及时有效的水质预测可以为水质预警提供可靠的评价及预警依据.

目前,单一非机理水质预测模型在水质预测中的应用已十分广泛[1],如灰色系统模型[2-7].时间序列模型[8-12],神经网络模型[13-14]等.但单一预测方法往往存在对信息利用不足的缺点,因此所能提供的有效信息必然有所侧重,组合预测方法能够充分利用每一种预测方法所包含的独立信息,其总体预测效果比单一预测方法有一定的优势[15].一些非机理组合预测方法已应用[10,13],并取得了较好的效果.但是目前报道的组合预测多是针对特定几种预测方法的组合,缺少一般框架性的组合方法, 其可扩展性不强,对引入更先进的算法有一定的局限性.

另外,由于水质变化及预测模型的不确定性[16],预测结果必然存在一定的不确定性.因此概率性预测也引起了水质预测工作者的注意,一些研究已能够给出有效的概率性预测结果[14,17-18].但是目前报道的概率性预测多是在假设水质数据服从某种概率分布前提下进行的,这存在一定的主观性,无法真实反映水质的实际状况.

基于以上讨论,本研究提出了一种框架性的概率组合预测方法,并将灰色模型群法和指数平滑法应用于该框架进行预测实验.该方法提供了一种扩展性较强的组合框架,可以不断引入先进预测算法,并通过对历史预测工作的统计给出概率性的预测结果.

1 概率组合预测框架

概率组合预测框架结构如图1所示.

图1 概率组合预测框架Fig.1 System framework of Probability-Combination

该框架首先通过组合预测将各单一预测方法的结果进行加权融合得到确定性预测结果;然后根据历史预测值和历史监测值的统计得到预测概率及水质指标区间估计,最终得到概率性预测结果,该结果加入到历史预测数据,作为权重计算以及概率性预测的依据.

该框架可以不断扩展新方法,有效改善预测效果;并且随着预测工作的推进,历史预测数据不断丰富,概率性预测的有效性随之不断提高.

2 组合预测

组合预测方法的基本原理是把各个竞争模型得到的预测结果赋予不同的权重并组合成一个单一的预测,基本思想在于充分利用每一种预测方法中所包含的独立信息[15].组合预测的核心内容是确定各竞争模型的权重[20].

设一个问题可以采用n种预测模型f1,f2…fn预测,那么组合预测模型输出

式中: wi为模型 fi(i=1,2…n)所对应的权重,满足条件

2.1 权重确定方法

考虑到组合预测方法未来将应用于日常水质预测以及组合预测框架的可扩展性,采用优势矩阵法[21-22]确定权重.优势矩阵法确定权重有三大优点[15]:第一,权重对优势比的变化不很敏感,因而无须大量先验数据;第二,可以时刻对权重进行更新,稳健性高;第三,可操作性强.另外,按照均方误差判别标准,优势矩阵法确定权重的预测精确性高于任何单一预测方法,而且对大样本数据,优势矩阵法确定权重的精确性超过等权重法、最小方差法和回归法[15].

设一个问题可以采n种预测模型预测,其权重为向量w=(w1,w2…wn)T,构建优势矩阵[21]如下:

其中:O为对角线元素为1且各元素均为正数的方阵,I为单位矩阵,O中的每一个元素Oij可以看作预测模型i优于预测模型j的概率.对O进行分析可以发现,O是秩为1的矩阵,只有一个特征值n,即

如果历史预测样本足够大,那么上式恒成立,但是受到样本容量限制,历史预测往往无法准确估计模型表现,因此上式无法严格相等.矩阵O具有这样的性质,其元素小的摄动意味着特征向量小的摄动,从而有

式中: λmax为矩阵O的主特征向量.

设 πij表示下一次预测中模型 i优于模型 j的概率,比例πij/πji表示模型i优于模型j的概率,即Oij=πij/πji.在历史预测中,假设使用模型i和模型j,令Zij代表模型i优于j的次数,Zji代表模型j优于i的次数,则

对n种预测模型分别进行上述工作即可得到优势矩阵O.可采用幂法[23]求得主特征值及其对应特征向量,将特征向量归一化即可得权重向量w.

2.2 预测表现评定

对预测效果的评价基于损失函数[15]的计算,分别从一次损失函数和二次损失函数两方面对预测效果进行评估.二者的定义如下:

一次损失函数[15]

二次损失函数[15]

式中: T为预测序列长度;et为预测相对误差.损失函数越小,代表预测效果越好.

3 概率性预测

预测概率有以下含义:当预测值为某一水平时,历史统计中监测值达到该水平的概率.由于水源地气象水文等信息的缺乏,无法对更多的变量进行统计,但是该思路可以推广到水质信息丰富的情况.

为了更利于人们对水质变化的理解以及应急响应方案的制订,还给出了一定置信度下水质指标未来可能的波动范围.

3.1 预测概率的确定

一般情况下,求取随机变量的概率分布,会采用假设该变量符合某种概率分布,根据历史数据求取其分布参数的统计方法.但是这种统计方法是在假设随机变量满足该分布的基础上进行的,因此具有很大的主观性.本文采用直接对历史预测进行统计的方法确定其概率分布,这样能体现预测情况以及水质信息的真实变化,更具客观性.

由统计学知[24],样本容量足够大时,可以认为样本分布与总体分布近似相同,因此可以在历史预测次数足够大的情况下,取历史预测作为统计样本,估计未来预测状况.由于预测概率基于对历史监测值和历史预测值的统计,因此预测概率可看作二维随机变量,并服从概率分布f(X, Y),f(X, Y)为对历史统计而得出的统计概率分布.

设对历史监测值分x段,历史预测值分y段,这样就形成了xy个分区,记为Area(i,j), i=1,2…x, j=1,2…y.则统计概率满足分布律

式中: X、Y分别为历史监测值、历史预测值、i=1,2…x, j=1,2…y.

那么当前预测值在未来出现的概率,即预测概率为

值得注意的是,一般情况下,水质监测值及预测值在一定的范围内波动,因此分段应根据历史预测的状况进行调整,并不是固定的均匀分段.

3.2 预测概率有效性检验

对历史预测进行统计,该统计概率分布是否能够模拟未来预测概率是未知的,因此需要对其进行有效性检验.检验历史统计概率的有效性从两方面进行:确切概率分布与累积概率分布.

根据统计学原理[24],累积概率

由式(10)、(11)可得预测概率的确切概率分布和累积概率分布.

设水质监测值落在一定区段的历史统计预测概率为 x,水质预测值落在相应区段的未来预测概率为y,那么相关系数[24]

3.3 水质预测的区间估计

由 3.1节计算得到预测概率后,仅仅得到水质指标达到预测值的概率,而无法得到水质指标可能的波动范围,无法为水质监管工作提供较直观的依据,因此对水质预测进行区间估计是非常必要的.

由置信区间定义知,给定α(0<α<1),水质指标W满足

那么称区间(Wmin, Wmax)为 W 置信水平为1-α的置信区间[24].

设预测值处于某一分区Area(i, j),该区域的概率分布是离散的,可采取一次线性插值求取置信区间上下限.将不同时刻的置信区间上下限分别相连,可作出水质指标波动包络线.

4 实例分析

基于以上讨论,将基于灰色模型群和指数平滑法的概率组合预测方法应用于浙江鸠坑口溶解氧预测,该数据序列起点时间2004年1月4日,终点时间2009年6月15日,数据周期为星期,共276个数据点,波动范围为[6.28,13.40].

4.1 编程环境和数据使用方式

基于上文的论述,在Visual Studio 2008环境下使用 c#语言对算法以及数据支持程序进行了编写.

考虑到实际预测工作中,建模序列是随着监测数据的更新而更新的,因此本文所采用的数据使用方式为:固定建模序列长度,将其外推一个周期的预测值与建模序列的下一个监测值相比较,得出该次预测的绝对相对误差.然后将建模序列后移一个周期,重复以上工作.

基于算法计算精确度以及执行时间的考虑,经实验将建模数据定为过去一年的数据.该数据长度以配置文件的形式存在于程序中,可以根据实际预测工作的需要而改变.

4.2 预测效果对比

分别采用灰色模型群法[25]、指数平滑法[26]以及基于二者的组合预测方法对溶解氧进行预测,预测结果如图2所示,对各预测方法的预测表现进行分析对比,如表1所示.

图2 各预测值与监测值比较Fig.2 Comparison between prediction results and reference data

由表 1可看出,不论从一次损失函数还是二次损失函数来看,组合预测方法的预测效果都优于单一预测方法,这说明组合预测法在预测误差期望和预测稳健性上均优于单一预测方法;而在相关系数指标上,组合预测相对于单一预测方法没有明显优势.经分析,灰色模型群法的计算复杂度为 O(n2),指数平滑为 O(n2),权重确定为 O(n),而组合预测法仅在计算权重上比单一预测方法复杂,其复杂度为O(n2),n为预测源数据长度.综上,组合预测在计算复杂度相当的情况下,其预测效果优于组成其的单一预测方法.

表1 预测方法表现对比Table 1 Performance comparison of prediction methods

4.3 统计概率有效性检验

表2 统计概率与预测概率不同预测值区段相关系数计算结果Table 2 Correlation coefficients of statistical probability and prediction probability in diffident prediction subsection

首先根据溶解氧监测值与预测值的波动区间,对监测值和预测值分别进行 10分段,将2004年1月5日至2008年11月17日的预测作为历史预测进行统计,将2008年11月24日至2009年6月15日的30次预测作为未来预测.计算历史统计概率与未来预测概率的相关系数,(表2).

由表2可见,不论确切概率还是累积概率,统计概率与预测概率在不同预测值区段相关性均较高,说明用历史统计模拟未来预测是有效的.

4.4 区间估计

将2008年11月24日至2009年6月15日作为未来预测进行区间估计,给定 α=0.10,分别求取各时间点的置信区间,将置信区间上下限分别相连,即可得到溶解氧的波动包络线,如图3所示.

图3 区间估计结果Fig.3 Interval estimation results

由图3可以看出,水质指标波动包络线的有效率达到 93.3%,少数点出现区间估计失效的情况.受限于样本容量,某些区段的统计规律无法较好反应总体分布,从而使部分区间估计失效.由此可看出应用历史统计对未来预测进行估计的方法有一定的滞后性.但是随着监测值的丰富和预测工作的深入,统计样本对总体的模拟效果会越来越好,有理由相信滞后性对概率性预测的影响会逐渐减小.

4.5 工程实现

基于概率组合预测方法,开发了一套水质预测软件,作为水质预警课题的子模块,并已在国家水专项某示范地实地试运行.其数据流如图4所示,虚线框内实现了概率组合预测方法.

图4 水质预测数据流Fig.4 Data flow chart of the water quality software

5 结语

本文提出了将一种可扩展的概率组合预测法应用于水质预测,并将基于灰色模型群和指数平滑法的概率组合预测法应用于浙江鸠坑口进行模拟预测实验.经实验验证,组合预测方法的应用改善了水质预测的精确度和稳定性;统计概率的有效性可以得到检验,概率性预测给出一定置信度下的区间估计的成功率较高,并且可随着预测工作的推进不断提高,为进一步决策奠定了良好的基础.不过,基于历史预测统计的概率确定方法具有一定的滞后性,历史统计估计未来预测需要较大的样本容量,这一状况的改善需要水质预测工作的不断积累.因此,更加完善的预测概率统计方法有待进一步研究.

[1] 樊 敏,顾兆林.非机理性水质模型研究综述 [J]. 环境科学与管理, 2009,34(9):63-67.

[2] 邱淑芳,周其华,王泽文.改进的GM(1,1)模型及其在地下水环境预测中的应用 [J]. 东华理工学院学报, 2006,29(2):176-180.

[3] 孙志霞,孙英兰.GM(1,1)模型研究及其在水质预测中的应用[J].海洋通报, 2009,28(4):116-120.

[4] 李如忠,汪家权,钱家忠.基于灰色动态模型群法的河流水质预测研究 [J]. 水土保持通报, 2002,22(4):10-12.

[5] 吴惠如,李丽玲,林 坚.灰色系统模型在高锰酸盐指数预测中的应用 [J]. 中国环境监测, 2001,17(4):58-60.

[6] 王海云,程胜高,王 军,等.改进 GM(1,1)在两坝间水质预测中的应用 [J]. 人民长江, 2008,39(11):39-42.

[7] 胡慧彬.灰色系统的GM(1,1)模型在地表水COD浓度预测中的应用 [J]. 中国环境监测, 1993,9(4):45-46.

[8] 赵任辉,杨宗海.非线性和时变参数时间序列模型及其在水质分析中的应用 [J]. 分析化学, 1994,22(3):228-232.

[9] 张 虎,蔡 燕,姚海强.长江水质评价和预测研究 [J]. 工程数学学报, 2005,22(7):47-52.

[10] 何斯雯,谢正文,黄雅楠,等.基于指数平滑技术的水体污染灰色预测模型及应用 [J]. 环境科学与管理, 2009,34(8):169-172.

[11] 吴 涛,颜辉武,唐桂刚.三峡库区水质数据时间序列分析预测研究 [J]. 武汉大学学报, 2006,31(6):500-507.

[12] 张 震,张 超,张 昊.水质评价和预测模型 [J]. 工程数学学报, 2005,22(7):35-40.

[13] Faruk D O. A hybrid neural network and ARIMA model for water quality time series prediction [J]. Engineering Applications of Artificial Intelligence,2010,23(4):586-594.

[14] Reckhow K H. Water quality prediction and probability network models [J]. Canadian Journal of Fisheries and Aquatic Sciences, 1999,56:1150-1158.

[15] 汪同三,张 涛.组合预测——理论、方法及应用 [M]. 北京:社会科学文献出版社, 2008:43-51,159-162.

[16] Beck M B. Water quality modeling: a review of the analysis of uncertainty [J]. Water Resources Research, 1987,23:1393-1442.

[17] 牛志广,张宏伟,辛志伟.基于log-logistic概率分布的近海水质组合预测方法研究 [J]. 系统工程理论与实践, 2006,26(5):111-116.

[18] Park J-Il, Jung N-C, Kwak K-C. Water quality prediction in a reservoir: linguistic model approach for interval prediction [J]. International Journal of Control Automation and Systems, 2010,8(4):868-874.

[19] 杨文佳,康重庆,夏 清,等.基于预测误差分布特性统计分析的概率性短期负荷预测 [J]. 电力系统自动化, 2006,30(19): 47-52.

[20] 陈华友.组合预测方法有效性理论及其应用 [M]. 北京:科学出版社, 2008:52-54.

[21] Gupta S, Wilton P C. Combination of forecasts: an extension [J]. Management Science, 1987,33(3):356-372.

[22] Gupta S, Wilton P C. Combination of economic forecasts: an odds-matrix approach [J]. Journal of Business and Economic Statistics, 1988,6(3):373-379.

[23] 李庆扬,王能超,易大义.数值分析 [M]. 北京:清华大学出版社, 2002:221-229.

[24] 盛 骤,谢式千,潘承毅.概率论与数理统计 [M]. 北京:高等教育出版社, 2008:129-133,191-195.

[25] 邓聚龙.灰色预测与决策 [M]. 武汉:华中理工大学出版社. 1986:75-76.

[26] 范剑青,姚琦伟.非线性时间序列 [M]. 北京:高等教育出版社, 2005:68-92.

Water quality prediction based on probability-combination.

SUN Zhao-bing, WANG Bao-liang*, JI Hai-feng, HUANG Zhi-yao, LI Hai-qing(State Key Laboratory of Industrial Control Technology, Department of Control Science and Engineering, Zhejiang University, Hangzhou 310027, China). China Environmental Science, 2011,31(10):1657~1662

The existing combination method for water quality prediction lacks of a framework approach and the probability prediction is always based on an assumption that water quality index follows certain probability distribution. A new method based on probability-combination for water quality prediction was proposed. The method combined the prediction results of different single methods through the use of Odds-Matrix method and it could improve the performances of prediction effectively. It was worth noting that the combination-forecast approach could be extended to new methods. The probability of prediction was established through statistical analysis of historical prediction data and hence the validation of the method was achieved along with interval estimation under certain confidence level. The Probability-Combination method based on gray model group and exponent smoothing was proposed for Jiukengkou, Zhejiang. Experimental results indicated that the combination-forecast approach performs better than single prediction method. The validity of probability establishment could be checked effectively. According to the results, the envelopes of water-quality curve under certain confidence level were derived. The prediction accuracy and stability could be improved effectively and probability results which could be the basis of the decision-making could also be given successfully by probability-combination. Furthermore, as a framework approach, it could add new prediction methods continuously.

water quality prediction;combination-forecast;probability prediction

X703.1

A

1000-6923(2011)10-1657-06

2011-01-15

水体污染控制与治理科技重大专项(2008ZX07420-004)

* 责任作者, 副教授, blwang@iipc.zju.edu.cn

孙兆兵(1987-),男,山东省邹城市人,浙江大学控制科学与工程学系硕士研究生,主要从事水质预测方面的研究.

猜你喜欢
概率分布预测值概率
第6讲 “统计与概率”复习精讲
加拿大农业部下调2021/22年度油菜籽和小麦产量预测值
第6讲 “统计与概率”复习精讲
±800kV直流输电工程合成电场夏季实测值与预测值比对分析
概率与统计(一)
概率与统计(二)
AI讲座:ML的分类方法
离散型概率分布的ORB图像特征点误匹配剔除算法
弹性水击情况下随机非线性水轮机的概率分布控制
关于概率分布函数定义的辨析