基于PCA睵SO睸VR的丹江口水库年径流预报研究

2018-12-29 10:10张岩杨明祥雷晓辉舒坚牛文生余琅
南水北调与水利科技 2018年5期
关键词:主成分分析

张岩 杨明祥 雷晓辉 舒坚 牛文生 余琅

摘要:在年径流预报中,气象因子之间的自相关会对预报精度产生影响。针对这个问题,将主成分分析(PCA)和粒子群优化(PSO)算法加入SVR模型中,建立了PCAPSOSVR预报模型,剔除冗余信息和噪声,提取因子间的主要特征,并选择模型的最优参数组合作为回归支持向量机(SVR)模型的输入。选择南水北调中线水源地丹江口水库为研究区,利用丹江口1981-2016年入库资料进行模型检验。结果表明,模型验证期间合格率为8333%、距平一致率也达到8333 %,具有精度高稳定性强等优点,对丹江口水库年径流预报有一定的参考意义。

关键词:年径流预报;主成分分析;粒子群优化算法;回归支持向量机;丹江口水库

中图分类号:P333 文献标志码:A 文章编号:

16721683(2018)05003506

Research on annual runoff forecast of Danjiangkou Reservoir based on PCAPSOSVR

ZHANG Yan1,YANG Mingxiang2,LEI Xiaohui2 ,SHU Jian1,NIU Wensheng3,YU Lang2

1.School of Software,Nanchang Hangkong University,Nanchang 330063,China;2.China Institute of Water Resources and Hydropower Research,Beijing 100038,China;3.AVIC Xi′an Institute of Aeronautical Computing Technology,Xi′an 710068,China

Abstract:

In the annual runoff forecast,the autocorrelation between meteorological factors will have an impact on forecast accuracy.In order to solve this problem,we added PCA and PSO to the SVR model and established a PCAPSOSVR model.We removed the redundant information and noise,extracted the main features of the factors,and used the optimal parameter combination of the model as input to the regression support vector machine (SVR) model.Taking Danjiangkou Reservoir,the water source of the Middle Route of the SouthtoNorth Water Diversion Project,as the study area,we carried out model tests using the data from 1981 to 2016 in Danjiangkou.The results showed that the qualification rate during the model verification period was 8333% and the consistency rate also reached 8333%,indicating high accuracy and stability.The model has certain reference value for the annual runoff forecast of Danjiangkou Reservoir.

Key words:

annual runoff forecast;principal component analysis;particle swarm optimization;regression support vector machine;Danjiangkou Reservoir

隨着我国水资源调度实践的不断推进,长期径流预报的重要性愈加凸显。然而径流的形成受到降水、蒸发、汇流等一系列复杂过程和人类活动等因素的影响,具有较强的随机性和不确定性,给长期预报带来了困难[1]。随着计算技术与方法的不断发展,如人工神经网络、支持向量机等各种智能学习方法逐渐应用到长期径流预报中。支持向量机(Support Vector Machine,SVM)作为一种新兴的机器学习方法,在20世纪90年代中期被Vapnik等人首次提出[2],主要用于解决分类和回归预测问题。文献[3]在支持向量机建模过程中引入了径向基核函数,简化了非线性问题的求解过程。与人工神经网络模型预报结果比较显示,该模型能提高中长期径流预报的精度。文献[4]表明进行预报因子优化后的SVM模型明显提高了径流的预报精度,具有更好的应用价值。文献[5]提出了一种基于遗传算法的支持向量机模型,该模型结合遗传算法收敛速度快的特点对支持向量机参数进行优化选择,实现参数的全局自动化选取。文献[6]提出一种基于灰色关联分析的模糊支持向量机预报方法,结果表明,该模型是一种有效的径流时间序列预测模型。文献[7]提出了基于小波分解的参数优化支持向量机(WDSVMPSO)预测模型,实现了对历史径流过程的分频预处理、分类训练、参数优化及交叉验证,从样本数据、模型参数、训练机制三方面对预测模型性能进行优化,为分析和完善数据驱动径流预测模型、提高径流预测精度和可靠性提供参考。

丹江口水库是南水北调中线工程的水源地[8]。准确预报丹江口水库的年入库径流,对于南水北调中线工程供水安全具有重要意义。然而在实际应用中,由于某些气象因子之间往往存在一定的自相关性,如果选择不当,会产生信息冗余和噪音,从而降低预报精度[9]。主成分分析(PCA)是一种在减少需要分析的指标同时,达到对所收集数据进行全面分析的降维方法[10]。因此将主成分分析(PCA)和粒子群优化(PSO)算法加入SVR模型中,建立PCAPSOSVR模型,并将此模型应用于丹江口水库的年径流预报中,取得了较好的效果。

1 研究区概况

丹江口水库(东经110°-112°,北纬32°- 33°)是亚洲第一大人工淡水湖泊,位于湖北省丹江口市和河南省浙川县境内, 也是汉江干流与其支流丹江的交汇地,总面积17 916 km2。库区地形的主要特点是高差大、坡度陡、切割深,最高海拔1 7989 m,相对高差为1 7119 m。地形总体情况为西北向偏高、东南向偏低,北方地形较陡、南方地形较缓,在汉江沿线主要呈现出盆地与峡谷交替的地貌[11]。丹江口库区地处北亚热带向暖温带过渡地带,属于典型的季风型大陆性半湿润气候,具有春季温暖,秋季凉爽,四季分明,雨量比较充沛等特点。库区土壤类型主要有山地黄棕壤、黄褐土、山地棕壤土和紫色土,森林植被主要有针叶林、阔叶林、竹林、灌丛及灌草丛等。

丹江口水库作为南水北调中线工程水源地,总库容量达1745亿m3,水库入库水量平均395亿m3,入库径流以汛期(7月-10月)为主(占全年总量的60%以上)[12]。库区集水区是由汉江和丹江两大流域汇合形成。汉江干流河宽平均约200~300 m,较大的支流有乾佑河、金钱河、泗河等。丹江水系上较大的支流包括淇河、老灌河。丹江口水库上游兴建的水利工程众多,其中大中型水库有位于汉江干流上的安康水库等,见图1。南水北调中线工

程向河南、河北、天津、北京等四个省市的20多座大中型城市进行供水,一期工程年均调水95亿m3,中远期规划每年调水量将达130亿m3,有效缓解了中国北方部分地区的水资源严重短缺局面[13]。

2 数据来源与研究方法

2.1 资料准备

从中国气象局国家气候中心获取百项气候系统指数集[14](即88项大气环流指数、26项海温指数和16项其他指数),对预报年份前一年百项气候系统指数与预报年份径流值进行相关性分析。由于降雨数据也是影响径流的主要因素,所以把预报年份前一年累积降雨也作为预报因子加入主成分分析法中进行降维。

2.2 主成分分析(PCA)

主成分分析(PCA)法是由Karl Parson在1901年提出的一种多元统计分析方法[15]。在研究的问题变量个数较多时,通过该方法构建尽可能少的新变量,这些变量之间两两不相关,彼此正交,同时这些变量尽可能地保留了原问题的信息,起到了降维的作用。

设初始的变量为X1,X2,…,Xn,经过主成分分析过后新的变量为Z1,Z2,…,Zm(m≤n) ,则:

式中:Z1,Z2,…,Zm为X1,X2,…,Xn所对应的第一,第二,……,第m主成分,矩阵L为载荷矩阵。其中Z1的方差最大,Z2次之, 依此类推。方差越大,表示主成分所含的原变量信息量就越多[16]。

2.3 粒子群优化算法(PSO)

粒子群优化(Particle Swarm Optimization,PSO)算法是Kennedy和Eberhart受人工生命研究结果的启发、通过模拟鸟群觅食过程中的迁徙和群聚行为而提出的一种基于群体智能的全局随机搜索算法[17]。

(1)初始化粒子群和参数范围。包括粒子群规模、迭代代数、随机位置和速度等。

(2)计算每个粒子的适应值。

(3)确定每个粒子的个体最佳位置。

(4)确定整个粒子群的全局最佳位置。

(5)根据式(2)、(3)更新粒子的速度和位置。

式中:i表示迭代代数;xi表示第i次迭代时粒子所在位置;[WTB1X]v[WTBX]i表示第i次迭代时粒子的速度;pbest表示粒子局部最優位置;gbest表示粒子群全局最佳位置;r1,r2为(0,1)之间的两个随机数;c1,c2表示的是增速因子,它们的取值均大于0,一般都取为2;[WTB1X]w[WTBZ]为权重因子,取值范围是(0,1)[18];

判断算法是否满足结束条件,满足则输出最优结果,此时的全局最优解即是参数的最优值;不满足则转到(2)。

2.4 回归支持向量机(SVR)

支持向量机(SVM)是一种可以在多个方面应用的学习机器,可以达成统计学习理论,并且在这个过程中将结构风险降到了极小值。支持向量机主要用于解决分类和回归预测问题,针对回归预测问题,研究者提出了一系列回归算法,回归支持向量机(Support Vector Machine for Regression,SVR)就是其中的一种,且尤其适用于小样本、非线性问题的回归预测[19]。SVR的基本思想是利用核函数将低维度非线性问题转换成高维度线性问题,在高维特征空间中利用线性方法解决非线性问题。通过多次试验证明,SVR在解决回归预测问题时具有较高的可信度和良好的泛化能力。

SVR实现回归预测的步骤如下。

SVR通过引入核函数K(x,x′)来代替式(11)中的内积(φ(xi)φ(x)),从而最优回归超平面可表示为:

f(x)=∑[DD(]l[]i=1[DD)](αi-α*i)K(xi,x′)+b (12)

常用的核函数有:线性核函数:K(x,x′)=x°x′; 多项式核函数:K(x,x′)=[(x°x′)+1]d;径向基核函数(RBF):K(x,x′)=exp(-‖x-x′‖2/σ2);Sigmoid核函数。

基于丹江口水库的调度工程实际和优先原则,将径向基核函数(RBF)[ 24]作为SVR模型的核函数。那么SVR模型就可以表示为:

y=f(x|(C,ε,σ)) (13)

[BT2+*6] 3 结果与讨论

现有丹江口水库1981-2016年共36年的年平均入库流量数据,数据中有少量缺失值,已采用线性插值法对数据进行预处理。利用1981-2004年共24年的年平均入库流量训练模型,用2005-2016年共12年的年平均入库流量对构建的模型进行检验。经查阅资料得知,丹江口水库处于东亚副热带季风区,其降水主要来源于东南和西南两股暖湿气流[25]。同时,太平洋、印度洋等海域海温的变化对东亚天气影响较大。考虑这些因素,初步选择如下预报因子:前1年9月NINO W区海表温度距平指数、前1年5月北半球极涡中心纬向位置指数、前1年7月西太平洋暖池面积指数、前1年11月冷空气次数、前1年12月南海副高脊线位置指数、前1年6月东亚槽强度指数和前1年丹江口水库累积降雨(表1)。

将因子值和径流值归一化后输入模型,通过PCA方法对输入数据进行主成分分析,去掉因子噪声。在主成分分析过程中,发现前5个特征值已经达到了85%的阈值,表明它们在整个数据分析中占绝对的比重,所以本次预报只选取前5个主成分来代替全部的预报因子(表2)。

在PSO算法的参数设置中,粒子群数n=300 ,最大迭代次数 pcount=500 ,学习因子c1=2、c2=2、[WTB1X]w[WTBZ]=08 经过PSO算法率定后,由此得到丹江口年径流预报SVR模型的最佳参数值(C,ε,σ)=(453158,82685,55177),然后将三个参数值代入到PCAPSOSVR模型中进行预测,得到训练集和验证集的预测结果见图2(黑色虚线左边表示训练期,右边表示验证期)。

为了验证PCAPSOSVR模型的可靠性,选取BP神经网络模型、PSOSVR模型与PCAPSOSVR模型进行丹江口年径流预报对比。以平均相对误差的绝对值、距平一致率[26]以及合格率来衡量各模型的预报性能。

平均相对误差的计算公式为:

由表3可以看出,BP神经网络模型的拟合效果较好,但是检验效果较差,模型的可信度不高; PSOSVR模型虽然整体误差较小,但受因子间互相关性影响,距平一致率和合格率一般;PCAPSOSVR模型在PSOSVR模型基础上加入主成分分析,而主成分分析方法可以来消除因子间的冗余信息,减少噪声的影响。从对比结果来看,无论是在训练期间还是验证期间,PCAPSOSVR模型的平均相对误差减小且距平一致率也提高很多,预报合格率为8333%距平一致率达到8333%,且平均相对误差为1486%,符合《水文情报预报规范》[27]规定的相对误差小于20%为合格的评判标准。说明PCAPSOSVR模型适用于丹江口的年径流预报,稳定性强且预报精度较高,有望为丹江口水库年径流预报提供一定的参考。

4 结语

选择丹江口水库作为研究对象,建立了PCAPSOSVR预报模型,利用主成分分析(PCA)方法降低因预报因子选择不当所产生的噪声,并且考虑到回归支持向量机(SVR)参数C,ε,σ的选择存在计算量大、选取困难等问题,采用粒子群优化(PSO)算法来确定最优参数组合,有望为丹江口水库年径流预报提供参考。然而径流的形成受到降水、蒸发、汇流等一系列复杂过程和人类活动等因素的影响,且各影响因素之间存在十分复杂的非线性关系,如何描述并解释这种复杂非线性关系进而指导预报工作,将是作者今后研究的重点。

参考文献(References):

[1] 卢敏,张展羽.径流预测的支持向量机应用研究[J].中国农村水利水电,2006(2):4749.( LU M,ZHANG Z Y.Application research of support vector machines for runoff prediction[J].China Rural Water and Hydropower,2006(2):4749.(in Chinese)) DOI:10.3969/j.issn.10072284.2006.02.017.

[2] VAPNIK V.The Nature of Statistical Learning Theory[M].New York:Springer,1995.DOI:10.1007/9781475724400.

[3] 林剑艺,程春田.支持向量机在中长期径流预报中的应用[J].水利学报,2006,37(6):681686.( LIN J Y,CHENG C T.Application of support vector machine in midlong term runoff forecast[J].Journal of Hydraulic Engineering.2006,37(6):681686.(in Chinese)) DOI:10.3321/j.issn:05599350.2006.06.007.

[4] 趙红标,吴义斌.基于支持向量机的中长期入库径流预报[J].黑龙江大学工程学报,2009,36(3):5559.(ZHAO H B,WU Y B.Measurement of runoff from medium and long term based on support vector machine[J].Journal of Heilongjiang University Engineering,2009,36 (3):5559.(in Chinese)) DOI:10.3969/j.issn.2095008X.2009.03.001.

[5] 徐莹,王嘉阳,苏华英.基于遗传算法的支持向量机在径流中长期预报中的应用[J].水利与建筑工程学报,2014(5):4245.( XU Y,WANG J Y,SU H Y.Application of support vector machine based on genetic algorithm in longterm runoff forecasting[J].Journal of Water Resources and Architectural Engineering,2014(5):4245.(in Chinese)) DOI:10.3969/j.issn.16721144.2014.05.008.

[6] 朱双,周建中,孟长青,等.基于灰色关联分析的模糊支持向量机方法在径流预报中的应用研究[J].水力发电学报,2015,34(6):16(ZHU S,ZHOU J Z,MENG C Q,et al.Application of fuzzy support vector machine based on gray relational analysis in runoff forecast[J].Journal of Hydroelectric Engineering.2015,34(6):16.(in Chinese))

[7] 周婷,金菊良,李榮波,等.基于小波支持向量机的径流预测性能优化分析[J].水力发电学报,2017(10):4555.( ZHOU T,JIN J L,LI R B,et al.Optimization analysis of runoff prediction performance based on wavelet support vector machine.2017(10):4555.(in Chinese)) DOI:10.11660/slfdxb.20171005.

[8] 沈悦,李阳.南水北调工程水资源生态补偿研究——以丹江口水库为例[J].电网与清洁能源,2016,32(1):119124(SHEN Y,LI Y.Study on ecological compensation of water resources in SouthtoNorth Water Diversion Project Taking Danjiangkou Reservoir as an example[J].Power Grid & Clean Energy,2016,32 (1):119124(in Chinese)) DOI:10.3969/j.issn.16743814.2016.01.021.

[9] 徐纬芳,刘成忠,顾延涛.基于PCA和支持向量机的径流预测应用研究[J].水资源与水工程学报,2010,21(6):7275.( XU W F,LIU C Z,GU Y T.Application of PCA and support vector machines in runoff prediction[J].Journal of Water Resources and Water Engineering,2010,21(6):7275.(in Chinese))

[10] ABEYWARDENA V.An application of principal component analysis in genetics[J].Journal of Genetics,1972,61(1):2751.DOI:10.1007/9783319683249_34.

[11] 包洪福.南水北调中线工程对丹江口库区生物多样性的影响分析[D].哈尔滨:东北林业大学,2013.( BAO H F.Analysis of the impact of the Middle Route Project of SouthtoNorth Water Diversion on the biodiversity of Danjiangkou Reservoir[D].Harbin:Northeast Forestry University,2013.(in Chinese))

[12] 廖炜.丹江口库区土地利用变化与生态安全调控对策研究[D].武汉:华中师范大学,2011.( LIAO W.Research on land use changes and ecological security control in Danjiangkou Reservoir Area[D].Wuhan:Central China Normal University,2011.(in Chinese))

[13] 陈刚.水库移民安置补偿政策绩效评估以湖北丹江口水库为实证[D].武汉:华中农业大学,2016.(CHEN G.Performance evaluation of reservoir resettlement compensation policyTaking Danjiangkou Reservoir as an empirical[D].Wuhan:Huazhong Agricultural University,2016.(in Chinese))

[14] 中国气象局国家气候中心气候系统监测·诊断·预测·评估[EB/OL].http://cmdp.ncccma.net/cn/monitoring.htm.(China Meteorological Administration National Climate Center Climate System Monitoring,Diagnosis,Prediction,and Evaluation[EB/OL].http://cmdp.ncccma.net/monitoring.htm.(in Chinese))

[15] 张小确,高枝荣,夏云贵.主成分分析方法及其在各仪器分析中的应用[J].河北工业科技,2007,24(6):345350.( ZHANG X Q,GAO Z R,XIA Y G.Principle Component Analysis Method and Its Application in Various Instrument Analysis[J].Hebei Industry Science and Technology.2007,24(6):345350.(in Chinese)) DOI:10.3969/j.issn.10081534.2007.06.009.

[16] 石威.长江三峡梯级中长期径流预报模型研究及其系统开发[D].武汉:华中科技大学,2012.( SHI W.The Yangtze River Three Gorges cascade longterm runoff forecasting model and system development[D].Wuhan:Huazhong University of Science and Technology.2012 (in Chinese))

[17] 高博,盧辉斌.改进型粒子蚁群算法的应用研究[J].计算机安全,2010(11):1113.(GAO B,LU H B.Application of improved particle ant colony algorithm[J].Computer Security,2010 (11):1113) (in Chinese)) DOI:10.3969/j.issn.16710428.2010.11.004.

[18] CARLISLE A,DOZIER G.An offtheshelf PSO[C].// The Workshop on Particle Swarm Optimization.2001.

[19] YOO K H,JU H B,MAN G N,et al.Prediction of golden time using SVR for recovering SIS under severe accidents[J].Annals of Nuclear Energy,2016,94:102108.DOI:10.1016/j.anucene.2016.02.029.

[20] 郝继升.基于LSSVR的回归曲线建模[J].江西科学,2007, 25(5):563564.(HAN J S.Study on regression curve modeling based on LSSVR[J].Jiangxi Science,2007,25 (5):563564.(in Chinese)) DOI:10.3969/j.issn.10013679.2007.05.015.

[21] 王秋云.对偶原理及其应用[J].吉安师专学报,1990(6):1418.(WANG Q Y.Polecular principle and its application[J].Journal of Ji′an Teachers College,1990 (6):1418.(in Chinese))

[22] 曹健,孙世宇,段修生,等.基于KKT条件的SVM增量学习算法[J].火力与指挥控制,2014(7):139143.(CAO J,SUN S Y,DUAN X S,et al.Advanced SVM incremental learning algorithm based on KKT condition[J].Fire and Command & Control,2014 (7):139143.(in Chinese))

[23] 董春曦,饶鲜,杨绍全.基于重复训练提高SVM识别率的算法[J].系统工程与电子技术,2003,25(10):12921294.(DONG C X,RAO X,YANG S Q.An Algorithm for improving SVM recognition rate based on repetitive training[J].Systems engineering and electronic technology,2003,25(10):12921294.(in Chinese)) DOI:10.3321/j.issn:1001506X.2003.10.034.

[24] 王春燕,夏乐天,孙毓蔓.基于不同核函数的SVM用于径流预报的比较[J].人民黄河,2010,32(9):3536.(WANG C Y,XIA L T,SUN Y M.Comparison of SVM for runoff forecast based on different kernel function[J].People′s Yellow River,2010,32 (9):3536.(in Chinese)) DOI:10.3969/j.issn.10001379.2010.09.014.

[25] 郭海晋,金蓉玲.丹江口水库上游水资源现状及变化趋势分析[J].资源科学,1997,24(1):2834.(GUO H J,JIN R L status and dynamics of water upstream of Danjiangkou Reservoir[J].Resources Science,1997,24 (1):2834.(in Chinese))

[26] 张岳军,周静,韩照宇,等.基于海气耦合模式的山西省夏季降水统计降尺度预测研究[J].气候与环境研究,2016,21(3):323332.( ZHANG Y J,ZHOU J,HAN Z Y,et al.Study on downscaling prediction of summer precipitation in Shanxi based on the coupled model of oceanatmosphere[J].Climatic and Environmental Research.2016,21(3):323332.(in Chinese)) DOI:10.3878/j.issn.10069585.2016.15218.

[27] SL 250-2000,水文情报预报规范[S].( SL 250-2000,Specification for Hydrological Information Forecast[S].

猜你喜欢
主成分分析
Categorizing Compiler Error Messages with Principal Component Analysis
关于AI上市公司发展水平评价
大学生创业自我效能感结构研究
塔里木河流域水资源承载力变化及其驱动力分析
我国上市商业银行信贷资产证券化效应实证研究
基于NAR模型的上海市房产税规模预测
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用
农村劳动力转移影响因素与转移数量的动态关系研究