基于奇异值分解的极限学习机多变量时间序列预测模型

2017-01-17 06:03梁小春陈晓云
关键词:学习机向量变量

梁小春, 陈晓云

(福州大学数学与计算机科学学院, 福建 福州 350116)

基于奇异值分解的极限学习机多变量时间序列预测模型

梁小春, 陈晓云

(福州大学数学与计算机科学学院, 福建 福州 350116)

在极限学习机预测多变量时间序列研究中,针对以往将矩阵转换成向量作为模型输入,从而影响预测精度的问题,结合奇异值分解思想,提出一种直接以矩阵作为输入的多变量时间序列极限学习机预测型SVDELM. 由Rossler、Chen’s、Lorentz和股票多变量时间序列的实验结果表明,SVDELM是一种有效的多变量时间序列预测模型.

多变量时间序列; 预测模型; 极限学习机; 奇异值分解

0 引言

多变量时间序列预测是科学研究领域的热点. 尽管多变量时间序列数据具有多噪声、多尺度、变量相关性等棘手问题,但国内外学者仍致力于多变量时间序列预测的研究,提出诸如自回归模型[1]、神经网络[2-4]、支持机[5-6]、极限学习机(ELM)[7-10]等具体可行的预测模型. 极限学习机是专门针对基于梯度算法的单隐层前馈神经网络提出的. 其基本原理: 通过随机生成输入节点和隐层节点的连接矩阵和偏置,将输入数据映射到特征空间,再优化隐层节点和输出节点之间的权重. 与传统神经网络相比,ELM不仅能大大降低时间复杂度,还能找到全局最优解. 与支持向量机相比,ELM具有更好的泛化性能[11-13].

文献[14]将ELM与奇异值分解相结合提出投影向量机(PVM),该模型用样本的右奇异矩阵代替连接矩阵,实现降维和训练一体化. 加权极限学习机(WELM)[15]在ELM的基础上,给离预测时间较近的样本赋予较大的权重,较远的样本赋予较小的权重. 但无论是PVM、WELM,还是ELM[13]均要求输入为向量. 然而多变量时间序列的自然结构是矩阵,为此需将矩阵转化成向量,这将破坏多变量时间序列样本的内部结构,特别是变量之间的联系.

为解决上述问题,本文将三层结构ELM预测模型拓展成四层,提出基于奇异值分解的极限学习机预测模型(SVDELM). 其第一层(输入层)和隐藏层之间,通过将N个多变量时间序列样本逐个投影到ELM模型特征空间得到N个特征矩阵样本,即N个隐藏层输出; 在隐藏层和输出层之间增加奇异值分解降维层,用每个特征矩阵样本的第一左奇异向量的转置左乘特征矩阵样本; 最后将降维层输出所得到的N个特征向量样本作为输出层的输入,优化其输出权重. 事实上,SVDELM对特征空间降维比ELM对样本空间降维能够保留更多信息,从而可以有效地提高多变量时间序列预测精度.

1 极限学习机预测模型

设有N个输入X=[x1, x2, …, xN]T∈N×d,其对应输出为Y=[y1, y2, …, yN]T∈N×m. 并设极限学习机的输入节点与隐层节点的连接权重为W=[w1, w2, …, wL]∈d×L,隐层节点的偏置为b=[b1, b2, …, bL]T∈L,隐层节点的激励函数为g,隐层节点个数为L,隐层节点与输出节点的输出权重为β=[β1, β2, …, βL]T∈L×m,ELM预测模型[13]如下:

根据拉格朗日乘子法和KKT最优条件,得输出权重为:

2 基于奇异值分解的极限学习机预测模型

对于输入是矩阵形式的多变量时间序列样本,由于ELM的输入是向量,需将其转换成向量后才能作为ELM模型的输入. 为克服这一不足,结合奇异值分解思想,提出基于奇异值分解的极限学习机预测模型(SVDELM).

2.1 模型的建立

其中:

2.2 模型的求解

为求解SVDELM模型,需对模型(4)进行化简. 首先对H(Xi)进行奇异值分解

将式(8)代入式(4)得

上述N个约束条件可以写成如下形式

则式(10)可以写成

将式(10)~(12)代入式(9)得

s.t .

对模型(13)进行求解,将约束条件代入目标函数得到等价的非约束优化问题,有

对式(14)关于β求导

2.3 SVDELM算法

SVDELM算法输入样本,滑动窗口大小n,惩罚系数C,隐层节点个数L,激励函数g,实验次数T.1.利用滑动窗口法产生训练集{Xtr,Ytr}和测试集{Xts,Yts}.2.根据式(5)计算每个训练样本的特征样本Htr(Xi),对其进行奇异值分解,取其最大特征值λi1(tr)和对应的第一右奇异向量vi1(tr).3.同2计算每个测试样本的特征样本的最大特征值λi1(ts)和对应的第一右奇异向量vi1(ts).4.根据式(11)计算Htr和Hts、根据式(16)计算β.5.计算Y^=Htsβ,输出预测结果Y^.

事实上,如何给定隐层节点个数L是极限学习机的一个关键问题. 实验部分将给出一种既能满足精度要求又能尽可能使结构紧凑的选取隐层节点个数L的方法.

2.4 SVDELM算法与极限学习机ELM

为了更加清楚地了解SVDELM在多变量时间序列预测上的应用原理,分别给出SVDELM与传统极限学习机(ELM)的多变量时间序列预测模型结构图见图1、图2.

ELM在预测多变量时间序列时将存在如下两个弊端: 1)ELM将矩阵样本按行拉成向量,破坏了原始样本的自然结构; 2)ELM通过随机权重和偏置,同时对样本的时间维度和特征维度进行随机降维,这再次破坏变量间和变量内的联系. 与ELM不同,SVDELM模型将多变量时间序列样本的自然结构作为输入,这样可以保留样本内部结构所包含的信息. 不仅如此,SVDELM用g(XiW+B)的第一右奇异向量左乘矩阵本身,目的是用类似于主成分分析的方法对多变量时间序列时间维度进行降维,这样既能保留原始数据时间维度的绝大多数信息,还能保持变量间的联系. 综上所述,与ELM相比,SVDELM模型能够更好地保留原始数据的有效信息.

图1 基于ELM多变量时间序列预测结构Fig.1 Multivariate time series prediction structure based on ELM

图2 基于SVDELM多变量时间序列预测结构Fig.2 Multivariate time series prediction structure based on SVDELM

从两种方法的结构模型中易知SVDELM的算法复杂性将高于ELM. 但由式(7)~(13)可知,SVDELM利用向量正交性避免了隐藏层到SVD降维层之间向量与矩阵相乘的计算量. 事实上,SVDELM比ELM增加了求N个ni×L维矩阵的最大特征值和其对应第一右奇异向量的计算量.

当SVDELM的激励函数如下时,SVDELM的隐藏层和SVD降维层可看成统一的整体.

定理1[16]给定在任意区间无限可微的任意激励函数g,任意N个样本(Xi, yi)∈ni×d×d,对任意随机产生的服从任意连续概率密度分布的连接矩阵和偏置,均满足

定理2[16]给定任意ε>0,在任意区间无限可微的激励函数g,任意N个样本(Xi, yi)∈ni×d×d,必存在L≤N使得对任意随机产生的服从任意概率密度分布的连接矩阵和偏置,以概率1满足ε.

定理1说明当隐层节点个数L等于训练样本个数N时SVDELM具有零误差逼近能力,定理2说明必存在L≤N使SVDELM以任意小误差逼近真值.

3 实验

为验证SVDELM预测模型的有效性,将其与其他预测方法比较,以下是本文实验部分的6种实验方法,其中前5种是对比方法,第6种是本文所提出的方法.

ELM[13]: 这是文献[13]给出的方法. 该方法将多变量时间序列按行拉成向量作为极限学习机的输入进行预测.

PVM[14]: 投影向量机预测方法. 该方法用样本的右奇异矩阵代替ELM输入层和隐藏层的连接权重进行预测.

WELM[15]: 加权极限学习机预测方法. 该方法先给多变量时间序列的样本点根据与预测样本的远近赋予权重,再根据ELM的方法进行预测.

ELM1: 这是本文给出的对比方法. 将多变量时间序列的第一右奇异向量作为ELM的输入,奇异值分解用法与文献[17]相同.

SVDHELM: 这是本文给出的对比方法. 将N个多变量时间序列分别作为ELM的输入,逐个投影到ELM模型特征空间得到N个特征矩阵样本,用N个特征矩阵样本的第一右奇异向量作为输出层的输入,然后调整输出权重.

SVDELM: 这是本文提出的新方法. 将N个多变量时间序列样本分别作为ELM输入,逐个投影到ELM模型特征空间得到N个特征矩阵样本,然后用每个特征矩阵样本的第一左奇异向量的转置左乘特征矩阵样本,并将所得到的N个特征向量样本作为输出层的输出.

3.1 实验数据集

实验数据集包括两类: 混沌时间序列和股票时间序列. 其中混沌时间序列包括Rossler、Chen’s、Lorentz,股票时间序列包括国农科技、浦发银行、中国石油. 混沌时间序列产生模型如表1.

表1 混沌时间序列生成模型

其中r,s,b是模型的参数,实验时分别产生1 000条上述3种时间序列,为模型产生混沌现象,实验参数设置如表2所示.

表2 混沌时间序列参数

实验股票数据来源于锐思金融数据库(http://www1.resset.cn:8080/product/common/main.jsp.). 具体包括国农科技 (股票代码: 000004)、浦发银行(股票代码: 601788)、中国石油(股票代码: 601857)从2011年1月4日至2014年9月30日的日综合数据: 开盘价、最高价、最低价和收盘价. 表3概括了实验所用的6组数据的变量个数及变量长度.

表3 实验数据集描述

3.2 评价标准

为比较ELM、WELM、PVM、ELM1、SVDHELM、SVDELM这6种预测方法的优劣,采用均方根误差作为预测性能的评价指标,简记为“RMSE”.

3.3 实验结果及分析

本文的实验环境为Win7系统,内存2 GB,所有方法都用Matlab2010b编程实现. 实验时,先将股票数据集空行去掉,然后用大小n=10的滑动窗口[18]分别对数据集的前2/3和后1/3生成ELM1、SVDHELM和SVDELM这3种方法的训练集和测试集,其他3种方法的训练集和测试集还需将滑动窗口生成的矩阵样本按行拉成向量. 为了更好比较实验结果,实验对6种方法进行统一参数设置: 惩罚系数C=1,激励函数g=‘sigmoid’. 除此之外,ELM、WELM、ELM1、SVDHELM和SVDELM的参数L也需要人为给定.

表4 不同预测方法在不同混沌时间序列的预测结果

从表4可以看出,本文所提出的SVDELM其均方误差只在Lorentz混沌时间序列的变量y、z上略高于ELM,其余均比次优的ELM降低了一半以上,这说明将多变量时间序列的自然结构作为模型的输入,并在隐藏层添加SVD降维层能够大大提高模型的预测精度.

表5 不同预测方法在不同股票数据集的预测结果

从表5可看出,本文所提的SVDELM在实验所用到的股票时间序列上均能达到最好的预测结果,这说明SVDELM是一种有效的股票时间序列预测模型. 综合表4和表5可发现,SVDELM在Rossler和Chen’s混沌时间序列上的均方误差比次优ELM算法低得多,特别是在Chen’s混沌时间序列上,其均方误差只是ELM算法的1/4,这说明SVDELM对含Rossler和Chen’s混沌现象的时间序列预测效果较好,特别是含Chen’s混沌现象的时间序列.

4 结语

本文在极限学习机的基础上结合奇异值分解将三层结构极限学习机预测模型拓展成四层结构,提出一种适合矩阵形式输入的多变量时间序列预测模型(SVDELM). 与传统的极限学习机预测模型相比,该方法不仅能满足L=N时的零误差逼近能力和存在L≤N使模型以任意小误差逼近真值的能力,还能保留更多的结构信息. 在Rossler、Chen’s、Lorentz多变量混沌时间序列和3支股票时间序列的预测上的实验结果, 表明SVDELM是一种有效的多变量时间序列预测模型.

[1] ROJAS I, VALENZUELA O, ROJAS F,etal. Soft-computing techniques and ARMA model for time series prediction[J]. Neurocomputing, 2008, 71(4): 519-537.

[2] CHERIF A, CARDOT H, BONÉ R. SOM time series clustering and prediction with recurrent neural networks[J]. Neurocomputing, 2011, 74(11): 1 936-1 944.

[3] CHAOVALIT P, GANGOPADHYAY A, KARABATIS G,etal. Discrete wavelet transform-based time series analysis and mining[C]//ACM Computing Surveys (CSUR). New York: ACM, 2011. DOI:10.1145/1883612.1883613.

[4] YU T H K, HUARNG K H. A neural network-based fuzzy time series model to improve forecasting[J]. Expert Systems with Applications, 2010, 37(4): 3 366-3 372.

[5] SAPANKEVYCH N I, SANKAR R. Time series prediction using support vector machines: a survey[J]. IEEE Computational Intelligence Magazine, 2009, 4(2): 24-38.

[6] CAI Y N, WANG H Q, YE X M,etal. Multivariate time series prediction based on multi-output support vector regression[C]// Advances in Intelligent Systems and Computing, 2013: 385-395. DOI: 10.1007/978-3-642-37832-4_35

[7] 王新迎, 韩敏. 基于极端学习机的多变量混沌世界序列预测[J]. 物理学报, 2012, 61(8): 97-105.

[8] 张弦, 王宏力. 基Cholesk分解的增量式RELM及其在时间序列预测中的应用[J]. 物理学报, 2011, 60(11): 1-6.

[9] 张弦, 王宏力. 具有选择与遗忘机制的极端学习机在时间序列预测中的应用[J]. 物理学报, 2011, 60(8): 74-80.

[10] BUTCHER J B, VERSTRAETEN D, SCHRAUWEN B,etal. Reservoir computing and extreme learning machines for non-linear time-series data analysis[J]. Neural Networks, 2013, 38: 76-89.

[12] HUANG G, SONG S J, WU C. Orthogonal least squares algorithm for training cascade neural networks[J]. IEEE Transactions on Circuits and Systems I: Regular Papers, 2012, 59(11): 2 629-2 637.

[13] HUANG G B, ZHOU H M, DING X J,etal. Extreme learning machine for regression and multiclass classification[J]. IEEE Trans Syst Man Cybern B Cybern, 2012, 42(2): 513-529.

[14] DENG W Y, ZHENG Q H, LIAN S G,etal. Projection vector machine: one-stage learning algorithm from high-dimension small-sample data [C]//The 2010 International Joint Conference on Neural Networks (IJCNN). Barcelona: IEEE, 2010: 1-8. DOI: 10.1109/IJCNN.2010.5596571.

[15] ZONG W W, HUANG G B, CHEN Y Q. Weighted extreme learning machine for imbalance learning[J]. Neurocomputing, 2013, 101: 229-242.

[16] HUANGG B, ZHU Q Y, SIEW C K. Extreme learning machine:theory and applications[J]. Neurocomputing, 2006, 70: 489-501.

[17] 董红玉, 陈晓云. 基于奇异值分解和判别局部保持投影的多变量时间序列分类[J]. 计算机应用, 2014, 34(1): 239-243.

[18] GUO Z Q, WANG H Q, LIU Q. Financial time series forecasting using LPP and SVM optimized by PSO[J]. Soft Computing, 2013, 17(5): 805-818.

(责任编辑: 蒋培玉)

Multivariate time series prediction based on extreme learning machine with singular value decomposition

LIANG Xiaochun, CHEN Xiaoyun

(College of Mathematics and Computer Science, Fuzhou University, Fuzhou, Fujian 350116,China)

In multivariate time series prediction based on extreme learning machine (ELM), the prediction precision will be reduced due to convert matrix to vector. In this paper, based on singular value decomposition and extreme learning machine, a multivariate time series prediction model(SVDELM) is proposed to suit for the matrix input. Simulation results on Rossler, Chen’s, Lorentz and stock multivariate time series show that the SVDELM is an effective prediction model for multivariate time series.

multivariate time series; prediction model; extreme learning machine; singular value decomposition

10.7631/issn.1000-2243.2017.01.0037

1000-2243(2017)01-0037-07

2015-03-10

陈晓云(1970-),教授,主要从事数据挖掘、模式识别等研究,c_xiaoyun@21cn.com.

国家自然科学基金资助项目(71273053); 福建省自然科学基金资助项目(2014J01009)

TP311; TP391

A

猜你喜欢
学习机向量变量
向量的分解
抓住不变量解题
聚焦“向量与三角”创新题
也谈分离变量
极限学习机综述
基于极限学习机参数迁移的域适应算法
分层极限学习机在滚动轴承故障诊断中的应用
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
分离变量法:常见的通性通法