基于分位点回归系数聚类的时间序列分类方法

2011-10-18 10:32孙晓丹张鸣鸣
统计与决策 2011年6期
关键词:位数回归系数时序

孙晓丹,张鸣鸣

(1.哈尔滨工程大学经济管理学院,哈尔滨150001;2.中国社会科学院研究生院,北京100102)

基于分位点回归系数聚类的时间序列分类方法

孙晓丹1,张鸣鸣2

(1.哈尔滨工程大学经济管理学院,哈尔滨150001;2.中国社会科学院研究生院,北京100102)

时间序列曲线分类的目的是为了找到曲线之间相似波动结构、减少建模工作量和进行预测,所以分类的结果将直接影响模型的质量和预测的精度。为此,文章提出了一种新的时序曲线分类方法—分位点回归系数聚类法。它可以有效地避免一些分类方法带来的局限性,能够更为全面、详尽地考查待分类时序数据的运行方式,改善分类的效果并为预测提供强大的支持。

分位点回归;公共变量;层次聚类;整体预测

0 引言

时间序列曲线分类方法作为一个新的研究领域,在经济分析、时间序列数据挖掘、以及计算机科学中已经得到研究工作者们极大的关注。Liao(2005)把时间序列分类方法研究分为了三个主要的方向[1]:(1)基于原始数据分类法;(2)基于序列特征分类法,例如A.M.Alonso(2006);(3)基于模型分类法。本文所提出的分类方法属于上述的第三个方向。现在较为流行的基于模型分类方法是源于自回归AR过程,大多数研究过程是通过找到数据均值过程的结构和AR distance来进行分类的,例如Piccolo(1990)[2],Maharaj(1996)[3]和Maharaj(1999)[4],Xiong和Yeung(2002)[5]等。

除了上述三种分类方法外,利用平滑曲线的方法进行分类应该属于一种纯统计手段。虽然它可以把趋势大致相同的曲线归为一类,但由于没有考虑到时间序列曲线其中较为频繁的波动,所以这种方法就会把一些本应该归为不同类别的曲线因其趋势大致相同而被归为了一类。另外,还有一种采用先提出若干种典型的模式,再按照模式对数据进行分类的方法[6]。笔者认为:(1)由于曲线的形式千差万别,几种典型的曲线模式不可能把曲线的所有形态都包含进去;(2)典型的曲线模式虽然可以使预测变的简单,但对于特殊形态曲线的分类及预测并无好的效果。

在本文中,我们拟提出一种基于模型的分类方法QRP Clustering,这是利用回归参数进行聚类,最终达到划分曲线的一种方法。考虑到众多时间序列曲线(股票价格序列)其波动形态、趋势大都不同,采用普通最小二乘回归不能完全体现因变量(待分类曲线变量)的分布特征。在这种意义下,时间序列在高点位和低点位运行的分布形态并没有被展现出来,这主要是因为普通最小二乘回归只是在平均意义下研究因变量与自变量之间的关系。本文所应用的分位点回归Koenker and Bassett(1978)[7]可以为研究随机变量间统计关系提供一种更为全面的视角。

1 从经典最小二乘回归到分位点回归

最小二乘回归中的经典估计方程—条件均值方程,它的作用体现在描述因变量的均值是如何随着自变量向量X观测的变化而变化的。但是,当我们关心的不是这种均值变化,而是试图描述y的分布状态时,最小二乘回归就不能满足我们的需要。而本文引入的分位点回归则采用条件分位数方程,即因变量y的条件分布的分位数被表示为已观测自变量的方程,并通过最小化加权绝对值残差和来进行估计[8]。

1.1 经典最小二乘回归与中位数回归

对于单自变量普通回归模型:y=XTβ+ε,其中X=(1,x)T,β=参数向量β一般是通过二次损失函数r(u)=u2来估计的,确切的说就是给定一组观测值最小化损失函数来求得β,损失函数为:

与普通回归相类似,中位数回归所关心的也是条件期望的参数估计问题,只不过期望函数、损失函数变成了E[|Y-θ|| X=x]和ρ0.5(u)=0.5|u|,其参数估计过程是最小化β)来求得β。中位数回归是分位点回归的一种特例,它是分位数等于0.5时的分位点回归,分位点回归则更具有一般性。

1.2 分位点回归模型

分位点回归估计的是条件分位数方程参数的问题。考虑一般性回归模型的设定:y表示因变量,为自变量,并且有n个独立的观测值对于任意的0<τ< 1:Q(τ)=inf{y:F(y)≥τ}表示y的τ分位数。所以线性条件分位数方程就可以定义为:

对于任意的0<τ<1,定义损失函数,ρτ(u)=u(τ-I(u<0)),其中I(u<0)为示性函数在上述定义的基础上,就可以得到条件分位点回归参数向量β的估计值:

2 时序数据分类过程

2.1 基于一元分位点回归的考虑

本文只用一元线性分位点回归,没有用多项式分位点回归及非参数分位点回归,是基于以下考虑:第一,应用多项式分位点回归时,每一分位点的回归系数至少会增加一个,这会带来聚类变量的成倍增加。同时,由于多项式回归是由自变量的一次方项、二次方项等构成,这还会导致聚类变量出现严重的多重共线性。第二,采用非参数分位点回归,即y=m (X),由于其对应每条曲线回归函数形式并不一定相同,故无法确定聚类变量。

2.2 实证序列数据

(1)待分类时间序列数据:上证180中的64支股票2007年1月4日至2008年4月30日322个交易日每日收盘价格序列(如:图2)。(2)公共变量:上证综合指数序列。公共变量是基于上海证券交易所挂牌交易的个股收盘价序列与上证综合指数序列在某种程度上存在着一定的数量关系而选取的,数据情况见图2。

2.3 分位点回归系数聚类步骤及分类结果

在聚类分析中需要定义点点距离的算法,我们选取最为常用的欧氏(Euclid)距离。

这里的“点”指的是p维空间点,点点距离表示由p个变量构成的两个样本点之间的距离。

在本文中,设有n条待分类时间序列曲线S1,S2,…,Sn,每条时序曲线所对应的数据作为自变量与公共变量S做分位点回归,则第i条序列曲线与S的回归系数与回归截距分别为和把和作为聚类变量进行聚类分析,数据矩阵表示如下:

在聚类分析中,不仅要考虑各个类的特征,而且要计算类与类之间的距离。为了使同类样品(曲线)之间的离差平方和较小,类与类之间的离差平方和较大,所以选择了层次聚类中的Ward method(离差平方和法)作为聚类方法。下面列出了QRP Clustering主要的四个步骤。

(1)选取公共变量。对于同属性待分类的时间序列数据,总能找到与之有关联的公共变量,这是进行分位点回归的关键。另外,公共变量的选取也可以采用对各条曲线求平均的做法,那么这条平均线就与各个待分类曲线具有一定的相关关系。

(2)时序数据的标准化。

(3)利用R语言编程,把时序数据分别进行分位点回归,回归方程的自变量为公共变量(本文为上证综合指数)(这里采用0.05;0.25;0.5;0.75;0.95,五个分位数)。

(4)5个分位点回归系数及5个回归截距被看作为10个聚类变量进行聚类分析,得到分类结果见图3~9。利用一元线性回归系数聚类得到的分类结果见图10~16。

聚类分析可以根据实际的要求选择分类数目。对于具有较大数目的时间序列曲线,我们本着既要使类与类之间有较大的区分度,又要使类内有较好的一致性。一般情况下,分类的时候既不能分类太少,因为这样必然会导致类内曲线参差不齐无法达到分类的效果,甚至对以后的整体预测带来很大的影响;而且又不能分类太多,因为这就失去分类的真正意义了。本文实际数据共64条曲线样本,分别进行了4个不同分组数目的实验(Clusters=5,6,7,8;见表1),经过比对选择了7类(Clusters=7)作为最终的分类数目。

3 结论及意义

本文利用分位数回归系数作为聚类变量,把64条时间序列曲线分成了7个曲线组,每一组曲线都具有大致相同的趋势与波动形态,其中与一元线性回归系数聚类方法所得到的结果(图10~16)进行对比也充分说明了QRP Clustering达到了很好的分类效果,有效地提高了分类的精度。对于那些趋势大体相同阶段波动不同的曲线,利用分位点回归可以更全面地分析时序曲线的特征,因为分位点回归可以根据分位数的设定把两个时序变量的关系变成多个回归形式,这样就可以更为全面、详尽地考查待分类时序数据的运行方式,尤其是对那些波动剧烈且具有极端值的序列曲线。

对于分类完成后的各组曲线,可以分析各组曲线的特征,并进一步达到建模和整体预测的需要。这里我们阐述两个问题:

(1)建模。对每组曲线(已分类)建立模型可以有多种选择。例如,①选择该组任意一条曲线作为该组的代表曲线进行建模;②选择处于中间位置的曲线作为代表曲线;③对该组曲线在每一时点上的曲线数值进行平均化处理,这便会形成一条新的序列曲线,然后用得到的新曲线作为代表曲线进行建模。

(2)整体预测。当代表曲线选择完成后,具体的建模方法就要根据进一步的时序曲线的特征分析来进行。常用的时间序列曲线模型有ARMA、ARIMA、ARCH、GARCH等等。模型建立完毕后,就可以根据建立的时间序列模型进行每组曲线的整体预测。

[1]Liao,T.Clustering Time Series Data:A survey[J].Pattern Recognition,2005,(38).

[2]Piccolo,D.A Distance Measure for Classifying ARIMA Models [J].Journal of Time Series Analysis,1990,(11).

[3]Maharaj,E.A.A Significance Test for Classifying ARMA Models [J].Journal of Statistical Computation and Simulation,1996,(54).

[4]Maharaj,E.A.Comparison and Classification of Stationary Multivariate Time Series[J].Pattern Recognition,1999,(32).

[5]Xiong,Y.,Yeung,D.Y.Mixtures of ARMA Models for Model-Based Time Series Clustering[J].In:Proceedings of the IEEE International Conference on Data Mining,2002,1~4.

[6]范新洪,张春梅,叶慧萍.基于负荷曲线分类的电力负荷预测方法[J].现代计算机,2007,(6).

[7]Koenker,R.Bassett,G.,Regression Quantile[J].Econometrica,1978, (46).

[8]Yu,K.,Lu,Z.,Stander,J.Quantile Regression:Application and Current Research Areas[J].The Statistician,2003,(52).

(责任编辑/亦民)

O212

A

1002-6487(2011)06-0021-03

孙晓丹(1980-),男,黑龙江齐齐哈尔人,博士后,讲师,研究方向:复杂数据经济统计分析与产业经济。

张鸣鸣(1981-),女,黑龙江塔河人,博士研究生,研究方向:服务经济与财税政策。

猜你喜欢
位数回归系数时序
清明
五次完全幂的少位数三进制展开
连续自然数及其乘积的位数分析
基于不同建设时序的地铁互联互通方案分析
多元线性回归的估值漂移及其判定方法
基于FPGA 的时序信号光纤传输系统
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
多元线性模型中回归系数矩阵的可估函数和协方差阵的同时Bayes估计及优良性
基于模体演化的时序链路预测方法
遥感卫星CCD相机量化位数的选择