改进岭回归与主成分回归的股指跟踪研究

2018-03-01 03:23冷林峰常永莲
关键词:共线性回归方程残差

王 琪,冷林峰,常永莲

(重庆大学 数学与统计学院, 重庆 401331)

近年来,随着我国证券市场的不断发展,证券投资已成为投资者的主要途径之一。投资者在追求收益最大化的同时,应当警惕由于市场的剧烈变化为其带来的巨额损失。因此,在保值的前提下,如何实现增值的最大化是当前证券投资者关注的焦点之一。股票指数是选取具有代表性的一组股票,将其股价进行加权平均得到,反映了股票市场中各种股票价格总体水平及变动情况,以此作为评价一个投资组合预期收益的基准指标。自2016年以来,中国股指温和上扬,券商指数基金收益领先。一个业绩表现突出的指数基金,其超额收益在很大程度上取决于跟踪指数的表现。跟踪指数表现是指试图令资产组合的价值紧贴某一市场指数的表现,通常是建立相关模型进行回归分析。回归方法的选取多种多样,而选取何种方法能更好地跟踪指数动态、帮助投资者更好把握股价的波动性与走势成为亟待解决的问题。

2004年杨楠[1]通过对多元线性回归中的多重共线性问题的研究,得出了岭回归分析在解决多重共线性问题中具有独特优势。吴仍康[2]将岭回归应用于我国上证综合指数的预测分析。薛宏刚[3]利用沪深300股指的实证研究,建立了基于岭回归的套期保值模型。姬春煦等[4]将主成分回归运用在沪深综合指数的预测研究中,并取得了较好的预测效果。王成震[5]采用主成分回归对股票价格指数进行预测与风险分析。本文分别对岭回归与主成分回归进行改进,并将改进后的方法应用于上证50指数及其成分股的回归分析及跟踪研究,从跟踪误差的角度得出了改进岭回归的跟踪效果更佳的结论。

1 模型的建立

1.1 股票价格指数

股票价格指数是描述股票市场总的价格水平变化的指标。它是选取有代表性的一组股票,将其价格进行加权平均计算得到,用以表示整个市场的股票价格总趋势及涨跌幅度。在我国,上证50指数是反映整个股市行情最重要的指标之一。上证50 指数是根据科学的统计方法,挑选上海证券市场规模大、流动性好的最具有代表性的50 只股票组成样本股,意在建立一个主要作为衍生金融工具基础的投资指数。因此,如何判断和预测股票指数的走势引起了研究者的极大兴趣。由于影响上证指数的因素众多,且其作用机制较为复杂,使得预测股指的长期走势变得十分困难。然而,通过建立线性模型,在短期股指预测中往往能够取得较好效果。

1.2 建立模型

建立在一定时期内上证50指数与其50个成分股的收盘价之间的多元线性回归模型:

Y=β0+β1X1+β2X2+…+β50X50+ε

其中:Y表示上证50指数;X1,X2,….,X50分别表示50个成分股的收盘价;β0,β1,…,β50表示多元回归的参数估计;ε为估计误差。

2 统计方法

2.1 岭回归

2.1.1 岭回归原理

岭回归是 1970年由Hoerl和Kennard提出的一种有偏估计方法。假定自变量数据矩阵X=xij}为n×p的,最小二乘估计寻求使残差平方和达到最小时的系数,即

(1)

而岭回归需要一个惩罚项来约束系数的大小,即岭回归的系数既要使得残差平方和小,又不能使得系数太膨胀,即

(2)

2.1.2 岭回归的改进

对岭参数的选取方法在前人研究的基础上做一些改进。在线性回归模型的设计阵X存在多重共线性时,XTX的特征值至少有一个很小,接近于0,即

(3)

因此,可用XTX行列式的大小来判断自变量的多重共线性强弱。令

(4)

再将式(4)改为

(5)

分别运用两个公式选取岭系数,并将预测误差进行对比。其中,k为选择的岭参数,I为p×p单位阵,易见D(k)关于k单调递增。规定若00.05,认为几乎没有共线性。因此,关于岭参数k的选取,可在D(k)>0.01的范围内选取最小的k值作为最终的岭参数k。该方法将多重共线性的强弱通过计算XTX的大小进行量化,并且在设立的D(k)取值范围内选取相应岭参数,是对岭参数选取的一种改进。

2.2 主成分回归

2.2.1 主成分回归原理

主成分估计是在1965年玛西提出的一种线性有偏估计,主要思想是将原来的回归自变量变换到另一组变量,即主成分,选择其中一部分重要的主成分作为新的自变量,以达到降维的目的。运用最小二乘法对选取主成分后的模型进行参数估计,最后再变换到原来的模型求出参数的估计。

主成分回归主要步骤如下:

1) 对原始数据标准化处理,消除量纲不一致的影响。设有p个自变量X1,…,Xp,在第i次实验中取值为xi1,…,xip,i=1,…,n。矩阵形式为

(6)

对样本矩阵标准化可得

2) 计算相关系数矩阵R。

3) 求相关系数矩阵R的特征根和特征向量。求解R的特征方程|λE-R|=0,得到p个特征值λ1≥λ2≥…≥λp≥0,由(λE-R)X=0得到对应的标准化正交特征向量η1,η1,…,ηp。

4) 建立主成分特征函数。将x1,…,xp变换为主成分z1,…,zp,令

(7)

记标准化正交阵Q=(η1,η2,…,ηP)p×p,Z=XQ,引入参数α=QTβ,得到主成分特征函数

Y=β01+ZQTβ+ε=β01+Zα+ε

2.2.2 主成分回归的改进

在进行主成分筛选时,如何确定选取主成分的个数是问题的关键。因此,提出将RMS、AIC与SSE 这3个准则相结合,联合选取主成分,考虑同时满足3个准则的模型为最优模型。

1) RMS准则,RMS=SSE/(n-k)。其中:SSE为残差平方和;n为观测值的个数;k为选取的主成分个数。选取使RMS达到最小值的k值,即RMS越小越好。

2) AIC准则,AIC=2k+nln(SSE)。AIC是衡量统计模型拟合优良性的一种标准,可以权衡所估计模型的复杂度和此模型的拟合优度。其中:n为观测值的个数;k为选取的主成分个数。AIC鼓励数据具有拟合优良性的同时,尽量避免出现过度拟合的情况,因此优先考虑AIC值最小的的模型。

3) SSE准则。优先选择有最小残差平方和的主成分模型。

2.5 两步估计

2.5.1 弹性约束估计

在金融大数据统计分析中,由于变量的影响大小不同,加上数据收集的成本和分析的时效,并不总是需要尽可能多地收集全部变量。因此,当处理实际问题时,首要的问题就是变量选择问题。

2005年Zou与Hastie将岭回归与Lasso方法合并,提出弹性约束估计,即Elastic Net。弹性约束的参数估计为

(8)

等价于找到

满足当

达到最小的βj,j=1,2,…,p。易见,当λ=1时,弹性约束估计就是岭回归;当λ=0时,弹性约束估计就是绝对约束估计。因此,弹性约束估计同时具有绝对约束估计与岭估计的特点。

2.5.2 两步估计方法

在证券市场中,很多变量都是相互依存的,没有必要将高度关联的变量都考虑进来。此时,我们需要做两步估计,即先筛选出一部分变量,再做回归。针对本文的数据,考虑先用弹性约束估计方法筛选出变量,再将得到的变量做最小二乘估计。

3 实证研究

3.1 数据来源

本文数据来源于2017年1月3日至2017年3月20日的上证50指数及其成分股的5分钟线收盘价数据,剔除两支有严重缺失值的股票。通过Wind金融资讯软件获得了2 352组观测值数据。选取前2 064组观测值为训练集,将剩下的288组观测值作为测试集。本文拟通过对上证50指数与其成分股进行回归分析,从估计误差的角度,试图寻找最佳估计方法,并依据未来短期内的成分股波动对上证50指数进行短期预测。

3.2 数据的处理

3.2.1 数据的标准化及异常点处理

在做数据分析时,引入的各变量常有不同的单位和不同的变异程度。为了消除量纲影响,将数据进行标准化处理。统计中常采用 Z-score 标准化,即

3.2.2 诊断多重共线性

多重共线性即变量间高度相关,导致样本协方差矩阵奇异或不稳定,此时依赖协方差矩阵的最小二乘估计变得无意义。度量多重共线性严重程度的一个重要指标是计算变量相关系数矩阵的条件数k,即矩阵最大特征值与最小特征值之比。如果k值小于100认为变量间共线性程度较轻,大于1 000则认为存在严重共线性。相关系数矩阵最大特征值为22.819 9,最小特征值仅0.003 684,计算k值为6 193.64,可见变量间存在比较严重的多重共线性。

3.3 最小二乘及迭代加权最小二乘法

3.3.1 最小二乘法

经最小二乘估计,计算出训练集SSE为234.054,MSE为0.113 508;测试集SSE为294.115 4,MSE为1.021 234。

3.3.2 迭代加权最小二乘法

在不符合方差齐性的模型中,迭代重复加权最小二乘法估计效果良好。由于本文数据未通过Shapiro-wilk检验,可以尝试此方法。在R软件中使用MASS包的rlm函数来实现Huber与Bisquare两种方法计算每个自变量的权重,并将得出的权重分别乘以原始自变量数据,形成加权处理的新数据,再进行最小二乘法估计。由Huber法,利用R程序计算,可获得上证50指数与成分股之间的回归方程:

计算得训练集SSE为234.718 3,MSE为0.113 8;测试集SSE为325.884 3,MSE为1.131 5。由Bisquare法得上证50指数与成分股之间的回归方程:

计算得训练集SSE为235.163 7,MSE为0.295 9;测试集SSE为340.817 1,MSE为1.183 3。可见,Bisquare法和Huber法的估计误差均大于最小二乘法。

3.4 岭回归及其改进的应用

3.4.1 岭回归

首先选择岭参数,通过R程序绘出岭迹图,见图1。

由R程序MASS包中lm.ridge函数,得HKB法给出的k值为0.080 2,L-W法给出的k值为0.007 6,GCV法给出的k值为0.04,选择最小的k值0.007 6,得到岭回归方程

图1 岭迹图

易见,残差的趋势性基本被消除了,岭估计给出的岭回归方程较好地刻画了上证50指数的变化趋势。

3.4.2 岭回归的改进

首先考虑第1种情况,即

由R程序自编函数,得到在D(k)>0.001的范围内最小k值为0.583 4,作为选取的岭参数。得到岭回归方程为

分析残差,得到训练集SSE为234.255 8,MSE为0.113 606 1,测试集SSE为286.884 2,MSE为0.996 125 5。易见,经过岭参数选择方法的改进,特别是测试集的估计误差,与L-W法相比有所减小,甚至小于最小二乘估计误差。因此,改进的岭回归使估计误差得到减小,预测精度得到提升。训练集与测试集观测值与预测值的拟合曲线分别如图3、4所示。

图3 改进岭回归训练集实际值与预测值拟合曲线

从2017年1月3日至2017年3月20日两个多月的时间,通过改进岭回归模型跟踪上证50指数的走势比较成功,说明通过数据拟合的模型用于股票指数跟踪是完全可行的。

其次考虑第2种情况,即

由R程序自编函数,得到在D(k)>0.001范围内的最小k值为0.099,作为选取的岭参数。得到岭回归方程为

分析残差,得到训练集SSE为234.078 3,MSE为0.113 52,测试集SSE为291.495 9,MSE为1.012 138。与第一种改进方法比较,第二种方法得到的测试集残差略大于第一种方法的残差,但仍小于L-W法选取岭参数的残差以及最小二乘估计残差。综合来看,从预测误差的角度,改进的岭回归降低了残差,取得了一定的改进效果。

3.5 主成分回归及其改进的应用

3.5.1 主成分回归

使用R程序的主成分函数princomp( )进行主成分分析,得到前32个主成分的累计贡献率如图5所示。设置特征值门限值为0.05,第24个特征值小于0.05,因此选取前24个主成分进行分析,累积贡献率为99.05%。得到主成分回归方程为

经残差分析,计算得训练集SSE为548.99,MSE为0.26,测试集SSE为854.33,MSE为2.96。残差趋势见图6,易见残差的趋势性基本被消除。

3.5.2 主成分回归的改进

经R程序自编函数计算,当k=32时RMS和AIC同时达到最小,SSE亦为最小取值之一,因此选取前32个主成分进行回归分析。得到主成分回归方程为

经计算得到:训练集SSE为389.856 2,MSE为0.189 0,测试集SSE为611.629 4,MSE为2.123 7。此时,条件数为989.215,与原始数据的条件数6 193.64相比,显著降低。因此,经改进的主成分回归,相对削弱了变量间的共线性,且估计误差与改进前相比有所减小。训练集与测试集的观测值与预测值的拟合曲线分别如图7、8所示。

图5 前32个主成分的累计贡献率

图6 主成分回归残差图

表1 残差分析

图7 改进主成分回归训练集实际值与预测值拟合曲线

3.6 两步估计的应用

3.6.1 弹性约束估计与最小二乘的结合

首先经弹性约束估计对上证50及其成份股进行变量选择,由R程序中cv.glmnet函数进行交叉验证,以确定最佳的λ值。λ选择如图9所示,横轴是λ对数值,纵轴是均方误差。

图9 弹性约束估计λ选择图

经计算,易得λmin=0.093 4。按此参数值,保留变量个数是34个,分别是第1,2,3,4,5,6,7,8,10,12,14,15,16,17,19,21,23,24,25,27,28,29,30,32,35,37,38,39,41,43,45,46,47,48个成分股自变量。计算得训练集SSE为1 476.961。

对弹性约束估计选出的34个变量进行最小二乘估计,由shapiro-wilk检验,得到p值为0.349 8,因此残差经检验符合正太性假定。计算得训练集SSE为639.467 5, MSE为0.310 1,与弹性约束估计相比有所减小。

3.6.2 弹性约束估计与主成分估计的结合

对经过弹性约束估计筛选出的34个变量进行主成分回归,训练集SSE为1 278.469,MSE为0.620 014。易见,由于主成分估计是有偏估计,估计误差明显增大。

综上,针对本文的数据进行的两步估计尝试,尚未从估计误差的角度找到更优于单步估计的方法。但是,对于基金公司来说,往往需要用最少的变量达到对指数的准确跟踪,从而实现股票与股指期货的对冲,达到保值目的。这时,全部持有股票几乎不可能,因此有必要在变量选择的基础上再对股指进行回归分析。

4 结论与展望

4.1 结论

本文所用的每种方法的估计误差汇总如表1所示。由表1可得,单步估计方面,改进岭回归的训练集和测试集的估计误差最小,特是在测试集中,改进岭回归法1和改进岭回归法2的估计误差小于岭回归与最小二乘估计。易见,改进岭回归取得了降低预测误差的效果,是不错的尝试。而主成分回归的预测误差最大,因此针对本文数据,改进的岭回归方法最适用。当不适合考虑全部股票时,需要进行变量选择,因此考虑两步估计。针对本文的数据,先用弹性约束估计筛选变量,再做最小二乘法的无偏估计。但不可避免的,估计误差会高于单步估计的结果。

4.2 展望

本文仍然存在一些不足之处。例如,由于数据、指标和估计方法的选取具有一定局限性,有待进一步拓展。总之,要更加透彻地研究和预测股票指数的趋势,不仅需要进一步深化统计理论的学习,还应追踪当前国内外研究成果,通过对股票指数趋势的深入分析,结合我国股市特点,形成一套行之有效的股指预测体系。

[1] 杨楠.岭回归分析在解决多重共线性问题中的独特作用[J].统计与决策,2004(3):14-15.

[2] 吴仍康.基于岭回归的证券指数的预测分析——以上证综合指数为例[J].商业全球化,2016,4(2),47-55.

[3] 薛宏刚.基于岭回归的套期保值方法[J].统计与决策,2012(5):77-79.

[4] 姬春煦,张骏.基于主成分分析的股票指数预测研究[J].计算机工程与科学,2006,28(8):122-124.

[5] 王成震.股票价格指数的预测与风险分析[D].南京:东南大学,2003.

[6] 何秀丽.多元线性模型与岭回归分析[D].武汉:华中科技大学,2005.

[7] 邓春亮.岭参数选取的行列式法[J].嘉应学院报,2015,33(8):8-10.

[8] 高少龙.几种变量选择方法的模拟研究和实证分析[D].济南:山东大学,2014.

[9] 龚乐春,郑宁国.多元线性模型系数的主成分估计及其筛选[J].中国计量学院学报,2000,11(1):87-90.

[10] 郑宁国.多元统计分析线性模型主成分筛选准则研究[J].沈阳航空航天大学学报,2002,19(2):70-71.

[11] 曹芳,朱永忠.基于多重共线性的Lasso方法[J].江南大学学报,2012,11(1):87-90.

[12] 杨虎.金融大数据统计方法与实证[M].北京:科学出版社,2016.

[13] 汤银才.R语言与统计分析[M].北京:高等教育出版社,2008:316-324.

[14] 王学民.应用多元分析[M].上海:上海财经大学出版社,2009.

[15] 张兴凤.基于Lasso的我国股票价格影响因素分析[D].成都:西南财经大学,2016.

[16] 余新宏.多元线性模型系数岭估计的改进研究[J].合肥工业大学学报,2009,32(10):1620-1622.

猜你喜欢
共线性回归方程残差
基于双向GRU与残差拟合的车辆跟驰建模
采用直线回归方程预测桑瘿蚊防治适期
南瓜SWEET蛋白家族的全基因组鉴定与进化分析
线性回归方程的求解与应用
线性回归方程要点导学
银行不良贷款额影响因素分析
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
走进回归分析,让回归方程不再是你高考的绊脚石
不完全多重共线性定义存在的问题及其修正建议