金融高频数据跳跃波动研究
——基于大数据核函数支持向量机的方法

2018-09-14 12:03柳向东李文健
统计与信息论坛 2018年9期
关键词:变差对数正确率

柳向东,李文健

(暨南大学 经济学院,广东 广州 510632)

一、引言

在20世纪末期以前,众多的专家学者对金融市场进行实证研究所依据的数据都是以日、周、月、季度或者年度为采集频率的数据,这种金融数据在金融计量分析研究领域一般被称为低频数据。自20世纪末期以来,伴随着科学技术的迅猛发展和互联网的快速普及,迅速而有效地降低了数据的记录与储存成本,越来越多的学者、市场交易者开始尝试寻找和探究埋藏于海量交易数据中的大金矿。因而,高频金融数据的研究成为了金融、计量和统计等学科的热门研究领域。一般而言,数据采集的频率越高,损失的信息越少;反之,数据采集的频率越低,损失的信息越多。高频数据不仅仅包含资产价格信息,还包括交易的时间间隔、交易量、买卖价差等,这些不同的维度信息对理解市场的价格形成、信息传递机制等市场微观结构方面的特征具有重大意义。国内外学者对于高频数据的研究主要集中在市场微观结构噪声、价格波动率两个方面。

在高频数据中,市场微观结构噪声的存在使得实际观测到的证券价格序列与其内在价值本身存在差异,而且高频数据抽样的频率越高,市场微观结构噪声所导致的价格偏差越大。Black、Harris将市场微观结构噪声的来源分为两个方面:一方面是,噪声交易者,即那些为了短暂的流动性需求或者对市场信息进行误解而进入市场的交易者进入市场所带来的噪声;另一方面是,由于价格非连续性和集聚性,以及交易商的库存控制等所带来的噪声[1-2]。Mykland指出,噪声的存在往往使得以往针对非高频交易数据建立的动态资产定价和参数估计方法,如GARCH模型、SV模型,在高频数据建模中得不到良好的效果[3]。唐勇、寇贵明尝试利用市场信息对市场微观结构噪声进行建模,也就是将噪声表示为信息的某种函数形式,取得了一系列的成果[4]。但是,在实际的经济金融市场中,相对于资产价格跳跃的情况,噪声的影响相对较小,在大多数情况下,市场微观结构噪声并不是研究的最主要内容。

波动率是市场风险的重要衡量指标,对投资者在风险度量、证券投资组合管理和期权定价等方面做出决策具有重要的影响,是政府监管部门、投资者和资本市场共同关注的问题。因此,对波动率进行合理的建模具有十分重要的意义。

在国外方面,Andersen和Bollerslev通过一系列的研究发现:如果价格遵循普通的扩散过程,用该模型计算得到的已实现波动率RV是积分波动率IV的无偏估计量,而且随着数据采集频率不断提高,已实现波动率的测量误差也逐渐趋于零,可把已实现波动率作为一个观测值。但是,由于市场微观结构噪声等原因的影响,已实现波动率具有杆杠效应、长记忆性等特征,此时的已实现波动率RV不再是积分波动率IV的无偏估计量,为此将ARMA模型引入到高频数据中,提出了自回归分数整合滑动平均模型(ARFIMA)来预测波动率[5-6]。Barndorff Nielsen和Shephard利用渐进理论构建了基于高频数据的非参数跳跃检验统计量,且将其进行改进,改进后的检验统计量具有较好的小样本性质,所定义的相对跳跃测度具有准确的经济含义,能够很好地度量跳跃行为对已实现方差的贡献[7]。Corsi基于异质市场假说构建了异质自回归已实现波动率模型(HAR-RV),该模型考虑了不同时间水平波动率的叠加,提出了不同时间水平划分,选择了短期以天为标准的波动率,中期以周为标准的波动率和长期以月为标准的波动率[8]。后续的研究者以此为基础,进行深入研究,得出了一系列的HAR-RV类模型。

在国内方面,对于波动的研究主要是实证分析,理论创新相对较少。徐正国、张世英利用上证A股指数进行研究,发现跳跃行为对于股票市场波动过程具有重大影响,在综合考虑微观结构误差、测量误差、波动的长记忆性和杆杠效应的基础上,定义了最优的抽样频率,建立了ARFIMAX模型,其实证结果表明,已实现波动率模型(RV模型)与GARCH模型、SV模型相比,预测能力有显著提高[9]。刘晓倩等在充分研究现有典型波动率预测模型的基础上,将表示隐含波动率的市场波动率指数(CVX)作为影响因子引入到高频数据HAR模型,构成了HAR-CVX模型,且将该模型与GARCH模型、SV模型、HAR模型的预测效果进行比较分析,加入隐含波动率的HAR-CVX模型的预测效果要优于GARCH模型、SV模型、HAR模型[10]。唐勇、林欣采用常用的日内跳跃检验方法,构建了共同跳跃(协)方差和连续样本路径(协)方差,并对上证综合指数和深圳成分股指数高频数据进行了实证分析[11]。殷炼乾等从资产价格的角度出发,基于高频采样数据深入研究日内价格的跳跃行为,为认识资产价格运动规律及套利行为提供了依据[12]。张波等对高频数据进行了一系列研究,取得了许多重要成果。如提出资产收益的高斯混合模型,该模型将市场微观结构噪声部分地表示为交易信息的参数函数,并且结合资产收益率序列的跳跃特征,同时利用EM算法进行参数估计,识别资产价格的跳跃。将资产交易信息、跳跃、高斯函数与价格波动率相结合进行建模,打破了传统用最优抽样方法来减轻噪声影响的做法,为进行资产价格波动的研究提供了新思路[13-14]。

支持向量机(Support Vector Machine,SVM)在函数回归估计、预测时间序列和股票走势、模式分类识别等问题中具有十分重要的应用[15]242-254。核函数的选择对于支持向量机处理非线性问题和构建分类函数具有至关重要的作用。为此,本文将不同核函数的支持向量机与HAR-RV类模型相结合,尝试找到提高短期波动预测精度的模型。

二、资产价格模型、跳跃变差、跳跃检验

(一)资产价格模型

高频数据是指以小时、分钟、秒、毫秒甚至更短时间为频率的证券交易数据。Black和Scholes针对高频数据提出了著名的期权定价模型,即资产价格服从隶属于扩散过程的几何Brown运动[16]。可用如下微分方程表示:

dXt=μtdt+σtdWt

(1)

dXt=μtdt+σtdWt+dJt

(2)

Yt=Xt+εt

(3)

(二)跳跃变差

假设Yt服从资产跳跃模型,将第t日的交易时间等间隔划分为m个区间,每个区间的长度为Δ,第t个交易日内第i个区间的交易价格为Pti,第t日内第i个区间的收益率为:rti=lnPti-lnPti-1=Yti-Yti-1,i=2,3,…,m。由此可得到,第t个交易日的日内收益率为:rt=r2+r3+…+rm=Ytm-Yt1。

定义1已实现波动率(Realized Volatility,RV)为金融资产日内收益率的平方和[17]95-198,可表示为:

(4)

当抽样间隔Δ→0,即m→,

定义2已实现双幂次变差(Realized Bi-power Volatility,RBV)为金融资产日内前后相邻两收益率的绝对值之积[17]95-189,可如下表示:

(5)

同样,当抽样间隔Δ→0,即m→,

结合定义1、定义2可知:

(6)

(三)跳跃检验

由于金融市场会出现非正常的波动,即发生跳跃行为,为了检验跳跃是否发生,Huang和Tauchen提出了相对跳跃测度,构建了检验第t日内是否发生跳跃行为的统计量[17]:

(7)

其中,RTPt是第t日的三次幂变差,具体形式为:

(8)

JVt=I{ZJt>Φ1-α}(RVt-RBVt)

(9)

其中,I{·}为示性函数,若ZJt>Φ1-α,则I{·}=1;若ZJt<Φ1-α,则I{·}=0。Φ1-α是标准正态分布的1-α分位数,α是显著水平。对于高频数据波动性而言,其波动主要由跳跃成分、扩散过程两部分引起,为此,波动性可以表示为:

CVt=RVt-JVt

=I{ZJt>Φ1-α}RBVt+I{ZJt<Φ1-α}RVt

(10)

(四)跳跃波动模型的构建

Corsi基于异质市场假说构建了异质自回归已实现波动率模型(HAR-RV),该模型考虑了不同水平波动率的叠加[8],具体表达为式(9):

(11)

(12)

(13)

(14)

考虑到对数性质的优越性,考虑建立HAR-lnRV模型进行分析:

(15)

考虑到高频数据的波动由跳跃、扩散两部分引起,可得到细化的HAR-JV-CV模型:

(16)

(五)支持向量机与核函数

支持向量机(Support Vector Machine,SVM)是Vapnik于1995年在贝尔实验室所开发出来的一种有效的数据挖掘技术。SVM建立在统计学习理论的VC维原理和结构风险最小基础上的一种方法,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中,以此来获得最好的推广能力。SVM的显著特点就是:解决线性约束二次规划问题,得到全局最优解,不易发生类似于传统神经网络的陷入局部最优解和过度拟合等一系列问题[15]。SVM在函数回归估计、预测时间序列和股票走势、模式分类识别等问题中具有十分重要的作用。

在n维空间上的分类问题,训练样本集由m个数据样本组成:{(x1,y1),…,(xm,ym)},其中输入变量xi∈Rn,输出变量yi∈{-1,1},i=1,2,…,m,我们的目的就是将上述样本集分成两类。SVM的基本思想就是构造一个最优分类超平面作为分类判别平面,使得两类数据样本之间的间隔最大化,如图1所示。

图1 最优超平面图

由图1可知,两类样本分别由圆形和矩形表示,分类线为中间的直线H,各类中离分类线最近且与分类线平行的直线分别为H1、H2,易知:H1与H2之间的距离就是分类间隔。分类线H的最优情况为,既正确区分圆形和矩形两类样本,同时使得分类间隔最大。分类线H的一般形式的线性判别函数为f(x)=(ω·x)+b,分类方程为式(17):

(ω·x)+b=0

(17)

其中,ω为垂直于超平面的向量,也就是数学中的法向量,直线H1与H2的方程可表示为式(18):

H1∶(ω·x)+b=-1

H2∶(ω·x)+b=1

(18)

由此,可以得到分类间隔为:

(19)

从而,最大化“间隔”的思想可以转化为对ω和b的最优化问题:

s.t.yi((ω·x)+b)≥1,i=1,2,…,m

(20)

对于该问题,一般采用Lagrange函数方法,即:

i=1,2,…,m

(21)

其中αi≥0,i=1,2,…,m叫做Lagrange乘子。由此可知,对于给定的超平面ω,有式(22):

(22)

但是,在大多数的实际应用中,由于各种原因的存在,会出现线性不可分的情况,继续假设为线性可分,可能会导致不存在这样的超平面,这明显不合适。为此,考虑“软化”对超平面的要求,也就是允许存在不满足约束条件:yi((ω·x)+b)≥1的训练点,引入松弛变量ξi≥0,i=1,2,…,m,“软化”后的约束条件为式(23):

yi((ω·x)+b)≥1-ξi,i=1,2,…,m

(23)

同样运用Lagrange函数方法进行处理,可得到最终的决策函数式(24):

(24)

如果存在着从Rn到Hilbert空间上的变换:

(25)

使得:

K(x,x′)=(Φ(x)·Φ(x′))

(26)

则称定义在Rn×Rn上的函数K(x,x′)为Rn×Rn的核函数。

在SVM的建模过程中为了解决线性不可分问题,提高模型的预测精度,通常会使用核函数对原始特征进行变换,提高原始特征维度,核函数是SVM的核心部分。不同的核函数所具有的优缺点各不相同,在选择核函数时,可以考虑逐一试用并比较结果,选择模型预测效果最佳的核函数。在SVM中,核函数主要有以下四种:

1.多项式核函数(PF):

K(x,xi)=[(x·xi)+1]q

(27)

其中,q为参数。

2.径向基核函数(RBF):

(28)

其中,σ为实参数。

3.Sigmoid核函数(SF):

K(x,xi)=tanh(μ(x·xi)+c)

(29)

其中,c为实参数。

4.线性核函数(LF):

K(x,xi)=(x·xi)

(30)

三、实证分析

(一)数据选取

沪深300指数成分股的总市值达到了A股的70%左右,人们普遍认为其最能反映中国股市整体状况。为此,本文以沪深300指数2014年12月26日至2017年12月25日的5分钟高频数据为原始数据,数据量为35 136个,包括开盘价、收盘价、最高价、最低价等变量;选取2014年12月26日至2017年10月25日的33 072个数据作为样本数据,进行跳跃波动模型的构建与拟合;再将2017年10月26日至2017年12月25日的2 064个数据作为样本外数据,进行跳跃波动模型的预测,比较预测结果与真实结果。文中的数据来源为Wind数据库,数据处理软件为R。

(二)价格的波动特征

1.对数收益率特征

在样本外的数据中,将日内对数收益率作时序图和条形图,如图2所示。由对数收益率时序图可知:日内对数收益率呈现连续波动的情况,前半部分(2015年及2016年上半年日内对数收益率)波动相对较大,后半部分(2016年下半年及2017年日内对数收益率)波动相对较小,趋于平稳状态。由对数收益率条形图可知:日内对数收益率呈现出明显的“尖峰厚尾”形态,但是与标准正态分布图像有所不同。

图2 对数收益率时序图、条形图

对日内对数收益率做自相关图,如图3所示。由收益率的自相关图可知:日内对数收益率存在较弱的相关性,相关性特征在200阶内存在,并且由于跳跃的存在,使得相关性呈现出正负交替的现象,这表明对数收益率存在很强的长记忆特征。

图3 对数收益率自相关图

2.已实现方差与已实现双幂次变差特征

在样本外的数据中,将交易日的已实现波动率、已实现双幂次变差作时序图,如图4所示(上面的是已实现波动率的时序图,下面的是已实现双幂次变差的时序图)。由图4知,已实现波动率与已实现双幂次变差序列存在着明显的波动集聚现象,同时二者的分布都是有偏的。具体情况为:已实现波动率与已实现双幂次变差序列波动较大部分主要集中在第100个交易日至第290个交易日这段时间,后半部分基本处于平稳状态。

图4 已实现波动率、已实现双幂次变差时序图

由式(4)、(5)、(7)、(9)、(10)可得到一系列波动成分的统计指标,详细情况如表(1)所示。

此外,对已实现波动率与已实现双幂次变差都作自相关图,如图5、图6所示。具体的情况为:已实现波动率和已实现双幂次变差的相关特征在滞后170阶内存在,自相关性在前170阶为正数,在前70阶相关性较强,这表明已实现波动率与已实现双幂次变差均具有很强的长记忆特征。为此,根据波动率的长记忆特征,建立已实现波动率模型,进行波动率的短期预测。

表1 一系列波动成分的统计指标表

图5 已实现波动率的自相关图

图6 已实现双幂次变差自相关图

(三)模型的建立与分析

根据沪深300指数2014年12月26日至2017年12月25日的5分钟高频数据以及式(11)、(15)建立HAR-RV模型、HAR-lnRV模型,对拟合的结果进行比较,具体结果如表2、表3所示:

表2 HAR-RV模型回归结果表

表3 HAR-lnRV模型回归结果表

综合表2、表3可以看出,拟合优度较高的是HAR-lnRV模型,在变量以对数形式的情况下,HAR模型的拟合效果最优。从系数来看,对市场波动率影响最大的是短期交易者(0.419),其次是长期交易者(0.319),影响最小的是中期交易者(0.222)。模型的形式为:

考虑到高频数据的波动主要由跳跃部分、扩散部分构成,将高频数据的波动从跳跃部分、扩散部分进行建模,可得到表4的拟合结果。

表4 HAR-JV-CV模型回归结果表

由表4可知,从系数来看,对市场波动率的影响中,影响最大的3个因素为短期跳跃部分(0.489 9)、中期扩散部分(0.464 3)和中期跳跃部分(0.442 9);其次是短期扩散部分(0.335 8)和长期扩散部分(0.326 2);影响最小的是长期跳跃部分(-0.181 6)且长期跳跃部分与波动率为负相关。HAR-JV-CV模型为:

综合表1、表2、表3可知,拟合优度最高的是HAR-lnRV模型(R2为0.786),其次为HAR-JV-CV模型(R2为0.713),拟合优度最低的是HAR-RV模型(R2为0.587)。

(四)预测结果分析

分别用拟合得到的HAR-RV模型、HAR-lnRV模型、HAR-JV-CV模型进行短期波动率的预测,再将预测结果与样本外的数据进行比较,结果如表5所示:

表5 各模型预测结果表

由表5可知:在HAR-RV模型、HAR-lnRV模型、HAR-JV-CV模型预测结果中,预测效果最好的是HAR-lnRV模型,其预测正确率为69.78%;其次是HAR-JV-CV模型,其预测正确率为51.16%;预测效果最差的是HAR-RV模型,其预测正确率为41.86%。

支持向量机具有良好的预测效果,核函数是支持向量机的核心部分,将不同核函数下的支持向量机与预测效果较好的HAR-lnRV模型相结合,对比分析在不同核函数下的模型预测效果,具体结果如表6所示:

表6 不同核函数下的支持向量机的预测结果表

由表6可知:在不同核函数下的模型预测效果不尽相同,在径向基核函数下模型预测效果最优(预测正确率为81.39%),其次是Sigmoid核函数下模型预测效果最优(预测正确率为76.75%),预测结果最差的是线性核函数(预测正确率为72.10%);此外,不同类型核函数的SVM所利用的支持向量集有较大的相同部分,这意味着不同核函数之间具有较大的相似性。

将HAR-RV模型、HAR-lnRV模型、HAR-JV-CV模型的预测效果与不同核函数下的支持向量机和高频数据HAR-lnRV模型相结合的预测效果进行比较分析。将异质回归已实现波动率模型中预测效果最佳的HAR-lnRV模型与不同核函数的支持向量机相结合,所得到的的预测正确率(81.39%、74.42%、76.75%、72.1%)均高于HAR-lnRV模型的预测正确率(69.78%),这表明将异质回归已实现波动率模型与支持向量机相结合能够提高预测的精度;HAR-lnRV模型与在RBF下的支持向量机相结合,其预测正确率达到了81.39%,估计效果较佳。

四、结论与建议

高频数据为深入研究与理解金融市场行为提供了大量的素材和广阔的研究前景,但在高频数据的研究过程中所解决的问题远远小于所面临和遇到的问题,不解决这些问题高频数据的研究价值将会大打折扣。波动率是市场风险的重要衡量指标,对高频数据的波动率进行研究与预测,对投资者、政府监管部门和资本市场都具有十分重要的意义。为此,通过对高频数据的跳跃波动进行建模,对高频数据的短期波动进行预测,得到如下结论:

第一,高频数据日内对数收益率呈现出“尖峰厚尾”现象,且与标准正态分布有所不同;此外,对数收益率呈现出明显的自相关性特征。该自相关性在200阶内存在,也就是具有长记忆性,自相关性表现为正负交替并且弱相关。

第二,已实现波动率、已实现双幂次变差都具有明显的波动聚集现象,也同样存在自相关性;与对数收益率的自相关特征有所不同,已实现波动率、已实现双幂次变差的自相关性较强,且相关性为正。

第三,基于异质市场假说的HAR-RV类模型,考虑了短期(日内)、中期(周内)、长期(月内)三个时间段的波动率叠加效应。拟合得到的HAR-RV模型、HAR-lnRV模型、HAR-JV-CV模型,在验证数据中的验证结果表明:HAR-lnRV模型的预测效果最好,其次是HAR-JV-CV模型,最差的是HAR-RV模型。

第四,将预测效果最优的HAR-lnRV模型与支持向量机相结合,结果发现:径向基核函数预测效果最好(正确率为81.39%),其次是Sigmoid核函数的预测效果(正确率为76.75%),预测效果最差的是线性核函数(正确率为72.10%)。但是,HAR-lnRV模型与不同核函数下的支持向量机相结合的预测效果均优于单纯的HAR-lnRV模型地预测结果。

第五,每种核函数都各具优缺点,不同类型核函数的SVM所利用的支持向量机集有较大比例的重叠,不同核函数之间具有较大的相似性。

猜你喜欢
变差对数正确率
献血后身体会变差?别信!
个性化护理干预对提高住院患者留取痰标本正确率的影响
指数与对数
指数与对数
门诊分诊服务态度与正确率对护患关系的影响
比较底数不同的两个对数式大小的方法
对数简史
生意
生意
关于均值有界变差函数的重要不等式