基于高频数据的统计套利组合策略研究

2017-06-28 16:22周明华周婷婷张敏凯

浙江工业大学学报 2017年3期

关键词：阀值套利价差

周明华，周婷婷，张敏凯

(1.浙江工业大学健行学院，浙江杭州 310023；2.浙江工业大学理学院，浙江杭州 310023)

基于高频数据的统计套利组合策略研究

周明华1，周婷婷2，张敏凯2

(1.浙江工业大学健行学院，浙江杭州 310023；2.浙江工业大学理学院，浙江杭州 310023)

采用沪深300股指期货当月连续合约与次月连续合约的1min高频数据，借鉴组合思想，引入伯努利随机变量，将GARCH(广义自回归条件异方差模型)模型与Ornstein-Uhlenbeck模型进行组合，设计出新的统计套利组合策略，并在改进的统计套利策略的基础上进行套利.我们采用动态交易的方式对改进后的交易策略的实际交易效果和模型的有效性进行检验，实证检验结果表明：对单一套利模型进行组合是必要的，组合后的整体套利收益水平相较单一模型套利收益来说明显提高了.

高频数据；GARCH；Ornstein-Uhlenbeck；组合策略；伯努利变量

目前，国内外针对统计套利的很多研究是结合一些人工智能方法与统计套利模型.Nikos等[1-2]将神经网络算法与GARCH模型结合设计了一个新的统计套利模型.Triantafyllopoulos等[3]将时变状态空间模型、贝叶斯方法两者组合，构建了时变贝叶斯自回归模型来模拟了价差的均值回复过程.伍娟[4]，杨怀东[5]将卡尔曼滤波模型、协整模型相结合，提出新的统计套利模型来解决协整系数的时变性问题.王红丽[6]基于对单一波动预测模型的优势和不足进行比较分析，同时考虑时变性情况，对单一模型配置变权重，构建提出了时变组合预测模型，并将其应用于沪深300股指期货波动的预测中，取得了较好的拟合和预测效果.张福余[7]将传统协整模型和状态空间模型结合，来达到时变参数的要求，并利用卡尔曼滤波算法估计参数，然后用时变的协整模型来拟合价差序列，寻找套利机会.虽然国内外一些学者也利用了组合思想，将一些人工智能算法引入到统计套利模型中，但很少有学者对单一统计套利模型的组合方法进行研究.

针对某一问题，从不同的角度和建模方式考虑，可以有不一样的预测方法.但单一套利模型并不在每一时段都有最优的预测效果.为此，选取了几种套利模型，对期货的当月合约和次月合约在2014年到2015年的1 min高频数据进行验证分析，发现各模型在各个时间段套利的套利次数、套利成功次数、累积收益率、平均单次收益率等都不存在一致变动现象，套利结果在某一时段效果好，另一时段效果并不一定好.因此可以考虑各模型的优点，将模型组合进行套利.在这里选取基于GARCH的统计套利方法和基于Ornstein-Uhlenbeck的统计套利方法，利用伯努利随机变量，将两种模型策略有效组合起来，然后在改进的统计套利策略的基础上进行套利，并与仅使用基于GARCH模型的套利结果和仅使用基于Ornstein-Uhlenbeck模型的套利结果相比较，发现采用组合策略进行统计套利时，其累计收益率均大于采取单一模型进行套利时的累计收益率，达到了增加收益的目的，表明组合策略是有效的.

1 统计套利模型

1.1 价差序列的计算

选取沪深300股指期货合约的当月合约IFL0和次月合约IFL1，设两合约在t时刻的价格分别为Ft和FT，则价差为

spreadt=FT-Ft

(1)

为了更方便地查看价差波动情况，对价差序列去中心化操作(价差与价差平均值的差)，所得残差序列为

Mspreadt=spreadt-mean(spreadt)

(2)

1.2 基于GARCH模型

对每一期的沪深300股指期货去中心化残差序列Mspreadt进行自相关和偏相关分析，得出Mspreadt～AR(p1)，即

Mspreadt=α1Mspreadt-1+α2Mspreadt-2+…+αp1Mspreadt-p1+residualt

(3)

再建立条件异方差函数为

residualt～σtet

(4)

ω>0,ηi≥0,λj≥0

式中et～N(0,1).

由式(3)可知：下一期的残差residualt+l为

residualt+l=Mspreadt+l-α1Mspreadt+l-1-α2Mspreadt+l-2-…-αp1Msrpeadt+l-p1

(5)

同样，可以通过式(4)得出下一期的方差σt+l.

1.3 基于Ornstein-Uhlenbeck模型

Ornstein-Uhlenbeck[8-10]是一类随机过程，它是平稳的，且具有马尔科夫性质和均值回复性质，服从正态分布.而统计套利的本质就是利用价差序列的均值回复特性进行对冲交易而获利，因此Ornstein-Uhlenbeck过程可以用来刻画期货价差时间序列的均值回复特征.假设每一期的残差序列Mspreadt服从Ornstein-Uhlenbeck过程，即

d(Mspreadt)=(-ρ·Mspreadt)dt+σdWt

(6)

式中：Wt为标准布朗运动；ρ，σ分别为常数.

对式(6)两边同乘以eρt并整理得

d(eρtMspreadt)=σeρtdW

(7)

对式(7)在区间[t,t+Δt]上积分并整理得

(8)

因为研究的数据为1 min高频数据，故取Δt=1，则由式(8)可得

Mspreadt+1=b·Mspreadt+ξt

(9)

把式(9)看作是Mspreadt的自回归过程，则可以通过对Mspreadt做一阶自回归得到b和Var(ξt)，由此得

b=-ln(ρ)

(10)

因此，可以通过Ornstein-Uhlenbeck模型来刻画残差序列的均值回复过程，并设计套利交易信号点.

1.4 动态套利交易策略

由于股指期货数据不是一成不变的，随着套利交易的不断进行，当历史数据离当前的时刻越久，它对于套利预测的影响就越低，其对于当前时刻的预测价值的影响效果超过处理数据的技术成本.静态的统计套利策略很难满足现实交易环境的需求.为此，采用滚动交易的方式[11]，即根据选定的窗口L，以前L个数据作为第一期，对其进行建模来预测第L+1个数据的残差和方差，然后对第L+1个数据进行交易.再删除第一个数据，以第2～(L+1)个数据作为第二期，对其进行建模来预测第L+2个数据的残差和方差，然后对第L+2个数据进行交易，以此类推.

2 交易信号的设计

2.1 原始统计套利模型的交易信号设计

2.2 改进的统计套利模型的交易信号设计

杨立勇[12]提出了一种统计套利策略，其原理为当价差超越上边界时建立买卖头寸，待到将来序列波动至反向下界以下时平仓，同时再建立下一轮套利的头寸，再到下一个时刻序列波动至上边界以上时，进行平仓，同时再建立下一轮操作的头寸，以此不断的持续下去.该策略的上下边界的取值只考虑了关于均衡价差的对称性，在该策略基础上，提出了改进的统计套利模型交易策略.

图1 改进的统计套利策略交易信号示意图Fig.1 Schematic diagram of trading signals for improved statistical arbitrage strategy

假设统计套利的上界阀值λ1，下界阀值λ2，止损交易阀值λ3，其中λ3>λ1>0>λ2.当所选的近月远月合约的价差residualt+1>λ1σt+1或(residualt+1<λ2σt+1)时，可采用买入近月合约卖出远月合约(或买入远月合约卖出近月合约)的套利策略.当实施跨期套利后，如果发现residualt+1<λ2σt+1或(residualt+1>λ1σt+1)时，就将两份合约同时平仓，套利终止.同时在合约平仓时刻的价位再次开仓，采取买入远月合约卖出近月合约(或买入近月合约卖出远月合约)的套利策略.直到远近合约组合的最后一个数据.另外，为了避免较大亏损，设置止损信号，当|residualt+1|≥λ3σt+1时强制平仓.

2.3 计算最优阀值

依据总收益率最大的原则，建立以总收益率为目标函数的阀值优化模型为

s.t.λ3>λ1>λ2

其中：N为交易次数；Ri为第i次交易所得收益率.该最优化问题通过遗传算法求解.

3 组合套利策略

(11)

定义组合策略选择函数为

f(yt)=ytM1+(1-yt)M2

(12)

于是，y1,y2,…,yn的似然函数为

4 实证分析

考虑股指期货的单边交易成本为0.000 04，保证金比率13%，合约乘数300.因为在套利交易过程中只涉及2张合约，故不考虑隐形成本[14-16].

实证数据采用2013年12月23日到2014年12月19日期间的沪深300股指期货的当月合约和次月合约的1min数据.由于篇幅限制关系，就考虑股指期货当月合约IF1412和下月合约IF1501的1min数据，时间段为2014年11月24日到2014年12月19日，合计20d和5 440个数据.

4.1 协整检验

首先，选取IF1412和IF1501的1min高频数据序列进行平稳性分析.采用ADF(单位根)检验的方法，对两序列及其一阶差分序列进行平稳性检验，检验结果如表1所示.

表1 序列平稳性的检验结果

由表1可知：IF1412和IF1501的一阶差分序列不存在单位根，为平稳序列，利用Johansen检验确定序列IF1412和IF1501之间的协整关系.Johansen检验结果表明序列IF1412和IF1501是协整的，可以进一步进行套利研究.

4.2 套利交易结果

为了检验策略的交易效果，从套利次数，套利成功率，累计盈利，累积收益率，年化收益率这几个指标考察策略效果.

首先，为了比较改进后的策略和原始的套利策略的优劣，先采用原始的套利策略进行套利，选取2014年11月24日到2014年12月19日时间段的当月合约IF1412、次月合约IF1501的1 min收盘价数据为研究对象，共20 d，数据总数5 440个.通过遗传算法得出GARCH模型的最优交易阀值为[1.333 5,-0.741 3,2.752 6]，Ornstein-Uhlenbeck模型的最优交易阀值为[0.701 9,-0.145 5,2.988 1]，套利的结果见表2.

表2 原始策略的套利结果

接着，对相同时间段数据，采用改进的统计套利策略进行套利，通过遗传算法得出GARCH模型的最优交易阀值为[1.407 5,-0.832 9,2.998 3]，Ornstein-Uhlenbeck模型的最优交易阀值为[0.701 9,-0.145 5,2.988 1]，套利结果见表3.

表3 改进策略的套利结果

由表2，3结果可知：相比较于原始的套利策略结果，除了套利成功率这一指标外，改进后的套利策略在套利次数，套利成功次数，累积盈利等方面都比它要好很多.

4.3 组合策略实证检验

4.3.1 组合策略的必要性分析

从表4可以看出：采用基于GARCH的套利模型与基于Ornstein-Uhlenbeck的套利模型进行套利，各个时间段套利的套利次数、套利成功次数、累积收益率和平均单次收益率等都不存在一致变动现象，累计收益率方面，这两种模型运用各频率数据进行套利时，两模型效果存在时优时劣现象.

表4 三种套利方案的月套利结果

结合GARCH模型和Ornstein-Uhlenbeck模型在统计套利的各自优势，引入单一模型组合思想.由于单一套利模型并不在每一时段都有最优的预测效果，故有必要进行组合策略.

4.3.2 组合策略的交易规则

为了尽可能多地捕捉到套利机会，在目前仓位为空的情况下，只要基于GARCH模型和基于Ornstein-Uhlenbeck模型中的一个套利满足开仓条件，即进行建仓，当两模型进行套利时同时满足各自的开仓条件时，则根据式(12)进行策略选择.

策略平仓规则为：当目前仓位非空时，先判断是通过哪个模型进行建仓的，然后判断下一时刻的残差是否满足该模型的平仓条件.止损规则也是如此.

4.3.3 组合策略套利结果

对组合套利策略有效性进行分析，将GARCH模型套利结果、Ornstein-Uhlenbeck模型套利结果与组合策略的套利结果相比较，使用相同时间段的当月合约、次月合约的1 min历史数据，通过遗传算法得出，当GARCH模型的交易阀值为[1.593 0,-0.842 9,2.994 4],Ornstein-Uhlenbeck模型的交易阀值为组合策略最优阀值为[0.512 4,-0.215 4,2.941 5]，组合策略收益达到最优，其套利结果见表5.

表5 三种统计套利策略的套利结果

由表5可知：采取组合策略进行套利时，各时段的累计收益率均大于仅采取单一模型套利的累计收益率，可见该策略达到了提高整体收益率的目的，组合策略是有效的.

2014年1月—12月时间段，三种套利方案的统计套利结果如表4所示.由表4可知：2014年1月—12月时间段，采用组合策略进行统计套利时，其累计收益率均大于采取单一模型进行套利时的累计收益率，组合策略具有普遍适用性.

5 结论

在改进的统计套利策略的基础上，将组合思想引入到统计套利策略中，并利用1min的高频数据进行实证分析.采用沪深300股指期货近月远月合约的1 min真实数据，用动态的交易方式对改进的套利交易策略和模型进行检验分析.与原始的统计策略相比较，改进的套利策略从套利次数、套利成功次数、累计盈利和年化收益率等方面都比它要好很多.在改进的统计套利策略基础上，结合GARCH模型和Ornstein-Uhlenbeck模型在统计套利的各自优势，引入伯努利随机变量将两模型进行组合，并进行实证检验.通过将GARCH模型套利结果、Ornstein-Uhlenbeck模型套利结果与组合策略的套利结果进行比较分析，发现总体收益均提高了，采用组合策略进行统计套利显著优于采取单一模型的策略.

[1] NIKOS S T, NICK K, GEORGE D D. An intelligent statistical arbitrage trading system[C]//Hellenic Conference on Advances in Artificial Intelligence. Greece: Springer-Verlag,2006:596-599.

[2] THOMAIDIS N S. Efficient statistical analysis of financial time-series using neural networks and garch models[J]. Social science electronic publishing,2007,92(6):253-262.

[3] TRIANTAFYLLOPOULOS K, MONTANA G. Dynamic modeling of mean-reverting spreads for statistical arbitrage[J]. Computational management science,2008,8(1):23-49.

[4] 伍娟.高频数据下基于成对交易的统计套利策略研究[D].长沙：中南大学,2010.

[5] 杨怀东.高频数据下基于组合预测思想的统计套利策略创新设计与实证研究[J].财务与金融，2012(4):80-87.

[6] 王红丽.基于状态转移的股指期货波动时变组合预测研究[D].重庆：重庆师范大学，2011.

[7] 张福余.基于状态空间模型的高频数据统计套利研究[D].桂林：广西师范大学,2014.

[8] 颜涵.基于股指期货高频数据的统计套利研究[D].长沙：湖南大学，2012.

[9] 李静.基于GARCH和Ornstein-Uhlenbeck模型的统计套利策略实证分析——以天胶期货跨期套利为例[D].大连：东北财经大学，2013.

[10] UHLENBECK G E, ORNSTEIN L S. On the theory of Brownian motion[J]. Physical review，1930，36(3)：823-841.

[11] 丁鹏.量化投资—策略与技术[M].北京：电子工业出版社，2012.

[12] 杨立勇.基于统计套利理论的股指期货跨期套利研究[D].上海：东华大学，2012.

[13] WONG C S, LI W K. On a logistic mixture autoregressive model[J]. Biometrika,2001,88(3):833-846.

[14] 周明华，孙长启，陈淑敏，等.基于动态均衡价差的股指期货的跨期套利研究[J].浙江工业大学学报,2016,44(1):111-118.

[15] 原俊青，张振宇，王理同，等.基于极值理论的VaR度量模型及实证研究[J].浙江工业大学学报，2013,41(5)：578-582.

[16] 周明华，俞伟，陆川，等.动态网络中行业因素与股市波动性研究[J].浙江工业大学学报，2015,43(3)：350-354.

(责任编辑：刘岩)

Research on the combination strategy of statistical arbitrage based on high-frequency data

ZHOU Minghua1, ZHOU Tingting2, ZHANG Minkai2

(1.Jianxing Honors College, Zhejiang University of Technology, Hangzhou 310023, China; 2.College of Science, Zhejiang University of Technology, Hangzhou 310023, China)

On the basis of the thought of combination strategy, a new combination strategy of statistical arbitrage which combine GARCH(generalized autoregressive conditional heteroskedastic) model and Ornstein-Uhlenbeck model by introducing into Bernoulli random variable is developed, then we arbitrage on the basis of the improved statistical arbitrage strategy. The validity of the model and the actual trading effects has been tested by the dynamic methods. The results of empirical test show that it is necessary to combine the single arbitrage models, and the overall income level of the combination strategy compared to that of single strategy is significantly improved.

high-frequency data; GARCH; Ornstein-Uhlenbeck; combination strategy; Bernoulli variable

2016-10-13

周明华(1959—)，男，浙江绍兴人，教授，研究方向为金融数学，E-mail：mhzhou@zjut.edu.cn.

F832.48

1006-4303(2017)03-0336-06

基于高频数据的统计套利组合策略研究

1 统计套利模型

2 交易信号的设计

3 组合套利策略

4 实证分析

5 结 论

5 结论