基于协整法的期货统计套利策略及其工程化实现

2021-08-04 04:26王犇

时代金融 2021年18期

王犇

关键词：平稳性协整去中心化价差配对交易参数优化样本外检验

一、统计套利的理论基础

传统上，期货投资分两大流派：趋势跟踪与套利。前者即狭义上的CTA策略是一种单边交易模式，这类策略受市场单边波动的影响较大。套利类策略则是一种既能避险又能盈利的模式，是一种风险较小、收益较为稳定的市场中性策略。两类策略各有所长，实践中一般互为补充、组合使用，赚取不同市场波动情况下的收益。

（一）统计套利概述

套利，也称价差交易，是指在买入或卖出某种交易合约的同时，卖出或买入相关的另一种合约，利用相关合约之间的价差变化进行方向相反的交易，以期望价差发生变化而获利的交易行为。套利可分为无风险套利和统计套利两大类。前者一般基于某种经济、金融理论，当相关关系式不满足时即触发交易机会，若交易收益能覆盖交易成本则有利可图，这类套利策略一般不承担或只承担极低的风险，典型例子如期权平价套利。后者是指根据历史数据的统计分析，找到不合理定价的资产标的进行套利的行为，其主要方法为数理统计与金融计量。该套利模式主要依赖于资产价格的统计、计量规律，对于交易标的的经济、金融意义关注较少。

广义上讲，一切应用数理统计知识来分析证券价格走势及差异进而制定套利交易策略的方式都可被称为统计套利。狭义上的统计套利则指配对交易策略。配对交易是统计套利的一种，其盈利模式是通过分析两只证券的不合理价差来获取。两只证券的价格走势虽然在中途会有所偏离，但最终都会趋于一致，配对交易就是利用这种价格偏离与回归来获取收益。本文所论述的统计套利特指配对交易。配对交易有若干种方法，如最小距离法、时间序列法、随机价差法、协整法等，其中协整法原理相对简单，业界应用最为广泛。

统计套利具有以下几个显著特点：第一，统计套利的理论基础是均值回归，其概念是当价差高于或低于中枢（或均值）时，会以很高的概率回归，因此价差扩大时，做空价格较高的证券，做多价格较低的证券，当价差回归均值时平仓，价差缩小时则反之;第二，统计套利一般都是程序化交易，其大量应用了统计计算等数量化知识，需要借助计算机技术的帮助，同时其交易周期一般偏高頻，也需要程序化、自动化的交易;第三，统计套利是一种典型的市场中性策略，普遍采取多空同时交易进而对冲市场风险的模式，但需要指出，虽然市场风险能够通过市场中性有效规避，但统计套利仍是一种风险套利而非无风险套利;第四，统计套利是相对价值投资，胜率较高，风险较低，收益较为稳定，该策略注重价差这一相对价值，相对于价格的波动，价差的波动率要更低，交易的风险更小，同时统计套利具有对冲性，也降低了投资组合的风险。

目前统计套利策略在我国的股票、期货市场上均有广泛应用，期货市场的统计套利策略主要有以下4种：跨期套利、跨市场套利、跨品种套利、期现套利。微观层面上，统计套利策略是一种承担有限风险，获取稳定收益的交易模式;宏观层面上，统计套利对期货市场的正常运行也起到了非常重要的作用，有助于扭曲的期货市场价格重新恢复到正常水平，其作用主要体现在以下3个方面：第一，有助于价格发现功能的有效发挥;第二，有助于市场流动性的提高;第三，有助于减缓价格的过度波动。

（二）统计套利的数学基础

首先论述平稳性。简单地说，平稳性是一个序列在时间推移中保持稳定不变的性质，是本文在进行数据分析和预测时一个非常重要的性质。平稳性可以分为严平稳和弱平稳两种。严平稳在实践中较难检验，实际意义不大，实践中经常使用的都是弱平稳。若时间序列的均值、方差和自协方差都不依赖于时间t，则可以称其为弱平稳或协方差平稳。实践中对于平稳性通常采用单位根检验，常见的有DF检验、ADF检验、KPSS检验等，笔者后文中使用的是DF/ADF检验。

许多经济、金融的计量模型只能在序列平稳的情况下进行，但现实中的大量金融数据是非平稳的。一种解决方案是采用差分的方法消除序列中的非平稳趋势，使得序列平稳化后建立模型;另一种途径是依靠Engle和Granger提出的协整理论及其方法。若两组时间序列都是非平稳的，但是经过一阶差分后都是平稳的，并且这两组序列经过某种线性组合后也是平稳的，就称它们之间存在协整关系。协整可被看作变量之间长期稳定的均衡关系的统计表示，基于协整的统计套利策略的盈利模式是通过两只证券的价差来获取。若发现两只证券的走势虽然在中途有所偏离，但是最终都会趋于一致，则这两只证券统计上具有协整关系，它们的价差会围绕某一个均值来回摆动，这是统计套利可以盈利的理论基础。

需要注意的是协整性和相关性是两个不同的概念，两个变量的相关性强不意味着具有协整性（在后文会看到实例）。对于协整性检验，一般采取EG两步法，其原理是对回归方程的残差进行单位根检验。从协整的角度看，若因变量能被自变量的线性组合所解释，则两者之间具有稳定的均衡关系，因变量不能被自变量解释的部分就构成了一个残差序列，这个残差序列不应该是序列相关的，即残差应该是平稳的。EG检验一般分为以下两步：第一，估计协整回归方程，得到协整系数及残差，常用方法是最小二乘回归;第二，对残差进行平稳性检验，通常是ADF检验。

二、统计套利的工程化实现

统计套利的实施流程一般包括交易对象的选取、投资组合的构建、进出场和止损信号机制的建立、回测与参数优化4个步骤，其中第3步尤为重要，这一步的优劣很大程度上决定了统计套利策略实施的成功与否和套利利润的大小。下面以上海期货交易所的沪铜期货合约为例，阐释如何工程化的实现一个统计套利策略。

（一）配对交易合约的选择

首先设定样本内的时间范围为2020.11.1 - 2020.11.30，备选证券为上期所的沪铜合约cu2101、cu2102、cu2103、cu2104、cu2105，分钟线级别，每个合约有约10000条数据。之所以选择1个月的数据量作为样本数据，部分原因是不同于股票，期货合约都是有生命期的，且每个期货合约的活跃生命期都不太长。对于沪铜期货，一般选择2个月后的合约作为第一个候选合约，比如现在是2020年11月，则考虑cu2101＼cu2102＼cu2103＼cu2104＼2105合约;若现在是2020年12月，则相应考虑cu2102＼cu2103＼cu2104＼cu2105＼cu2106合约，以此类推。在分钟K线这个级别上，沪铜各个合约的相关性很强。但请注意，如前所述，相关性强不意味着具有协整关系。

接下来做协整检验，两两配对，共需要10次检验。在所有满足协整关系的配对中，选择t-value最小（或p-value最小）合约对，也即协整关系最强的合约对。该协整检验1%、5%、10%置信度下的临界值分别为：-3.8975903、-3.33677162、-3.04489535，因此本文选择协整关系最强的两个合约cu2104和cu2105作为后续建模的对象。

（二）计算去中心化的价差及设定滑动窗口

首先计算cu2104和cu2105两个合约的价差序列，使用前5000条数据：

然后计算去中心化的价差序列：

接下来计算去中心化的价差序列的标准差：

去中心化的价差序列具有较明显的均值回复性，此外我们也计算了2倍标准差和3倍标准差，可以作为开仓与止损的阈值。

以上是静态计算的结果，在实务中价格是不断变化的，笔者也希望价差及其均值、标准差能动态的计算并更新，为此本文引入了滑动窗口的概念。对于每一个分钟数据，我们回溯其window_len个数据，然后计算该滑动窗口内的价差及阈值。编程中一般会使用双端队列（deque）这种数据结构来缓存数据。与之前结果相比，价差仍显示出很强的均值回复性，但阈值不再是一条直线，而是动态变化的。

（三）制定交易策略并回测

依据前面的分析，我们制定交易策略如下：

交易标的：cu2104和cu2105

交易时段：2020.11.1至2020.11.30

交易周期：1分钟K线，对于每一根K线，计算过去一段窗口期的去中心化价差（mspread）及开仓止损阈值

交易信号：多空均无仓位，价差高于正向开仓阈值，空cu2104多cu2105

多空均无仓位，价差低于负向开仓阈值，多cu2104空cu2105

空cu2104多cu2105时，价差大于正向止损阈值，平仓

空cu2104多cu2105时，价差低于0轴，平仓

多cu2104空cu2105时，价差小于负向止损阈值，平仓

多cu2104空cu2105时，价差高于0轴，平仓

资金管理：总资金10万元，每次同时交易两手沪铜（多空各1手），保证金占用6万元左右，故仓位约60%。

交易成本：目前沪铜手续费标准为合约价值的0.5%%，开仓平仓均按此标准收取，无平今优惠，回测时需考虑佣金及滑点。

以上交易策略回测结果如下：胜率56.1%，最大回撤0.52%，总收益率14.56%，年化收益率404.38%，年化夏普率12.59，盈亏额比1.26，交易次数287。

（四）参数优化

期货量化交易策略一般都是需要参数优化的，统计套利也不例外。笔者对于参数优化总的态度是：参数优化是需要的，但不可过度优化，更不可迷信参数优化的结果。无论采用何种优化方法，本质上都是样本内寻优，均无法保证样本内的最优值也是样本外最优的。此外，基于笔者的实务经验，避免参数过拟合最好的方法是减少参数的数量，参数应尽可能固化或自适应，策略迭代的核心是优化逻辑而非优化参数。

在本策略中，一共涉及3个参数，分别是滑动窗口期window_len、开仓系数k_open和止损系数k_stop。最简单的方式是在三维空间里对这3个参数进行网格寻优，但笔者从交易实战出发，不打算采用这个模式，而是希望尽量减少参数数量以避免过度拟合。滑动窗口期window_len之前设定为50，从实战经验来看，这个参数调整的意义不大，故暂时固化下来。开仓和止损均与标准差有关，故设置止损系数 = 开仓系数 + 1，也就是止损阈值永远比开仓阈值高一个标准差。这样参数的维度就被缩小为1维，只需对k_open进行遍历。此外，由于这类偏高频的策略对于手续费、滑点非常敏感，希望在考虑总利润的同时尽量减少交易次数。

计算结果表明，当开仓阈值过小时，回测结果不理想，原因是交易信号质量不高，且交易过于频繁导致交易成本较大。随着开仓阈值的不断提升，交易次数和手续费逐渐减少，总收益呈现先增后减的态势。综合考虑交易成本和总利润，本文选择k_open = 2.4这个参数，相应的k_stop = 3.4。另外也可以看出，2.4附近的回测结果没有出现太明显的变化，可见这个参数大概率是位于参数高原而非参数孤岛之上的，这也增强了我们在样本外/实盘中使用该参数的信心。

（五）样本外检验

样本外的数据笔者选择2020.12.1——2020.12.7，1周的时间长度，样本内外的数据长度之比约为4：1。这个模式也可应用于实盘，比如用过去1个月的数据训练模型，然后应用于未来1周，并以此类推滚动优化。利用优化好的参数k_open = 2.4，k_stop = 3.4，验证样本外的表现如下：胜率60%，最大回撤0.00%，总收益率4.21%，年化收益率686.58%，年化夏普率19.56%，盈亏额比1.2，交易次数36。可见该策略及优化后的参数在样本外的表现还算满意。

三、总结与展望

统计套利是典型的壁虎式投资法，没有交易机会时保持空仓，出现交易机会时及时捕捉，相比其它策略呈现风险较低收益稳定的特征。基于协整法的统计套利策略拥有比较坚实的计量金融学基础，更适合趋势不明显的震荡行情，其风险收益特征与趋势跟踪类策略形成了较好的互补，值得深入研究及实盘配置。当然，实盘中也需考虑交易成本冲击、政策风险、市场风险、资金风险等，通过积极风控和长期投资最终获得较为稳定的收益。

参考文献：

[1]金志宏.统计套利——理论与实战[M].第一版.北京.电子工业出版社.2016（5）.

[2]周佰成，刘毅男.量化投资策略[M].第一版.北京.清华大学出版社.2019（2）.

[3]朱顺泉.计量经济分析及其Python应用[M].第一版.北京.清华大學出版社.2020（12）.

作者单位：海通期货股份有限公司，硕士研究生，海通期货研究员