指数收益率的波动率预测

2021-02-04 07:53张云杰

时代金融 2021年1期

张云杰

摘要：本文以具有代表性的9个中国股市指数的高频价格和每日收盘价（时间窗口是2013年至2018年）作为数据源，比较广义自回归条件异方差模型（简称GARCH模型，下同）和high-frequency-basedvolatilitymodels（简称HEAVY模型，Shephard和Sheppard（2010），下同）的预测精度。把整体数据源分为样本内数据和样本外数据，样本内数据用于参数估计，样本外数据用于模型预测。然后通过损失函数计算损失值，损失函数值越小，则模型的预测效果越好。最后通过Diebold-Mariano检验统计量判定两个模型优劣的显著性。结果是HEAVY模型整体比GARCH模型预测效果要好。

关键词：GARCH HEAVY 最大似然估计损失函数 Diebold-Mariano检验统计量

一、引言

20世纪90年代以后，随着信息技术和互联网技术的迅速发展，市场交易信息和资产价格信息获取也更加方便和及时。因此，通过信息技术的帮助，研究人员可以获得高频的交易数据，例如10分钟、5分钟、1分钟的交易数据。同理，获取数据的频率越高，获取的交易信息就越多，分析者做出精准预测的把握性就越大，使得研究结果更精确、更有说服力，可以提高相关领域的风险管理能力。金融风险的大小通常是由标的资产价格或收益的波动率来衡量的，而潜在风险是需要预测相关资产的波动率来衡量的。本文波动率预测模型主要是Shephard和Sheppard（2010）引进的high-frequency-basedvolatilitymodels（简称HEAVY模型，下同）。以GARCH模型（见Bollerslev（1986））作为参照，对中国股市的代表性指数数据分别进行GARCH模型和HEAVY模型建模，分析并對比它们各自的预测值和预测精度，为相关风险投资者和决策者提供更加科学、精准的预测方法。

二、文献回顾

（一）GARCH模型研究

资产的波动率被广泛地应用在期权定价、风险管理中。这种指标的确立促进了自回归条件异方差模型（简称ARCH模型，Engle（1982）和GARCH模型的发展。GARCH模型是在ARCH模型的基础上增加了异方差函数的P阶自相关性。在GARCH模型的结构里，关键成分就是条件方差。当GARCH模型中自回归多项式部分存在单位根时，就可以将模型变成intergratedGARCH（简称IGARCH模型），见Engle和Bollerslev（1986）。其他的对GARCH模型的研究可以参见Bollerslev（2010）.

（二）已实现测度模型研究

标准的GARCH模型采用每日收益的平方值来刻画目前资产的波动率水平，比较适合波动率低频变化的情况，不适合用于波动率快速变化的情形，因为在有很多期波动率变化时，GARCH模型拟合波动率变化就很慢，见Andersenetal.（2003）。随着日间交易数据越来越多，一些研究者提出一系列用于度量日间波动率的指标realizedmeasures（已实现测度，简称RM，下同）。本文主要使用其中的一种，即已实现方差（realizedvariance，简称RV，下同）。Andersen和Bollerslev（1998）选择已实现测度为RV的波动率模型来研究噪音的方差和波动率之间的关系。Andersenetal.（2001）使用高频数据研究不同国家汇率的波动率和相关性，认为存在着持续的波动率和相关性的动态变化，且波动率和相关性是已实现的指标而不是潜在的指标。Barndorff-Nielsen和Shephard（2002）使用已实现测度RV来研究收益的随机性，得出了RV误差的渐近分布特性，通过这些特性来估计模型中的待估参数。

（三）基于高频数据的波动率预测模型研究

随着已实现测度模型的快速发展，波动率预测模型的发展也日新月异，呈现出丰富发展态势。Engle（2002）在估计GARCHX类型的模型时，在GARCH方程右侧加入一个RM指标，但他的模型是不完整的，不能够呈现收益率和波动率在超过一个周期之外的情形。Engle和Gallo（2006）引进了第一个完整的波动率预测模型，这个模型对每一个RM都确定一个GARCH结构。Corsi（2009）提出了HAR-RV预测模型来研究已实现波动率的长期记忆性特征，波动率在不同的时间段中有着不同的成分，结果显示了金融资产收益率具有厚尾、长期性、自相关性的特点。Shephard和Sheppard（2010）引进了另一个完整的模型，即HEAVY模型，相比于传统的GARCH模型，HEAVY模型融进了多重潜在的波动过程，包含高频价格信息，即能得出高频的波动率水平，可以进一步发现RM中的额外信息，能够产生样本外的收益。

三、模型介绍

（一）GARCH模型形式

经典的GARCH模型（GARCH1）：

（1）

具有单位根的GARCH模型（GARCH2）：

（2）

（二）HEAVY模型形式

计算RV的公式：

表示第t天交易的第j个时段的个体。是第t天，时刻交易价格的对数值，是相邻两个时刻指数交易价格取对数值的差，即时刻收益率。

HEAVY1模型主要公式：

（3）

（4）

是第t天收益率的条件方差，是第t天已实现测度的条件期望值。是t-1时刻的信息集，包含低频的收益率（，，…，）和高频的已实现测度（，，…，）。方程（3）中限制条件为ω，α≥0，β∈[0，1）;方程（4）中的限制条件为，，≥0，+∈[0，1）。

HEAVY2模型（reparameterization）主要公式：

（5）

（6）

在和稳态的条件下，，。那么我们可以把截距与期望值联系起来，这是HEAVY2的特点。。我们先用均值来估计，和，即，，。这样，HEAVY1可以通过目标参数化转换成HEAVY2。方程（6）的限制条件为。HEAVY2模型与HEAVY1模型的差别只是方程结构和待估参数发生了变化，估计模型和预测模型与HEAVY1模型完全一致。

HEAVY3模型（单位根条件下的HEAVY1）主要公式：

（7）

（8）

（4）在单位根条件下变成了（8）。其中，0<<1。Shephard和Sheppard（2010）引入HEAVY3，是为了提高模型多期预测的能力。

（三）HEAVY参数估计模型

方程（3）使用高斯拟似然函数来估计：

;

其中设定

方程（4）也使用类似于方程（3）的方式来估计：

;

其中设定

在HEAVY1参数估计模型中通过方程的迭代最优化，获得拟似然函数的最大值。令θ=（ω，，，），当θ=时，拟似然函数达到最大值。同理，HEAVY2和HEAVY3的参数估计模型也通过上述方法进行构建、求解。

（四）预测模型

GARCH的预测模型：

以t时刻为预测原点，向前一步预测：

（11）

则，其中，为低频信息集，包含低频的收益率（，，…，）。s>1，向前多步预测为：

（12）

HEAVY的预测模型：

一步向前预测为（由t-1时刻预测t时刻）：

（13）

由Shephard和Sheppard（2010）可知，多步向前预测的一般式为（s≥1）：

（14）

其中，δ=（），s=4时，表示向前一周波动率预测的总和、当s=21时，表示向前一个月的波动率预测总和。

（五）损失函数

参照Shephard和Sheppard（2010），我们使用拟似然损失函数（QLIK）。在一步或多步向前预测中，对于每个s值：

;

此处=（，）′，通过似然函数可以算出三组参数的估计值，分别为（，）。公式（15）适用于GARCH类模型、HEAVY类模型，本文用样本外收益率的平方代替真实波动率，即用代替真实的波动率，是各个模型向前一步预测或多步预测的波动率值，最后求出损失函数的累积值。

（六）显著性水平检测

判断两个模型预测精度的显著性水平，是通过计算Diebold-Mariano检验统计量（Diebold和Mariano，1995）的值，再与临界值比较。例如A预测模型与B预测模型，定义它们各期损失函数之差的均值：。loss（A）表示A模型的累积损失值，loss（B）表示B模型的累积损失值，p表示向前预测的个数，为第t天A与B模型损失函数的差值。则模型的原假设为

DM统计量的构造如下：（16）

公式（16）中的表示的标准差的一致性估计值，由异方差和自相关一致（HAC）（Newey和West，1987）的標准误差计算得到。当统计值小于临界值时，则显著，拒绝原假设。（10%、5%的显著性水平临界值分别是-1.28、-1.65）

四、实证分析

（一）数据来源和实证步骤

本文先从RESSET/DB（高频数据库）中下载了2013-2018年沪深300指数等9个指数集的实时成交价（频率为5分钟、10分钟、15分钟），再从RESSET/DB（低频数据库）中下载了相应的交易日收盘价。

首先获取各指数2013-2018年高频条件下的交易价格，通过每日的高频数据集和RV计算公式可以得出每日已实现测度，最后汇成所有年份已实现测度集。然后把已实现测度集分成两部分，前一部分作为样本内数据，后一部分作为样本外数据。样本内数据进行参数拟合，即带入高斯拟似然函数，通过求似然函数的最大值，可以得出各个模型的待估参数值，GARCH1模型中包括三个参数（）;GARCH2模型中包括两个参数（）;HEAVY1模型中包括六个参数（ω，α，β，，，）;HEAVY2模型中包括四个参数（α，β，，）;HEAVY3模型中包括四个参数（，α，β，）。样本外数据进行模型的预测。以各模型对5分钟频率条件下的上证B股指数向前一步预测为例，上证B股指数的预测结果如下图4-1所示：

图4-1 上证B股指数各模型的预测结果

由图4-1可看出5个模型的波动率预测效果很接近，分辨不出哪个模型好，因此，需要损失函数模型判断模型的优劣，需要Diebold-Mariano检验统计量确定模型的优劣程度。

将各个模型的预测值带入损失函数模型中得出损失函数值，损失函数的值越小，预测模型效果越好（此时与预测值相对应的r^2作为真实值、对照值）。最后，通过Diebold-Mariano检验统计量判断两个模型优劣的显著性水平。

在获得上述5个模型的损失值之后，从GARCH模型中找出损失函数最小值对应的模型代表GARCH模型，同理，HEAVY模型也一样。汇总了涵盖沪深两市代表性的9个样本指数的5分钟、10分钟、15分钟三种交易频率和向前1步预测、5步预测、10步预测三种预测幅度的GARCH和HEAVY模型的Diebold-Mariano检验统计量。结果如下表4-1所示：

（二）结果分析

通过表4-1中的数据可以得出以下结论：一是就显著性来说，显著的都是负数，因此，HEAVY模型比GARCH模型的预测精度明显更高、更好。二是就1步预测来看，大部分值是负数，除了纯沪市指数的上证综指和上市A股指数，因此，对于各指数向前1步预测而言，HEAVY模型的预测效果明显比GARCH模型更好。三是就5步预测来说，除了纯沪市指数的上证综指、上证A股和上证B股，剩余指数的DM统计值几乎都是负数。因此整体来看，还不能确定两个模型中哪个模型更好。但是分开来看，纯沪市指数向前5步预测，GARCH模型预测更好，除了纯沪市指数外其他指数，HEAVY模型预测效果更好。四是就10步预测来说，绝大部分的DM统计值都为负数，除了上证B股指数（不显著）。因此，对于各指数向前10步预测而言，HEAVY模型的预测效果明显比GARCH模型更好，且显著。五是从交易频率来看，标记“*”的统计值，大部分处在频率为10分钟和15分钟，仅沪深300指数的5分钟、10步预测的统计值达到“*”水平。因此，频率为10分钟和15分钟的HEAVY模型比GARCH模型更加精确，更加显著。六是通过纯沪市指数的上证综指、上证A股指数和上证B股指数的DM统计值来看，暂时还分辨不出两类模型的优劣，因为统计值有正、有负，没有规律。

五、总结与建议

（一）总结

本文通过两类波动率预测模型GARCH模型（两种）与HEAVY模型（三种）对沪深两市具有代表性的9种指数进行建模分析。文章中另外两个维度分别是交易频率和预测步长，是为了更好地从纵向和横向对比得出各个模型的优劣。本文用前三年的数据预测后三年的波动率，再和代替真实波动率的r^2进行比较，确定损失值。在参数估计和预测过程中，先通过RV公式计算出已实现测度集，分成样本内和样本外两部分，样本内数据用于参数估计，样本外数据用于波动率预测。然后将各个模型得出的预测值带入损失函数方程中，得出累积损失值。最后通过Diebold-Mariano检验统计量的正负值判断两类模型预测精度的优劣，通过显著性水平判断，确定某个模型是否比另一个模型预测效果明显要好。主要结果就是由表4-1得出的6条结论，整体而言，HEAVY模型比GARCH模型的预测精度更高，尤其是在10步预测，10分钟或15分钟的频率下更加显著，预测效果更好。

（二）建议

由表4-1可知，除了最后三个纯沪市指数之外，其他所有指数的DM统计量几乎都是负值，可以表明HEAVY模型是优于GARCH模型的，呈现显著性的地方更能说明这一点。可是，通过最后三个指数还得不出哪类模型效果好，在不同的维度下，各有各的薄弱优势，因为几乎都不显著。建议：对于证券投资者和风险投资者而言，若是目标对象是非纯沪市指数标的组合（即上证指数），则使用HEAVY模型进行指数波动率预测比GARCH模型效果更好，且很明显，无论处在何种维度条件下，这个结论几乎都成立。改进方向：一是扩大指数范围，再加入沪深两市、科创板、创业板、中小板等比较有代表性的指数进行波动率预测。二是扩大频率范围，再引入20分钟和30分钟交易频率的数据。三是加大预测步数，由于预测步数越长，损失值越大，预测越不精确，因此只增加一种向前22步预测即可。四是进行数据清理，对发现极端值的情况下，进行阈值约束。

参考文献：

[1]AndersenTG，BollerslevT.Answeringtheskeptics：Yes，standardvolatilitymodelsdoprovideaccurateforecasts[J].Internationaleconomicreview，1998，39（4）：885-905.

[2]AndersenTG，BollerslevT，DieboldFX，etal.Thedistributionofrealizedexchangeratevolatility[J].JournaloftheAmericanstatisticalassociation，2001，96（453）：42-55.

[3]AndersenTG，BollerslevT，DieboldFX，etal.Modelingandforecastingrealizedvolatility[J].Econometrica，2003，71（2）：579-625.

[4]BollerslevT.Generalizedautoregressiveconditionalheteroscedasticity[J].Journalofeconometrics，1986，31（3）：307-327.

[5]BollerslevT.GlossarytoARCH（GARCH），InT.Bollerslev，J.Russell，andM.Watson（eds.），VolatilityandTimeSeriesEconometrics：EssaysinHonorofRobertEngle.2020，oxfordUniversityPress.

[6]BarndorffNielsenOE，ShephardN.Econometricanalysisofrealizedvolatilityanditsuseinestimatingstochasticvolatilitymodels[J].JournaloftheRoyalStatisticalSociety：SeriesB（StatisticalMethodology），2002，64（2）：253-280.

[7]CorsiF.Asimpleapproximatelongmemorymodelofrealizedvolatility[J].JournalofFinancialEconometrics，2009，7（2）：174-196.

[8]Dieblod，F.，andR.Mariano.1995.ComparingPredictiveAccuracy.JournalofBusinessandEconomicStatistics，vol.13，253-265.

[9]EngleRF.AutoregressiveconditionalheteroscedasticitywithestimatesofthevarianceofUnitedKingdominflation[J].Econometrica：JournaloftheEconometricSociety，1982：987-1007.

[10]Engle，R.F.andT.Bollerslev.ModelingthePersistenceofConditionalVariances[J].EconometricReviews，1986，5，1-50.

[11]Engle，R.F.2002.NewfrontiersforARCHmodels.journalofAppliedEconometrics17：425-446.

[12]EngleRF，GalloGM.Amultipleindicatorsmodelforvolatilityusingintra-dailydata[J].JournalofEconometrics，2006，131（1）：3-27.

[13]Newey，WandK.West.1987.ASimple，PositiveSemi-Definite，HeteroskedasticityandAutocorrelationConsistentCovarianceMatrix.Econometrica，vol.55，703–708.

[14]ShephardN，SheppardK.Realisingthefuture：forecastingwithhigh-frequency-based volatility（HEAVY）models[J].JournalofAppliedEconometrics，2010，25（2）：197-231.

作者單位：首都经济贸易大学