Barra风险模型研究

2021-12-30 02:09屈沛淼
科技信息·学术版 2021年4期

屈沛淼

摘要:在投资中,投资者对于风险的分析和控制是获得稳健投资回报的关键因素。从上世纪50年代开始,统计方法开始被运用在金融市场,哈里·马科维茨首次对投资风险进行量化。经过多年发展,投资组合风险分析体系日趋完善,其中一个重要的风险分析工具是多因子风险模型。多因子风险模型描述的是组合内部各资产之间收益和风险的相关性,Barra风险模型又是其中的佼佼者。Barra风险模型由风格因子、行业因子和国家因子组成,其考察与组合收益相关的证券属性,例如股票市值,市净率以及所属行业等,对于投资实践能起到降低投资组合的风险暴露,实现更精确的风险管理、提供更准确的股票组合优化结果、对投资组合或基金产品进行更深入的业绩归因和风险归因等功能,是量化投资的好帮手。因此,本文旨在对Barra风险模型各因子和构建方法进行研究概述,或有益于投资者进行风险把控。

关键词:Barra风险模型;风格因子;行业因子;纯因子

近年来,量化投资在国内大力发展,Smart-Bata产品层出不穷,其中因子投资是该类产品的核心策略。因子投资由来已久,早在1987年,Russell Investments推出了最早的两个风格指数,分别对标价值股和成长股,构造方法是将B/M(账面市值比)前一半的股票放入价值指数里,将B/M后一半的股票放入成长指数里。在这之后,S&P、MSCI以及CRSP也推出了它们的多因子风格指数。这些多因子风格指数以Capm市场因子、Fama-French系列因子、Barra系列因子等为基础,正是有了这些因子的发现,才使得Smart-Bata产品走入寻常百姓家。因此,本篇文章对金融机构广泛使用的Barra风险模型进行初步研究概述。

在股票的多因子回归分析中,因子暴露和因子收益率是两个核心的概念。因子,可以描述股票某方面特征的因素,比如行业因子描述了股票是否属于这个行业。因子暴露则是描述股票在因子所代表的特征上的取值,对于一个给定的因子,按照某种权重组合所有股票便形成了一个基于该因子构建的投资组合,该投资组合的收益率就被定义为这个因子的收益率。

价值投资思想告诉我们,股票的风险大多来源于其基本面数据,因此围绕基本面开发的因子,如P\E、P\B、PEG因子等,它们之间存在一定的线性相关。为了正确的评价一个风险因子在什么程度上有效,必须保证围绕该因子来构建的投资组合最大程度的剥离了因子之间的相关性。因此,Barra提出了纯因子模型,来对投资组合进行历史业绩归因,帮助用户改善组合绩效。

一、Barra风险模型的构成

Barra风险模型简略形式可以表示為:

其中,ri为股票的收益率,fk为因子收益率,包括风格因子收益率、行业因子收益率和国家因子收益率。Xik表示股票i在因子k上的暴露程度,一般取前一期的因子暴露度,ui表示股票的特质收益率。

1.风格因子

Barra风格因子包括市值因子、非线性市值因子、价值因子、成长因子、动量因子、盈利因子、杠杆因子、流动性因子、Beta因子和波动性因子,它们分别衡量了上市公司的市值规模、上市公司市值规模的多次方、账面价值和市值的比例、净资产和盈利预期的综合考量、3个月的短期动量、盈利和股票市值的比例、上市公司的杠杆使用情况、由交易量和频率不同带来的收益、上市公司与股票指数之间的协同效应、对大盘偏离的不确定性。

2.行业因子

行业因子是一个哑变量,例如新能源行业因子、银行行业因子、食品消费行业因子、采掘行业因子、钢铁行业因子、航空行业因子等。当股票属于该行业时,因子暴露为1,不属于该行业则因子暴露为0。对于业务涉及不同行业的大公司,则该公司以不同权重暴露于多个行业。

3.国家因子

Barra国家因子旨在降低行业因子对于市场的暴露,如跟随市场共振,出现同涨同跌现象,即回归方程中的残差在时序上并不独立,引发异方差性。因此设立国家因子,把影响行业的共同因素(国家因子,相当于行业的资本加权指数,有点像上证指数、深证指数等)剥离出来,从而降低相关性,增强模型外推效果。剥离国家因子之后的残差之间的相关性大大降低,从而更大程度的满足假设方程的稳健性。

二、Barra风险模型的构建方法

1.数据预处理

数据处理是模型回归分析的必要步骤,因为市场中存在停牌无法交易的股票、上市未满一年的股票、ST股票等,这些股票由于缺乏交易信息或者存在更高可能性被操纵股价的可能,因此在做回归前应首先剔除这些股票。其次选定样本时间范围和频率,如果需要对投资组合每天进行归因,则频率可以选择日频。接下来进行缺失值补充和数据标准化。

数据缺失是回归分析中常见的问题,对于收益率缺失,可以直接填充为0,因为股价本身波动幅度不是很大,且增量信息在可交易日迅速在股价得到反应。对于风格因子缺失,有不同的填充方法,其中行业均值/中位数填充法和回归法填充法较为常见。行业均值/中位数填充法使用缺失股票所在行业的均值/中位数,相比使用全市场股票均值/中位数,这样填充显得更加合理。回归填充法则基于完整数据建立回归方程,令完整数据集中不缺失的因子值对于有缺失的因子值回归,这种方法在数据充足的情况下,更加准确。除上述两种方法外,还可以用随机森林、KNN、K-means等方法填充。值得注意的是,如果数据缺失严重,则首先要考虑的是该因子是否还适合使用。其次,在合并大类因子时,只选用有数据的小类因子合并,将缺失的小类因子权重等权分配在有数据的小类因子上,这样可以避免估计缺失值导致的偏差。对于所有小类因子数据都缺失导致的合并后大类因子数据缺失的情况,用回归法填充。

2.因子标准化

由于不同因子量纲不同,并且分布通常不服从正态分布,需要进行标准化处理再进行回归。通用的方法是计算因子的Z-socre。在计算Z-socre之前需要去除极值,一般使用3倍标准差法,即去除超过3倍样本标准差的值。标准化的Z-socre如下:

3.因子相关性分析

变量之间相关性过高,会给回归带来严重的估计偏差。一般可以用因子间IC值的相关性系数做出大致判断。因子IC值指个股第t期在该因子上的暴露与t+1期收益率之间的相关系数,它衡量了使用该因子进行收益率预测的有效性和稳健性。

其中,为股票k在t期的因子暴露,r为k在t+1期上的收益率。如果出现相关性较强的因子,还可以采用因子斯密特正交化来增加回归的稳健性。

4.因子暴露和因子收益估计

对于因子暴露及因子收益通常有两种方法:时间序列回归和截面回归。时间序列回归是个股收益率对因子收益率进行回归,估计因子暴露。截面回归则首先进行时间序列回归确定因子暴露,然后个股收益率对因子暴露回归,估计因子收益率。

时间序列回归中,因子暴露是固定的,而因子收益率是变化的。因此,这样估计得到的因子暴露对于市场的变化反应较慢。而在横截面回归中,因子暴露会根据公司特征的变化及时变化,每一期的因子暴露和因子收益率都是变化的,从而能够及时的反映市场变化情况。另外,时间序列回归中,因子构建是以组合收益率的形式,比如Fama-French三因子模型中的HML因子,就是通过做多高账面市值比的公司,做空低账面市值比的公司形成的组合收益而构建的因子。截面回归中,则可以直接使用公司的基本面数据经过标准化后直接使用。对于Barra风险模型来说,由于其直接采用基本面数据,而不是时间序列回归中采用的组合收益率作为因子回归,因此Barra风险模型的构建适用于截面模型。这种做法的好处之二是,Barra通过纯因子对个股收益率回归,更好的实现了对组合收益的归因。

5.Barra風险模型的构建

实操中,股票收益率可以表示为市场收益率、行业收益率、风格因子收益率以及特质收益率的线性组合:

从Barra风险模型构建原理可知,国家因子是资本市场加权指数收益率,与行业因子之和完全正相关,因此,在Barra风险模型求解时,有必要加上约束条件,限制市值加权的行业因子收益之和为0,这样使得模型的解唯一。

此外,针对截面回归中存在的异方差问题,可使用加权最小二乘法(WLS)解决。在Barra风险模型中易存在异方差现象,研究发现其残差收益与股票的总市值平方根成反比,这是以总市值开根号的倒数作为WLS中的权重,即在原等式两边乘以总市值开根号的倒数,新的残差方差变为常数,此时再进行最小二乘法回归。

三、Barra风险模型对投资的指导意义

Barra风险模型构建的纯因子,天然可以为投资组合进行归因。对于该因子是否有益于投资(即做多该因子得分靠前的股票),需要考察两方面:收益率和波动率。一般来说,波动低、收益率大部分时间为证的因子可以贡献稳定的超额收益,自身系统性风险低,这样的因子有益于投资。收益率时正时负波动很大的因子,在统计上无法贡献非0的超额收益,这样的因子则可以归为风险因子,适合对组合的归因工作。