基于Elastic Net分位数回归的多因子量化选股策略

2022-10-21 12:19陈友祝

科学技术创新 2022年27期

陈友祝

（杭州电子科技大学经济学院，浙江杭州 310018）

引言

量化投资是指通过编写计算机程序从而将投资策略数量化进行股票买卖，尽可能地去获得稳定且更多的收益。对于有效因子的选择，有采用专家打分、逐步回归、主成分分析、回归分析等多种有效的方式，从而构建出能获得更高收益的量化投资策略。然而上述方式很难完全刻画各因子和未来收益率的关系，难以判断因子筛选得到的因子的有效性，而基于计算机技术的回归分析有效的解决了这一问题。与传统的OLS回归相比，分位数回归具有适合异方差模型，当误差项是非正态分布时有更好的估计效果，并且还能衡量响应变量对被预测变量尾部的影响等优点。在面对金融市场的数据往往具有尖峰厚尾的非正态特征和异方差性，分位数回归的估计结果会优于最小二乘估计。事实上Koenker 等[1]早已将Lasso 惩罚项应用到分位数回归上，并被广泛应用。

Elastic Net 分位数回归方法应用基本上集中在医学、自动化、生物学等各个领域，但目前为止还未发现应用于量化投资中。本研究的创新点在于：一方面，本研究首次将Elastic Net 分位数回归应用于研究多因子量化选股中，从而解决了Lasso 惩罚项使许多变量趋向0 的问题，并将Elastic Net 分位数回归和Lasso分位数回归进行对比，分析两种方法在多因子选股策略中的差异性；另一方面，可以同时研究在不同的分位点的情况下，对股票因子的筛选与最终的结果是否有差异。

1 理论与模型

Ridge 模型首先被提出用于对回归方程进行惩罚，Tibshirani[2]对Ridge 模型进行了改进，提出了Lasso模型，Lasso 模型可以表示为

与Ridge 模型相比，Lasso 模型的惩罚项能压缩某些回归系数βj至0，从而选择出更有价值的解释变量。我们利用Zou 和Hastie[3]提出的Elastic Net 惩罚项(将Lasso 和Ridge 惩罚项结合)和分位数回归模型，构建出如下Elastic Net 分位数回归模型

其中，Elastic Net 惩罚项为Elastic Net 的罚函数是Lasso 惩罚项和Ridge惩罚项的凸性组合，当θ 为1 时，Elastic Net 回归即为Lasso 回归；当为0 时，Elastic Net 回归即为岭回归。因此Elastic Net 回归同时具有Lasso 回归和岭回归的优势，不但有良好的群组效应，又能对变量进行筛选，该模型对丰富量化投资理论具有重要的实际意义，对拓宽金融投资视野有一定参考价值。

本研究将OLS 回归替换为分位数回归，加入Elastic Net 惩罚项，建立起Elastic Net 分位数回归策略，为了保留更多的股票因子，本研究θ 取0.25，使用Yi[4]提出的SNCD（Semismooth Newton Coordinate Descent）方法来估计式（3）的系数，该算法与现有的坐标下降算法不同，SNCD 在每次迭代的过程中会同时更新每个回归系数及其相应的次梯度，它结合了半光滑Newton 和坐标下降的优势，避免了维数和非光滑带来的计算困难。

2 实证分析

2.1 因子的选取

本研究的研究对象是沪深300 指数的成分股数据，利用优矿量化平台(https://uqer.datayes.com/)，在考虑了波动性因子、运营因子、交易因子、成长因子、估值因子、均线因子、趋势因子和盈利因子后，共选取了46 个常用的有效因子[5]见表1，因子的计算方法和详细说明可查阅优矿网。

表1 因子类型和因子名称说明

2.2 Elastic Net 分位数回归回测结果

以沪深300 指数的成分股作为实证分析目标对象，所有的数据都经过上述预处理，将2013年6 月28 日至2017 年6 月30 日作为训练集，2017年7 月31 日至2019 年6 月28 日作为测试集，并将2019 年7 月1 日至2021 年7 月1 日作为回测区间，回测区间完全在样本外。将处理完的46 个因子值作为解释变量，将股票的月收益率作为被解释变量，先直接去除包括缺失值的股票，再对因子矩阵进行归一化处理后，进行Elastic Net 分位数回归分析。本研究选取了3 个分位点进行对比，首先在训练集中通过十折交叉验证得到不同分位点对应的最优λ，利用得到的最优λ 在测试集进行预测可得到回归的系数矩阵。在回测时间段，将回归得到的系数与对应的因子相乘作为该只股票的得分，取得分排在前20 的股票，再根据每只股票占总得分的占比来计算买入权重，因为频繁交易会产生过高手续费，本研究采用每月末进行调仓的策略。交易费、滑点、印花税采用优矿自身的默认设定值。

为了比较Elastic Net 分位数回归和Lasso 分位数回归差异，现将式（6）的θ 取1，构建Lasso 分位数回归，所用数据和调参方法均与Elastic Net 分位数回归相同，Elastic Net 分位数回归和Lasso 分位数回归的对比结果见表2 和图1。

表2 Elastic Net 分位数回归与Lasso 分位数回归的回测结果

图1 不同分位点的Lasso 和Elastic Net 回归的累计收益率

从变量选择的结果来看，相比于Lasso分位数回归，Elastic Net 分位数回归策略的非零系数个数仅在分位点为0.5 时与其相等，分位点为0.1 和0.9 时，Elastic Net分位数回归策略的非零系数个数都多于Lasso 分位数回归策略，这说明Elastic Net惩罚项能解决Lasso 惩罚项降低系数的值，从而使许多的系数趋于0 的问题。

从回测的股票收益来看，两种策略的年化收益率都高于基准的年化收益率，在3 个不同的分位点情况下，Elastic Net 分位数回归策略的年化收益率均高于Lasso 分位数回归策略，除了分位点为0.5 之外，两种策略的阿尔法超额收益率均高于20%。分位数为0.9 时Elastic Net 分位数回归策略表现最佳，这说明Elastic Net 分位数回归策略可以通过调整不同的分位点，从而能获得更高的年化收益率，总体而言，Elastic Net 分位数回归策略的在多因子选股中优于Lasso 分位数回归策略。

3 结论

根据多因子选股模型，为了更好的对因子进行选择，本研究比较了不同分位点Elastic Net 分位数回归和Lasso 分位数回归策略对沪深300 指数成分股的研究结果，得出了如下结论：

首先，在股票收益方面，模型风险方面的两个重要指标体现在信息比率和夏普比率的大小，超额收益率与两者的数值呈现正相关关系，总体而言Elastic Net 分位数回归策略信息比率和夏普比率均获得了不错的表现，在同一分位点，Elastic Net 分位数回归策略取得的年化收益率都高于Lasso 分位数回归策略，也获得了更高的超额收益。其次，在收益稳定性方面，对比Lasso 分位数回归策略，在3 种不同的分位点中至少存在两个分位点，Elastic Net 分位数回归策略的信息比率更高，年化换手率更低，最大回测率更低。下一步，由于不同分位点表现不同，需要对分位点进行更加细致的划分，选取更加有效的高频因子，也可以将该模型应用于股票的投资组合和开放式基金的项目中。