基于机器学习的基金收益预测与投资组合研究

2023-11-15 07:04王天业万宇杰段思睿罗希意
中阿科技论坛(中英文) 2023年11期
关键词:决策树线性收益

王天业 万宇杰 段思睿 张 伟 罗希意

(1.西南证券股份有限公司,重庆 400025;2.重庆邮电大学,重庆 400065)

2023年7月,国务院常务会议提出,“要活跃资本市场,提振投资者信心”。基金作为资本市场的重要组成部分,对于推动中国金融高质量发展中起着至关重要的作用。近年来,基金产品数量激增,繁多的产品数量,相对滞后的披露信息为投资者选基带来了困难,选基研究重要性凸显。

早期的选基研究围绕基金业绩与持仓数据。Grinblatt等(1994)发现,基于动量策略投资的基金表现较为优异[1];Zheng(1999)发现,规模增长较快的基金业绩表现显著占优[2];Kacperczyk等(2007)研究表明,实际益与持仓模拟收益差异较大的基金未来表现较好[3]。近年来,利用机器学习进行选基研究成为新兴研究热点。DeMiguel等(2021)发现,多种机器学习模型均可有效挖掘基金基本特征中蕴含的有效信息[4]。陈晓非(2022)根据基金历史净值,使用多种深度学习模型实现了基金收益的有效预测[5]。李仁宇等(2023)基于已有选基因子,比较多因子模型与LightGBM模型的选基性能,结果证明LightGBM模型显著占优[6]。

我国公募基金定期报告披露频率较低,披露信息滞后,鲜有利用基金定期报告披露信息的选基研究。本文将从我国公募基金定期报告披露的信息入手,分别通过线性模型与机器学习模型挖掘有效信息,探索利用基金基本特征能否有效选基,以此为基础,探讨机器学习模型相较于多因子模型在特征筛选与组合优化维度上是否更具优势。

1 实验设计

1.1 样本数据

综合考虑样本容量和实际交易需求,本文基金研究样本选用2009—2023年中国公募偏股基金,剔除了股票投资资产净值比不足50%的基金以及规模不足2亿元的基金。

本文采用的中国公募基金特征数据中,除Fama French五因子数据来自国泰安(CSMAR)数据库,其他基金特征数据均来自恒生聚源数据库。

1.2 模型说明

1.2.1 线性回归

传统的线性回归模型以最小化残差平方和为目标函数,用来捕捉一个或多个自变量同因变量的线性相关关系,即

其中,Y为因变量,X为自变量,β为回归系数,ε为回归残差。给定一组自变量取值Xi,相对应的因变量真实取值为Yi,线性回归模型预测值为,对应残差平方和(SSE)为

其中,n为样本数量,通过最小二乘法,最小化残差平方和求解模型最优回归参数,该模型称为普通最小二乘回归(OLS),其广泛应用于因子选基领域。

本文将OLS模型作为基准模型,探讨机器学习算法相较于线性回归模型在特征筛选与组合优化维度是否更具优势。

1.2.2 决策树与随机森林

根据决策树预测输出结果的不同,决策树可以分为分类树和回归树两类。决策树模型的核心逻辑是根据度量标准为依据,从树根开始,选择最优特征逐级分裂,递推生成一棵完整的决策树。目前,业界大多会使用信息增益、信息增益比、基尼系数作为分裂标准。基尼系数对应的算法为回归分类树(CART),既可以解决分类问题,又可以解决回归问题,因此本文将使用CART回归树预测基金收益。

本文将通过随机森林(Random Forest)集成算法来规避树模型的欠拟合或过拟合问题。随机森林通过重置抽样的方式随机采样,随机构造多个样本,在每个样本上生成决策树,集成随机森林中每棵决策树的预测结果形成最终预测结论。

由于随机采样的过程保证了随机性,随机森林中既有预测能力极强的强树(过拟合),也有预测能力较弱的弱树(欠拟合),当随机森林中的树足够多时,过拟合与欠拟合的预测结果相互抵消,从而保证了最终预测结果的稳定。

为了降低树模型之间的相关性,提高模型的预测性能,需要提高随机样本的随机性。因此,在进行重置抽样时,既要在样本上随机(行采样),即从含有个原始样本的样本集中以重置(放回)抽样的方式自助采样出一个新的含有个样本的样本集;也要在特征上随机(列采样),即在全部的个特征中,每次自助采样仅随机选择其中的个特征。

1.3 因子有效性检验

1.3.1 信息系数分析

信息系数(Information Coefficient,IC),是指当期因子值同下一期标的资产实际收益之间的秩相关系数,越大,模型对基金下期收益率的预测作用也就越强。

秩相关系数,又称斯皮尔曼相关系数(Spearman's rank correlation coefficient),指代排序变量之间的皮尔逊相关系数。由于在实际基金投资的过程中,基金收益表现得相对优劣更具参考意义,因此选用秩相关系数衡量线性因子有效性。

1.3.2 置换检验

线性模型可以通过信息系数分析判断特征的重要性,而非线性模型判断特征的重要性相对困难。随机森林虽然是非线性模型,但随机森林可以通过置换检验判断特征对预测的重要性。

置换检验的核心思想是:如果特征j是重要特征,那么将特征j替换为白噪声后,模型的预测误差会上升,模型的性能会下降。对样本数量为n的数据集通过重置抽样进行自助采样,如果采样集的样本数量也为n,那么没有被选到的样本约占(1-1/n)n,当n很大时,其极限约为0.368,每次通过重置抽样自助取样时,约有2/3的数据入选训练集,仍有1/3的包外数据(OOB),既然可以通过OOB数据计算包外预测误差来判断模型的泛用性,那么也可以通过计算数据置换前后随机树的预测误差来评估特征重要性。假设随机森林中共有棵随机树,特征j重要性的计算公式为

其中,εt代表随机树t的预测误差,代表包外数据,OOB代表置换为白噪声的包外数据。如果将特征j替换为白噪声后,模型的预测误差大幅增加,说明特征j对模型的预测结果非常关键,那么特征j就是一个重要特征。

1.4 模型设计

本文采用了决策树模型与随机森林集成模型,通过基金特征预测基金收益,实现基金优选。综合考虑样本容量及数据更新频率,采用月频预测。每期采用t-1期的K个基金特征作为模型输入特征,t期基金实际收益作为模型标签。完成模型训练后使用t期基金特征预测基金t+1期基金收益。

模型在整个数据集上采取滑动窗口进行训练和预测。滑动窗口大小为N,一共包含组月频基金特征及基金月度历史收益,使用N组月频数据进行模型训练,模型训练完毕后,使用当期基金特征预测基金未来一期月度收益,从而构建基金投资组合。当前窗口模型训练和收益预测完成后,窗口向后滑动1个数据点作为新的训练集。特别说明,从第2个滑动窗口开始,当前窗口训练数据与前一窗口训练数据存在部分交集。

举例说明,当滑动窗口N=12时,假设当前时点为2022年1月,训练集特征由2021年1月—2021年12月基金特征构成,训练集标签由2021年2月—2022年1月基金月度收益率构成。模型训练完成后,通过2022年1月基金特征数据预测2022年2月基金月度收益,进而根据基金收益预测结果构建2022年2月基金月度投资组合。

1.5 特征及标签说明

本文所采用的基金特征及基金收益数据均已日频计算,部分基金特征底层数据季度或半年度更新,则根据对应定期报告披露日期向后填充为日频数据。本文参考相关文献,构建了多个基金特征,基金特征详细说明如表1所示。

表1 基金特征说明

2 实证检验

2.1 特征重要性分析

通过置换检验,本文逐期计算了所选基金特征对预测基金收益的重要性,将重要性统一规模后求解平均值作为整个样本期的特征重要性;同时,计算了样本期内基金特征与基金未来一期收益的信息系数的平均值的绝对值作为可比对象(见表2)。

表2 特征重要性分析结果

信息系数分析结果表明,在线性模型中,除基金超额收益的t统计量Alpha_T与基金期末净资产TNA同基金未来一期收益的线性相关性相对显著,可以发挥一定的预测作用,其他基金特征同基金未来一期收益几乎没有线性相关性,因此在线性模型中难以对基金未来收益进行有效预测。

置换检验的结果表明,从整个样本期来看,在分类回归树与随机森林模型中,15个基金特征都会对模型的预测结果产生显著影响,这意味着这15个特征均都与基金未来收益息息相关。采用分类决策树与随机森林模型预测基金的未来收益将能够充分利用这15个基金特征中所蕴含的信息。

同信息系数分析结果相似之处在于,基金超额收益的t统计量Alpha_T与基金期末净资产TNA对整个模型的预测结果影响较大。不同之处在于,除这两个基金特征外,Fama French 5因子模型可决系数RSquare、市场因子收益率的t统计量MKT_T、价值因子收益率的t统计量HML_T、盈利因子收益率的t统计量RMW_T、投资因子收益率的t统计量CMA_T等特征在分类回归树与随机森林模型中的重要性相对较高。

相较于传统的因子挖掘方法只能捕捉变量间的线性相关关系,分类回归树及随机森林可以捕捉到变量间的线性及非线性关系,在因子挖掘上具备显著优势。

2.2 策略收益分析

为考察所选基金特征及决策树模型(Decision Tree)与随机森林(Random Forest)模型在中国公募基金市场的选基能力,本文采用2009年1月至2023年7月中国公募基金相关数据对模型进行回溯测试。根据模型预测基金收益来构建基金投资组合,通过分组检验与多空检验考察模型性能。本文同样测试了传统线性模型(OLS)的选基性能作为模型比较基准。机器学习模型与传统线性模型均采用月频滚动预测,滚动窗口N设定为24个月。机器学习模型与OLS模型的回测结果如表3所示。

表3 基金投资组合收益表现

从整体上看,通过决策树和随机森林模型预测基金收益构建的多头及多空投资组合均可获得正向的超额收益。不仅如此,从分组检验组合单调性、组合年化收益率、组合收益波动比来看,相较于传统线性模型(OLS),决策树及随机森林模型组合优化维度更具优势。

根据模型回测结果,机器学习模型预测收益信息系数IC为0.07,高于传统线性模型预测收益信息系数。机器学习模型多头组合年化收益率达到17.12%,多空组合年化收益率达到8.77%,传统线性模型年化收益率则为14.56%,多空组合年化收益率只有6.22%,说明机器学习模型构建的多头及多空组合显著占优。相较于传统线性模型分组检验的结果,机器学习模型分组单调性更强。综合以上结果,可以得出结论,相较于传统线性模型,机器学习模型组合构建能力显著占优。

3 结论与启示

本文采用了基金定期报告与基金净值数据,构建了15个基金特征,并分别构建了决策树及随机森林模型与传统线性模型,通过基金特征预测基金未来收益。

本文一方面通过置换检验与信息系数分析,证明了相较于传统线性模型仅能捕捉基金特征与未来收益的线性相关性,决策树及随机森林模型可以有效挖掘基金特征与未来收益之间的线性及非线性相关性,在因子挖掘层面具备显著优势。另一方面,通过分组检验与信息系数分析,本文对比了决策树及随机森林模型与传统线性模型的信息集成能力。实证检验结果表明,相较于传统线性模型,决策树及随机森林模型在组合优化维度更具优势。

综上所述,在我国公募基金市场,尽管公募基金定期报告披露频率相对较低,但是通过决策树及随机森林模型能够充分挖掘基金定期报告中蕴含的非线性定价信息。相较于传统线性模型,决策树及随机森林模型信息集成能力强,具备更高的预测精度,更有利于组合构建。

猜你喜欢
决策树线性收益
渐近线性Klein-Gordon-Maxwell系统正解的存在性
线性回归方程的求解与应用
螃蟹爬上“网” 收益落进兜
一种针对不均衡数据集的SVM决策树算法
二阶线性微分方程的解法
决策树和随机森林方法在管理决策中的应用
怎么设定你的年化收益目标
基于决策树的出租车乘客出行目的识别
2015年理财“6宗最”谁能给你稳稳的收益
基于肺癌CT的决策树模型在肺癌诊断中的应用