基于基本面因子的FCM量化选股策略

2019-12-30 01:43周隽何鹏飞
时代金融 2019年33期

周隽 何鹏飞

摘要:选取沪深300成分股作为样本股,截取2015-2018年财务数据和行情数据,基于价值因子、盈利能力因子、运营能力因子、成长能力因子、偿债能力因子及品质因子六个维度选取的候选因子,利用模糊C-均值聚类(FCM)算法对有效因子进行最终筛选,构建多因子模型。本模型在对沪深300成分股测试中取收益前100股作为一览组股票形成投资组合,其测试结果大部分年份远超基准收益,其他指标相对稳健,为量化投资研究提供了新的思路。

关键词:模糊C-均值聚类 基本面因子 组合收益 超基准收益

一、引言

20世纪50年代开始,量化投资掀起了西方传统投资哲学的投资革命,量化投资是一种可以对冲市场风险,用较低的风险获得高收益的投资模式。在2008年的金融危机中,量化投资所获得的收益远超过其他投资策略的收益。通过历史的股票市场数据,建立一定的策略模型,一寻求最优的收益,这是量化投资策略的基本原则。我国2015年之后开启了大牛市行情,量化投资产品收益率喜人,量化基金进入快速发展阶段,以量化的方法进行从基本面到技术参数的全面分析,能够高效率地完成对投资选股数据信息处理与价值挖掘。

当前,量化投资的研究深受投资机构的青睐,各种量化选股策略都在我国的A股市場得到了很好的验证,尤其多因子模型的发展在量化投资方面的研究已经深入人心,多个类型的多因子模型在我国A股市场取得了很好的收益。学者范振龙[1]通过A股市场股票月收益率研究时利用Fama-Macbeth回归模型发现我国股市众多指数的差异特征。王艳萍[2]利用多因子选股模型构造了静态MV投融资模型,在边界条件不允许卖空限制下的最优解析解,一定程度上对投资权重选择了一定思考与操作建议。丁鹏[3]在《量化投资--策略与技术》一书中首次并高屋建瓴地对量化投资进行了系统化研究,为当前学者在量化投资方面提供了丰富的参考价值。书中多因子选股模型将一揽子影响因子进行初步有效因子筛选,到随后的剔冗处理及选股投资组合给出了一个行之有效的范式。此外,还有学者对多因子模型与其他模型相结合的量化模型。孙守坤[4]利用多因子模型结合轮动策略模型在沪深300股指期货方面获得了相对稳定的收益率。王赟[5]利用灰色关联分析与多因子模型相结合,其模型的实盘模拟投资效果具有一定的稳定性。

二、量化模型基本过程

(一)数据准备与预处理

本文所选用数据来自优矿平台,利用2014-2018年沪深300成分股作为样本股进行因子的初步筛选。这一时期的数据图形来看包括了上涨、下跌以及震荡趋势的完整形态过程。

(二)候选因子的选取

为了确定初步候选因子,本文从价值因子、盈利能力因子、运营能力因子、成长能力因子、偿债能力因子及品质因子六个维度共19个因子作为候选因子。其中价值因子体现票的内在价值,能够形成股价高低状态的初步判定,给投资者布局被人低估的价值股票提供

参考,以期获得价格上升时的收益。成长因子测度公司的成长性,成长性的高低公司未来的发展前景,具有较高前景期待值的公司往往会在未来形成一段时间内的股价上涨,吸引投资者的目光。品质因子反映一段时间内公司的管理与应用状况,通常直接表现为股东权益周转率及流通市值等。运营能力因子表现的是企业运营资产的效率与效益,通常投资者关心的是全部资产、流动资产营及流动资产三方面的营运能力。偿债能力因子偿债能力是用来衡量上市公司对负债能及时、足额偿还的保证程度,较大程度上决定了投资者在投股择时方面的基本选择。具体候选因子入表1所示。(数据来源:优矿平台)

(三)有效因子的选取

有效因子的选取是模型因子的初步筛选过程,也是对候选因子有效性的检验过程。具体操作是针对每一个因子,选择2014-2018年沪深300成分股在该因子排名靠前的100只,对这100只股票数据对应的年化收益率、阿尔法系数、贝塔系数、夏普比率、收益波动率、信息比率、最大回撤及年化换手率进行数据结果分析。基本数据结果如下表2。

从年化收益率来看,市现率的组合收益为0.2%,故初步剔除该因子。同理,从阿尔法系数的大小来看,若阿尔法值为负数,则表示基金没有达到贝塔值所预期的回报,因此可以剔除市现率、销售净利率、固定资产周转率、固定资产比率、营业收入增长率这几个因子。再者,通过观察收益波动率,可以剔除净资产收益率因子;通过信息比率及最大回撤可以剔除总资产增长率这个因子;对于品质因子中的流通市值数据导出缺失。剩下的因子为有效因子,包括市盈率、市净率、对数市值、对数流通市值、市销率、总资产收益率、流动资产周转率、股东权益比率、基本每股收益、股东权益周转率一共10个因子。

(四)基于FCM算法的最终因子

1973年,Bezdek提出FCM算法,该算法是一种基于划分的聚类算法,它的思想就是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。FCM把n个向量xi(i=1,2,…,n)分为c个模糊组,并求每组的聚类中心,使得非相似性指标的价值函数达到最小。本文将11个有效因子利用FCM算法聚成3类,过程是将每个因子归类为隶属度最大的某类,由于时间是2014-2018年期间的沪深300样本数据,由于时间跨度较长,可考虑使用季度数据,得到20个数据组数据,即形成20个隶属度矩阵,对其进行算数平均后得到整体隶属度矩阵。

得到的隶属矩阵作为判别与参考依据,综合进行有效分类。算术平均得到的综合隶属矩阵如表3所示。

根据上述隶属度矩阵中各个隶属度大小可以较好地进行分类,市盈率属于第1类,市净率及对数流通市值属于第2类,对数市值、市销率、总资产收益率、流动资产周转率、股东权益比率、基本每股收益及股东权益周转率属于第3类。

对于每一类因子,通过比较因子的市场盈利情况(年化收益率%)的大小进行冗余因子的剔除。参考表2的数据,第1类中仅市盈率一个因子,故无需剔除;第2类中市净率对应的收益为29.1%,对数流通市值对应的为30.1%,故保留对数流通市值这一因子;同样的办法,第3类保留的因子是对数市值这一因子。因此,相似度较低的3个最终因子分别为:市盈率、对数市值、对数流通市值。

(五)构建投资组合与选股

针对FCM算法筛选的三个因子进行单个测试,测试结果如下图1-3所示:

从上述LFLO、PE、LCAP單因子的测试结果图可以看出,这三个因子的年化收益率都比基准收益率高,并且超额收益率较平稳。

三、结果分析与评价

优矿平台提供2014年—2018年股票市场的数据,选取沪深300成分股作为样本股,以每个交易日进行单位时间回测,通过计算每个因子的权重构建投资组合,对股票池的股票进行排序,去沪深300前100支股票作为目标持仓,最后,回测的结果如下表4所示:

从上表也可以看出,4年时间里股票市场经历了熊市、盘整、牛市。最终累计超额收益达到0.71,夏普比率高达6.61。在2014年我们策略的年化收益虽然比基准收益低,但是我们的最大回撤只有9.50%。从2015年开始年化收益率都超过基准年化收益率,平均超额收益达到17.4%。明显可以看出2017一年的年化收益率为70.50%,远远超过年化收益率,而且超额收益率达到46.60%,回撤率仅有8.50%,这也说明我们的策略在股票市场行情好的时候,风险较低,策略较稳定,盈利性较强,具体收益情况如图4所示。

四、结论与建议

多因子选股模型是量化投资选股模型中基本面分析最常见、应用最广泛的模型之一。从文章的回测结果来看,模型的收益率达到37.2%,比基准年化收益率高出百分之二十多,尤其是在2015年左右收益率高达80%,说明该模型的收益率还是可观的。阿尔法为23.9%,所以该策略的实际回报率远远超过预期回报。而且贝塔值小于1,所以投资风险较小。因此,该模型能够在较长周期的时间内获得较高的收益,得到较高的超额收益率。但作为投资者仍需对预测方法进行合理选择,有效配合使用。

参考文献:

[1]范龙振,余世典.中国股票市场的三因子模型[J].系统工程学报,2002,17(6):537-546.

[2]王艳萍,陈志平,陈玉娜.多因子投资组合选择模型研究[J].工程数学学报,2012,29(6):807-814.

[3]丁鹏.量化投资——策略与技术[M].北京:电子工业出版社,2012.

[4]孙守坤.基于沪深300的量化选股模型实证分析[D].上海:复旦大学,2013.

[5]王赟.基于灰色关联分析的多因子选股模型研究[D].北京:北京交通大学,2017.

[6]Schumaker,R.P.,Chen,H.A Quantitative Stock Prediction System Based on Financial News[J].Information Processing & Management,2009,45(5):571-583.

[7]Quah,T.S.DJIA Stock Selection Assisted by Neural Network[J].Expert Systems with Applications,2008,35(12):50-58.

[8]Partha,S.,Mohanram,P.S.Separating Winners From Losers Among Low Book-to-Market Stocks Using Financial Statement Analysis[J].Review of Accounting Studies,2005,10(23):133-170.

基金项目:广东白云学院2016年校级科研项目(BYKY201613)。

(作者单位:广东白云学院)