基于机器学习的企业高送转方法研究

2020-11-16 02:11李豫方子强
数码世界 2020年10期
关键词:因子分析法机器学习

李豫 方子强

摘要:本文主要针对300多个反映上市公司是否高送转的因子于3000多个上市公司的日数据与年数据的研究,利用机器学习的思想对因子进行筛选和对上市公司未来高送转的预测。首先,对年数据和日数据进行数据预处理后,利用向后逐步回归模型对大量因子进行筛选,其次利用因子分析法对逐步回归筛选出5个公共因子,这筛选出的5个公共因子可以很好的解释上市公司是否高送转的情况,在某种程度可以解释为5个公共因子所相关的因子即为上市公司实施高送转方案影響较大的因子。最后建立多元逻辑回归模型,对公共因子做进一步解释和对上市公司第8年实施高送转进行预测。通过机器学习的算法结合经济学知识和实际生活,最终得到了很好量化上市公司实施高送转方案影响较大的因子。并结合问题一选取的因子建立了逻辑回归模型预测上市公司第八年实施高送转的情况。通过建立训练集和测试集的方法对模型进行训练的方法,最终可以将模型的预测成功率稳定在80%。从经济学和实际生活进行考虑,该模型可以很好的预测出上市公司未来高送转的情况,具有很大的现实意义。

关键词:机器学习;向后逐步回归;因子分析法

1 引言

高送转是指送红股或者转增股票的比例很大,是上市公司分红的一种方式。上市上市公司在施行高送转方案后会做除权处理,投资者可以通过填权行情从股票增值中获利,如果我们可以通过股票研究影响高送转的因子从而精确的预测出下一年会施行高送转方案的公司并提前买入的话,这将对投资的收益和安全性具有很大的现实意义。而影响高送的因子主要分成两类:一类是基本因子,另一类是成长因子。我们需要对基本因子和成长因子和其他一些因子进行数据挖掘和数据分析。

2 模型的建立

首先考量了年数据有大约24000行数据,360个因子,其中很多因子和行数据由于不同的原因出现了大量缺失值和稀疏矩阵。我们对于不同情况的空缺值进行考量,将通过以下的方案进行数据清洗。空缺值大于30%的数据列,由于缺失值过多,若使用其他数值替代会很不合理,所以对于空缺值大于30%的列直接删除,不予考虑。对于空缺值小于30%的数列,由于缺失的数据不算太多,如果直接删除又会损失掉可利用的信息,所以我们不妨对于这一部分的数据列用均值进行替代。除了每股送转的缺失值用0替代。因为每股送转的值缺失,即表示为该公司没有进行送转,那么每股送转就为0。在有些上市年限未能达到7年,就导致了一些行数据缺失。那么不妨就上市年限少于7年的公司进行删除,筛选出了7年内每年都公布了高转送预案的公司进行着重分析会对股票高送转影响因子这样复杂的问题简化了。

3 模型的求解

对于日数据,数据清理部分与年数据相同。最终删除了49个因子。保留了11个因子,对于这11个因子通过查阅相关文献,和分析其经济学意义,最终保留了平均股价和成交量这两个最能够反映企业高送转的因子。我们对每年每天每个公司的平均股价和成交量求平均值。将最后预处理后的数据加入到年数据中当成新的两个因子,在后面的步骤一起进行分析。这样我们就综合了年数据与日数据对上市公司是否实施高送转的因子进行分析了。

对因子的系数进行可视化,可以观察到,上市公司是否进行高送转的主要影响因子,最大的是股价因子。而成长因子、利润因子、方案因子只会在股价因子水平一定的条件下部分影响股票的高送转。也就是说主要影响股票高送转的还是股价、总股本、每股收益等于股价相关的因子。而上市年限、每股未分配利润,每股资本公积、是否存在定增方案等因子有一定的相关性。

4 总结

综合了机器学习的向后逐步回归、因子分析法、多元逻辑回归等模型方法对上市公司实施高送转方案的影响因子做了相应研究,得出来了影响高送转较大的因子,并对上市公司第八年实施高送转方案进行预测。首先对数据清洗和预处理筛选出了225个因子和16240个研究数据。接着对剩下的225个因子作向后逐步回归。选出了29个线性相关的因子,然后由于29个因子之间也具有很强的相关性,所以还可以利用因子分析法进行降维,最后降维保留了5个公共因子。这5个公共因子分别为成长因子、利润因子、股价因子、方案因子、其他因子。那么我们则可以认为这5个公共因子是对上市公司实施高送转方案影响较大的因子。而这五个公共因子又表示了不同因子,即这些不同因子就是企业实施高送方案影响较大的因子。最后通过分析得出股价、总股本、上市年限、每股未分配利润、每股公积金、企业负债等因子会影响上市公司实施高送转方案。通过对5个公共因子进行二分类逻辑回归,可以通过这个多元逻辑回归模型对上市公司第8年上市公司实施高送转的情况进行预测并且可以通过该模型得到的5个公共因子有更加深入的分析。最后的结论是:在得出的5个公共因子进行二元回归分析,可以得出在五个公共因子里面股价因子(股价、每股收益等)会对上市公司实施高送转有最大的影响,对于资产因子、利润因子、方案因子有一定的影响。在优化后的二分类逻辑回归用于预测上市公司高送转的情况,有80%预测成功率。认为可以在一定情况下可以相信该模型。这会对投资的安全性和收益性有很大的意义。

参考文献

[1]喻永生.股票价格预测中机器学习的应用[J].科技经济导刊,2018(12):188.

[2]唐思佳,熊昕,谢满,丁力,张上.基于机器学习的优化股票多因子模型[J].信息与电脑(理论版),2019(23):30-32.

[3]周志华.机器学习[M].北京:清华大学出版社,2016.

[4]王伟.基于深度学习的股票数据分析技术的研究与应用[D].北京:北京邮电大学,2019.

[5]王悦.上市公司高送转的影响因素分析[J].中外企业家,2019(29):15.

猜你喜欢
因子分析法机器学习
基于因子分析对乡村旅游者乡愁感知的研究
基于词典与机器学习的中文微博情感分析
建筑业综合竞争力评价研究
快递服务配送环节的顾客满意度影响因素研究
国有工业企业竞争力的实证分析
国有工业企业竞争力的实证分析
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
基于因子分析法失地农民的城市融入评价体系
基于支持向量机的金融数据分析研究