关于股票融资跌涨幅的实证研究

2019-12-30 01:43陈佳珊张丹
时代金融 2019年33期
关键词:随机森林

陈佳珊 张丹

摘要:对影响股票融资跌涨幅的主要因素的研究,及对跌涨幅预测精度的提高,是融资领域中的一个重要内容,故本文对此展开相关研究。首先运用具有特征选取作用的Lasso模型对国内融资数据进行因素影响性分析,结果显示影响跌涨幅的主要因素为融资买入额、融资偿还额及融资余额。接着,本文在集成学习思想的基础上,运用方差倒数法对Lasso、XGBoost和随机森林进行模型赋权并线性结合,从而构造组合回归模型,提高了预测精度;最后通过评价指标RMSE和MAPE的对比发现组合模型较单项模型具有更强的稳健性和更高的预测精度。

关键词:股票融资跌涨幅  Lasso  XGBoost  随机森林  组合回归模型  预测分析

一、引言

从广义上讲,融资也叫金融,即货币资金的融通,事主经过各种方式到金融市场上设法筹集或贷放资金的行为。从狭义上讲,是公司筹集资金的行为与过程。总之,融资存在很大的风险,故如何分析影响股票融资涨跌幅的因素,为购买者提供良好的信息服务显得尤为重要。

本文的实证分析分为两个阶段:阶段一,本文借助同时具有正则化和特征选区作用的Lasso回归模型对国内融资数据进行分析,探究影响股票融资涨跌幅的主要因素。阶段二,为充分发挥Lasso、XGBoost、RF三个模型的优势,基于集成学习思想,以SSE为衡量指标对三个模型进行赋权并线性结合,从而构造回归组合模型,以预测股票融资跌涨幅。

二、相关理论与实证研究

(一)数据选取与处理

1.数据来源。本文采用的是股票代码为725的京东方A股票数据,来源于“狗熊会”官网中的“精品案例库”模块,共920个样本。

因变量为跌涨幅,自变量为现价x1、融资余额x2、融资余额增速x3、融资买入额x4、融资买入额增速x5、融资偿还额x6、融券余量x7、融券卖出量x8。

2.缺失值处理。在数据审核中发现缺失值样本仅占4.9%,缺失比例较低,故可直接进行剔除。

3.归一化。由于数据集中各变量的量纲不一致,故需进行离差标准化(转换函数如下),将值映射到[0,1]之间。

4.数据划分。在下文的模型训练中,为对模型的正确性进行检验,本研究将数据集分成测试集与训练集(比例为1:4)。

(二)多重共线性检验

多重共线性指变量之间具有高度相关的依存关系。在涉及经济的相关问题中,当多个自变量间相关性较强时,则认为违背了多元线性回归中的基本假定,此时经由最小二乘法得到的参数估计值不仅方差增大而且不稳定,易使模型估计失真。因此,在面对多元回归问题时应先进行多重共线性检验。

由于本文的输入数据是一个八维向量,故需运用条件数法进行共线性诊断:设数据矩阵为X,若矩阵XTX的特征根至少存在一个近似为0,则X的列向量(自变量)必定存在多重共线性。下面的条件数公式可用于判断是否近似为0,

同时也用于衡量多重共线性的严重程度:

·k>100:程度很小;

·100≤k≤1000:程度较强;

·k>1000:程度严重。

本文借助R语言来计算条件数,结果为,即自变量间存在较强的多重共线性。故经典多元线性回归模型不再适用于本文所探究的问题,在下面的研究中本文选择了能克服这一缺陷的Lasso、XGBoost和随机森林模型。

(三)因素评估:Lasso模型

Lasso是一种收缩估计法,“在多重共线性的情况下基于惩罚函数筛选特征变量,通过压缩系数来提取有效特征并直接剔除高自相关变量以提高识别精度,增加模型的可解释性”[1]。其基本思想是在其最小二乘的目标函数基础上加一个对系数的一阶惩罚函数,从而产生某些严格等于0的回归系数。Lasso估计被定义为

t≥0是约束值(对回归系数βj的一范式惩罚),主要通过交叉验证法确定。

本文借助R语言计算得到涨跌幅与各影响因素的关系:

故影响股票涨跌幅的因素重要性排序为:融资买入额、融券余量、融资余额、融资偿还额、现价、融资买入额增速、融券卖出量。其中融资余额增速的回归系数为0,表示对跌涨幅几乎不产生影响。

(四)涨跌幅的预测:回归组合模型

1.XGBoost与随机森林回归模型。XGBoost是一种新型梯度提升的集成学习方法,可集成许多CART回归树模型从而形成一个强分类器,并在算法上做了改进以达更高精度。“Xgboost利用损失函数的二阶泰勒展开,同时添加正则项以衡量模型复杂度和损失函数下降程度,这在一定程度上避免了过拟合”[2]。

随机森林是一种基于分类树的集成算法,在机器学习中占有重要地位。其算法的基本原理是:在CART算法的基础上加入随机化特点,即在样本数据中进行随机采样,以生成大量分类回歸树,最后以投票方式产生结果。RF模型可以处理大量的、高纬度的定量或定性数据,且对缺失值和多重共线性不敏感,泛化能力强,相对其他算法有着很大的优势。

2.回归组合模型。Lasso、XGBoost、RF是多重共线性回归问题中常用的三种模型,对数据的解释能力各有侧重点。在回归预测中通常借助某种评估标准进行模型对比与选择,但经此选出的单一模型并不代表一定优于其他模型。事实上,它们在回归领域中各有优势,相互之间也存在差异性不足,仅凭某一评估标准来选择模型并不是最优做法。

为了充分结合三种模型的优势并降低误差风险率,本文采用组合方法:训练得到三个回归模型后,用方差倒数法进行模型赋权,然后线性相加。方差倒数法的基本原理为:首先计算各个单项模型的误差平方和SSE,然后分别取倒数并归一化到[0,1]之间,即得到各模型权值。

(五)模型评估

本文以均方根误差RMSE和平均绝对误差百分率MAPE作为评价预测效果的指标,前者侧重衡量偏差,后者侧重衡量模型稳健性。

n为样本数,yi为真实值,为预测值。

运用测试数据,分别对构建的四个模型进行测试,对比原测试表签数据与预测数据并计算相应RMSE与MAPE,结果如下:

三、分析与总结

(一)关于影响因素的评估

股票融资跌涨一般经过价值和供求关系这两个根本法则起作用。根据Lasso的评估结果知,“融资买入额”对股票融资跌涨幅的影响最大,其次是“融券余量”和“融资余额”。

融资买入额与融资余额对跌涨幅具有正相关性影响。主力资金的出入一般径直影响股票的供求关系从而对股票产生重要作用,融资买入额增加可理解为发生了主力资金的流入,拉动了股票的供需从而促进股票上涨,且融资买入额越高越有可能出现持续上涨的态势。融资余额能反应股票市场的流动性和繁荣程度,可将其理解为融资助长,股票低位持续的融资买入,可视作中长期购入的机会,即融资余额越大且有持续增长势头,说明此股被大资金看好,值得投资。因此这两个因素对跌涨幅有关键的正向影响作用。

融券在跌涨幅分析中一般以融券余额为对象,由于本文数据缺乏这一指标,故此处以融券余量来替代说明,即假设融券余量高则融券余额多。在股市中,融券余额大且稳定增加,说明该股不被看好的程度越大,即后市继续看跌,不宜介入。简而言之,融券余额增加表示“看空的投资仓位增加,市场趋向卖方;反之则趋向买方”[4]。因此,短时期内融券余量上升(即融券余额增加)则股票一般具有下跌趋势,故对跌涨幅的影响是负向的。

(二)关于模型评估

在单项回归模型中,可发现Lasso在两种评价标准之下的效果是最好的,说明相较之下Lasso对本文所采用的数据集具有更好的解释能力,同时也进一步说明了运用Lasso进行因素评估的合理性。

对比组合模型与单项模型,显然无论是在RMSE还是MAPE上的对比,组合模型都具有明显优势。因为组合回归模型将三个单项模型作为基学习器,并运用方差倒数法对模型进行合理赋权,这不仅充分发挥了各模型在回归领域中的优势,还降低了随机因素对模型的影响,使得模型呈现出来的效果更贴近实际数据,即达到预测精度提高的目的。因此对于股票融资跌涨幅的预测,本文推荐使用回归组合预测模型。

参考文献:

[1]施国良,景志刚,范丽伟.基于Lasso和Xgboost的油价预测研究[J].工业技术经济,2018,37(07):31-37.

[2]张钰,陈珺,王曉峰,刘飞.Xgboost在滚动轴承故障诊断中的应用[J].噪声与振动控制,2017,37(04):166-160.

[3]穆启国,刘海龙,吴冲锋.影响股票达到涨跌幅限制的因素分析[J].系统工程理论与实践,2003(09):61-66.

[4]戴建兵.我国证券市场系统性风险防范的研究[D].上海:华东理工大学,2015.

(作者单位:华南师范大学)

猜你喜欢
随机森林
拱坝变形监测预报的随机森林模型及应用
基于随机森林算法的B2B客户分级系统的设计
基于多视角特征融合与随机森林的蛋白质结晶预测
基于TM影像的土地覆盖分类比较研究