基于多种统计分类方法的股票趋势预测

2017-12-21 12:11孙德山
关键词:平均线股票市场决策树

孙德山, 王 玥

(辽宁师范大学 数学学院,辽宁 大连 116029)

基于多种统计分类方法的股票趋势预测

孙德山, 王 玥

(辽宁师范大学 数学学院,辽宁 大连 116029)

股票市场是宏观经济的重要体现,也是国民经济发展的重要体现.随着股票市场的深入研究,统计方法逐渐用于分析股票数据.选用Fisher判别法、决策树、随机森林、支持向量机4种统计方法,选取粤高速B、贵州茅台、农业银行3只股票的数据,先进行LLE降维,然后进行实验.Fisher判别法和支持向量机具有较好的预测精度,可以较好地判断一定时期内的股票趋势方向,对短期投资有一定的指导作用.

Fisher判别法;随机森林;决策树;支持向量机

21世纪开始,中国股票市场制度建设越来越法制化、规范化,随着国内宏观经济矛盾的转移,人们对股票市场有了更深的认识.股权分置改革的基本完成,各支大盘股的顺利发行,使得股票市场对国民经济的发展产生重要影响.

但是,中国股票市场目前尚处于发展的初级阶段,股票市场仍存在诸多问题,从而限制了股票市场的进一步健康发展.比如股市的波动性较大、运行机制和市场结构不完善、机构投资者操纵市场、理性投资者比重较低、信息不真实等.以上问题都会影响股票市场的动态结构,对股票的价格走势产生重要的影响.

对企业和投资者来说,判断股票的未来走势是其投资是否成功的关键,对股票数据的有效分析有利于降低投资的风险.统计方法在经济、金融数据分析中发挥越来越重要的作用,研究方法也逐渐增加.本文利用多种统计方法对股票数据的运行趋势进行比较研究,为投资者提供一些参考.

1 统计方法介绍

2000年以后,中国股票市场开始飞速发展和加速扩容[1],此时对中国股票市场的研究层出不穷,也越来越深入.多种统计方法被用于分析股票市场,文献[2]使用了数据挖掘算法对股票数据进行分析预测;文献[3]运用了聚类分析和支持向量机2种方法进行研究;陈阳[4]运用神经网络和灰色拓扑预测方法建立了股票预测模型,可以在无法获得全部或较多的信息时,较为准确地预测和把握信息.

本文根据几种统计方法的特点,选用了Fisher判别法、随机森林、决策树和支持向量机4种统计方法,对3只股票的数据进行分析预测比较.比较不同方法带来的结果,并分析不同方法对股票预测的不同结论.

1.1 Fisher判别法(Fisher’s Linear Discriminant)

Fisher判别准则是对样本数据做投影,即将原来在n维空间的自变量投影到1维空间,使样本间的投影类间离散度达到最大,而类内离散度达到最小.这里借用了一元方差分析的思想,即根据组间均方差与组内均方差之比最大的原则进行判别.

1.2 决策树(Decision Tree)

决策树产生于20世纪60年代,最早也称为分类树,是用于分类的一种有监督的学习系统[5].70年代末,建立决策树的ID3算法被提出,该算法通过引进信息论的思想,提出用信息增益作为特征选择的度量,来选择相关属性作为决策树的节点.随着研究的深入,ID4、CART等算法也被提出,新算法对缺失值的处理、剪枝等技术都做了较大的改进.

ID3算法在树的每个结点以信息增益来判断选择测试属性.选择具有最高信息增益(或最大熵压缩)的属性作为当前结点的测试属性.

其中,pi是样本属于ωi的概率,用Ni/N来估计.

1.3 随机森林(Random Forest)

随机森林是由树型分类器{h(x,βk),k=1,2,…}的集合构成的组合分类器,是一种基于信息论和统计抽样理论的分类器,可以用于数据的分类.基分类器h(x,βk)是用决策树生成算法构建的分类决策树,其中,x是输入向量,βk是独立同分布的随机变量序列,决定了单棵树(基分类器)的生长过程.其步骤如下:

①随机选取样本集,并随机选取一部分作为训练样本.

②随机森林构建.针对每一个训练样本集分别建立一棵决策树,从而生成森林.

③输出结果一般采用简单多数投票法确定.

1.4 支持向量机(Support Vector Machine,SVM)

支持向量机是20世纪90年代发展起来的一种分类方法,该方法采用最优化方法解决了数据学习的问题,在较短的时间里就得到了广泛的应用.支持向量机是一种特殊的学习算法,其特点是核函数的使用和解的稀疏性[6-7].

考虑到两类可分训练样本的向量集,给定一个样本集G={(xi,yi),i=1,2,…,N},确定一个超平面wTφ(x)+b=0,其中,xi∈Rn是第i个输入向量,yi∈{-1,1},yi的2种取值分别代表着样本的2种类别.

原始的SVM分类器满足下列条件:

wTφ(xi)+b≥1,yi=1,

wTφ(xi)+b≤-1,yi=-1.

或者等价的表示方法:

yi[wTφ(xi)+b]≥1,i=1,2,…,N.

映射φ:Rn→Rm能够把输入的低维空间转化为高维特征空间,在低维空间中的数据点变为在高维空间中线性可分的数据点.

2 股票指标

股票选择的重要方式是观察股票指标的变化,股票指标也是衡量股票价值的重要因素.股票的指标分为3类:第一类摆动类指标,如收盘价、KDJ(随机指标)、RSI(相对强弱指数);第二类趋势类指标,如MACD(平滑移动平均线)、OSC(摆动指数);第三类能量类指标OBV(能量潮)、VOL(成交量).各类的指标反映了股票的不同特点,第一类指标反映了价格走向,第二类指标是行情买卖之依据,第三类指标则反映了股票的成交数量.从各类的指标各取一些,可以更好地预测股票,本文选取了收盘价、MA、VOL、MACD、CCI 5个指标来分析.

(1)收盘价

收盘价是指某种证券在1 d的交易结束前所交易的最后一笔成交价格.

(2)MA

移动平均线,将股票的某一段时期的收盘价之和除以该周期.按时间的长短分类,移动平均线可以分为长期、中期、短期3种.移动平均线可以反映出价格走势.

(3)VOL

股市中的VOL是成交量指标,是某种股票在当天成交数量的总和.当天收盘价高于当天均价,成交柱呈红色;反之,成交柱呈绿色.

(4)MACD

指数平滑移动平均线,通过对数型平滑移动平均线EMA的离差状况作为判断行情的基础,通过乖离曲线(DIF)以及DIF值的指数型平滑移动平均线(DEA)这2条曲线走向之异同、乖离的描绘和计算,进而判断市势的一种技术方法.

(5)CCI

CCI指标即顺势指标,是指导股票和商品期货投资的一种中短期指标.顺势指标的计算方法是先计算某段时间平均参考价与某段时间的平均值之间的距离,然后再计算该距离的某段时间的平均值.强调股市平均绝对偏差在股市技术分析中的重要性.

3 数值实验

随机选取了近期的3只股票的100个数据,分别为粤高速B,选取数据时间段为2017-01-09到2017-06-09;贵州茅台,选取时间段为2016-12-24到2017-05-31;农业银行,选取时间段为2016-03-04到2016-07-27.数据收盘价图像如图1~图3所示,其中,贵州茅台和农业银行2只股票为大盘股.贵州茅台股票呈大部分上升趋势,农业银行股票呈波浪形波动趋势,粤高速B为近期发行的新股.然后选取了股票的5个经典指标(收盘价,移动平均线,成交量,平滑移动平均线,顺势指标),利用5个经典指标对选取的数据进行分析.

图1 粤高速B收盘价Fig.1 Closing price of Guangdong Expressway B Stock

图2 贵州茅台收盘价Fig.2 Closing price of Kweichow Moutai Stock

图3 农业银行收盘价Fig.3 Closing price of Agricultural Bank Stock

实验采用R语言程序,为了使结果更加准确,这里采用了LLE降维[8],将5维数据降维到3维再进行实验.局部线性嵌入(简称LLE)试图保持领域内样本之间的线性关系.假定样本点xi的坐标能通过它的领域样本xj,xk,xl的坐标通过线性组合而重构出来,即

xi=wijxj+wikxk+wilxl.

算法的主要步骤分为3步:

(1)寻找每个样本点的k个近邻点(k是一个预先给定的值);

(2)由每个样本点的近邻点计算出该样本点的局部重建权值矩阵,定义误差函数

(3)由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值.

首先,将上述3个不同股票随机选取的100个数据另建一列表示涨跌情况,用“0”表示跌,用“1”表示涨.然后将原始的5组数据进行降维,经实验表明,降到3维的数据的实验效果最好.将数据分为2组,每组为50个.第一组数据作为训练样本,第二组数据作为测试样本.将训练样本数据做分析,用所得出的结论预测测试样本,并表示出预测的涨跌情况.最后和原始数据的涨跌情况对比,并判断其准确率,其结果如表1所示.

表1 测试样本实验结果

4 结 论

根据分析的结果,可以推测在一段时间内的股票动向,在将数据进行有效降维后, Fisher判别法和支持向量机分类法具有较高的分类精度.在短期预测中有一定的实用性,对股票市场的动向预测具有一定意义.但是对于长期投资来说,要综合考虑各方面因素,以便实现更好的投资决策.

[1] 陶立,宋士云.改革开放以后中国股票市场发展史略[J].聊城大学学报(社会科学版),2003(5):42-49.

[2] 冯现坤.数据挖掘技术在股票分析预测中的应用研究[D].桂林:桂林理工大学,2012.

[3] 狄明明,孙德山.聚类分析和支持向量机在股票研究中的应用[J].计算机技术与发展,2009,19(6):229-231.

[4] 陈阳.股票预测模型研究[D].哈尔滨:哈尔滨工程大学,2007.

[5] 华勇,张云龙.决策树算法在信息资产识别中的应用[C]∥2011年全国电子信息技术与应用学术会议论文集,2011.

[6] 王炜,郭小明.关于核函数的选取方法[J].辽宁师范大学学报(自然科学版),2008,31(1):1-4.

[7] HUANG Wei,NAKAMORI Yoshiteru,WANG Shouyang.Forecasting stock market movement direction with support vector machine[J].Computers& Operations Research,2005(32):2513-2522.

[8] 杨志伟,黄秀云.基于LLE的数据降维方法研究[J].中小企业管理与科技:上旬版,2014(9):197-200.

Stockmovementforecastingbasedonmultiplestatisticalclassificationmethods

SUNDeshan,WANGYue

(School of Mathematics, Liaoning Normal University, Dalian 116029, China)

The stock market is an important embodiment of macro economy, and it also reflects how the national economy develops.With the in-depth research of stock market, statistical methods are gradually used to select and analyze the stock data.This paper uses four statistical methods, namely, Fisher’s linear discriminant, decision tree, random forest,and support vector machine.Besides, this paper chooses the statistics of three stocks, which are Guangdong Expressway B Stock, Kweichow Moutai Stock, Agricultural Bank Stock.It first carries out LLE dimension reduction and then make experiments.Fisher’s linear discriminant and support vector machine have relatively good prediction accuracy.They can determine the stock trend direction in a certain period accurately and have some guidance on short-time investment.

Fisher’s linear discriminant;decision tree;random forest;support vector machine

O212.4

A

2017-07-30

辽宁省自然科学基金资助项目(201602461)

孙德山(1970- ),男,辽宁沈阳人,辽宁师范大学副教授,博士.

1000-1735(2017)04-0440-05

10.11679/lsxblk2017040440

猜你喜欢
平均线股票市场决策树
上证指数正形成上升趋势突破形态
中国股票市场对外开放进入下半场
一种针对不均衡数据集的SVM决策树算法
货币政策与股票市场流动性的互相关关系研究
货币政策与股票市场流动性的互相关关系研究
中美贸易战下股市走势分析(上)
长期均线预示大市走势
决策树和随机森林方法在管理决策中的应用
我国股票市场的有效性研究
我国股票市场的有效性研究