基于支持向量机方法的股票预测模型

2013-11-30 08:01马耀兰
关键词:股票投资超平面股票

马耀兰

(北方民族大学 信息与计算科学学院,宁夏 银川 750021)

基于支持向量机方法的股票预测模型

马耀兰

(北方民族大学 信息与计算科学学院,宁夏 银川 750021)

利用支持向量机方法建立股票投资预测模型,经过与多项式函数及Sigmoid核函数的对比,选用Gauss径向基函数作为SVM核函数;抽取223支上市公司的股票作为研究样本,并选取对股票投资影响显著的财务指标构造样本数据集,代入支持向量机模型进行实证测算;实验表明,与BP神经网络模型相比,在样本有限的情况下,基于支持向量机的股票投资模型预测精度更高。

支持向量机;BP神经网络;预测模型

目前,在我国上海和深圳两家证券交易所上市的公司已达两千多家,投资者购买其中的一种股票,就等于选择了这家上市公司,投资者投资股市如何合理规避风险、获得一定的投资收益呢,除进行宏观经济分析和行业经济分析外,还必须对上市公司本身进行科学合理的分析,其中上市公司的内部财务状况是构成分析的主要内容。但是由于股票价格现象是一个非线性的复杂系统,传统的股票投资研究方法有诸多不足,其中计量模型方法或是用简单的财务指标做影响因子来解释股票收益,或是用未来现金流的贴现值来估计股票的内在价值,因此采用传统的模型方法研究股票投资问题,无法克服模型检验困难和推广泛化能力差这两个难题。[1]

随着非线性技术的发展,人们提出了神经网络( ANN )方法,在实际应用中80%90%的人工神经网络模型是采用误差反传算法或其变化形式的网络模型(简称BP神经网络)。许多学者对经典ANN 进行改进,将其应用于股票预测,相对于经典的ANN,在收敛精度、收敛速度和全局优化方面有所改善,但ANN方法是基于经验风险最小原则,最终解过于依赖初值,存在过学习的现象,训练过程中容易陷入局部最优问题等。[2-3]

支持向量机(简称SVM)方法是统计学习理论的一种实现方法,它也是一种前向型神经网络,可以用于分类和非线性回归。SVM方法的基本思想是:基于Mercer核展开定理,通过非线性映射把特征空间映射到Hilbert空间,在Hilbert空间中用线性学习机方法解决非线性分类和回归等问题。此外,SVM还是一种专门研究小样本情况下机器学习规律的理论,[4-5]被认为是目前针对小样本统计估计和预测学习的最佳理论。本文尝试采用支持向量机方法建立股票投资预测模型,并重点考察支持向量机股票投资模型的预测效果。

一 支持向量机(SVM网络)

支持向量机(SVM)是基于统计学习理论和结构风险最小化(SRM)原则的学习机器。而SRM原则是针对二值分类问题(两类的分类问题)提出的,因此,关于SVM的基本问题是二值分类问题,有关SVM的详细介绍,请参考文献。[4-5]

设线性可分样本集T={(x1,y1),(x2,y2),…,(xn,yn)}∈(X×Y)n,其中xi∈X=Rn,

yi∈Y={-1,1},是类别标号,i=1,2,…,n,要求在X=Rn上找一个实值函数g(x),使之可以用决策函数f (x)=sgn(g(x))推断每一个x相对应的y,也就是找到一个把Rn上的点分成两部分的规则。

下式定义一个判别函数,它是n维向量空间中的一个超平面:

g(x)=(w·x)+b=0

(1)

(2)

(2)式可统一表示为:

yi[(w·xi)+b]≥1 i=1,2,…,n

(3)

(4)

则称τ为判别函数(1)式的余量,它表示样本点与超平面之间的最小距离。余量越大,基于该超平面的分类推广能力越好。对同一组分类样本,可做出许多超平面,其中余量最大者称为最优分类超平面。从(4)式可知,余量最大即表示‖w‖最小,因此求最优分类超平面的问题可表述为下列二次优化问题。

s.t. yi[(w·xi)+b]≥1 i=1,2,…,n

(5)

以上目标函数是严格上凹的二次型,约束函数是下凹的,这是一个严格凸规划问题,可以转换成拉格朗日(Lagrange)问题进行求解。因此,可以定义如下的Lagrange函数:

(6)

其中αi≥0为Lagrange乘子。由Karush-Kuhn-Tucker(KKT)条件,可将(6)式中的w和b仅用αi表示,得到原优化问题的对偶优化问题如下:

(7)

训练集线性不可分时,任何超平面都不可能完全正确的划分,此时对第i个训练点(xi,yi)引入松弛变量ξi≥0,把约束条件yi[(w·xi)+b]≥1放松为

yi[(w·xi)+b]+ξi≥1

(8)

s.t. yi[(w·xi)+b]+ξi≥1, i=1,2,…,n

(9)

其中惩罚参数Cgt;0为某个指定的常数,这一优化问题同样需要变换为用拉格朗日乘子表示的对偶问题,在高维情况下才容易求解。变换的过程与前面推导线性可分样本的对偶问题类似,得到如下对偶优化问题

其结果和可分的情况几乎完全相同,只是αi的条件有所不同。

对非线性分类问题,通过引入核函数K(xi,xj)转化为线性分类,优化问题如下:

二 实证分析

1.SVM模型输入变量的选取。

文中训练样本的指标数据来自于清华大学中国金融研究数据库公布的上市公司2008年年报的财务数据。我们随机抽取了除ST、*ST和B股以外的223支股票作为训练数据集进行分类研究,即共有223条记录,每一条记录由9个属性组成,其中前8个属性是模型的输入变量,它们是公司盈利能力、资产管理能力、偿债能力和成长能力的描述,包括:每股收益、主营业务净利率、净资产收益率、市盈率、流动比率、速动比率、总资产周转率以及资产负债率。最后一个属性,即输出变量,是对股票类别的定义,我们构造的SVM模型共分为2个类别:其中“1” 表示绩优股,“-1”表示非绩优股。有关绩优股和非绩优股的定义为:“绩优股”是指每股税后利润在全体上市公司中处于中上地位,公司上市后净资产收益率连续三年显著超过10%的股票,“非绩优股”则是不满足以上约束条件的股票。受篇幅所限,这里只给出一部分股票训练数据,如表1所示。

表1 部分股票训练数据

2.预测结果。

本文采用SVM模型、决策树和改进的BP神经网络模型进行对比实验,利用基于损失函数的标准来评价模型的预测精度,也就是用混淆矩阵作为分类规则特征的表示,它是分析分类器识别不同样本情况的有用工具。BP神经网络模型结构为8×24×1,决策树采用的是C5.0算法,由于处理实际问题中的样本信息量较大,我们利用数据挖掘软件SPSS Clementine12.0进行模型的构建,预测结果如表2所示。

表2 SVM、BP神经网络和决策树对训练样本的分类结果

3.实验结果分析。

由表2可以看出:在利用SVM建立的预测模型对股票投资价值进行预测时,其预测的正确率和误差率分别是96.86%和3.14%,223支股票中有216支分类正确,7支分类错误。而用BP神经网络模型预测的正确率和误差率分别是94.62%和5.38%,223支股票中有211支分类正确,12支分类错误。决策树模型预测的正确率为96.86%,误差率3.14%。预测结果表明:与神经网络方法相比,基于SVM股票投资模型的预测在平均正确性和平均错误性都有明显提高。另外一方面也说明,在本文中SVM模型的预测精度与决策树模型的预测精度一样。

三 结论

本文尝试用支持向量机来预测公司股票是否有投资价值,以上市公司财务指标作为输入变量,以绩优股作为输出变量,并与BP神经网络和决策树股票投资预测模型的实证结果进行对比。最后得出支持向量机股票投资模型的预测效果较优于BP神经网络。同时该研究结果也表明,在模型建立过程中,最重要的四个输入变量依次为每股收益、净资产收益率、市盈率(PEI)和总资产周转率。利用支持向量机来挑选优质股票的预测模型具有一定的科学性和可行性。

[1]韩兆洲,谢铭杰.上市公司投资价值评价模型及其实证分析[J].中央财经大学学报,2004, 24(11):71-75.

[2]C Burges.A tutorial on support vector machines for pattern recognition[J].Data Mining and Knowledge Discovery,1998,2(2):121-127.

[3]Francis E H Tay, Cao Li- juan. Application of Support Vector Machines in Financial Time Series Forecasting[J].The International Journal of Management Science, 2001(29):309-317.

[4]Vladimir N. Vapnik. The nature of statistical learning theory[M].New York: Springer-Verlag,1995.

[5]Cortes C, Vapnik V. Support vector machine [J].Machine Learning,1995(20):273-297.

[6]吴晓求,等.证券投资分析[M].北京:中国人民大学出版社,2001.

[7]邓乃扬,田英杰.数据挖掘中的新方法—支持向量机[M].北京:科学出版社,2004.

[8]张秋水,罗林开,刘晋明.基于支持向量机的中国上市公司财务困境预测[J].计算机应用,2006,26(6):105-107.

ClassNo.:O212DocumentMark:A

(责任编辑:蔡雪岚)

ForecastModelsforStocksBasedontheSupportVectorMachineApproach

Ma Yaolan

(College of Information and Computing Science, Bei Fang University of Nationality, Yinchuan, Ningxia, 750021,China)

With the SVM approach , a forecast model of stock investment value was built . By comparing with polynomial function and sigmoid function, radial basic function was selected as the kernel function of SVM. 223 stocks of Listed Companies was selected as research sample, and the financial data which influenced the stock investment value was selected to construct the sample feature set which is put into the SVM model for empirical calculation. Experimental results show that SVM-based model performed significantly better than the neural network based model in both prediction precision and speed, especially under the condition of limited training samples.

SVM; BP neural network; prediction model

马耀兰,硕士,讲师,北方民族大学。研究方向:应用概率统计。

北方民族大学科学研究项目(项目编号:2010Y040)资助。

1672-6758(2013)04-0124-2

O212

A

猜你喜欢
股票投资超平面股票
全纯曲线的例外超平面
涉及分担超平面的正规定则
以较低截断重数分担超平面的亚纯映射的唯一性问题
一种基于支持向量机中分离超平面求取的算法*
本周创出今年以来新高的股票
本周创出今年以来新高的股票
大学生股民投资理念与投资策略分析
本周连续上涨3天以上的股票
近期连续涨、跌3天以上的股票
浅析股票投资的本质及启示