基于模糊信息粒化与支持向量机的上证50ETF量化择时研究

2018-05-22 01:16伍呈呈雷帮军
三峡大学学报(自然科学版) 2018年3期
关键词:粒化行情全局

伍呈呈 夏 平 雷帮军 胡 蓉

(1. 三峡大学 水电工程智能视觉监测湖北省重点实验室,湖北 宜昌 443002;2. 三峡大学 计算机与信息学院,湖北 宜昌 443002)

0 引 言

股市、期货市场等是一个多空双方博弈、非线性、混沌而复杂多变的系统,对其进行严谨、科学的预测非常困难.近年来,人们试图通过量化分析来探索其规律性,挖掘市场中的隐含信息,以获得良好收益.Kim[1]利用SVM模型对韩国综合股价指数(KOSPI)进行了研究预测;彭丽芳等[2]提出了基于时间序列的SVM股票预测方法,并对2002年3月14日至8月9日的沙河股份进行了研究分析;苏冰等[3]基于PCA_SVM模型对沪深300指数进行了量化择时研究.上述研究是针对发达市场的股指进行预测研究,对于国内投资者而言缺乏实际指导意义.另外,对个股进行预测研究,选择特定时间的个股,缺乏通用性,且个股的价格易受公司单边消息的影响.因此,上述的预测方法在普适性及预测精度上存在着改善的空间.

本文利用支持向量机(SVM)配合模糊信息粒化对上证50ETF进行量化择时研究,在择时研究中,没有单纯进行股价预测,而是进行涨跌预测,泛化了目标,以求获得更好的预测结果.

1 模糊信息粒化与支持向量机原理

1.1 支持向量机(SVM)

支持向量机(SVM)理论在解决非线性、小样本、高维模式识别等问题有着独特的优势.

图1 线性可分的SVM

如图1所示,现有若干带有标记的训练样本,假设有一个超平面H:

ωTx+b=0

(1)

将带有标记的样本正确地分割;同时存在两个超平面H1和H2使离H最近的两类样本分别落在H1和H2上,满足上述条件的样本即为支持向量.SVM目的是寻找到H,且使得H1和H2的距离最大化.对于线性不可分空间,引入核函数到SVM中,将输入变量映射到一个高维特征空间中,然后在该特征空间中构造最优分类超平面.此时最优目标函数为:

(2)

本文选高斯核函数:

(3)

1.2 模糊信息粒化

信息粒化[4]是将一个整体划分为多个部分,每一个部分为一个信息粒,而信息粒是一些元素的组合.

模糊信息粒化在信息粒化的基础上将信息粒序列窗口中的数据模糊化.在X上建立一个模糊信息粒子P,以此能合理描述X的模糊概念G.

P≜XisG

(4)

式中,G为以X为论域的模糊集合.式(4)本质是确定函数P=A(x);A是模糊概念G的隶属函数.本文采用W.Pedrycz的粒化方法[5],选择三角模型模糊粒子,其隶属函数:

(5)

式中,x为输入信息序列,a、m、b为参数.a参数描述相应原始信息变化的最小值,m参数描述相应原始信息变化的平均水平,b参数描述相应原始信息变化的最大值.

2 基于模糊信息粒化与SVM的量化择时建模

根据上证50ETF的开盘价Open、最高价High、最低价Low、收盘价Close、成交量Vol、成交额Mon、成交次数Fre等7类数据,选取前N天的这7类数据,归一化处理后作为SVM的输入信息,见表1,将此后5 d的收盘价当作一个信息粒进行粒化:

(6)

粒化后的收盘价R_close的涨跌作为SVM训练的标签Label,当这5 d总体涨标记为Label=+1;跌标记为Label=-1.

实验前随机选取75%左右的数据为训练集,剩余25%左右的数据则作为测试集,以保证样本数据的多样性;对可能影响预测结果的SVM模型初始输入参数g和惩罚系数c利用交叉验证的方法进行了优化处理,优化后的g和c作为后续SVM的输入参数,利用训练集进行模型训练,利用测试集进行测试验证,循环调整N值,并重复模型训练及测试验证,选择最优结果作为目标模型.

3 模型验证与分析

3.1 参数设置与实验环境

选取了201-01-04至2017-06-16的上证50ETF的日行情数据,对数据预处理和标记,选取测试集和训练集进行模型训练及测试.实验时采用了3种不同方法进行模型训练:1)直接使用SVM利用过去N天的数据训练预测接下来的一天涨跌;2)融合SVM的全局粒化模型(All_FIG_SVM),对输入输出数据进行粒化计算,再使用SVM对数据训练预测后续信息粒的涨跌;3)融合SVM的局部粒化模型(Res_FIG_SVM):对输入量不做粒化处理,对结果做粒化处理,用此模型预测后续粒化结果的涨跌.实验结果采用局部行情下最佳预测正确率ACC、全局行情下最佳预测正确率ACC及天数N、全局行情下预测最优累积收益等指标评价建模的优劣.

为保证实验结果的有效性,实验在4种不同的情况下按照上述3种方式进行实验:1)选2016-03-04至2017-06-16期间的上升行情进行测试;2)选2011-07-01至2014-07-02期间的振荡行情中进行测试;3)选2015-06-10至2016-03-03期间的下跌行情中进行测试;4)选2010-01-04至2017-06-16全局行情进行测试.

3.2 结果与分析

实验结果如表2~3、图2~3所示.

表2 局部行情下最佳预测正确率ACC (单位:%)

表3 全局行情下最佳预测正确率ACC及对应天数N

图2 全局行情下3种方法的预测准确率

图3 全局行情下3种方法的预测最优累积收益

由图2、表3可知,当N=45~50 d时,预测结果最佳;由表2、表3、图2、图3可知,3种方法建模所得到的预测结果对比分析,本文提出的算法在准确率和累积收益上均要优于前两种方法.

4 结 论

本文采用的模糊信息粒化融合支持向量机进行上证50ETF的量化择时建模,在多种不同行情下,均具有较好的预测效果.建模中利用SVM在上证50ETF量化择时中的可行性,粒化计算配合SVM的有效性,以及不同时间窗口会影响量化择时的准确性,结果表明了使用模糊信息粒化融合支持向量机算法在上证50ETF择时上具有较为理想的效果;本文建模对上证50ETF及上证50ETF期权投资有实际的指导意义及一定的应用价值.

参考文献:

[1] Gui B, Wei X, Shen Q, et al. Financial Time Series Forecasting Using Support Vector Machine[C]// Computational Intelligence and Security (CIS), 2014 Tenth International Conference on. IEEE, 2014: 39-43.

[2] 彭丽芳,孟志青,姜 华,等.基于时间序列的支持向量机在股票预测中的应用[J].计算技术与自动化,2006,25(3):88-91.

[3] 苏 冰.基于PCA-SVM模型的量化择时研究[D].天津:天津财经大学,2015.

[4] Zadeh L A. Toward a Theory of Fuzzy Information Granulation and Its Centrality in Human Reasoning and Fuzzy Logic[J]. Fuzzy Sets & Systems, 1997, 90(2): 111 -127.

[5] Bargiela A, Pedrycz W. Granular Computing: An Introduction[M]. Springer Science & Business Media, 2012.

猜你喜欢
粒化行情全局
水稻丸粒化种子直播方法研究
我国中药材种子丸粒化研究进展△
高丹草种子丸粒化配方的筛选
琯溪蜜柚汁胞粒化影响因素及防控技术综述
落子山东,意在全局
记忆型非经典扩散方程在中的全局吸引子
最新粮油批发行情
最新粮油批发行情
最新苗木行情
最新苗木行情