基于改进LSTM-ELM模型的汇率预测研究

2022-05-30 11:03董小刚曹馨潼秦喜文
中国集体经济 2022年29期
关键词:极限学习机神经网络

董小刚 曹馨潼 秦喜文

摘要:基于汇率市场的价格变动具有混沌变化的特性,单个模型训练中产生的过拟合问题也难以解决。LSTM和ELM自身结构较为复杂,难以直接组合。综合上述问题创新性采用基于权重分配的线性组合方法将两者结合,并首次应用到汇率预测领域。为了提高ELM的性能,将一种迟滞的生物神经系统特性嵌入到ELM的神经元激活函数中并且引入了微分进化算法通过最小加权目标函数对LSTM进行优化。仿真结果表明,与其他5种模型相比该集成预测模型的预测效果更好。

关键词:集成模型;外汇汇率波动;神经网络;极限学习机

一、引言

汇率是一个重要的研究课题,因为它是国家之间经济竞争的指标。自1971年以来,世界经济发生了变化,使汇率市场更加难以预测。准确的汇率预测对政策制定者、计量经济学家和从业人员都具有重要意义。一些研究试图通过分析计量经济模型,开发人工智能模型,并通过创建混合模型将两者结合,来开发更准确的模型来预测未来汇率。周晓波(2019)通过利用神经网络预测汇率,显示出了捕捉非线性的能力,使得汇率预测超越了传统的方法和随机漫步。其他研究也表明,通过修改神经网络的类型(李章晓等,2018、蒋传进,2017、李欣珏,2020)可以将预测精度提高。在大量研究结论中得出使用机器学习模型的预测效果更好。很多实验表明,ARIMA模型是最常用的模型之一,但存在两种局限性:“线性”和“数据”局限性。Meese(1983)发现,在预测12个月内的汇率时,随机游走模型的表现与其他模型一样好。学者周晓波(2019)等将GRNN和BRNN各自发挥了自己独特的优势,例如:擅长预测随机因素和趋势因素在汇率预测领域做出了新的贡献。学者操玮(2020)构建基于机器学习和传统计量经济学的混合模型,预测精度有所提高。

本文将机器学习算法应用于汇率预测中,旨在为准确预测汇率提供科学可行性的建议和决策参考,探索建立新的汇率预测建模体系。

二、模型构建

(一)ELM预测模型及改进

极限学习机(ELM)作为一种随机选择隐藏权值的单层前馈网络在2006年被提出。传统的前馈神经网络需要对网络的每个参数进行迭代优化,并且存在收敛速度慢的问题。ELM中的隐藏节点是随机选择的,并分析确定输出值。该方法取代了传统算法中的权值和偏差,提高了训练速度和泛化能力。一个典型的基于单隐藏层的ELM模型包含l个隐藏节点,输出权重β和g(x,wi,b)作为每个节点的sigmoid函数。图1显示了ELM的结构。ELM的损失函数公式如下:

其中,N和L分别是输入神经元数和隐藏神经元数;βi表示输入层和隐藏层之间的权重;bi是阈值;g(x)表示激活函数。εj=[εj1,εj2,…,εjm]是第j个样本的误差。Xj

和tj分别代表输入数据和输出数据。

由于隐藏层的随机分配,学习率或多或少会降低。将生物神经系统中常见的迟滞特性引入到原始ELM的神经元激活中,描述为:

其中,x(t)表示神经元的输入。g(x)由两个sigmoid函数组成;ca和cb是正斜率参数。当a=b且ca=cb时,滞后形式将成为传统形式。滞后函数可以避免神经元陷入局部最小值并提供更快的学习速度,因为它可以在两个网段之间切换。此外,有四个与之相关的可调参数,这意味着滞后神经元比传统形式更为灵活。

关于滞后参数的调整,本研究采用梯度下降法。对于第j个样本,当第i个隐层神经元的上分支兴奋时,滞后参数ai做如下训练:

其中η是学习率;neti第i个隐藏层神经元:neti=w■■xj+ai。

同样,当第i个隐层神经元的下分支是激发响应兴奋时,可以得到参数bi。对于另外两个正斜率ca和cb。引入中间参数d以避免它们变成负值,即d=■,这些参数计算如下:

(二)LSTM模型及优化

LSTM网络的主要目标最初是捕获长期依赖关系并在时间序列分析中确定最佳滞后顺序,对时序特性表达能力尤为突出。由于LSTM网络具有解决长期依赖问题的能力及梯度爆炸问题,在处理时间序列时往往具有很好的性能。在本小节中,提供LSTM神经网络体系结构以预测汇率, 见图2。结构图中的Xt表示t时刻的输入,ht表示t时刻细胞的状态值σ表示激活函数为sigmoid的前馈网络层,tanh表示激活函数为tanh的前馈网络层。具体计算公式如下:

其中,xt是输入值,yt是输出值;it,ot,ft分别表示输入门、输出门、遗忘门;ct是每个单元的激活向量,而mt表示每个存储块的激活向量;σ,g,h分别表示门、输入和輸出激活函数(通常是logistic sigmoid函数和tanh函数);?茚表示两个向量之间的元素乘法;此外Wix,Wim,Wic,Wfx,Wfm,Wfc,Wcx,Wcm,Wox,Wom,Woc,Wym是相应的权重系数;bi,bf,bc,bo,by是相应的误差向量。

微分进化算法是一种基于群体的优化方法。该进化算法及其改进版本已被广泛用于解决各种优化问题。由于缺乏清晰的概念帮助研究者设置隐藏层和LSTM网络各隐藏层中的相关神经元数目,许多研究者通过反复试验来选择它们,这种方法很低效。LSTM网络的预测能力会受到隐藏层和相应神经元计数的影响。在上述分析的影响下,微分进化算法被用来优化LSTM网络中隐藏层的数量(Ghl)及其神经元的数量(Gn),以增强预测能力。为了在预测能力和模型复杂性之间进行权衡,本文对适应度函数的考虑如下:

其中,Ghli,{i=1,…,D}是第i个LSTM的隐藏层数,Gn1j,{j=1,…,hl1}是相应隐藏层中神经元的数量。GnDj和Gn1j具有相似的含义。LGhl和UGhl是Ghl的下界和上界,而LGn和UGn是Gn的下界和上界。预定义的适应度函数表示为加权求和,如下:

其中,Gn1j,{j=1,1…,hl1}与公式(8)含义相同。MSE是均方误差;w1是平衡学习性能和模型复杂性的权重系数。当Ghl在[1,2]范围内,Gn在[30,230]范围内,本文中Ghl和Gn的上下限在这个范围中选取。本文将LGnl和UGnl设置为1和2,并将LGn和UGn设置为30和230。因此,本文采用了基于多种群的微分进化算法。为了进一步阐述,四个独立的群体被用来表示四种情况:第一,所有的LSTM网络是一个隐藏层;第二,两个LSTM网络是一个隐藏层,另一个是两个隐藏层;第三,一个LSTM网络是一个隐藏层,两个LSTM网络是两个隐藏层;第四,所有LSTM网络都是两个隐藏层。图3显示了在进化过程中隐藏层数及其相关神经元的四种情况的编码机制。

(三)模型集成方法

加权平均法,即将各变量乘以相应的权重数,然后求和得到总和,再除以变量的个数。混合模型可以对深度学习模型及ELM模型的预测结果进行加权累计,得到与真实值更相近的预测结果,如公式(10)所示。

本文采用标准差衡量的方法对模型权重进行定值,具体公式如下:

其中,Samplestandard是样本的标准差,ELMstandard是ELM模型预测结果的标准差,LSTMstandard是LSTM模型預测结果的标准差。

(四)LSTM-ELM混合预测模型

本文拟将练集得到LSTM和ELM模型预测值和真实值,进行加权平均,其中每一种模型的结果作为一个特征输入,真实的汇率数据作为输出,根据得到的权重,预测测试集,获得 LSTM-ELM 集成算法,过程如下:

第一,用训练集的主成分作为输入变量,并以汇率为期望输出,训练LSTM模型。训练测试结果为汇率的LSTM预测值记为ValueLSTM,由训练集数据对训练好的LSTM模型测试获得。

第二,用训练集的主成分作为输入变量,并以汇率为期望输出,训练ELM模型。训练测试结果为汇率的ELM预测值记为ValueELM,由训练集数据对训练好的LSTM模型测试获得。

第三,分别用ValueLSTM,ValueELM为自变量,用训练集的真实值Valuesample为因变量,采用上节介绍中提到的加权平均的方法,得到线性模型。

第四,对训练完成的LSTM和ELM模型带入测试集的数据,将得到的测试结果带入到混合模型中,得出最终预测结果Valuehybrid。

三、数据来源及样本选择

本研究在样本区间为2011年1月1日至2017年12月31日中,选取了美元兑英镑、日元、欧元、人民币这四种典型的每日汇率,共1820观测值(数据来源于Wind资讯)。这些数据分为样本内数据集和样本外数据集,如表1所示。

用Python对数据趋势进行观察,可看出四个汇率序列都是非平稳的,且呈现出轻微的偏态,峰度较高。因此,将原始汇率时间序列转化为四个日汇率收益率,公式如下:

其中,Qt是期对数收益率,Rt是t期名义汇率。

本文研究的每种汇率收益率的描述性统计和收益率序列的统计差异见表2。

四、实证结果分析

(一)模型精度判别

为了评估所有方法的性能,本研究采用PT检验对真实值和预测值的相对变化趋势是否同步进行检验,选择的评价指标为均方根误差,公式如下:

其中,y^i是实际值,yi是预测值,n是预测数量。

(二)各模型预测能力对比

表3和表4提供了欧元/美元、英镑/美元、日元/美元和人民币/美元汇率收益率本文所采用的所有方法的样本内和样本外表现。表3的结果表明,本文提出的方法在每个汇率回报率的样本内表现最好。LSTM模型的精度位列其次。同时,PT统计的结果表明拒绝了原假设,表明除了ARMA外,几乎所有测试方法都具有1%置信水平的预测能力。换句话说,只有ARMA模型对四种汇率收益率的方向准确性产生了相对较差的预测。表4的结果显示,本文方法在样本外数据集中保持了预测的优越性,LSTM再次成为次优方法。PT统计量检验结果表明,所有的神经网络对这四种汇率收益率的方向精度都取得了较好的预测效果。

为了检验LSTM-ELM模型的准确性,使用DM检验对预测的平均绝对误差(MAE)和均方误差(MSE)进行检验,这些模型的预测结果具有统计显著性,并优于研究中的一些基准模型。对这四种汇率收益率的样本外数据集和样本内数据集进行了DM检验。表5和表6将LSTM-ELM集成方法与这四个汇率回报的样本内数据集和样本外数据集的相应基准模型进行比较,显示了DM测试的结果。可以清楚地看到,除了LSTM-ELM模型外,在1%显著性水平上的所有模型的DM检验原假设都被拒绝,因为括号中的所有绝对值都高于临界值2.33。此外,从统计的角度,本文提出的模型在MSE和MAE两个方面都得到了验证。

表7总结了每种汇率预测的所有方法的样本内交易表现,表7的结果再次表明,我们提出的模型在所有交易收益率后的信息比率和交易成本后的年化收益(按年率计算)方面均具有优越的潜在财务盈利能力。表8总结了每种汇率预测的所有方法的样本外交易表现,表8的结果表明,就交易率而言,模型在每一种汇率预测方面优于所有其他基准。研究中列出的所有方法在样本外数据集中都产生了正回报率。

因此,通过统计评估标准和交易评估标准,本文提出的模型比所有的基准有更好的表现,显著提高了潜在的财务盈利能力。

四、结论与建议

本文提出了改进的LSTM-ELM模型,利用LSTM网络、ELM、迟滞的生物神经系统特性、微分进化算法和基于加权平均的线性集成机制,实现了高精度、更稳定的汇率预测结果。为解决ELM学习性能问题,引入了ELM的滞后激活函数,该函数具有两个优点:神经元的输出不仅依赖于输入,还依赖于导数信息,导数信息可以为神经元提供记忆;滞后函数可以避免神经元在两段之间切换时陷入局部极小值。考虑到在LSTM网络中没有一个明确的理论来设置隐藏层的数目和每个隐藏层中的神经元数目,在LSTM网络中使用一个高效且可靠的进化算法来优化这些数目。并选择RMSE作为评价指标,采用PT检验对真实值和预测值的相对变化趋势是否同步进行检验,为了检验LSTM-ELM集成方法的准确性及所产生的预测结果具有统计意义,使用DM检验对平均绝对误差和均方误差进行预测。实证结果表明,本文所建立的LSTM-ELM混合模型在预测精度、统计检验和交易收益率方面明显优于其他一些基准模型,其次是LSTM模型和ELM模型,ARMA、RBFNN、GRNN表现一般。这意味着提出的方法是一个很有前景的外汇汇率预测和交易框架。

除了汇率预测,LSTM-ELM模型还可以用于解决其他复杂的预测问题,如股票指数预测等。在本文中没有考虑到其他因素对汇率预测的影响,仅关注了单变量的预测。如果可以把影响汇率的众多因素考虑其中,整合到LSTM-ELM模型中,预测能力可能会增强。希望本文提出的模型可以对相关行业提供一定参考。

参考文献:

[1]操玮,任思儒.基于LSTM与GARCH族混合模型的人民币汇率波动预测研究[J].计算机应用研究,2020,37(S1):79-82.

[2]蒋传进.基于模型遴选规则的汇率自适应组合预测[J].统计与决策,2017(16):74-78.

[3]李欣珏.及时性自适应高维经济基本面建模与汇率预测分析[J].系统工程理论与实践,2020,40(06):1478-1494.

[4]李章晓,宋微,田野.基于深度学习和进化计算的外汇预测与投资组合优化[J].郑州大学学报(工学版),2019,40(01):92-96.

[5]周晓波,陈璋,王继源.基于混合人工神经网络的人民币汇率预测研究——兼与ARMA、ARCH、GARCH的比较[J].国际经贸探索,2019,35(09):35-49.

[6]Meese,R.A.,Rogoff,K..Empirical exchange rate models of the seventies:Do they fit out of sample?[J].1983,14:3-24.

[7]Svitlana Galeshchuk.Neural networks performance in exchange rate prediction[J].Neurocomputing,2016,172:446-452.

*基金项目:国家自然科学基金项目“高频数据的非参数统计推断”(11571051);国家自然科学基金数学天元基金项目“机器学习的数学理论与应用”(12026430)。

(作者单位:长春工业大学。秦喜文为通信作者)

猜你喜欢
极限学习机神经网络
神经网络抑制无线通信干扰探究
神经元的形态分类方法研究
基于判别信息极限学习机的高光谱遥感图像分类
极限学习机修正误差的体育成绩预测模型
基于极限学习机的玻璃瓶口缺陷检测方法研究
极限学习机在图像分割中的应用
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于关节信息和极限学习机的人体动作识别
基于支持向量机回归和RBF神经网络的PID整定