基于ARMA-SVR的短时交通流量预测模型研究

2021-12-07 05:58王博文王景升王统一张泽有
公路交通科技 2021年11期
关键词:交通流量交通流残差

王博文,王景升,朱 茵,王统一,张泽有

(1.中国人民公安大学 交通管理学院,北京 100038; 2.山东科技大学 电气信息学院, 山东 济南 250000)

0 引言

交通流量预测是智能交通系统(Intelligent Traffic System, ITS)的重要组成部分,准确的交通流量预测模型可以辅助交通信号配时、拥堵疏导等任务,是智能交通领域研究的热点问题。

早期的交通流预测任务通常采用传统统计模型,通过使用线性模型挖掘交通流序列中存在的线性关系[1-3]。如EMAMI等[4]研发了一种卡尔曼滤波器对交通流进行了有效的预测,为短期交通流量预测提供了一种低成本手段。KUMAR等[5]提出季节性自回归移动平均(Autoregressive Integrated Moving Average, ARIMA)模型,利用历史数据和实时数据对早晚高峰时段的交通流量进行短期预测,得到了良好的预测效果。但是,随着居民出行需求的提高,交通流所具备的非线性特征愈发明显,许多机器学习的算法,如支持向量机,及深度学习算法,如等及长短时记忆(Long Short-Term Memory, LSTM)、卷积神经网络(Convolutional Neural Network, CNN)、图神经网络(Graph Neural Networks, GNN)及其改进算法,被应用于短时交通流预测[6-18],这类模型多为非线性模型,以期望充分挖掘交通流序列的非线性关系。邹宗民等[19]使用粒子群算法对支持向量回归(Support Vector Regression, SVR)进行参数寻优,并将优化后的模型用于交通流预测任务中。相较于传统统计算法,提高了模型的预测准确性,相较于深度学习算法,SVR在小样本交通流序列预测中表现较好。温惠英等[20]引入双长短期记忆网络,将基准模型拆分为两个方向,并通过试验证明了模型对于非线性交通流数据具备良好的预测和泛化能力。李磊等[21]提出一种CNN和LSTM的结合方法,有效提取了交通流的时空特征,并通过大量试验证明了非线性模型对于交通流序列的预测情况较为良好。GUO等[22]构建一种基于注意力机制的时空图卷积网络,对交通流序列进行了准确的预测。单一的传统统计模型或浅层机器学习模型不能够同时挖掘交通流序列中存在的线性及非线性关系。基于深度学习的模型,尤其是基于GNN及其改进算法的模型,对于试验样本为大样本量的依赖性较高,数据计算成本高,并且时间复杂度相较于传统统计模型及浅层机器学习算法高。短时交通流预测任务作为辅助ITS进行决策的关键工作,需要预测模型对道路情况进行快速、准确的判断,对于预测实时性的要求极高。

因此,为解决小样本、快速短时交通流预测问题,并充分挖掘交通流序列中存在线性与非线性关系,本研究将对于线性数据具备良好拟合效果,并且时间复杂度较低的自回归滑动平均(Auto Regressive Moving Average,ARMA)模型与对于非线性、小样本数据的处理具有计算准确率高、时间复杂度低等优势的SVR模型进行组合,达到提高交通流预测模型预测准确率及降低模型时间复杂度的目的。

1 交通流预测方法

1.1 理论模型

1.1.1 ARMA模型

ARMA模型是目前应用最广的线性平稳时间序列预测模型,模型的形式为:

(1)

式中,yt为被预测变量;yt-1为与被预测变量相关的滞后阶;c为常数;εt为白噪声序列,服从均值为0的正态分布;αi为自相关系数(i=1,2,…,p);θi为移动平均系数(i=1,2,…,q);p,q分别为自回归、移动平均过程中的滞后阶数。

参数p,q的选择决定了ARMA模型的拟合效果。当样本量n固定时,使赤池信息准则(Akaike Information Criterion,AIC)达到最小值的(p,q)即为最佳参数组合,AIC的计算公式为:

A=2n-2lnL,

(2)

式中,n为样本个数;L为似然函数。

1.1.2 SVR模型

SVR是将支持向量机(Support Vector Machine,SVM)应用于回归问题,目的在于建立一个最优的超平面,使训练样本距离最优超平面的误差最小,此时模型达到最佳拟合效果。

对于非线性数据集(i=1,2,…,m),xi,yi分别为输入和输出。把样本从低维空间映射到高维空间,超平面公式表示为:

f(xi)=ωTΦ(xi)+b,

(3)

式中,ω为超平面的法向量;Ф(xi)为xi映射到高维空间后的特征向量;b为位移项。

模型的训练过程即参数ω,b的寻优过程,最终得到一组参数ω,b使f(xi)最接近yi,将问题转化为凸二次规划问题,表示为:

(4)

使用拉格朗日乘子法计算得到:

(5)

使用核函数代替线性方程中的线性项可以使原来的线性算法非线性化,即能做非线性回归,此时引进核函数达到了提升维度的目的,也可以有效地控制过拟合。不同的核函数会对SVR的性能产生影响。径向基核函数(RBF)的抗干扰能力及适应能力较强,表示为:

K(X,X′)=exp(-γ‖X-X′‖2),

(6)

式中,K(X,X′)为满足Mercer条件的核函数;γ为核参数,决定映射样本在特征空间的分布;X为输入样本构成的特征向量;X′为RBF核函数的中心。

计算得到SVR回归模型为:

(7)

RBF的参数C(惩罚项)和g(核函数方差)的选取对于模型的结果存在较大影响。

1.2 两种组合预测方法

1.2.1 ARMA-SVR加权组合模型

CRITIC法是一种比熵权法和标准离差法更好的客观权重赋权法,它基于评价指标的对比强度和指标之间的冲突性来综合衡量指标的客观权重。

假设有n个待评价样本,p项评价指标,形成原始指标数据矩阵:

(8)

式中xij为第i个样本的第j项评价指标的值。

指标的对比强度以标准差的形式来表现:

(9)

式中,xj为第j项指标的均值;Sj为第j项指标的标准差。

在CRITIC法中使用标准差来表示各指标的内取值的差异波动情况,标准差越大表示该指标的数值差异越大,越能反映出更多的信息,该指标本身的评价强度也就越强,应该给该指标分配更多的权重。

指标的冲突性用相关系数进行表示:

(10)

式中rij为评价指标i和j之间的相关系数。

使用相关系数来表示指标间的相关性,与其他指标的相关性越强,则该指标就与其他指标的冲突性越小,反映出相同的信息越多,所能体现的评价内容就越有重复之处,一定程度上也就削弱了该指标的评价强度,应该减少对该指标分配的权重。

第j个评价指标所包含的信息量Cj表示为:

(11)

所以第j个指标的客观权重Wj为:

(12)

ARMA-SVR加权组合模型原理如图1所示。

图1 ARMA-SVR加权组合模型的建模流程Fig.1 Modeling process of ARMA-SVR weighted composite model

(1)使用ARMA模型对样本进行建模,得到预测结果PARMA。

(2)使用SVR模型对样本进行建模,得到预测结果PSVR。

(3)使用CRITIC赋权法对ARMA与SVR模型的预测结果进行客观赋权,分别得到权重WARMA和WSVR。

(5)将ARMA模型预测结果PARMA与SVR模型预测结果PSVR进行加权相加,得到ARMA-SVR加权组合模型的预测结果表示为:

(13)

1.2.2 ARMA-SVR残差优化组合模型

交通流存在线性和非线性的特性,而ARMA和SVR模型分别对线性模型和非线性模型的处理上具备优势,理论上将两个模型的优势相结合,能够达到提高模型效果的目的。假设时间序可视为线性自相关部分与非线性残差相结合的结果,表示为:

Pt=Lt+Rt,

(14)

式中,Lt为线性自相关部分;Rt为非线性残差。

ARMA-SVR残差优化组合模型原理如图2所示。

图2 ARMA-SVR残差优化组合模型的建模流程Fig.2 Modeling process of ARMA-SVR residual optimization composite model

由图2得,ARMA-SVR残差优化组合模型的基本原理为:

(1)使用ARMA模型对样本的线性部分进行建模,得到预测结果ARMA,进而得出残差序列R。

(2)以特定的输入步长对残差序列进行重构。

(3)将重构后的残差序列R*作为SVR模型的输入。

(4)使用SVR模型对残差序列的非线性部分进行建模,得到残差序列预测结果。

(5)将残差序列预测结果与ARMA模型预测结果相加,得到ARMA-SVR残差优化组合模型的预测结果。

1.3 评价指标

回归模型中,常用均方误差(Mean Absolute Error,MAE)、平均绝对误差(Mean Squared Error,MSE)、均方根误差(Root Mean Squard Error,RMSE)作为模型的评价指标,本研究使用MAE和RMSE作为评价指标,模型的MAE和RMSE越小,预测效果越好。

2 实例验证

2.1 数据来源

本试验采用内蒙古包头市某路段2020年9月的地磁交通流量数据,每组数据的单次采样时间间隔为5 min,包括单向所有车道的交通流量总和,样本总量为8 640。

2.2 数据分析与预处理

将数据分别处理为以5,10,15 min为时间间隔的数据。3个样本集的样本数量分别为8 640个,4 320个,2 880个。将3个样本集分别按照8∶2的比例划分训练集与测试集。处理后的交通流量变化趋势如图3所示。

图3 不同样本时间间隔下的交通流量的变化趋势Fig.3 Variation trends of traffic volume at different sample time intervals

2.3 模型建立

2.3.1 ARMA模型

平稳性及白噪声检验。对样本进行平稳性检验及白噪声检验详见表1。

表1 交通流量序列的平稳性检验Tab.1 Stationarity test of traffic volume sequence

由表2得,平稳性检验的t统计量值小于1%,5%,10%这3个水平的值,且P值小于0。白噪声检验的P值小于0,所以3个样本集均为平稳非白噪声序列。

ARMA模型参数确定。多次试验得到,当样本的时间间隔分别为5,10,15 min时p=4,q=3,AIC值达到最小,最佳参数组合为(4,3)。

对3个ARMA模型的参数进行显著性检验,详见表2。由表2可得,3个模型均满足显著性小于0.05,说明参数的取值具备合理性。上述建模流程得到ARMA模型预测结果。

表2 ARMA模型参数的显著性检验Tab.2 Significance test of ARMA model parameters

2.3.2 SVR模型

数据归一化。使用SVR模型之前,将数据做归一化操作,以此提高模型的收敛速度和预测能力。本研究采用Rescaling,即Min-Max归一化,将交通流量数据归一化至[0,1]区间,表示为:

(9)

式中,x′为归一化后的交通流量数据;x为原始交通流量数据;xmin为样本的最小值;xmax为样本的最大值。

(10)

本研究中SVR模型的建立均基于sklearn机器学习库,模型的参数为默认值。使用训练好的SVR模型对测试集进行预测,对SVR预测结果进行反归一化后,上述建模流程得到SVR模型预测结果。

2.3.3 ARMA-SVR加权组合预测模型

在模型相互补偿的过程中,需要确定各个模型输出结果的权重,使用CRITIC权重法对ARMA和SVR预测的交通流量进行融合。模型的权重详见表3。

表3 CRITIC权重法赋予模型的权重Tab.3 Weights given to model by the CRITIC weighting method

将ARMA模型预测结果与SVR模型预测结果进行加权组合,得到ARMA-SVR加权组合预测模型的预测结果。

2.3.4 ARMA-SVR残差优化组合模型

ARMA模型得到的残差如图4所示。

图4 不同样本时间间隔下ARMA模型得到的残差Fig.4 Residues obtained by ARMA model at different sample time intervals

首先对通过ARMA模型得到残差进行归一化处理,将残差值规约在[0,1]。然后按照8∶2的比例划分训练集与测试集。最后使用SVR对重构后的残差序列进行预测。

使用SVR模型以2个时间步长读取训练集的残差序列进行训练,然后使用训练好的ARMA-SVR残差优化组合模型对测试集进行预测。对残差预测结果进行反归一化后,将SVR模型残差预测结果与ARMA模型预测结果相加,得到ARMA-SVR残差优化组合模型的预测结果。

2.4 模型评价

为验证ARMA-SVR残差优化组合模型的优越性,将ARMA模型、SVR模型、长短期记忆网络(Long Short-Term Memory, LSTM)模型、人工神经网络(Artificial Neural Networks, ANN)模型及ARMA-SVR加权组合模型作为对照组进行模型评价。

LSTM和ANN模型的建立均基于Keras深度学习网络框架,激活函数均为线性整流函数Relu,损失函数为MSE,优化器为Adam,默认神经网络隐层数设置为1,神经元数量为8,通过compile方法完成学习过程的配置,训练的迭代次数为100,当监测到loss停止改进时,结束训练。

使用Min-Max归一化,将交通流量数据归一化至[0,1]区间,分别使用训练好的LSTM和ANN模型以t-1及t时刻的交通流量值预测t+1时刻的交通流量值。

不同模型在样本的时间间隔分别为5,10,15 min 时对于测试集的拟合评价结果详见表4。

表4 交通流量预测模型的评价结果Tab.4 Evaluation result of traffic volume forecasting model

由表4得,在预测准确率方面,对于小样本数据,相较于传统统计模型及机器学习模型,深度学习模型的预测准确率较低。当采样间隔为5 min时,ARMA-SVR加权组合模型的RMSE,MAE值均低于ARMA,SVR,LSTM,ANN的单一模型,模型拟合效果较4个单一模型好。在不同的采样时间间隔下,ARMA-SVR残差优化组合预测模型的预测准确率和稳定性较其他模型均有所提升,RMSE降低约0.378~7.063,MAE降低约0.054~0.802,可以为不同采样时间间隔下交通流量预测提供方法参考。除此之外,通过大量试验得到,在时间复杂度方面,ARMA和SVR的两种组合模型的时间复杂度及设备的配置远远低于深度学习模型ANN及LSTM。相关研究人员可将模型的预测结果用于ITS的短期决策任务中,如交叉口的信号配时。

不同模型在样本的时间间隔分别为5,10,15 min 时,在测试集上的拟合情况如图5所示。

图5 不同时间间隔下交通流量预测模型在测试集上的拟合情况Fig.5 Fitting condition of traffic volume prediction model on test set at different time intervals

3 结论

本研究将对于线性数据具备良好拟合效果的ARMA模型与对于非线性数据处理具有优势的SVR模型进行组合,充分挖掘了交通流序列中的线性及非线性关系,提高了模型预测的准确率。并通过试验证明,对比ARMA,SVR,LSTM,ANN及ARMA-SVR加权组合预测模型,ARMA-SVR残差优化组合模型在小样本的短时交通流预测任务中表现出预测精度高、计算速度快及数据计算成本低的优势。并且在样本的时间间隔分别为5,10,15 min时ARMA-SVR残差优化组合模型均能较好地反映交通流量序列中的线性及非线性关系,可以满足基于不同样本时间间隔的交通流流量预测的需要,将该模型应用于支持ITS的决策需求,可以提升ITS决策速度及精确度,同时能够降低ITS决策系统的建设成本。因为交通流序列往往受多因素的影响,本研究未考虑多因素对预测目标的影响,之后的研究可以通过扩展数据获取的范围,将速度、占有率、天气状况、能见度及事故信息等因素纳入预测模型。

猜你喜欢
交通流量交通流残差
基于双向GRU与残差拟合的车辆跟驰建模
基于残差学习的自适应无人机目标跟踪算法
基于XGBOOST算法的拥堵路段短时交通流量预测
基于递归残差网络的图像超分辨率重建
基于加权组合模型的短时交通流预测研究
一种平稳化短时交通流预测方法
基于GA-BP神经网络的衡大高速公路日交通流量预测
交通流随机行为的研究进展
路内停车对交通流延误影响的定量分析
平稳自相关过程的残差累积和控制图