基于TOPSIS准则和SARIMA模型的江苏省快递业务量短期预测

2023-10-10 03:16周翔宇

科技和产业 2023年17期

周翔宇, 李思

(安徽建筑大学数理学院, 合肥 230601)

随着社会经济的发展,物流产业作为新时代政治经济活动的重要组成部分,它的发展水平高低逐渐作为衡量国家综合实力强弱和国际现代化水平高低的关键指标。物流产业作为国家新型战略产业,对经济区域发展起推动作用。

国内外学者在物流技术、物流需求精度等方面做出了大量评价。Fuqua 和 Hespeler[1]认为运输管理系统(transportation management system,TMS)等信息技术的使用对于改善公司的运输流程至关重要,可以提供潜在的结果,包括优化运输、提高成本节约和客户满意度。Salais-Fierro 和Martínez[2]提出了一种使用在线鲁棒主成分分析(robust principal component analysis,RPCA)模型,结合长短期记忆(long short term memory,LSTM)递归网络来对人道主义后勤需求进行预测,预测效果要优于传统的LSTM和GRU(门控循环单元)拟合预测模型。Ribeiro等[3]以爱尔兰的一家非冷藏物流设施2020年1—11月数据为例,提出的极度梯度提升树(XGBoost)模型在短期负荷预测方面要优于差分自回归移动平均(autoregressive integrated moving average,ARIMA)、LSTM和RNN(循环神经网络)模型。Farhan和Ong[4]使用SARIMA(季节性差分自回归滑动平均)模型预测国际港口的季节性集装箱吞吐量。

国内学者也开展了诸多研究。王向前等[5]以天津港为例,构建了基于ARIMA-SVR(差分自回归移动平均-支持向量机回归)的组合预测模型,提高了港口物流规模的预测精度。黄建华和张迪等[6]面对具有不平稳、非线性特征的区域物流需求预测问题时,提出了改进GM-BPNN(误差反向传播神经网络)组合预测模型来提高物流需求预测的精确度。黄洁和花培鹏[7]基于2003—2019年云南省物流业年度时序数据,通过构建VAR(向量自回归)模型研究云南省物流业和经济发展的关系。陈敏[8]、高雪雪[9]、蔡婉贞和黄翰[10]将BP神经网络应用于对城市未来物流需求的预测。

从研究的角度来看,以往的研究往往基于原始数据运用单一的预测方式直接建模。然而,单单使用一种模型对数据进行预测,其对数据的规律性要求较高,然而现实数据中往往缺乏明显的规律性,因此预测结果的拟合效果不太理想。为了解决这个问题,国内外学者采用多种模型进行组合预测[11-18],使得拟合结果更好。通过对多个模型进行组合建模,可以提高预测的精度和准确性,并且在实际应用中得到了广泛的应用。虽然学者们在组合预测模型方面已经取得了丰硕的研究成果,但目前将决策方法应用到组合预测模型的研究成果较少。将决策学科和预测学科相结合,在组合预测中应用逼近理想解排序(technique for order preference by similarity to ideal solution,TOPSIS)决策方法来确定各单项预测方法的权重,进而获得最终的组合预测模型,对于多目标优化组合预测具有重要意义。

本文选取江苏省2013年5月至2022年2月的快递业务量数据作为反映江苏省物流产业的重要依据。快递业务量数据的季节性和趋势性会受到季节变动和经济发展的影响,因此需要使用季节性ARIMA模型进行拟合和预测。对快递业务量分别进行简单季节ARIMA模型和乘积季节 ARIMA模型拟合,并进行了残差的自相关检验,以判断拟合的模型是否有效提取信息,拟合效果是否良好。在此基础上,引入TOPSIS准则,构建一个组合模型。在短期预测部分,对3种模型的预测结果进行相对误差的计算,根据得到的预测精度比较结果来判断哪种预测模型能够取得更好的预测效果。

1 研究理论基础

1.1 ARIMA模型

ARIMA预测模型是时间序列预测模型中的一种,在统计学和计量经济学等多种学科中都有所应用,其本质是随着时间序列逐步呈现稳定化的时候,来预测模型因变量生成的推迟量、模型产生的不确定偏差后生成的推迟量和模型的当前量。

ARIMA(p,d,q)实际上是自回归移动平均(auto regressive and moving average,ARMA)模型的一种扩展形式,是计量经济学常用的建模方法。其中,AR为自回归模型,MA为移动平均模型,p、q分别为自回归项和移动平均项,d为需要将原始时间序列转变为平稳的序列所需要的差分次数。由于快递量数据受节假日、购物节、优惠折扣等因素影响,历史快递量数据并非为平稳的时间序列数据,因此提出ARIMA模型。ARIMA(p,d,q)模型的数学表达式为

(1)

式中:∇dxt=(1-B)dxt为原始序列xt经过d次差分后的序列;B为后移算子;Φ(B)=1-φ1B-φ2B2-…-φpBp为自回归系数多项式,φi为自回归系数;Θ(B)=1-θ1B-θ2B2-…-θqBq为移动平均系数多项式,θj为移动平均系数;εt为t时刻的随机误差,为零均值白噪声序列。

1.2 简单季节模型

通常认为提取完季节信息和趋势信息之后的序列是一个平稳序列,可以采用ARMA模型进行拟合[19]。需要先行对序列进行d阶差分消除其趋势项,再对其进行S步差分消除周期项,然后采用ARMA模型对其进行拟合。简单季节模型的数学表达式为

(2)

式中:∇Sxt=(1-BS)xt。

1.3 乘积季节模型

在简单季节模型中,如果残差序列εt检验效果不好,说明某些时间序列既有季节性成分,又含有非季节性成分,简单加法模型不能重复提取序列中的季节效应、随机效应和趋势效应信息。通常使用乘积季节模型[20],其数学表达式为

(3)

2 基于TOPSIS的组合预测模型

2.1 季节ARIMA模型建模步骤

1)处理时间序列数据,需要先绘制时序图,然后通过时序图初步判断序列的平稳性、趋势性和周期性。接下来绘制时间序列数据的自相关和偏自相关图。为了使时序趋于稳定,采用的方法是单位根检验方法。

2)处理非平稳序列数据让这些数据也能逐步平稳,需要使用多步差分和多阶差分法,分别消除时间序列的周期性和趋势性。

3)使用差分法后,根据时间序列数据的自相关和偏自相关图,并且根据AIC (赤池信息准则)和BIC(贝叶斯信息准则)确定模型的阶数,其中 AIC 或 BIC的值越小表明模型越好,比较多个模型进而建立效果最好的模型。

4)需要对模型的参数进行评价估计,判断其是否通过显著性检验,如不通过则需要将检验的参数剔除,并用剩下的参数变量重新进行拟合。

5)最后要对拟合模型的残差值进行白噪声检测。

6)上述检验全部通过,进行最终确立模型的运行以及预测结果分析。

2.2 基于TOPSIS的组合预测模型步骤

将所有可能的权重的单项预测方法构成的各组合预测作为备选方案,以可以衡量预测效果好坏的指标(如MAPE)作为属性,将组合预测最优权重系数的选取问题转化为在一系列评判标准下的一个多属性决策问题,进而可以运用多属性决策中的思想来确定各单项预测方法的最优权重,从而得到最终的组合预测模型。这种基于TOPSIS决策方法的组合预测模型适用于可以用两种或两种以上的单一预测模型拟合原始时间序列的情况。

步骤1确定组合预测模型精度序列的均值和标准差。

把eit称作预测方法i在预测时刻t的相对误差,那么

(4)

(5)

a0[w1E(A1)+w2E(A2)]+1-a0

(6)

(7)

步骤2计算各组合预测模型到正、负理想点的加权距离。

显然E(A)和S(A)都是各单项预测方法权重的函数,分别记为E(w1,w2)和S(w1,w2),且有0≤E(A)≤1,0≤S(A)≤1。取绝对正、负理想点为X+=[1,1]和X-=[0,0]。并且让属性权重(l1,l2)满足l1+l2=1,l1≥0,l2≥0,那么各方案到正、负理想预测方法的加权距离为

d+(w1,w2)=l1[E(w1,w2)-1]2+

l2[S(w1,w2)]2

(8)

d-(w1,w2)=l1[E(w1,w2)]2+

l2[S(w1,w2)-1]2

(9)

步骤3构建各组合预测模型的贴近度并求解得到权重。

构造贴近度最大模型并求解:

(10)

步骤4由权重计算得到组合预测模型在预测时间t的预测值,其中t=1,2,…,n。

3 实例验证与分析

本文所选取的数据为江苏省2013年5月至2022年2月的快递业务量数据。将2013年5月至2021年4月的数据作为实验训练集,2021年5月至2022年2月的数据作为拟合模型预测准确率的测试集。全部数据来源于江苏省邮政管理局。

3.1 序列观察

首先绘制江苏省快递业务量的时序图(图1),从而初步判断序列平稳与否。从图1可以看出,江苏省2013年5月至2022年2月快递业务量数据序列具有明显的增长趋势和季节性波动特点:每年接近年末都会出现峰值,推测大量商家在“双十一”“双十二”会进行降价促销,商品销量激增,因而快递量大量增加;每年年初会出现明显的下降特征,推测由于春节放假,大量快递员休假过年,人们购买商品意愿下降,从而导致快递量下降。可以观测出,时序具有季节性和趋势性特征,是非平稳的时间序列。

图1 2013年5月至2022年2月江苏省快递业务量时序图

使用R软件时间序列包的decompose函数对该序列数据进行分解,得到图2。

图2 2013年5月至2022年2月原数据、趋势、季节效应及随机波动项

由图2可知,江苏省快递包裹量呈指数级增长,以12个月为周期且季节性特征显著。因此该序列为同时带有趋势性、季节性和随机性的非平稳时间序列,从而选取SARIMA模型是合适的。

3.2 模型的建立和检验

通过ADF(时间序列平稳性)检验可以验证时序平稳与否。对原序列进行ADF检验,发现P=0.095 3>0.05,说明原序列存在单位根,为非平稳时间序列。对原始数据进行一阶差分和12步差分,发现处理后的序列P=0.01<0.05,通过ADF检验,为平稳序列。

序列经过一阶差分和12步季节差分后,其周期性和季节性基本得到消除。因此选取d=1,D=1。根据自相关图(图3)和偏自相关图(图4),辅以R软件forecast包的auto.arima函数和AIC、BIC最小信息准则,得到两个最佳备选模型:简单季节模型ARIMA(1,1,2)×(0,1,0)12和乘积季节模型ARIMA(1,1,1)×(1,1,2)12。

图3 差分后序列自相关图

图4 差分后序列偏自相关图

对这两种模型进行Ljung-Box残差检验,由表1可知,两者残差自相关检验的P均大于0.05,认为不能拒绝残差没有相关性的原假设,即表明残差无自相关性,表明两种SARIMA模型均能较好地拟合本文数据。

表1 残差自相关检验结果

简单季节模型ARIMA(1,1,2)×(0,1,0)12的表达式为

乘积季节模型ARIMA(1,1,1)×(1,1,2)12的表达式为

(1-B)(1-B12)xt=

3.3 组合预测模型的建立

分别将两个拟合模型对2021年5月至2022年2月的数据进行预测,下标1t与2t分别代表ARIMA(1,1,2)×(0,1,0)12和ARIMA(1,1,1)×(1,1,2)12。结果见表2。

表2 各单项预测结果

步骤1由式(5)、式(7)可得E(A1)=0.939 0,E(A2)=0.948 4,S(A1)=0.048 1,S(A2)=0.041 1,ρ12=0.423 5。

由表2可知,在10个预测时刻,两种单项方法有7个时刻的相对误差保持序号相同,取a0=0.7,则组合预测的精度均值E(A)和标准差S(A)为

E(w1,w2)=0.7(0.939 0w1+0.948 4w2)+0.3,

步骤2预测精度的均值和标准差同等重要,取l1=l2=0.5,由式(8)、式(9)可得各组合预测到正、负理想点的加权距离为

步骤3由式(10)得到最大贴近度模型为

max[c(w1,w2)]=

利用Lingo软件求解可得w1=0.147 4,w2=0.852 6。

步骤4由该方法构成的最优组合预测为

t=1,2,…,10。

3.4 3种模型对比分析

将简单季节模型ARIMA(1,1,2)×(0,1,0)12、乘积季节模型ARIMA(1,1,1)×(1,1,2)12以及组合预测模型对2021年5月至2022年2月的数据进行预测,并将预测值和实际值进行比较,采用均方根误差(RMSE)、平均绝对误差(MAE)和平均绝对百分比误差(MAPE)来评价模型的预测效果,结果见表3。从表3可以看出,3种模型的平均绝对百分比误差MAPE均在10%以下,预测效果较好,乘积季节模型的3种误差值均比简单季节模型值要小,说明在快递业务量这个数据上,采用乘积季节模型拟合效果要比简单季节模型好;而组合预测模型的均方根误差、平均绝对误差和平均绝对百分比误差值都是最小的,说明组合预测模型在江苏省快递业务量数据上,其预测准确度比单一的简单季节模型和乘积季节模型更高,拟合效果要更好。

表3 各模型预测结果

4 结论与建议

使用简单季节ARIMA 模型、乘积季节 ARIMA 模型以及基于TOPSIS的组合预测模型对江苏省快递业务量数据进行短期预测,结果表明这3种模型拟合效果均良好。在时间序列分析中,季节变动对预测效果有着至关重要的作用。当时间序列数据的季节变动大致相等时,可以采用使用简单季节模型即可。这种模型具有表达和计算较为简洁的优点。但其预测效果稍弱,精度较低。因此,当季节变动与长期趋势大致成正比或同向变化时,应该采用乘积模型进行预测。乘积模型可以更加准确地刻画季节变动与趋势对于时间序列预测的影响,使得预测结果更加精准可靠。相较于单一模型,使用组合预测方法的预测精度更高。对于时间序列预测,组合预测方法可以将多个模型的结果进行结合,从而克服单一模型可能存在的缺陷和偏差。基于TOPSIS的组合预测模型的预测效果正说明了这一点。

根据预测数据,江苏省快递业务量的月度数据表现出趋势性和季节性。在趋势性方面,自2015年起江苏省快递业务量逐年递增,表明物流产业有持续健康发展的趋势,进一步表明江苏经济在不断快速发展。在季节性方面,每年江苏省快递业务量呈现大致相同的周期性,在2月和3月最低,在11月和12月最高。这是因为春节假期和众多商家的“双十一”“双十二”促销活动对快递量的影响。春节假期期间,许多商家企业停工放假,快递员休假过年,人们购买商品的意愿下降,快递量也相应减少。而“双十一”“双十二”促销活动则刺激了国民消费,导致快递量剧增。总的来说,江苏省快递业务量的趋势性和季节性变化提供了重要的信息,有助于对江苏省物流产业的发展趋势进行分析和预测,进而促进经济的健康可持续发展。

在《江苏省“十三五”物流业发展规划》和《长江三角洲一体化发展规划纲要》的带动下,物流业规模效率稳步提升,全省社会物流总额达23万亿元,“十二五”期间年均增长14.7%。与此同时,物流主体逐步壮大,全省共有国家A级物流企业421家,占全国A级物流企业数量的13%。并且,随着“一带一路”和长江经济带战略的深入实施,南京与长江流域其他地区的物流联动不断增强,已经形成了良好的区域物流联动发展格局。

根据上述提到的江苏省区域物流发展的现状,提出以下几点建议:①加强物流基础能力建设和发展;②支持物流技术创新、积极拓展物流市场并发展绿色物流;③发展物流资源交易电子商务服务和着重发展制造业物流的信息管理、条形码采集与处理、系统设计等高端物流服务;同时物流产业部门可以利用基于TOPSIS的组合模型对未来数月的快递业务量数据进行预测,制定相应的经营策略及政策,促进社会经济的绿色可持续发展。