基于ARIMA-LOESS模型的危化品道路运输事故起数预测*

2021-04-20 08:07王文和张爽袁玮成刘林精
工业安全与环保 2021年4期
关键词:起数危化品差分

王文和 张爽 袁玮成 刘林精

(1.重庆科技学院安全工程学院 重庆 401331; 2.重庆市安全生产科学研究院 重庆 401331;3.重庆科技学院油气化工过程安全多尺度研究中心 重庆401331)

0 引言

事故预测研究是指对系统将来的安全状态与情况进行科学的预测与计算[1]。预测研究的目的与意义是为了使系统安全达到最优化,也就是说,通过为安全管理人员提供相对全面、可靠的安全数据与信息,使其参照预测结果完善体系,强化对薄弱环节的管理、消除系统内在安全隐患。事故指标预测是根据已发生的事故信息来推断未来事故信息的过程,也就是基于事故发生的历史数据,通过整理得到一个时间数据序列,通过应用适当的预测模型,来探究该事故的发生特征与未来发展规律,对事故未来可能发生的结果预先作出科学的推断,其关键在于预测模型的建立。由于事故的发生具有波动性,事故发生起数及各项信息数据不够全面,若选择不合适或简单的预测模型会导致结果误差较大,因此需要建立高精度预测模型进行事故预测研究[2]。

当前国内外的事故预测研究方法主要有:灰色预测法、支持向量机法(Support Vector Machine,SVM)、神经网络预测法、指数平滑法、ARIMA预测法等[3]。灰色预测模型适合处理具有趋势特点分布的事故数据,计算工作量小,可用于近期、短期、中长期预测[4],而实际的危化品道路运输事故数据不仅具有趋势性,而且具有波动性等特点,运用此模型预测准确度低。SVM算法处理大规模训练数据效果不佳,稳定性与可靠性低,而危化品道路运输事故的影响因素多,需要大量数据训练才会得到较为准确的结果;危化品道路运输事故受多种因素影响,某些偶然因素也会引发危化品道路运输事故,而神经网络模型处理此类数据时泛化能力不佳、过拟合,导致其预测结果准确度偏低[5]。指数平滑预测法长期占有较小的比重、近期占有较大的比重,因此适合短期预测,而缺少更深层次数据规律的研究;ARIMA预测模型适用于处理不具有明显的未来趋势特征的数据序列,而危化品道路运输事故起数序列符合此类数据特点,相比灰色预测、神经网络等模型误差率小,因此采用ARIMA预测法进行危化品道路运输事故预测。但是,ARIMA模型在描述非线性关系的数据时不够准确,因此通过建立组合模型,将不同模型的优点结合起来,以获取理想的结果[6]。建立组合预测模型可以通过线性加权、残差优化等方式使组合模型预测精度高于单一方法,采用残差修正法可结合LOESS回归预测模型,将ARIMA和LOESS两预测模型结合成ARIMA-LOESS模型中,ARIMA模型描述危化品道路运输事故数据中的线性关系,LOESS模型刻画危化品道路运输事故数据中的非线性关系,通过结合两模型的预测结果以达到提高模型预测准确度的目的。

1 事故预测模型

1.1 ARIMA模型

ARIMA模型可理解为把事故预测指标随时间推移而发生的事故数据视为一个数据序列,且此指标数据序列可以通过模型进行拟合。当数学模型能够反映数据的特点和规律时,就要根据历史数据来预测未来可能发生的变化。它的局限性在于所有的数据都应该在一定的水平上随机波动,即时间序列数据是稳定的,而得到的新的时间数据拟合关系就是基于差分变换处理非平稳数据的ARIMA预测模型。其模型根据原始数据序列的稳定性和其回归的部分,可以将ARIMA预测模型分为以下4个过程:自回归的过程(AR)、移动平均的过程(MA)、自回归移动平均的过程(ARMA)及ARIMA过程。在建立模型前,需要检查原始数据序列是否具有平稳性。如果原始序列不具有平稳性,则需要对非平稳时间数据序列转换为平稳时间数据序列,然后,由因变量对其滞后值和随机误差项的现值、滞后值进行复核后再建立模型[7]。

ARIMA模型通用表达式:

Xt=ф1Xt-1+ф2Xt-2+…+фpXt-p+ut+θ1ut-1+θ2ut-2+…+θqut-q

(1)

式中,Xt代表具有平稳性的时间数据序列;ut代表一个符合正态分布的白噪声数据序列;фa、θb(a=1,2,3,…,p;b=1,2,3,…,q)分别为数据序列Xt和ut的参数;p代表自回归的阶数;q代表自回归的阶数。

ARIMA模型的表示方式可为ARIMA(p,d,q)。在建立ARIMA预测模型期间,对于不具有稳定性的时间数据序列需要进行一阶差分,而后需推断出其序列的周期性情况,那么可判断d的值,如果经过m阶差分后,推断数据序列大致不存在周期性,既可以确定差分阶数d=m;对于自回归的阶数和自回归阶数的取值,可以通过观察差分后序列的ACF图和PACF图来确定参数p与q的值。由于自回归的阶数和自回归的阶数大部分处于低阶,因此,可通过从低阶到高阶逐阶进行计算的方法,从中选择相对最优模型。

在建立模型过程中,有以下3点需要注意:①要检查时间数据序列是否平稳;②通过观察原始数据序列的自相关函数图(ACF)和偏自相关函数图(PACF)是否存在拖尾现象,来确定自回归阶p和移动平均阶q的取值为多少;③建模结束后,需对模型预测结果进行误差检验,检验合格的模型可以用于预测[8]。

(2)

其中,关于d阶数据序列yt的关系有:

Xt=△dyt=(1-L)dyt

(3)

那么Xt为具有稳定性的数据序列。

1.2 LOESS回归模型

LOESS回归模型是对预测数据序列进行平滑回归优化的常用方法之一,其建模过程中如果需要确定一个响应变量的值时,取值方法如下:首先,在变量值的附近获取一个数据子集,然后,将此子集进行二次回归,在回归过程中,可采用加权最小二乘法。当靠近拟合预测值时,它的权重占比就会越大。最后,通过建立LOESS局部回归模型对响应变量的数值进行优化。利用这种方法,可以通过逐点计算得到整条拟合预测曲线[9]。

建立LOESS模型优化某点平滑值步骤如下:

(1)将某点坐标值的绝对值作为中心确定区间,通过Y=fn确定区间宽度。Y代表在局部回归计算中拟合观测数值的数量,n代表总拟合观测值的个数,f代表参与局部回归计算的拟合观测数值占总拟合观测数值的比率。通过不同的Y与f值并作图来确定最终值。

(2)计算区间内所有点的权重值。有很多种计算权数函数法可获取权数。其中权数可以通过xi和权数函数来计算得出。权数函数需要满足的要求是:在x8位置求出相邻区间内的极大值,权函数的对称中心是x8[10]。

在规定的范围内,再拟合一条符合描述x与y线性关系的直线,并且不需要分析范围外的点权重,相邻x8的点在拟合过程中尤为重要,点权数越大,对最终拟合线的效果则越好。

(3)通过上述步骤获取LOESS局部序列拟合线,再以实际情况为根据,确定是否需要进行局部二次回归曲线拟合,这可以由数据的变化范围来确定。因建立LOESS回归模型过程计算量较大,正常情况下应通过计算机来建立模型[11-13]。

1.3 建立ARIMA-LOESS事故预测模型

将时间数据序列{Zt}分为线性部分{Mt}与非线性部分{Nt}两个部分,则表达式为

Zt=Mt+Nt

(4)

式中,Mt和Nt是由具体时间数据序列确定。

(5)

其次,建立LOESS回归预测模型,对局部数据序列进行优化拟合与修正。因数据序列{Zt}中的非线性关系隐藏在原始序列与得到的结果的偏差数据序列{et}中,通过LOESS回归模型对偏差序列{et}进行处理后,可以挖掘出{Zt}中的非线性数据信息,那么就有

et=f(et-1,et-2,et-3,…,et-n)+εt

(6)

最后,通过上述步骤建立组合模型,就可以得出组合预测模型的最终结果,其表达式为

(7)

综上所述,ARIMA预测模型用于描述时间数据序列的线性关系,LOESS回归模型用于刻画时间数据序列的非线性关系,两种模型的组合显示出了组合模型的优越性[13]。

2 危化品道路运输事故ARIMA-LOESS模型的建立

2.1 原始指标数据

本文以我国2011—2018年发生的危化品道路运输事故起数为事故预测指标,依据原国家安全监督管理总局事故查询系统、中国化学品安全协会以及安全管理网公布的事故信息,整理得出2011—2018年我国每年发生的危化品道路运输事故的数量,其结果见图1。

图1 2011—2018年危化品道路运输事故起数时间序列图分析

2.2 ARIMA预测模型的建立

本文首先以2011—2018年发生的危化品道路运输事故起数为原始时间数据序列,根据前述方法,应用SPSS软件建立ARIMA预测模型,对2019—2021年危化品道路运输事故起数进行预测。

2.2.1 序列图分析

建立ARIMA预测模型,需对2011—2018年发生的危化品道路运输事故起数进行序列图分析,如图1所示。从序列图1可以看出,原始序列中没有出现明显的季节成分,但有明显的变化,因此不需要进行季节分解。

2.2.2 自相关和偏自相关分析

为了确定ARIMA预测模型原始数据序列的数据平稳性以及参数值,需要对原数列的自相关(ACF)和偏自相关函数(PACF)分别进行分析,其分析结果如图2所示。从图2(a)和图2(b)可以看出,原始数据序列的自相关分析图(ACF)和偏自相关分析图(PACF)都存在拖尾现象,表明原始数据序列不具有平稳性[14],因此需要通过一阶差分变化进行下一步分析。通过对原始数据序列进行一阶的差分变化,一阶差分后的数据序列基本均匀地分布在零标度线的两侧。如图3所示,原始数列序列通过一阶差分变化后具有稳定性。从图3可以看出,其差分序列是平稳的,因此参数d定为1。因自回归系数和偏回归系数均是拖尾所以模型选择为ARIMA(p,d,q),以及确定模型参数为p=1,d=1,q=1[14]。

图3 ARIMA预测模型原始时间数据序列一阶差分

(a)ACF

2.2.3 ARIMA预测事故起数模型的建立

通过对2011—2018年危化品道路运输事故发生起数的自相关与偏自相关分析和处理,经过反复试验,最终确定预测事故数模型为ARIMA(1,1,1),则可直接建立危险化学品道路运输事故起数ARIMA预测模型,预测结果如图4所示。ARIMA预测模型预测2019、2020、2021年事故起数分别为:20、16、12。

图4 危化品道路运输事故起数ARIMA模型预测结果

2.3 LOESS模型的残差优化

根据原始序列数据,运用ARIMA(1,1,1)预测模型计算得出2011—2018年事故起数预测值及预测值与实际发生值之间的偏差。然后基于预测值与实际发生值的差值序列训练LOESS模型,应用MATLAB软件建立LOESS回归模型,对ARIMA模型预测偏差进行残差优化,获取危化品道路运输事故起数的非线性部分。LOESS回归模型对2011—2018年ARIMA预测偏差拟合图结果如图5所示。

图5 LOESS回归预测模型对2011—2021年危化品道路运输事故起数的ARIMA预测偏差拟合

2.4 ARIMA-LOESS模型预测

根据前述方法,将ARIMA预测模型与LOESS回归模型进行模型组合,得到了ARIMA-LOESS组合预测模型。通过LOESS回归预测模型的训练后,得到2019—2021年的偏差预测值,然后再根据式(7),将ARIMA预测模型所描述的时间数据序列的线性关系函数与LOESS回归预测模型刻画的时间数据序列的非线性关系函数结合起来,通过计算最终得到ARIMA-LOESS组合模型的预测结果。其组合模型预测得出的2019年、2020年、2021年危化品道路运输事故起数结果分别是21、17、12。

为检验单一模型与组合模型的预测精度,将ARIMA的模型拟合曲线、ARIMA-LOESS的组合模型拟合曲线与实际发生值进行结果比较,其结果对比图如图6所示。从图6可以看出,ARIMA-LOESS组合模型拟合预测曲线更接近真实值拟合曲线,因此,ARIMA-LOESS组合模型预测精度高于单一的ARIMA预测模型,并修正了单一模型的误差值。该组合预测模型结合了两者的优势,发挥了对不同特点的数据序列的优点,以达到对目标时间数据序列的更优拟合。

图6 ARIMA模型预测值、ARIMA-LOESS组合模型预测值与真实值的对比

3 结论

(1)ARIMA-LOESS组合预测模型将历史数据序列的线性和非线性部分的预测结果共同结合,通过了实例对比与验证,其预测结果可为危化品道路运输事故的预防提供更加可靠的数据支持。

(2)组合模型对ARIMA模型的残差进行应用差分自回归滑动优化,修正了ARIMA单一模型的误差。研究结果表明:通过对目标序列数据的训练,ARIMA-LOESS组合模型能够明显提高危化品道路运输事故起数预测的精度。

(3)ARIMA-LOESS组合模型结合ARIMA模型和LOESS回归模型优点,前者处理线性部分,后者得出非线性部分结果,有效解决了由于事故数据存在非线性特征的问题。

猜你喜欢
起数危化品差分
国家矿山安全监察局:2022年煤矿百万吨死亡率比2012年下降86%
国家森防办:一季度全国森林草原火灾起数较往年显著下降
江阴市“三个创新”打造危化品安全监管新引擎
从一起案例谈如何认定危化品的代加工行为
数列与差分
去年全国生产安全事故起数下降15.5%
危化品运输岂能有乱象
基于差分隐私的大数据隐私保护
相对差分单项测距△DOR
差分放大器在生理学中的应用