基于ARMA-GARCH模型的南宁市O3浓度预测研究*

2020-06-02 00:03李雅箐黄喜寿李宏姣
广西科学 2020年1期
关键词:阶数实测值残差

梁 炜,李雅箐,黄喜寿,李宏姣

(1.广西壮族自治区环境信息中心,广西南宁 530028;2.广西壮族自治区环境保护科学研究院,广西南宁 530022)

0 引言

城市中近地面的臭氧是由人类活动排放的NOx、CO 和VOCs 等前体物在特定大气环境条件下发生复杂的化学反应生成的二次污染物[1]。近年来随着城市机动车保有量的激增,南宁近地面空气中O3污染问题日益严重,已成为南宁市大气污染防治重点工作之一。如何准确预报近地面臭氧浓度成为当前一个热门研究课题。

目前大气污染物浓度预测主要分为数值预测[2-3]和统计预测[4-8]两种方法。由于气象条件的复杂性,以大气动力学理论为基础的数值模式污染物浓度预测方法需要消耗大量的计算时间。而基于统计模型的预测方法通常采用真实监测值,利用统计方法,建立预测模型,具有计算速度快的特点。时间序列模型作为统计预测法之一,已被广泛用于大气污染物浓度预测[9],但主要还是集中在PM10、NOx等污染物的预测[10-13]上,用于O3浓度预测仍比较少。

本文通过构建ARMA-GARCH模型,对南宁市城区O3浓度进行预测,并对预测模型进行误差评价,期望为大气污染防治和预警预报提供支持。

1 材料与方法

1.1 数据来源

本研究以南宁市2017年1月1日-2017年12月31日日均O3浓度监测值为样本,数据来源于广西壮族自治区环境保护厅、广西壮族自治区环境监测中心站按照《环境空气质量指数(AQI)技术规定(试行)》的有关要求,实时发布的南宁市市区环境空气自动监测站点,数据真实可靠。本研究使用EViews软件对样本拟合模型,预测2018年1月1日至2018年1月31日O3日均浓度,并对预测结果进行误差分析和模型评价。

1.2 ARMA-GARCH建模基本原理

1.2.1 ARMA模型

时间序列是变量按时间间隔的顺序形成的随机变量序列,时间序列分析通常不需要建立在专业理论所体现的相互关系基础之上,而是“让数据自己说话”。本研究选用移动平均自回归模型即ARMA模型。ARMA模型是描述平稳时间序列最常用的分析模型,由统计学家Box G.E.P.和Jenkins G.M.于20世纪70年代创立,用此模型对时间序列进行预测分析称为博克斯-詹金斯(B-J)方法。其基本思想是构成时序的单个序列值虽然具有不确定性,但整个序列的变化具有一定的规律性,可以运用时间序列的过去值、当期值及滞后扰动项的加权和建立模型来“解释”时间序列的变化规律[14]。

ARMA(p,q)模型的一般形式为

xt=C+α1xt-1+…+αpxt-p-θ1μt-1-…-θqμt-q+μt,

其中参数C为常数,α是自回归模型系数,θ是移动平均模型系数,μt是满足独立同分布的随机误差项(扰动项)。当 C=0,该模型成为中心化ARMA(p,q)模型;当q=0时,上式变为p阶自回归模型,记为AR(p);当p=0时,上式称为q阶移动平均模型,记为MA(q)。

ARMA模型建立过程如图1所示,主要由以下5个部分构成:

(1)数据预处理。通过时序图初步判断数据是否具有周期性、趋势性、随机性等特点。若存在相应特点,则对原始数据进行差分、对数变换等处理。

(2)平稳性检验。时间序列可以分为平稳序列和非平稳序列两大类。时间序列数据的平稳有以下要求:均值、方差不随时间变化;自相关系数只与时间间隔有关,而与所处时间无关。如果用传统方法对彼此不相关联的非平稳变量进行回归,t检验值和F检验值往往倾向于显著,从而得出“变量相依”的“伪回归结果”,因此,在利用回归分析方法讨论变量有意义的关系之前,必须对变量时间序列的平稳性与非平稳性进行判断[15]。

图1 ARMA模型建模流程图

(3)模型识别。通过样本自相关函数分析(ACF)或样本偏自相关函数分析(PACF)对模型滞后阶数进行初步判定,之后再通过最小信息准则判断赤池信息量准则(Akaike Information Criterion,AIC)值、施瓦茨信息准则(Schwarz Information Criterion,SIC)值和汉南-奎因准则(Hannan-quinn Criterion,HQ)值,选出最优阶数。

(4)模型检验。通过白噪声检验、残差自相关性检验、异方差检验、系数显著性检验,验证模型的有效性。

(5)模型应用。对未来一段时间的O3浓度进行预测。

1.2.2 GARCH模型

yt=xtπ+εt。

GARCH模型的建立步骤:

(1)检验ARCH效应。在建立ARMA模型后,使用拉格朗日乘数法(LM法)或残差平方自相关函数分析图检验其是否存在ARCH效应,若存在ARCH效应则进入下一步。

(2)识别滞后阶数,选取最优模型。通过对比各模型系数的显著性与AIC、SIC、HQ值确定滞后阶数后,选取最合适的模型进行建模。

(3)复验ARCH效应。建立模型后仍然使用LM法或残差平方自相关函数分析图检验其是否仍存在ARCH效应,若仍存在ARCH效应,则返回上一步调整模型阶数。

2 结果与分析

2.1 ARMA建模研究

2.1.1 数据预处理

使用Eviews软件对南宁市2017年1月1日至2017年12月31日日均O3浓度监测值样本数据进行模型参数估计,并根据监测值样本数据构建时序图,从图2可初步判断O3序列非线性近似平稳,因此无法确定其有周期性、趋势性。为确定该序列的平稳性,对其进行平稳性检验并使用Augmented Dickey-Fuller (ADF)单位根检验方法判断。

图2 2017年O3日均浓度时序图

Fig.2 Sequence diagram of average daily concentration of O3in 2017

检验结果表明(表1和表2),ADF的t统计量(-8.244 276)小于1%显著水平下的临界值(-3.983 471),可认为O3样本序列在1%的显著水平下属于不含单位根的平稳过程,趋势项(TREND)系数的P值大于0.05,可认为趋势项系数显著为零。常数项C系数P值小于0.05,表示常数项显著不为零。即该O3样本序列为带有常数项、不含趋势项、滞后阶数为0的平稳序列。

2.1.2 模型识别

证明O3序列平稳之后,通过自相关函数分析初步为ARMA模型定阶(表3)。

表1 O3平稳性检验与ADF单位根检验结果

Table 1 Results of O3stationarity test and ADF unit root test

t统计量tstatisticP值Prob.1%显著水平下检验关键值Test critical values at 1% level5%显著水平下检验关键值Test critical values at 5% level10%显著水平下检验关键值Test critical values at 10% level-8.244 2760-3.983 471-3.422 218-3.133 955

表2 ADF检验方程

Table 2 Augmented Dickey-Fuller test equation

变量Variable系数Coefficient标准差Standard errort统计值tstatisticP值Prob.O3(-1)-0.316 0020.038 330-8.244 2760.000 0常数项C0.014 5930.002 2356.530 0660.000 0趋势项(TREND)0.000 000 4250.000 006 590.064 4340.948 7

表3 O3自相关函数分析

Table 3 Analysis diagram of O3autocorrelation function

观察表3发现自相关函数分析图拖尾,偏自相关图一阶截尾,因此初步判断模型形式为ARMA(1,0)。为确定模型形式与阶数,同时采用AIC、SIC和HQ方法,使用最小信息准则判断最佳阶数。从表4可见,模型ARMA(1,0)在SIC和HQ中信息最小,在AIC中仅此与ARMA(1,1)为次佳,综合判断,模型ARMA(1,0)为最佳阶数。

2.1.3 ARMA模型检验

(1)自相关检验

本研究采用残差序列相关LM法检验ARMA模型,选取滞后一至五阶进行残差相关检验。检验结果表明ARMA(1,0)模型异方差怀特检验量对应的P值均大于0.05,即残差不存在序列相关,无遗漏变量,滞后阶数选取合理。

表4 AIC、SIC和HQ方法信息表

Table 4 Information sheets of AIC,SIC and HQ method

模型Model AIC SIC HQARMA(1,0)-5.813 072-5.791 659-5.804 561ARMA(1,1)-5.813 082-5.780 962-5.800 316ARMA(0,1)-5.647 139-5.625 769-5.638 646ARMA(2,0)-5.812 695-5.780 510-5.799 902ARMA(2,1)-5.808 003-5.765 089-5.790 945ARMA(2,2)-5.808 007-5.765 094-5.790 949ARMA(0,2)-5.751 998-5.719 944-5.739 259ARMA(1,2)-5.807 812-5.764 986-5.790 790

注:粗体为最大值

Note:Bold are the maximum

(2)残差白噪声检验与正态检验

通过观察该样本残差序列的ACF、PACF,判断该残差序列是否为白噪声序列。

表5显示,各期Q统计量对应P值均高于0.05,说明残差序列是白噪声序列。结合自相关检验与白噪声检验,判定ARMA(1,0)模型已经将原序列中的信息提取完全,该模型拟合显著。

表5 样本残差序列的ACF、PACF

Table 5 ACF and PACF diagrams of sample residual error sequence

2.2 GARCH模型研究

2.2.1 GARCH模型的建立

对已建立的ARMA(1,0)模型使用LM法检验判定模型是否具有ARCH效应,结果显示,F统计值为4.637 139,异方差怀特检验量(Obs*R-squared)为4.603 694,F统计量的概率(Prob.F(1,391))为0.031 9,卡方检验的概率(Prob.Chi-Square(1))0.031 9。该结果表明模型存在1阶ARCH效应,因此需要建立GARCH模型去除ARCH效应。GARCH模型使用最小信息准则对比如表6。由表6可知GARCH模型滞后阶数(3,2)最小,选择GARCH(3,2)模型,模型AIC=-5.864 8、SC=-5.768 4、HQ=-5.826 5。

表6 GARCH模型信息表

Table 6 Information sheet of GARCH model

GARCHAICSCHQ(1,1)-5.826 0-5.761 8-5.800 5(1,2)-5.823 8-5.748 8-5.794 0(1,3)-5.848 7-5.763 1-5.814 7(2,1)-5.820 3-5.745 3-5.790 5(2,2)-5.817 2-5.731 5-5.783 1(2,3)-5.819 4-5.723 1-5.781 1(3,1)-5.817 2-5.731 5-5.783 1(3,2)-5.864 8-5.768 4-5.826 5(3,3)-5.843 3-5.736 3-5.800 8

注:粗体为最大值。

Note: Bold are the maximum.

2.2.2 GARCH模型的检验

使用LM法检验GARCH(3,2)模型残差是否仍具有ARCH效应,结果显示,其F统计值为0.059 821(P=0.806 9),异方差怀特检验量为0.060 143(P=0.806 3)。GARCH族模型异方差怀特检验量均大于显著水平0.05,残差序列不存在ARCH效应,因此此次研究建立的GARCH模型均满足序列平稳且没有ARCH效应的统计要求。

2.3 模型预测效果对比

结合前文基于南宁市2017年1月1日-2017年12月31日O3日均浓度监测值样本数据建立的ARMA(1,1)模型-GARCH(3,2)模型,对南宁市2018年1月1日至2018年1月31日O3日均浓度进行预测,结合实测值进行误差分析(图3)。

结果表明,模型预测值与实测值的拟合趋势基本一致,相对误差率平均34.39%;在31 d预测浓度值中,有9 d与实测值相对误差率在5%以内,有14 d与实测值相对误差率在10%以内,有9 d与实测值相对误差率在10%-20%,但也有8 d预测值与实测值误差较大。从图3可以看出,在实测值拟合曲线峰、谷值等前后位置容易出现较大误差。2018年1月1日与1月2日的预测值相对误差率均不超过4%,说明由于时间序列模型体现的是时间序列的自相关性和自身的动态记忆性,更适宜反映样本时间序列的短期变化。

图3 模型拟合效果图

Fig.3 Chart of model fitting effect

3 结论

本文通过构建ARMA-GARCH模型,对南宁市城区2018年1月31 d的O3日均浓度进行预测,预测值拟合曲线基本能与实测值保持一致。在31 d预测浓度值中,23 d预测相对误差率在20%,较为准确,其中2018年1月1日与1月2日相对误差率均小于4%。这表明采用时间序列ARMA-GARCH模型短期预测O3浓度是比较有效的,能为O3浓度的预测预报提供一定的参考价值。

尽管时间序列ARMA-GARCH模型描述的是样本在时间序列上的自相关性,可较为准确地反映短期内的时间序列变化关系,而非长期的变化关系。但正因如此,时间序列ARMA-GARCH模型更适宜应用在短期大气污染物浓度预测方面,充分发挥其速度快、准确性较高的特点,为大气污染防治提供决策参考。

猜你喜欢
阶数实测值残差
基于双向GRU与残差拟合的车辆跟驰建模
±800kV直流输电工程合成电场夏季实测值与预测值比对分析
确定有限级数解的阶数上界的一种n阶展开方法
基于残差学习的自适应无人机目标跟踪算法
常用高温轴承钢的高温硬度实测值与计算值的对比分析
市售纯牛奶和巴氏杀菌乳营养成分分析
基于递归残差网络的图像超分辨率重建
一个含有五项的分数阶混沌系统的动力学分析
一种基于实测值理论计算的导航台电磁干扰分析方法
复变函数中孤立奇点的判别