融合ARIMA-LSTM模型的大连市空气质量预测

2022-12-08 07:23孙雪莲
现代计算机 2022年18期
关键词:残差空气质量神经网络

张 恒,王 伟,孙雪莲

(大连民族大学理学院,大连 116000)

0 引言

在工业化、城镇化进程逐步加剧以及经济高速发展的背景下,空气质量日益引起全社会重视,大气污染给人民群众身体健康及生活造成严重影响,同时空气质量也关系到城市发展潜力。空气污染是指在一定时间内大气中污染物浓度达到或超过其允许值时造成的危害。它不仅会引起人体内有害气体含量增加,而且还会导致人体免疫功能下降。因此,空气质量预测与可视化对于城市环境管理与可持续发展具有重要意义,空气质量好有助于增强城市综合竞争力[1]。

当前空气质量的好坏主要是由空气质量指数的大小所决定的[2]。随着社会经济的发展,环境问题日益突出,空气质量成为人们关注的焦点。为准确掌握空气环境质量状况及变化趋势,建立科学的空气质量评价体系尤为重要。因此,开展空气污染指数时空变化研究十分必要。空气质量指数监测结果既关系到六种污染物(PM2.5,PM10,SO2,NO2,CO,O3)的浓度,也关系到温度、气压和风速等气象因素,需全面考虑[3-4]。ARIMA及其他统计模型因其简便、灵活的特点已大量应用于时间序列的预测[5-6]。然而空气质量指数时间序列存在着非线性特点,且常规的预测方法均为线性模型,因此在空气质量指数时间序列建模时显示出了一定局限性[7]。因为神经网络有很强的非线性映射能力[8],所以近几年基于神经网络预测空气质量指数被广泛应用,LSTM等神经网络成为人们关注的焦点[9],然而单一非线性模型对于既有线性又有非线性的时间序列无法得到最优结果[10]。

针对上述问题,本文提出了ARIMA-LSTM融合模型。首先采用ARIMA模型提取空气质量指数时间序列线性特征,然后将预测结果和真实值相减得到残差序列,残差序列和空气质量指数影响因素作为LSTM的输入,对空气质量指数残差进行修正,最后将修正结果与ARIMA模型预测结果相结合得到最终的预测结果。

1 预测模型介绍

1.1 ARIMA预测模型

ARIMA全称为差分自回归移动平均模型[11],由Box等[12]提出,通常被记作ARIMA(p,d,q)。p表示自回归项数,d表示时间序列平稳差分的次数,q表示移动平均项数。

ARIMA模型的数学表达式如下:

其中:xt是平稳变量,φt是自回归项系数,wt是残差,θt是移动平均项系数。

本文的研究对象为空气质量指数,考虑到序列的不平稳,因此使用ARIMA(p,d,q)进行建模预测。

1.2 LSTM预测模型

LSTM是一种特殊的循环神经网络,由Hochreiter等[13]提出,对数据序列具有记忆长期依赖关系,自学习能力强,非线性拟合能力强。本文利用这一特点,建立预测模型,如图1所示,LSTM模型结构的每个单元都有以下更新。

图1 中,xt表示该时刻的数据信息,激活函数σ和tanh表达式通常取如下值:

ft表示遗忘门,可以滤除前序列时刻的状态信息,并确定前序时刻在后续时刻中的租用;it表示输入门,用于控制输入信息在该时刻中的信息占比;ot表示输出门,用于控制本时刻状态信息的输出占比,计算公式分别为

其中:Wf、Wi、WO均是权重矩阵。如以下公式所示,Ct表示本时刻状态信息,其值由本时刻输入信息以及上一时刻状态信息决定:

其中:C't=tanh(WC·[ht-1,xt]+bc)。ht表示本时刻隐藏层的状态信息:

1.3 ARIMA-LSTM模型

本文提出了一个基于ARIMA与LSTM的融合模型。ARIMA-LSTM模型主要包括三个方面:首先,利用自回归滑动平均方法建立一个非线性动态过程;然后,通过引入神经网络结构来提高其学习能力和泛化性能;最后,采用两种不同类型数据对模型进行验证分析。第一部分为线性ARIMA模型,在时间序列Yt上做单步预测,其结果用L̂t来表达;第二部分为ARIMA模型误差Nt与空气质量指数的影响因素相结合,其结果用N̂t来表达,其中Nt=Yt-L̂t;第三部分是将预测结果L̂t和N̂t进行组合,预测结果表示为Ŷt。图2给出了ARIMA-LSTM模型流程。

2 实验

2.1 数据描述与预处理

本文采用2021年的日平均空气质量数据作为ARIMA模型的基础研究数据,其中前90%数据作为训练集,后10%数据作为测试集。

神经网络训练时,数据之间的量纲差别对于网络训练的收敛效果和预测准确性起着至关重要的作用,所以在建模之前,有必要对输入数据做预处理,本文利用公式(9)将每一维的特征映射到[0,1]指定区间。

其中:minx(t)和maxx(t)分别为训练数据集的最小值和最大值,将训练输出数据反归一化以获得预测值。

2.2 数据描述与预处理

在模型评价方面,本研究选取了平均绝对误差(MAPE),平均绝对百分比误差(MAPE)以及均方根误差(RMSE)三个指标对模型空气质量指数时间序列的预测性能进行了评估,各指标的值越小表明预测精度越高,预测效果也就越好。这三个评价指标的表达式如下:

其中,Xt代表实际值;Ft代表预测值;N是时间序列数据集样本数目。

2.3 实验结果

2.3.1 平稳性检验及平稳化处理

由图2可以看出AQI序列具有一定的趋势,并不是始终在一个常数值附近波动,初步判定该序列是不平稳的。通过ADF检验和KPSS检验可知,ADF统计量为1,KPSS统计量也为1,ADF检验通过,但KPSS检验未通过,结合两种检验的结果可知空气质量指数序列是不平稳的。对AQI数据进行一阶差分,记作DAQI,再验证其平稳性,ADF统计量为1,KPSS统计量也为0,ADF检验和KPSS检验都通过,则可以认为DAQI为平稳时间序列。

2.3.2 模型识别及定阶

通过遍历各种参数的各种组合,采用AIC与BIC准则对最优模型进行参数选择,得到最优模型,最后确定的模型为ARIMA(1,1,2)。

2.3.3 模型拟合及检验

根据拟合结果,残差用LB检验法处理白噪声,结果表明Q统计量P值在0.05以上,拟合模型已完全提取时间序列信息。最后诊断残差分布情况,其结果见图3。残差分布比较正常,时序图变化基本平稳。最后利用Durbin-Watson检验法,检验残差是否存在回归分析中的一阶自相关性,本文中DW值为1.9982,该值越接近2说明时间序列不存在一阶相关性,即通过DW检验。综上,ARIMA(1,1,2)拟合效果良好,能够很好地预测出时序的趋势。

2.3.4 ARIMA时间序列预测

回代预测2021年后10%的数据,所得预测结果如图4所示。其中MAE=16.6239,MAPE=0.3520,RMSE=20.2222。将获得的预测值和实际值相减,并将获得的残差作为随后LSTM模型中的一个输入变量来校正残差。

2.3.5 LSTM残差修正

采用前文ARIMA模型2021年后10%AQI测试样本得到的残差序列,建立了考虑AQI影响因素的LSTM神经网络模型,模型预测所得残差修正值如图5所示。通过对上述两种方法得出的结果对比可知,ARIMA模型具有较高的准确性和稳定性;而基于LSTM神经网络算法可以有效提高预测精度。本文采用MATLAB软件编程实现了该过程。最后,将ARIMA模型所得预测值与LSTM模型残差预测修正值进行累加,获得最终2021年后10%的AQI预测值,所得预测值所计算的各评价指标为MAE=3.0523,MAPE=0.0706,RMSE=3.5968。

2.3.6 结果分析

为评估提出的方法,实验选取BP神经网络模型进行对比分析,最后的对比方法包括ARIMA、BP神 经 网 络 模 型、LSTM模 型、ARIMA-BP模型和ARIMA-LSTM融合模型,五种模型在相同数据集上进行实验。由上述五种方法得出的最终预测结果对比如图6所示,由预测结果计算出来的三个评价指标值见表1。

表1 五种预测模型评价指标结果对比

由对比结果可知,ARIMA模型的整体趋势捕捉较好,但预测精度很差;BP神经网络和LSTM模型较ARIMA模型精度有所提升,这是因为在建立神经网络,输入变量时考虑了污染物指标和气象因素;而ARIMA-LSTM融合预测模型既能抓取线性特征又能捕捉非线性特征,虽然LSTM容易出现过拟合,但这种融合预测模型的LSTM模型只校正残差,对于其总体预测效果几乎没有影响。通过实验验证了上述结论,本文融合模型与另外四种预测模型比较,该模型预测精度是最高的。

3 结语

AQI作为反映空气质量状况的一项重要指标,其预测结果可以为政府及有关部门及时提供大气环境质量变化趋势,有助于提升环保部门大气污染风险信息预警。针对传统单一预测模型精度不高,不能满足实际需要的问题,提出一种基于ARIMA-LSTM融合模型的空气质量指数预测算法,实现对大连地区未来一段时间内空气质量状态的准确预估。本研究利用2021年大连市空气质量指数数据及相关气象数据,构建ARIMA-LSTM融合模型并开展仿真实验,仿真实验表明,该融合模型具有较好的预测效果,能够提高空气质量预测准确率,对于空气污染监测、预警及防控治理有参考价值。在下一步研究中,将考虑更加全面的影响指标,进一步提升模型的稳定性和准确性。

猜你喜欢
残差空气质量神经网络
基于神经网络的船舶电力系统故障诊断方法
基于残差-注意力和LSTM的心律失常心拍分类方法研究
乌海市雾对空气质量的影响
基于双向GRU与残差拟合的车辆跟驰建模
基于递归模糊神经网络的风电平滑控制策略
基于残差学习的自适应无人机目标跟踪算法
基于深度卷积的残差三生网络研究与应用
基于神经网络的中小学生情感分析
基于Q-Learning算法和神经网络的飞艇控制
车内空气质量标准进展