基于VMD和LSTM方法的北京市PM2.5短期预测

2022-03-10 13:32秦喜文王强进王新民郭佳静
关键词:模态预测函数

秦喜文,王强进,王新民,郭佳静,初 晓

1.长春工业大学数学与统计学院,长春 130012 2.长春工业大学研究生院,长春 130012 3.长春财经学院信息工程学院,长春 130122

0 引言

大气污染所带来的危害与人类自身的健康和安全息息相关,近年来,随着工业生产规模的不断扩大和城镇化进程的快速发展,大气环境的污染问题变得越来越严重,因此,人们必须对大气污染问题予以重视[1]。“雾霾”主要由气态污染物(二氧化硫、氮氧化物)和可吸入颗粒物(PM2.5)等组成,其中PM2.5是加重雾霾天气污染的主要原因[2]。PM2.5又称细颗粒物,是指环境空气中直径≤2.5 μm的悬浮颗粒,其成分构成复杂,可以由硫和氮的氧化物转化而成,还包括氨气以及建筑灰尘等[3]。研究显示,PM2.5具有较强的地域性和季节性差异[4]。比如我国北方地区,由于在冬天受到供暖期污染排放的影响较大,所以在冬季时空气污染更为严重。人们在雾霾环境中,不论是日常出行还是身体健康状况都受到了很大的影响[5]。因此建立准确、可靠、有效的建模方法,向公众公布未来几天内预期污染物的浓度是非常重要的,其可以指导预警决策活动。

近年来,针对PM2.5的预测问题,研究人员给出了各种数据驱动的模型,其中包括线性和非线性模型。传统的线性模型,如整合移动平均自回归模型[6-7]、多元线性回归模型[8]均基于所研究序列是线性的假设,此外,分位数回归[9]等模型也被广泛应用于PM2.5的预测领域。然而,在实际生活中,PM2.5时间序列的特性呈现出非线性和时变复杂性。因此,非线性模型的应用也越来越多,例如,基于人工神经网络[10]、支持向量机[11]、随机森林[12]和其他混合方法[13-14]的学习模型,可以根据非线性映射和自学习的能力进行高精度预测。

变分模态分解(variational mode decomposition,VMD)是一种新型的自适应分解方法[15],能够很好地处理非线性和非平稳序列,自提出以来就被广泛应用到故障诊断与时间序列预测中[16-19]。长短时记忆模型(long short term memory neural network,LSTM)早在1997年就被提出[20],是深度学习的经典方法之一,由于其能更好地发现长期依赖关系而被广泛用于处理序列信息,被应用到多种研究领域,如时间序列预测[21-23]、文本挖掘[24]、分类[25]等方面。本文提出基于VMD和LSTM相结合的混合预测模型(VMD-LSTM),并与其他9种PM2.5预测模型的短期预测结果进行比较,以期为有效预测PM2.5浓度提供新思路和新方法。

1 改进的变分模态分解

1.1 变分模态分解(VMD)

VMD是一种新的自适应信号处理算法,其在处理非线性、非平稳信号时有效解决了经验模态分解(empirical mode decomposition,EMD)算法中存在的模态混叠现象和端点效应问题;此外,由于VMD实质上是由多个自适应维纳滤波组组成,所以它在应对噪声敏感问题上也更具有优势[10,15]。VMD算法为了实现原始信号的有效分解,需要通过迭代搜索一个受约束的变分模型的最优解,从而确定每个调幅调频子信号的带宽和中心频率。具体来说,VMD算法主要可以分为构造变分问题和求解变分问题两个部分。

首先引入“模态”的概念。VMD算法可以把原始信号序列分解成几个固有模态函数(intrinsic mode function,IMF),即调幅调频子信号uk(t):

uk(t)=Ak(t)cos[φk(t)]。

(1)

式中:k为固有模态函数的数目;t为时间;Ak(t)为瞬时幅值,且满足Ak(t)≥0;cos[φk(t)]为瞬时频率;φk(t)为非递减函数。

为了保证稀疏性,可以利用VMD算法将原始输入信号f分解为一系列调幅调频子信号uk,分解后得到的各模态应该满足重构以后近似等于原始输入序列的约束条件,且应该保证每个模态的估计带宽之和最小。

构造变分问题的过程需要通过以下3个步骤实现:1)对模态函数uk进行Hilbert变换得到其对应的解析信号,进而得到单边频谱;2)为了将模态函数的中心频带调整到基频带上,将中心频率ωk的指数函数e-jωkt与单边频谱相乘;3)对解调信号进行高斯平滑处理,以此获得每段带宽。此时要求解的带约束变分问题的目标函数为

使得∑kuk=f。

(2)

式中:∂t为偏导函数;δ(t)为单位脉冲函数;j为虚数单位;*为卷积。

在求解受约束变分模型的最优解时,需要将式(2)中受到约束的变分问题转换成无约束变分问题,通过引入惩罚因子α和拉格朗日算子λ来实现,此时构造的增广Lagrange函数表达式为

L({uk},{ωk},λ)=

(3)

式中,〈·〉表示做乘积。

1.2 阈值法确定K的数目

VMD在非线性非平稳数据分解中具有较高的精确性,并且噪声鲁棒性更强,K值的选取是否合理将会直接影响最终的预测效果[26]。通常情况下,VMD算法在初始化分解时需要人为假定分解的数目K值,此时就可以实现将复杂的数据适当地分成K个调幅调频分量。若K值小于实际待分解数目,则信号分解不彻底,无法完全提取信号中蕴含的有用信息;若K值大于实际待分解数目,则会产生过度分解现象,分解结果中就会产生虚假分量。大量实验结果表明,原始信号与分解后信号的误差平方和随着K的增加而呈现递减趋势,而迭代终止条件ε则呈现出先减小再增大的变化过程。因此本文提出了阈值法确定K的取值。改进VMD算法的计算步骤如下所示。

1)输入分解数目K=2,3,…,N,N<15;

2)在每一个分解数目下,得到分解后的固有模态函数与原始序列之间的误差平方和,记为eK,且e2>e3>…>eN。

3)在每一个分解数目下,得到每一次分解所对应的迭代终止条件εK;

4)给定阈值p,记录下使得eK满足eK≤p的K值;

5)在满足4)的分解数目下,将满足min(εK)所对应的K值确定为最终的分解数目。

2 LSTM神经网络

长短时记忆模型是一种时间递归神经网络,是循环神经网络(recurrent neural network,RNN)的一种变体,其对RNN进行了改进并有效避免了常规RNN网络的梯度消失问题,对于时间序列数据的预测具有非常好的表现能力。LSTM模型建立了一个记忆存储结构,用来存储网络循环过程中产生的一系列状态。该模型的记忆结构如图1所示。

图1 LSTM的记忆结构

LSTM模型的门有遗忘门、输入门和输出门3种。其中,在时刻t,xt表示记忆单元的输入值,ht表示记忆单元隐藏层的当前值,因此设置输入门、遗忘门和输出门的初始值分别为it、ft和ot:

it=σ(Wixt+Uiht-1+bi);

ft=σ(Wfxt+Ufht-1+bf);

ot=σ(Woxt+Uoht-1+Voct+bo)。

(4)

式中:σ为sigmoid激活函数,其值域为[0,1];W为权重矩阵;U为输入层到隐藏层的参数矩阵;V为隐藏层到输出层的参数矩阵;b为偏置项;下标i、f、o分别代表输入门、遗忘门、输出门的简写标识;ct为记忆单元的候选值。

ct=tanh(Wcxt+Ucht-1+bc)。

式中,下标c代表记忆细胞。

从图1可以看出该记忆存储结构的核心部分就是细胞的自循环,其权重值是1,并且与时间的变化情况无关。其中输入单元可以决定信息的状态或决定有多少信息可以输入,而输出单元则可以调整记忆结构决定输出多少信息以及输出何种信息。此外,还可以通过遗忘单元对记忆结构中的信息连接进行调整,决定遗忘哪些信息,防止内部单元信息值无限制增长。因此,LSTM模型可以较好地处理时间序列数据,消除冗余噪声,改善RNN模型的缺陷。

3 基于VMD和LSTM方法的北京市PM2.5短期预测

3.1 数据来源及描述

本文数据来自于空气质量历史数据查询网站(https://www.aqistudy.cn/historydata/),该网站囊括了全国各个城市的空气质量数据,最早可追溯到2013-12,空气质量数据包括9个指标:日期、AQI(空气质量指数)、质量等级,以及PM2.5、PM10、SO2、CO、NO2和O3的质量浓度。本文选取北京市PM2.5的历史数据作为研究对象,图2为该数据集的时序图。

从图2可以发现该数据周期性明显,并且从2017-06起开始数据峰值明显下降。该样本的时间区间为2013-12-01—2019-08-26,样本数为2 093。本文旨在建立PM2.5的短期预测模型,因此将样本划分为训练集与测试集,其中训练集包含2 083个样本,测试集包含10个样本。

图2 北京市PM2.5数据时序图

3.2 模型评价指标

本文通过与主成分回归(principal component regression, PCR)、整合移动平均自回归(autore-gressive integrated moving average, ARIMA)、随机森林回归(random forest regression, RFR)、支持向量回归(support vector regression, SVR)、最小二乘支持向量回归(least squares support vector regression,LS-SVR)、长短时记忆网络这6种基准模型,以及VMD-RFR、VMD-SVR和VMD-LS-SVR 3种组合模型的预测结果进行比较,对所提出的混合预测模型VMD-LSTM的性能进行评价。评价指标包括均方误差(EMSE)、平均绝对误差(EMAE)、平均绝对百分比误差(EMAPE)、均方根误差(ERMSE)、异方差调整的均方误差(EHMSE)、异方差调整的平均绝对误差(EHMAE)和协议指数(IA)。各指标计算公式如下:

(5)

(6)

(7)

(8)

(9)

(10)

(11)

通常来说,IA值介于0到1之间,其越接近于1,模型的预测精度越高;而其他评价指标的值则越接近于0,模型的预测精度越高。

3.3 预测结果比较分析

由于PM2.5数据序列的波动程度较大,呈现出非线性、非平稳的复杂特性,尖峰现象严重。为了更好地拟合PM2.5预测模型,更为全面地研究其波动特征,将具有高强度降噪特点的VMD分解方法应用于PM2.5的预测中,以提升预测精度,分解结果如图3所示。

从图3可以看出,PM2.5数据序列具有明显的周期波动特征,且频率分布由低到高,共分解为10个固有模态函数,运用VMD分解方法可以增加重构精度和提升数据的有效信息含量。

a.IMF1;b.IMF2;c.IMF3;d.IMF4;e.IMF5;f.IMF6;g.IMF7;h.IMF8;i.IMF9;j.IMF10。

本文用样本集的前2 083个数据作为训练集,分别建立了PCR、ARIMA、RFR、SVR、LS-SVR、LSTM、VMD-RFR、VMD-SVR、VMD-LS-SVR,以及本文提出的VMD-LSTM模型。PCR模型的建立,是先以数据集中的PM2.5序列作为因变量,PM10、SO2、CO、NO2和O3的质量浓度作为自变量,运用SAS9.4版本软件编程实现该过程;然后通过比较累计贡献率和特征值选取了前2个主成分进行回归并预测未来10期的PM2.5值。ARIMA模型的建立也是使用SAS软件完成,先通过图2(时序图)得到PM2.5序列有以年为单位的周期性;之后通过ADF(augmented dickey-fuller)等平稳性检验也证实了该序列为非平稳非白噪声序列,进行1阶12步差分后使其平稳化;最后建立ARIMA模型。RFR、SVR、LS-SVR、VMD-RFR、VMD-SVR、和VMD-LS-SVR建模过程都是通过R软件和MATLAB软件实现,建模形式与PCR相同。LSTM通过Python实现,VMD-LSTM则是同时应用MATLAB和Python实现的。

经过上述过程,每个模型都得到了相应的10个预测值。将它们与原始序列以折线图的形式呈现在图4中。

图4 后10期PM2.5预测值

表1为各个模型的评价指标汇总表,从表1可以发现:VMD-LSTM模型具有最小的EMSE、EMAE、EMAPE、ERMSE和EHMAE,仅在EHMSE指标中,VMD-LSTM模型的EHMSE稍大于RFR模型;同时,对于指标IA而言,VMD-LSTM模型的IA值最接近于1。因此可以认为VMD-LSTM模型对PM2.5序列的预测精度最高,是准确有效的预测模型。此外,由于PM2.5数据序列的周期波动性,VMD分解方法并非对所有机器学习方法都有效,而LSTM模型特有的门记忆结构可以较好地处理时间序列数据,因而具有更好的性能表现。

表1 评价指标

4 结论与建议

1)将改进后的VMD和LSTM相结合,提出了一种新型的时间序列预测模型VMD-LSTM,将其应用到PM2.5序列的预测分析,同时与其他9种经典对照模型(PCR、ARIMA、RFR、SVR、LS-SVR、LSTM、VMD-RFR、VMD-SVR、VMD-LS-SVR)的短期预测结果进行比较。

2)基于VMD-LSTM的PM2.5短期预测结果具有更小的误差,其预测精度最高;RFR、SVR模型在PM2.5的预测方面仍然具有较好的准确性。各评价指标的结果均显示,VMD-LSTM模型的预测效果优于单独的LSTM模型的预测效果。

3)LSTM作为一种经典的深度学习方法,为PM2.5短期时间序列预测提供了新的研究思路和途径。与此同时,将VMD引入到PM2.5序列预测中,能够将非线性非平稳序列的不同尺度特征完整地分解出来,从而提高预测精度。此外,由于VMD和LSTM都是较为新型的方法,其可改进之处还有很多,所以在时间序列预测的发展中具有远大的前景。后续将深入研究并改进该模型,将运用更多的数据来验证该模型的适用性。

猜你喜欢
模态预测函数
无可预测
联合仿真在某车型LGF/PP尾门模态仿真上的应用
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
基于老年驾驶人的多模态集成式交互设计研究
模态可精确化方向的含糊性研究
关于函数的一些补充知识
高中数学中二次函数应用举隅オ
无独有偶 曲径通幽