基于CEEMDAN-TCN模型的河南省月降水量预测

2023-08-28 02:02王硕陈中举许浩然黄小龙

节水灌溉 2023年8期

王硕，陈中举，许浩然，黄小龙

（长江大学计算机科学学院，湖北荆州 434023）

0 引言

降水量预测是气候预测的重要研究内容。降水量与人类的生产生活，社会的经济发展密切相关。大气降水是一个地区地表水和地下水的总补给源，直接决定了这个地区的水资源丰富程度，并且异常的降水是旱灾、洪涝灾害的直接影响因素之一[1-6]。因此，降水量的准确预测有着极其重要的意义，也是近年来国内外研究的热点。

目前，国内外学者在预测降水量上进行了大量探索，主要的研究方法有回归模型[7,8]、支持向量回归[9-11]、神经网络[12]等。其中，长短期记忆网络(Long Short-Term Memory, LSTM)在相关工作上被广泛的应用并取得了不错的成效[14]。然而，水文时间数据是非线性、非平稳的数据，由于单一模型存在一定的局限性，其预测效果可能会不理想。有学者提出结合信号分析方法-集合经验模态分解(Ensemble Empirical Mode Decomposition, EEMD)与时间序列模型进行预测，得到了不错的效果。如李智强等[8]使用EEMD-ARIMA模型对临夏的年降水量进行预测。杨倩等[14]使用EEMD-LSTM对天山北坡经济带降雨量进行预测。由于EEMD方法有着很强的局部表现能力，所以在处理水文时间序列这种非线性、非平稳的信号时是一种有效的方法，结合了EEMD的模型相较于单一模型预测准确性得到了较大的提升[13-16]。

然而，LSTM仍存在不足，LSTM只能够按照顺序读取数据，在数据的并行处理上存在一定的劣势。此外，EEMD在分解的过程中也会存在残余的白噪声，并且EEMD选取有效的IMF完全依靠经验来确定，使得EEMD对信号的分解重构的准确性受到影响。

时间卷积网络(Temporal Convolutional Network, TCN)[17]近年来被证明在很多时间序列处理上的性能都优于LSTM[18]，如李亚平等[19]使用TCN对滚动轴承寿命趋势进行预测，结果表明TCN的性能要优于LSTM。相较于LSTM，TCN架构更简单更易于理解，并且TCN既能够利用卷积网络提取时间序列的高级特征，又可以用并行思想高效率计算，进而在提高速度的同时达到更好的预测效果。自适应噪声的完备经验模态分解(complete ensemble empirical mode decomposition with adaptive noise, CEEMDAN)[20]是由Torres等在2011年提出的。相对于EEMD，CEEMDAN大大降低了分解的复杂度并进一步提升了分解信号的精确度和完备度，具有明显的优越性。因此，为了提高降水量预测的准确性，本文将CEEMDAN和TCN耦合构建CEEMDAN-TCN模型，并首次应用于地学领域的降水量预测上，对河南省月降水量进行预测。最后，与LSTM、TCN、CEEMDAN-LSTM三个模型进行对比，验证了CEEMDAN-TCN模型的有效性。

1 数据来源

1.1 研究区域概况

河南地处中国中部，总面积为16.7 万km2，地理坐标为31°23′～36°22′N、100°21′～116°39′E。年平均降水量在464.2～1 193.2 mm。河南省地势西高东低，由平原和盆地、丘陵、山地和水面构成[21]。河南省大部分处于温暖带，气候上属于北亚热带向暖温带过渡的大陆性季风气候。同时，河南省还具有自东向西由平原向丘陵山地气候过渡的特征和四季分明、雨热同期等气候特点。本文的研究区域及各区域站点数目为豫东3个、豫南6个、豫西3个、豫北2个、豫中3个共五大区域17个站点。区域及气象站点分布如图1所示。

图1 研究区域概况Fig.1 Overview of the study area

1.2 数据来源

本文所用的河南省降水量数据均来自于中国气象数据网(http://data.cma.cn)，所用河南地理高程数据来源于地理空间数据云(http://www.gscloud.cn/search)。

2 研究方法

2.1 自适应噪声的完备经验模态分解

CEEMDAN是对EMD以及EEMD算法的改进算法。CEEMDAN算法在对信号进行EMD分解的各个阶段，自适应调整噪声系数，从而在待分解信号中引入不同信噪比的高斯噪声，能同时避免模态混叠问题并消除虚假信息干扰[22]。CEEMDAN算法原理如下：

定义x(t)为待分解的时间序列信号，通过EMD分解得到的第k个IMF分量为Ek(·)，是通过算法CEEMDAN分解得到的第k个IMF，Vm为满足标准正态分布的高斯白噪声，m为加入白噪声的次数m= 1,2,…,N，ε0为噪声系数。

步骤1：将N组高斯白噪声加入待分解的信号，对新信号进行EMD分解并对产生的N个IMF进行总体平均得到CEEMDAN的IMF1。

步骤2：计算第一个残差r1(t)。

步骤3：在一阶残差中加入正负成对的高斯白噪声并对其进行EMD分解得到模态分量D1重复计算N次并进行总体平均可得到CEEMDAN的IMF2。

步骤4：计算第二个残差r2(t)。

步骤5：重复步骤3和步骤4直到获得的残差信号为单调信号不能继续进行分解，算法结束。此时得到的IMF数量为i，原始信号x(t)被分解为：

2.2 时间卷积网络

时间卷积网络（TCN）是由卷积神经网络（CNN）变体而来。它可以直接使用卷积的特性来提取时间序列的高级特征，并且，相较于LSTM，TCN拥有并行性好、感受野灵活、梯度稳定、内存小等优点[23]。在结构上时间卷积网络主要由因果卷积、膨胀卷积和残差模块构成。

（1）因果卷积。TCN需要保证网络的输出长度和输入长度相同，并且未来数据不会发生泄露，因此，TCN采用了一维全卷积网络和因果卷积。下面给出因果卷积的定义序列X=(x1,x2,…,xt)，滤波器F= (f1,f2,…,ft)，在xt处的因果卷积为：

（2）膨胀卷积。简单的因果卷积并不能获取较长的时间序列。为此，TCN采用了膨胀卷积。下面给出膨胀卷积的定义序列X=(x1,x2,…,xt)，滤波器F=(f1,f2,…,ft)，在xt处膨胀因子为d的膨胀卷积为：

（3）残差模块。为了解决引入因果卷积和膨胀卷积从而造成的梯度消失或者爆炸问题，TCN引入残差模块，将模型的输入x加权融合到模型的输出F(x)中最终得到TCN的输出y。

式中：Activation为激活函数。

2.3 对比模型长短期记忆网络

长短期记忆网络(LSTM)由Hochreiter等提出[24]。LSTM在RNN的基础上引入了记忆细胞的结构和输入门、输出门、遗忘门3种门结构。其网络输入到输出的计算过程如下：

式中：Wf、Wi、Wo、Wc分别代表遗忘门、输入门、输出门、记忆单元的权值向量；bf、bi、bo、bc分别代表遗忘门、输入门、输出门、记忆单元的偏置向量。

2.4 模型构建

CEEMDAN-TCN模型构建流程如图2所示，具体建模步骤如下。

图2 建模流程Fig.2 Modeling process

步骤1：针对降水量时间序列非线性，非平稳的特性，使用CEEMDAN方法对其进行分解处理，降低原始序列对模型产生的不利影响。得到各个平稳的IMF分量以及一个残差分量Res。

步骤2：分别将各个子序列数据进行归一化处理，并采用滑动窗口方法针对各个子序列建立TCN模型分别对其进行预测，使用优化算法对模型的超参数进行优化。

步骤3：将各个子序列使用经过优选过的TCN模型进行预测得到预测结果，并将预测的结果叠加得到预测值。

2.5 模型精度评价准则

本文采用均方根误差(RMSE）和平均绝对误差(MAE）对模型的精度进行评价。其计算公式如公式(15)、(16)所示。

式中：k为气象站点数；yt和为真实值和预测值。

3 结果及分析

本文选取河南省17个气象观测站1960-2017年的月降水数据作为研究对象，建立CEEMDAN-TCN模型进行预测，按7∶3的比例将数据集进行划分，即1960年1月-2000年7月的月降水量数据共496个月的数据进行模型的训练，2000年8月-2017年12月共200个月的降水量进行模型的验证。使用控制变量法根据预测结果的精度调整模型参数，经过多次实验最终确定模型的优化器为Adam(Adaptive moment estimation)，确定学习率为0.000 1，迭代次数为600；为了防止模型出现过拟合现象，将模型的dropout设为0.1。对比模型LSTM与TCN模型的参数调整类似，同样将dropout设为0.1，采用Adam作为优化算法，迭代次数和TCN设置相同。实验环境为python3.7，tensorflow版本为2.3.1。

3.1 单个站点预测结果及分析

以57178站点为例，原始降水量序列的变化曲线如图3所示。由图3可知，原始降水量序列的波动幅度较大，存在着较强的非平稳性。通过CEEMDAN方法对原始降水量序列共696个月的数据进行分解得到8个子序列，分解结果如图4所示。随着分解的逐步进行，经过分解得到的8个子序列波动渐趋于平缓并且更具有规律性。CEEMDAN分解有效降低了序列的非平稳性，从而提高了模型预测的精度。

图3 57178站点原始降水序列Fig.3 The original Precipitation sequence of 57178 site

图4 基于CEEMDAN分解结果Fig.4 Decomposition results based on CEEMDAN

为验证本文提出的CEEMDAN-TCN模型的可行性，选取LSTM模型、TCN模型、CEEMDAN-LSTM模型进行对比实验，采用RMSE和MAE指标对各模型的预测效果进行评判。各个模型的验证集预测精度如表1所示，验证集预测值和真实值对比结果如图5所示。

表1 57178站点各模型预测精度评价指标对比Tab.1 Comparison of prediction accuracy evaluation indicators of each model at 57178 site

图5 57178站点各模型降水量预测值与真实值对比Fig.5 Comparison between the predicted value and the real value of the precipitation of each model at 57178 site

由表1可知，本文提出的CEEMDAN-TCN模型预测效果均优于对比模型，且预测精度提升较大。结合图5和表1可知，LSTM模型的预测误差最高，其预测值相较真实值较为离散。TCN得益于强大的信息提取和拟合能力预测精度有所提升，相较LSTM模型，RMSE减少了4.44%，MAE减少了12%。并且由于TCN具有更高的计算效率，其运行时间相较LSTM减少了36.36%。但单一的TCN模型预测效果仍存在较大不足，其对于峰值的预测与真实值具有一定差距，且对波谷的波动无法有效的预测。

CEEMDAN-LSTM预测效果相较于LSTM模型预测效果有着显著提升，RMSE和MAE分别减少37.60%，20.75%。CEEMDAN-LSTM的预测值整体符合实际降水量序列的变化趋势，且对于波峰的预测有着较好的效果。但CEEMDAN-LSTM无法对波谷进行有效的预测，波谷的预测值相较于真实值仍较为离散。CEEMDAN-TCN模型相较LSTM模型、TCN模型、CEEMDAN-LSTM模型，其预测精度最高，RMSE分别减少了74.09%、72.88%、58.47%；MAE分别减少了70.86%、66.87%、63.22%，预测精度具有较大提升。并且，由图5可知，CEEMDAN-TCN模型对降水量序列的变化趋势预测更为准确，其较为准确地预测出了波峰和波谷的波动情况，预测值更贴近真实值。

3.2 全部站点预测结果与分析

为进一步验证CEEMDAN-TCN模型在月降水量预测的有效性和普适性，选取河南省另外16个站点建立模型进行预测，并选取LSTM模型、TCN模型、CEEMDAN-LSTM模型进行对比实验，4个模型的验证集预测精度如图6和图7所示，详细数值如表2所示。

表2 各个站点各模型预测精度评价指标对比mmTab.2 Comparison of prediction accuracy evaluation indexes for each model at each site

图6 河南省各站点RMSE值对比Fig.6 Comparison of RMSE values for each site in Henan Province

图7 河南省各站点MAE值对比Fig.7 Comparison of MAE values for each site in Henan Province

结合表2和图6图7可知，在所有模型中LSTM模型在所有站点的预测效果都较差。相较于LSTM模型，TCN模型预测效果有所提升，其RMSE、MAE平均减少11.47%和14.20%，说明TCN具有更优秀的捕捉序列间信息的能力。但由表2可得，单一的LSTM模型和TCN模型对降水量序列的预测精度仍然不高，RMSE值和MAE值处于较高水平，这主要是由于降水量序列的非线性和非平稳性使得单一的模型无法很好的拟合降水量序列的变化趋势，这表明仅使用单一的模型对降水量序列预测精度的提升十分有限。

CEEMDAN-LSTM模型相较LSTM模型，其RMSE和MAE平均减少29.80%，22.87%，说明了CEEMDAN方法可以有效降低降水量序列的不规律性和非平稳性以提升模型预测的精度。CEEMDAN-TCN对大部分站点的预测都较为准确，对个别站点的预测效果欠缺，但对这些站点预测的RMSE值和MAE值在上述对比模型中仍然最低。CEEMDAN-TCN模型相对于TCN模型、LSTM模型、CEEMDAN-LSTM模型RMSE分别平均减少了33.71%、41.32%、16.40%；MAE分别平均减少了25.60%、36.16%、17.23%，预测效果较好，预测精度在所有站点所有模型中最高。实验结果表明CEEMDAN-TCN模型在河南省月降水量预测中更加有效且具有普适性。

3.3 降水预测值空间分析

为进一步验证CEEMDAN-TCN模型的预测效果，本文对2000年8月-2017年12月的月均降水量数据各模型的预测值和真实值采用普通克里金插值法进行空间插值，插值结果如图8所示。

图8 各模型降水量真实值和预测值的空间插值分布Fig.8 The spatial interpolation distribution of predicted and true values of precipitation for each model

由图8可知，河南省降水量由豫西北到豫东南逐渐递增，形成了以豫东南区域为中心的降水高值区。通过分析四种模型的预测值和真实值的空间插值分布可知，CEEMDAN-TCN模型预测值的总体变化趋势与真实值变化趋势相符，在豫东、豫西、豫北的预测效果较好；但在豫南的部分站点空间的插值效果存在欠缺，这主要是由于豫南降水量数据较为复杂，极端降水较多造成的。CEEMDAN-LSTM模型的总体变化趋势和真实值变化趋势虽然相近，但在豫西的57051、57067站点，豫南的57156站点都存在空间插值效果不佳的情况。TCN、LSTM模型插值在大部分站点效果较差，仅在豫南的插值效果与真实值插值效果相近。综上，说明CEEMDAN-TCN模型相较其他3种模型在河南省月降水量预测上效果更好。

4 结论

本文针对LSTM存在的不足和降水量数据非平稳性、非线性导致其难以被准确预测的问题。将自适应噪声的完备经验模态分解（CEEMDAN）和时间卷积网络（TCN）结合，提出了基于CEEMDAN-TCN模型的降水量预测方法。使用河南省1960年1月-2000年7月的月降水量数据进行训练，2000年8月-2017年12月的降水量数据进行预测，得出结论如下：

（1）在河南省单站点月降水量预测中，在57178站点，相对于LSTM模型、TCN模型、CEEMDAN-LSTM模型，CEEMDAN-TCN模型的预测精度最高，对波峰波谷的预测更为准确，较准确地预测出了降水量序列的整体的变化趋势。

（2）在河南省其他全部站点中，相较于LSTM模型、TCN模型、CEEMDAN-LSTM模型，CEEMDAN-TCN模型在各个站点的预测精度最高，且具有较大的提升。对绝大多数站点的预测效果都较好，充分表明该模型在河南省月降水量预测上的有效性和普适性。

（3）在空间分布上，对4种模型的预测值和真实值使用普通克里金插值法进行空间插值发现，CEEMDAN-TCN模型的月均降水量预测值与真实值的插值效果更为接近，表明该模型在河南省月降水量预测上具有较高的可靠性。

研究结果表明，使用CEEMDAN方法可以有效降低降水量序列的不平稳性的影响，进而提升模型的预测精度。并且通过TCN与LSTM的对比实验，表明了TCN模型具有更为优秀的信息提取能力和计算效率。实验证明了CEEMDAN-TCN模型在月降水量预测上的准确性和可行性，也为该领域的研究提供一种新方法。