基于误差修正的短期光伏功率预测

2023-10-12 10:42张弛朱宗玖
科学技术与工程 2023年27期
关键词:辐照度预测值残差

张弛,朱宗玖

(安徽理工大学电气与信息工程学院,淮南 232001)

在电网系统的安全调用、使用规划、稳定运行中,光伏功率预测起着至关重要的作用。一个良好的预测模型有助于维持电力系统安全可靠地运行,使能源更加合理有效地使用,提高经济效益。根据以往研究统计,提高短期预测的准确性的方法有很多,例如人工智能法与统计学法。统计学方法的底层逻辑是数学模型,如多元线性回归分析,该方法主要用在线性模型中,而对于随机性较强的功率预测(具有较强的非线性特征),在该类型预测方面模型效果较差。常见的预测模型如神经网络在对光伏发电功率进行预测时,由于部分环境因素对光伏功率的影响被忽略,从而导致信息的有效利用率不足。近年,人工智能技术广泛用于各个工业领域,光伏功率预测也逐渐向着具有不同结构的深度学习方向发展,而高精度预测的一个重要问题是由于负荷数据的复杂性和时序性导致特征不易抓取。随着深度学习的发展,深度神经网络等结构逐渐应用到复合预测领域如短期负荷预测问题中,功率预测精度上虽有所提升,但由于功率数据具有时序特征,往往容易被忽略。循环神经网络(recurrent neural network,RNN)可解决上述时序问题,RNN引入循环结构对时间序列数据进行拟合,但是存在梯度消失的问题。长短期记忆(long-term and short-term memory,LSTM)网络通过加入内存单元可解决梯度消失的问题,对于数据序列中的规律走向有着更完整的学习能力,通过历史功率数据的分析可拥有更高的长时间预测精度。文献[1]基于环境因素和历史数据,提出一种复合结构网络,采用主成分分析、经验模态分解和长短期记忆神经网络对光伏功率预测;文献[2]提出一种极限学习机和修正互补经验模态分解的风速预测模型;文献[3]提出一种完备集成经验模态分解(complementary ensemble empirical mode decomposition with adaptive noise,CEEMEDAN)并与结合自适应白噪声相结合,最小二乘支持向量机(least squares support vector machines,LSSVM)和差分自回归移动平均模型(autoregressive integrated moving average,ARIMA)的短期光伏功率预测方法。

基于以上研究,现提出一种基于ARIMA与改进结合自适应白噪声完备集成经验模态分解(improved complementary ensemble empirical mode decomposition with adaptive noise,ICEEMEDAN)的LSTM神经网络光伏功率预测模型。首先对光伏数据集做预处理使之成为可直接进行实验的数据序列。利用LSTM建立初级预测模型,导入经预处理后的光伏电站监测数据,其次结合历史数据建立ICEEMEDAN-ARIMA残差预测模型,该模型用于对初步预测结果的修正,最终实现对光伏功率进一步预测。将经实验结果对比,复合模型有效地提高了光伏发电功率的预测精度。与传统反向(back propagation)BP神经网络及单一LSTM,EMD-LSTM等机器学习模型对比,提出的模型预测精度更高。

1 光伏功率影响因素分析

1.1 原理介绍

光伏功率预测,按照时间尺度范围的分类可以分为如表1所示的三大类[4]。按方法分类大致可分为基于历史实测数据的统计方法、基于站点周边环境因素等的物理方法、数值天气预报方法(numerical weather prediction,NWP)和机器学习或深度学习方法[5]。主流方法是基于NWP的光伏发电功率预测,由于准确的数值天气预报很难获得,因此目前在光伏发电功率预测的问题上,统计方法的应用更为广泛。

表1 光伏功率预测时常与精度

光伏功率具有随机性和波动性,这是由于光照和云层生消所决定的自然属性。容量较小的电站并网对电网的影响较小,随着光伏渗透率的增大,光伏集群功率的波动性对电网的安全运行存在不可忽略的影响,但随着光伏集群容量的逐渐增大所带来的影响并不会成比例增加。研究表明,随着光伏集群总容量的提升,不同位置光伏电站的出力波动程度存在一定的抵消[6]。即光伏集群的输出总功率存在波动性并在日周期内会逐渐降低,该现象称为“汇聚效应”,主要原因在于光伏集群占地面积广阔,不同地理区域光伏电站所接受的辐照度及云层遮挡存在空间上的差异。

1.2 影响因素

光照强度是光伏发电系统实时输出功率的决定性因素[7]。忽略其他因素对功率的影响,光伏功率与辐照度的数学模型表达式为

(1)

式(1)中:Pb为光伏电站的实测功率,MW;Psn为该光伏电站的整场装机容量,MW;Gstd为额定辐照度,W/m2;Rc为临界辐照度,在超过该辐照强度后光伏出力与辐照度的关系变为线性;Gbt为第t小时实测辐照度,W/m2,Gbt对应功率序列由对历史辐照强度的概率分布抽样获得[8]。

本次数据采取澳大利亚(DKASC)光伏发电站集群中2016年的实时监测数据进行分析,监测变量包括风速、摄氏温度、辐照度、最大风速等七组不同数据,该光伏电站输出功率的采样间隔为5 min,每日采集的数据规模为7×298(输入矩阵的横纵轴)。

图1所示为实测数据辐照度与功率的散点图,通过计算该光伏电站2016年全年实测辐照度与功率散点图以及散点拟合曲线,尤拉(Yulara Solar Systom)电站组的功率与辐照度相关系数[采用概率统计中的线性相关系数r(X,Y)来表示]为0.821 4,斯普林斯(Alice Springs)电站组的功率与辐照度相关系数为0.998 2,由此可以得出辐照度与功率整体呈正相关。

图1 光伏功率与辐照度关系

2 基于LSTM的光伏功率预测模型

2.1 模型概述

长短期记忆神经网络是一种具有记忆和筛选功能的网络结构,如图2所示LSTM中的单个细胞模块包含一个双曲正切结构(hyperbolic tangent),三个Sigmoid和四个交互的层[9],相比于RNN,LSTM的交互方式非常特殊。

图2 LSTM细胞结构

首先,“忘记门”的结构中会生成需要丢弃的部分细胞状态的信息[10],通过读取输入(本单元)和输出(上一个单元),“忘记门”做一个Sigmoid映射获取一个输出向量(越重要的越会记住,越无关紧要的越会舍弃),最终与细胞当前的状态相乘。

ft=σ(Wf[ht-1,x]+bf)

(2)

it=σ(Wi[ht-1,xt]+bi)

(3)

(4)

2.2 CEEMDAN-ARIMA

经验模态分解(empirical mode decompsition,EMD)是一种针对信号进行变换的方法,在处理非线性不平稳信号的问题上尤为突出,其本质是希尔伯特-黄变换(Hilbert-Huang transform,HHT)的一部分。首先将原始信号分解为一系列本征核函数(intrinsic mode function,IMF),IMF分量是一种具有信号的局部特征的时变频率的单分量信号,可以将原始信号的分量从高频到低频按不同时间尺度依次提取。

EMD是一种自适应时频分析方法,容易出现模分量混合问题。集合经验模态分解(ensemble empirical mode decompsition,EEMD)解决了这个问题,然而,EEMD带来了较高的计算成本,并且重建的信号包含残余噪声。为了解决这些限制,开发了互补集成经验模态分解(complementary ensemble empirical mode decomposition,CEEMD)。EEMD和CEEMD 都倾向于产生不正确的组件。完全自适应噪声集合经验模态分解(complementary ensemble empirical mode decompsition,CEEMDAN)解决了这些题,但完全自适应噪声集合经验模态分解仍然存在一些问题。由此,ICEEMDAN方法被提出[11],在后处理过程中,应用ICEEMDAN将残差序列分解为若干个子序列,便于预测误差序列。

差分自回归移动平均(ARIMA)模型[12]是常用的时间序列预测模型。通过ARIMA来实现非平稳时序的转化,其过程可高效地将非稳定数据转换为稳定数据。ARIMA模型已广泛用于各种时间序列预测应用,因为它稳健,便于理解和易于实施。

2.3 评价标准

实验中使用均方根误差(root mean square error,RMSE)、均方误差(mean square error,MSE)和R2[13]来作为评价模型性能好坏的标准,其相应表达式如下。

均方误差[14]是预测值与真实值偏差的平方和的平均数。均方误差的数学表达式为

(5)

均方根误差即真实值与预测值之间偏差的平方和与时序次数比值的平方根。其数学表达式为

(6)

R2的取值范围为[0,1],如果是负数,则考虑非线性相关[15],结果越趋近于0时,模型拟合效果越差,结果为1时,模型拟合效果最好。通常R2越大,代表模型拟合越趋于完美。R2的数学表达式为

(7)

3 建模过程

模型的搭建首先是单一模型LSTM的使用,由于单一模型对数据只做预处理和一次处理,精度无法得到进一步提升,所以这里需要采用二次处理即后续的误差修正模型对模型整体性能进行优化[16]。详细建模步骤如下。

(1)将采集数据作为特征输入到LSTM模型中,对数据进行预处理,空缺数据和异常数据用上一单元数据填补,并对数据进行归一化处理[17]。首先利用LSTM模型通过特征输入进行初步预测,该步骤完成后输出即为预测量,通过预测量与真实量的值获取残差值并输出到下一模型。

(2)利用ICEEMDAN对残差序列进行分解,获取不同频段的IMF,再用ARIMA对分解后的各残差序列进行预测,模型结构如图3所示。

(3)残差序列被ICEEMDAN分解为若干个子序列后,利用ARIMA模型对每个误差子序列进行预测。图3所示为ARIMA模型获得的每个误差子序列的超前一步预测结果。然后将各个子序列的预测值聚合,得到残差的预测值。

(4)将残差预测值与(1)中获得的LSTM预测值得到的预测值相加,得到最终的功率预测结果。

4 模型结果分析

4.1 敏感性分析

算例部分采用的数据为日期为DKASC 2016年的光伏数据集,分别从Yulara Solar Systom光伏电站与Alice Springs光伏电站中各选取一组数据,单组数据共含有12 d的数据量共3 456组。训练集与测试集按75%与25%的比例划分[18],分配完成并调整模型的基础参数,将训练集与测试集输入LSTM模型之中进行训练,训练完成的LSTM模型与ICEEMEDAN-ARIMA模型协同作用输出最终预测结果。

针对不同的天气变量,包括太阳角度和地外辐照度进行神经网络预测实验,以确定哪些是预测光伏发电功率的良好预测因子[19]。结果如图4所示,分别为去除表2中A~G六组变量后的模型以及H组中包含全部变量的模型误差对照(对照标准为MAE)。通常水平面总辐照度(global horizontal irradiation,GHI)是光伏功率模型预测变量出力的主要因素,如果不将GHI作为输入,模型的准确性会大大下降,当排除日照时,图4中的MAE会增加。标记(输入集中不包括阳光)的MAE框的四分位距相较于其余框比较大,标记(输入集中不包括阳光)的MAE框的中值大于其余箱形图的中值。

图4 LSTM模型对不同天气变量敏感性

表2 不同组去除变量的编号

如图4所示,当变量A、B、C、F去除之后,MAE的中值相较于其他组明显较低,这表明风速、摄氏温度、水平面总辐照度、最大风速是预测光伏功率的重要天气变量。如果将所有天气变量都包括在内(表2中的编号H)作为输入,则光伏功率神经网络预测误差的中值减小,MAE的最大值、上四分位值、中值、下四分位值也会有所减小(图4)。

通过损失函数来估量在模型训练中预测值与真实值的偏差程度[20],它的值为正且总在0~1,通常使用L[Y,f(x)]来表示,损失函数的大小决定模型鲁棒性的优劣。图5为Yulara Solar Systom和Alice Springs两个光伏电站光伏功率预测模型的损失函数。可以看出,在训练次数小于10的范围,模型损失率会随次数增加而快速下降,当训练次数大于10则逐渐趋于稳定。

图5 电站训练集与测试集损失函数

4.2 测量结果分析

通过时序数据获得定量的本征模函数(本次实验中本征模函数的个数为7,横坐标刻度为时间序列)[21]。首先利用ICEEMDAN模型对原始功率残差进行分解,该方法可以解决CEEMDAN中残留噪声和伪模态的问题。将原始残差分解为IMF1~MF7七个不同频段,每个频段都包含时变频率信息。分解结果如图6所示,可以看出,波形的频率特征(波形密集度)主要成分集中在前三个本征模函数中,且范围较窄,这也是时序数据中最重要的组成部分,能够反映时序数据的主要特征。尾部分量IMF7是分解后的残余分量,几乎不包含原始时序信号的频段特征,主要作用提供数值累加。

图6 Yulara Solar Systom电站功率残差分解结果

下一步利用ARIMA模型对各功率的子信号进行预测。这里的基本算法是以ICEEMDAN-ARIMA模型的框架,搭建出残差预测模型。

该模型的步骤为如下。

利用ARIMA模型对分解后的IMF部分进行预测,该步骤最终得到预测结果的线性部分,数据序列的非线性Rn序列由预测结果与原始数据进行求差得到,将所获取的残差序列重新排序得到ICEEMDAN模型的新样本序列,利用ARIMA模型对各部分样本序列做出预测得到预测结果,最后将两部分预测结果即线性部分与Rn进行加和,得到最终的组合残差预测结果。

图7所示为部分残差预测预测结果(IMF1~IMF7)与原始数据的重合度,可以看出,从1到7,随着分解度的提高,预测精度会有明显地提升。

图7 ARIMA模型下Alice Springs电站残差序列预测值

然后将各个分解序列的ARIMA模型预测值进行合并,获得最终残差序列的预测值。如图8展示了残差序列真实值和预测值。

图8 Alice Springs电站不同模型预测值与真实值对比

图9为Alice Springs与Yulara Solar Systom电站在两个不同模型中的测量结果的统计图。对比模型有两个,第一部分包括LSTM,它们是单一模型。第二部分是修正后的模型LSTM-ICEEMDAN-ARIMA,单一模型和混合模型之间的性能比较如下所示,可以看出LSTM模型对原始数据的规律捕捉和刻画能力较差,功率值在同一时序下的变化规律与基于ICEEMEDAN-ARIMA的LSTM组合模型的预测结果较为相似,修正模型LSTM-ICEEMDAN-ARIMA相较于单一模型LSTM要更贴近真实值,修正模型整体的平均R2在数值上更高,为96.35%,而单一模型的平均R2为94.11%。因此,修正预测模型的整体预测精度更高。

图9 Alice Springs与Yulara Solar Systom电站不同模型预测值与真实值对比

表3展示了对于Alice Springs和Yulara Solar Systom两个不同的发电站预测数据的评估值(每组重复测量三次),由图9、表3分析可知,对比RMSE和R2值,合成模型LSTM-ICEEMDAN-ARIMA的准确度相较于单一模型LSTM有一定的提高,误差上则有所降低,符合实验预期。对于Alice Springs电站与Yulara Solar Systom电站的功率预测实验,混合预测模型的MSE与单一的LSTM模型相比,分别降低了52.2%~61.22%,5.2%~24.79%,RMSE分别降低了30.86%~37.72%,4.78%~13.23%。R2则分别提高了2.15%~3.27%,0~0.07%。

表3 不同评价指标模型准确率对比

LSTM神经网络模型与LSTM-ICEEMDAN-ARIMA模型的预测误差对照表如表3所示,分别为MSE、RMSE、R2三组测量误差对比,每组测量三次。

5 结论

本文分析了各种影响因素下不同光伏集群功率短期预测模型的性质,针对光伏功率输出值波动性较大及随机性较强的问题,提出了一种基于LSTM-ICEEMDAN-ARIMA神经网络的光伏电站发电功率的混合预测模型,ICEEMDAN模型的加入使光伏功率中具有较大波动性的序列得以准确预测,该方法中的ARIMA也可以直接作为预测光伏功率的预处理模型。实验中主要考虑风速、天气温度、全球水平辐射、风向、降雨量、最大风速、空气压力7组变量,本研究进行了两组对比实验,算例分析得到以下结论。

(1)采用ICEEMDAN对光伏变量进行分解,对不同本征模分量及残差项进行预测,可降低光伏序列随机性对预测结果的干扰。

(2) 利用LSTM神经网络和ICEEMDAN-ARIMA模型对多变量时间序列与光伏功率序列之间的非线性关系进行动态时间建模,构建混合预测模型,包括预处理和后处理模型,该模型比单一模型具有更高的预测精度。

(3)后处理模型比单独的LSTM具有更高的预测精度。特别是,LSTM-ICEEMDAN-ARIMA模型在两个研究地点将RMSE误差值分别降低了37.72%和13.23%,R2则分别提高了3.27%,0.07%。

本文测试了LSTM模型及其复合模型在光伏预测领域的实用性,提出的预测模型在光伏并网系统及光伏能源的运输调度中具有一定意义,在实际工程中拥有良好的前景与应用价值。

猜你喜欢
辐照度预测值残差
基于双向GRU与残差拟合的车辆跟驰建模
加拿大农业部下调2021/22年度油菜籽和小麦产量预测值
±800kV直流输电工程合成电场夏季实测值与预测值比对分析
基于残差学习的自适应无人机目标跟踪算法
法电再次修订2020年核发电量预测值
基于递归残差网络的图像超分辨率重建
中国典型地区水平总辐射辐照度频次特征*
太阳模拟器辐照度修正方法的研究
太阳光辐照度概率分布参数对电网可靠性的影响
平稳自相关过程的残差累积和控制图