基于数据驱动的线性聚类ARIMA长期电力负荷预测

2020-06-30 08:49任娴婷黄远平
科学技术与工程 2020年16期
关键词:线性聚类建模

李 震,张 思,任娴婷,黄远平

(1.国网浙江省电力有限公司衢州供电公司,衢州 324000;2.国网浙江省电力公司,杭州 310007)

城市长期电力负荷预测对电力供电决策建议,保障电力系统安全稳定的运行,提高电力的使用分配效率以及电力报价,电网规划等方面都产生着至关重要的作用[1]。但是,由于多种原因,当一个城市进入城镇化阶段后期后,电力负荷趋势会从快速增长阶段向饱和阶段和波动阶段转变,削弱了其规律性,使得以每年电力系统负荷数据为基础的预测方法逐渐无法有效预测过渡转变时期的负荷趋势[2]。

近年来,电力系统长期负荷预测出现了两种研究趋势。其中一种研究趋势是复合模型逐渐成为主流,文献[3]中构建了一种半参数模型来研究中长期预测中的不确定性,并估计未来负荷的概率分布。在文献[4-5]中分别提出了通过蚁狮优化算法优化的灰色模型和通过改进粒子群算法优化的回归模型。复合模型结合了不同单一模型的优点,可以更好地描述负荷模式的变化,从而提高预测精度。但是上述文献的预测方法在针对城镇化过程中的电力负荷波动会产生较大的随机误差。

长期电力负荷预测的另一个研究趋势是“大数据”这一概念受到越来越多人的关注,特别是聚类方法在负荷预测中得到了广泛的应用,尤其是在大数据分析中。文献[6]采用分层聚类方法将相似的负荷曲线作为一个聚类集群,然后分别预测每个集群的未来负荷。文献[7-8]利用了谱聚类算法和函数型聚类法为负荷预测做准备。上述文章利用大数据的优势,有效地减少了长期电力负荷预测的随机误差,但是上述方法建模误差较大,且模型的鲁棒性、稳定性较差。

为同时降低长期电力负荷预测的随机误差与建模误差,在大数据的基础上,提出了一种数据驱动线性聚类的ARIMA长期电力负荷预测方法。

1 数据驱动的线性聚类方法

设yt(t=1,2,…,T)是电力系统负荷的时间序列,yt由子序列yk,t(k=1,2,…,N)组成,其中N为子序列个数,T为时间样本个数,通常以年为间隔。yk,t可以是变电站负荷序列,也可以是区域负荷序列,诸如此类的序列。存在如下关系:

(1)

所提出的线性聚类预处理方法是为了平滑多个变电站或区域负荷序列,从而提高建模精度。这里的线性聚类是指聚类标准。传统的聚类方法通常根据相似度进行分类,一个更好的线性特性意味着更显著的规律性,从而能够提升建模精度,因此提出根据负荷序列变化的线性程度将子序列进行聚类,使得类中的所有子序列与数据集中所有子序列相比具有更好的线性特性。

因此,相应的线性聚类方法可以转为一个寻找全局最佳线性的最优聚类优化问题,可以用式(2)表示:

(2)

(3)

式(3)中:x是一个n维向量x=(x1,x2,…,xn),同时为了解决这个问题,进行了如下迭代计算。

步骤1对每个子序列构yk,t构造最小二乘线法性拟合模型,计算线性拟合残差对应的RMS值,记为uk(k=1,2,…,N),作为每个原始子序列的线性衡量标准。

步骤2从步骤1中找到子序列中的最大RMS值ukmax,并将其标记为ykmax,t。而ykmax,t是波动最明显的子序列,通常也是最难构建准确模型的子序列。因此,ykmax,t是本次迭代的主要优化目标。

步骤3对总序列Yj,t=ykmax,t+yj,t(j=1,2,…,N,j≠k)构造新的线性拟合模型,并计算相应的拟合残差的RMS值,标记为Uj。这一步是看看是否有其他子序列可以与ykmax,t求和,从而改善线性拟合结果。

步骤4从步骤3中找出Uj的最小值,并将其标记为Ujmin。如果:

Ujmin

(4)

这就意味着存在一个子序列yjmin,t可以用ykmax,t求和来提高线性拟合结果。在这种情况下,把yjmin,t和ykmax,t替换成它们的和Yjmin,t,然后重复步骤1。当Ujmin≥ukmax时,就可以结束迭代,因为这表明子序列不能通过求和进一步平滑。在上述描述中,聚类准则如式(4)所示,记为“准则1”。

经过这种线性聚类预处理后,子序列的平滑度得到了提高,而子序列的数目却减少了,这为后续子序列的建模和预测创造了更好的条件。

2 最优ARIMA建模与预测

Box和Jenkins在20世纪70年代提出了ARIMA模型,它能够很好地描述和预测时间序列[9]。因此,用它来预测每个集群的总负荷,并分析负荷预测误差。ARIMA (p,d,q)模型可以表示为

yt=φ1yt-1+φ2yt-2+…+φpyt-p+

εt-θ1εt-1-θ2εt-2-…-θqεt-q

(5)

式(5)中:εt为白噪声;φ、θ是系数。可以看到ARIMA模型包含两个部分。

自回归模型部分:

yt=φ1yt-1+φ2yt-2+…+φpyt-p+εt

(6)

移动平均模型部分

yt=εt-θ1εt-1-θ2εt-2-…-θqεt-q

(7)

自回归模型部分体现的是电力系统过去时刻的特性,而移动平均模型部分则反映了干扰对当前系统状态的影响。p和q是这两部分对应的顺序。因为ARIMA模型只适用于平稳时间序列,如果不是平稳时间序列,则需进行差分预处理,d为差分阶。

进一步为Si,t(i=1,2,…,M)构建最优的ARIMA模型,并分别预测它们未来负荷的值并相加,求得到最终的电力系统负荷预测。算法步骤如下,流程图如图1所示。

图1 预测算法流程图Fig.1 Flow chart of prediction algorithm

步骤1首利用单位根检验[10],判断预处理后的序列Si,t是否稳定。任何非平稳序列都将通过差分计算转化为平稳序列。

步骤2为每个平稳序列构造ARIMA (p,d,q) 乘积模型,与参数p和q的组合不同。由于序列长度有限,将p和q限制在一个相对较低的阶数,以避免过拟合[11],令p=0,1,2;q=0,1。

步骤3在步骤2构建的所有ARIMA模型中,利用赤池信息量准则AIC找到每个平稳序列的最优模型。这是一个衡量建模效果的标准,因为它既考虑了拟合精度又所建模型[12]的复杂性:

AIC=2n+Tln(fRSS/T)

(8)

式(8)中:n为构建模型的参数个数;T是序列的长度;fRSS是残差平方和,反映了建模精度。一般来说,具有最小的AIC值的模型为最优模型,因此为Si,t的最优ARIMA模型数学表达式如下:

(9)

步骤4根据步骤3中选择的相应的最优ARIMA模型,预测每个预处理序列Si,t的未来值。预测结果用Si,t+τ,τ=1,2,…,ΔT表示;其中ΔT为预测周期。但是要注意的是,因为ARIMA模型的限制,ΔT不能太大。

步骤5将所有ARIMA预测结果进行汇总,得到最终的电力系统负荷预测结果:

(10)

3 预测模型的建立

在电力系统负荷预测过程中,预测误差主要由两部分组成:建模误差和随机误差[13]。建模误差是指建模的拟合值与真实值的差值。通常来说,负荷曲线越平滑,建模误差越小,这样所构建的模型能更好地拟合负荷变化规律。随机误差是指由一些随机的、不可预测的因素改变原有负荷变化规律而引起的预测误差。因此,为了提高预测精度,既要提高建模精度,又要尽量减小随机误差。因此,首先从理论上分析基于ARIMA模型的不同预处理方法的预测误差。为了简单起见,提前做了两个假设:

(1)由于ARIMA模型预测结果主要依赖于自回归模型方法部分,假设电力系统负荷的时间序列遵循式(6)中自回归模型的第一项,即:

yt=φ1yt-1+εt,yk,t=φk,1yk,t-1+εk,t

(11)

(2)假定在电力系统负荷的时间序列中的白噪声为高斯白噪声,其标准差与负荷水平成正比:

(12)

式(12)中:σ>0为比例系数。

则预测总误差可表示为

(13)

设时间序列yt的ARIMA建模结果为

(14)

(15)

由式(11)可得,φ1的实际值为

(16)

因此φ1的参数估算误差为

(17)

式中:Δφ1为建模误差的来源,其与εt成正比,与负荷水平yt成反比。如果直接对电力系统负荷进行建模和预测,将会产生较小的建模误差,这是因为电力系统负荷曲线的平滑性,使得负荷水平yt较高,噪声εt的标准差较低。另一方面,如果对系统负荷的子序列进行建模和预测,并将其进行求和,得到电力系统负荷预测结果,每个子序列的建模误差将更大。提出的DLC方法建立了一个基于平滑序列的预测模型,在一定程度上保证了模型的精度,从理论上来说,不如直接法但比数据驱动法要好。

预测结果的模型误差可由以式(18)估算:

(18)

(19)

因为σ>0,yk,t>0,而对于不同的k,yk,t并不都相等,则有:

(20)

式(20)为数据驱动法的理论基础:高斯白噪声的方差比直接法计算的小。这样,可以缩小预测的随机误差,并且可以通过数据驱动方法获得更稳定的电力系统负荷预测结果。而这正是使用大量变电站负荷数据的意义所在。同样,数据驱动线性聚类方法也利用了大数据集的优势,使其随机预测误差小于直接法。

预测误差可由式(21)得到:

(21)

根据式(13),随机预测误差可以表示为

(22)

4 应用结果

利用上海市的年度电力负荷数据去验证提出方法的有效性。2005—2018年的电力负荷如图2所示。电力系统负荷包含72个220 kV (N=83)变的变电站测得的数据,每一个变电站的年度负荷曲线如图3所示。

图2 上海市电力负荷曲线Fig.2 Electric power load curve in Shanghai

图3 上海市各个变电站负荷曲线Fig.3 Load curves of substations in Shanghai

根据上述数据,利用2005—2015年的负荷数据建模,对2016—2018年的负荷数据进行预测从而验证该方法的有效性。为便于比较,采用以下四种不同的预测方案。

(1)直接法:对图2中的电力系统负荷数据直接建立最优ARIMA模型,预测电力系统负荷峰值。利用最优ARIMA模型直接预测电力系统负荷。模型的拟合与预测结果如图4所示。

图4 直接法电力负荷预测Fig.4 Direct power load forecasting

根据误差的计算公式可知直接法的建模误差为2.18%,平均预测误差为10.02%,随机误差为7.84%。从图4可以看出,上海的电力系统年负荷曲线相对较平滑,有利于建模,建模精度较高。然而,预测结果并不理想。这主要是由于负荷增长的变化模式造成的。上海市的城市化水平较高,正处于产业结构调整,淘汰落后产能,加速发展第三产业的阶段。与此同时,上海市的人口正在趋于饱和。在这种情况下,负荷增长模式发生了变化,这就会导致直接法的随机误差较大。

(2)数据驱动法:对图3中的每个原始子序列建立最优ARIMA模型,对每个子序列进行预测,然后将所有预测结果进行汇总,得到电力系统负荷预测结果。相应的预测结果如图5、图6所示。

图5 各变电站预测结果Fig.5 Prediction result of substations

图6 数据驱动预测结果Fig.6 Data-driven prediction results

通过计算可知图5中建模和预测的平均误差分别为20.32%、26.46%,平均随机误差为6.13%。建模误差的显著增加是由于变电站的低负荷和高波动造成的。将图5中的建模和预测结果进行汇总后,可以得到图6中的电力系统预测结果,电力系统建模和预测误差分别为2.35%、3.65%,随机误差为1.30%。可以看出,与直接法相比,随机误差有效地从7.84减小到1.30%,从而减小了预测误差。但另一方面,建模误差为2.35%,成为预测误差的主要组成部分。

(3)经典方法构建了经典的滚动GM(1,1)模型、弹性系数模型和回归模型,然后直接预测电力系统负荷[14-16]。建模和预测结果如图7所示。

图7 经典方法预测对比Fig.7 Prediction comparison of classical method

结果表明,三种经典模型均具有较好的建模精度,分别为5.97%、3.51%和1.22%,但它们有一个共同的难题,就是难以把握预测区域的负荷变化规律,即随机误差过大,导致最后的预测误差分别为11.25%、4.76%和9.43%。

(4)DLC方法:基于图3中的子序列数据,为了改进数据驱动方法的建模精度,利用所提出的线性聚类方法对变电站负荷数据进行预处理。

从图8可以看出,经过线性聚类方法得到的预处理数据比图3中的原始数据要更为平滑,更加适合时间序列建模。根据计算平均建模误差降低到了10.71%。此外,子序列的数量从72减少到了30,因此减少了计算量。更重要的是,变电站负荷集群预测结果更加稳定,平均预测误差降低到18.54%,随机误差为7.76%。

将图8中的建模和预测结果进行汇总,得到图9中的电力系统预测结果,系统建模误差为1.40%,预测误差为2.67%,随机误差为1.27%。证明所提出的预测算法在保证建模精度的同时,也能够降低随机误差。

图8 准则1DLC预处理子序列Fig.8 DLC pre-processing sub-sequence based on rule 1

图9 准则1电力负荷预测结果Fig.9 Power load forecasting result based on rule 1

在提出的线性聚类预处理方法中,聚类准则至关重要。不同的聚类准则会导致不同的聚类结果,从而导致不同的建模和预测效果。考虑将“准则1”放宽标准至式(23),表示“准则2”:

(23)

可以看出,在放宽聚类标准后,子序列的数量进一步减少到21个(M=21),且每个子序列都更加平滑。平均建模误差为7.64%,预测误差为14.96%,随机误差为7.32%。将它们汇总得到电力负荷预测结果如图11所示,建模误差为1.34%,预测误差为3.47%,随机误差为2.13%。

通常来说,放宽聚类标准会使负荷曲线更加平滑,集群数量会越少,有利于建模精度,但不利于减小随机误差。而严格的标准结果恰恰相反。因此,理想的聚类准则应该是在集群数与负荷曲线平滑度之间做出适当的折中,从而优化预测精度。为了得到这样一个最优准则,需要考虑负荷的特性,并对不同准则下的聚类结果进行分析比较。上述预测结果如表1所示。

图10 准则2的DLC预处理子序列Fig.10 DLC pre-processing sub-sequence based on rule 2

图11 准则2电力负荷预测结果Fig.11 Power load forecasting results based on rule 2

表1 预测结果对比Table 1 Comparison of predicted results

表1的结果对比验证了所提出的数据驱动线性聚类ARIMA预测方法能够降低随机误差。其次,该方法可以提供与直接法几乎相同的建模精度,从而大幅度地提高了预测精度。

为了证明所提出的DLC方法的普适性,收集了四个不同城市的变电站负荷数据,如图12所示。要注意的是,这四个城市处于不同的城市化阶段。图13表明了各城市分别采用了两种聚类准则的DLC方法的建模和预测结果,预测误差如表2所示。表2所示的四个不同城市的电力负荷预测结果均能够保证较好的预测精度,证明了数据驱动线性聚类ARIMA方法的具备较好的鲁棒性以及稳定性。

图12 变电站负荷数据Fig.12 Substation load data

图13 各城市电力负荷预测结果Fig.13 Power load forecasting in each cities

表2 各城市的预测误差对比Table 2 Comparison of prediction errors in each cities

最后,在提出的DLC方法的基础上,以准则1为例,对上海市2019—2022年的电力负荷进行预测,预测结果如表3所示。图14显示了上海市每个集群的负荷增长和ARIMA预测结果以及总体负荷的增长。

表3 上海市预测结果Table 3 Forecast results in Shanghai

图14 上海市子序列预测结果及电力负荷预测结果Fig.14 Prediction results and electric power load forecast result in Shanghai

5 结论

针对城市因负荷波动而引起的电力系统长期负荷预测难题,提出了一种基于数据驱动的线性聚类ARIMA方法,通过理论分析与数据验证得出如下结论。

(1)基于数据驱动的线性聚类ARIMA方法能够在保证较低模型误差的条件下降低长期电力负荷波动造成的随机误差,从而大大提升了长期电力负荷预测的精度。

(2)所提出的数据驱动线性聚类ARIMA方法对四个不同发展阶段城市的电力负荷预测结果表明该方法具有较好的适应性与稳定性。

(3)基于数据驱动线性聚类ARIMA方法预测精度与聚类准则的选取有较大关系。

猜你喜欢
线性聚类建模
基于FLUENT的下击暴流三维风场建模
二阶整线性递归数列的性质及应用
线性回归方程的求解与应用
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
求距求值方程建模
基于PSS/E的风电场建模与动态分析
非齐次线性微分方程的常数变易法
ℝN上带Hardy项的拟线性椭圆方程两个解的存在性
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现