基于长短期记忆网络的电力系统量测缺失数据恢复方法

2021-05-12 03:16王子馨胡俊杰刘宝柱
电力建设 2021年5期
关键词:动态数据测数据稳态

王子馨,胡俊杰,刘宝柱

(华北电力大学电气与电子工程学院,北京市 102206)

0 引 言

随着电网的快速发展,我国基本形成了送、受端结构清晰,交、直流协调发展的骨干网架[1-2]。电网规模的不断扩大以及电力电子设备的不断投入使电网的时空特性日益复杂[3-4]。传统的监视控制与数据采集系统(supervisory control and data acquisition,SCADA)由于数据采集密度低以及传输过程间隔较长,无法满足复杂系统状态估计和动态实时监测的要求[5],而广域测量系统(wide-area measurement system,WAMS)因其高精度、同步测量等优点,在系统动态分析控制等方面发挥着越来越重要的作用。

与此同时,随着电力系统量测技术的快速发展及量测成本的不断下降,量测数据呈现快速增长趋势,逐步具备了大数据特征[6]。海量多类型的量测数据对电力系统状态估计、设备评估、优化运行、事故分析等具有重要意义[7-8]。随着数据挖掘技术的发展,海量量测数据的传输、存储和分析也成为电力系统领域重要的研究方向。

在此背景下,获取更为真实可靠的电力系统量测数据变得越来越重要。然而由于气候变化、噪声干扰、通信延迟等多种复杂因素影响,数据采集、量测、传输和存储过程中往往存在数据缺失等问题,导致无法获取真实可靠的量测数据。2009年,美国高德纳信息咨询公司(Gartner)针对140家公司做过一次调查,其中22%的公司估计其每年因数据质量问题造成的经济损失高达2 000万美元。2011年,美国California ISO发布的“五年计划”指出北美约有10%至17%的量测数据存在质量问题。2017年,全球能源互联网研究院在《大数据背景下电网数据质量研究与实践》报告中指出目前我国电力系统量测数据存在较为严重的质量问题。缺失数据严重影响电力系统状态估计、参数辨识等,导致电网运行状态无法及时准确获取,甚至威胁电网安全稳定运行[9-10]。

目前,国内外学者针对缺失数据问题提出了众多处理方法,主要可分为后评估和预处理两大分支。后评估是基于状态估计的相关方法。该类方法利用冗余量测和系统拓扑结构,构造状态方程恢复缺失数据。文献[11]提出了一种基于扩展卡尔曼滤波的动态状态估计方法,用于估计系统缺失的量测数据。文献[12]利用时间相关性和测量一致性,提出了一种广义鲁棒估计器,实现缺失量测数据的恢复。后评估的方法虽然可实现缺失数据的准确恢复,但其估计时间较长,需要系统拓扑参数。预处理则为数据驱动,通过研究已知数据,获取数据规律实现对缺失数据的补充。文献[13]提出了一种线性插值的方法,恢复系统中缺失的相量数据。在此基础上,文献[14]将改进三次样条插值与优先级分配策略相结合,提高了系统动态下缺失数据的恢复精度。文献[15]提出基于低秩矩阵填充理论的电能质量感知数据补全方法。文献[16]计及数据缺失曲线相似度,同样将低秩矩阵填充理论用于恢复缺失的电量数据。文献[17]则提出了一种基于张量分解的数据恢复方法,将数据分解为时间、位置和变量三个维度。同时,随着深度学习技术在电力系统中的应用,电力系统量测数据的时序性、相关性、规律性都可以作为缺失数据恢复的重要依据。文献[18]采用浅层自动编码器神经网络对数据间特性进行学习实现数据恢复。文献[19]提出了改进生成式对抗网络学习量测数据间复杂的时空特性,利用真实性约束及上下文相似性约束优化隐变量,从而实现数据准确恢复。但上述网络模型较为复杂,不易于应用。此外,文献[20]利用电力系统量测数据的时序特性,提出了一种基于长短期记忆(long short-term memory,LSTM)网络的数据生成方法。文献[21]同样基于长短期记忆网络提出了负荷短期预测的方法。LSTM网络可有选择记忆序列信息,对量测数据有着良好的适用性,且易于实现。

基于上述背景,本文计及电力系统量测数据的时序特性,提出一种基于长短期记忆网络的电力系统量测缺失数据恢复方法。该方法可构造已有数据对缺失数据的映射,并可有选择地记忆对缺失数据影响较大的信息。同时为进一步提高系统不同状态和不同缺失位置下的恢复精度,提出基于随机森林的状态辨识方法和缺失数据恢复策略。最终通过仿真数据和实测数据进行验证,结果表明该方法依靠数据驱动,在不同数量的缺失情况下恢复的数据均能保持较高的准确率。

1 基于LSTM网络的缺失数据恢复

本节将重点介绍LSTM网络单元结构,建立双层全连接的LSTM网络结构模型,并分析所提LSTM网络应用于电力系统缺失数据恢复的适用性。

1.1 LSTM网络单元结构

电力系统量测数据呈现时序特性,本文以广域测量系统中同步相量测量单元(phasor measurement units,PMUs)量测数据为例进行分析。系统某动态条件下量测的结果如图1所示。幅值X可看作时间t的函数,X=f(t)。假设在t3—t4时段幅值数据缺失。

图1 动态数据示意图

LSTM网络是一种特殊的循环神经网络(recurrent neural network,RNN),由于其独特的门结构,使梯度沿时间反向传播时可经过较长的距离,从而降低梯度消失的可能。同时,作为一种用于序列学习的体系结构,LSTM网络可有选择地筛选并遗忘之前序列中的某些信息以减少对后续序列的影响[22-23]。因此,LSTM网络可用于如图1所示的电力系统量测数据的处理,其单元结构如图2所示。

图2 LSTM网络单元结构

LSTM网络在传统RNN的隐含层中增加了一个细胞状态Ct,并利用遗忘门ft、输入门it和输出门ot实现对信息传递的控制。在t时刻,该网络单元有3个输入和2个输出。输入分别为当前时刻的输入xt,上一时刻的输出ht-1以及上一时刻的细胞状态Ct-1。输出为当前时刻的输出ht和当前时刻的细胞状态Ct。其中,ht负责记忆序列短期特征,Ct负责记忆序列长期特征。

遗忘门ft决定细胞状态中保存或丢弃前序信息长期特征的程度,可表示为:

ft=σ(Wf·[ht-1,xt]+bf)

(1)

式中:ft为t-1时刻输出ht-1、t时刻输入xt和偏置项bf的激活值,激活函数为sigmoid,激活函数将ft缩放至0(完全遗忘)和1(完全记忆)之间;Wf为权重项,包括Wfx和Wfh。

输入门it确定如何更新细胞状态,即将新的信息选择性地记忆到细胞状态Ct,公式如下:

(2)

输出门ot决定当前时刻的输入,与输入门类似,ht由ot和Ct确定携带的信息,公式如下:

(3)

式中:Wo为权重项,包括Wox和Who;bo为偏置项。

基于以上分析,将LSTM网络应用于如图1所示的幅值数据恢复,针对t3—t4时段的缺失数据,遗忘门会有选择地增加前序信息中类似时段的数据(如t1—t2时段),遗忘其余部分时段的数据。同时由于幅值在t3时刻前正逐渐减小,输入门会记忆序列短期的变化规律,将幅值逐渐减小的信息增加到细胞Ct中,最后通过输出门决定输出。通过上述若干非线性变化,可实现高维函数的逼近,挖掘幅值数据中的隐藏信息以实现t3—t4时段缺失数据的恢复。

1.2 双层全连接LSTM网络缺失数据恢复

为了更好耦合电力系统量测数据的时序特性,本文组合多个LSTM网络单元,提出一种双层全连接的LSTM网络结构,可实现已知数据到缺失数据的映射,如图3所示。

图3 双层LSTM网络模型

设时间t内,幅值数据为D=X1,X2, …,Xmn。对幅值数据标准化处理,令m个数据为1组,共n组,首先建立模型的输入层。每组数据对应一个输入xi,其中x1={X1,X2, …,Xm},x2={X2,X3, … ,Xm+1}, …,xn={X(n-1)m+1, X(n-1)m+2, … ,Xnm}。然后将多个LSTM单元组合为一层,通过两层LSTM网络与Dense全连接组成形成隐藏层。第一层LSTM网络将输入的xi通过特定结构隐投影到高维空间,其中包含了幅值数据Xi,Xi+1, … ,Xi+m间的相互关系。同时根据独特的门结构进行判断,决定记忆或遗忘某些特征。第二层LSTM网络将hi提炼为与恢复数据X′m+k+i具有线性关系的多变量。Dense全连接层可视为回归层(regression layer),将LSTM网络提取的特征hi(状态变量)转化为恢复的缺失数据X′m+k+i。输出层最后通过迭代和反标准化实现对缺失数据的恢复。

本文对于上述网络采用反向传播算法(backpropagation through time algorithm, BPTT)[24],计算网络中各参数值。通过反向计算每个神经元的误差项δ,误差项将沿着时间反向并向上一层传播。根据误差项可得各时刻权重梯度,即可完成所提LSTM网络训练,同时也避免了梯度爆炸和梯度消失的问题。

2 基于随机森林的量测数据状态辨识

由于量测数据可能处于系统不同运行状态下,而不同状态下的数据时序特性不同,所需LSTM网络模型参数不同,因此需提出一种数据状态的辨识方法。随机森林方法综合Bagging集成学习算法和随机子空间方法的思想,算法构建简单,准确性高,比传统决策树方法具有更强的泛化能力[25],因此,本文提出基于随机森林的数据状态辨识方法。电力系统稳态量测数据和动态量测数据如图4所示。

图4 稳态数据和动态数据

图4中,方框表示量测数据D=X1,X2, … ,Xkj,蓝色方框表示稳态数据,红色方框表示动态数据,其中稳态数据和动态数据各占50%。令j个数据为一组,共k组,数据量Q=k×j。设稳态数据组的状态标签s1=0,动态数据组的状态标签s2=1。由于稳态数据较为平稳,离散程度较低,动态数据波动性强,离散程度高,且变化规律明显,所以将各数据组的均值a、标准差b、极值差c、斜率均值d和斜率极值e作为特征属性,通过学习上述特征属性实现对两类数据的辨识。

首先通过Bootstrap重采样方法对样本数据D进行有放回的m次抽样,生成m个训练子集S,其中训练子集样本数应小于Q。然后从上述5个特征属性中随机选取w个,对各训练子集构造分类回归树(classification and regression tree,CART)。分类回归树基于基尼系数选择特征,构造过程如下。

1)设训练子集S中存在稳态数据和动态数据,则训练子集的基尼系数为:

(4)

式中:p1表示子集中稳态数据的概率;p2表示动态数据的概率。

2)假设根据特征a中某属性值ai划分训练子集,训练子集分为S1和S2,则在特征a下的基尼系数为:

(5)

式中:|·|表示训练子集中的样本数。

上述各特征均为连续特征,需离散化处理。设连续特征均值a有z个不同取值,将这些值从小到大排列,得到特征值集合{a1,a2,… ,az},取各区间[ai,ai+1)中点作为候选划分点,可得集合Pa:

(6)

3)根据式(5),计算各候选划分点的基尼系数,将基尼系数最小的候选划分点作为分支节点对训练集中数据进行分类,不断递归计算,直至形成分类回归树。

最后,重复进行M次重采样和特征选取,可得M个决策树,形成随机森林。将测试样本输入随机森林,对各决策树的辨识结果采用基于集成投票的思想,选出票数最多的数据状态,得到随机森林方法的辨识结果。

3 量测缺失数据恢复策略及流程

考虑到电力系统缺失数据的随机性,本文提出了一种考虑不同缺失位置的量测数据恢复策略,如表1所示。在固定时间窗的前提下,对时间窗内的量测缺失数据进行恢复。

表1 不同位置下恢复策略

综上所述,结合双层全连接的LSTM网络、随机森林的数据状态辨识以及不同缺失位置恢复策略,可得电力系统量测缺失数据恢复流程,如图5所示。首先将包含缺失数据的样本输入训练好的随机森林中进行数据状态辨识。若为稳态数据,则根据缺失数据在整体数据中的具体位置选择对应的恢复策略,并输入LSTM-s网络进行恢复;若为动态数据,则在判断缺失数据所处位置后,根据其对应的恢复策略,输入LSTM-d网络进行恢复。其中LSTM-s网络参数利用稳态数据训练,LSTM-d网络参数利用动态数据训练。

图5 缺失数据恢复流程

4 算例分析

本文方法计算环境:CPU为Core i7-9700k,主频为3.6 GHz,内存为16 GB,GPU为NVIDIA GTX 2070,编程平台为Python 3.7。

经大量仿真测试,LSTM网络及随机森林的最优参数按下列方法进行设置。LSTM网络参数设置如下:输入层维度为1;隐藏层层数为3,第一层LSTM神经元个数为64,第二层LSTM神经元个数为64,Dense层神经元个数为32;输出层维度为1,采用Adam优化算法更新LSTM网络权重。随机森林方法的参数设置如下:决策树个数M为81,随机特征数w为3。若采用其他参数,缺失数据恢复精度将存在不同程度的降低。

为验证本文所提方法的有效性,利用如图6所示的IEEE 10机39节点系统仿真数据与西北地区某750 kV变电站实测母线电压幅值数据进行验证并与现有方法进行对比。

图6 IEEE 10机39节点拓扑

4.1 仿真数据测试

在仿真系统稳态下,设置0.2 Hz的低频振荡,记录母线1电压幅值数据,上送频率100 Hz,仿真数据如图7所示。由图7可知,系统运行约1.6 s后发生低频振荡。蓝色表示稳态数据为160个,红色表示动态数据为240个。

图7 稳态和动态仿真数据

首先设置不同的缺失数据占比,仿真次数为100次。采用本文所提随机森林方法测试数据状态辨识精度(对应图5中随机森林部分),并与文献[25]的决策树法进行对比,结果如图8所示。

图8 仿真数据状态辨识结果

由图8可知,随着缺失数据占比的增加,两种方法的辨识精度均不同程度降低,当缺失数据占比为10%至60%时,本文所提随机森林的数据状态辨识方法的平均准确率约为98.5%,并且均高于决策树法。

然后针对图7的仿真数据,在缺失数据数占比为10%时,改变缺失数据位置,结合所提随机森林状态辨识与LSTM网络恢复方法对缺失数据进行恢复(对应图5中LSTM网络部分),并与仅采用LSTM网络的恢复方法、文献[13]的插值法和文献[16]的低秩法对比,恢复数据的均方根误差见表2。

表2 不同缺失位置对数据恢复精度的影响

由表2可知,本文所提结合随机森林状态辨识与LSTM网络恢复方法受缺失数据位置的影响较小;由于不同缺失位置下数据状态不同,因此仅采用LSTM网络的恢复方法受其影响较大,无法准确恢复缺失数据,须结合基于随机森林的数据状态辨识方法;插值法无法较好地恢复动态下的数据;低秩法在过渡阶段的恢复误差较大。中部数据为稳态到动态的过渡阶段,因此4种方法在该情况下的恢复精度均有不同程度的降低。

接下来将缺失数据设置位于序列中部,改变缺失占比,对比4种方法的恢复结果,如表3所示。

表3 不同缺失占比对数据恢复精度的影响

由表3可知,插值法在缺失数据较多时,无法准确恢复缺失数据。在缺失占比为30%时,仅本文所提方法可有效恢复缺失数据,可见本文所提方法受缺失占比的影响较小。

在此基础上,设置图7中的动态数据存在20%的缺失数据,采用所提双层全连接的LSTM网络对缺失数据进行恢复,并与插值法、低秩法进行对比。由于该过程未涉及数据状态辨识,因此无须使用基于随机森林的状态辨识方法,恢复结果如图9所示。

图9 动态缺失数据恢复结果

通过计算可知,本文所提量测缺失数据恢复方法的均方根误差为0.18%,插值法的均方根误差为4.61%,低秩方法的均方根误差为1.17%。可见本文所提方法恢复精度较高,可有效恢复动态下的缺失数据。

4.2 现场数据验证

选用西北地区某750 kV变电站实测母线电压幅值数据验证所提方法的有效性。实测数据均为稳态数据,如图10所示。在不同母线实测数据中设置多种动态数据,首先验证所提数据状态辨识方法的有效性,结果如表4所示。

图10 现场实测母线电压幅值数据

表4 不同方法对现场数据状态辨识结果对比

由表4可知,对于不同母线实测数据,随机森林方法的辨识准确率均高于决策树法,即随机森林方法具有较好的泛化性,不受现场噪声等的影响。

在如图10所示的位置设置缺失数据,采用时间窗为0.5 s的量测数据进行恢复,保证缺失数据的位置位于中部,并与插值法、低秩法进行对比,结果如图11所示。

图11 现场实测数据恢复结果

由图11可知,本文所提恢复方法的均方根误差为0.94%,插值法的均方根误差为3.1%,低秩法的均方根误差为2.6%。可见本文所提的LSTM网络的缺失数据恢复方法对实测缺失数据的恢复精度最高,可适用于现场量测数据。

5 结 论

本文提出了一种基于长短期记忆网络的电力系统量测缺失数据恢复方法。该方法可有效辨识系统量测数据的不同状态,进而实现对量测缺失数据的准确恢复,有效提高数据的可用性。本文研究主要结论如下:

1)基于长短期记忆网络对电力系统量测数据规律选择记忆的特性,提出了一种双层全连接的LSTM网络模型,实现从已知数据到缺失数据的映射。

2)提出一种基于随机森林的数据状态辨识方法,有效区别系统稳态、动态数据,为后续缺失数据恢复提供基础。

3)提出一种考虑缺失数据位置的恢复策略,根据数据的缺失位置匹配相应的恢复策略提高恢复精度。

4)通过仿真和实测数据测试表明所提方法可有效恢复系统稳态、动态下的缺失数据,亦可提高现有方法的恢复精度。

本文暂未计及不良数据对量测缺失数据恢复的影响,后续将进一步针对不良数据检测辨识展开研究。

猜你喜欢
动态数据测数据稳态
可变速抽水蓄能机组稳态运行特性研究
碳化硅复合包壳稳态应力与失效概率分析
电厂热力系统稳态仿真软件开发
元中期历史剧对社会稳态的皈依与维护
云计算环境下动态数据聚集算法研究
基于SCADA和WAMS的线路参数辨识研究
颞下颌关节三维动态数据测量的初步研究
基于PMU/SCADA混合量测数据兼容性的船舶系统状态估计研究
提高变电站基础量测数据时间同步性的方法
一种新的外测数据随机误差分离方法