基于深度自编码器的异常用电行为辨识方法研究

2021-03-10 09:20张继东
电子技术与软件工程 2021年20期
关键词:降维编码器用电

张继东

(国网江苏省电力有限公司南京供电分公司 江苏省南京市 210012)

电力企业在发输供用环节均需要进行电能计量工作,准确的计量也关系着企业的经济效益、损耗控制等。而计量工作更为复杂的是用电环节,由于群体众多、场景复杂,极易出现异常用电的问题,进而给供电企业造成损失,甚至影响电网安全运行。所以对异常用电的查处一直是供电企业较为重点的一项工作。

传统的数据分析方法通常不具备对异常用电行为的分级预警能力,极大限制了现场稽查效率以及现场取证能力的提升。对此,本文研究了基于深度自编码器的异常用电行为方法。

1 模型优化效果评估方法

通常,对数据模型优化效果的评估并不是基于算法输出的结果,因为融合了算法的结果并不能准确评估数据模型优化的效果。本文采用国内外主流的评估手段,即对数据降维后可视化分析的方法完成评估。

首先,采用相应的数据降维方法,将高纬度的原始数据降低到人工可以分析的维度,本文选择降至2 维。

其次,采用图形化方法,将降维后的数据用合适的方式绘制成图片,供人工分析与评估。

数据降维的方法很多,主要包括:主成分分析(PCA)、狄利克雷分布(LDA)和T 分布随机近邻嵌入(t-SNE)。其中LDA 主要用于文本分析,PCA 和t-SNE 则适合更广泛的数据分析领域,其PCA 数据降维算法示意如图1所示。

由图1 可知,数据降维的目的是为了将混杂数据处理为可视化结果。本文也将采取可视化方式对数据模型优化效果进行分析与评估。上图中数据点的标签结果代表了数据的线性可分性,各个类别的数据点各自聚合,同时类别间的数据点彼此隔离,则说明数据的线性可分性好,反之则较差。

图1:PCA 降维效果示意图

2 自主特征学习技术研究

2.1 深度自动编码器

深度自编码神经网络(AutoEncode,AE)是隶属于无监督学习的一种智能算法,包括了编码和解码两部分网络结构,其应用优势在于无需人为定义标签信息,经由两层网络后能够自动重构输出信息,并根据误差结果反馈至系统参数进行调整和优化,从而实现对系统分析精度的提升。其结构示意图如图2所示。

图2:AE 网络的结构图

AE 网络在运行中,先通过编码器对原始数据进行编码,且编码器是分层学习并逐层训练和优化,因此在该系统中是通过编码信息对原始数据进行表达的。假设输入为x,编码信息为a(1),则其数学表达为:

第二层网络是对编码后的数据进行解码,并获得信息为a(2),其数学表达为:

在理论情况下,我们希望能获得与数据x 完全相同的解码数据a(2),以实现对等重构。但在实际中,经过两层网络的数据必然存在部分偏差,为了避免这一偏差数据导致解码后的结果畸变过大,需要引入损失函数进行结果修正,其函数结构为:

自编码器中较为重要的环节是编码网络的输出,由于在编码环节中编码维度是逐层收敛的,会导致原始信息也逐层被压缩。这一因素会导致解码后的数据重构难度增加,所以构造合适的损失函数以确保数据重构的完整性最高。

2.2 特征学习效果分析

对自主特征学习技术的效果分析基于经过现场查验的案例数据,主要包括从用采系统中获取的智能电表数据,具体包括三相电压、三相电流、总有功功率和总功率因数。由于本文的主要目标是识别异常用电行为,因此所有案例数据被标注为两类,0 代表正常,1 代表异常。通过对基于原始的智能电表数据的特征进行线性可分性分析,并用图形化的方式展示出来。其中,原始的智能电表数据(如图3)主要包括电压、电流瞬时值和代表负荷的总有功功率和总功率因数,采用PCA 降维后结果如图4所示。

图3:原始智能电表数据的线性可分性分析

图4:PCA 降维后的线性可分性分析

从结果可以看出,PCA 这类纯粹的数据降维技术只能从纯统计层面分解出彼此相关性较弱的数据项,但降维后的数据很难作为分类使用的特征,这主要是因为降维导致部分有用信息被滤除了的原因。因此传统的PCA 方法不适用与电力数据的降维分析。

3 半监督学习机制研究

无监督的AE 方法无法对电力数据进行有效标记,因此本文对该方法进行了相应的改进,采用半监督分类方法替代AE 中所采用的无监督学习,以此来优化分类。半监督学习根据不同的学习模式可以分为五类:生成式模型、自训练、协同训练、直推式支持向量机、基于图的方法。除了生成式模型之外,其余四种均为判别式模型。

生成式模型一般假设数据分布为高斯混合、朴素贝叶斯、隐马尔科夫模型等,然后基于EM 算法对分布参数θ 进行极大似然估计。对于生成模型的半监督学习,假设训练数据集为D={(x1,y1),…,(xl,yl),xl+1,…,xl+u},其中有l 和u 分别表示有标签和无标签样本的数量,x 是观测数据,y 是无标签样本的隐变量数据,据此可将似然函数表达为:

该算法可以充分发挥未标记样本的作用,使得参数θ 能够真实反映样本分布的总体结构。

结合供电企业现场实际情况,由于异常用电存在较大的隐蔽性,导致了有标签的样本较少,因此研究的就是绝大部分缺失标定信息的不完全数据,需要通过生成模型估计缺失的数据,才能使得半监督学习具有更高的效率可准确率。此外,异常用电行为分析实质上是二分类问题:异常和正常。所以,本文即可依托生成式模型的半监督方法进行异常用电数据检测。

半监督深度变分自编码器中的变分自编码结构类似自编码网络,如前述这是一种将深度学习和统计学习结合的生成式模型,而且具有比判别式模型更好的实现对用电数据的分类和检测。由于现场应用时能够获取的标签较少,在此情况下利用深度变分自编码网络在统计学角度可以充分计算未标记样本的估计总体分布概率,进而等同于EM 算法中算后验概率的一种方法,能更好的进行异常用电数据检测。

图5所示的半监督深度变分自编码器还包括一个异常用电识别网络,该网络类似于一般的分类器,基于变分自编码器提取的特征完成数据分类,从而达到识别异常用电行为的目的。异常用电识别网络包含两个完全连接的层和一个Dropout 层,最后一层被Softmax 激活。第一个完全连接层旨在提升隐变量的维度,因为用户之间的智能电表数据存在差异。增大隐变量特征的尺寸可以进一步改善深度变分自编码器所提取特征的线性可分离性。Dropout 层用于避免异常用电识别网络陷入过拟合。第二个全连接层将在正常用电与异常用电的特征之间找到一个“完美”的超平面以完全分割正常数据和异常数据。具体的神经网络设计如图6所示。

图5:基于半监督深度变分自编码器的异常用电行为特征自主学习框架

图6:半监督深度变分自编码器的神经网络结构

因为引入了分类器,尽管其主要用于异常用电行为的识别分类,但也辅助深度变分自编码器的特征提取能力。从图7 可以看出,相比单纯采用深度变分自编码器所提取的特征更好一些,从而说明采用半监督的学习方式,通过引入分类器,类别间的特征学习可以帮助深度变分自编码器从更大量的无标签数据中提取到更好的特征。

图7:半监督深度变分自编码器辨识结果

4 结论

本文针对用户异常用电问题进行了研究,由于异常用电存在较大的隐蔽性,在自动判别中存在一定的难度。为了提升智能算法的可行性,本文首先分析了模型优化评估方法中的降维技术,研究了深度自编码器的基本原理和应用局限。在此基础上提出了半监督办法对深度自编码器进行改进,结果表明基于半监督的深度变分自编码器可以有效区分异常数据,能够应用于电力异常行为的判别。

猜你喜欢
降维编码器用电
用电安全
混动成为降维打击的实力 东风风神皓极
用煤用电用气保障工作的通知
降维打击
用电安全要注意
基于FPGA的同步机轴角编码器
基于PRBS检测的8B/IOB编码器设计
JESD204B接口协议中的8B10B编码器设计
多总线式光电编码器的设计与应用
抛物化Navier-Stokes方程的降维仿真模型