供电所用电检查数据缺失快速填补研究

2023-11-05 11:34
电气技术与经济 2023年7期
关键词:均方供电所用电

陈 炯

(广东电网有限责任公司佛山顺德供电局)

0 引言

随着电力行业的飞速进展,供电所用电检查数据也随之越来越复杂,数据量也是越来越大,由于供电站的数据采集和存储组成复杂,如果工作环境恶劣,就有可能导致数据丢失,例如:传感器故障、人的主观因素、数据的传输与数据存储故障等。具有不完备性的数据的挖掘过程,给数据研究分析带来了诸多困难,其中部分数据的不完备性不仅会造成分析结果的偏差,还会造成数据挖掘模型的错误,进而造成挖掘结果的偏差,严重时还会引起供电所的错误决策,造成巨大的经济损失[1]。

1 供电所用电检查数据缺失快速填补方法

1.1 计算初始数据值

通过对缺失数据的适当补充,能够提升数据的质量,而高质量的数据能够反映出数据的总体特性和数据的个别信息。在进行快速检查数据的填补之前,通过计算初始数值,能够提高数据分析的精度,这对于数据快速填补有着非常重要的意义[2]。

首先,设定一个样本集,假设其集合为X={x1,x2,…xn},集合中xk表示X数据集中第k个数据向量,xkj表示此向量的第j个数值,1≤j≤s,1≤k≤n。如果数据集合X中包括了缺失数值,用Q来表示,则集合的表达公式如下:

其中,m代表缺失的数值个数;Xm表示此缺失的数据集合,如果当s=2,n=4时,数据集合的公式为:

通过上述集合,确定了模糊因子为a,收敛的阈值为β,分类的数目为c,且符合以下条件,1<c≤n。此时模糊因子如果证明其存在 [1.5,2.5] 区间内分类的效果是最好的,a一般为2[3]。

初始数据值的隶属度的计算公式如下:

此矩阵满足以下条件公式:

再利用隶属度计算分类中心,其计算公式如下:

如果vr+1-vr <β达成最大次数的迭代,则计算停止,反之如果不成立,则重新利用下列公式再计算缺失用电检查数据的初始数据值。计算公式如下:

其中,xiw为初始数据值。

传统的处理缺失数据的方法为“删除”,其基本思想是在数据集中的缺失数值个数很少的情况下,通过删去样本的方式来聚类。但是这样做会导致信息的损失。本文选择将供电所用电检查缺失的数据填补视为优化问题,采用迭代法求得缺失用电检查数据的初始数据值[4]。

1.2 填补缺失数据

要想更好地解决缺失数据问题,就必须要认识和深入研究缺失数据的形成机制,这就在很大程度上将对缺失数据的后继研究成果产生重要的影响,这也为以后在有关缺失数据的进一步深入研究和文章中所给出的填补方案,奠定了理论依据。

下图为缺失数据的填补方法选择流程。

图 填补方法选择流程

如果选择一元单一填补,则为对用电检查数据非缺失的部分进行挖掘,找出合适的替代数值,将其填补到缺失的位置后,进而得到完整的数据集合,由于此方法误差性较大[5]。因此选择多重MCMC填补方法,此方法的数据集中的各项用电数据属于正态分布的,或接近于正态分布的情况下,对数据集中的所有属性进行平均,并用这些属性的平均代替缺失数据中的数据项;如果数据集的数据项的分布是偏态的,以资料集合中各属性数值之中位值,以取代缺失资料项目。该方法简单、快速,特别适用于小样本数据。其主要过程如下:

将替代数值的协方差进行计算,公式如下:

其中,代表了此时样本集合的协方差;ai为用电检查数据是否缺失,如果当ai =0时,则为数据缺失,当ai =1时,则数据未丢失;n表示样本集中的集中数据的个数;yi表示样本集内第i个数据;n1表示样本集内没有缺失的数据数目。

通过上述公式计算后,使用关联规则数据挖掘,能够挖掘出数据集中各个属性之间的关系,它与一般仅仅依靠距离来反映数据之间关系的算法相比,具有更高的准确度。而且关联规则挖掘方法还能给出一种直观而又清晰的规则,为快速填补缺失用电检查数据提供了一种高效、可靠的填补依据。

数据进行填补后,其关联规则挖掘目标数据的总体均值的计算公式如下:

因为传统单一方法填补下相同数值替代缺失数据后,数据的结构会变成尖峰态,进而不同程度上改变了用电的原本数据。所以根据多重填补方法,使数据的填补达到既正确又快速。

2 实验测试

为验证本文提出的供电所用电检查数据缺失快速填补方法的有效性,将本文方法与传统方法1、2进行对比,得出三种方法的填补效果,现进行对比测试。

2.1 实验准备

本次实验选用模拟仿真环境下进行,分别使用三种方法进行对缺失数据的填补,模拟环境选用Matlab软件,计算机的参数为3.2GHz、8GB。

选取A供电所,选择其用电负荷数据,一天24h时间内,每隔4h进行一次采集用电数据,选取5月8日~10日三天用电负荷数据,表1为A供电所当日所得的原始数据。

表1 A供电所电荷数据 单位:C

为验证三种方法在A供电所的缺失用电数据的填补效果,本次测试将首先对以上用电负荷数据集进行预处理,得到包含随机缺失数据的不完备数据集。之后依次采用方式1、传统方式2、我们提供的用电数据缺失快速填补方案这三种方式,对一个不完全数据集中进行数据补充操作。当获取全部结果以后,将插补后的结果集中和原始数据集中进行比较,并通过分析缺失的填补平均值来确定插补结果。

在对缺失的数据进行填补之后,用均方误差数值来衡量填补方法的准确度。均方误差为预测数值与原始数值之差的平方数,它可以用来衡量数据变化的程度。均方误差数值较小时,表明该方法具有较高的准确度。

2.2 实验结果与分析

将三种方法带入模拟环境中,使用Matlab软件,得到5月8日~10日中三次实验的均方误差数值,表2为三种方法的均方误差的数值。

表2 实验结果

将上述A供电所的用电负荷的均方误差结果的三种方法的分别求取平均值,结果见表3。

表3 三种方法的均方误差平均值

通过对上表实验结果进行分析后,三种方法的均方误差数值由小到大的排列为本文方法、传统方法1、传统方法2,其中本文方法的均方误差最小,说明填补缺失数据的结果最接近于原始用电数据,进而可以说明本文方法的填补效果和准确度最高,较适合供电所来使用。本文方法比较传统方法1、2的均方误差分别小了9.73×10-6、8.235×10-6,可以得出传统方法1、2对于缺失数据的填补误差较大,不适宜使用。

3 结束语

随着科技的进步,大数据时代已经来临,为供电所电力系统的运行与控制提供了有价值的数据,对分析电力系统的优化策略、故障诊断等都有很大的帮助。用电检查中的数据快速填补技术在生产实践中,已逐步被应用到了解决问题的各个方面。被缺失数据含有的内容,包含在电力系统的运行中所造成的数据缺失,而进行填补是对供电所用电安全的保障。

猜你喜欢
均方供电所用电
用电安全
一类随机积分微分方程的均方渐近概周期解
宁夏首个“零碳”供电所建成投运
用煤用电用气保障工作的通知
安全用电知识多
Beidou, le système de navigation par satellite compatible et interopérable
用电安全要注意
供电所配网低电压问题的解决对策
供电所优质服务技术
降低供电所线损的方法及实践