基于数据挖掘的电能量数据异常特征提取方法

2023-01-08 16:49陈耀冲
电子设计工程 2023年1期
关键词:电量特征提取聚类

代 庆,陈耀冲,张 霞

(南方电网数字电网研究院有限公司,广东广州 510520)

为了实现电能数据的合理利用,必须保证电能数据的质量满足应用要求[1],需要进行电能数据异常特征的提取[2]。

电能量数据维度较为显著,且数据量庞大,这对电能量数据异常特征准确、高效提取存在一定影响,文献[3]、文献[4]分别提出了基于DBN-RF 的电网工控系统异常识别方法、基于KL 变换和KL 散度的电网数据特征提取与分类方法,这两种方法对电能量数据异常特征的提取精度较高,但运算过程较为复杂,实时性得不到保证,对高维、海量的电能量数据应用的适用性较差。为此,该文提出基于数据挖掘的电能量数据异常特征提取方法,以期实现电能量数据异常特征的实时提取。

1 数据异常特征提取方法

1.1 异常电能量数据检测方法

快速密度峰值聚类算法存在两种假设:第一种是异常电能量数据聚类中心被密度较小的邻居数据包围[5];第二种是聚类中心和其他密度较小的数据点距离均十分显著[6]。

此类情况下,针对异常电能量数据样本点而言,必须运算两种参数:局部密度qj与距离αj。局部密度qj的运算和另一个参数阶段距离ec存在密不可分的关系,电能量数据集里随机一个样本点yj的局部密度qj为:

其中,电能量数据样本点yj和yi的距离是eji;β是样本数量。qj可描述电能量数据集Y里和yj距离低于ec的异常电能量数据样本点数目。

距离αj描述为:

其中,qi是电能量数据样本点i局部密度;αj是描述电能量数据样本点yj与比其密度显著的样本点之间距离最小值,但电能量数据集里密度最高的样本,存在αj=maxeji,此时,此样本点将存在最大密度与最大距离,将被看作为聚类中心,但局部密度不大、距离显著的数据点便属于异常电能量数据。

在获取电能量数据集Y里全部样本点的(qj,αj)后,制作qj与αj的二维平面图,简称决策图,在决策图里兼具qj与αj最大值的点,此类点能够看作数据集Y的聚类中心。从异常数据检测的角度分析,决策图里能够兼具qj与αj最小、最大的点,可初步看作为异常数据。在原始电能量数据集里[7-10],运算随机样本yj和其他样本之间的欧式距离e(yj,yi),并把运算结果根据升序准则排序,将第h个距离的样本设成Mh(yj),yj的H个最近邻是:

通过M(yj)运算yj的局部密度:

其中,H为电能量数据样本数,其局部百分比为w,且H=wM,若局部密度值较大,则随机样本yj的密度较大。

1.2 电能量数据异常特征提取方法

1.2.1 样本属性分类

异常电能量数据特征,可体现电能量数据的波动性与变异性,该文使用基于数据挖掘的异常电能量数据特征分类方法,通过数据挖掘技术中的聚类算法将异常电能量数据进行特征聚类[11-14]。设置所获取的需要进行特征分类的异常电能量数据集合为N,N具有M个异常电能量数据样本集合。异常电能量数据样本权值是di(t),异常电能量数据聚类权值是对Ht个异常电能量数据样本yi(1)设置H个聚类中心,那么异常电能量数据聚类中心为,异常电能量数据样本相对聚类中心的模糊隶属度为φji。假定具有m个b维异常电能量数据特征集合,描述成A=()a1,a2,…,am,那么各个特征aj相应的密度指标是:

其中,异常电能量数据特征aj的邻域区间半径是sa,将此区间里密度最大值设成a1,那么密度指标设 成E1。ai、aj依次 是 描 述 异 常 电能量数 据i、j的特征。如果第k次异常电能量数据聚类中心是ak,其密度指标是Ek,则式(6)变换为:

其中,异常电能量数据密度指标的邻域区间半径是sb。

1.2.2 特征提取优化

将异常电能量数据集合设成N={n1,n2,…,nn},异常电能量数据特征分类的个体最优解集合是Rj={rj1,rj2,…,rjb},全局最优解集合是Rg={rg1,rg2,…,rgb},此时异常电能量数据特征分类的更新方案是:

求解异常电能量数据特征分布聚类的最大值,则:

求解平均粒度,则:

其中,第i个采样点j维中的分布聚类是gji(t);异常电能量数据维度是b;总样本N里异常电能量数据数量是n。

将高阶统计量的异常电能量数据特征聚类度设成v,则有:

将v值进行循环迭代,便能完成异常电能量数据特征参数优化选择,获取最终的异常电能量数据特征aj,实现电能量数据异常特征提取。

2 实验结果与分析

2.1 实验设置

为测试该文方法对电能量数据异常特征的提取效果,在Windows10 系统中搭建实验平台,内存为16 GB,主要使用Python3.6 实现。实验中所用电能量数据集源于某电力集团2020 年的电能量数据,在排除了356 条不可用数据后,以剩余的30 232 条电能量数据记录为数据样本,此样本中分为正向有功总电量、反向无功总电量、四象限无功电量三种。

2.2 异常电能量数据检测结果与分析

使用该文方法检测该电力集团2020 年的电能量数据中正向有功总电量、反向无功总电量、四象限无功电量三种电能量数据样本里的异常数据,检测结果如表1 所示。

根据表1 测试结果显示,检测结果和异常数据样本量记录基本一致,可有效检测异常电能量数据。

表1 异常电能量数据检测效果

使用该文方法、文献[3]方法、文献[4]方法对正向有功总电量、反向无功总电量、四象限无功电量三种数据进行异常数据检测,检测结果如图1-3 所示。

图1 正向有功总电量数据中异常电能量数据检测结果

根据图1-3 显示结果可知,该文方法、文献[3]方法、文献[4]方法对正向有功总电量、反向无功总电量、四象限无功电量三种数据进行异常数据检测后,该文方法的检测率均高于0.95,且均大于文献[3]方法、文献[4]方法。误报率均小于0.02,且均小于对比方法。由此可证,在同类检测方法中,该文方法对异常电能量数据的检测效果最佳。

图2 反向无功总电量数据中异常电能量数据检测结果

图3 四象限无功电量数据中异常电能量数据检测结果

3 结论

使用该文方法检测正向有功总电量、反向无功总电量、四象限无功电量三种电能量数据样本里的异常数据后,检测结果和异常数据样本量记录基本一致,检测偏差值最大值为1 条,在可接受范围之内;对正向有功总电量、反向无功总电量、四象限无功电量三种数据进行异常数据检测后,检测率均高于0.95,误报率均小于0.02,对电能量数据异常特征的提取效果最好。由此可知,该文方法可提升电能量数据异常特征提取效果。

猜你喜欢
电量特征提取聚类
储存聊天记录用掉两个半三峡水电站电量
物联网智能燃气表电量自补给装置
基于功率的电量智能修复算法研究
基于K-means聚类的车-地无线通信场强研究
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法