基于近邻传播聚类的智能电网数据安全聚合

2023-10-05 08:10徐飞周远科章海峰王智广施晓敏华传程
电子设计工程 2023年19期
关键词:数据安全聚类电网

徐飞,周远科,章海峰,王智广,施晓敏,华传程

(国网安徽省电力有限公司,安徽合肥 230061)

在现代社会中,电力系统是不可或缺的基础设施。随着我国经济和社会的迅速发展,传统的电力网络已无法适应现代经济发展,而智能电网的出现使电力行业发生了较大的改变。在充分发挥智能电网技术优势的同时,也出现了许多数据安全性问题,而作为电能计量的终端,智能电网的使用对用户的信息安全提出了更高的要求。智能电网建设的基本要求是由运营中心通过用户配置的智能电表,对所辖区域的电力进行实时监控,从而达到动态调度、电价制定等目标。然而,在此过程中,个人信息的安全性也受到了极大地调整,为此需要对智能电网数据进行安全聚合处理。目前,部分学者提出基于Paillier算法的聚合方式,通过构建超递增序列,结合Paillier加密技术实现多维数据的添加与加密,以此达到智能电网数据安全聚合的目标[1];还有学者提出基于雾辅助轻量级隐私保护的聚合方式,利用云雾协作的多级聚合模型,对智能电网数据进行高速解析,借助散列函数的轻量级认证,实现智能电网数据安全聚合[2]。由于智能电网数据量较大,类间相似度较高,使用目前的两种方法无法使数据安全聚合。为此,提出了基于近邻传播聚类的智能电网数据安全聚合方法。

1 基于近邻传播聚类的聚类中心的确定

近邻传播聚类是根据数据点间的信息交换与更新,选取出一系列具有代表性的点,并将其分布到邻近的一个节点上,从而实现了数据点的有效分割[3]。

根据以上分析选取了一组样本,对其进行了聚类分析。基于近邻传播的聚类结构分布示意图如图1所示。

图1 基于近邻传播的聚类结构分布示意图

在图1 中,类别b 是抽样群集的近邻聚类,这是由于b 类符合类别之间的距离需求。此外,当样本未归入类别a 时,类别b 是最好的选项。在聚类初期,使用近邻传播方法将所有日常场景样本作为潜在的聚类中心,然后对这些数据进行迭代和更新[4-5],以此完成数据聚类中心的确定。

通过与K-means 聚类、分层聚类等聚类算法的聚类结果进行对比可知,近邻传播方法可以将聚类结果转化为具有潜在聚类中心的聚类,使聚类结果不会出现因寻找中心而耗费时间过长的问题,再通过预先确定的聚类数量,使聚类结果更加稳定[6]。

为了构建相似度矩阵,需统计智能电网中的日场景样本,在保证全部样本都被采集的情况下,构建相似度矩阵如式(1)所示:

在式(1)的矩阵中,qi表示日场景样本。非对角线参数表示日场景中的欧几里得距离,即在m维空间中两个样本间的真实距离[7]。在日常场景中,对角线元素可以作为一个衡量群集中心的指标,所以将其设置为参考值。参考值对聚类结果的个数有很大的影响,与其他的聚类方法相比,近邻传播聚类算法通过构建相似度矩阵来判断日场景样本是否能够作为聚类中心。如果适合,可将其作为基于近邻传播聚类的聚类中心[8-10];反之,如果不适合,需通过重新统计日场景样本来构建相似性矩阵,进而挑选出适合作为聚类中心的日场景样本,实现聚类中心的精准确定。

2 智能电网数据的安全聚合

结合上述确定的聚类中心,在迭代过程中,为了避免出现震荡,将当前的迭代结果与以前的迭代结果进行对比分析,获取迭代更新结果[11]。

使用近邻传播聚类方法,设计智能电网数据安全聚合流程,如下所示:

步骤一:初始化相似度矩阵

对于相似度矩阵初始化,需将对角线元素视为同一值,并在保证无先验知识的情况下,将可信度和参考值的值都设定为0,由此完成相似度矩阵的初始化处理[12]。

步骤二:确定最佳聚类数

类间类内指标反映出个体样本的聚类有效性,如果类间类内指标值越大,则说明个体样本的聚类效果越佳。在此基础上,对数据集合进行了统计,并对其聚类结果进行了比较,以平均值作为聚类指标。如果平均值越大,那么说明数据集的聚类效果也就越明显,其中平均值的最大值,就是最佳聚类数[13]。

在此基础上,采用基于距离度量的分类指标对聚类结果进行了有效性分析[14]。数据集聚类的平均类间类内划分指标值为:

式(2)中,k(j,i)表示类间类内表达数据集。根据式(2)计算最佳聚类数,公式为:

通过式(3)可确定最佳聚类数。

步骤三:聚类结果更新

聚类结果更新过程如下所示:

step1:对K个聚类簇进行初始化,将各簇中心的权重设定为0。

step2:读取N个文本数据,将各文本数据的簇中心权值设定为1,并将N个文本数据与K个聚类簇中心进行合并,使用近邻传播算法进行迭代更新处理,获取簇中心更新结果[15]。在对聚类中心进行更新时,需要对新的聚类结果进行加权处理,并由此得到新增加的数据,公式可表示为:

式(4)中,δk为新数据和历史数据之和。

step3:新集群中心的权重越高,其所占比重越大。在将N+K组数据聚集到K组新的聚类中心时,每组新的聚类中心将进行权值衰减计算,如图2所示。

图2 衰减模型

图2 中,H表示新增加的数据;G表示历史数据。通过统计新增加的数据、历史数据和设定衰减系数,可得到新的聚类中心衰减权值[16]。

step4:重复步骤2,直至完成数据流程或人工终止。

步骤四:输出聚类结果

由于不能将K类直接用作分类器的输入参数,所以,可以获得K个群集的聚类结果。根据输出的聚类结果设计智能电网数据安全聚合流程,如图3所示。

由图3 可知,将各节点作为一个集合节点,分别对所需要的最小相似数据进行汇总,选取最少的节点为集合节点,然后将该节点的数据转发到由该节点产生的最优集合拓扑,以此完成数据的安全聚合。

图3 智能电网数据安全聚合流程

智能电网数据中的每个数据特征权重都会被赋予不同的值,数值大小需要根据其特征所在区域中的重要程度来计算得出。智能电网数据集合表示完成后,分析不同数据之间的相似度。判别公式为:

式(5)中,wi、wj分别表示数据i、j的权重。在求解每个节点的最小相似度时,每个节点都有一个时间参数,因此可以先求出相似度最小的节点。当网络拓扑结构被确定为0 时,就不需要再将链路信息分组传输给节点,从而实现了对智能电网数据的安全聚合。

3 实 验

3.1 测试用例

为了验证基于近邻传播聚类的智能电网数据安全聚合方法的合理性,进行实验验证分析。该实验选取了三组数据集,并与基于Paillier 算法的聚合方式、基于雾辅助轻量级隐私保护的聚合方式进行比较。

3.2 实验结果与分析

3.2.1 聚类结果平方差分析

分别使用三种聚合方法对比分析聚合程度,对比结果如图4 所示。

图4 三种方法聚合程度对比分析

由图4 可知,使用基于Paillier 算法的聚合方式、基于雾辅助轻量级隐私保护的聚合方式,聚合程度始终低于基于近邻传播聚类的智能电网数据安全聚合方法。对于A 组数据,基于近邻传播聚类的聚合方法的聚合程度始终高于0.70,说明聚合结果稳定。而使用其余两种方法聚合程度整体变化趋势波动幅度较大,说明使用这两种方法聚合结果不稳定,导致聚合程度较低。

3.2.2 聚合场景数量分析

分别使用三种聚合方法对比分析聚合场景数量,对比结果如图5 所示。

由图5 可知,使用基于Paillier 算法的聚合方式、基于雾辅助轻量级隐私保护的聚合方式,每次聚合数量均不一致,说明这两种方法稳定性较差。而使用基于近邻传播聚类的聚合方法,经过多次运行后聚合场景数量均一致,说明聚合稳定性较高。

图5 三种方法聚合场景数量对比分析

4 结束语

针对当前方法存在的问题,提出了基于近邻传播聚类的智能电网数据安全聚合方法,通过实验证明了该方法的数据聚合效果好。由于实验数据流入类型的数目对聚合效果有一定的影响,因此接下来要做的工作就是对数据流类别数目的大量变动情况进行深入分析。

猜你喜欢
数据安全聚类电网
穿越电网
云计算中基于用户隐私的数据安全保护方法
建立激励相容机制保护数据安全
基于DBSACN聚类算法的XML文档聚类
大数据云计算环境下的数据安全
基于高斯混合聚类的阵列干涉SAR三维成像
电网也有春天
一个电网人的环保路
电网环保知多少
大数据安全搜索与共享