基于高斯混合模型聚类的低电压用户缴费特征提取

2022-06-29 06:08奚增辉王卫斌苏鹏涛沈邵骏
电子设计工程 2022年12期
关键词:低电压时序高斯

奚增辉,王卫斌,苏鹏涛,姚 嵘,沈邵骏

(1.国网上海市电力公司,上海 200120;2.上海欣能信息科技发展有限公司,上海 200025)

伴随着经济的快速发展,用户对电力服务的需求越来越多样化,有针对性地对低压用户进行研究,能有效地缩短电费回收周期,进一步推动公司自产自销产品的推广[1]。缴费是供电企业为用户提供的一项连续的基本服务,提取其特征值具有较高的实际应用价值[2]。利用PCA 进化变换方法分析大容量智能用电数据,可以保留原始数据的主要信息,降低聚类维数,提高聚类效率[3]。但是,用户数据受诸多因素的影响,缺少线性特征;使用K-means 方法虽然简单,但其同样存在数据聚类效率较低的问题。针对这一问题,提出基于高斯混合模型聚类的低电压用户缴费特征提取方法。通过对电力客户支付特征和支付行为的分析,总结出不同的客户群体的缴费行为特点,并分析不同渠道的优缺点,从而为不同群体客户提供差异化、多样化的优质服务。

1 低电压用户时序缴费特征分析

考虑到低压用户的时序支付特点,以实际的电力用户支付行为数据为基础,构建可以反映3 年间用户支付规则变化趋势的时序指标体系[4]。低电压用户时序缴费特征如表1 所示。

表1 低电压用户时序缴费特征

由表1 可知,时序指标可以很好地反映当年个别用户的支付习惯。该系数越大,用户就越喜欢传统的支付方式,使用频率就越高[5]。

2 低电压用户缴费特征提取方案设计

在上述低电压用户时序缴费特征分析结果支持下,设计低电压用户缴费特征提取方案。通过预处理聚类数据,结合用户用电总量,设计聚类信息处理流程。通过用户缴费数据变换,获取用户缴费特征所属类别,完成特征提取。

2.1 基于高斯混合模型GMM用电客户聚类

2.1.1 数据聚类预处理

以低电压用户的时序缴费特征分析结果为基础,对数据进行聚类预处理,去除噪音和用户不连续缴费数据,得到低压用户3 年缴费记录[6-8]。由于采用的数据维度差异很大,所以需要对原始数据进行归一化处理,得到标准数据,然后进行聚类。为了达到预定的聚类次数,首先用K-means 算法对数据进行聚类,并对聚类结果进行优度检验[9-10]。聚类优度结果如图1 所示。

图1 聚类优度结果

由图1 可知,当K值为7 时,图像的斜率趋于平滑。从聚类的可解性出发,优选出K=7 的最优聚类数目,从而对实际数据进行了分析[11]。

2.1.2 聚类中心确定

高斯混合模型聚类是一种基本的数据概率密度分布聚类方法,许多应用广泛的算法对于符合GMM的数据分布都具有很好的适用性[12-13]。基于高斯混合模型的聚类算法流程如图2 所示。

图2 基于高斯混合模型聚类流程

由图2 可知,基于高斯混合模型聚类的完整聚类步骤如下:

Step1:输入初始聚类数量Cinit,获取高斯分布的重叠度阈值T;

Step2:设C为每次的迭代聚类结果,与初始聚类数量Cinit一致,形成初始划分区域,确定初始核;

Step3:设迭代聚类结果C的正态核函数为k,由此运行动态聚类过程;

Step4:根据Step3 区分重叠区域与分散区域,由此计算若干高斯分布成分组的重叠度,OLRij(1 ≤i<j≤C);

Step5:选择所有负荷条件的高斯分布结果:

①重叠度阈值满足条件公式为:

如果重叠度阈值满足上述条件,那么随意选择聚类点(i,j);

②若干高斯分布成分组重叠度满足条件公式为:

如果若干高斯分布成分组的重叠度满足上述条件,那么随意选择聚类点(i,j)将被合并处理;

③将所有被选择的聚类点进行归一化处理,形成一个新的聚类中心,由此计算该聚类中心的均值和协方差;

Step6:更新迭代聚类结果,如果该结果满足C>2,则需跳转到Step3,否则停止更新,输出聚类结果。

2.2 聚类信息处理

数据提取和信息处理是构建用户行为特征提取系统的最终应用环节[14-15]。利用数据挖掘的工作原理,通过对电子政务环境的处理,可以对特征层中存储的数据进行调度[16]。在保证用户行为特征不变的前提下,分析待挖掘数据的存储结构,获得数据挖掘驱动设备的参数信息,根据执行用户行为的需要,建立必要的提取处理标准。聚类信息处理流程如图3所示。

图3 聚类信息处理流程

在整个处理过程中,电子政务系统信息提取框架始终保持相对良好的信息调度能力,可融合系统内所有的待挖掘数据,并将其整合成提取处理所必需的信息应用结构。至此,完成聚类信息处理。

2.3 用户缴费数据变换

对于聚类信息处理结果,需建立低电压用户缴费特征信息的原始矩阵X:

式(3)中,xn表示一年中不同时刻的用电信息。将原始矩阵对角化处理,获取特征向量,使用主元方差累积法,确定通过阈值为85%,通过如下公式选取元数目:

通过式(4)求取k值,对于达不到阈值要求的用户,需剔除两组数据,同时更新聚类中心,为后续用户缴费特征提取简化计算量。

2.4 用户缴费特征提取

基于高斯混合模型的低电压用户缴费行为数据聚类,对变换后的数据进行分析,有效用户数据特征可分为9 种,用户缴费特征提取结果如下:

聚类1-线下波动型用户:该类用户一般使用线上缴费模式,但2018 年这类用户使用的是金融代扣模式,2019 年和2017 年类似,但使用线下缴费比例上升;聚类2-线下偏好型用户:线上和线下渠道都会使用的用户,但更偏好使用线下缴费渠道;聚类3-自然转化型用户:线上缴费比例处于自然上升状态;聚类4-大额缴费型用户:该类用户缴费金额较大,缴费规律无明显变化,线上和线下缴费方式皆有;聚类5-线上波动型用户:与聚类1 相反,聚类5的用户使用第三方线上缴费渠道,而2018 年则使用过线下缴费渠道导致经济成本系数指标升高;聚类6-金融机构转化型用户:该类用户从第三方线上缴费模式逐年转变为金融机构代扣渠道;聚类7-退化型用户:该类用户从2017 年开始基本使用线上缴费模式,到2019 年开始使用线上线下混合缴费;聚类8-快速转化型用户:该类用户从线上线下混合缴费模式,到使用金融机构代扣模式;聚类9-金融代扣型用户:用户使用金融代扣缴费渠道。

3 实 验

为了验证基于高斯混合模型聚类的低电压用户缴费特征提取方法的合理性,进行实验验证分析。以上海低电压居民用户作为研究对象,采用真实的用电客户缴费行为数据为基础数据。通过国网上海电力大数据平台,获取用户信息数据、应收电费数据、实收电费数据及用户缴费数据。

以缴费特征变化较为明显的线下波动型用户和自然转化型用户缴费特征为例,分别使用PCA进化变换方法、K-means 方法、基于高斯混合模型聚类方法对其2017~2019 年特征变化情况进行对比分析。

2017~2019 年实际缴费特征变化如图4 所示。

由图4 可知,PCA 进化变换方法在2017 年缴费特征数据与实际情况出入不大,但在2018 年与实际数据相差较大,实际数据最优聚类为0,随着时间增加,最优聚类也没有发生较大变动,而使用该方法最优聚类由0 变为0.6,随着时间增加,最优聚类也发生较大变动。2019 年与实际数据相差较小,最优聚类与实际聚类结果没有较大偏差。

图4 2017~2019年线下波动型用户实际缴费特征变化

K-means 方法在2017 年缴费特征数据与实际情况存在一定出入,最优聚类由0 变为0.6。在2018 年与实际数据相差较大,实际数据最优聚类为0,随着时间增加,最优聚类也没有发生较大变动,而使用该方法最优聚类由0 变为0.7,随着时间增加,最优聚类也发生较大变动。2019 年与实际数据相差较小,最优聚类与实际聚类结果没有较大偏差。

基于高斯混合模型聚类方法2017~2019 年与实际数据变化趋势一致,且最优聚类数值也一致。

通过上述分析结果可知,使用基于高斯混合模型聚类方法缴费特征提取较为精准。

4 结束语

以低电压用户细分指标体系为起点,建立时序指标体系,观察用户总体变化趋势。聚类分析采用高斯混合聚类模型,并对聚类结果进行整理和分析。根据电力公司现有电力用户的缴费特点,提出相应的付款渠道营销策略。

猜你喜欢
低电压时序高斯
顾及多种弛豫模型的GNSS坐标时序分析软件GTSA
清明
基于GEE平台与Sentinel-NDVI时序数据江汉平原种植模式提取
以实例浅谈低压变频器低电压穿越的控制与预防
你不能把整个春天都搬到冬天来
数学王子高斯
基于WXH—822A线路保护测控装置的三段经低电压闭锁的方向电流保护测试
从自卑到自信 瑞恩·高斯林