基于混合神经网络的电力客户细分研究∗

2019-03-26 08:44欧家祥张俊玮
计算机与数字工程 2019年3期
关键词:决策树细分神经网络

欧家祥 曹 湘 张俊玮 丁 超

(1.贵州电网有限公司电力科学研究院 贵阳 550002)(2.上海电力学院计算机科学与技术学院 上海 200090)

1 引言

随着电力工业的改革和智能电网的建设,电力客户在电力市场中的地位越来越重要。客户细分的主要思路是找出具有相似行为、价值特征的客户群。对电力客户进行深度细分,有助于供电企业了解客户用电行为,识别价值客户,制定有针对性的服务措施和差异化营销战略,从而提升服务水平。

近年来,国内一些高校和电力研究院开始利用数据挖掘技术在用电客户细分方面进行一定的理论研究和实际应用。张铁峰等[1]以传统行业划分为基础,利用聚类技术对用电客户进行分类研究,其分类的结果与目录电价中按照行业划分的结果相似。周国鹏[2]针对某电力公司大用户实际负荷曲线数据,使用模糊聚类中的典型算法模糊C均值(FCM)对其进行聚类分析,将电力用户分类。胡小雪[3~4]等提出的算法利用自组织映射神经网络训练输入数据,以获取代表输入模式且数据量远小于输入数据量的原型向量,使用围绕中心点的切分对该原型向量聚类并用Davies-Bouldin指标判定最优聚类个数以保证聚类效果。黄星健[5]等针对电力企业服务水平提升的需求,以电力营销系统等作为基础,对数据挖掘过程中,结合电力销售中的风险客户,提出决策树算法和回归预测两种方法对客户进行分类。文献[6]对电力用户价值进行分析和定义,从当前市场价值、潜在市场价值、区域贡献价值三个方面,构建了电力用户评价指标体系,使用K均值聚类方法从这三个维度进行聚类分析,将用户分类。许青林[7]等提出的模型根据旅客的行为偏好对旅客进行细分,构建模型采用的方法为层次分析法,其中在使用层次分析法确定各参数权重时的关键在于如何构造完全一致的判断矩阵,提出了一种改进判断矩阵一致性的算法,使得一致性调整过程简单且结果有效。Dzobo O[8]等在所提出的模型中使用了三个客户参数——经济规模,经济活动和能源消耗。该模型在南非和瑞典的两个案例研究中进行了检验,并将结果与传统的客户细分模型进行比较。

但上述方法都是把电力用电数据的每一个属性的权重都设为一样的,没有把属性、时间之间的联系关联在一起分析,导致电力客户细分没有达到较好的准确度。本文提出的H-LSTM混合神经网络的电力客户细分方法很好地把属性、时间之间联系关联在一起。先从原始用电数据中提取出用电特征指标[9],利用特征指标的前后时间关联性来分析,通过同时设定混合的LSTM神经网络[10~15]求解,最后得出结果值。本文利用的改进的H-LSTM神经网络的长短期记忆应用到客户细分上,在本文的第2节描述了用电特征选择[16~18],第3节详细介绍了模型的构建,第4节使用改进的H-LSTM神经网络细分的结果和决策树[19~21]的结果作对比,第5节总结了结论并对未来的工作做了展望。

2 特征选择

2.1 确定特征指标

从客户价值进行客户细分有利于企业为高价值客户分配有限资源。没有统一的标准来衡量客户的价值。根据对电力企业管理者的调查,我们知道他们最关心的是贡献和可信度,所以决定从信誉,发展,成长和忠诚四个方面来衡量客户价值,然后定义了八个二级分析指标:

1)可信性:拖欠率,拖欠频率,拖欠付款期限

2)贡献:每月功耗,每月电费

3)发展:额定功率,电力年增长率

4)忠诚:客户保存期限

2.2 分析指标说明

拖欠率Ar:拖欠和应收账款的比例。对于最新的拖欠率最能反映客户的可信度,我们使用最近三个月,半年,一年和历史的加权拖欠率累计。Ar的计算如下:

其中 ξi=Ar3是最近三个月的欠款率,Ar6是最近半年的欠款率,Ar12是最近一年的欠款率,Arhistory是历史欠款率。

拖欠频率Af:拖欠时间与应收账款时间的比率。

平均付款时间Dp:收到通知和付款之间的平均时间间隔,它衡量客户的支付计划。

每月功耗Pc:客户每月的平均电力消耗。

每月电费Ec:客户每月的平均电费。额定功率Ac:客户申请安装时的额定功率。功率年增长率Gr:措施增加了消费者的消费。客户保存期限Dc:自客户开设账户至今的月数。

3 基于H-LSTM的电力客户细分模型

3.1 RNN神经网络

RNN具有循环的网络结构,具备保持信息的能力。RNN中的循环网络模块将信息从网络的上一层传输到下一层,网络模块的隐含层每个时刻的输出都依赖于以往时刻的信息。RNN的链式属性表明其与序列标注问题存在着紧密的联系,目前已被应用到文本分类和机器翻译等NLP任务中。在RNN的训练中,存在梯度爆炸和消失的问题,且RNN难以保持较长时间的记忆。

3.2 模型构建

LSTM网络是RNN的扩展,专门设计用来避免长期依赖问题。LSTM的重复神经网络模块具有不同的结构,这与朴素RNN不同,存在四个以特殊方式相互影响的神经网络层,网络模块示意图如图1所示。LSTM网络的关键在于细胞状态,有点类似于传送带。在LSTM中,通过门结构来对细胞状态增加或删除信息,而门结构是选择性地让信息通过的方式,通常由一个Sigmoid神经网络层和逐点乘积操作组成(Sigmoid层的输出在0~1,定义了信息通过的程度,0表示什么都不让过,1表示所有都让过)。

如图1所示,H-LSTM网络具有输入门(input gates)、忘记门(forget gates)和输出门(output gates)等三种门结构,用以保持和更新细胞状态,以下公式中 it、ft、ot和 Ct分别表示 t时刻对应的三种门结构和细胞状态。

图1 H-LSTM神经网络单元

1)从细胞状态中忘记信息,由忘记门的Sigmoid层决定,以当前层的输入Xt和上一层的输出ht-1作为输入,在t-1时刻的细胞状态输出为

2)在细胞状态中存储信息,主要由两部分组成:(1)输入门的Sigmoid层的结果it作为将更新的信息;(2)由tanh层新创建的向量ct,将添加在细胞状态中。将旧的细胞状态ct-1乘以 ft,用以遗忘信息,与新的候选信息 it·c͂t的和,生成细胞状态的更新。

3)输出信息,由输出门决定。先使用Sigmoid层来决定要输出细胞状态的部分信息,接着用tanh处理细胞状态,两部分信息的乘积得到输出的值。

基于电力用户评价指标的改进的H-LSTM模型构建如下:

1)根据电力用电数据重构出8个评价指标的子序列数据集;

2)计算每年12个月的功耗和电费的均值和方差;

3)将重构出的子序列数据集和功耗、电费的均值和方差作为lstm神经网络的输入,即输入维数为12维;

4)输出层维数为1,损失函数为L2误差函数;

5)激活函数为ReLU,采用批量梯度下降法学习,ReLU(x)=max(0,x)。

H-LSTM神经网络的输入输出如图2所示。

图2 H-LSTM神经网络的输入输出

图3 基于H-LSTM神经网络电力细分框架

图3是H-LSTM的电力客户细分网络的框架,基于属性的分类方法是基于一个局部滑动窗口,假设一个属性的标签极大地依赖于其相邻位置的属

性。给定长度为n的属性序列 c(1:n),大小为 k的窗口从属性序列的第一个属性c(1)滑动至最后一个属性 c(n)。如图 3 所示,对于序列中每个字 c(t),当窗口大小为 5 时,属性 c(t-2),c(t-1),c(t),c(t+1),c(t+2)将被送入查询表中,当属性的范围超过了序列边界时,将以诸如“start”和“end”等特殊标记来补充;然后,将查询表中提取的属性向量连接成一个向量X(t)。在神经网络下一层中,X(t)经过线性变换后经由Sigmoid函数σ(x)=(1+E-x)-1或tanh函数激活。

根据给定的标注集,将经过一个相似的线性变换,不同之处在于没有非线性函数,得到的y(t)是每个可能标签的得分向量。

H-LSTM神经网络将信息存放在循环网络正常信息流之外的门控单元中。这些单元可以存储、写入或读取信息,如图4所示。单元通过门的开关判定存储哪些信息,以及何时允许读取、写入或清除信息。但与计算机中的数字式存储器不同的是,这些门是模拟的,包含输出范围全部在0~1之间的Sigmoid函数的逐元素相乘操作。相比数字式存储,模拟值的优点是可微分,因此适合反向传播。因此,可以决定哪些电力用户属性的值可以记住,哪些电力用户属性的值去忘记,这些门依据接收到的信号而开关,而且与神经网络的节点类似,它们会用自有的权重集对信息进行筛选,根据其强度和导入内容决定是否允许信息通过。这些权重就像调制输入和隐藏状态的权重一样,会通过循环网络的学习过程进行调整。也就是说,记忆单元会通过猜测、误差反向传播、用梯度下降调整权重的迭代过程学习何时允许数据进入、离开或被删除。

图4 改进的H-LSTM神经网络结构图

通过改进的H-LSTM神经网络的记忆门和忘记门来实现属性之间的前后关联,本实验采用的数据来源于北方某省市的供电营销数据,通过对原始的数据做预处理,处理后的数据格式如表1所示。

表1 训练数据样例

图4就是本次实验的改进的H-LSTM神经网结构图。

太少不能达到精细化管理的目标,而太多的分类导致管理困难。我们在这个实验中将顾客细分数限制在3~9个分类,而根据模型的输出,我们将模型的结果分为了五类客户,如图5所示。

在电力用户分类任务中,H-LSTM记忆单元的输入来自上下属性窗口的属性值。对每个属性值c(t),H-LSTM 记忆单元的输入为 X(t),由上下属性值嵌入(c(t-k),…,c(t),…,c(t+k))连接而成,其中 k代表与当前属性的距离。H-LSTM单元的输出在经过线性变换后用于标签推理函数,推理出属性对应的标签,最后将混合的H-LSTM神经网络的输出进行异或输出。

图5 各客户类型占比

4 实验结果

4.1 电力用户类别分析

本文实验的环境是ThinkServer TD350服务器,主要参数 CPU:E5-2603v3 1.6GHz,内存为 16G,GPU卡:Nvidia GTX1080。操作系统为ubuntu 16.04 64bit,使用tensorflow中的LSTM等神经网络模型。

本文实验的数据来源于北方某省市的电网真实数据,通过数据预处理这一块,把数据处理成我们想要的格式,转换成用电客户的属性指标。

根据电网公司的实际性,关于客户细分,分类如下。

1)钻石客户。一些客户,其耗电量巨大,虽然支付不活跃,但拖欠率较低。他们的管理目标是保持客户的忠诚度。

2)白金客户。这种类型的股息最高,接近50%。虽然他们的耗电量远远低于钻石客户,但他们是其中最大的比例最有影响力的类型。但考虑到拖欠率较高,管理目标是减少拖欠率。

3)优质的潜在客户。电力消费量大,拖欠率低,消费增长率高,意味着其强劲的发展势头。管理目标是提高客户满意度。

4)年轻潜在客户。一些新客户消费迅速增长,给电力负荷带来压力。他们主要是新成立的大企业,其管理目标是使他们长期稳定的客户。

5)小型企业。小功耗消耗增长率低,企业应该降低维护成本。

4.2 结果比较

在电力客户细分研究性能评估中,采用了分类评测常用的R(召回率)、P(准确率)和F(综合指标F值)等评测指标,以F值为主要评测指标。测试集选用了每个电力用户种类1000个客户做测试,共5000条数据。

表2 模型评价指标比较

图6是改进的H-LSTM神经网络的分类混淆矩阵,图7是原始LSTM神经网络做出的分类混淆矩阵,图8是利用决策树做出的分类混淆矩阵,从表2可以看出改进的H-LSTM神经网络的精确度和召回率都比决策树和原始的LSTM方法要好,最后F值H-LSTM神经网络0.890也优于决策树方法的0.774,所以该H-LSTM神经网络在电力用户细分中,是有效的且准确的。

图6 改进的H-LSTM的分类混淆矩阵

图7 lstm的分类混淆矩阵

图8 决策树的分类混淆矩阵

图9 模型随训练集大小的变化

如图9所示,三种方法前期都随着训练集的增大,准确率也增大。在300MB处决策树和改进的H-LSTM模型准确率几乎相等,但是在600MB之后决策树方法趋于平缓,但是改进的H-LSTM神经网络开始稳步上升,随着训练集增大,改进的H-LSTM神经网络的优势扩大,准确度比决策树方法高,从而得出了改进的H-LSTM神经网络确实比原始LSTM和决策树方法有应用价值。

5 结语

本文通过对电力用户用电数据分析,从客户价值出发,从四个方面来衡量客户价值,采用改进的H-LSTM神经网络模型对电力企业进行客户细分,取得了较好的效果。论文提出的基于H-LSTM神经网络的电力用户细分方法加入了属性之间前后关联,使得分类精度提高,通过与决策树、LSTM方法做对比,证明了本文提出的方法精度高并且是有实际应用意义的。对于之后的工作,我们计划把该分类方法应用到其他场景,基于场景改进此类方法。

猜你喜欢
决策树细分神经网络
六大趋势引领扫地机器人细分市场蓬勃发展
基于神经网络的船舶电力系统故障诊断方法
MIV-PSO-BP神经网络用户热负荷预测
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
赵波涛:发挥工匠精神 做细分领域的“小巨人”
深耕环保细分领域,维尔利为环保注入新动力
简述一种基于C4.5的随机决策树集成分类算法设计
基于神经网络的中小学生情感分析
购买一个度假产品
决策树学习的剪枝方法