基于市场细分的逻辑回归模型在电费回收风险预测中的应用研究

2016-08-15 09:23林士勇欧阳柳浙江省电力公司杭州30007乐清市供电公司浙江乐清35600
电力需求侧管理 2016年4期
关键词:电费高压变量

涂 莹,林士勇,欧阳柳,黄 金(.浙江省电力公司,杭州 30007;.乐清市供电公司,浙江 乐清 35600)

基于市场细分的逻辑回归模型在电费回收风险预测中的应用研究

涂 莹1,林士勇2,欧阳柳1,黄 金2
(1.浙江省电力公司,杭州 310007;2.乐清市供电公司,浙江 乐清 325600)

在大数据的基础上,通过数据挖掘技术,借助SAS工具,构建了基于逻辑回归的用户电费回收风险预测模型。同时,根据市场细分理论,针对高压用户、低压非居民用户、低压居民用户分别构建了预测模型。预测结果显示:3类模型预测准确率较高,为降低电费回收风险、提升电费回收率提供了数据支撑。

电费回收;逻辑回归;市场细分;风险预测

电费回收是电力企业经营成果的重要指标,做好电费风险预控一直以来既是营销管理的重点也是难点。近年来,中国经济进入转型期,增速放缓,部分企业面临着产量下降、销售困难等问题,对供电主体意味着这些用户欠费风险加大。

一般而言,各地供电企业提升电费回收率主要从政策、规章、制度、措施出发,以定性研究为主。如文献[1]提出“加强用电合同管理”、“采取电费担保措施”、“大用户电费分次结算”、“电费回收内部预警”;文献[2]提出“建立强有力的领导班子”、“争取政府支持”、“加大宣传力度”、“运用法律手段”等;文献[3]提出“转变传统缴费方式”、“建立信用体系”等;文献[4]提出“严格落实抄表体制”、“加强核算管理规范化”等;文献[5]提出“落实电费回收责任制”、“推进新型缴费方式”等;文献[6]提出“帮助困难企业用户改善经营”等。

在实证研究方面,文献[7]提出了运用层次分析法,从“经营能力、社会交往、发展前景、电力法规、用电合作”5个维度,对用户进行信用评分;文献[8]从“盈利能力、营运能力、偿债能力、发展能力、缴费风险”5个维度对大型用户进行评价;文献[9]从“企业素质、资金信用、经营管理、经济效益、发展前景、银行信用等级”6个维度对用户信用进行评价;文献[10]从“财务特征、行为特征、环境特征”3方面对客户进行信用评价。这些评价体系中,使用了较多的用户数据和外部数据,相对难以获取,不利于实际落地应用。

随着大数据时代的到来,供电企业积累了大量用户数据,数据是巨大的财富,笔者试图从供电企业内部数据出发,通过数据挖掘技术,借用SAS、R等分析工具,对用户历史数据进行分析,通过数学模型预测用户电费回收的风险,为电费回收工作提供数据支持。

1 主要预测方法

1.1 时间序列分析

时间序列主要根据历史数据,使用长期趋势(T)、季节变动(S)、循环变动(C)、不规则变动(I)4个要素预测某一指标数值的变化。主要应用于事务的整体趋势,如:某供电企业某月的总供电量、全部用电用户的总欠费金额等。

1.2 线性模型

线性模型包括线性回归、方差分析、混合效应模型等,广泛应用于生物、经济、气象等领域[11]。其一般形式为

线性模型一般要求自变量X与因变量Y之间呈线性关系,否则预测准确度会下降。由于实际生活中情况比较复杂,研究者一般使用多元回归模型。

1.3 逻辑回归模型

逻辑回归是一种研究二分变量Y与一系列影响因素Xn之间关系的多变量分析方法,是在线性模型基础上的进一步发展。其一般形式为

式中:P是变量Y发生的概率,P的取值在0~1之间。比如:预测某用户下月欠费的概率是0.85,即表明100个类似的用户中,实际发生欠费的用户有85个。

逻辑回归模型可用于研究自变量与因变量之间的非线性关系,经过几十年的发展,已逐渐成熟。逻辑回归模型计算速度快,对数据质量要求相对不高,结果显性化且稳定性较好[12],目前在大数据、机器学习、经济学、广告学、电信、金融等领域得到了广泛的应用。严格意义上说,银行业的信用卡评级、电信行业的星级服务、阿里巴巴芝麻信用[13]也是逻辑回归模型的实际应用。

2 电力用户电费回收风险预测

2.1 市场细分理论简介

市场细分理论是市场营销学中的重要概念,它强调目标用户的差异性,假设不同的用户特征不同、需求不同、行为不同、表现不同。

市场细分一般可通过地理归属、人口特征、行为、心理等开展,通过市场细分,可提升营销行为的针对性、营销方案的接受度、营销资源的使用效率。

电力市场上的目标用户是一个庞大的群体,对用户开展分析、营销、服务的过程中,必须遵循市场细分的原则,分别对待。

2.2 用户欠费风险预测中市场细分的必要性

在用户欠费风险预测中,初期,笔者并未对高压用户、低压非居民用户、低压居民用户3类用户分别建模,而是将客户类型作为一个分类变量纳入模型中。模型预测结果不甚理想。比如:在同参数水平下,模型查准率为58%,查全率为21%。同时圈定的高风险客户中,低压非居民客户占86%,与实际情况不符。

其次,从最终的模型结果来看,3类客户的预测模型中,入模变量均有一定差异,甚至部分变量的系数正负向也不一致。原因在于3类客户差异过大,在客户量、电费、欠费金额、欠费率、缴费行为等方面均有量级的差异。

2.3 电费回收现状分析

某省某县供电公司有30万电力用户,月应收电费约2亿元。欠费率,即产生滞纳金的用户占比约2.2%,这给电力公司的生产经营带来巨大的风险。

从市场细分的理论分析,电费拖欠呈现以下特点。

首先,每年春节期间,受“柔性催费”策略的影响,欠费率突增,比其它月份高1个百分点以上。

其次,高压用户、低压非居民用户、低压居民用户欠费率明显不同。前2类用户数量少,但欠费率普遍在10%以上;居民用户占总用户的85%以上,但欠费率仅在0.4%左右,欠费人数占总欠费用户的1/5。

第三,不同行业欠费率有明显差异。照明、纺织、印染等行业欠费率高,滞纳金占比高,反映出传统制造业经营状况不佳,电费违约风险大。

另外,城市与乡村用户、高压与低压用户、大用户与小用户、不同合同容量用户等多种维度上看,欠费率均有较大差异。

由于不同类型的用电用户的欠费率上有显著差异,在各个维度上的特征也有很大不同,经探索研究,如果对全部用户统一建模,预测结果准确性不高。故根据市场细分理论,从用户类型出发,对高压用户、低压非居民用户、低压居民分别建模。

本研究使用的分析工具为SAS9.2版本。

3 电费回收风险预测

3.1 高压用户电费回收风险预测

3.1.1 高压用户特征

高压用户与欠费有关的主要特征如下。

(1)高压用户主要缴费方式有:特约委托缴费,金融机构代扣,电力机构柜台收费,其中特约委托缴费占比超过50%。

(2)高压用户缴费日主要分布在出账单日后的10天内,2天内缴费业务量较大,5天内未缴费的用户欠费风险高。

(3)高压用户一般执行分次结算,违约金起算日与出账单日间隔较短,产生的电费违约金绝对值较大。

3.1.2 建模过程

(1)数据搜集。从业务经验出发,经过专家讨论,借鉴其它行业的成熟做法,诸如电信、银行、保险等,从营销业务系统、用电采集系统、95598用户服务系统等系统中提取数据,包括用户标识、姓名、用户类别、合同容量、城乡类别、立户日期、当前状态、行业分类、高耗能行业类别、负荷性质、电费通知方式、费控方式、抄表例日、用电量、电费金额、实收金额、应收违约金、实收违约金、付费方式等几十个变量。

(2)数据核查。获取数据以后,对清单数据的完整性(记录数是否与报表一致、字段是否缺失)、准确性(汇总值是否与报表一致、是否有异常值)、逻辑一致性等进行核查。

(3)构造变量。在原始变量的基础上,构建衍生变量。构建方法包括求和、平均值、方差、同比、环比、连续变量离散化等。比如:过去6个月停机次数、用电量环比变化、3个月用电量方差、回款时长、立户时长、电费单价、电费分段、缴费日分布、缴费间隔等。

(4)相关性分析。对“待建模”的变量,包括原始变量和衍生变量,进行相关性分析,衡量变量间的相关性。一般而言,相关系数>0.8时,2个变量高度相关,需要删除其中之一。经过相关性分析和经验判断,可删除一部分变量。

(5)单变量分析。在进行逻辑回归分析之前,一般需要对单变量进行分析,包括和因变量之间的相关性分析和卡方分析。以确定某一变量是否可用于建模,以及是否需要对该变量进行转化。步骤(5)与步骤(2)经常交叉同步进行。

以2014年7月—2015年6月欠费次数与2015 年7月是否欠费的关系为例,如图1所示。

图1 不同历史欠费次数用户的次月欠费率

分析图1可知,过去1年都没有发生欠费的用户次月欠费概率极低,而历史欠费次数越高,次月发生欠费的概率越高。

卡方分析,即使用单变量与因变量作回归分析,得到其卡方值。一般卡方值越大,说明该变量对因变量的预测显著性越高,反之越小。

经过单变量相关性分析和单变量卡方分析,进一步减少入模变量。

(6)回归分析。把经过步骤(4)、步骤(5)过滤的变量集合纳入回归方程,使用SAS的proc logistic程序步进行运算。

从3个变量开始,运用逐步回归法,分别计算3 到N个变量的回归方程的C值,选择C值最大的回归方程作为最优方程。

注:C值指ROC曲线以下的面积,一般而言,C值大于0.75时,认为回归方程有效。C值越大,回归方程越可靠。

确定回归变量后,代入逻辑回归方程,得出各变量的系数。最终确定的方程为

式中:X1为近12个月用户产生罚金的总次数,X1与欠费风险正相关;X2为近12个月用户在25日之后缴费的总次数,缴费越晚,欠费风险越高;X3为近12个月用户在20—25日之间缴费的总次数,由于高压用户一般需多次缴费,20—25号距离产生违约金的期限较长,故这段时间内缴费的用户欠费概率低;X4为近12个月用户逾期的总次数(逾期指缴费日距出账单日超过10天);X5为前一个月用户最后一次缴清费用前所缴的费用占应收费用的比重,由于高压用户一般需多次缴费,缴费进度越快,欠费概率越低;X6为近12个月用户缴清每笔应收电费的平均天数。

(7)结果检验。得到回归方程后,更重要的是对其预测准确性进行检测。一般使用时间平移验证的方法。即使用N月及N月之前的数据,对因变量在N+1,N+2,…的表现进行验证。采用2015年7月之前数据进行建模,验证效果如表1所示。

查全率与查准率是互斥的关系,一方提升另一方必然降低,可根据实际应用情况进行调整。

P值:P值的选择以实际应用为主,P值越大,预测准确率越高,但覆盖的目标用户过少,对整体欠费防控意义较小;P值越小,覆盖的目标用户越多,但准确率越低,欠费防控的工作难度越大。在本模型的应用中,选取P≥0.4为高风险标准,筛选约700户用于辅助实际电费催收工作。

表1 高压用户预测准确度(P≥0.4)

3.2 低压非居民用户电费回收风险预测

低压非居民用户具体建模和数据处理过程与高压用户类似,不再详述。

针对低压非居民用户建模,最终确定的方程为

式中:X1为近12个月用户产生罚金的总次数;X2为近12个月用户在25日之后缴费的总次数;X3为近12个月用户缴清每笔应收电费的平均天数;X4为近12个月用户逾期总次数,由于X4与X3正相关,2个变量的对欠费风险的综合影响为正向,而由于量级的差异,二者同时入模时,X4的系数呈负向;X5为用户是否近3个月连续逾期,低压居民连续3个月逾期用户极少,而高压用户逾期连续3个月逾期用户较多,这2类用户中X5显著性不高,X5仅在低压非居民用户中显著。

验证效果如表2所示。

表2 低压非居民用户预测准确度(P≥0.4)

3.3 低压居民用户电费回收风险预测

针对低压居民用户建模,最终确定的方程为

式中:X1为近12个月用户产生罚金的总次数;X2为近12个月用户在25日之后缴费的总次数;X3为近12个月用户在15—20日之间缴费的总次数;X4为近12个月用户在20—25日之间缴费的总次数;X5为近12个月用户缴清每笔应收电费的平均天数,X2、X3、X4与X5对欠费风险的综合影响为正向,而由于量级的差异,四者同时入模时,前3个变量的系数呈负向;X6为用户前一个月缴清费用距出账单日是否超过25天,用户缴费越晚,欠费风险越大;X7为用户前一个月抄表例日是否在3日之前,抄表例日在3日之前的用户,违约金起算日相对较早,欠费概率较高。

验证效果如表3所示。

表3 低压居民用户预测准确度(P≥0.5)

4 结束语与展望

(1)欠费风险模型的应用:聚焦高风险用户,提升催费的针对性。

目前,在电费的收取过程中,一般要开展提醒、通知、催缴3个环节。针对低风险用户,可以适当减少提醒、通知环节,降低催费频率,优先推广电子账单;重点针对高风险用户开展催收工作,提升催费的频率,比如:提醒短信由2天一次提高到1天一次。

(2)欠费风险模型的优化:首先,纳入更多变量,提升模型的预测能力。比如:在实际催收工作中,出租户电费回收风险明显较高,但“出租户”这个标签是缺失的,需要考虑如何建设该标签,完善客户基础信息;其次,优化模型的可理解性。尽管在统计学领域,逻辑回归是一个较为直观、易理解的模型,但对普通人而言仍然是一个黑箱。在后期的优化过程中,笔者考虑以评分表的模式对用户的风险进行评分,以便于理解。

[1] 郑文华.供电企业实施电费回收的措施及应注意的问题[J].电力技术经济,2009,3(6):59-63.

[2] 刘桂华.电费回收工作存在的问题及对策研究[J].湖南农机,2009,36(2):68-69.

[3] 赵瑞霞.电费回收中存在的问题及其对策[J].企业研究,2011,9(18):187-188.

[4] 王刚,吴菊平.电费回收风险预控管理探讨[J].经营者,2013(11):28-30.

[5] 舒文平,许新兰.电费回收工作存在的问题与对策[J].安徽电气工程职业技术学院学报,2008(4):83-87.

[6] 王娟.电费回收的策略与对策[J].价值工程,2011,30 (33):298.

[7] 王绵斌,谭忠富,张蓉.供电企业规避电费回收风险的用户信用评价方法[J].华东电力,2007,35(1):21-25.

[8] 刘一民.节能减排政策下电网企业收益风险管理研究[D].北京:华北电力大学,2012.

[9] 谷林峰.交纳电费信用等级评定与风险预警管理系统的研究与开发[D].长沙:湖南大学,2005.

[10] 刘小平.娄底电业局电费回收风险管理研究[D].长沙:中南大学,2010.

[11] 徐礼文.几类统计模型的估计和预测理论[D].北京:北京工业大学,2006.

[12] Jiawei Han,Micheling Kamber,Jian Pei.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2012:240.

[13] 李小晓.芝麻信用“摸石头过河”[J].新世纪周刊,2015(7):38-41.

Research on the risk prediction of electricity fee recovery using logistic regression based on the market segmentation theory

TU Ying1,LIN Shi⁃yong2,OUYANG Liu1,HUANG Jin2

(1.Zhejiang Electric Power Company,Hangzhou 310007,China;2.Leqing Electric Power Supply Company,Leqing 325600,China)

Based on large data theory,using data mining technology with the SAS software,we construct a model on the risk prediction of electricityfee recovery using logistic regression.More importantly,we construct separated models for high-voltage users,low-voltage non-family users and low-voltage family users based on the market segmentation theory.All the accuracy rates are satisfied,and provide data supporting to cut off the risk of electricity fee recovery and promote the rate of tariff recovery.

electricity cost recovery;logistic regression;market segmentation theory;risk prediction

2016-01-04;修回日期:2016-02-01

F407.61

B

10.3969/j.issn.1009-1831.2016.04.010

猜你喜欢
电费高压变量
基于ε-SVR模型的日电费回收预测
一种耐高压矩形电连接器结构设计
抓住不变量解题
也谈分离变量
反腐高压震慑!这些官员选择自首
浅谈电力企业电费账务管理工作
基于大用户电费回收的风险管控
2015年全国两会最高检、最高法2014年成绩单
1/8澳大利亚人付不起电费
分离变量法:常见的通性通法