基于C4.5算法分类器的电力客户信用评级模型研究*

2016-01-27 02:08丁浩
通化师范学院学报 2015年12期
关键词:评级指标体系信用



基于C4.5算法分类器的电力客户信用评级模型研究*

丁浩

(安徽工商职业学院,安徽 合肥231131)

摘要:电力客户巨额欠费是电力公司面临的一个难题,该文采用C4.5算法分类器对电力系统客户进行信用评级.从电力系统大规模的缴费数据中提取训练样本,利用C4.5算法进行学习得到分类规则,然后将这些规则应用于用电客户的信誉评级,从而更好地管理客户缴费行为,为电力系统的管理运营提供数据支持.实验结果表明,对于不同的指标体系和不同的分类样本,都可以获得较好的分类效果.

关键词:C4.5算法;决策树;电力客户;信用评级

电力产品作为一种商品,具有其独有的特殊性:其生产、输送到最终消费都在瞬间完成,不可储存.这就决定了电力产品的销售主要是以“先使用后付费”的方式进行,电费的安全及时回收是供电企业保证正常经营的前提,同时电费也是电力基础设施建设维护的主要资金来源.供电企业为确保其自身的正常经营和持续发展,当然更倾向于将电力商品销售给需要用电又讲信用的客户,希望用电者都能按时缴纳电费.但现实中却并不是这样,由于“信用缺失”,有些客户用电后故意拖延缴费、逃避缴费,这必然导致供电企业电费回收工作非常艰难,给电力企业带来很大的经营风险.近年来,电力公司为解决拖欠电费问题付出了很大的努力,但实际效果却并不乐观.

为了彻底扭转这种局面,有效降低电力企业的经营风险,实现可持续发展,我们必须采取科学的管理方法和高科技的手段来解决电力企业目前存在的上述问题.因而,如何对用电客户的信用等级进行评估并对其信用风险进行有效管控,就成为供电企业降低经营风险、提高经营管理水平所必须解决的问题.如果能掌握电力客户的信用状况,对有欠费迹象或出现问题的电力客户事先及时采取措施,就能大大减少电力公司的经营风险及经济损失.

1C4.5算法简介

从本质上看,对电力系统客户进行信用评级就是一个分类问题.随着市场竞争的日趋激烈及计算机技术的飞速发展,越来越多的分类方法被应用到信用评级领域.数据挖掘中常用的分类方法有决策树分类法、神经网络分类法和贝叶斯分类法等.决策树(Decision Tree,DC)分类法又称概率分析决策法,是一种以数据集为基础,从一组无次序、无规则的样本数据中推理出分类规则的归纳学习算法.该算法能够完整地显示出决策问题在不同阶段上的详细的决策过程,逻辑清晰,层次分明,形象直观,用图形表示出来很像一棵树[1].例如,图1就是一个简单的决策树模型.该示意图描述了一个客户是否会按时缴纳电费的分类模型,利用它可以对一个电力客户是否可能欠费进行分类预测.

图1 决策树模型

C4.5算法是一种非常经典的分类算法,属于决策树算法的一种,是由Quinlan提出.C4.5算法是在ID3算法的基础上做出了重大改进之后而形成的一种很好的分类算法.相对于ID3算法,C4.5算法在改进之后有如下优点:[2]

(1)提高了算法的准确率.C4.5算法的最大改进就是采用信息增率代替信息增益来选择属性,从而可以避免那些样本数量多但却对分类贡献少的属性作为根节点.

(2)提高了算法的效率.该算法对决策树进行前剪枝,发现异常数据可以及时处理,不用等到树建好后再去对其剪枝.

(3)大大拓展了应用的范围.C4.5算法能够对连续数据进行离散化,从而不仅可以处理离散型数据,而且可以处理连续型数据.此外,对有缺失的数据,C4.5算法依然能够进行有效的处理.因而C4.5算法被广泛应用于各个领域.

2电力客户信用评级模型的设计

从当前供电企业实际的业务背景出发,围绕电力客户信用评价的功能目标,深入探讨电力客户信用评价的组成和影响客户信用状况的因素.在此基础上,选取评价指标、确定指标权重,从而设计出电力客户信用评价的指标体系,并制定信用等级评估标准.

传统的信用评估方法主要包括5C评估法和综合评估法.在使用综合评估法对电力客户进行信用评级时,在一些环节上会遇到要素难以量化的问题,对此我们不能仅依靠评级人员“艺术地去把握”.为了淡化主观因素,我们主要从指标的选取和指标权重设置这两个关键环节来考虑对综合评估法加以改进和完善.

指标选取就是研究确定用哪些指标来对电力客户的信用进行评估,指标权重是指在整个信用评估的指标体系中,各项评估指标所占有的比重.目前,在大多数国内的信用评估中,指标的选取及指标权重的设置还都是采用Delphi法,也称为专家咨询法,本质上就是一种主观、定性的方法,因而主观因素在所难免.我们可以运用数据挖掘技术、数理统计方法等来进行相关的处理,比如进行指标间的相关性分析、制衡性分析,对定性指标进行定量考察,对不同计量单位指标进行同度量处理等,从而使得指标选取和指标权重设置更加科学合理.确保这种价值判断的客观性,淡化可能带有的主观色彩,达到对客户的信用水平进行客观公正地测量的目的.[3]

建立电力客户信用评级指标体系应该包括以下三个方面的内容:确定各级指标;确定各个指标的权重;确定计分方法和评分标准.

结合信用管理行业特点并针对电力行业的现状,我们建立如下指标体系:把环境、道德和能力三个方面作为一级评价指标,并进一步选取以下12个二级指标,即缴费的及时性、有无卡表、缴费的性质、经济状况、补缴情况、社会信用、前一季度评价、有无违规用电、预交情况、用电量的波动、有无陈欠及有无用电.

确定了指标体系以后,接下来以定性分析与定量计算相结合的方式,采用一种层次权重决策分析方法(简称层次分析法,AHP)来设定指标权重.[3]

由于计算出的指标权重均小于1,不符合打分时一般使用百分制(满分为100分)的习惯,为便于打分,可通过乘以100将权重比例转换为权数.对于定性指标要量化处理,可以依据指标分析结果的不同情况相应地设置得分.得出每一个客户指标分值后再相加,就可得到客户信用评估的总分.然后按总分高低划分客户信用等级,采用国际通用的“四等十级制”(见表1).等级越高,表明该客户信用越好,反之等级越低,信用越差.

表1客户信用等级评定标准

通常,B级以下都会被看成“垃圾等级”.为了简化模型,本系统实际采用了六级分类标准,即AAA,AA,A,B,C,D.

3基于C4.5算法分类器的电力客户信用评级建模过程

根据需求可知,所创建的模型最后要能够预测客户的信用等级,因此,这个模型本质上就是一个分类器,利用它可以把数据库当中的数据项映射到给定类别当中.可以将系统大致分成以下几个部分:建模数据集的选取、模型创建、模型验证、模型预测、模型评价,由此设计系统逻辑模型如图2所示.[4]

图2 系统逻辑模型

(1)建模数据集的选取.选择具有代表性的数据集进行建模,对于生成模型的准确率至关重要.在预分类数据中,各种因果联系是已知的这部分事先已知的例子会教给模型有关数据的信息,因此,这部分数据也称为模型集.通过从客户信息中,按照电力客户信用风险评定指标体系,生成符合要求的数据集,从生成数据集中选取一部分作为建模数据集.

(2)训练集和测试集的选取.到目前为止,数据挖掘中关于训练和测试集的选取还是一个有待进一步研究的问题.当前比较通用的是n次交叉验证法(见图3),即将数据集分为n个子集D1,D2,…,Dn,每个子集的数据量大致相当,对数据集的训练和测试都重复n次,在第k次重复时,子集Sk作为测试集,余下的n-1个子集作训练集.如此重复n次,最终的预测准确度是n次的平均值.目前,公认的是10次交叉验证.[5]

图3 n次交叉验证示意图

(3)预测模型的生成.电力客户信用评级建模,就是通过利用电力企业已经掌握的现有客户数据进行训练和测试,最终达到可以对新的数据进行预测的目标.经过不断的循环测试,最终生成较为满意的预测模型(见图4).

图4 生成的预测模型

(4)模型的评价.利用C4.5算法生成预测模型会受到多方面因素的影响,比如训练数据的多少,训练属性的波动等.下文用三个模型加以比较说明.

表2基于C4.5算法模型A的评价指标和结果(打√的为指标)

表3 基于C4.5算法模型B的评价指标和结果(打√的为指标)

表2显示的是使用所有的指标体系对电力客户进行等级评定,所得到的模型A在不同数据样本下模型的准确率.表3显示的是使用部分的指标体系对电力客户进行等级评定,所得到的模型B在不同数据样本下模型的准确率(见图5).

图5 不同指标体系下基于C4.5算法分类器的信用评级模型

表2和表3的实验结果表明:模型A和模型B两者都具有较高的准确率,能够很好地应用于对电力客户进行信用评价.模型A和模型B的比较分析可以看出,经济状况、用电量波动和有无用电这些指标对电力客户信用评价影响较小,并不能反映电力客户信用,反而对信用评价的准确率有干扰.

表4基于C4.5算法样本数相同情况下的评价指标和结果

(打√的为指标)

表4的实验结果表明,评价指标的选择对于预测的准确度有很大影响,而其中前三个月的评价、缴费及时性和有无卡表对预测的准确率影响较大.

这充分说明我们所选择的指标体系乃至整个系统的设计都是非常科学的.

4总结与展望

总之,采用科学的方法和技术对电力客户进行

信用等级评估,可以安全及时地回收客户的电费和其它应收账款,是供电企业内部挖潜、提高效益的有效手段,是供电企业立足市场,提高效益的前提,也是供电企业健康发展的基础.通过对电力客户信用等级的评定,可以对一些客户进行欠费的预测,为防范和处理用电客户恶意拖欠或拒交电费的工作提供科学依据和决策指导.电力系统必须实施客户信用风险管理,信用评级必须运用于实践,并逐步完善评价内容和程序,以提高科学性和效率,形成常态机制,建立起适合中国电力市场特点的电力系统信用评价体系.

参考文献:

[1](加)Jiawei Han MichelineKamber.数据挖掘概念与技术(第二版)[M].范明,孟小峰,等译.北京:机械工业出版社,2001.

[2]Chye K H,Chin T W,Peng G C.Creditscoring using data mining techniques[J].Singapore M anagementReview,2004,26(2):26-47.

[3]孙瑞丽.基于因子分析与聚类分析的我国传媒类上市公司信用评级模型[J].科技视界,2014(06).

[4]Pawan L.Interval set clustering of web users with rough K-Means.Journal ofIntelligent Information System,2004,23(1):15-16.

[5]Jae H.M,Yang-chan L.Bankruptcy prediction using support vector machinewith optimal choice of kernel function parameters.Expert Systems withApplications,2006,28(2):603-614.

(责任编辑:王前)

Study on Credit Evaluation Models for Power Clients Based on C4.5 Classification Algorithm

DING Hao

(AnhuiBusinessVocationalCollege,Hefei,Anhui231131,China)

Abstract:In this paper, C4.5 classification algorithm is used for evaluating the credits of power clients so as to resolving the problem of huge arrearages from clients. Firstly, the specimen extracted from massive bill data of power system to acquire the principles of classification is studied. Then, the rule is applied to evaluate the credits of power clients for further managing their paying behaviors and providing the data support for the management of power system. The experimental result indicates that preferable effect of classification can be obtained in various index systems and different specimens.

Keywords:C4.5 algorithm;Decision tree;Power client; Credit Evaluation

中图分类号:TP274

文献标志码:A

文章编号:1008-7974(2015)06-0007-04

作者简介:丁浩,男,安徽泗县人,讲师.

基金项目:国家自然科学基金面上项目“基于灵敏性分析和隐因素发现的复杂系统脆弱性演化机制研究”(61175051)

收稿日期:*2015-07-25

DOI:10.13877/j.cnki.cn22-1284.2015.12.003

猜你喜欢
评级指标体系信用
2022城市商业魅力指标体系
网络空间攻防对联合作战体系支援度评估指标体系构建
信用收缩是否结束
层次分析法在生态系统健康评价指标体系中的应用
供给侧改革指标体系初探
信用中国网
信用中国网
分析师最新给予买入评级的公司
信用消费有多爽?
创投概念股评级一览表