基于决策树的电信业客户流失分析

2010-08-15 00:43
赤峰学院学报·自然科学版 2010年12期
关键词:通话决策树数据挖掘

陈 捷

(杭州师范大学 国际服务工程学院,浙江 杭州 310012)

基于决策树的电信业客户流失分析

陈 捷

(杭州师范大学 国际服务工程学院,浙江 杭州 310012)

随着电信市场竞争加剧,如何降低客户流失率正成为国内各大运营商关注的问题.本文基于SPSS Clementine数据挖掘平台,详细描述了数据挖掘的各个过程,对商业理解、数据准备、建立模型等主要步骤进行了分析,采用C4.5决策树算法建立了客户流失预测模型.模型给出了客户的流失规则,并可预测在网客户在一定时间内流失的可能性,为市场人员制定挽留措施提供了决策依据.

客户流失;数据挖掘;决策树

1 引言

随着中国3 G牌照的发放,通信行业的竞争愈演愈烈,客户流失现象也成为电信运营商重点关注的问题.国外统计表明:发展一个新用户的费用是留住一个老客户的成本的4~5倍[1].因此,企业需要尽可能地预测并成功挽留那些用户价值和信用度较高的待流失客户.当前最有效的方法是采用基于严格数学计算的数据挖掘技术,其通过计算机对大量复杂的业务数据集进行自动探索性分析,可发现隐藏在数据背后的业务规则.现今,数据挖掘已经广泛应用于移动通信企业的市场销售工作中[2].

本文基于某电信公司数据仓库系统,根据已流失用户和在网用户的基本资料、账单、话务量等数据,通过数据挖掘中的决策树方法建立流失分析模型,并对有流失倾向的客户进行分类预测,为市场经营人员制定相应的挽留策略提供决策依据.本文以SPSS 公司的Clementine 12.0 为建模工具,严格按照CRISP-DM (cross-industry standard process for data mining,跨行业数据挖掘过程标准)逐步以商业理解、数据收集、数据准备、数据建模、模型评估、模型应用等步骤来实施此挖掘工程.

2 某电信公司客户流失分析实例

2.1 商业理解

电信行业中,客户流失是C R M(客户关系管理)中客户生命周期的最后一个阶段,一般可以分为两类:一类为自愿流失,指用户从本电信运营商转至它网运营商;另一类为非自愿流失,指电信企业出于客户欠费或不履行责任等原因而主动取消用户的服务[5].大多数的客户流失属于第一类.流失往往受到一种或多种因素的影响,例如客户心理偏好、住宅搬迁、竞争对手的优惠政策、电信企业的服务质量等.

本文主要关注自愿流失客户,特别是其中用户价值和信用度高的群体.结合业务现状,将流失客户定义为“欠费停机3个月以上的在网客户,以及主动退网客户”.实例来源于某电信公司C网客户.

2.2 数据收集与准备

结合业务经验,本文使用的流失分析数据包括客户的自然属性、通信消费、出账、历史投诉等信息.这些数据从账务系统、计费系统、客户关系管理系统、营业系统、财务系统等多个生产系统中采集、清洗并加载到企业已建立的数据仓库中.因此数据收集对本文并不是难点.从数据仓库中随机抽取了2010年6月份的1000 0名流失客户以及2000 0名非流失客户作为本次研究的样本.接着的数据准备工作是本文进行过程中的一个技术关键.

数据准备包括对数据的选择、缺失值处理、噪声数据平滑、数据集成变换、衍生变量的生成、离散化、抽样等,它需要对行业领域知识有较深的理解,是数据挖掘项目中花费时间最长的过程.本文采用Clementine直接对数据进行清洗与转换处理,抽象出与用户流失相关的属性.例如使用数据审核节点采用C&RT算法来归因或替换字段的缺失值.使用导出节点通过用户身份证号生成年龄字段和性别字段.原始的用户行为数据并不能直接反应用户流失前的异常变化,这需要通过导出节点归约出一些衍生指标,比如流失前3个月的月均各语音、短消息的消费比例、网间通话比例等.

通过对分析数据的调整和归约,将有助于提高其后的数据建模过程的精度和性能.经过上述处理,形成的客户流失属性表包含以下信息:

客户基本信息:年龄、性别、地区、职业、在网时长、产品结构、优惠套餐、付费方式等、流失状态;

流失前3个月的月均通话与消费数据:通话次数、长话次数、出账费用、市话费用比例、长话费用比例、短信费用比例、功能费用比例、通话次数、通话时长、网间通话比例、呼叫转移次数、投诉次数等.

2.3 数据建模

经过数据预处理后得到一个高质量的数据集合,为避免出现模型的过适应问题,从中随机选取2/3的数据作为训练集,2094 5条数据用于建立预测模型;剩余的9055条数据作为验证数据集,用于对模型性能进行评估.

从训练集中选择流失状态字段chur_stat作为用户流失预测模型中的目标字段,它由1和0两个值组成,1代表用户现在是流失状态,0代表用户现在非流失.在Clementine上运行C 4.5分类技术,通过归纳分析它们的特征来预测用户是否离网.

不断对预测模型进行调优(变换参数),选取最优参数设置来训练模型.最终得到客户流失决策树节点flag_active.浏览该节点可查看用户流失决策树,其中每一条路径代表一条分类规则,每条规则对应了一个叶子节点,给出该规则客户流失的数量和流失的概率.如标识为‘5’的叶子节点表示,在该客户群中流失的概率为21%,主要包括以下特征:

AVg_call_dur>1:月通话时大于1小时,

NET_dur>=2:在网时长不小于2年,

AVg_call_dms_rate>=0.11:长途通话比例不小于0.11.

标识为‘12’的叶子节点表示该客户群的流失概率为83%,它们的特征与表示为‘5’的群体的区别在于:

NET_dur<1:在网时长小于1年,

call_wj_rate>0.6:网间通话比例大于0.6,

call_divert_cnt>12:呼叫转移次数大于12次.

从决策树分析,每月的通话时长、在网时长、网间通话比例这三个因素是与用户流失相关的主要因素.通话时长指标反映用户主动使用手机通话意愿的强烈程度;在网越久的用户的忠诚度也越高;网间通话比例反映了中国电信与中国联通、中国移动用户之间的联系紧密程度,因为联通与移动都对网内通话给与一定的优惠,如果某客户群与中国移动用户的通话比例较高,那么该客户群的离网倾向也较高.

2.4 模型评估与应用

模型评估是运用Clementine的分析节点对已建立的客户流失预测模型进行精确性分析,评价指标为对未经分类处理的测试数据进行正确分类的准确率,即“预测正确率=正确预测个数/测试样本数×100%”.将在数据抽样过程中分离出的测试数据集输入客户流失预测模型,借助分析节点得到该模型的准确率为84.16%.

经验证评估后,使用Clementine的发布节点将流嵌入到运营商自己外部的应用软件中,如CRM、营销支撑系统等,可进行客户流失趋势的预测,通过预测某个客户流失的概率来评价发展用户的质量.

3 小结

决策树是一种重要的分类预测模型,本文以电信业的客户流失作为主题,依托某地电信公司的客户数据,基于C 4.5决策树算法构建了一个数据挖掘的模型,在遵循CRISP-DM标准的构建过程中所用到的理论、方法与策略同样也可适用于其它主题.在某电信公司中的应用结果表明,该模型可提供较准确的决策依据,市场部门能对流失倾向较高的客户群体采取针对性的挽留措施,并通过实际应用,不断地修正挖掘模型使其预测精度更高.

〔1〕周支立,刘斌.基于客户信息的电信企业客户流失问题分析[J].情报杂志,2003(12):98-99.

〔2〕汤小文,蔡庆生.数据挖掘在电信业中的应用[J].计算机工程,2004,30(6):36-37.

〔3〕Salvatore Ruggieri.Efficient C4.5[J].IEEE Transaction on Knowledge and Data Engineering,2002,14(2):438-444.

〔4〕Quinlan,J.R..Induction of Decision Trees.Machine Learning.1986(11).

〔5〕薛薇,王益锋,赵璋.基于客户细分的电信客户流失防范对策研究[J].经理理论研究,2007(4):48-50.

TP 181

A

1673-260X(2010)12-0079-02

猜你喜欢
通话决策树数据挖掘
探讨人工智能与数据挖掘发展趋势
一种针对不均衡数据集的SVM决策树算法
《戊戌元日与友人通话》
决策树和随机森林方法在管理决策中的应用
基于并行计算的大数据挖掘在电网中的应用
基于决策树的出租车乘客出行目的识别
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用
视频通话在煤矿井下的应用
2013年11月通信业主要指标完成情况(一)