数据挖掘技术在CRM中的应用研究

2012-08-06 12:52徐国庆段春梅
网络安全技术与应用 2012年12期
关键词:决策树盈利数据挖掘

徐国庆 段春梅

山东师范大学管理科学与工程学院 山东 250014

0 引言

面对信息时代巨大的客户信息量,企业急需一种信息分析技术对各种数据进行准确、有效的分析,数据挖掘技术就是这样一种技术。数据挖掘(Data Mining,DM),又称数据库中的知识发现(Knowledge Discovery in Database,KDD),是指从大型数据库或数据仓库中,通过知识发现活动,寻找关联规则、分类规则、周期性规律等主要类型的知识,提取有用信息的过程。数据挖掘技术为客户关系管理提供了强有力的技术保障。

1 典型的数据挖掘算法和过程

1.1 数据挖掘算法

(1) 最近邻算法:K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。最近邻算法主要用于分类。

(2) 关联规则算法:关联规则是数据挖掘的一种主要形式,关联规则主要以“如果……那么……”的形式描述,主要挖掘顾客同时购买两种或者多种产品的可能性,比如一条规则可以描述为“如果顾客购买了啤酒,那么他购买尿布的概率为85%”。

(3) 神经网络算法:神经网络一词来源于生物学,神经网络算法是从人工智能领域发展起来的,神经网络通过在计算机上运行的模式识别和机器学习算法的程序,在对大量历史数据库进行计算的基础上建立的预测模型。

(4) 决策树算法:决策树算法是在客户关系管理中应用最为广泛的算法之一,它被广泛应用于市场细分、客户细分、客户流失预测中。决策树是树形结构的预测模型,树的每一个分支都是一个分类问题,树叶是带有分类的数据分割。

(5) 遗传算法:遗传算法(Genetic Algorithm)是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法遗传算法(Genetic Algorithm)是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法。

1.2 CRM中的数据挖掘流程

CRM中的数据挖掘流程如图1所示。

图1 CRM中的数据挖掘流程

(1) 数据整理

由于企业所收集数据的来源和表示方法等的不同,使得数据杂乱无序,在进行数据挖掘之前必须先进行数据整理。数据整理主要包括四个子过程,即数据清理、数据集成、数据选择、数据变换。数据清理的目标是消除原始数据中的噪声和不一致的数据,使多种数据源可以组合在一起,并从数据库中检索分析与任务相关的数据,使数据变成统一或适合挖掘的形式。

(2) 数据挖掘

数据挖掘阶段是运用已经选定的数据挖掘方法对应经准备好的数据进行操作,从这些数据中提取有用的信息。

(3) 评估与表示

这一阶段分为模式评估与知识表示两个子过程。模式评估指根据某种兴趣度度量,识别知识表示的真正有趣的模式。知识表示指使用可视化和知识表示技术,向用户提供挖掘的知识。

2 应用实例

表1是客户的基本信息以及他们对应的对某企业产品每月的平均消费额度,下面我们将运用决策树算法进行客户盈利能力分析。

表1 初始客户基本信息

(1) 数据整理

为了方便操作,对数据进行如下操作(表2)。进行整理后得到的数据表3所示。

表2 客户信息分段

表3 整理后的客户基本信息

(2) 运用决策树算法进行数据挖掘

用决策树算法的关键点就是计算信息增益,寻找分支节点,计算信息增益的公式为:

其中Gain(A)表示属性A的信息增益,I(S1,S2,……Sm)表示描述结果的元素的期望信息,其中m表示属性取值的个数。上表中描述结果的属性试消费额度,即消费额度越高的表示客户越有价值,共有两个取值0、1,m取值2,S1=0,S2=1,E(A)表示属性A的期望信息。又有:

Pi为属性值i出现的频率,P1=5/8(1出现的频率),P2=3/8(0出现的频率),所以题目中的I(S1,S2)=-5/8log2(5/8)-3/8log2(3/8)=0.9544,再有:

其中I(S1j……Smj)的算法以属性性别为例,性别也有两个取值1和0,消费额度=1,性别=1,S11=3,同理可知S21=1,S12=2,S22=2,所以I(S11,S21)=I(3,1)=-3/4log2(3/4)-1/4log2(1/4)= 0.8112,I(S12,S22)=I(2,2)=1,所以E(性别)=4/8I(S11,S21)+4/8I(S12,S22)=0.9056,Gain(性别)=I(S1,S2)-E(性别)=0.9544-0.9056=0.0488。同理算出:

Gain(年龄)=0.2657

Gain(婚姻状况)=0.0157

Gain(收入)=0.5032

Gain(距离)=0.90565

根据信息增益值画出的决策树如图2所示。

图2 以距离为分支结点得到的决策树

按照上述方法最左右两表分别计算信息增益得到的决策树如图3、图4所示。

图3 决策树2

图4 最终生成的决策树

(3) 知识的评估与表示

分析结果表明:客户居住地与销售点的距离是决策树分支的最重要的因素,其次是年龄和收入。通过分析,得到6个细分群体的市场模型,它们分为两类,盈利能力较高的客户和盈利能力较低的客户。

根据预测模型中具有较高盈利能力的客户的特征,企业可以采取相应的措施,进一步提高此类客户的盈利能力;对于预测模型中盈利能力较低的客户。企业应该展开各种促销活动,吸引此类顾客,尽可能的提高他们的盈利能力(表4)。

表4 盈利能力分析的细分群

3 结束语

基于数据挖掘技术的CRM系统,能更好的利用客户信息,快速有效的获得有规律、有价值的知识,使企业实现高效的管理和经营。数据挖掘技术在CRM中的应用研究已经取得了许多成果,企业越来越意识到CRM的重要地位,数据挖掘技术也取得了蓬勃发展。但是许多研究依然只停留在理论阶段,缺乏实践,许多理论需要在实践中检验和完善。

[1] 陈安,陈宁.数据挖掘技术及应用[M].科学出版社.2006.

[2] 夏火松.数据仓库与数据挖掘技术[M].科学出版社.2004.

[3] 湛悦斌.基于数据仓库和数据挖掘的客户关系管理系统[J].2009.

[4] 李志玲.基于数据挖掘的客户关系管理研究[J].2010.

猜你喜欢
决策树盈利数据挖掘
农村电商怎么做才能盈利
探讨人工智能与数据挖掘发展趋势
一种针对不均衡数据集的SVM决策树算法
车市仅三成经销商盈利
决策树和随机森林方法在管理决策中的应用
不盈利的扩张都是徒劳
13年首次盈利,京东做对了什么?
基于并行计算的大数据挖掘在电网中的应用
基于决策树的出租车乘客出行目的识别
一种基于Hadoop的大数据挖掘云服务及应用