ID3数据挖掘方法及其在楼盘营销策略中的应用研究

2016-01-05 14:44赵安科
电脑知识与技术 2015年29期
关键词:决策树数据挖掘

赵安科

摘要:该文对数据挖掘技术及国内外研究现状进行了分析,详细介绍了ID3算法的基本思想以及决策树的生成过程,并以楼盘营销策略为例阐明了ID3方法在数据挖掘中的应用。相关结果对ID3算法在其他领域的应用也有较高的参考价值。

关键词:数据挖掘;ID3算法;决策树

中图分类号:TP301 文献标识码:A 文章编号:1009-3044(2015)29-0212-03

Research of ID3 Data Mining Method and its Application in Real Estate Marketing Strategy

ZHAO An-ke

(School of Computer Science, Xian Shiyou University, Xian 710065, China)

Abstract: This paper analyses research situation of data mining technology, detailed introducing underlying idea of ID3 and generate process of decision tree, taking real estate marketing strategy to illustrates the application of ID3 in data mining area. The result also has high referenced value for application of ID3 algorithm in other fields.

Key words: data mining; ID3 algorithm; decision tree

计算机是20世纪最先进的科学技术之一,对人类的生产和社会活动有着非常重要的影响。随着信息爆炸时代的到来,网络使得信息的采集、传输速度以及规模达到了前所未有的水平,实现了全球化的信息交互与共享。在市场需求不断剧增的情况下,以处理和传输技术为核心的技术浪潮,大大促进了信息技术的发展,人类的信息活动也越来越多的向数字形式转变,这导致了数字化信息的急剧增长。因此,怎样从海量数据里提取出有用信息是亟待解决的问题。为了满足这一需求,数据挖掘技术应运而生。

数据挖掘来源于机器学习。20世纪60年代开始了对机器学习的研究。第一届知识发现(KDD)国际会议于1989年8月在美国底特律召开,该会议首次提出了知识发现这个概念。此后,在加拿大召开了首届知识发现和数据挖掘国际会议。由于将数据库中的“数据”形象的比喻成矿床,因此“数据挖掘”一词流传开来。1993年以后,美国计算机协会(Association of Computing Machinery)每年都举办了专门的会议,对数据挖掘技术进行研究和探讨,简称为KDD会议[1]。通过数十年的努力,在数据挖掘领域已经取得了丰富地研究成果,很多软件公司已经成功的研制出了许多数据挖掘软件产品,且已在部分国家得到应用[2]。在国外,数据挖掘技术已在各个领域得到了广泛应用,如在天文学领域,研究出了能够发现遥远类星体的SKICAT系统,该系统是由加州理工学院喷气推进实验室与天文科学家合作开发的[3],这是人工智能(AI)技术在空间科学和天文学领域的首批成功应用之一;在生物学领域,使用数据挖掘技术分析DNA[4];在市场营销领域,采用数据挖掘技术对客户进行分析,从而识别顾客的购买行为[5];在金融领域,用以预测保险公司或银行可能出现的诈骗行为;在体育领域,IBM公司开发的Advanced Scout(AS)系统,可以根据NBA的比赛数据,来帮助运动员优化战术等[6]。

我国对知识发现和数据挖掘的研究比国外稍晚。目前,对数据挖掘的研究主要集中在高校,也有一些公司和研究所。他们大多是对数据挖掘理论、学习算法及其实际应用这些方面进行研究。目前,大部分研究项目是由政府资助的,如国家自然科学基金等[7]。国内的许多高等院校和科研单位也展开了知识发现的理论及应用研究,如北京系统工程研究所对模糊方法在知识发现中的应用展开了深入研究,北京大学对数据立方体代数展开了研究,复旦大学等对关联规则开采算法的优化和改进进行了研究,南京大学对非结构化数据的知识发现以及Web数据挖掘进行了研究[8]。

论文重点分析了ID3算法以及决策树的构建过程,并以楼盘营销策略的建立为例说明ID3算法在数据挖掘中的应用,相关结果对该算法在其他领域的应用也有较高的参考价值。

1 ID3算法

1.1 ID3算法基本思想

决策树是一种最常见的分类算法,包含有很多不同的变种,ID3算法是其中最简单的一种。ID3算法起源于概念学习系统,是一种贪心算法,它以信息论为基础,以信息熵的下降速度为选取属性的标准,从而实现对数据的归纳分类。其基本思想是,首先根据最有判别力的属性,把数据分成多个子集,每个子集中继续选择最有判别力的属性进行划分,直到所有子集仅包含相同类型的数据为止,最终得到一棵决策树,可用来对新的实例进行分类。

1.2 ID3决策树的构造原理

决策树的构造过程中最主要的部分就是信息熵和信息增益的计算。设S为训练集,有n个属性(特征),表示为(A1,A2,...,,An)。|S|表示例子总数。S中有i个类别。|Ui|表示Ui类例子数。特征Ak处有m个取值,分别为(V1,V2,...,Vm)。决策树的构造过程如下:

(1) 计算类别的信息熵。

(1)

其中p(Ui)=|Ui|/|S|。

(2) 选择作为决策树根节点的属性。

a. 对每个属性Ak(k=1,2,…,m),按照属性Ak的不同取值(V1,V2,...Vm),对训练集进行划分,计算出属性Ak下,关于U的平均不确定性:

(2)

b. 计算各属性的互信息量:

(3)

选择互信息最大的属性Ak作为决策树的根节点。互信息是不确定性的消除,选择的互信息越大,消除的不确定性也就越大。

(3) 把在Ak处取值相同的例子归于同一子集(分枝),Ak有几个取值就得到几个子集(分枝)。

(4) 对类别不单一的子集,递归调用建树算法,不断构造决策树的下一级,直至所有的样本子集(分枝)只有一个类别,这时表明决策树构造过程完毕。

2 ID3算法实例

利用决策树,通过分析楼盘的营销环境及影响消费者购买的因素,根据楼盘自身的特点,可以制定出科学合理的房地产营销策略。下面以某城市楼盘销售情况为例,具体说明如何应用ID3算法构建决策树,来分析该楼盘销售情况。某城市楼盘销售情况如表1所示[9]。

图1 ID3决策树

分析图1,可以大致明确该市房地产的销售情况,根据所了解的情况,营销商能够制定合理的销售方案,比如,对于面积中等的楼盘或偏远地段的楼盘,可以适当降低售价来获取更多的销售额。在制定房地产营销策略的过程中,根据环境、规模化的情况,灵活运用各种房地产营销手段,研究和掌握物业所处的地理位置及其周边环境,制定出科学、合理的营销策略,企业最终才能获得预期的利润。使用数据挖掘技术对楼盘的营销情况进行分析,能够使决策者更好地掌握市场动态,从而实现对企业的全面的信息化管理。

3 结论

ID3算法在商业智能中有极为重要的使用价值,能够帮助企业领导者针对市场变化的环境,做出快速、准确的决策。利用Quinlan的ID3算法能得出结点最少的决策树[10]。该算法利用互信息来选择结点属性,基础理论清晰,方法简单,是知识获取的一个有用工具,在机器学习和数据挖掘领域得到了广泛的应用。但在实际应用中如何对决策树进行优化,仍有许多问题需要探讨和研究。

参考文献:

[1] Stahl Frederic, Gabrys Bogdan, Gaber Mohamed Medhat, et.al. An overview of interactive visual data mining techniques for knowledge discovery[J]. Data Mining and Knowledge Discovery, 2013, 3(4):239-256.

[2] Fan Jianhua, Li Deyi. Overview of data mining and knowledge discovery[J]. Journal of Computer Science and Technology, 1998, 13(4):348-368.

[3] 孙超利. 数据挖掘决策树方法的研究与应用[D].南京:河海大学,2003:3-4.

[4] 陈娜. 数据挖掘技术的研究现状及发展方向[J].电脑与信息技术,2006,14(1):46-49.

[5] 郑继刚,王边疆. 数据挖掘研究的现状与发展趋势[J].红河学院学报,2010,8(2):45-46.

[6] 李菁菁,邵培基,黄亦潇. 数据挖掘在中国的现状和发展研究[J].管理工程学报,2004,18(3):10-15.

[7] 陈卓民. 数据挖掘技术在国内外的研究和发展现状[J].青年文学家,2009,8(16):122-123.

[8] 苏燕, 梁武. 基于Web数据挖掘的研究与应用[J].软件导刊,2014,13(1):131-132.

[9] 刘薇. 数据挖掘中决策树方法研究及其在房地产中介的应用[D].西安:西安电子科技大学,2006:54-55.

[10] 张伟. 数据挖掘中的ID3 算法研究与实现[J].软件导刊,2010,9(5):176-177.

猜你喜欢
决策树数据挖掘
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于改进决策树的故障诊断方法研究
基于并行计算的大数据挖掘在电网中的应用
基于决策树的出租车乘客出行目的识别
基于决策树的复杂电网多谐波源监管
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究