机器学习算法在用户行为中的应用

2017-11-20 10:52王芳申贵成

电脑知识与技术 2017年26期

王芳+申贵成

摘要：机器学习是人工智能相关领域中与算法相关的一个子域，是解决人工智能问题的一个途径，它允许计算机不停的模拟人的思考方式进行学习，来发掘出隐藏在数据背后的模型，并能对不完全信息进行推理，来构造新事物。目前机器学习的应用主要集中在数据挖掘，计算机视觉，自然语言处理，模式识别，搜索引擎等。文中将机器学习中的算法决策树C4.5，随机森林，贝叶斯网络应用到电商用户行为数据的挖掘中，解决用户行为属性与用户收入水平的分类情况问题；通过三种算法对用户行为的研究，得出决策树C4.5算法在用户收入分类上要优于后两种。

关键词：机器学习；用户行为； C4.5算法；随机森林；贝叶斯网络

中图分类号：TP181 文献标识码：A 文章编号：1009-3044（2017）26-0180-03

Abstract：Machine learning is in the related fields of artificial intelligence related to the algorithm a child domain， is a way to solve the problem of artificial intelligence， it allows computer simulation human way of thinking in learning， to dig the hidden data model， and reasoning with incomplete information， and to construct the new things.The mainly concentrated in machine learning application are the data mining， computer vision， natural language processing， pattern recognition， search engines， etc. This paper， will be use the machine learning algorithm of decision tree C4.5， random forests and bayesian networks in electricity user's behavior data mining， solving the user behavior properties and classification of user levels of income；The study of user behavior through three algorithms， it is concluded that the decision tree C4.5 algorithm on user revenue classification is better than two.

Key words：Machine learning； user behavior； C4.5 algorithm；random forests；bayesian networks

1 概述

近年來，机器学习的研究得到了快速的发展；无论是从算法上还是应用上都是现在研究的热点。机器学习是随着人工智能的发展应运而生的，是人工智能的一部分，人工智能的概念源于20世纪50年代，由一批在当时享有盛誉的科学家提出（包括美国达特茅斯大学助教约翰.麦卡锡、哈佛大学马文.明斯基、IBM信息研究中心内森.罗切斯特和美国数学家，信息论创始人香农等），从二十世纪七十年代以来，和空间技术、能源技术并称为称为世界三大尖端技术；从1997年深蓝在人机挑战赛中首次战胜职业棋手到2016年AlphaGo战胜世界围棋冠军可谓是人工智能飞速发展的阶段，充分证明了人工智能的未来不可限量。人工智能的研究是从以“推理”为重点到以“知识”为重点，再到以“学习”为重点，一条自然、清晰的脉络。机器学习是实现人工智能的一个途径，即以机器学习为手段解决人工智能中的问题。在人工智能早期机器学习的技术几乎全部是符号学习，到了二十世纪九十年代统计机器学习已经取代了符号学习的地位，从最初的理论模型研究发展到了以解决现实生活中的实际问题为目的的应用研究中，这是科学研究的一大进步。机器学习在近30多年已发展为一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习所研究的是如何通过计算机的手段，利用经验来改善系统的自身性能，由经验来产生相应的算法模型，而产生算法模型的过程即为机器自动学习的过程。机器学习所要研究的也正是这些“学习算法”。学习算法的产生包括模拟人类思维学习的过程，对不完全信息进行推理的过程，构造发现新事物的过程以及针对目前比较潮流的大数据的处理的过程等等。目前机器学习所学习出的算法主要分为几类：有监督的学习算法，无监督的学习算法，以及半监督的学习算法。其中，监督学习分为‘回归和‘分类，回归是试图把输入变量和输出变量用一个连续函数来对应起来；分类是将输入变量与离散的类别对应起来。无监督学习是事先并不知道会出现什么结果，我们可以用聚类等的方式从数据中提取一个特殊结构，无监督学习中没有任何标签或者是只有同一种标签。半监督学习是监督学习和无监督学习相结合的学习方法，同时使用标记数据和未标记的数据来进行机器的学习工作，使用半监督学习可提高效率和学习的准确性，现在正受到越来越多机器学习研究者的关注。文中把电商用户的数据用到监督学习中的决策树算法，随机森林和贝叶斯网络算法上并用实验来验证算法的分类效果。

2 决策树C4.5和随机森林

决策树（decision tree）是机器学习中一种常见的学习方法，在分类、预测，规则提取方面取得了不错的效果，树形结构包括根节点，分枝和叶节点三个部分，其中根节点也是决策节点，通常代表的是数据集中待分类样本的某个属性，分枝是根节点的不同取值，叶节点是一种可能的分类结果。决策树算法通过将训练集划分为较纯的子集，再以递归的方式建立决策树。决策树算法有多种使用最广泛的是C4.5算法，能够处理连续性和离散型的属性数据，也能够处理具有缺失值的数据集。随机森林算法是决策树算法的扩展，是一种集成学习算法其原理是以决策树算法为基础，加入随机属性选择。文中以C4.5算法原理来详述决策树生成过程。endprint

对于连续型的属性数据，C4.5算法的处理是按属性取值递增的顺序，将每对相邻值的中点看作可能的分裂点，根据分裂点划分的左右两部分子集的信息熵求属性划分数据集信息熵最小的值作为属性的最佳分裂点，并把最小的信息熵值作为属性划分数据集的信息熵，进行后面信息增益等的计算。目前，C4.5算法在保险客户流失分析[2]，高校教学决策支持以及网络入侵检测，流量分类[3]等中取得了不错的效果。

随机森林（Random Forest，RF）是集成学习中Bagging的一个扩展变体，以决策树为基学习器构建Bagging集成，并在决策树的训练过程中引入了随机属性选择[4]，分类的结果由个别树分类结果来定。因其在数据集上的表现较好，能够处理高维数据集，训练速度快，实现简单，在训练过程中能够检测到特征间的影响关系等而受到众多机器学习研究者的重视。

3 贝叶斯网络

贝叶斯网络起源于20世纪80年代中后期对人工智能不确定性的研究，自20世纪80 年代开始贝叶斯网络已经应用于专家系统，用于表示不确定知识和推理问题。如由贝叶斯理论发展出的PATHFINDER网络的四个医疗诊断的版本[5]，通过计算疾病变量的后验概率，推断诊断结果，表明贝叶斯网要优于朴素贝叶斯模型；同样陆金宝[6]等对老年人肾虚的研究结果也是一样；早在1986年Adams ID[7]等人就通过多通道的贝叶斯网来确定了计算机系统的故障出处；文献[8]则从水资源管理等方面表明了贝叶斯网络的良好应用。随着数据库规模的不断扩大，贝叶斯网络逐渐开始应用于大规模数据库的数据挖掘和知识发现[9]，从而为决策支持提供了更强有力的手段，贝叶斯网络已经成为数据库知识发现和决策支持系统的有效方法之一。

贝叶斯网络提供了一种用图形模型来捕捉特定领域的先验知识的方法，可以对变量间的依赖关系进行编码；一旦网络结构确定下来，添加新变量比较容易；可以处理不完整的数据，对有属性遗漏的实例可以通过对该属性所有可能取值的概率进行求和或求积分来加以处理；因为数据和先验知识以概率的方式结合起来，所以对模型的过度拟合问题是非常鲁棒的。

文中采用的测试策略是使用训练集和十折交叉验证的方法，使用训练集的方法把训练集直接用于測试；十折交叉验证将数据集分为十等份，将其中一份进行测试，来输出结果。

对数据集的输出收入分类，从结果看出当选用训练集时得出随机森林算法分类效果较好，准确率达到100%，用贝叶斯网络的分类效果并不好，且贝叶斯网络的结构只用两层；用十字验证的方法进行数据的测试得出决策树C4.5算法的分类效果较好，正确分类达到54.33%，其中树的size是74，叶子的数量是53；综上，当用训练集测试时随机森林的分类效果较好，当用十折验证时C4.5算法的分类效果较好。根据各个算法的分类结果显示，婚姻状况属性对用户月收入水平影响较大，其次是购买的品类的影响。

5 结论与展望

文中用机器学习中的决策树C4.5算法、随机森林和贝叶斯网络算法对获得的电商购买商品的用户的数据在软件weka上进行了数据实验，文中样本分类学习算法是监督学习算法，且以收入为标签，实验结果表明，在用训练集进行测试时，随机森林的分类准确率较高，但是由于测试本身是训练集的缘故，过拟合现象会比较严重，且用交叉验证时效果要劣于C4.5算法，所以得出C4.5算法在此样本的分类效果相对较好，得出的树形结构显示婚姻状况对收入的分类影响是最大的。

由于文中所用数据集属性虽然较多，但是样本的数量相对较少，不能充分证明结果的准确性和各属性对输出的影响关系，后期尝试用机器学习的boost算法等对较大规模的数据进行分类验证，以期取得较好的效果。

参考文献：

[1] 袁梅宇.数据挖掘与机器学习WEKA应用技术与实践[M].北京：清华大学出版社，2016.

[2] 王振武，徐慧.数据挖掘算法原理与实现[M].北京：清华大学出版社，2015.

[3] 徐鹏，林森.基于C4.5的流量分类方法[J].软件学报，2009（10）：2692-2703.

[4] 张连文，郭海鹏.贝叶斯网引论[M].北京：科学出版社，2006.

[5] 周志华.机器学习[M].北京：清华大学出版社，2016.

[6] 陆金宝，周如倩，刘仁人.老年人肾虚及其证例的调查研究[J].上海中医药大学学报，2002.

[7] Adams I D，Chan M ，Clifford P C，et al. Computer aided diagnosis of acute abdominal pain： a multicenter study[J].British Medical Journal，1986，293（6550）：800-804.

[8] Batchelor C，Cain J.Application of belief networks to water management studies [J]. Agricultural water management，1999，40（1）：51-57.

[9] 高磊，刘乐平，卢志义.大数据背景下贝叶斯模型平均的理论突破与应用前景[J].统计理论与信息论坛，2016，6（30）：14-22.

[10] 胡春玲.贝叶斯网络结构学习及其应用研究[D].安徽：合肥工业大学， 2001.endprint