基于决策树技术的数据挖掘的应用

2017-06-03 03:55吕新颖
电子技术与软件工程 2017年9期
关键词:决策树数据挖掘分类

摘 要数据挖掘技术对于处理还有大量数据的数据集具有十分重要的作用,而对于数据的分类中,我们常常使用决策树分类法。该方法被广泛用于处理数据的分类问题.决策树分类法在我们的生产、生活、学习等数据挖掘中具有十分重要的作用,它是数据挖掘中进行预测和分类研究的主要技术。

【关键词】数据挖掘 决策树 分类

数据挖掘中的分类任务主要是为了确定对象属于哪个预定义的目标类。在我们的日常生活中,这一问题普遍存在,例如我们会根据需要来检查接受到的电子邮件是否为垃圾邮件。在数据挖掘中的所有分类方法里,决策树分类法是一种最为简单且被广泛使用的分类方法。

1 决策树分类法的工作原理

决策树是一种由结点和有向边组成的层次结构,它主要有根节点、内部结点和叶结点构成。当我们分析一个分类实例时可以先去建立一个决策树,根据决策树分类,从决策树的根节点开始,将测试的条件用于记录的检验,根据测试结果选择相应的分支到达另一个内部节点,经过一个新的选择条件或者选择相应的分支到达一个叶节点。最终都会到达一个叶节点,这一叶节点的类别即为被赋值给此检验记录的。

2 决策树的建立过程

人们开发了一些决策树构造算法,主要采用的是贪吃算法的思想,利用局部最优的方法来建立决策树。算法分为两步,第一步,决策树的生成过程。第二步,决策树的剪枝,如图1所示。

3 决策树构造算法

(1)导入决策树构造过程中所需要的函数库;

(2)查看需要构造决策树的源数据;

(3)通过rpart函数构造一个决策树;

(4)查看决策树的一些具体的信息和内容;

(5)绘制出决策树图;

(6)对决策树进行适当的剪枝,防止过拟合,使得树能够较好地反映数据内在的规律并在实际应用中有意义;

(7)对剪枝后的决策树图进行绘制,得到最终的决策树,对其进行相应分析和研究。

4 决策树技术在职业院校学生的成绩分析中的研究与应用

4.1 决策树技术在职业院校学生的成绩分析中的研究与应用的意义

现如今,国家开始越来越重视职业教育,各个职业院校开始不断的扩大招生的规模,越来越多的学生开始选择进入职业院校去学习一门扎实的技术。这些改变不仅了影响了传统的招生模式,也影响了教师对学生的成绩的评定方法。对于职业院校的学生的成绩并不能单纯通过考试的分数来评定学生的学习水平,而是要综合考量学生的知识和技能水平。不少职业院校开始使用数据挖掘技术分析学生的学习成绩,这不仅可以对学生的学业水平做出更科学的评定,而且对提高教学管理水平起到了很好的指导作用。

4.2 决策树技术在职业院校学生的成绩分析中的研究与应用的过程

4.2.1 确定数据挖掘的对象及挖掘的目标

本文对数据挖掘中的分类技术的研究,利用的是某校动画设计班的Flash动画制作课程的期末考试成绩。通过决策树技术,找到对于学生成绩的主要影响要素,对教师的教学及学校的管理提供相应的帮助。

4.2.2 数据的收集与预处理

我们将所要使用的数据进行收集和整理,其中包括了20名学生的学号、出勤情况、上机作业的完成情况、成绩、试卷难易、兴趣。部分数据如表1所示。

4.2.3 算法的选定

通过分析成绩数据的特点,此次研究我们将采用决策树技术中的ID3算法来建立决策树。

第一步,计算熵

任课教师对学生的成绩评定结果中等级为A的共有8人,等级为B的共有7人,等级为C的共有5人。我们把样本数据S记为S1=8,S2=7,S3=5,计算熵。

Info(S)==0.469

第二步,计算信息增益

学生的出勤情况中,出勤较好等级为A的有7名同学,其中有5个测试成绩为A,2个为B;出勤为B的有10个同学,其中有3个成绩为A,5个成绩为B,2个成绩为C;出勤为C的有3个,成绩均为C。计算熵:

Info(A)=0.26

Info(B)==0.447

Info(S)==0

计算增益:

Gain(出勤)=Info(S)-(7/20)*Info(A)-(10/20)*Info(B)-(3/20)*Info(C)=0.15

以上机作业作为根的决策树的熵和增益:

Info(A)=0.26

Info(B)==0.47

Info(C)=0.29

Gain(上机作业)=Info(S)-(7/20)*Info(A)-(8/20)*Info(B)-(5/20)*Info(C)=0.118

以学生对于试卷难度的评定为根节点时:

Info(高)==0.47

Info(中)==0.45

Info(低)=0.3

Gain(试卷难度)=Info(S)-(7/20)*Info(高)-(11/20)*Info(中)-(2/20)*Info(低)=0.027

以学生兴趣作为根节点时:

Info(感兴趣)==0.37

Info(一般)==0.42

Info(不感兴趣)=0.24

Gain(兴趣)=Info(S)-(9/20)*Info(感兴趣)-(7/20)*Info(一般)-(4/20)*Info(不感兴趣)=0.11

比较上述属性的增益值,我们可以得到出勤的增益最大,按照增益最大的原则我们把该结点作为根节点,并且有三个分支,然后再对其他子树进行递归计算,即可得到下中的決策树,如图2所示。

5 总结

观察决策树,我们可以发现,影响学生成绩的最主要因素是学生的上课出勤情况,其次是上机作业的完成情况。上课出勤情况好,上机作业完成好的学生,考试成绩均较高。因此任课教师和学校的管理部门,在以后的教学过程中应该主要去抓学生的出勤和上机作业的完成以提高学生的学习成绩和操作技能。

参考文献

[1]袁琴琴.基于决策树算法的改进与应用[D].西安:长安大学,2006.

[2]曲开设.ID3算法的一种改进算法[J].计算机工程与应用,2003.

作者简介

吕新颖,女,河北省秦皇岛市人。现为西华师范大学计算机学院研究生在读。

作者单位

西华师范大学计算机学院 四川省南充市 637002

猜你喜欢
决策树数据挖掘分类
分类算一算
一种针对不均衡数据集的SVM决策树算法
分类讨论求坐标
决策树和随机森林方法在管理决策中的应用
数据分析中的分类讨论
基于并行计算的大数据挖掘在电网中的应用
基于决策树的出租车乘客出行目的识别
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用
基于GPGPU的离散数据挖掘研究