数据挖掘在大学生综合素质测评中的应用

2010-10-20 07:27马耀兰

赤峰学院学报·自然科学版 2010年12期

关键词：信息熵决策树数据挖掘

马耀兰

（北方民族大学信息与计算科学学院，宁夏银川 750021）

数据挖掘在大学生综合素质测评中的应用

马耀兰

（北方民族大学信息与计算科学学院，宁夏银川 750021）

讨论了数据挖掘中决策树算法的原理及其模型的建立过程,并把它应用到高校的大学生综合素质测评中,借助计算机对综合素质测评信息进行挖掘,所获取的知识对指导今后的教学和学生工作有重要意义.实验仿真结果表明该模型能够很好的实现预期的分类效果.

数据挖掘；决策树；综合素质

1 引言

当今世界各国经济、科技竞争归根到底是人才的竞争，培养高素质人才已是一项战略性任务.因此，高等院校理当成为培养高素质创造型人才的重地.高素质人才要求在政治思想、科技文化、综合能力素质等各方面有突出表现.大学生评先树优作为鼓励先进、树立榜样的主要激励措施，在培养全面发展的人才工程中发挥着重要作用.怎样客观、正确地评估和衡量学生的发展状况和综合素质，其方法如何，以及如何体现先进的管理思想和理念，已经成为一个值得探讨的重要课题.本文把数据挖掘中的决策树算法用于大学生综合素质信息分析中,通过实例验证决策树算法具有较高的分类精度,它为信息社会的高校学生工作提供了一种全新的思路和方法.

2 原理与方法

2.1 决策树概述

决策树方法是通过确定一系列的if-then的逻辑 (分枝)关系,从一组无秩序、无规则的事例中推理出一套分层规则,将所有可能发生的结局的概率分布用树形图表达,生成决策树,从而达到对研究对象进行精确预测或正确分类的目的.决策树是一个类似于流程图的树结构,树结构中的每个内部节点代表一个属性上的测试,每个分枝代表一个测试输出,每个树叶节点代表一个类,所以从决策树的根到叶结点的一条路径就对应着一条取舍规则,整棵决策树就对应着一组析取表达式规则,因此能通过目标变量预测属性变量.

2.2 决策树算法的理论基础

为导出结构简单的决策树,可以以信息增益（Information Gain）、信息熵(Entropy)等为判据,选择判定属性.信息增益方法基于信息熵原理，信息熵是对信息混乱程度的一种度量.一般来说，信息如果是均匀的混合分布，则信息熵就高.若信息呈一致性分布，则信息熵就低.在决策树中，“信息”由类标签表示，即若数据子集中类别混合均匀分布，则信息熵较高.若类别单一分布，则信息熵较低.通过比较每个属性形成划分的前后信息熵的变化，选择使得信息熵朝最小的方向变化的属性，就能使得决策树迅速地达到叶节点，从而能构造紧凑的决策树.具体来说，对每个数据集或数据子集，信息熵可以定义为

式（1）中，c是数据集/子集Dj中决策类的个数，pi是第i个决策类在D中的比例.

对于任一个属性，将数据集划分为多个数据子集，则该属性的信息增益为未进行划分时的数据集的信息熵与划分后数据子集的信息熵加权和的差，即

式（2）中，A是候选属性，k是该属性的分支数；D是未使用A进行划分时的数据集，Dj是由A划分而成的子数据集；|·|代表数据集的实例个数.

在所有属性中，具有最大Gain(A)的属性被选为当前进行划分的结点.

属性A的信息增益比率为

2.3 规则提取

对于生成的决策树,可以直接从中提取规则.此过程是将决策树转化成比较直观的规则形式,可以更好地理解分类结果.分类规则是用if-then形式表示,每条规则都是一条从根到叶节点的路径,叶结点表示具体的结论,而叶结点以上的结点及其边表示的相应条件的条件取值.

3 具体实施

3.1 数据准备和预处理

本文以某高校综合素质问卷调查所收集的信息为数据依据,应用数据挖掘中的决策树算法对大学生综合素质信息建立分类模型,相关属性包括：性别、民族、专业、政治面貌、是否独生子女、家住地区、英语水平、综合素质等28个属性.

对以上收集的样本数据，经预处理（如噪声数据的处理及冗余数据的处理）以后，我们为每个字段进行编号,并且将字段的每个取值转化为“字母+数字”形式的示意字符串存储于计算机之中,最终得到的用于建模的样本数据集合相关信息如表1所示.

3.2 结果分析

表1 经过处理后的样本数据集合字段信息

本文采用数据挖掘软件SPSSC lementine12.0进行决策树模型的构建,在决策树的构建中,有关C 5.0的模型参数均采用默认设置,本次C 5.0 算法生成的决策树（见图1）如下:

图1 综合素质测评的决策树图

决策树模型的好坏是由其精度评价的，因此我们还分析了预测模型来评估它们产生精确预测值的能力,即在预测值和实际值之间的比较,结果如表2所示.

表2 预测值与实际值的比较分析

由表2可知,300名同学中，实际有140名同学综合素质好,积极进取,模型预测准确了100名,即综合素质好,积极进取的预测正确率达71.43%.实际有140名同学综合素质虽有不足,但仍具有积极进取意识,模型预测准确了130名，即综合素质虽有不足,但仍具有积极进取意识的预测正确率为92.86%.实际有20名同学综合素质一般,进取意识不强,模型预测准确了20名，预测正确率达到100%.由此可以看出,决策树的分类的精度较高.

结论：将决策树算法应用到大学生综合素质测评中,具有很好的效果.当然,还有很多不足之处,还需要改进.

〔1〕Han J,Kamber M.Data Mining:Concepts and Techniques.Morgan Kaufmann Publishers,2001:279-333.

〔2〕王阗,佘光辉.决策树C4.5算法在森林资源二类调查中的应用[J].南京林业大学学报(自然科学版),2007,31(3):115-118.

〔3〕庞素琳,巩吉璋.C5.0分类算法及在银行个人信用评级中的应用[J].系统工程理论与实践,2009,29(12):95-104.

〔4〕张洪田,叶树江.构建工程应用型本科院校学生综合素质教育模式的研究与实践[J].中国高教研究,2010(1):59-60.

TP 311

1673-260X（2010）12-0033-03

北方民族大学教学研究项目（项目编号：2008TR32-YB）资助