基于聚类和决策树算法的成绩影响因素分析

2013-10-24 07:32张莉

中国石油大学胜利学院学报 2013年2期

关键词：决策树数据挖掘聚类

张莉

（中国石油大学胜利学院信息与计算科学系，山东东营257000）

学生在校成绩是学校教学质量和学生掌握知识程度的直观体现。随着社会的发展，外界因素对在校生成绩在广度和深度上影响越来越大。对影响因素分析，使用数据挖掘技术挖掘出影响成绩的关键因素，将结果反馈到教学中，通过改善教学方法等手段提高教学质量。

1 数据挖掘

数据挖掘（data mining）是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程［1］。

数据挖掘方法是由人工智能、机器学习的方法发展而来，结合传统的统计分析方法、模糊数学方法以及科学计算可视化技术等，以数据库为研究对象，形成了数据挖掘的方法和技术。数据挖掘的方法和技术主要包括：统计分析方法、关联规则方法、决策树方法、神经网络法、粗糙集理论方法、遗传算法、可视化技术等［2］。

2 K-means算法的成绩定性评价

聚类分析是数据挖掘中的一种分析方法，根据样本对象关联的标准相似性自动分为多类，同一类中的样本对象有较高的相似度，类间的样本对象相异。聚类的方法主要有：以划分为基础的K-means聚类算法，以层次为基础的聚类算法，以密度为基础的方法等［3］，笔者将采用K-means聚类算法进行成绩定性评价。

2.1 K-means算法评价函数的优化

K-means算法即已知数据库包含n个数据样本，给定聚类个数k，对每个数据样本计算其应该属于的类，得到满足方差最小标准的k个聚类。

K-means算法是无监督算法，一般使用性能评价函数对数据样本的聚类结果进行有效性评价。若采用的评价函数不能准确反映聚类质量，则会在很大程度上影响算法的有效性和准确性。针对样本数据结构特点，重新定义一种新的评价性能函数应用到K-means算法中，对参数k进行优化。

2.1.1 确定初始聚类中心

对K-means算法中的最初分类个数k设定为2，从样本对象集合中抽取k个样本点，计算出样本数据的原始分类点。对样本中心进行再计算直到样本中心不再变化，然后对聚类结果进行评价计算。若计算结果增加则说明得到了更优的聚类结果，让k自增执行循环，直到二者成反比，即随着k的增加得到负增加的计算结果，结束所有运算。可以通过计算数据分布相异值，防止类中出现样本过多或过少的不平衡现象。数据分布相异值的计算公式为

式中，Ni、Nj为第i与第j类中含样本数据的个数；参数q为类的数量。

2.1.2 计算不同类间差异值

聚类的结果就是对数据集合进行划分，划分后保证不同类间的数据差异度高，而同一类中的数据相异度低，即具有较高的相象度。可通过类间差异度和类内差异度的计算对分类结果进行评价：

式中，xij为属于j类的样本点xi；ci和cj为类的中心值。

2.1.3 确定评定函数

通过计算评定值

可让聚类的结果值达到最优，评定值与结果成反比，评定值越小聚类结果值越优。

2.2 聚类结果

本文中随机选取了某学校某教学班100名同学的相关学籍信息及某学期各门课的平均成绩作为研究数据库，对学生信息成绩表的属性字段“性别”、“上课出勤次数”、“四六级通过”、“生源地”进行无量纲化处理，优化得到指标值μi：

式中，νmax和νmin为特征值μi的最大值和最小值；指标值μi位于0和1之间。

处理得到的学生信息成绩表如表1所示，属性间具有横向可比性。对表中数据应用聚类算法聚类后得到优、良、中、差四种聚类结果，如图1所示。

表1 学生信息成绩表

图1 聚类结果示意图

3 ID3算法的属性影响分析

3.1 属性选择度量

ID3算法是决策树算法中最常使用的一种，用信息增益作为属性选择度量。计算所有属性的信息增益值，选择值最高的属性作为树的节点进行分裂。

设有一数据集合，集合中有S个数据对象，将它们划分成C个类，每一个类Ci中有Si个数据对象，每一类中样本数据的期望信息值为

式中，参数Pi为任意样本属于类Ci的概率。

设属性U具有m个不同值。根据不同的属性值Ui将数据集合S划分成m个数据子集。假定某一属性Ui为一分裂属性，数据子集｛S1，S2，…，Sm｝就是从某一属性根节点生成的新叶节点。根据属性U划分得到的某一数据子集的熵或期望信息值：

数据集合S通过属性U划分后由下式计算信息增益值：

3.2 计算结果分析

由ID3算法进行相关运算，得到不同属性的信息增益值：

Gain（上课出勤次数）＝I（S1，S2，S3，S4）-E（上课出勤次数）＝1·972048-1·479893＝0·492155

Gain（四六级通过情况）＝I（S1，S2，S3，S4）-E（四六级通过情况）＝1·972048-1·836696＝0·315352

Gain（生源地）＝I（S1，S2，S3，S4）-E（生源地）＝1·972048-1·85877＝0·113278

Gain（性别）＝I（S1，S2，S3，S4）-E（性别）＝1·972048-1·921978＝0·05007

根据计算结果，选择信息增益值最大的属性“上课出勤次数”作为决策树的根节点，其余属性根据其相应的增益值依此递增最终形成一棵完整决策树（图2）。

图2 决策树分析模型

根据此决策树进行分析，可见学生成绩跟上课出勤情况关系最大，四六级通过情况、性别、生源地等虽然也会对成绩有影响，但影响不大。针对决策树的结果可以对属性进行处理，去除对成绩影响非常小或根本无关的属性，挑选关联大的属性继续分析，并可根据各属性对成绩的影响力进行排序，得到有价值的信息应用于教学。

4 结束语

应用数据挖掘技术对学生成绩进行分析，首先通过聚类算法对学生成绩数据进行分类，并对分类后的结果使用ID3算法建立决策树深入分析，得到影响成绩的关键因素是上课出勤，其他因素虽然对成绩有影响，但影响得很小。通过聚类和决策树算法对影响学生成绩的因素进行分析，可将藏匿于海量数据中的有用信息挖掘出来，促进学校教学工作的进一步提升。

［1］范明，孟小峰.数据挖掘概念与技术［M］.北京：机械工业出版社，2007：26.

［2］陈文伟.数据挖掘技术［M］.北京：北京工业大学出版社，2003：32.

［3］袁方，周志勇，宋鑫.初始聚类中心优化的K-means算法［J］.计算机工程，2007，33（3）：65-66.