基于属性相关性分析的高校学生成绩分析应用研究

2018-01-29 07:46金诗谱
关键词:决策树分类器情况

金诗谱

(安徽城市管理职业学院 实验实训中心,合肥 230001)

近几十年,数据挖掘应用在国内很多领域都有了较大的发展,唯独高等教育领域的应用还不够多,不够深入[1].当前大多数教育从业者应用意识不强,从而白白浪费了能带来巨大效益的数据资源.

1 决策树及C5.0算法

1.1 决策树

决策树(Decision Tree)是指在各种事物和状况的发生几率已经知晓的情况下,通过构建决策树来准确计算净现值的一个概率,进而对系统的风险进行评估,准确预估各种情况可行性的一种方法[2].该模型主要起预测作用.

1.2 C5.0算法

C5.0的工作原理是根据所提供的最大信息增益的字段来分割样本[3].该算法依据各不相同的字段对子样本进行进一步分割,该过程持续循环,直至无法分割为止[4].其算法伪码如下:输入:J={(x1,y1),…(xm,ym)…,(xn,yn)},xm∈X,ym∈Y;训练轮数为I;初始化分发权值向量:

for i=1,…,I:

(1)采用分发权值向量 Di训练基分类器hi=R(x,y,Di);R为弱分类算法[5];

(2)错误率计算:e=∑(hi(xm)≠ym)Dm

(3)if e≥0.15,break;

(4)基分类器权值计算hi:wi∈w;

(5)权值更新:Di+1(m)=Di(m)×F(e)

(6)将多个基分类器进行联合,输出最后的分类器[6].

其中:xm∈X,ym∈Y,xm代表由相关数据属性构建的向量,ym则代表数据的类别;Di通常叫做数据分发权值向量,wi表示分类器权值,F(x)又被称做更新函数[7].

2 基于属性相关性分析方法的建模过程

采用基于属性相关性分析的决策树构建技术VA-C5.0,在数据的预处理阶段,对数据属性进行相应的分析,根据结果过滤部分属性,同时结合算法来构建决策树,最后通过对比,从精度和时间效率上验证我们改进方法的优越性.数据挖掘流程为:源数据—预处理(属性相关性分析)—建立模型.

2.1 确定数据挖掘对象和目标

基于多年经验,计算机文化基础这门课程,对学生成绩存在可能影响的因素有计算机熟练情况、考试心态、课程兴趣、预习情况、理论课效果、实践课效果、课余上机量、作业完成情况、出勤情况、考前复习时间10个因素.通过数据,对以上因素进行分析,找出主要因素,以及学生成绩为优良,不合格的相关内在影响因素.

2.2 模型的选定

使用VA-C5.0分析方法,通过对采集到的主客观数据的分析学习,得到相应的决策树模型.最终,从根节点到叶子节点的每条路径也就是一条具体的规则,整棵决策树也就相当于很多不同规则的集合.

2.3 数据采集

由教师和学生一起采集数据,2014年共收集了两个学期共1 135人的数据.2015年收集了两学期共1 019人的数据.首先利用2014,2015年的数据建立数据挖掘模型.

2.4 数据预处理

本阶段预先对相关数据进行前期的必要处理.

2.4.1 数据清理与数据集成

把两个学期的数据中的含有缺失值的记录删除.在这里,直接采用忽略元祖的方法,删除掉含有缺失值的记录共188条.有效数据1 966条.

采集的2014年和2015年两年的数据,原始样本总数2 154,经过处理后参加模型构建的有效样本数为1 966,样本的有效率为91.3%.

2.4.2 数据离散化

用于分类的决策树算法需要离散化的数据,我们根据时间的多少,把考前复习时间离散化为“从不”,“一般”,“多”.课余上机量离散化为“无”,“一般”,“多”.期末成绩属性离散化为“不及格”,“及格”,”良好”,“优秀”.最终经过数据清理,数据集成和数据规约后的成绩数据共有1 966条实例.

2.5 VA-C5.0属性相关性分析方法具体实施

属性相关性分析是对数据属性进行相关分析,从而检索出那些对挖掘模型有利的数据,过滤掉部分不利于挖掘模型精度和时间效率的属性的一种方法.

2.5.1 进行属性相关性的图形分析

我们查看各个属性在期末成绩上的分布,进而用条形图的形式进行直观展现(图1).

图1 考前复习时间相关性分析图

举例考前复习时间相关性分析如图1,其他分析类似操作,此处就不一一列出.

2.5.2 通过关系矩阵分析

查看各字段和期末成绩字段的关系.对所有字段和期末成绩字段之间的关系通过矩阵来进行展示,举例说明预习情况和期末成绩的关系,如图2.

图2 预习情况和期末成绩的关系矩阵

从矩阵中可以看出,预习情况对期末成绩影响很小.其他属性操作类似.所有分析结束,可得出学号,计算机熟练情况,预习情况这3个属性对期末成绩基本无影响,应予以去除.

2.5.3 去除相对无关联字段,进行数据分区

使用过滤节点,过滤掉学号、计算机熟练情况、预习情况3个无关联字段.

此处用2014年和2015年的数据来作为训练分区数据,用来构建模型.

2.6 使用VA-C5.0建立决策树模型

我们使用VA-C5.0挖掘方法,对最终数据进行挖掘,得到生成树模型,进而生成出规则集.然后通过对生成的规则集进行分析研究,可以得出很多造成期末成绩优良,不及格的相关因素,以及他们之间的相互关系.列举部分得到的规则如下:

(1)IF考前复习时间=“多”AND实践课效果=“很好”AND考试心态=“很好”期末成绩优秀率100%.

(2)IF考前复习时间=“多”AND实践课效果=“很好”AND考试心态=“好”AND作业完成情况=“很好”AND课程兴趣=“浓厚”期末成绩优秀率98.36%.

(3)IF考前复习时间=“多”AND实践课效果=“很好”AND考试心态=“好”AND作业完成情况=“好”期末成绩优秀率95.78%.

(4)IF考前复习时间=“一般”或“从不”,期末成绩优良率为0;

(5)IF考前复习时间=“一般”AND作业完成情况=“差”,不及格率为98.86%.

3 与传统流程挖掘方法对比

3.1 传统流程构建决策树

我们把基于C5.0传统流程构建决策树的方法称之为C5.0方法.前期的分析及过滤字段操作取消,其他步骤及数据均相同.这样根据结果梳理下涉及到预习情况和计算机熟练情况的规则:

(1)IF考前复习时间=“一般”AND作业完成情况=“一般”AND课程兴趣=“一般”AND预习情况=“从不”期末成绩及格率100%.

(2)IF考前复习时间=“一般”AND作业完成情况=“一般”AND课程兴趣=“一般”AND预习情况=“一般”期末成绩及格率58.3%.

(3)IF考前复习时间=“多”AND实践课效果=“很好”AND考试心态=“好”AND计算机熟练情况=“不熟练or熟练or很熟练”期末成绩优良率都是100%.

通过规则可以看出,这两项对规则的合理性和高效性都产生了较负面的影响.

图3 VA-C5.0模型和C5.0模型预测结果对比图

3.2 两次不同方法的实验精度对比

依次通过两种挖掘方法产生的模型来预测2016年学生的成绩,然后再与真实成绩进行比对,比较两次挖掘的精度.1 118条挖掘数据中,基于VA-C5.0改进后的挖掘模型预测结果正确的有1 061条,错误的57条,预测精度94.9%.基于C5.0未改进挖掘模型预测正确的有1 016条,预测错误的102条,预测精度90.9%.接着我们随机选取200,400,600,800,1 000个样本,验证两种方法预测值的准确个数,得到的折线图如图3,从折线图我们可以看出,随着样本数的逐渐上升,基于VA-C5.0的模型预测精度与基于C5.0的模型预测精度之间的差距逐渐拉大.

3.3 模型构建时间效率对比

通过对模型构建所需时间的分析,基于C5.0的模型构建时长约为基于VA-C5.0的模型构建时长的2倍.由此可以看出,VA-C5.0模型建模时间比C5.0要快.如果数据量进一步加大,差距会更加明显.

4 结语

经过对比可以发现,改进的基于属性相关性分析的VA-C5.0挖掘方法,不论从模型构建的时间,以及模型预测的精确度上,都有一定的提高.同时,该方法可适用于高校很多课程,进而产生较大的实际效益.

[1] 袁小玲,李瑞.数据挖掘技术在高职院校学生成绩管理中的应用分析与探究[J].电子测试,2014(13):78-79.

[2] 柴宏涛,李建华,沈迪.基于ID3算法的信息资源分类管理映射模型研究[J].计算机工程与设计,2013,34(3):1082-1086.

[3] 张宇,张之明.一种基于C5.0决策树的客户流失预测模型研究[J].统计与信息论坛,2015(1):89-94.

[4] 康波,刘胜强.基于大数据分析的互联网业务用户体验管理[J].电信科学,2013,29(3):32-35.

[5] 谢红跃,方昱春,蔡起运.一种新的改进AdaBoost弱分类器训练算法[J].中国图象图形学报,2009,14(11):2411-2415.

[6] 李荣陆,胡运发.基于密度的kNN文本分类器训练样本裁剪方法[J].计算机研究与发展,2004,41(4):539-545.

[7] 徐安.基于威布尔分布的更新函数确定方法研究[J].山东交通学院学报,2006,14(3):16-19.

猜你喜欢
决策树分类器情况
一种针对不均衡数据集的SVM决策树算法
脱发 养“老金”
决策树和随机森林方法在管理决策中的应用
一周融资融劵情况
基于差异性测度的遥感自适应分类器选择
基于实例的强分类器快速集成方法
基于决策树的出租车乘客出行目的识别
特殊情况
基于肺癌CT的决策树模型在肺癌诊断中的应用
基于层次化分类器的遥感图像飞机目标检测