基于决策树分类的成绩分析系统研究

2018-03-05 00:41
长春师范大学学报 2018年2期
关键词:决策树节点模块

石 平

(辽宁民族师范高等专科学校信息系,辽宁阜新 123000)

目前,信息技术正处于突飞猛进的发展阶段,几乎所有高校都采用了专业的成绩管理系统,但是缺乏对成绩的深入分析,通常情况下仅仅通过对学生分数的均值和方差来进行分析。在成绩分类阶段主要依据学生的分数进行评估,受考试的方式和试题的难易程度制约。当测试题目的难度过大,学生的成绩普遍处于75分以下,利用传统的方式就无法准确地分析学生的实际学习状况,不能真正掌握学生真实的学习情况。众所周知,学生的成绩是对教学效果进行准确评价的主要依据,需要采用更为有效的方法对学生成绩进行深入的分析,从而为学生的管理措施的制定和改进提供有利的理论支持,依据学生的实际学习状况,采用不同的教学方法。

决策树是数据挖掘技术之一,主要用于分类预测和规则提取等领域,决策树的理论依据是贪心算法,利用从上至下的递归模式构建决策树,属于一种基于实例的归纳学习技术。决策树的内部节点与一个属性的测试对应,不同的分枝与一个测试输出对应,每个叶节点表示类或泪分布,树的顶层界节点为根节点。决策树对未知样本的分类主要是通过比较属性值和决策树得以实现的。因此,将决策树应用于成绩分析系统的构建能够挖掘出数据所蕴含的规律,根据数据挖掘的结果提出教学方法的改进措施,从而提高学校的教学管理水平,推动教育教学管理水平的不断发展。

1 学生成绩数据挖掘的意义

目前,学校需要管理的数据量越来越多,规模非常大。已有的学生成绩系统仅能对学生成绩进行简单的存储、查询和统计分析,不能从大量的数据信息中获得这些数据所蕴藏的信息,对学生成绩数据的利用率不高。学生成绩分析系统只能将学生的成绩简单地输入到成绩分析系统里并且存储起来,对数据库中高端数据也只是进行比较简单的更新、检索和添加求和、均值、方差和成绩统计图表等操作。由于不同课程成绩的原因、课程之间的关联以及知识点的考察情况,无法获得大量数据中所蕴含的有用信息。通过决策树能够获取数据所蕴含的有价值信息,分析和推理已有数据,发掘出数据之间的关联,从而进行更为有效的数据推测。通过决策树能够对成绩管理系统的数据进行深层次的发掘,有效地找出影响学生成绩的因素。例如,通过分析课程成绩能够较好地了解学生对所考察知识点的掌握情况,从而进行更为合理的课时分配,选择合适的教学方法;分析学生成绩数据之间的关系,对教学进行科学的指导,有效提升教学管理水平。

目前,学校的课程考核方式主要包括笔试、面试和操作,随着计算机技术的发展,上机考试方式得以推广。传统的成绩管理系统工作程序繁琐,成绩信息资料过于分散,手工操作较多,处理量大,效率低下,不利于检索和分类,无法有效地提供所需信息。利用计算机分析考试成绩,能够减少繁琐的手工处理工序,降低成绩的存储空间,同时加强成绩管理的安全性和便捷性。

2 决策树算法模型

C4.5算法是基于ID3算法的改进决策树算法,可用于连续型属性和属性值空缺的处理,实现对树剪枝。C4.5算法的改进主要包括:利用信息增益率选择属性,而不是信息增益;在构建决策树过程中或者构建决策树结束以后进行剪枝;实现连续属性的离散化;实现对不完整数据的处理;通过决策树构造式规则。

训练数据集定义为T,包括k个类别,相应的集合定义为:

{C1,C2,…,Ck}.

(1)

{T1,T2,…,Tn}.

(2)

(3)

属性V=vi的发生概率为:

(4)

属性V=vi的例子中,属于类别Cj的条件概率为:

(5)

C4.5算法的伪代码如下:

算法:通过已知的训练数据生成决策树

输入:训练数据,候选属性的集合

输出:决策树

Step 1: 构造根节点N;

Step 2: If T可以归为同一类C,返回N为叶节点,定义为类C。

Step 3: I f 属性集合是空集,或者T中剩余的样本数量小于给定值

Then 返回N为叶节点,N定义为T中比例最高的类;

Step 4: Fo r 每个属性集中的属性

求出对应的增益率

Step 5: N的测试属性=信息增益率最大的属性

Step 6: I f 测试属性属于连续型

Then 发现该属性的分割阈值

Step 7: For 每个通过节点N对应的新的叶子节点 {

If 此叶子节点构成的样本子集为空集

Then 通过该叶子节点的分裂可以构成新叶节点,设置为T中比例最高的类

Else

在该叶子节点执行“C4.5 formtree”子程序

继续分裂;

}

Step 8: 求出不同节点的分类错误,进行剪枝。

对于T,A包括s个离散属性,每个离散属性的取值不同,定义为如下n个子集s1,s2,…,sn, 分割信息量计算公式为:

(6)

信息增益率的计算公式为:

(7)

C4.5算法以Gain-Ratio(A)最大的属性A为分支属性,从而能够弥补ID3算法的不足。

3 成绩分析系统设计

基于决策树的学生成绩分析系统主要包括以下几个部分:数据接口、数据预处理模块、决策树数据挖掘模块、评价模块、可视化功能和应用层模块、人机交互界面模块,成绩分析系统的功能模块关系如图1所示。其中,数据接口的功能是将成绩数据导入数据库;数据预处理模块的功能是进行成绩的统计分析,包括平均值和标准差等;决策树数据挖掘模块主要针对成绩分析的目的挖掘有价值的信息;评价模块的主要功能是基于决策树数据挖掘结果和评价数据库进行综合评价,主要包括对试题、学生、知识点、教师的评价;可视化功能和应用层模块能够将成绩分析的结果以图形的方式显示出来;人机交互界面模块可以显示最终的评价结果。

图1 成绩分析系统的功能模块关系图

针对成绩分析的需求,划分4个不同的功能,并设置有效的功能与角色对应表。①学生:学生关注的是考试成绩和考试排名,并且能够明确自己对知识点的实际掌握情况,明确今后努力的方向;②教师:教师关注的是所有学生整体的成绩情况,主要关注不同分数段的人数分布、平均分、与其他班级学生成绩的比较等,同时还关注学生对所学知识的掌握情况;③教育专家:教育专家主要关注试题的合理性和试卷的难易程度等;④教务管理者:教务管理者主要关心的是考试的整体情况、数据的录入等。针对成绩分析的目的,学生成绩分析系统的整体框架如图2所示。

图2 学生成绩分析系统的整体框架

4 实例分析

目前,基于决策树的成绩分析系统已经得到了应用。以某高校计算技术技术专业为例,选择编程技能分数相关性较大的“程序设计基础”“数据结构”“操作系统”“汇编语言程序设计”“C++程序设计”“软件工程”课程作为构建总成绩决策树模型的依据。依据C4.5决策算法计算出不同课程的信息熵和信息增益率,计算结果如表1所示。

表1 各课程信息熵和信息增益量的计算结果

根据表1的计算结果可知,“C++程序设计”课程的信息增益率最大,可以将该课程作为一个节点,引出三个属性分支,然后计算出不同分支节点的划分。

5 结语

本文将决策树算法应用于成绩分析,构建成绩分析系统。相对于传统的成绩分析系统,该系统具有计算准确的优势,能够有效地发掘不同课程之间的内在联系,发掘成绩所蕴含的有用信息,有利于提升教学质量。

[1]谭振江,朱冰.基于R语言的学生成绩分析[J].智能计算机与应用,2017(1):76-78,82.

[2]陆冷飞.高校成绩分析模型及应用研究[J].中国教育信息化,2017(9):62-65.

[3]喻馨锐.spss在高职英语成绩分析中的作用研究[J].教育教学论坛,2017(46):224-225.

[4]王伟豪,王昕.基于决策树的学生综合素质评价方法[J].统计与管理,2017(6):191-192.

[5]郑丽丹.基于决策树技术的大学英语等级考试成绩分析[J].九江学院学报:自然科学版,2017(3):77-80.

[6]李卓,陈雨人.基于决策树方法的偏远地区山区公路驾驶安全性研究[J].华东交通大学学报,2017(2):29-36.

[7]陈煜,李玲娟.基于红黑树的连续属性数据流快速决策树分类算法[J].南京邮电大学学报:自然科学版,2017(2): 86-90.

[8]李方圆,杨絮,张海,等.基于决策树的自适应教育超媒体课程系统海外案例介绍[J].中国信息技术教育,2017(12): 86-88.

猜你喜欢
决策树节点模块
CM节点控制在船舶上的应用
28通道收发处理模块设计
“选修3—3”模块的复习备考
Analysis of the characteristics of electronic equipment usage distance for common users
基于AutoCAD的门窗节点图快速构建
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于决策树的出租车乘客出行目的识别
抓住人才培养的关键节点
基于肺癌CT的决策树模型在肺癌诊断中的应用