数据挖掘技术在高校教学实践中的应用

2015-03-09 11:02
物理实验 2015年3期
关键词:决策树数据挖掘

姜 芸

(西安交通大学 理学院,陕西 西安 710049)

数据挖掘技术在高校教学实践中的应用

姜芸

(西安交通大学 理学院,陕西 西安 710049)

摘要:阐述了经典的决策树ID3算法,并利用该算法对高校大学物理实验课程学生成绩进行数据挖掘,从中提取有价值的信息,并对得到的结果进行分析,得出了影响学生成绩的原因,为提高高校教学管理水平提供了依据.

关键词:数据挖掘;决策树;ID3算法

1引言

当今社会,人们利用高速发展的信息技术得到了大量数据,在给生活提供方便的同时,也带来了一些问题,由于积累的数据不断增多,对所隐藏的数据知识挖掘方法知道的又比较少,使得数据囤积量大爆炸,尽管数据库在技术上不断成熟,可是却没有充分地发挥与利用数据库里蕴含的丰富的知识和信息. 由于现代社会数据库的量以几何状态不断地增长[1],要在数据的汪洋中对信息去粗存精、去伪存真,靠传统方法是不行的,要想高效地管理、组织这些数据并对其进行分析和应用并非是一件易事,这就要求计算机系统能够提供更高层次的数据分析,而数据挖掘是最有效的方法. 数据挖掘(Data mining)则是知识发现(KDD)的核心部分,它指的是从数据集合中自动抽取隐藏在数据中的有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等. 数据挖掘融合了数据库、人工智能、机器学习、统计学、高性能计算、模式识别、神经网络、数据可视化、信息检索和空间数据分析等多个领域的理论和技术. 进入21世纪,数据挖掘已经成为一门比较成熟的交叉学科,并且数据挖掘技术也伴随着信息技术的发展日益成熟起来.

2数据挖掘在高校教学实践中的初步应用

在高等学校教学实践中,学生是主体,存在着学生学籍管理、教学仪器管理,以及教师对学生课程管理、成绩管理等各种数据系统. 在这些数据库中存储了大量的数据,然而隐藏在这些数据背后的信息一直未得到开发应用. 学生是学校的核心,学生的学习成绩作为一种总结性评价,能反映出他们的知识掌握情况和相应知识技能的获得情况,学习成绩是加权综合值,它不仅包括书面考试成绩,而且还包括人文的考核项目,比如出勤率、课堂表现、各种活动等. 学生成绩不仅对学生的学习效果和教师的教学效果具有检测作用,而且还能反馈教学活动,反作用于教师的教和学生的学. 在高校的教务数据库中学生成绩记录非常庞大,对学生成绩的评定分2种:一种是定量评价,一种是定性评价. 定量评价也就是平时所说的某门课程考了多少分,而定性评价一般分优、良、中、差等4个级别. 仅仅从单独一门课进行分析,很少关注到学生取得这些成绩背后的影响因素和原因. 数据库是从定性的角度分析学生成绩,缺点是得到的结果不精确;而数据仓库是从定量的角度对学生成绩进行分析,能精确地得到各个方面的数据. 因此使用数据库和数据挖掘技术对学生成绩进行深层的分析,挖掘出隐藏在数据背后的规律或模式,根据挖掘结构提出指导性建议,从而更好地指导教师教学,提高教学效率,进而有效地提高学生成绩.

3决策树法中的ID3算法

数据挖掘技术主要有集合论法、决策树法、遗传算法、神经网络方法等. 决策树法又分为ID3算法、CLS算法、IBLE算法等. ID3算法(Iterative Dichotomiser 3)是由Ross Quinlan首先提出的[2],该算法是以信息论为基础,以信息熵和信息增益度为衡量标准[3],实现对数据的归纳分类.

已知有C个结果的训练集S:

Entropy(S)=∑-p(I)log2p(I).

(1)

这里p(I)是属于类I的S的比例. ∑是对C求和. log2以2为底的对数.

如果所有S属于相同的类,熵为 0(数据分类完毕),熵的范围是 0(分类完毕)到 1(完全随机). 注意:S不但是属性而且也是整个样本集.

(2)

Gain(S,A) 是属性A在集S上的信息增益,定义为:

Gain(S,A) = Entropy(S)-Entropy(S,A) .

(3)

Gain(S,A)是指已知属性A的值后导致熵的减少. Gain(S,A)越大,说明选择测试属性A对分类提供的信息越多.

4实例分析

通过对大学物理实验课程学生成绩评定的典型实例,说明数据挖掘的步骤及决策树方法在高校教学实践中的应用.

4.1 分析对象

大学物理实验课程基本每学年考核1次,考评由3部分组成:课内教学、课后实验报告及每学年期末考核. 整个实验课程成绩主要依据在规定时间内完成的课后实验报告的内容和质量来决定,实验课和期末考核作为较次要的考核内容. 由上述物理实验教学内容之间的关系,可以建立数据模型:学生情况数据库,含学号、性别、实验报告、实验课、期末考核、平均成绩、名次等项目.

4.2 已知条件

选择2个班,每班25人,对学生情况数据库进行如下的量化、转换、清理、集成等处理工作,得到了相应的数据库(如表1所示).

表1 学生情况数据库

学号字段定义为:1~50. 性别字段定义为:男或女. 实验报告加分定义为:0表示没有通过,0.5表示通过,1表示较好. 实验课加分定义为: 0表示基本不上实验课,0.2表示适当上实验课,0.5表示按期上实验课. 期末考核加分定义为: 0表示基本不参加期末考核,0.5表示参加期末考核并取得了较好的成绩. 平均成绩定义为:学习成绩总体情况,字段值为0~100. 名次定义为1~50,且记录按名次从高到低排列.

4.3 数据挖掘

应用ID3算法建立相应的决策树,先确定正例个数p和反例个数n. 将名次排在前15名成绩好的学生定义为正例,后35名成绩不好的学生定义为反例,即p=15,n=35.

为及时了解滑坡体的演化过程,准确捕捉特征信息,需对滑坡进行监测,内容包括地表变形、地下变形、地声、应变、水文以及降水量、地温等其他环境因素。众多可测量的数据中,位移是滑坡的最直接状态量,且施测简单,文章介绍了位移监测的常用方法,简述它们的基本原理和优缺点。

gain(实验报告加分)=I(p,n)-E(实加)=

0.881-0.616=0.265,

gain(实验课加分)=I(p,n)-E(课加)=

0.881-0.801=0.08,

gain(期末考核加分)=I(p,n)-E(测加)=

0.881-0.879=0.002.

通过计算可知,实验报告加分具有最大的信息增益,故将实验报告加分选为根节点并向下扩展,最终生成的决策树,如图1所示.

图1 成绩分析决策树

4.4 结论分析

通过分析图1的决策树,可以得到以下结论:

1)学生上完实验课后,如按期且独立保质保量完成实验报告,成绩均较好.

2)学生实验报告完成得较好,也就是在实验课上动手能力较强,善于思考和分析,可以看出他们在实验的基础上较为重视归纳和总结,均没有过重的课内实验压力,其中课内实验课安排适度的学生学习成绩也好.

3)对于刚通过实验报告测评的学生,情况就显得较为复杂,要视具体情况而定,一方面学生的大作业、课内实验、期末考核安排合理时学习成绩也好,另一方面,如果学生经常不参加课内实验或不参加期末考核时,也会影响到他们的学习成绩,造成学习成绩不好.

根据表1和图1,对学生情况数据库所建决策树进行分析,可以初步判别:实验报告、实验课、期末考核是相辅相成的,互相影响和制约的,一般而言,学习成绩较好的学生,其实验课和期末考核也是积极参加者.

这样,教师就可以针对不同的学生进行事先辅导,使教学内容在时间上得到延伸,学生能够提前预习和掌握实验教学内容,这样,就可以减轻学生在实验课上的压力,既紧张又轻松地完成预期实验. 同时,也要看到,如果仅重视上实验课和参加期末考核而不重视实验报告同样也会影响到自身的学习成绩. 对于大学物理实验这门课程,学习成绩好的学生,他们的上进心、责任心也都相对较强,能够很好地处理上述三者之间的关系;反之,对自己约束力较差、经常不上课或不认真完成作业的学生,学习成绩自然就较差.

5数据挖掘技术在高校教学实践中的改进与探索

虽然数据挖掘技术在商业、医学、科学研究等领域已有比较成功的应用,但在高校教学实践中仍处于初级阶段,其主要原因一是数据量有限,二是各学科、各院系之间缺少广泛的数据交流. 要想更好地将数据挖掘技术应用于高校教学,笔者认为有以下几方面需要改进与探索.

1)在有限的数据库中要经常挖掘、搜集和整理有价值的数据. 由于高校除了大面积教学以外,剩余主要是科研,教学环境中数据量较少,无法与商业环境中的大量数据相比,因此,要在相对有限的环境中做数据挖掘的基础工作.

2)各学科、各院系之间相对独立,教师和科研人员手中的数据有的集中在学校、有的则在家里,彼此间缺少广泛的数据交流,无法形成有效的数据链,这也是亟待改进的任务之一.

3)重视人才培养和开发. 数据挖掘技术对于人员素质要求较高,不仅要求了解和初步掌握该技术,而且还要求懂得数据定义和挖掘算法等技能,只有这样,才能够应用好这个工具,进而对结果做出科学的分析和评价.

4)加强和优化硬件环境. 数据挖掘技术的所有基础性工作都是建立在可靠的硬件设施上的,数据挖掘需要有一定存储量和运算能力的计算机,要有能够提供信息传递和信息共享的畅通网络. 目前,有些高校硬件建设尚不能满足数据挖掘技术的进一步提升,同时内部也未建立MIS系统,使得信息的收集、传递、存贮等受到一定的影响. 相信随着信息的不断扩大和需求,最终一定会形成适合于数据挖掘技术的信息链.

6结束语

数据挖掘技术经过了十几年的充实和发展,到目前为止已经成功地运用在各个不同的领域. 伴随着科学技术的不断发展和信息量的海量增加,如依靠传统的方法要在庞大的数据库中找到具有科学决策的信息是非常困难的,数据挖掘技术从大量的数据中发现有用的知识和线索,借助于数据挖掘本身的技术去挖掘蕴藏在数据库中的客观规律,从而为科学合理的决策提供有力的支持. 将数据挖掘技术引入到高校教学实践中,一是发展的必然,二是有助于在日常教学管理中不断获得有规律的信息,为学校管理层提供决策依据,从而不断提高教学质量. 本文通过对大学物理实验课程学生成绩评定的实例分析,简述了数据挖掘技术在分析影响学生

参考文献:

[1]路延. 数据挖掘技术在高等学校教学中的应用研究[J]. 科技资讯,2013(13):201.

[2]王惠中,彭安群. 数据挖掘研究现状及发展趋势[J]. 工矿自动化,2011(2):29-32.

[3]王小巍,蒋玉明. 决策树ID3算法的分析与改进[J]. 计算机工程与设计,2011,32(9):3069-3072,3076.

[责任编辑:尹冬梅]

Application of data mining in university teaching practices

JIANG Yun

(School of Science, Xi’an Jiaotong University, Xi’an 710049, China)

Abstract:A classical method-decision tree ID3 was expounded. Using this method, the work of data mining on students’ achievement in college physical experiments was carried out. A lot of useful information was retrieved and analyzed. Some reasons that influenced students’ achievement were obtained. It would provide a scientific basis for college teaching management.

Key words:data mining; decision tree; ID3 algorithm

中图分类号:G642.423

文献标识码:A

文章编号:1005-4642(2015)03-0015-03

作者简介:姜芸(1963-),女,陕西西安人,西安交通大学理学院物理实验中心工程师,学士,主要从事物理实验教学研究及管理工作.

收稿日期:2014-08-19;修改日期:2014-09-11

猜你喜欢
决策树数据挖掘
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于并行计算的大数据挖掘在电网中的应用
基于决策树的出租车乘客出行目的识别
基于决策树的复杂电网多谐波源监管
基于模糊关联规则和决策树的图像自动标注
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用