基于数据挖掘的大学生成绩分析应用

2020-06-28 02:12迟殿委李蕊
科教导刊·电子版 2020年9期
关键词:关联规则成绩数据挖掘

迟殿委 李蕊

摘 要 本文基于某高职院校云计算技术与应用专业学生期末成绩以及针对学生学习影响因素的调查数据,采用基于关联规则的数据挖掘算法,进行数据分析实验,找出该专业不同课程最终教学结果之间的关联关系,同时也从实验结果中发现对学生整体学习效果影响明显的因素,为教师日常教学提供辅助决策支持,对提高人才培养质量具有一定价值。

关键词 成绩 数据挖掘 WEKA 关联规则

中图分类号:TP311文献标识码:A

0引言

数据挖掘自动从大量的数据样本中寻找数据间潜在的关系,形成有价值的规则,即从大量的、不完全的、有噪声的、模糊的、随机的数据库中,提取隐含在其中的、人们事先不知道的、但又是潜在有用信息和知识的过程。

数据挖掘在教育领域的应用还处在发展阶段,如果能对学校考务系统存储的学生数据运用大数据挖掘技术进行综合分析,就能发现各信息之间的联系和规律。

本文以某专业学生期末成绩数据及学生基本信息数据为例,结合数据挖掘中数据预处理、连续属性离散化技术以及关联规则挖掘技术,分析专业科目之间的相关性、学生最终成绩与学生自身属性、外界因素之间的关联关系。

1基于关联规则挖掘的学习成绩分析过程

本文实验平台采用开源平台WEKA,该平台集合了大量能承担数据挖掘任务的机器学习算法。实验基本过程是:首先对原始数据集进行数据清洗,包括连续数据的离散化、属性缺失项的填补等,然后将数据保存为WEKA平台典型数据文件格式,并加载到相应算法处理界面,配置相关参数进行数据挖掘实验。

1.1数据采集和预处理

本文以山东某高职院校云计算技术与应用专业学生为例,考试成绩数据涉及到的科目有专业必修课、公共基础课、专业选修课共7门课程。部分学生成绩数据如表1。

对表1每个科目成绩进行离散处理,根据成绩分布特点,部分科目成绩普遍偏高,所以人为划分分数档次做法可能会影响结果的可信度。这里成绩分布比较均匀,没有明显的离群点,所以本文采用等宽法进行离散化,分数按照从高档到低档分为四个档次,分别为A、B、C、D,里面出现舞弊的,成绩置为0。

1.2课程学习效果之间的相关性分析

该部分实验目标在于发现不同科目之间学生成绩档次的内在关系,同时也能发现某科目成绩与平均分之间隐含关系,产生的这些规则可以为学生提供预警参考,也为不同科目教师提供教学参考。

实验采用关联规则挖掘Apriori算法,这里设置最小支持度为0.2,最小置信度为0.6,并将明显无效的关联规则消除。以下是部分关联规则:

(1)综合人文素质=C ==> 毛泽东思想和中国特色社会主义理论体系概论=C conf:(1)

(2)体育=D ==> 计算机网络技术=C  conf:(0.99)

(3)JAVA程序设计=A ==> 数据库原理与应用=A  conf:(0.98)

以上选取置信度接近1的规则,其中第1条规则不难看出公共基础课的科目之间有很强的关联关系,这些课程之间的成绩会互相影响,第3条规则也能反映同为计算机专业核心课程Java程序设计和数据库原理与应用也具有极强的相关性。这些规则的形成可以发现不同课程间的內在关系,可以给学生提供参考,加强对其他课程影响比较大的科目的学习力度,从而提升整体学习效果。

1.3影响学习效果的因素调查分析

该部分实验基于学生调查问卷数据以及学生所有科目成绩的平均分,目标在于发现对学习效果有较大影响的因素,以及这些因素之间的隐含内在关系。这里学生属性主要包括籍贯、专业兴趣度、学习动机、任课教师满意度、家人关注度、性别、平均分。

这里设置最小支持度为0.1,最小置信度为0.8,将数据用Weka进行关联规则挖掘,得到部分强关联规则如下:

(1)专业兴趣度=喜欢==> 任课教师满意度=满意 conf:(1)

(2)学习动机=就业==> 家人关注度=关注  conf:(1)

(3)家人关注度=不关注==> 平均分=D  conf:(1)

(4)任课教师满意度=满意 ==> 性别=男 conf:(0.86)

(5)平均分=D ==> 专业兴趣度=不喜欢 conf:(0.83)

产生的这些规则能够反映一些影响学生学习效果的因素。其中,第3条和第5条规则,反映了学生学习效果可能与家人关注度和专业兴趣度有很大关系。而从第1条规则看出,学生如果对专业有很大兴趣就会对任课教师更加认可。产生的规则可以启发老师重视学习兴趣的培养,适当改进现有教学模式,从而提高学习效果。

2结束语

本文基于某计算机专业学生期末成绩以及针对学生学习影响因素的调查数据,采用关联规则挖掘算法,从样本数据中找出不同科目教学效果之间的关联关系和科目之间隐含的相关性,为教师开设的关键科目提供警示参考,并加强教师们之间的沟通协调。同时,找出对学生学习效果有明显影响的因素,包括学生自身属性和外界因素等,为教师改进教学计划,关注学生实际情况,更好的因材施教提供辅助决策支持。

作者简介:迟殿委(1982-),男,山东外事职业大学,系统架构设计师,硕士,研究方向:数据分析与数据挖掘,系统架构设计等。

参考文献

[1] 刘健.基于数据挖掘的软件系统优化与重构的研究[D].天津:河北工业大学,2013.

[2] 苏新宁,杨建林,邓三鸿等.数据挖掘理论与技术[M]北京:科学技术文献出版,2003: 53-65.

[3]Mehmed Kantardzic.数据挖掘——概念、模型、方法和算法[M].陈茵,程雁译.北京:清华大学出版社,2003.

[4] 武书彦,李咚.数据挖掘的探索性研究[J].制造业自动化,2011,33(02):98-100.

[5] 方胜吉,翁苏湘,李广庆.浅谈高等医学院校学生”数据挖掘”能力的培养[J]科技创新导报,2010(33):182.

猜你喜欢
关联规则成绩数据挖掘
基于并行计算的大数据挖掘在电网中的应用
剖析累进评分法对体育成绩评定的必要性及其应用
影响高中体育特长生成绩的因素及对策分析
电子商务通识课程考试成绩多维度分析
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究