教育数据挖掘相关分析初探

2015-11-03 04:40许倩倩等
中国信息技术教育 2015年18期
关键词:相关分析

许倩倩等

摘要:随着数字化学习的唱响,相关网络数据的不断增多,网络数据的挖掘与分析也在教育技术领域开始实施,旨在发现规律并运用于学习实践。本文以江南大学继续网络教育学院留存的数据为基础,开展数据分析,以期为今后的招生与学生的学习提供有效的建议。

关键词:教育数据挖掘;相关分析;学习数据

中图分类号:G434 文献标识码:A 论文编号:1674-2117(2015)18-0110-03

随着网络技术在教育中的普及与应用,数字化学习(E-Learning)逐渐进入教育者的视野并得到高校的欢迎和认可。数字化学习为高校的校园网站、网络教学平台的建设和使用提供了空前的便利和支持。同时,一些高校开设了继续教育学院,为成人教育提供了更加便捷的学习平台。继续教育学院的学习基于网络,学习数据全面,能够量化地反映其中相关内容。因此,我们根据江南大学继续网络教育学院的3050位学生在网络教育平台上留存的数据,展开了一系列教育数据相关分析。

基本信息描述

3050位学生的基本信息为男性占48.7%,女性占51.3%。在21~40岁的学生人数占到了93%以上,是继续网络教育学院学生的主要群体。

从学生入学时间来看,2012年入学人数最多,占60%以上,这是由于网络教育的普及导致2010-2012年入学人数呈现急剧增长的趋势,但在2013年因为“网络学凭热”的逐渐退烧出现了回落。

从学生生源地来看,来自江苏省的学生最多,其次为浙江省、福建省。如果将各地以较大的行政区区域来划分,则华东地区一枝独秀,学生人数占85%以上。

学生专业种类较多,共19种,包括理工类4种、汉语类3种、社法类2种、管理类4种、教育类3种、经济类3种。

相关分析

我们将所得数据的类型分为三大类,即基本信息、个人表现与最终成绩。并以这三类数据为基本分类依据,进行各类数据内与数据间的相关分析。

1.基本信息与个人表现、最终成绩的关系

(1)性别与各类表现、成绩之间的关系

数据分析后结果为学生的性别与其部分的表现及成绩有微弱相关,而学生性别与已学课程平均成绩达到0.116的显著相关,这说明性别与课程平均成绩有较小相关。

(2)年龄与各类表现、成绩之间的关系

数据表明,年龄与全部的表现及成绩都不存在0.1以上或小于-0.1的显著相关。由于年龄与成绩都是连续型数据,因而我们依据其中的数据,得到多张散点图。如下页图1所示,在左上方呈现一个直角三角形的形状,由此我们可以粗略推断,学生年龄与入学成绩存在一定的关系,年龄越大,成绩越向高分处集中,说明年龄越大,对待考试越认真。然而,这也与年龄较大的人数较少有一定的关系。

既然年龄段的成绩情况不尽相同,我们根据年龄对个案进行筛选,并重复以个人表现、最终成绩内容为另一个因素进行相关分析,发现年龄在“≥30”“≥40”两种筛选条件下,年龄与少部分成绩出现了0.1以上的相关关系。在年龄段被分开的基础上,我们对不同年龄段统考大学英语的通过率做了分析,发现年龄段越高,统考大学英语通过率越高。这个结论可能会受到年龄较大的人数较少的影响,但也在一定程度上证明了之前所获得的年龄越大认真程度越大的结论。

(3)入学年份与各类表现、成绩之间的关系

研究中,首先将入学年份作为双因素分析的因素之一进行分析,得到入学年份与登录平台次数存在-0.53非常显著的中度相关性;其次,入学年份与大学英语三、大学英语二分别存在0.248、0.179非常显著的弱相关性。

接下来,我们对两个中度相关的数据做进一步分析。发现学生入学年份与登录平台次数散点分布图中每个年份上都有黑色较浓重的段落(如图2),这说明年份内登录平台次数集中于一个次数段,因而入学年份与登录平台次数出现中度相关。然而,比较不同年份之间的黑色段落,可以发现有先上升后回落的趋势。那么,将样本以2011年为界进行分隔,能否发现更明显的相关性?基于这样的猜想,我们筛选出“入学年份≤2011”的样本,并进行入学年份与登录平台次数双变量相关分析。在这样的筛选条件下,二者显现出0.722非常显著的较强相关;“入学年份≥2011”的样本,二者显现出-0.719非常显著的较强负相关。

综合上述分析结果,可以推断:入学年份与成绩的弱相关原因与该年所招收学生学习是否认真相关。当网络教育还未达到热潮时,进入学习的学生态度认真;而当网络教育达到热潮时,学生学习的兴趣却逐年下降。影响成绩的因素较多,登录平台次数与学生的认真程度有着密切关系,分段入学年份与登录平台次数显示的较强正相关、较强负相关基本能够支持这种推论。同时,学生在登录平台时有次数要求,且不同年份具有次数要求不同的硬性规定导致该结果的出现。

(4)生源区域、专业种类分别与各类表现、成绩之间的关系

本研究使用行政上的区域划分来讨论生源区域与学生表现成绩的关系。我们将生源区域作为双因素分析的因素之一进行分析,没有发现其中的Pearson相关性大于0.1或者小于-0.1的相关关系。然而,其中“生源区域”与“入学测试大学英语”、“生源区域”与“学位英语”进行双变量相关分析中,虽然相关性数值表现为0.007与-0.003的微弱相关,而两者之间不相关的双尾检验值为0.704与0.865,否定了其二者不相关的假设。所以,生源区域与入学测试大学英语、学位英语之间存在相关性。

在分析专业种类数据时,同样出现类似于上述的结果,“专业种类”与“学位英语”、“专业种类”与“统考大学英语”的双变量相关分析中,虽然相关性数值表现为-0.002与0.002的微弱相关,而两者之间不相关的双尾检验值为0.914与0.907,否定了其二者不相关的假设。所以专业种类与学位英语、统考大学英语之间存在相关性。

2.个人表现内的关系

入学测试计算机成绩、入学测试大学英语、登录平台次数三者之间都存在中度以下的相关性。入学测试计算机成绩与大学英语之间存在0.403的一般程度相关关系,显著程度为非常显著;入学测试计算机成绩与登录平台次数之间存在0.2的弱相关关系,显著程度为非常显著。

从得到的结论中可以得出,后者的相关原因为计算机成绩好的学生更愿意接纳网络教育模式,因而登录平台次数较多。因此,我们对入学计算机成绩与登录平台次数做了散点分布图,(如图3所示),从图中,可明显看出入学计算机成绩越高,学生平均登录平台的次数就越多。

由于专业侧重不同,99%以上的学生在入学时,只进行了“入学测试高等数学”与“入学测试大学语文”二者其一的考试。因此,在开展与“入学测试大学数学”与“入学测试大学语文”两列数据有关的相关性分析时,我们将相应的未考学生除去后进行了分析。统计人数为828人,这是在入学时选择考“大学语文”的人数。在这些人中,入学大学语文与入学大学英语成绩呈现0.289的较弱相关关系,显著性为非常显著。数据一定程度上证明了语言的同质性,即能够掌握好一门语言的人,对其他语言也能够较好地进行掌握与运用。

3.个人表现与最终成绩的关系

研究中,我们将个人表现中的因素与最终成绩中的因素依次进行相关分析,发现“大学英语二”与“已学课程平均成绩”、“大学英语三”与“已学课程平均成绩”分别有0.448、0.329的一般相关关系,显著性都是非常显著。由于大学英语二、大学英语三成绩计入已学课程平均成绩,且为网络课程学习,课程成绩基本取决于学生的知识基础与认真程度,而在一门课程中表现良好的学生其他课程情况也不会太差,因此二者具有相关关系。

4.最终成绩内的关系

研究的最后,对学生最终成绩内的三个元素进行相关分析,发现其中的学位英语与统考大学英语存在0.415的一般程度相关性,显著性为非常显著。并在此基础上,对二者相关情况做进一步研究,我们将学位英语成绩划分为大于等于60分的为“合格”与低于60分的为“不合格”。学位英语难度超过统考大学英语:未通过统考大学英语的学生在学位英语上几乎全军覆没,并且通过了统考大学英语的学生中也有三分之一左右在学位英语考试中失利(如图4)。因此可以说,二者确实存在一定的关系。

结论

在本次分析中,采用描述统计、相关分析与作图的方法,对江南大学继续网络教育学院学生的基本信息、个人表现以及最终成绩之间的关系进行了了解。虽然统计已经经过一定程度的筛选,但由于样本数量较大以及分析者能力限制,所得结果还不够确切。但是结果已经过推敲,在现有数据范围内,发现了一定的规律,可以起到一些参考作用,在今后成人教育范围内,可以给予招生与学习过程的督促、学生自我学习给予一定的参考。

参考文献:

[1]葛道凯.E-Learning数据挖掘:模式与应用[J].中国高教研究,2012(3):8-14.

[2]Cristóbal Romero,Sebastián Ventura,Enrique García.Data mining in course management systems:Moodle case study and tutorial[J].Computers & Education,51(2008):368-384.

[3]李玉光,杜宏巍,黄永生.SPSS 19.0统计分析入门与提高[M].北京:清华大学出版社,2014.

[4]葛道凯,张少刚,魏顺平.教育数据挖掘:方法与应用[M].北京:教育科学出版社,2012.

猜你喜欢
相关分析
延边州旅游业客户体验和客户黏度相关性探究
糯玉米支链淀粉含量与蒸煮品质相关分析
海南红毛丹栽培品系果实矿质元素和品质指标的测定与相关性分析
城乡居民医疗费用的相关性与回归分析
宝鸡市区空气质量变化分析
成都市中心城区商服用地基准地价空间演变规律研究