教育数据挖掘的在线学习机制研究

2021-06-24 07:24李福顺
微型电脑应用 2021年6期
关键词:决策树数据挖掘算法

李福顺

(陕西财经职业技术学院 商学院, 陕西 咸阳 712000)

0 引言

随着互联网技术的快速发展和完善及大数据时代的到来,数据驱动学习及分析变革教育的理念逐渐得到认可,学习方式也随之发生了显著变化,为弥补传统学习方式的不足,结合采用教育数据挖掘及学习分析等相关技术,为教育领域相关模型的构建提供有力支撑,通过对教育变量间的相关性进行深入探索以辅助教育教学决策已经成为高校教育的发展趋势,分析和研究相关学习行为数据蕴藏的价值完成在线学习状态及效果的有效评估是目前研究的热点之一,在学习过程中学习者会在线学习平台中留下较多的学习行为数据,通过记录这些数据并对蕴含其中的规律进行探究,据此将个性化的环境和学习指导提供给不同学习者[1]。

1 教育数据挖掘的价值

将教育相关原始数据(来自各教育系统)转换成有价值信息的过程即为教育数据挖掘,教师及学生可根据这些信息进一步提升教学质量,还可为教育研究人员的研究及教育软件系统的开发和完善提供支撑。在线学习方式逐渐发展完善起来,传统的课堂面对面教学模式,教师可通过现场提问及课堂测试等方式对相关课程的学习效果及状态进行评估,显然传统的评估方法已经无法适用跨越时空的在线学习方式,教育数据挖掘作为教育系统的新模块,需同各种教育要素产生良性互动,才能确保改进教学目标的实现。教育数据挖掘能够为教育工作者提供更优质客观的反馈信息,实现教学内容组织及创新,辅助教学策略的调整和优化,并以学习者的学习情况为依据,使教学过程及课程开发得以不断优化和完善,构建能够有效满足实际教学需求的在线教学模式。以数据挖掘的应用领域为依据,教育数据挖掘主要包括教学、管理、科研方面的数据挖掘内容。本文以网络教学( E-Learning)数据挖掘应用作为主要研究对象,根据信息化导学平台所收集到的学员日志数据,完成对学习行为的相关分析[1]。

2 基于教育数据挖掘的在线学习行为分析模式构建

分析在线学习行为以网络教学平台的记录数据为主要依据,需结合采用各类挖掘和可视化技术,统计教师及学生的行为方式、行为发生时间、使用行为客体情况,并对在线学习行为的影响因素进行深入挖掘(结合师生的特征数据),通过统计、挖掘分析,发现学员的基本特点及影响因素。教育数据挖掘模式集成应用了多种数据挖掘工具和算法,以完成特定挖掘任务为目标,主要由数据、工具与算法及挖掘工作三部分构成,如图1所示。

图1 教育数据挖掘模式要素

在展开过程将分别形成数据流、挖掘工作流(包括数据收集、预处理、挖掘、评价与应用等)、工具算法流,其中挖掘工作需由工具与算法提供支撑,进而实现相应数据结果的产生。学习过程数据挖掘模式如图2所示。

图2 学习过程数据挖掘模式

负责分析学习过程及学习行为,分析学习者登录行为、资源浏览模式、行为影响因素是针对数据挖掘工作流关键部分的主要数据挖掘任务[2]。

3 学习行为影响因素分析

本文的分析数据对象来自已投入实际使用的信息化课程在线自主学习导学平台,该平台面向计算机基础课程,教学资源丰富多样,具有较强的交互性、开放性,可对学习者的学习情况进行跟踪反馈。大量的日志数据会在学员使用该平台进行自主学习时产生(包括登录行为、资源浏览情况等方面的数据信息),本文对使用该平台的每位学习者的在线学习网络日志主要结合使用了数据挖掘方法(包括聚类分析、相关分析、差异检验等)和网络日志分析方法进行细致深入的分析,研究影响在线学习行为的内在因素。

3.1 数据采集与预处理

本文以计算机专业学生为主,结合学生的基本信息数据,收集使用信息化导学平台所产生的相应日志数据(包括登录、资源浏览、学习体验等)及形成性考试平台中的考试数据,从中选取4份数据并将其导入数据库形成对应的数据表,以“学号”作为关键字段完成四张数据表间关联关系的建立,如图3所示。

图3 相关数据表间的关联关系

在此基础上对这4张数据表通过使用联合查询方法完成交集运算过程,取得4张表中共有1 265名学员,接下来以这些学员对应的日志数据作为分析对象,即基本信息、形成性测试数据、登录及资源浏览情况,完成相关统计分析和数据挖掘过程[3]。

3.2 登录行为及影响因素分析

学生学号和登录时间为登录行为数据表的主要字段,本文统计过程以某个时间单位的登录人数为依据,有效避免采用登录次数进行统计时个别学员的反复登录数据信息不够充分准确的问题,分类字段具体以“周”为时间单位,各个学员的登录天数则以学号为字段进行统计,据此对学员的登录率进行统计(即平台登录人数除以学员总数),本文计算机课程持续周数为15周(以2018年下学期课程开学日所在周为第一周)。

(1) 以周为统计单位,相比于学员个体,学员群体学习周期的不确定性程度较高,从教学的角度出发,需对所有学员的学习周期进行了解,具体需根据登录平台的数据记录对整个学生群体均登录平台参与学习的时间段进行分析统计,实现对群体开展在线学习的速度科学有效的衡量。为衡量群体在线学习终止的速度,教学者需对随着学习时间的推移学习者的在线学习情况做到充分掌握。学员的学习周期通过统计分析每周累计登录率即可获取统计结果,如图4所示。

图4 学习周累计登录率

参与学习的人数从第6周开始急剧增加,到最后一周参与在线学习人数为100%,在线学习开始时学员整体开展速度较慢,需教学者根据实际情况加以干预,督促学员登录平台参与在线学习,同时可据此合理分配教学资源的时间[4]。

(2) 影响学员登录行为的影响因素分析

作为一种有效的分类和回归算法,Microsoft决策树算法适用于进行预测性建模,主要针对离散和连续属性,此种算法根据向特定结果发展的趋势,并以数据集中输入列间的关系为依据,对离散属性进行预测;对连续属性写通过线性回归方法的使用完成决策树拆分位置的确定。Microsoft决策树算法的原理为:首先在树中完成一系列拆分的创建,并以“节点”来表示这些拆分,据此实现数据挖掘模型的生成,该算法一旦发现可预测列同输入列间密切相关,则在模型中添加一个节点。该算法根据预测对象的种类(连续列或离散列)确定拆分的方式,决策树采用了两层结构,并通过数据挖掘中间件的设立(在建树算法和数据库间),提高了分析效率[5]。

采用决策树算法,通过对学员的三种主要因素(层次、专业、性别)进行综合考虑,完成了挖掘结构和挖掘模型的构建,分析了影响学员登录行为的因素(以天数为单位)。并以登录天数为预测值,输入值为层次、专业、性别,比例比表示登录天数大于5天及小于5天的学员比例,所建立的决策树[6]如图5所示。

图5 登录天数预测决策树

分析结果可知,对登录天数的影响程度上,程度由强到弱的因素依次为层次、专业、性别。相比于本科层次学员,飞行员及士官层次的学员登录天数明显偏低,而士官层次学员的登录天数则低于飞行员;在相同层次内,学员的登录天数受到不同专业的影响也表现出了明显的差别。教学者可根据这些分析结果,针对不同层次及专业的学员,合理地引导和调整在线学习行为。在同一层次内(例如本科),登录行为在不同专业间所表现出的较大差别的原因在于专业指向性不同且管理各个专业的学员队不同,导致学员的学习行为差别较大。学员管理者可据此从实际情况出发有针对性地管理不同的学员队,从而使学员的学习效果得以显著提高[7]。

3.3 资源浏览行为及影响因素分析

在本文数据来源的信息化导学平台中,涵盖了计算机基础类的通识课程,主要包括大学计算机基础、程序设计、硬件基础,课程教学资源的编排方式按照案例、章节和知识点完成,包括操作视频演示、动画交互、测试题库等资源类型。以学员的浏览日志(指对课程及课程资源模块)为对象完成统计分析,具体结果如表1所示。

表1 课程各模块资源浏览情况

据此获取学员浏览行为的影响因素。根据浏览频次及学生参与率的数据结果可知,学员对各资源模块的关注及使用程度最高的为课程各章节案例库,最低的为常用软件工具库,可据此次序在课程首页依次呈现这些资源模块,使首页中各课程模块的布局更好地满足学员学习习惯,通过在首页的显著位置展示相应课程模块,使学员对某种资源的关注度有效提高;根据单个资源人均浏览频次的统计结果可知,学

员对各课程资源的学习情况表现最好的为Flash动画交互区,最靠后的为辅助资料库,学习程度最高的原因主要是,Flash动画交互区有利于激发学员的学习兴趣,吸引学员通过反复学习学会相应的操作,问题库是学员访问程度第二高的模块,说明学员对学习过程中所遇到疑问的解答需求较高。需平台管理者及教学者对问题库做出进一步丰富,在首页显著位置放置问题库的检索区域,提高解答学员问题的效率,帮助学员更好地完成课程学习[8]。

4 总结

本文主要对基于教育数据挖掘的在线学习机制进行了研究,以计算机基础信息化导学平台为依据,通过收集学员登录平台中情况、资源浏览相关信息数据,并对这些日志数据进行预处理。在此基础上统计分析学员的登录及资源浏览情况,通过决策树算法的使用完成对其产生影响因素的挖掘过程,层次、专业、性别表现各不相同,在线学习行为表现出在第6、7周登录率最高,即在时间的分布上相对均衡;学员在线学习时间相对较少,具体的内在影响因素包括学员层次(主要因素)、专业及性别等,相同层次学员,专业是影响其在线学习投入的主要因素,学习需求、课程页面上的资源分布、学习资源特色是影响学员对不同资源的不同学习程度的主要原因,使教育教学工作者根据分析结果更好地掌握学员的学习情况,并据此完成有针对性的教学内容整合及教学模式的构建,提升在线学习的质量和效率。

猜你喜欢
决策树数据挖掘算法
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于MapReduce的改进Eclat算法
一种针对不均衡数据集的SVM决策树算法
Travellng thg World Full—time for Rree
进位加法的两种算法
决策树和随机森林方法在管理决策中的应用
基于决策树的出租车乘客出行目的识别
一种改进的整周模糊度去相关算法
一种基于Hadoop的大数据挖掘云服务及应用