基于决策树的慕课退课预测研究

2021-07-15 02:28林佳慧周宝建厦门大学嘉庚学院管理学院
现代经济信息 2021年17期
关键词:决策树正确率神经网络

林佳慧 周宝建 厦门大学嘉庚学院管理学院

引言

慕课即大型开放式网络课程,是目前最热门的线上学习方式之一。目前全球范围内的MOOC用户已经超过1亿,全球有超过900所大学提供约有11 400个慕课课程。2020年是特许的一年,一场新冠疫情的来临,让所有人的生活都发生了巨大的变化,为了在这一特殊时期也可以顺利完成教学任务,开启了线上代替线下的教学模式,不少同学都开启了“宅”在家中、网络上课的模式,一时间在线教育用户得到了快速增长。

伴随国内疫情的逐渐好转,国外的疫情状况得到了强有力的控制,多地已有序组织开学复课。疫情之后,红极一时的网上在线教育平台,应该怎样定位自己呢?

中国互联网络信息中心于2020年4月发布了《中国互联网络发展状况统计报告》(第45次),报告统计,截至2020年3月,我国已注册在线教育用户数量已达4.23亿,与2019年相比,用户量增长了2.22亿,在全部网民总量中占比46.8%。

MOOC (Massive Open Online Courses),本文将称之为慕课,是教学模式借助互联网发展的一种新型教学模式,具有课程免费、内容丰富、学习自由等特点。在过去的六年里,MOOC平台不断涌现,国内外著名高校纷纷在慕课在线学习平台开设精品课程,越来越多的学生群体通过慕课在线平台学习。[1]

在文献调查前期,通过对慕课研究相关文献调查分析发现,现今对于慕课在线学习平台的相关国内外研究概括起来大概为三个方面:首先,在分析用户学习行为发现规律的基础上,优化慕课在线学习平台的教学活动;[2]其次,采用数理统计方法分析学习行为继而对慕课在线学习平台现有措施提出意见建议;[3]三是通过建立模型寻找学习行为与学习效果之间的关系并对学习效果进行预测。但目前针对学习行为的退课预测研究较少,慕课较高的退课率严重影响了其作为在线学习平台的持续发展,本文利用神经网络、C5.0决策树、二元Logistic回归模型对学员的退课进行预测,助力慕课在线平台的可持续发展。

一、数据来源与处理

本文的数据来源主要是“学堂在线”的MOOC平台的2017年5月1日到2018年7月1日的大部分学习用户的选课记录和学习行为记录。其中包括完成课后作业、观看课程视频、参与课程论坛讨论、访问课程内容和访问课程其它部分内容。

针对数据集当中出现的若干问题,进行噪音处理。查找不规则的数值,例如空白、极端异常数值。对空白的数据进行插补处理,对极端异常数值,采取删除处理。

二、数据描述

为了更加直观地了解已经获取的数据,首先将数据区分为退课者和未退课者两种类型,并分别观察他们的各种学习行为的平均次数,这五种学习行为分别是:完成课后作业(problem)、观看课程视频(video)、访问课程内容(wiki)、参与课程论坛讨论(discussion)和访问课程其他部分(navigation)完成课后作业。由表1可知,这五种学习行为都是未退课者比退课者的次数更多,说明学习行为与用户是否选择退课之间具有关联性,利用这五个因素来进行MOOC的退课预测是可行的。

表1 2017—2018年MOOC用户学习行为退课与未退课者平均次数比较

三、因子分析

对用户使用慕课学习行为的五个维度数据进行置信效度分析和因子分析,并对相关数据进行精简和降维。

计算得到KMO值为0.946,Bartlett值为2445.352,自由度为45,P值为0.000,说明问卷总体效度居于较高且可接受范围内,也就是说数据适合做因子分析。同时,根据总方差解释图,当取到三个因子的时候,累计方差已经达到85.727%>85%,可以认为该解释程度已经达到所需的标准,参见表2。

表2 KMO和巴特利特检验

综上所述,将五项测量指标转化为得分均值,以因子载荷为权重,选择“最大方差法”,缩减成三个因子影响程度指数,得到以下成分矩阵:

表3 旋转后的因子成分矩阵

四、慕课退课行为预测研究

为了探究利用慕课学习因素的重要程度,在了解用户日后是否继续上课的基础上,对其进行分析。考虑到用户是否愿意继续上课是一个定性二分变量,如果直接套用回归方程模型,则可能出现许多不严谨的结论。通过线性回归分析,可以使得对P值的回归预测具有实际意义。为确保模型的准确率,使用神经网络、C5.0决策树、二元Logistic回归三个模型对预测正确率进行比较,从而挑选出预测率最高的模型,对其因素的重要程度进行分析。利用SPSSModeler软件进行分析,分析方法如下图所示。

图1 模型比较方法

(一)神经网络法

BP神经网络模型主要由三层组成,分别是输入层、隐藏层及输出层。随着网络层次的增加,会降低误差,加强网络的表现力,但网络结构的庞大也会增加训练的时长。一般情况下,三个层级的神经网络模型能够获得较好的结果。

对于BP神经网络的训练以及测试同样将进行因子分析筛选以后得到的因子作为分析的样本。其中选取80%的数据部分作为训练基,用来训练模型。另外的20%则作为检测基用来对该模型的样本进行检测。

最后得出各因子的重要程度如表4所示,可以看到,在神经网络模型中,信息因子相较于其他两个因子的重要程度较高,达到了0.3667。

表4 神经网络模型各变量重要度

(二)C5.0决策树

C5.0决策树是一种经典的预测模型,是决策树模型中的经典算法。它是一种映射关系主要针对于对象属性和对象值,决策树的分支代表着对象并且是符合节点条件的,而叶子节点则代表则代表对象所属的一些预测结果,模型的建立需要特征选择、决策树的生成和修剪三个步骤。[5]

C5.0算法对C4.5算法的进一步完善,在大数据相关问题处理中C5.0更为合适,而且它能增加强大的Boosting算法提升分类精度。[6]

图2 决策树模型结果

在C5.0决策树模型中,信息因子仍然是重要性最高的变量,达到了0.39。

(三)二元线性回归分析

对于Logistic回归分析,要关注回归系数。一般来说,50%—80%的决定系数为相当高的回归决定系数。[4]模型中的回归系数达到了47.2%与64.6%,因而可认为该模型的预测效果较好。

表5 回归系数

表6为各个变量的偏回归系数及其标准误差、Wald卡方、自由度和P值与OR值。一般来说,P值小于0.05可以认为对因变量有影响。可以看到,三个因子的显著性均为0.000,远小于0.05,说明三个因子对因变量均有显著影响。同时根据B与Exp(B)的数值来看,信息因子相较于其他两个因子来看更为重要一些。其回归方程为:

表6 二元Logistic模型各变量重要度

Logit(P)=0.538+2.125x1+2.086x2+2.041x3

(四)三个模型对比

如表7所示,神经网络模型(即$N)的预测正确率为83.37%,C5.0决策树模型(即$C)的预测正确率为86.63%,二元Logistic回归(即$L)的模型正确率为86.14%。由此可以看到,C5.0决策树模型的预测效果相对来说最好。

表7 各模型预测正确率比较

由于三个模型间的差异性较小,因此依旧分别对三个变量进行分析。

总的来说,通过三个模型的分析与对比可以发现,信息因子相比于其他两个因子,对是否继续选课影响更大。

五、建议

通过研究用户使用慕课学习时的五种学习行为,利用因子分析将其降维成信息因子,功能因子和社交因子。根据这个结果,采用预测模型进行预测,结果显示信息因子对慕课用户是否退课影响最大。

经过模型数据分析发现,三个因子重,信息因子对于慕课在线学习平台用户的退课行为影响是最大的,从降低慕课在线学习平台用户退课行为的角度来看,应该重点关注观看课程视频和完成课后作业这两种行为。可以发现,若想完整的完成一门课程的学习,不仅要观看课程视频,还需要完成课后作业,及相关参考科目的学习。为了有效降低课程的退课率,有效完成课程学习,慕课在线学习平台可以针对这对这两种学习行为重点展开措施,例如针对一些学员要开展教学干预,如学生观看课程视频次数少,完成作业次数不达标等都可以成为干预对象。[7]

当教师设置MOOC课程时,应着重考虑视频的设置、组织,以及作业集布置、评分等环节。

针对于高校与慕课在线平台合作课程的状况,则可以适当建设相关制度规范进行干预,例如建立相关学生管理诚信档案,对于有过于频繁以及恶意退课的同学进行警告处理。

修改慕课在线学习平台的评价体系,提高观看课程时评以及完成课后作业行为次数对于最终评价的影响程度,激励更多同学提高积极学习行为,降低退课频率。

六、结语

对慕课用户的五种学习行为进行因子分析,降维得到信息因子、功能因子和社交因子三个公共因子。在此基础上,通过利用神经网络算法、C5.0决策树、二元线性回归模型进行模型的建立以及预测研究,得到信息因子对慕课退课行为影响最大。因此,如何提高学生观看课程视频和完成课后作业的次数,成为慕课改进措施的重要切入点。■

猜你喜欢
决策树正确率神经网络
门诊分诊服务态度与正确率对护患关系的影响
神经网络抑制无线通信干扰探究
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
生意
品管圈活动在提高介入手术安全核查正确率中的应用
生意
基于决策树的出租车乘客出行目的识别
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用