基于SVDD算法的学业预警监测模型构建与研究

2020-03-22 02:51林龙沈海青
时代汽车 2020年19期
关键词:线上教育大数据

林龙 沈海青

摘 要:学生在在线学习平台上的学习表现数据类型较多,不能从单一角度对学生学习状况进行评价监测,需要综合多维度评价学生的学习状况,从而给出相对全面客观的学习表现评价。建立基于SVDD算法的监测模型,将直播观看时长、作业完成状况、课堂参与互动次数、出勤率等多维数据作为考量指标,对所有数据进行PCA分析,通过SVDD算法进行学习行为和效果异常监测,从而实现表现异常学生的学业预警。

关键词:SVDD算法 学业预警 大数据 线上教育

Construction and Research of Early Academic Warning Monitoring Model based on SVDD Algorithm[

Lin Long,Shen Haiqing

Abstract:There are many types of students' learning performance data on online learning platforms, and it is not possible to evaluate and monitor students' learning status from a single perspective. It is necessary to comprehensively evaluate students' learning status from multiple dimensions to give a relatively comprehensive and objective learning performance evaluation. The paper establishes a monitoring model based on the SVDD algorithm, which takes multidimensional data such as live viewing time, homework completion status, classroom participation and interactions, and attendance rate as consideration indicators, and performs PCA analysis on all data, and monitors learning behavior and effect abnormalities through SVDD algorithm so as to realize the academic warning of abnormal students.

Key words:SVDD algorithm, academic warning, big data, online education

在信息化浪潮冲击下,教育与信息技术走向深度融合,在线教育大规模兴起。与此同时,大数据(big data)理论与方法被逐步应用到教育领域,学习分析、数据挖掘等分析方法为在线学习过程、学习效果等提供了有效分析手段[1]。

尤其在疫情期间,教学方式发了翻天覆地的变革,所有课堂被迫从线下搬到线上,教师从现场授课化身网络主播,学生从教室学习变成打开手机等移动端屏幕学习。信息技术已经全面融入教师教学和学生管理的日常。

每个学生在学习过程中的行为数据和学习效果数据通过网络教育技术被完整的记录保存下来,这些信息组成了学生的学业表现。每个学生的个性不同,网络课堂的参与度、学习表现也不尽相同,对于学生的评价数据往往是立体多维度的,各个学生的维度长短板也不太,如何实现网课表现异常学生的学习行为综合评价和监测,是现阶段的教育数据挖掘和学习分析存在的一大难点。王常青[2]提出基于数据驱动的学情分析预警机制研究与实践,但其数据分析需要人工进行,较为繁琐;于繁华等人[3]提出基于离群检测的教学预警模型,通过规则检测与离群检测建立了交互式教学系统中的预警模型,实现了基于学习行为分析的自动干预和主动干预。廖鹏等[4]构建了一个检测、统计学生课堂异常行为的辅助教学管理系统,通过基于VGG预训练网络模型迁移学习,来提取学生课堂异常行为特征,实现对玩手机、睡觉等异常行为的检测分析。湖北第二师范学院杨鹤等人[5]发明一种异常网络学习行为的方法,对网络学习行为进行采样,计算不同学习行为的变化作为危险信号,构造人工抗原提呈细胞对多种学习行为的变化进行融合,检测学习行为的异常。陈彦钊等[6]基于深度学习技术建立了大学生课堂行为分析模型,并构建了大学生课堂行为分析系统,实现了课堂考勤和课堂专注度分析。

本文基于机器学习的支持向量描述(SVDD)算法,综合网课平台的多维度评价数据,构建学习表现模型,对异常表现的学生进行监测分析,从而实现学业表现异常学生的及时预警。

1 指标构建及数据采集

基于钉钉直播平台进行教学,基于蓝墨云平台进行学习行为数据监测及收集。利用因子分析方法构建多维度学习表现监测模型,具体包括学习行为指标和学习效果指标。按照线上和线下完成时间为界限,进行划分,构建指标并设置权重如下表1。

以《汽车售后服务接待》课程为例,收集该课程网课教学过程中8个教学项目的学生学习行为和学习效果数据,学习行为数据包括:钉钉直播观看时长、蓝墨云课堂参与互动次数、出勤率。学习效果数据包括:蓝墨云作业完成次数、作业完成分数。每个学生可形成5个维度的学业模型数据。下表1为售后服务课程里筛选的5位学生的学习行为数据,该数据从蓝墨云和钉钉上导出获取并进行了简单的处理。其中学习行为和结果数据正常的用绿色标记,与正常偏离较大通过红色进行标记。由表1可知,一方面,对各个指标进行分析,发现统计的五类指标存在关联和冗余,需要通过PCA提取主成分进行分析。例如,出勤率和直播观看时间是成正相关的,基本上出勤率100%的学生其直播观看时长也达标,少数学生存在看了直播没签到的现象,分析原因,这部分学生可能存在挂线播放,人离开或者开小差的情况,需要進行提醒;作业参与次数和成绩总分也成正相关,特殊情况是参与次数多但是成绩总分低的学生,这种现象说明学生存在有积极性但是知识点掌握不好,或者应付答题情况。另一方面,对表现情况进行分析,对于表现优秀的学生其各类状态指标数据均较好,而表现良好的学生主要是其中某个数据指标不够理想,而对于表现一般的学生存在1-2项的数据指标未达标准,表现较差的学生其大部分的数据指标均较差,而表现异常的学生则各项指标均与正常偏离较大,因此需要对这类学生进行重点关注和预警。

2 基于SVDD算法的学习状态异常监测模型构建

2.1 数据预处理

学习行为和学习效果数据属性不同,需要对各个指标维度类别的数据进行统一度量,因此,对采集的大数据进行归一化处理。为了数据处理方便,归一化时把数据映射到0~1范围之内处理。

本文采用的归一化方法通过遍历feature vector里的每一个数据,将Max和Min的记录下来,并通过Max-Min作为基数(即Min=0,Max=1)进行数据的归一化处理:

2.2 支持向量描述算法

支持向量描述(SVDD)是一种单分类器,常用于数据的离群或者野值点检测。支持向量描述的基本思想是可以找出一个超球体来描述给定的目标数据集{xi,i=1,2,…,N},该超球可以以最小的半径包含所有的目标数据。落在超球面上的数据点就称为支撑向量。

由于这种描述方法对目标数据集中偏离大部分数据较远的野值点比较敏感,这些点的存在可能使描述数据的球体过大,增加了异类点落入球内的机会,从而影响分类的效果。为此引入一个松弛变量ξi ,允许部分野点落在球外。根据以上思想,给出SVDD的目标函数:

R和a分别为最小超球的半径和球心,P为惩罚参数,起到控制对错分样本惩罚程度的作用。ξi 为松弛因子,ξi≥0( ξi≥0 对应位于超球体外部的非目标类对象) 。

这是一个二次优化问题,结合约束条件,构造拉格朗日函数,可以得到该优化问题的对偶形式:

ai为拉格朗日乘子,l为样本数。

通过引入核函数K(x,y),实现样本从低维空间映射至高维空间,就可以将非线性问题转化为线性问题。当核函数满足Mercer条件时,它就对应于某一变换空间的内积[9]:K(x,y)=φ(x)Tφ(y),φ为核映射;核函数满足:K(x,y)=exp{-//x-y//2/σ}。

引入核函数后,上述公式转变为如下形式:

根据Kuhn-Tucker条件,可求解以上优化问题得到ai的值。通过分析ai的大小来判断样本点的位置:当0

计算球心至任意一个支持向量点的距离就能求得球体的半径R。

对应新来的样本Z,如果满足

则Z属于目标样本,否则为非目标样本。

2.3 建立学习状态异常监测模型

基于SVDD算法,可以建立学习状态离群监测模型,如下图1所示。首先收集学生的网课学习行为和效果数据,然后进行人工筛选,获取一批表现良好的学生数据,对多维度数据进行PCA分析,将这些学生的数据作为已知训练集,在训练过程中得到处于SVDD超球边界状态下的支持向量数据,以此即可建立基于学习表现良好的学生样本的数据描述模型。此后,针对表现未知的学生数据,可将其输入学习状态监测模型进行判定,当其数据处于描述边界内时,则判定为正常,当其数据处于描述边界外时,则对其进行学业预警,提醒班主任、任课老师、辅导员三方进行干预跟踪。

3 学业预警监测实例分析

将上述方法运用《汽车售后服务接待》课程中3个班级的学生的学习行为数据分析和然后对其中某个班级的学生学业表现进行预测。首先根据历史数据,人为筛选出该门课程所有班级中表现中等以上的学生数据,筛选的方法是将学生按照观看时长、蓝墨云课堂参与互动次数、出勤率、作业完成次数、作业完成分数进行排序,统计出30人作为正常的测试数据集合。设置核函数中的参数σ=2.5,将这些学生的数据先进行PCA降低维数至2维,进行训练得到正常的超球模型,最后选择其中一个班级中的6位未知学业表现的学生,将其数据导入进行训练,得到结果如下图所示。图中标有三角符号的为异常点(-5.6,0.03),查看其标签为34号学生,其网课数据,见表3。

4 总结

学生在网课学习过程中积累的学习行为和学习效果数据维度较多,较难进行人为判断区分,根据SVDD 的单值分类特点,利用大量已知的学习表现正常的学生行为数据构建训练样本集,则最小超球体边界将包含大部分的正常样本点。接着通过正常的描述边界对未知学习状态的数据样本进行预判断,得出落在超球体之外的样本,即偏离正常群体的学生学习数据,然后针对异常数据进行信息指标分析判断。因此本文所提方法可应用于学习行为异常的学生学业预警监测。

基金项目:2019年台州市教育规划课题“教育大数据整合理念下的学生学业表现模型研究”阶段性成果(gg20054);2019年度校级高等教育教学改革研究项目(Tkyjg201920);2020年台州科技职业学院基于“云班课”信息化教学课程项目(Tkbk2020047)。

参考文献:

[1]宋平平,孙皓.基于大数据的在线学习监测预警模型构建研究[J].管理观察,2018(32):108-109.

[2]王常青,于欣. 基于数据驱动的学情分析预警机制研究与实践——以浙江大学宁波理工学院为例[J]. 现代职业教育, 2018(2):18-19.

[3]于繁华,姚亦飞,逯启荣.教育大数据下基于离群检测的教学预警模型[J].吉林大学学报(信息科学版),2018,36(04):459-464.

[4]廖鹏,刘宸铭,苏航,李启芳,韩延巾.基于深度学习的学生课堂异常行为检测与分析系统[J].电子世界,2018(08):97-98.

[5]杨鹤,郑幸.基于人工免疫危险模式理论的异常學习行为发现方法[P]. 中国专利:CN105787555A,2016-07-20.

[6]陈彦钊,朱雪颖,黄瑾,庄涵智,郭春婷,刘家浩.基于深度学习的大学生课堂行为分析系统研究[J].齐鲁工业大学学报,2020,34(01):13-18.

[7]马汉达,刘相涛. 基于Bagging_BP算法的在线学习行为分析方法 [P]. 中国专利:CN110751289A,2020-02-04.

猜你喜欢
线上教育大数据
我国线上教育行业发展路径分析
教育信息化背景下线上教育浅析
翻转课堂在水利工程地质教学中的应用与实践
线上教育视野下高职思想政治理论课教学创新研究
广府艺术在线上教育的传播与探讨
谈线上教育与线下教育的融合
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索