SVR回归在成绩预测预警中的应用研究

2020-07-09 03:20喻铁朔甘琤李霞

中国教育信息化·高教职教 2020年6期

喻铁朔甘琤李霞

摘要：在高校建设智慧校园趋势下，学业预警重要性逐渐增高。在学业预警中实现学生的成绩预测，能够为学生和教师提供可靠、先验的学习指引和决策依据。文章依据课程间的相关性，采用SVR（支持向量回归）进行成绩预测，并在预测基础上实现学业预警。同时对预测预警的学生进行问卷调研，对学生反馈意见进行文本分析。结果表明，考前的学业预测预警能够提高学生学习的积极性并对学习目标具有指引作用，能为教师教学提供参考依据。

关键词：成绩预测;学业预警;课程相关性;支持向量回归

中图分类号：G434 文献标志码：A 文章编号：1673-8454（2020）11-0076-05

一、引言

在高校信息化建设逐步转化为智慧校园建设的过程中，教育数据挖掘是实现智慧校园、智慧教学的主要手段。利用数据挖掘技术为学生、教师、管理者提供良好的学业指导或决策支持是目前的发展方向。在高校教学中，学生课程成绩是衡量学生知识掌握程度和教师教学结果的重要尺度，通过预测算法进行课程成绩预测并实现相应的统计分析预警，能够给学生提供课程学习指引、帮助学生规避学业风险，也能为教师和管理者的教学、教务管理提供支持。

目前有许多关于学业预警和成绩预测的研究，例如学业预警方面，金义富等[1]提出了一种基于离群挖掘的“三位一体”的预警模型，通过对学生数据的离群值探索，根据学生的离群次数建立两类六级的预警等级机制。周鸣[2]提出了主体协同的学业预警机制，通过剖析传统学业预警所存在的问题，提出了在大数据时代下学业预警的变革，包括教育主客体、预警信息分析、和评估方式的变革，认为学业预警各环节之间应当实行数据共享、主体协同预警和数据协同。

在成绩预测方面，Bindhia K. Francis等[3]将学生特征分为人口特征、学术特征、行为特征和额外特征四个方面进行不同的组合，运用聚类和分类相结合的混合算法构建学习成绩预测模型。刘博彭等[4]通过动态特征提取和偏互信息（PMI）对学生特征进行选取，并通过交叉验证方法对支持向量机（SVM）算法进行动态参数调整后进行成绩预测。

现阶段成绩预测和學业预警的研究大部分处于理论研究和应用探索阶段，理论研究体系趋于完善，但在实际应用中存在某些问题。一方面缺乏实际应用到教学过程中或学生个体中，且预测模型多为分类型预测，另一方面缺少预测和预警的相结合具体措施，并探索预测预警对学生学业和个人发展起到的影响作用。综上所述，本文通过课程之间的关联关系，应用SVR回归方法对学生进行考前的成绩预测，并将预测结果进行统计分析预警;进一步，在预警信息发送时添加调查问卷，获取学生对成绩预测预警的反馈意见，分析成绩预测预警对学生所产生的影响。

二、预测预警模型

1.预测预警流程（如图1所示）

基于课程相关性的成绩预测预警方法流程如下：

（1）将数据进行预处理并选取相应的预测特征和预测标签;

（2）对处理完成的数据进行基于SVR回归的成绩预测，并将预测结果按专业分类存储;

（3）对存储的数据按照预警等级划分进行警示;

（4）对预警到的学生发送学业预警通知书和相应的调查问卷。

2.实验数据

本文以某高校教务系统中抽取的2016级和2017级所有本科生已修课程成绩数据为研究数据，对2017级学生在2018—2019学年第一学期期末将要考试课程进行数值结果成绩预测。依据高校培养计划教学安排中选修课程和考查课程自由程度较高，且相应考核方式不同，遂剔除学生成绩中选修课程和考察课程。数据共筛选出包含46个专业48门课程，按照专业将数据划分成46个子集，每个数据集中包含了此专业所有公共课程、必修课程的最终结果成绩和学生学号。

3.研究依据

纪连恩等[5]通过可视化分析研究大学课程成绩间的线性关系，该研究有效展示的课程成绩间的各种相关性。龙钧宇[6]通过压缩矩阵的Apriori算法研究成绩间的相关性，通过关联规则发现课程间的相关规则。综上，通过课程间的关联关系，计算课程间相关系数判定课程的线性强弱关系，能够满足预测需求。相关系数能有效测度两个数值型变量间的线性关系，设xi和yi分别为两数字型变量的变量值，共有n个观测，则简单相关系数定义式为：

4.预警等级划分

预测完成后对预测结果进行统计划分，按照高校教学要求进行学业预警。研究设定预测课程成绩60以下（包含60分）为红色预警等级，表示学生此门课程不及格风险较大，需要高度关注此门课程并加强该课程学习，规避不及格风险。其中60到70分之间为蓝色预警等级，表示学生此门课程状态为存在不及格风险，学生需要留意此门课程的学习。表1是学业预警等级划分详情。

三、算法原理

1.SVR回归方法

支持向量机（SVM）在实际应用中可以分为支持向量分类（SVC）和支持向量回归（SVR）两种方法。支持向量回归在解决小样本数据时准确率高、泛化能力强，可以应用各种核函数灵活地解决各类回归问题。同时针对高校学生课程多样性和小样本数据等特点拥有更好的适用性。支持向量回归[7-8]与常用的支持向量机分类模型不同，支持向量回归模型的目标是让训练集中的每个点（xi，yi）拟合到一个线性模型，形式如下：

其中C是支持向量回归的复杂度常数，表示对错误分类的容忍度，其中较高的C值产生“较软”的边界，较低的值产生“较硬”的边界。过大的复杂度常数可能导致过度拟合，而太小的值可能导致过度泛化。最后是核函数的选择，常用的核函数包括多项式核（ploynomial kernel）、径向基（radial basis kernel）、线性核（linear kernel）。文章的核函数选取线性核，具体形式为：

2.缺失值处理

前序的课程成绩数据缺失是普遍存在的状况，对实验数据初步探索过程中，学生课程成绩存在小部分缺失状况。数据缺失的原因为学生休学、退学或其他学籍异动状况导致。在预测过程中数据缺失会影响预测精度，且回归预测算法对缺失值敏感，因此数据集进行缺失值处理是必不可少的一步。表2为0101专业中电路基础A课程与其他课程在不同差补方式下的相关系数。

如表2所示，通过无插补、平均值插补、最小值插补、K近邻（KNN）插补[9]三种方法进行数据补全，并计算补全后数据课程间相关系数。表中KNN插补和平均值插补结果和无插补结果相差较小，对课程的相关性影响较弱。最小值插补方法使得课程间相关系数有明显的提升，则课程间的线性关系更高，能够有效应用在预测模型中。结果表明在小样本数据和小概率缺失数据集中，最小值插补的性能明显优于平均值插补与KNN插补。

四、实验结果分析

此次成绩预测共计预警学生1064人，预警结果符合原假设的有429人，整体预测正确率为40.3%。其中蓝色预警等级预测人数有952人，预警正确人数为359人，预测正确率37.7%。红色预警等级预测人数为112人，预警结果正确人数为70人，预测正确率达62.5%。预测模型在红色预警等级拥有较好的预测能力，对预警结果进一步分析，对不同预警等级状态下预测课程的正确率进行探索分析。通过不同课程的预测结果在预警状态下的分布状况和整体态势，探索预测结果在红蓝两类预警等级下产生差异的原因。

1.蓝色预警等级分析

蓝色预警等级共包含了35门课程，其中有19门课程预测正确率高于50%，占课程总数的54.3%。另外现代企业管理、中国近现代史纲要和自动控制基础三门课程共预警49人，但课程的预警正确人数为空值，空值表示在预测时课程存在且预测成功，但没有真实成绩来验证预测正确率。同一专业不同年级部分课程安排发生变化，部分课程无法完成则采用NA来代替最终结果。蓝色预警图如图2所示。

图中包含每门课程的预测正确率和总体的趋势线，不同课程之间数据的预测状况和课程预警分布。图中预测正确率趋势波动明显，数值峰度绝对值为0.75与正态分布差异程度高，不同课程之间正确率差值较大。蓝色预警正确率平均值为51.5%，标准差为0.33，表示组内正确率的离散程度较平稳。其中马克思主义基本原理和概率论与数理统计两门课程预测人数最多分别为187人和228人，预测准确率分别为14.81%和61.84%。数据中众数为1，朝鲜语口语A2、流体力学等5个专业预测预警人数的人数较少，但预警结果正确为100%。

2.红色预警等级分析

红色预警即学生不及格风险较大，若学生成绩不及格会面临补考或重修，严重甚至会影响在未来学業与就业。红色预警等级中各课程预测正确率平均值为73.9%，中位数和众数都为100%。其中标准差为0.41，分组间离散程度高于蓝色预警状态，但分组的峰度绝对值为0.51，低于蓝色预警状态。在红色预警等级中共预测了24门课程，预测正确率超过60%的有18门课程，占总比的72%。红色预警正确率图中趋势线相比于与蓝色预警波动较少且部分区间连贯，但不同课程间正确率差异较大。红色预警图如图3所示。

如其中微观经济学和数理统计两门课程预警人数最多分别为38人和32人，预测正确率分别为15.79%和96.87%，正确率差异依然明显。其余22门课程预警人数都小于5人，虽然预测正确率很高，但对整体预测影响较小。红色预警等级中也有朝鲜语写作A1等三门课程预警正确人数为NA，预测正确率为NA。相比于蓝色预警等级，红色预警等级预测人数虽少，但整体的预测结果较为理想和稳定。

3.考前学业告知书及问卷

对于预警到的学生，将通过学校统一通知平台将预警信息形成考前学业告知书发送给学生。统一通知平台是指通过短信、微信、邮件、APP等渠道，向教师、学生发送调查问卷或其他通知信息，以多渠道发送提高通知到达率，实现精确高效的信息交流。

考前告知书内容包含了个人基本信息和预测成绩两部分。个人基本信息包含学生姓名、学号、班级、入学学年以及所属院系和专业;预测成绩包含了本次预测的预警信息，其中包含了预警的课程名称、考核方式、课程类别和学分。预警等级通过红蓝两色区别。其中预测成绩用不及格风险较大和存在不及格风险表示，依据预警等级采用相应颜色表示。考前学业告知书具体样式如图4所示。

给予预警的学生发送简单调查问卷，获取学生对成绩预测预警的反馈意见并对学生反馈意见进行文本分析。学生反馈的文本分析能够了解学生当前的学习状态和预测预警带来的积极影响，也能够为未来的预测预警实现提供研究方向。

在图5考前的词云中，大部分学生的反馈信息呈现积极的态度，学生的学习状态表现出会“努力”、“复习”、“认真”等积极词汇。部分学生较关注自己期末成绩是否会不及格和预测的可靠性。在图6考后的词云中，词频结果中词频最高的是“努力”、“继续”、“学习”、“加油”等正能量词汇，其中也有“下次”、“再接再厉”等词汇表明考后学生学习积极性保持良好，也希望自己再接再厉努力学习，获得更好的成绩。

考前和考后的学生反馈对比结果反映出考前学生状态较为放松，且学生较为关注自己是否会不及格，而考后学生关注明显集中在对自己未来学习的期许，表现出积极的学习情绪。

五、结束语

依据课程间关联关系的成绩预测虽然受到相关性强弱、学生个人学习能力等因素的影响，预测结果在实践过程中正确率不高，但相应的成绩和学业预警依然能够满足部分教学管理和改善学生学业的需求。逐步完善预测模型后，在该研究的基础之上，将研究结果应用到学业预警系统当中。每年两次定期进行成绩预测预警，将会更好地展现学业预警的指导作用。

参考文献：

[1]金义富，吴涛，张子石等.大数据环境下学业预警系统设计与分析[J].中国电化教育，2016（2）：69-73.

[2]周鸣.主体协同：大数据时代高校学业预警机制的构建[J].教育现代化，2017（18）：121-123.

[3]Francis B K， Babu S S. Predicting Academic Performance of Students Using a Hybrid Data Mining Approach[J].2019.

[4]刘博鹏，樊铁成，杨红.基于数据挖掘技术的学生成绩预警应用研究[J].四川大学学报（自然科学版），2019（2）：15-19.

[5]纪连恩，高芳，黄凯鸿等.面向多主体的大学课程成绩相关性可视探索与分析[J].计算机辅助设计与图形学学报，2018，30（1）：44-56.

[6]龙钧宇.基于压缩矩阵Apriori算法的高校学生成绩相关性分析研究[J].现代电子技术，2014（24）：54-58.

[7]张慧玲，高小力，刘永前等.三种主流风电场功率预测算法适应性对比研究[J].现代电力，2015，32（6）：15-20.

[8]周庆，牟超，杨丹.教育数据挖掘研究进展综述[J].软件学报，2015，26（11）：3026-3042.

[9]曹歆雨，曹卫权，李峥等.面向不确定残缺数据的大学生成绩预测方法[J].现代电子技术，2018，41（6）：145-149.

（编辑：王晓明）

中国教育信息化·高教职教2020年6期

中国教育信息化·高教职教的其它文章: 虚拟现实教学设计原则国际比较分析; 教育信息化2.0时代高校CIO体系构建模型研究; 基于知识图谱的同步课堂研究现状与趋势可视化分析; 职业教育学习空间框架：技术、设计、教学与利益相关者; 基于iFIAS的大学英语智慧课堂教学互动行为研究; 基于雷达图法的在线学习状态综合评价框架设计