精准扶贫背景下基于BP神经网络的高校贫困生学业成绩预测

2021-06-24 09:31肖琪
微型电脑应用 2021年6期
关键词:出勤率学业成绩贫困生

肖琪

(常熟理工学院 纺织服装与设计学院, 江苏 常熟 215500)

0 引言

高等教育是连接教育和未来就业的重要节点,也是贫困家庭子代提高未来收入的重要途经。随着我国市场经济的发展,高校扩招以及高校收费制度等一系列因素增加了家庭经济困难学生的经济压力,这部分特殊群体即为高校贫困生[1]。他们是贫困家庭子代职业和收入流动的主要部分,因此高校贫困生是国家教育扶贫的重点对象[2]。党的十九大以来,在精准扶贫思想的指导下,中国教育领域的扶贫也逐渐转为教育精准扶贫[3]。教育精准扶贫战役中,精准“扶智”成为攻坚战。高校贫困生的学业成绩是精准“扶智”过程中的重要组成部分,而且对学生未来的就业和收入有很大的影响[4],因此精准“扶智”的前提和基础是对高校贫困生的学业成绩做到精准帮扶。对高校贫困生的学业成绩进行精准扶贫的关键是精准预测高校贫困生的学习成绩,甄别学习高风险学生,降低贫困生学习的失败率,从而提高高校贫困生整体的学业成绩。因此,解决高校贫困生学业成绩的精准预测问题是高校贫困生精准扶贫的前提与基础,也是实现高等教育领域精准扶贫中“扶智”的一个有效途径,具有现实意义。

以往关于高校贫困生学业成绩的研究主要侧重于高校贫困生学业成绩的影响因素。而量化各个影响因素对贫困生学业成绩的影响,寻找其中遵循的科学规律,并预测贫困生将来可能达到的学业成绩的文献很少见。随着计算机技术的发展,人工神经网络因其具有高度非线性、自学习性和映射性等优点[5],不需要寻找样本数据间的显示关系式和数学模型,便可以准确地逼近刻画样本数据规律的最佳函数,因而广泛应用于各个学科领域。崔强等[6]利用BP神经网络构建了学业预警模型,有效推动了高校思想政治教育。孔令晶等[7]基于BP神经网络构建了学业预警模型,并根据不同的预警结果执行相应的干预策略,帮助高风险学生顺利完成学业,最终提高了人才培养质量。BP神经网络是一种非常重要而经典的人工神经网络,它也被称为误差反向传播神经网络,是一种按照逆向传播算法训练的多层前馈神经网络[8]。因而本研究采用BP神经网络构建高校贫困生学业成绩预测模型,通过对比回归模型的预测精度,验证了BP神经网络模型在不需要构建显性数学关系式的前提下预测精度的优越性。

1 预测指标和样本

1.1 预测指标的筛选

建立科学、系统的预测指标是构建高校贫困生学业成绩预测模型的关键。影响高校贫困生学业成绩的因素有很多,包括课程作业、自主学习、活动参与、课外阅读、朋辈交流、学习氛围、个人闲暇活动分配等。如果将每个影响因素都作为模型的预测指标,会导致模型变得复杂,同时变量的增多也会导致样本数据收集工作的难度增加,所以准确地筛选与学业成绩相关联的因素并将其作为预测模型指标,将直接影响预测模型的精确度。

郭颖等[9]通过统计学分析发现期末考试成绩与上课出勤率、随堂测试成绩有很大关系。王德东等[10]采用大数据技术分析了学生日常成绩、图书借阅数量等与学生未来学习成绩之间的潜在关系,用来对学生进行学业预警。付洪等[11]通过相关调查与数据分析发现大学生网络行为与学习成绩之间呈现出越来越强的关联性。因此,本研究将学生的上课出勤率、期中考试成绩、图书借阅数量以及上网时间等四个因素作为影响贫困大学生学业成绩的预测指标输入变量。学生上课出勤率高表明其学习参与度高。而经常出现旷课或者迟到早退情况的学生,表明其学习参与度不高。图书借阅数量反映了学生的学习态度。上网时间的长短也可以间接反映学生的学习参与度,上网时间长,表明学生课余时间没有好好预习或者巩固知识,从而表明学生的学习参与度不高。有的同学上课出勤率高、上网时间也很短,但是期中考试成绩却不理想,反映了其学习策略不恰当。综合考虑,选择以上四个因素作为自变量用来预测贫困生的学业成绩。学生的期末考试成绩则是因变量。

本研究从某高校贫困生中随机选取718名作为样本,以学生一个学期的出勤率、期中考试成绩、图书借阅数量以及上网时间构成预测指标体系。无论公假、事假或病假,都视为缺勤,总上课次数减去缺勤次数再除以总上课次数,即为出勤率。如在一个学期中,学生每次上课出勤,即满勤,出勤率为1。为了不挫伤学生学习的积极性,减轻学生的心理负担和压力,对学生期中考试一般安排2门。因此,期中考试成绩指标是2门学科期中考试成绩的平均值。图书借阅数量以平均每个月的借阅图书为依据。上网时间根据信息系统监测到学生一学期平均每月上网时长来决定,以小时/月为单位。

1.2 样本的确定

贫困生学业成绩预测模型所涉及到的各项指标及其相关数据,如表1所示。

表1 学业成绩的各项指标

在进行BP神经网络预测之前,为避免原始数据过大造成网络麻痹,要对原始数据进行归一化处理。因此将表1中的原始数据规范在[-1,1]之间,这样可以尽可能地平滑数据。归一化的数据作为模型的样本,如表2所示。

表2 样本数据

2 BP神经网络的构建

BP神经网络属于多层前向神经网络,增加网络层数能够使结果更精确,降低误差,但是会使计算量过大,训练过程难以拟合。因此,采用经典的“输入层——隐含层——输出层”三层结构建立BP神经网络预测模型。

2.1 隐含层节点数的确定

采用BP神经网络模型进行贫困生学业成绩预测,分为神经网络的训练和检验两个部分。训练样本的输入数据来自718名贫困生中随机选取的640个贫困生学业成绩指标数据,输出数据来自640名贫困生的期末考试学业成绩。检验样本输入数据来自总样本中剩余的78名贫困生学业成绩指标数据。因此,训练样本的输入节点数为4,输出层节点数均为1,隐含层节点数如式(1)。

(1)

式中,N为隐含层节点数;m为输入节点数;n为输出节点数;a为[1,10]之间的常数。

根据式(1),本研究隐含层节点取值范围为[3,12]。隐含层节点的确定,要使得模型预测精度高。预测模型精度的评估采用误差百分比和均方根误差作为评估指标,如式(2)、式(3)。

(2)

式中,MAPE为相对误差百分比;abs为绝对值运算;A(i)为模型输出值;B(i)为实际值;k为样本数量。

(3)

式中,RMSE为均方根误差;k为样本数量;A(i)为模型输出值;B(i)为实际值。

根据隐含层节点的取值范围,改变隐含层节点数值,对训练样本进行训练,得到了不同节点数时所对应的误差,如表3所示。

表3 不同隐含层节点数的预测误差

从表3可以看出,最终确定误差最小时对应的隐含层节点数为9。这是因为如果隐含层节点数过少,不能充分反映样本规律,误差存在波动;但节点数过多,会增加网络学习时间,可能出现“过拟合现象”,会导致误差较大。

2.2 输入层和输出层的传递函数确定

输入层和输出层的传递函数选取宗旨是使预测精确度高。

在网络结构和权值、阈值相同的情况下,BP神经网络误差与隐含层、输出层的传递函数之间的关系,如表4所示。

表4 不同传递函数对应的误差

表4中的三个函数:logsig、tansig和purelin均为神经网络中常使用的传递函数,其中,logsig是S型的对数函数;tansig是S型的正切函数;purelin是线性函数。

从表4可以看出,隐含层和输出层的传递函数选择对BP神经网络预测精度有影响。其中误差百分比和均方根误差最小的隐含层和输出层的传递函数分别为purelin、purelin。

3 预测结果的对比与分析

本研究利用MATLAB_R2017a自带的人工神经网络工具箱来完成模型的建立。选用3层结构BP神经网络:输入层、一个隐含层和输出层。输入层的节点数为4,隐含层节点数为9,输出层节点数为1。BP神经网络根据设置好的参数进行训练,训练参数如表5所示。

表5 训练参数的设置

利用训练好的BP神经网络对贫困生学业成绩进行预测。

为了验证BP神经网络对贫困生学业成绩进行预测的优越性,本研究对比了回归分析法和BP神经网络的预测结果。采用SPSS软件进行多元线性回归分析,利用表1的贫困生信息,以学业成绩分数作为因变量,上课出勤率、期中考试成绩、图书借阅数量以及上网时间作为自变量,建立贫困生学业成绩的回归分析模型。得到的回归方程式如式(4)。

F=-131.81+147.85C+0.81Z+0.02T-0.02W

(4)

式中,F为学业成绩分数;C为上课出勤率;Z为期中考试成绩;T为图书借阅数量;W为上网时间。

根据表5进行BP神经网络预测和根据回归分析法得到的式(4)进行预测,对比结果如图1所示。

图1 BP神经网络和回归分析法的学业成绩预测结果

从图1可以看出,BP神经网络对高校贫困生学业成绩的预测结果和真实分数比较接近。而回归分析法的预测结果和实际值存在偏差。

在进行预测时,实际值和预测值之间的接近程度一般采用拟合度来表征。对BP神经网络和回归分析法的预测结果进行相关性分析,结果如图2所示。

图2 BP神经网络和回归分析法预测结果的相关性分析

从图2可以看出,BP神经网络的拟合度为0.96,预测结果与实际值较为一致,具有较高的精确度,回归分析法预测高校贫困生学业成绩的拟合度为0.70。因此,BP神经网络对高校贫困生学业成绩的预测精度更高,更有效。

4 总结

高校贫困生学业成绩的有效预测是精准扶贫背景下实现精准“扶智“的前提和基础。本研究在学习状态监测数据的基础上建立BP神经网络模型对高校贫困生学业成绩进行预测,可以有效筛选学习存在高风险学生,主动干预,为高校贫困生学业成绩的提高,确保学业顺利完成提供有力参考。

采用BP神经网络构建高校贫困生学业成绩预测模型,无需寻找样本数据间的显性关系式和数学模型即可直接预测学业成绩。筛选贫困生上课出勤率、期中考试成绩、图书借阅数量以及上网时间等四个因素作为学业成绩的预测指标。对BP神经网络进行优化,当隐含层节点为9,输入层函数为purelin,输出层函数为purelin时BP神经网络的预测精度达到最优状态。该模型与回归分析模型的检验结果进行对比研究,两个模型对高校贫困生学业成绩预测的拟合度分别为0.96、0.70,充分验证了BP神经网络模型对贫困生学业成绩预测的精确度更高。

猜你喜欢
出勤率学业成绩贫困生
基于回归分析模型的学生学业成绩差异研究
大学生成就动机与学业成绩关系的分析
学生旷课率高?美国学校安排专人叫起床
高职生成就目标定向、学习策略与学业成绩关系研究
不来的理由
大学生上网情况与学业成绩关系的实证研究
巧解百分数问题
“贫困生班主任”李金林
十年筹资千万元 资助八千贫困生
结对"百千万"情暖贫困生