一种自编码组合优化的成绩预测模型

2019-06-30 02:33李松江苏瑀王鹏黄春雨
企业科技与发展 2019年10期
关键词:BP神经网络深度学习

李松江 苏瑀 王鹏 黄春雨

【摘 要】针对现有成绩预测方法不能有效利用学生成绩数据本质特征的问题,提出一种自编码组合优化的成绩预测模型。该模型采用边缘降噪自编码与堆栈稀疏自编码组合优化的混合式自编码器(HSAE),从历史成绩数据与学生行为数据中,经过无监督的网络训练,学习更具鲁棒性和稀疏性的深层特征。在顶层连接BP神经网络,构成HSAE-BP神经网络模型,实现学生成绩预测。实验结果表明:所提出预测模型的预测准确率相比其他未进行特征学习的浅层预测模型都得到了较好的改善。

【关键词】成绩预测;深度学习;边缘降噪自编码;堆栈稀疏自编码;特征学习;BP神经网络

【中图分类号】TP391 【文献标识码】A 【文章编号】1674-0688(2019)10-0049-03

0 引言

学生成绩预测已经成为EDM(教育数据挖掘)领域的热门研究方向之一[1],有效的成绩预测对全面提高教学质量等方面有重要作用。近年来,针对学生成绩预测的相关研究在国内外取得了一定的成果。QH Do等人[2]结合学生标准化的考试成绩及影响成绩的外在因素,将布谷鸟搜索(Cooperative Cuckoo Search)与自适应神经网络推理系统(ANFIS)进行组合用于学生学业成绩预测。罗永国[3]提出了一种改进遗传算法的BP神经网络建立学生成绩预测模型。大多数成绩预测模型主要集中在浅层学习中,很难从中提取影响学生成绩的深层次特征,模型的泛化能力和鲁棒性较差,影响预测的精度[4-6]。

本文将深度学习应用到学生成绩预测中,利用深度特征学习模型对历史成绩及学生行为等输入数据进行特征学习,学习到学生成绩相关数据的深层特征,然后利用深层特征表达输入BP神经网络进行学生成绩预测。

1 基于HSAE的学生成绩特征学习

学生成绩受多方面因素的影响,人工设计特征过程复杂且容易出错,样本本身分布不均等[7-8]。为防止这些影响因素导致的网络鲁棒性差、泛化能力弱等问题,同时为了更有效地利用学生成绩和行为数据的本质特性,自动学习到有价值的特征表达代替原始输入特征[9]。

由图1可以看出,整个特征学习过程是将成绩预测的影响因素输入样本数据、经过第一层学习得到比输入维数大的隐藏特征表达,再将经过稀疏自编码的多次学习得到其n阶的特征并输出,最后一层隐藏层的值即为深层学习的特征表达。

HSAE特征学习的整个过程是通过输入影响成绩的特征向量,经过多个隐藏层的深度网络结构自动学习得到深层表达的高维特征。由于HSAE具有边缘降噪自编码对噪声干扰的鲁棒性,又具有堆栈稀疏自编码的稀疏性限制,因此能够学习到更具有代表性和鲁棒性的高维特征,将其代替预测模型的初始化输入,可有效改善模型的泛化性能,提高学生成绩预测精度。

2 学生成绩预测模型构建

在混合式自编码的顶层连接一个BP神经网络模型来构建HSAE-BP预测模型。將通过HSAE得到的深层特征表达输入到BP神经网络进行预测,其预测流程框架如图2所示。

预测框架主要包含3个部分:数据预处理、HSAE逐层训练和HSAE-BP预测,具体的预测流程如下。

(1)对采集到的异常数据进行清洗,将所有的历史成绩数据和各行为指标数据进行归一化处理。对所有样本数据集进行处理后,满足预测模型的输入输出要求。

(2)将训练样本集作为HSAE-BP预测模型的输入,利用HSAE逐层进行特征学习得到更深层次的特征表达,经过有监督预训练和无监督微调使得预测模型达到最优。

(3)将测试样本集输入至最优的HSAE-BP预测模型中进行学生成绩预测,并根据预测结果对模型性能进行评估。

3 实验与结果分析

3.1 实验数据及参数设置

实验数据来源于吉林省某高校采集的真实学生成绩数据和学生行为数据。本文选取2014年9月—2017年8月14级学生的历史成绩及行为数据作为样本数据集,数据量约5 000条。对样本数据集进行数据重构来产生输入输出向量(见表1)。选取90%的样本数据集作为训练数据集,用于权重和网络结构的确定,10%的学生样本数据集作为测试数据集对网络性能进行评价。

本文采用Python深度学习库实现基于HSAE-BP的学生成绩预测模型,从表1中可以看出本实验的输入特征向量个数为9,输出向量个数为1。HSAE模型包含一个边缘降噪自编码和3个稀疏自编码构成混合式自编码器,BP神经网络模型包含了1个隐藏层、1个输出层,模型参数设定为λ=1×10-4,γ=0.001,ρ=0.072,η为自适应学习率[10-11]。

3.2 误差评价指标

为进一步对所提出的预测模型的性能进行评价,本文选用均方根误差(RMSE)、平均绝对百分误差(MAPE)这两个性能指标作为模型的评价标准。具体公式如下:

其中,N表示预测样本数,yi表示真实数据,■i表示预测数据。

3.3 预测结果分析

为了更好地分析HSAE-BP深度学习模型的预测效果,本文从3个方面对该模型的有效性进行验证。第一是通过学生真实成绩和经过BP神经网络、SAE-BP和HSAE-BP 3个模型的预测成绩进行对比,检验模型的拟合程度;第二是对比BP神经网络、SAE-BP和HSAE-BP 3个模型的误差,通过MAPE和RMSE来验证本文提出模型的有效性。

实验1:预测结果对比

使用相同的数据集将BP神经网络、SAE-BP和HSAE-BP 3个模型的预测成绩与真实成绩进行对比,用来检验模型的有效性。由于学生样本数较多,图3中只随机选择了60个学生样本数据集进行成绩预测所得预测值与实际成绩值的分布对比图。

从图3中可以看出,在对实际学生成绩的预测结果中,HSAE-BP模型的预测值与真实值之间的误差相比其他两个模型的误差都要小,预测的学生成绩可以在一定程度上拟合真实的学生成绩数据,进而充分验证了HSAE-BP在预测成绩上的有效性。

实验2:误差比较

本文采用BP神经网络模型,SAE-BP神经网络模型和本文提出的HSAE-BP模型进行误差对比实验,验证HSAE-BP模型的有效性。考虑到不同数据集可能引起预测模型误差变化的问题,使用不同的数据集分别进行模型预测性能对比实验,实验结果见表1。

从表1中可以看出,在不同的数据集下,不进行深层特征学习的BP神经网络模型的预测性能受特征学习的影响波动较大,相比加入SAE的BP神经网络预测模型,其预测误差相对较大,泛化能力较差,这说明SAE-BP神经网络模型可对输入数据进行有效提取。而本文提出的HSAE-BP模型相比前两个算法在两种数据集上取得了最好的预测效果,不同数据集中,MAPE的值最小为0.041 6,RMSE的值最小为12.48,相对于SAE-BP模型和不进行深层特征学习的BP神经网络模型,误差下降程度很大,且本方法的誤差能很好地控制在5%以内,说明本文提出的对初始化输入向量使用混合式自编码器进行特征提取,更好地提取更深层次的特征表达,能在一定程度上减小真实值与预测值误差,提高了泛化能力,进而提高了模型预测性能,充分验证了HSAE-BP在预测成绩上的有效性。

4 结语

本文将深度学习引入学生成绩预测领域,为更有效利用学生成绩数据的本质特征,采用边缘降噪自编码和堆栈稀疏自编码组合优化的混合式自编码对特征进行深度变换,实现自动提取深层特征表达。在顶层加入BP神经网络,构建深度学习预测模型(HSAE-BP)。实验结果表明:所提出模型具有较强自适应学习能力,能够学习更深层次的特征性能,泛化能力较强,其预测准确率和时间复杂度相比传统预测模型都得到了较好的改善。

参 考 文 献

[1]Rocero C,Ventur S.Educational data mining:A review of the state of the art.IEEE Trans on Systems,Man and Cybemetics[J].Part C:Applications and Reviews,2010,40(6):601-618.

[2]QH Do.A cooperative Cuckoo Search hierarchical adaptive neuro-fuzzy inference system approach for predicting student academic performance[J].Journal of Intelligent & Fuzzy Systems,2014(27):2551–2561.

[3]罗永国.基于改进的遗传算法的学生成绩预测模型[J].科技通报,2012,28(10):223-225.

[4]Huang W,Song G,Hong H,et al.Deep architecture for traffic flow prediction:deep belief networks with multitask learning[J].IEEE Transactions on Intelligent Transportation Systems,2014,15(5):2191-2201.

[5]徐逸之,彭玲,林晖,等.基于栈式自编码的上海地铁短时流量预测[J].计算机工程与科学,2018,40(7):1275-1280.

[6]Qu X,Kang X,Zhang C,et al.Short-Term Prediction of Wind Power Based on Deep Long Short-Term Memory[C].Power and Energy Engin-eering Conference(APPEEC).Xian:IEEE,2016:1148-1152.

[7]吴润泽,包正睿,宋雪莹,等.基于深度学习的电网短期负荷预测方法研究[J].现代电力,2018,35(2):43-48.

[8]徐培,蔡小路,何文伟,等.基于深度自编码网络的运动目标检测[J].计算机应用,2014,34(10):2934-2937.

[9]袁非牛,章琳,史劲亭,等.自编码神经网络理论及应用综述[J/OL].计算机学报,http://kns.cnki.net/kcms/detail/11.1826.TP.20180921.1146.002.html,2018-12-21.

[10]Vincent P,Larochelle H,Bengio Y,et al.Extrac-ting and composing robust features with denoising autoen-coders[C].Proceedings of the 25th International Conference on Machine,2017:1001-1005.

[11]朱芳枚,赵力,梁瑞宇,等.面向中文语音情感识别的改进栈式自编码结构[J].东南大学学报,2017,47(4):631-636.

猜你喜欢
BP神经网络深度学习
有体验的学习才是有意义的学习
就bp神经网络银行选址模型的相关研究
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
基于DEA—GA—BP的建设工程评标方法研究
复杂背景下的手势识别方法
深度学习算法应用于岩石图像处理的可行性研究
BP神经网络在软件质量评价中的应用研究 
基于深度卷积网络的人脸年龄分析算法与实现