基于大数据的高校学风建设的分析与研究

2019-02-02 03:58王瑜晗王乙如刘超富秦晓博张子康宋莹
数字技术与应用 2019年11期
关键词:关联分析学风建设大数据

王瑜晗 王乙如 刘超富 秦晓博 张子康 宋莹

摘要:高校的学风建设是高校办学目标中的重点建设对象,是体现高校办学质量的重要所在。这篇文章正以北京信息科技大学的学风基础数据为例,从不同维度对基础数据进行统计分析、计算及比较,发现和挖掘影响学风建设的各种因素,提出有利于学风建设的建议。

关键词:大数据;学风建设;关联分析

中图分类号:G641 文献标识码:A 文章编号:1007-9416(2019)11-0188-04

0 引言

近年来,随着“大数据”成为互联网信息技术行业的流行词汇,教育逐渐被认为是大数据可以大有作为的一个重要应用领域。利用大数据对学生的数据进行分析,挖掘,可以得出有利于高校学风建设的信息与知识,探索加强和改进学风建设的有效途径,为高校教学提供决策,推进教育教学改革,提高学生的教育培养质量。此外,优良学风是进行教育改革的前提条件,加强学风建设更是教育改革深入进行的需要,但当前高校学风建设仍存在很多问题。

首先是理想和现实的落差,一些学生由于盲目报考专业以及入校后专业选择上的限制,使许多学生往往学非所愿、学非所长,这些使他们消极苦闷、缺乏学习动力。其次是不能尽快适应大学的环境和学习方式。部分学生不能够尽快适应从高中到大学的角色转变,不知如何合理规划自己的生活,从而影响学习。再者是缺乏持之以恒、勤奋刻苦的学习精神,脱离了家长和老师束缚的大学生难免会放松对自己的要求。最后是学习目的不明确,学习态度不端正,功利性太强。有些学生缺乏人生目标和理想信念,对自己的大学生活没有合理的规划,没有明确的学习目的,导致学习动力不足,与他人差距越来越大。

本项目主要是以本学校数据为主,在了解其他学校数据的基础上,对学生的一些数据进行分析、挖掘得出结论,提出一些加强和改进高校学风建设的指导意见,为高素质人才培养打好基础,促进高校人才培养的特色建设、品牌建设,以及人才培养质量的不断提升。

1 高校学风数据的获取与预处理

1.1 影响因素的确定

学风建设是一所学校发展的重中之重,基于当前大学生的学风问题,我们构建了科学、全面、合理的评价模型,遵循科学性、导向性、全面性、可行性、发展性等原则,确定了评价体系的各个指标要素:学校排名情况、出勤率、人均学习时间、图书馆借阅情况、参加社团情况。

1.2 数据采集

我们通过进入各大高校调研、对同学们发放调查问卷以及向相关老师获取数据等方法进行数据的采集,对于采集不到足够数据的情况,我们随机抽取现有数据进行复制,获得足够大的数据量,保证结果的准确度,我们发出问卷1800份,实际有效问卷1748份,此外我们还利用Python作为处理工具,收集到了各大高校的排名情况。

1.3 数据清洗

本项目的预处理选择Python作为数据处理工具,首先查看元数据即调查问卷中我们所收集到的信息,另外是随机抽取一部分的数据,通过人工查看的方式,对数据本身做一个比较直观的了解,并且初步发现一些问题,为之后的数据做准备。

其次抽取部分数据进行删除错误字段来构建模型,模型效果达到预期效果后,再在整体数据中进行删除错误字段的操作,以免效果不理想对数据进行损坏出现误差。

然后进行对异常值的处理,通过各项频数分析判断是否存在异常值,当项目发现存在异常值之后,项目对各项数据分别求出其标准差,设定与平均值的偏差超过三倍标准差的值为异常值,对于检测出来的异常值,项目采用了填补法,即处理掉异常值并在相应位置随机填补平均值、中位数或众数。

最后项目根据各个学校的综合情况,将所有学校分成三组,如表1为数据清洗部分结果。

2 数据关联分析及可视化

2.1 关联分析法

因为本项目中有多个因素,关联分析能更好的分析各个因素之间的关系,作出对数据中变量之间关系的最佳解释,本项目计算了支持度,置信度,提升度,确信度。计算支持度的意义在于,预判这条规则是否值得继续挖掘,支持度越高,这些项出现的越频繁,这暗示了他们可能蕴藏着的值得挖掘并利用的关联规则;置信度反映了這条规则的可靠程度,但是置信度存在一个盲点,就是没有考虑到规则后继单独发生的概率,所以,本项目又选择了提升度,提升度越高,这条关联规则越有潜在意义,一般情况下使用支持度,置信度,提升度作为参考,当然也会参照确信度。

2.2 Apriori算法

由于Apriori算法原理简单,容易被人理解,易于并行化,对大数据有优势,而且算法结果可以在实践中直接使用,因此项目采取了Apriori算法进行关联分析。

(1)构建模型。

1)发现频繁项集。

①找出频繁“1项集”的集合,该集合记作L1,L1用于找频繁“2项集”的集合L2,而L2用于找L3,如此下去,直到不能找到“K项集”,找每个Lk都需要一次数据库扫描。

②连接步和剪枝步,连接步是自连接,原则是保证前k-2项相同,并按照字典顺序连接。剪枝步是使任一频繁项集的所有非空子集也必须是频繁的。反之,如果某个候选的非空子集不是频繁的,那么该候选肯定不是频繁的,从而可以将其删除。

③重复以上步骤直到不能发现更大的频集。

2)产生关联规则,根据前面提到的置信度的定义,关联规则的产生如下:

①对于每个频繁项集L,产生L的所有非空子集;

②同时满足最小支持度阈值和最小置信度阈值的规则为强规则。

(2)我们以社团活动对自己的影响和一学期去图书馆借阅图书次数关系为例,大致流程如下:

1)首先扫描数据库,计算社团活动对自己的影响和一学期去图书馆借阅图书次数的每个选项的支持度得到候选项集C1,如表2,然后比较产生L1,进行连接,得到候选项集C2,如表3;

2)设定一个支持度阈值k为 0.100,支持度大于等于0.100的为高频项集,反之为低频项集,对C2进行扫描比较产生L2,得出高频项集为{提高个人素养,4-7}=0.176,{丰富课余生活,4-7}=0.118,{提高个人素养,8-11}=0.103,{效果不明显,8-11}=0.105;

3)设定一个置信度阈值为0.400,置信度越高,A出现与B出现的关系较大,计算置信度后得到表4,得出关系较大的为{提高个人素养,0-3}=0.918,{丰富课余生活,0-3}=0.985,{效果不明显,0-3}=0.496,{提高个人素养,4-7}=0.468,{丰富课余生活,12及以上}=0.420;

4)同时满足最小支持度阈值和最小置信度阈值的规则为强规则,参照表5的提升度和表6的确信度得出:(效果不明显,8-11)、(提高个人素养,4-7)关系较大。

(3)根据以上事例采用的算法可得出:

1)第一部分和第二部分学校的学生以“提高个人素养为目的参加社团活动”和“去图书馆借阅图书4-7次”关系较大,第三组各因素之间均无较大关联。

2)第一部分学校的学生“以提高个人素养为目的参加社团活动”与“学校的硬件措施完全满足教学要求”有较大关联;第二部分和第三部分学校认为“社团活动对自己的影响不明显”和“学校硬件措施勉强满足教学要求”有较大关联。

3)第一部分学校学生认为“学校的硬件设计基本满足教学要求”与“一学期去图书馆借阅图书4-7次”关联较大;第二部分和第三部分学校学生认为“学校的硬件设计勉强满足教学要求”与“一学期去图书馆借阅图书0-3次”关联较大。

4)第一部分学校学生“每周每天上自习”与“课堂出勤都不错”关联较大,“时常上自习”与“课堂出勤考试课高考查课低”关联较大;第二部分“时常上自习”与“偏理科目高,偏文科目低”关联较大,“偶尔上自习”与“各课程出勤都不错”关联较大;第三部分“时常上自习”与“考试科目高考查科目低”关联较大。

5)第一部分学校学生“每周每天上自习”与“绩点3-5”关联较大,“视心情身体状况而定”与“绩点1-2”关联较大;第二部分学校学生“偶尔上自习”与“绩点3-4”关联较大,“视心情身体状况而定”与“绩点1-2”关联较大;但第三部分各因素之间关联均不大。

6)第一部分“各课程出勤都不错”与“绩点3-5”关联情况较大,“偏理科目出勤高,偏文科目出勤低”与“绩点2-3”关联较大;第二部分“各课程出勤都不错”、“各课堂出勤勉勉强强,亟待提高”与“绩点3-5”关联情况较大,“偏文科目出勤高,偏理科目出勤低”与“绩点2-3”关联较大;第三部分“各课堂出勤勉勉强强,亟待提高”与“绩点4-5”关联情况较大,“偏文科目出勤高,偏理科目出勤低”与“绩点1-2”关联较大。

2.3 可视化

以高校学生绩点情况为例,利用Python进行可视化展示如图1、图2、表7、表8。

本部分主要是利用前面得到的分析结果,利用可视化工具,协助数据分析得出结果,有助于与各种数据的横纵向比较,得出分析结论,提出更有效的改进学风的各种意见。

2.4 结果分析

经过以上数据分析和可视化,我们得出以下结论:

在学风建设中,影响高校学风建设的因素可以分为内部因素和外部因素,内部因素是指学生的自身情况,如出勤率,学习情况,自习情况等,外部因素是指学校的条件,如学校硬件措施,学校管理等,经过综合分析,我们得出,学风建设由老师,学生,与学校的硬件措施以及学校举办相应的活动共同决定,经过数据分析,得出内部因素占比33.2%,即学生自身问题(33.2%),外部因素占比66.8%,其中校园文化氛围(24.5%),学校管理(18.6%),教师的影响(14.7%),其他(9%)。

在社团建设方面:部分学校不重视社团,参与社团建设較少导致社团建设管理工作“松散化”,领导层面的不重视直接导致学校老师的不重视,社团的工作开展困难,使得学生在社团没有参与感,这不利于学风的建设。

在图书馆建设方面:部分学校硬件比较全面,对图书馆的建设比较重视,学生则可以得到很多资源;部分学校设施不太全面,管理不到位,使得图书馆没有更好的为学生服务。

在出勤率,自习情况与绩点方面:部分学校高校看重科研成果而轻视基本教学,导致许多教师把重点放在科研上,对教学不够重视,使得许多学生对学习不够重视,许多学校为了更好地利用教师和教室资源,通常采取上大课的形式,这样就难以保证课堂出勤率。而有的学校较重视课堂出勤率,采取了一些提高出勤率的方法,如教师随机点名,学生听课情况较好,绩点较高;但考虑到各学校文理侧重点方面,因此各部分学校文理科出勤情况不同;对于自习,部分学校较重视学生自习情况,学生自习次数多,掌握的知识多,绩点较高,但是部分学生自制力较差,不能经常自习,绩点较低;部分学校学生自制力较差,自习时间过于分散,但是在绩点方面还要考虑到学校与学校出的题难度不同,在一些学校题的难度较低,学生很容易取得较高的绩点。

3 对策意见

综合上述结论,可以得出,学生自习情况较好,课堂出勤率较高,积极去图书馆,勤于做练习,并且社团建设较好,硬件措施较齐全的学校学风建设情况比较好。

为此提出以下意见,学校要加强制度建设,注重对学生的鼓励引导,促进学生主动学习,学校也可以加大发放奖学金、助学金的力度,对于那些学习成绩好,自觉性高,勇于创新的学生给予鼓励与支持,同时,学校也要有惩罚措施,对于那些不思进取的学生要教育惩罚,学校应结合奖励与惩罚措施,为学风建设保驾护航。

社团活动对学风建设也很重要,学校应加强对社团的重视程度,建立完善的社团管理体系,加强对学生社团的技术、经济等的帮扶,可实施奖罚制度,对于办得好的社团加以奖励和规划进一步发展方向,而对于办得差的社团,应及时查明原因,做到有错必查、查错必改,使社团向好的方向发展,以深化社团的存在意义,让社团在学风建设方面发挥应有的作用。学校要鼓励社团多举办提高学生的文化修养和有关优良学风创建的活动,在开展此类活动时,要求每一位学生按照学风要求进行自我检查,确立学习目标,寻求改进学风的办法。

在图书馆问题方面,对于部分学校图书馆馆舍实际的使用面积不够,无法达到高校在校学生的人均实际使用面积,建议加大图书馆的馆舍使用面积,此外应该合理配置图书馆专业图书,使各专业发展均衡,要破除图书馆陈旧观念,使图书馆图书利用率达到最佳效果。

学校应该认识到自身对于硬件设施建设的不足,充分了解学生要求的情况下,进一步完善硬件设施,为学生的学习提供更好的资源。

参考文献

[1] 赵治.试论当前高校学风建设的现状、原因及对策[J].中国电力教育,2010(18):178-180.

[2] 郑镇锋.新时期高校学风建设的问题与对策[J].社科纵横,2010(02):237-238.

[3] 葛庆龙,陈加辉.加强大一学生学风建设的思路及对策[J].兰州教育学院学报,2010(2):110-112.

[4] 朱其峰.高校学风建设问题及对策研究[J].科技创新报,2013(24):199-200.

猜你喜欢
关联分析学风建设大数据
基于随机函数Petri网的系统动力学关联分析模型
论大学生学风建设的途径