大数据技术在高校学生助学金评比中的应用

2017-05-31 13:48李丰
计算机教育 2017年5期
关键词:助学金大数据

李丰

摘 要:高校助学金评比主要依据为学生家庭经济情况,如何通过学生档案数据、校内外兼职数据和校内一卡通使用相关数据真实反映学生经济状况是关键。文章针对这一问题提出使用PostgreSQL作为非关系型数据库,使用可编程统计分析软件R对存储流进行分析和建模后数据挖掘,通过对上述数据进行采集、数据提取和存储、数据计算和分析等过程,产生学生消费数据分析汇总表,作为学生助学金评比的重要依据。

关键词:大数据;助学金;PostgreSQL;统计分析软件R

文章编号:1672-5913(2017)05-0154-04

中图分类号:G642

1 大数据技术和高校学生行为活动中大数据的产生

1.1 大数据的产生

随着计算机相关信息技术和互联网技术的推广与发展,互联网根据应用协议在信息传输中大规模运用“请求”+“响应”模式。所有接入互联网的设备、软件等客户端通过发送数据主动提出服务请求,服务器端会根据指令发送相应的请求数据,用户在客户端上的每一次访问请求其实就是一次鼠标点击或键盘输入数据的操作,在服务器的操作日志中,会忠实地记录下每个人“访问的时间、请求的命令、访问的网址”[1]等数据。用户在网络上或各种应用系统操作中产生的各种数据就像生活中不经意间留下的各种各样痕迹一样,这些痕迹串连到一起,交织成了网民们在互联网上的各种行为轨迹。这些貌似杂乱无章的各种庞大数据,经过量的积累完成了质的飞跃,数据中蕴含着巨大的价值。

类似的数据之间“具有非关系型、无序”,被称为非结构化大数据,包含文字、图片、视频、音频等[2],过去几十年中已经积累了好多,未来还会有更多的数据呈几何级数增长,而云计算的产生和云技术的不断成熟,为大数据的存在提供了巨大的存储空间和合理的访问技术,为数据分类、查询和透视分析带来了可能,从而使得大数据技术成为信息技术发展到一定阶段后再次产生质的飞跃的必然产物。

1.2 高校学生活动中的大数据

高等学校是一个人员非常密集的生活教育场所,校内学生是信息技术的天然受众,学生的出行、购物、饮食起居、生活娱乐、接受教育等过程中,各种数据终端的使用和各种系统的应用,会在无形中产生巨大的数据量。如果对这些数据加以运用,可以更好地改善学生生活服务质量,提升服务水平。

(1)高校原始基本数据的产生。主要是指学生和学校原始基本数据的录入,如每年的“高等学校数据平台”和“高等学校基层统计报表”中学校相关数据的全方位输入、学校固定资产管理系统中资产增加或淘汰后的信息更新、高校实验室信息管理系统中实验实训设备数据的更新以及每年新生入学后所有新生基本数据的导入。

(2)应用系统中数据的产生。目前学校使用的各种信息化系统主要有进出校门的门禁系统、平时服务的校园一卡通系统、教学管理方面的教务管理系统和学工管理系统、学生学费管理方面的财务管理系统、图书借阅方面的图书管理系统、行政办公方面的OA办公系统、学生联系方面的校迅通、固定资产管理方面的资产设备管理系统,另外还有校园BBS和百度贴吧中的各种文本内容和视频监控系统中的各种数据。以上一系列信息设备的使用,不仅仅方便了高校管理,而且在系统使用过程中产生出大量的中间数据,这些来源广泛的数据,其类型呈现多样化的形式,有结构化数据、半结构化数据和视频、音频、图形等非结构化的数据。这些中间数据和互联网上相关的学生活动数据整合起来,和基础数据一起进行过滤、清洗与整合,共同组成能反映学生各方面生活学习细节的原始大数据。

2 学生助学金评比中涉及的相关数据

通过与学生资助管理部门工作人员、高校中各系分管学生工作人员和辅导员沟通交流,他们一致认为学生助学金和学生奖学金是有很大区别的,它存在的目的为资助家庭经济困难学生完成学业,因此评比标准中最重要的一条就是学生家庭经济情况。大数据技术使用的最终目的是如何真实反映学生家庭经济情况,数据的采集和整理可从以下几方面考虑。

(1)学生学籍档案中体现出的各种数据,如家庭年收入情况、父母居住地为农村或城市、是否为单亲或离异家庭、父母工作单位、主要社会关系、学生健康状况等各种数据,这些信息可以作为评定学生助学金的一个重要参考,但由于助学金评定范围广、参与学生多,对一些家庭经济情况不太明显的学生,参考价值就不是太大。

(2)学生校内外兼职数据。这个数据主要涉及两方面,一方面是兼职迟早问题,也就是大一就开始兼职,还是大二或大三才开始兼职,兼职越早从理论上来说,家庭经济情况可能更差;另一方面是兼职时间问题,每周多少小时,时间越长、权重越高,有的学生可能有几份兼职;最后是兼职地点问题,校外兼职还是校内兼职。

(3)学生在校内餐厅、小卖部等处刷卡消费数据。这个是学生助学金发放依据的主要数据,最能说明问题,由以下几点组成:①刷卡频次问题,因为学校餐厅的就餐费用相对来说比较低,所以频次太低的同学虽然每月刷卡金额总数少,但不能说明家庭经济情况差,频次太高的同学说明家庭经济情况相对较好,所以经过认真核对之后,把每月刷卡频次大于平均频次1/3的同学数据提取,其他淘汰;②刷卡金额问题,家庭经济情况不好的同学刷卡频次一般,就餐时可能以主食为主,中高价菜肴和小卖部较贵物品购买较少,每月平均单次刷卡金额一定不会太高;③刷卡时间问题,因涉及学生服务和利益因素,学生食堂开放时段很长,对单个学生来说如果长期刷卡时间和正常上课时间重复,说明该生学习态度和学习积极性有问题。

3 大数据技术的使用和解决方案

3.1 技术分析和工具的使用

由上文的大数据技术应用和学生助学金评定中大数据的产生可以看出,技术上问题的解决实际就是对产生的大数据进行恰当的采集、合理的分類存储并最终正确计算分析的过程[3]。这个过程中涉及两个技术问题:一个是数据的分类存储过程中需要将原来的数据导入能够进行大数据技术应用的相关数据库中,如Hadoop++、HBase、HadoopDB、Hive等;另一个是导入过程和计算分析过程需要用到的工具,如OCTAVE、SCILAB、R软件等[4]。经过对数据库规模、计算速度、适用性、使用熟练程度等综合分析,我们决定在数据库方面使用PostgreSQL,在对存储流进行分析和建模后的数据挖掘过程中使用可编程统计分析软件R,理由有以下几点:①这两款软件都是开源的免费软件,从技术方面看成本特别低,有利于高校的开发和使用;②PostgreSQL 是一个对象—关系数据库服务器,涵盖极其丰富的数据类型支持和十几种平台支持,具备多版本并行控制系统(MVCC)、子查询、数据完整性检查等多种特性,虽然在数据库集群方面有所欠缺,但是正好适用于本系统的数据存取;③R软件能够进行制图、计算和数据处理,具备简洁高效的编程语言、完整的统计分析、强大的数组运算工具等功能。endprint

3.2 技术实现的解决方案

1)相关数据的采集。

(1)学生档案中涉及的相关信息在学生入学时提供的电子档案基础上,由学生工作人员在每年的新生开学前采集并上传至学工管理信息系统,在需要时首先由系统操作人员根据关键字对信息进行查询,将符合要求的相关信息筛选到助学金评定人员手中,作为评定最先需要依据的数据,一些特殊情况如单亲、低保等情况可以不考虑后面数据直接评定助学金。

(2)学生校外兼职数据可以作为一个重要的参考,由各班班主任和辅导员负责采集、汇总并上报相关部门,兼职时间的长短和兼职地点在校内或校外这两大因素对学生校内刷卡频次和消费金额有直接而深远的影响。

(3)刷卡消费相关数据量大、结构复杂、技术要求高,是本次大数据技术应用中分析的数据,相关数据内容存储于校内一卡通服务器上,存储方式单一,有利用提取和分析。

2)学生刷卡消费相关数据的提取和存储。

在一个时间节点上如一学年结束后进行数据采集,用R软件对数据进行流分析,把处理完成的数据流用关系型数据库的方法以JSON格式读入PostgreSQL数据库中。具体的操作过程为:第1步,把R软件和PostgreSQL数据库以开放数据库连接方式进行连接;第2步,在数据结构现有状态不变的情况下,通过数据框添加,插入PostgreSQL数据库内临时表中;第3步,根据要求创建一个新的数据库,通过一个新编写的SQL脚本把上一步中临时表内的数据以一定的频率写入新的数据库中,最后将临时表删除。数据采集工作结束以后,前2个步骤根据程序设定自动执行,步骤3中的SQL脚本一般不定时,根据数据量手动运行。

3)学生刷卡消费数据的计算分析过程。

导入PostgreSQL数据库后就要进行数据分析,此处主要是指对数据进行挖掘和统计。一开始的数据分析因为数据总量相对比较少,我们应用硬盘缓存技术缓解由于内存容量低产生的卡和慢问题,将R软件采用开放数据库连接方式连接到PostgreSQL数据库中,把数据移动到R软件进行分析。在以后的操作过程中,如果数据量特别大,因为数据分析的需求通常情况下比较固定,为了降低数据迁移的成本,就必须将R软件代码用自定义函数的形式插入PostgreSQL数据库的存储过程中,在PostgreSQL数据库内部对数据进行统计分析和数据挖掘。

经过数据统计分析和挖掘后,综合刷卡频次、刷卡金额和刷卡时间对数据进行计算,取一个值α。α计算方法为每月刷卡总金额/(每月刷卡總次数-规定时间外刷卡次数),然后排除每月刷卡频次小于平均频次1/3的同学,最后把每月的α加起来,以班级为单位由低到高排名。

4 结果呈现

经过大数据提取分析后,最终提交给班主任和学校资助管理人员3张表,优先级别分别为表1、表2和表3。

(1)表1是学生家庭情况表,分为三星、二星、一星3种情况:三星为严重情况,如家庭为单亲或离异家庭、家中直接亲属有重大疾病、家住农村为低保户等,可以不考虑后2张表优先评定;二星为一般情况,如家庭经济收入较低等,在参考表3的情况下做到优先评定;一星为普通情况,也有可能家庭收入较低但在表上没有体现出来。

(2)表2是学生兼职情况表,以班为单位,有本班学生姓名、兼职地点、兼职开始时间、每月兼职时长等相关信息,评定人员根据相关信息进行评定。

(3)表3是学生消费数据统计汇总表,由于表中涉及的数据庞杂,呈现给学生助学金评定人员的有两部分内容:一部分是每月刷卡频次大于等于平均频次1/3的同学,把每月的α加起来,每名学生一个数值,由低到高排名;另一部分是每月刷卡频次小于平均频次1/3的同学,也把每月的α加起来并排名。

各班班主任(辅导员)和学生资助管理人员根据3张表的优先级和表的内容,将其作为评定助学金时一个重要依据。另外一个值得注意的重要问题就是表中内容涉及学生个人隐私,根据相关法律不能在公开场合泄露,希望相关人员高度重视。

5 结 语

学生助学金的评比是一个多维度、复杂的过程,除了家庭经济情况外,还要参考学生学习状况、遵守校规校纪情况等。大数据技术的应用可以给评定过程提供一些重要依据和有意义的参考,但技术的发展和完善是一个长期的过程,文中提到的技术有局限性,整合的数据也有片面性,希望高校的教育工作者能够不忘初心,秉持崇高理想,充分运用自己的管理技巧使学生助学金评定更加客观、公正、合理。

参考文献:

[1] 赵国栋, 易欢欢, 糜万军, 等. 大数据时代的历史机遇[M]. 北京: 清华大学出版社, 2013: 13.

[2] 黄恒军, 漆威. 海量半结构化数据采集存储及分析[J]. 统计研究, 2014(5): 10-16.

[3] 陈吉荣, 乐嘉锦. 基于Hadoop生态系统的大数据解决方案综述 [J]. 计算机工程与科学, 2013(10): 25-34.

[4] 张德刚, 张德海, 吴毅, 等. 面向大数据分析的企业信息化解决方案研究[J]. 电力信息通信技术, 2014(9): 11-14.

(编辑:宋文婷)endprint

猜你喜欢
助学金大数据
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索
The Value of a University Education
美国加州建议取消助学金 贫困生如断后路