大数据背景下的学生孤独预警模型

2019-09-10 07:22余琳许婷李超廖莉莉许可解攀科
现代信息科技 2019年23期
关键词:大数据

余琳 许婷 李超 廖莉莉 许可 解攀科

摘  要:大数据时代背景下,关注大学生心理健康,要借用技术手段科学、客观推进大学生心理健康教育工作。目前研究学生心理健康大多采用问卷调查的形式,所得结果取决于被调查者的填写情况,不一定真实反映其内心的想法,并且调查个案有限,不能很好地反映总体情况。本文以华中师范大学为例,通过一卡通消费明细、图书门禁明细得出学生间的共现频率,从而得出学生的朋友关系表,得到疑似孤独者名单,结合学生的就业情况,得出朋友关系较少的学生未就业率高于朋友关系多的结论;再运用DecisionTreeClassifier模型,挖掘出各个指标对就业成功的影响力,并基于训练好的模型预测哪些学生有就业失败的可能,可作为重点关注对象。分析结果与日常生活反馈较一致,对于应用大数据在高校学生管理工作有一定的借鉴作用。

关键词:大数据;朋友关系;消费关系;图书馆关系;决策树算法;各指标影响力

中图分类号:TP183       文献标识码:A 文章编号:2096-4706(2019)23-0001-04

Early Warning Model of Students’Loneliness under the Background of Big Data

——Taking Central China Normal University for Example

YU Lin,XU Ting,LI Chao,LIAO Lili,XU Ke,XIE Panke

(Information Office of Central China Normal University,Wuhan  430079,China)

Abstract:Under the background of the era of big data,paying attention to the mental health of college students,it is necessary to use scientific means to scientifically and objectively promote the mental health education of college students. At present,the research of students’mental health mostly adopts the form of questionnaire survey,which depends on the filling of the respondents,not necessarily reflect their inner thoughts,and the investigation cases are limited,which can not reflect the general situation well. This paper takes Huazhong Normal University as an example,through the details of the consumption of smartcard and the access details of the library to get the list of students friendship,and get the list of suspected lonely students. Combined with the employment situation of students,it is concluded that the unemployed rate with fewer friends is higher than that of friends;using the DecisionTreeClassifier decision tree model to discover the influence of various indicators of employment success,and predicting which students fail in employment based on the trained model can be the focus of attention. The analysis results are consistent with the daily life feedback,and it has certain reference for the application of big data in the management of college students.

Keywords:big data;friend relationship;consumption relationship;library relationship;decision tree algorithm;influence of various indicators

0  引  言

在大数据时代背景下,应用数据说话,应有效利用数据挖掘和学习分析产生迄今看不见、不被注意的数据与结论,为高校管理工作提供新思路。尽可能地收集全面的數据,再进行分析、挖掘,客观找出疑似孤独者名单,帮助就业处、院系辅导员查找可能存在问题的学生、提前做好心理健康指导、就业帮扶,物质帮扶等工作,帮助这些学生学会与人沟通交流,纾解心理抑郁,引导学生高质量就业、高幸福感生活,提高学生心理健康危机预警实效性。

1  现状分析

2011年2月23日,教育部印发了《普通高等学校学生心理健康教育工作基本建设标准(试行)》的通知,推进大学生心理健康教育工作科学化建设,强调要加强大学生心理危机预防与干预体系建设[1]。目前我国各高校相继开展了心理健康普查工作,有关调查结果表明:大学生的心理健康状况较差,经常存在心理问题的大学生约占总数的1/5,而有时有心理问题者则高达2/3左右。常有孤独感的大学生约占28.6%,少有孤独感的约占31.7%,从未感到孤独的学生几乎没有[2-4]。孤独、消极的情绪如抑郁、自卑,会危害学生身心健康,影响学习、生活和就业发展。目前研究学生心理健康的论文大多采用调查问卷的形式,得到的结果取决于被调查者的填写情况,不一定真实反映了其内心的想法;并且问卷调查的个案较少,较难保证每个学生都填写问卷,不能很好反映总体。

2  研究内容

各高校主要是通过新生入学时的心理疾病筛查、日常学生间的反馈和心理辅导站老师的心理访谈发现与解决学生心理健康问题,出于保护隐私的考虑,大多高校的学生心理诊断结果及问题名单并未公布,缺乏基础数据源,心理健康的特征难以量化。

本文以华中师范大学为例,采集了2011~2015级共22448名本科生的学生基本信息(性别、民族、生源地、政治面貌、婚姻状况、是否独生子女等)、学籍信息(所在年级、院系、入学年月)、家庭经济情况(是否低保、家庭类别、家庭人口、家庭收入来源等)、毕业生求职信息(是否就业、就业年度)、学习成绩信息(课程成绩、学分)、奖学金信息(奖学金次数及金额)、荣誉奖励信息(次数)、图书借阅信息(借阅数量)、一卡通消费信息、图书馆门禁信息十大数据,其中2011~2014级的本科生17828人,1127人未就业。本文寻找孤独的人,孤独特征难以定义,直接寻找难度较大,研究思路采用排除法,先找出不孤独的人,再用全体减去不孤独的人,即是孤独的人,再去验证。

不孤独即朋友关系多,有朋友一起吃饭、一起去图书馆,用数据特征表示即是同一食堂刷卡时间接近且次数较多、进入图书馆刷卡时间接近且次數较多。如果刷卡时间接近的定义过大则会导致朋友关系网过大、计算量太大;如果刷卡时间接近的定义过小则会导致朋友关系网较小,过滤了原本是朋友的人;考虑日常的实际食堂消费情况,一起去同一食堂可能不同窗口刷卡,刷卡时间相差不会太大,故本文将刷卡时间接近定义为5分钟内。

2.1  数据处理

一卡通消费信息每月约200万条明细数据,计算同一食堂任意两个刷卡时间在5分钟内的学生人数的记录数较多,因数据量较大,选取每个年级在大三4、5、6三个月的消费记录作为样本数据,寻找消费朋友关系网。2011级学生对应的是2014年4、5、6三个月消费关系明细,2012级学生对应的是2015年4、5、6三个月消费关系明细,2013级学生对应的是2016年4、5、6三个月消费关系明细,2014级学生对应的是2017年4、5、6三个月消费关系明细,2015级学生对应的是2018年4、5、6三个月消费关系明细。消费关系明细表结构如图1所示,xny代表每月,xh1代表2011级的某个学生,time1代表xh1学生的消费刷卡时间,xh2代表与xh1消费时间5分钟内的所有学生,time2代表另一学生的消费刷卡时间且与time1相隔5分钟之内,st代表食堂编号。

基于此消费关系明细表统计每个食堂的相遇关系,即统计两两相遇的次数及在该食堂消费的总次数。再将各食堂的相遇关系明细取相遇次数大于10的,unionall得到总消费次数表,再按xh1、xh2分组求和,形成食堂消费的朋友圈关系,如图2所示。

基于此方法同样可以得到图书馆的朋友圈关系。

2.2  数据分析

根据得到的食堂消费的朋友关系表和图书馆的朋友关系表,随意挑选几组学生数据,通过其基本信息联系其辅导员及同年级学生,分析并验证是否是真的朋友关系。

学生2013****62与学生2013****56,图书馆相遇273次,同一食堂相遇次数149次。通过学生基本表找出两个人的特征如图3所示,这两个女同学都来自经济与工商管理学院,平均学分绩都很高,都得了两次奖学金,一个7000元,一个4000元。一个是群众,一个是共产党员,都是汉族,都来自于城镇。一个是福建人,一个是湖北人。都顺利就业。

学生2012****51与学生2012****94,同一食堂相遇次数213次,图书馆相遇22次。通过学生基本表找出两个人的特征,发现这两个学生都来自社会学院,都得了两次奖学金,都是2000元。一个是群众,一个是共产党员,都是汉族,来自于非贫困县和城镇(都不是来自农村或大城市的)。一个是河北人,一个是山东人。都顺利就业。

学号2014****58与2014****81,同一食堂相遇次数134次,图书馆相遇20次。发现这两个学生都来自计算机学院,都是汉族,一男一女,平均学分绩都不高,一个78.15,一个75.72,两个人都没有顺利就业。经辅导员验证,确实为男女朋友。

经验证,以上随机挑选的三组朋友关系,均确实属于真正的朋友关系。再回到本项目中,采用排除法,寻找孤独的人。以2011~2014级全体本科生作为样本数据,共17828人,有食堂消费朋友关系表的有20585人,有图书馆的朋友圈关系表的有43840人(此处两个数字均大于样本数据17828,是因为按照前文提到的数据处理原则,2011~2014级的全体本科生作为xh1,xh2可为符合刷卡时间范围内的全校师生,并不局限于同年级的学生),食堂消费朋友关系与图书馆的朋友圈关系取交集得到朋友较多的有15312人,既不在食堂消费朋友关系表中,也不在图书馆的朋友圈关系表中的有1932人。具体如图4所示。

关联学生的就业信息数据,将疑似孤独的学生1932人按年级性别查看学生分布概况,如表1所示,115人未就业,未就业率5.95%。其中2011级疑似孤独的学生就有1194人,占一半以上,但华中师范大学图书馆是2015年4月才安装门禁的,也就是说门禁数据是2015年4月以后才有的,而按照前面的规则,2011级大三时应对应2014年的门禁数据,故2011级学生的图书馆朋友圈关系可能不准确。将2011级的孤独人数1194人减掉还剩738人,其中76人未顺利就业,未就业率10.30%。而朋友关系较多的15312人中只有608人未顺利就业,未就业率3.97%。可得到结论:朋友关系较少的学生未就业率高于朋友关系多的学生。

2.3  数据验证

通过食堂消费朋友关系与图书馆的朋友关系可以得出朋友关系少的学生名单,关联学生就业数据可以得出朋友关系少的就业失败可能性高于朋友关系多的结论,但如果能通过算法正面验证就业失败有哪些影响因素,则可能更有利于证明结论的可信性。

通过前面的收集的样本数据,2011~2014级四年的本科学生名单17828人,1127人未就业。将就业是否成功作为目标变量,将25个指标(性别、民族、生源地、国籍地区、政治面貌、婚姻状况、所在年级、院系、入学年月、是否低保、家庭类别、家庭人口、家庭人均收入、人均月收入、家庭主要收入来源、毕业年度、总成绩、总学分、奖学金次数及金额、荣誉奖励次数、图书借阅数量、一卡通消费次数及金额信息、图书馆门禁次数)作为自变量,使用决策树模型,找出哪些指标是影响就业成功的因素。

决策树是机器学习中常见的一种用于分类和回归的非参数监督学习方法,目标是创建一个模型,通过从数据特性中推导出简单的决策规则来预测目标变量的值。决策树便于说明和理解,树可以可视化表达;需要的数据准备不太难。故本项目使用python的机器学习算法库scikit-learn中的DecisionTreeClassifier算法。

调用算法之前,我们把数据随机分为训练集和测试集,采用train_test_split随机划分函数,训练集的数据主要用于构造决策树,测试集主要用于计算错误率,看分析训练后的决策树模型能不能使用。

决策树数据模型中树的最大深度是一个关键参数,深度设置较小,会导致欠拟合,训练集的错误率较高;深度设置较大,会导致过拟合,训练集的正确率很高,但测试集的错误率较高。想要较好地调研决策树分类算法,首先需要找到一个合适的max_depth值。

将最大深度设为1~40,计算每个值的预测情况并画图,所得结果如图5所示。

根据图5,选取max_depth=21,再进行模型训练,计算每个指标对目标变量的影响力。得到训练集准确率0.9859,测试集准确率0.8937,以及每一个指标对目标变量的影响力。如图6所示,发现deal_cs、deal_money、tsg_cs、tsg_ jybs(消費次数、消费金额、进入图书馆次数、图书借阅本数)四个指标对就业是否成功的影响力相对较大,其次是zcj、zxf(总成绩、总学分)。再次验证了之前的结论,就业失败可能性与消费关系及图书馆关系有相关性。

3  应用与验证研究

预测2015级本科生情况(总4620人),首先找出不在消费朋友关系表和图书馆朋友关系表中的名单,有500人,可得到疑似孤独者名单。再用这500人名单用之前训练的决策树模型去预测就业失败的人数,发现基于此模型,有153人会就业失败,可被认为是重点关注孤独对象。为了实际验证模型的准确性,将153人按院系进行分布,其中计算机学院有11人,经辅导员与同学反馈,其中1人是2014级降级下来的,另10人中有2人确实存在某些问题,其余8人不明显。

本项目研究主要采用的是校内数据,如果吃饭作息规律与一般人不同的,比如点外卖,外卖网络数据暂时获取不到,可能也会被该模型列为孤独者名单。本项目的研究目的是通过大数据客观找出孤独者名单,帮助校方尽可能大范围地为学生提供心理及就业帮扶,供学院领导决策并做出积极干预。

4  结  论

大数据给高校的学生管理工作带来了机遇和挑战,完成对学生管理数据的采集和分析体系的建设,才能科学地划分学生群体。[5]本文通过数据获取、数据处理、数据分析到数据验证等一系列环节,充分利用一卡通消费时间数据与门禁刷卡时间数据,充分挖掘数据中的时间关系,找出朋友关系,再结合决策树算法,得出了就业失败的预测模型,为大数据时代的高校管理工作者提供了一个预警的解决思路。

参考文献:

[1] 中华人民共和国教育部.教育部办公厅关于印发《普通高等学校学生心理健康教育工作基本建设标准(试行)》的通知 [A/OL].(2011-02-23).http://www.moe.gov.cn/srcsite/A12/moe_1407/s3020/201102/t20110223_115721.html.

[2] 郭晋武,佘双好.大学生身心健康状况调查的初步报告 [J].青年研究,1992(6):19-24.

[3] 郑延芳,周庆云.大学生身心健康状况及其影响因素研究 [J].现代预防医学,2008,35(24):4825-4827.

[4] 温展明,张珂.大数据分析理念在高校学生工作中的应用 [J].开封教育学院学报,2018,38(2):138-139.

[5] 单耀军.大数据背景下高校学生管理信息化研究 [J].教育与职业,2014(23):27-29.

作者简介:余琳(1988-),女,汉族,湖北武汉人,中级工程师,工学硕士,研究方向:大数据分析、数据治理、情报分析。

猜你喜欢
大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索