基于目标群体指数的大学生画像分析

2021-03-25 07:53任正东章骏腾任东晓
关键词:画像研修显著性

任正东 章骏腾 任东晓

(浙江科技学院 理学院/曙光大数据学院/大数据科学系,浙江 杭州 310023)

中国教育信息化进程的推进,多种学生学习生活数据源的发展[1, 2]和疫情期间大规模的网络在线教育活动的开展,催生了更加丰富的教育数据,教育大数据的蓬勃发展随之而来。

在教育大数据中,学生画像的绘制是学习分析过程中重要的环节。学生画像是指相似的学生群体在进行相似的学习活动过程中所展现出来的共同特征的集合。但现有的学生画像的研究多为利用聚类算法或神经网络的训练直接构建相关系统,对于有关指标的分析和量化定性研究则是凤毛麟角。随着“慕课”“网易公开课”等网络课程的兴起[3, 4],“停课不停教、停课不停学”的在线网络教育活动的开展,使大量学生学习活动数据产生,也让高校、相关机构对探究不同学生学习生活习惯的差异对成绩的影响产生了较大的兴趣。

本文从多个角度利用创新的方法剖析学生学习生活习惯的差异,对学生画像进行绘制,采用定量的指标明确各类学生群体之间的差异,并分析其产生原因,为有关学生学业特征的分析提供新颖的方法,为量化学生的特征提供有效的方式,为学生学习、高校管理和决策提供数据支撑和技术支持,具有良好的应用价值和社会效益。

1 不同成绩学生群体的学生画像构建

1.1 数据来源

学生画像的准确刻画需要多而广的学生数据,学生数据种类越多、数量越大,学生画像也就越精确。本文数据主要来源于浙江科技学院常用的5个与教务相关的业务系统(包括学生成绩管理系统、图书借阅系统、图书馆门禁系统、寝室门禁系统和一卡通管理系统),采集了来自本科生、研究生、留学生的多种数据。其中图书借阅系统、图书馆门禁系统、寝室门禁系统和一卡通管理系统等4个主要业务系统中的数据涉及到了能够描述学生在校行为的主要信息,而学生成绩管理系统则主要用于区分不同成绩的学生群体,详情见表1。

表1 学生画像构建数据

1.2 模型构建

本文所使用的数据包含了7 139名学生一年的数据。由于本文所研究的学生群体已事先确定,因此无需使用各类聚类算法,但为区分不同成绩学生群体,根据帕累托法则[5]和各个学生在各自院校所处的排名,将7 139名学生按“10%—80%—10%”的比例分别划分为成绩“优秀—普通—较差”三个层次。

1.2.1 目标群体指数

为了能够体现某个群体在总体中对于某项特征的偏好度,我们引入目标群体指数(Target Group Index, TGI)对目标群体中的特征倾向程度进行计算。TGI是指某一子群中的某一特征所占比例与总群中同一特征所占比例之比再乘以标准数100后所得的值。设现有总体B(B∈T)中具有特征α的群体的TGI时其表达式为:

其中表card(T)表示T集合中的元素个数。当TGI=100时表示群体B对于特征α的倾向性恰好为平均水平,当TGI>100时表示倾向性高于平均水平,反之亦然[6]。且通常当TGI>120时可以认为某项特征具有正向显著性,当TGI<80时可以认为某项特征具有负向显著性。

1.2.2 学生画像构建流程

学生画像的组成需要明确的学生行为特征。在大量的数据中提取特征需要比较大量不同学生同种行为的行为频次、行为时间等数据,通过计算概率分布、比例等中间数据或利用聚类分析、回归拟合等多种途径来判断或确定触发某种行为特征标签的阈值。与此同时,在提取行为数据的过程中可能存在需要多表联查的情况,通过合理的计算、筛选、合并、映射等方式,将多种后期需要反复使用的数据保存到相关的视图表中,避免过多的重复计算和查询等操作。学生画像分析的流程框架具体参见图1。

图1 学生画像分析流程

2 不同成绩学生群体的学生画像分析

2.1 图书馆数据分析

图书馆作为承担着高校人才培养与科学研究任务的主要学术性机构,有着不可或缺的重要作用。对图书馆借阅数据与图书馆门禁数据进行分析,能为高校的图书馆建设和学生管理提供有效帮助。

2.1.1 图书借阅情况

图书借阅情况能有效反映出一个学生在学习方面的积极性,通常图书借阅量越多,学习积极性越高,同时也会促进学习的进步,形成良性循环。

通过查询图书借阅数据,比较学生信息表,筛选出所有在1年内从未前往图书馆借过书的学生群体。最终共筛选出1 373人,占总学生人数的19.23%。再通过计算得出成绩分别为“优秀—普通—较差”三个层次的学生群体的TGI,分别为95.26、100.23、103.07。从TGI上来看成绩较差的学生占从未借书群体中的主要部分,成绩优秀的学生群体相对较少,符合普遍的认知,但由于两者的值距离平均值100较近,因此很难明确图书借阅对于成绩的影响。

随后对图书借阅数据进行统计。分别统计每个学生在1年内的借书总量,并依据借书总量将其划分为总借书量“少于2本、2—15本、多于15本”3个层次的群体。TGI计算结果如表2所示,从表2中可以看出成绩优秀的学生群体更倾向于借更多的书,成绩较差的学生则更倾向于借较少的书甚至是不借书,而成绩位于平均水平的学生群体则恰好代表了各类借书量的平均水平,符合预期,但TGI均未超过120或低于80,因此无法确定图书借阅量对成绩是否存在显著性影响。

通过查阅文献发现[7, 8],或许是因为成绩较差的学生在学习积极性方面有所欠缺,因此导致其图书借阅量较少,而成绩较为优异的学生可能在学习方面较为积极或课程压力较大,使其需要借阅更多的书籍来完善知识框架,又或许是因为在阅读更多书籍后激发了学习的动力,使其成绩变得优异。由此得出,若高校需要制定针对成绩较差的学生的干预措施,可以从图书借阅入手,提高成绩;也可以将图书借阅的TGI作为指标,观察干预措施的实施效果,确保其行之有效。

表2 不同借书量群体TGI

2.1.2 研修室使用情况

研修室作为图书馆中不同于大厅学习区的多优势区域,能够更好地为学生提供更多学习帮助和隐私保护,同时也能为小型学习团体提供优良的学习环境。充分利用好研修室,能够有效改善学生的学习环境,提高学习效率。

本文所使用的数据共包含了三种不同的研修室:单人研修室、三人研修室和六人研修室。通过对图书馆数据进行查询和筛选,共发现648位学生在一年内使用过图书馆研修室,共占学生总人数的8.94%。研修室所使用过的人数相对较少,受众面不广。在查阅高校对研修室的管理条例后推测,可能是受到需要预约的限制,不少学生无法及时抢到研修室的使用名额,多次往复后可能会丧失对研修室使用的积极性,不利于持续发展。

随后在计算不同成绩学生群体的研修室使用情况的TGI后发现,成绩较差的学生群体对研修室的使用达到了正向显著性水平,其中对三人研修室的倾向性更高,TGI达到182.08,远大于平均值100;成绩优异的学生群体在对研修室的使用情况方面相对较差,三人研修室的TGI值为51.64;成绩处于平均水平的学生在研修室的使用情况方面略低于平均水平。研修室使用情况的TGI具体情况如表3所示。

造成上述情况的可能原因是成绩较差的学生群体使用了大部分的名额,使其他学生无法有效地利用研修室。尽管分析结果有悖于直觉,但仍在情理之中。当部分学生处于成绩较差的状态,但又对自身所处的现状有所不满时,往往会引发一定的焦虑情绪。在处于一定的外部压力和自身焦虑的情况下,部分成绩较差的学生希望能够尽快地提高自身的成绩,因此会希望通过得到更好的学习环境来改善自己的学习效率,从而尽快提高自身的成绩,但具体原因仍需深层次的调查与研究。

表3 研修室使用情况TGI

2.1.3 考试月图书馆使用群体

考试月是指临近期末的最后一个月,本文数据中的考试月是指6月与12月。考试月图书馆的使用情况分析能够从一定程度上体现学生是否仅仅为了通过考试而使用图书馆资源。通过对其深入的分析与挖掘,能够帮助高校更合理地安排图书馆资源,并为高校提供管理学生的决策辅助。

首先,对图书馆借阅数据进行分析,筛选出所有仅在考试月中出现的学生群体。筛选结果为共有281名学生仅在考试月中借书,占学生总人数的3.94%。成绩分别为“优秀—普通—较差”三个层次的学生群体的TGI分别为90.77、94.09、160.01。从人数上可以发现仅存在小部分学生只在考试月时“临时抱佛脚”。通过TGI能够得出,仅在考试月借阅书籍的主要是成绩较差的学生群体;成绩优异的学生和成绩处于平均水平的学生TGI均低于平均值100,尽管未低于80,没有表现出负向显著性水平,但从一定程度上足以表明成绩优秀与普通的学生更偏向于通过平时的努力来提高成绩,而非寄希望于考前冲刺。

2.2 寝室门禁数据分析

寝室作为大学生在校生活的主要区域,在影响学生学习氛围的角色中承担着重要的作用。一个拥有积极向上的学习氛围的寝室,能够在一定程度上影响学生的学习积极性,从而影响到学生的成绩[10]。对寝室数据的分析能够辅助高校研究和确定管理寝室的决策。

从古至今,早起学习都是一个良好的习惯。从一个学生是否拥有早起的习惯,可以看出一个学生的毅力,从而反映出一定的学习能力。高校通过关注学生的早起情况,能在一定程度上评估学校的学习氛围等信息。

通过保留每人每日第一条寝室刷卡数据,筛选出所有学生的早起数据。在规定早起时间段为每日的5:00—7:30的情况下,分别计算三类学生在“整周、工作日、双休日”三种视角下的TGI,结果如表4所示。其中成绩较差的学生群体TGI均低于80,无论是在何种时段分类视角下,均达到了负向显著性水平,其中双休日的TGI仅有68.88,说明成绩较差的学生通常难以早起;成绩优秀的学生群体则与成绩较差群体则恰恰相反,尽管其TGI均未突破120,但在所有时段分类视角下,其均高于平均值100,说明成绩优秀的学生更倾向于每日早起;成绩普通的学生群体则恰好处于平均水平,符合预期。

从结果来看,尽管证明早起能够有效影响学生学习成绩仍需更多调查与研究,但早起TGI足以成为高校在管理学生时的一个指标。当高校各类学生群体的早起TGI整体上升至接近100甚至高于100时,可以在一定程度上反映出该群体的学习氛围、生活积极性有所改善,具体缘由则不再展开。

表4 早起TGI

2.3 一卡通数据分析

一卡通作为承载着高校数字化、智慧化的载体之一,在学生的在校生活中扮演着重要的角色。一卡通作为联系高校各个系统的纽带,在为学生提供便利的同时,也极大地便捷了高校的管理工作。随着时间的推移,高校通过一卡通积累了大量的学生消费数据。利用好一卡通数据,有助于高校全面掌握学生在校消费情况、生活情况,为高校优化资源配置提供极大的帮助。

2.3.1 早餐情况

Lien在研究中指出早餐消费情况会影响学生的学习成绩[11]。学生能否按时吃早餐和吃早餐频率的数据分析结果能有效反映学生学习情况。

为计算学生吃早餐的TGI,我们假定学生在校天数(减去寒暑假)共计275天(其中工作日约170天),随后我们规定:1年内在学校食堂6:00-8:00的时间段内吃早餐的天数“低于50次高于0次”为“低频”,“50—100次”为“中频”,高于100次为“高频”。通过筛选分析,发现“低频”“中频”“高频”分别有4 825人、1 493人、820人,其中1人一年内从未在食堂中吃过早饭。各成绩学生群体的TGI如表5所示。从结果中发现,“低频”学生人数占总人数的67.59%,远远大于其他两类学生的占比;成绩较差学生群体的“低频”TGI达到了118.83,接近正向显著性水平指标;“中频”“高频”TGI均低于80,呈现出负向显著性水平,说明成绩较差学生群体更倾向于不吃早餐或在更晚的时间吃早餐;成绩优异的学生群体则相对更倾向于在较早的时候吃早餐,其“高频”TGI达到了116.88。

表5 早餐频次TGI

2.3.2 超市消费情况

相比于早餐情况,超市消费情况能体现出一定的娱乐休闲性质。通过对超市消费情况的分析,能体现出一定的在校娱乐休闲情况。

与早餐情况类似,通过统计学生在校超市消费次数,将消费次数“低于100次高于0次”记为“低频”,“高于100次低于200次”记为“中频”,“高于200次”记为“高频”。统计分析结果为,“低频”“中频”“高频”分别有4 518人、2 126人、479人,共16人不存在消费记录,TGI如表6所示。TGI结果表明,成绩优异的学生群体更少在学校超市内消费,其“低频”TGI达到了115.54,而“中频”“高频”则均达到了负向显著性水平;成绩较差的学生群体在“高频”消费中超过平均水平,但与正向显著性水平仍有一定的距离,其值为112.69,而“低频”“中频”则接近平均水平;成绩处于平均水平的学生在超市消费情况中出现了不均等的情况,尽管均接近平均值100,但仍可能存在一定的趋向,具体情况需要更多的研究,本文不再深入研究。

表6 超市消费情况TGI

3 结语

不同成绩的大学生群体在学习生活方面存在着明显的差异:成绩较为优异的大学生群体在图书借阅量方面多于其他群体,且早起频次与吃早餐频次高于其他群体;成绩较差的学生群体则在研修室使用情况上优于其他群体,仅在考试月努力学习的情况较为突出,在超市的高频消费也相较其他群体多,详情如表7所示。

表7 不同成绩学生群体差异

结果表明,高校在进行教育建设时,为体现以学生为主体,便于以学生行为变化为参照,优化教学方式、学生管理方式,可做好如下几点工作:(1)建立健全完善的数字化学生档案,充分以数字化方式记录高校日常工作、学生日常学习生活行为;(2)实现学生个人数据的动态追踪,构建基于学生个人数据的画像分析平台,实现学生日常学习生活行为实时追踪、实时分析,动态化教学安排;(3)加强高校管理部门与学生的沟通交流,动态调整学生学业评估模型、方式,达到学生学业指导、学业及时预警、个性化推荐等目标。

最后,利用TGI对学生画像进行分析为科学的定性研究提供了一个新的思路,但TGI仍然存在一定的不足。TGI在局部区域某特征的强弱表现方面具有较好的能力,但在绝对数值上存在不足,因此可能出现TGI很高,但是绝对数值较小的情况。对此,TGI仍有较大的研究提升空间。

猜你喜欢
画像研修显著性
对统计结果解释和表达的要求
中小学骨干教师“双减”项目式研修模式探索
威猛的画像
一主六维:深度卷入的研修模式
“00后”画像
本刊对论文中有关统计学表达的要求
画像
“研训导一体化”教师研修方式的实践与探索
基于区域特征聚类的RGBD显著性物体检测
基于显著性权重融合的图像拼接算法