高校学生电子画像的研究

2017-11-29 02:27刘博文天津外国语大学信息化建设办公室天津300401
数码设计 2017年15期
关键词:画像结构化标签

刘博文(天津外国语大学信息化建设办公室 天津 300401)

1 引言

近几年,随着互联网、移动技术的迅猛发展,高校信息化及数字化校园建设取得了较大进步,高校的管理、教学、科研等相关信息化深度和广度不断增强,在高校积累了大量师生用户及行为数据,通过电子画像技术将这些数据进行有效利用,能对学校起到重要的指导、辅助作用。

2 高校的电子画像

2.1 电子画像。电子画像是大数据技术的一个重要应用,其目的是针对用户在多维度上构建描述性的标签属性,从而对用户的社交信息、基本信息、行为信息等多方面的真实特征进行描绘勾勒,可用于描述用户的兴趣、行为、特征及偏好[1]。目前,已经有根据运商数据进行用户征信的客户画像研究[2],针对网络安全的用户行为画像的研究[3],基于电力大数据的标签画像技术与应用[4]等不同方向的研究。近几年已有一些高校开始了一些关于用户画像应用的尝试,电子科技大学已将电子画像技术应用到挂科预警[5],复旦大学对不同分类群体的学生进行数据分析,发现了来自不同区域和背景的学生成绩的显著差异性。本文以高校学生数据为研究对象,结合电子画像技术在高校的的应用进行了研究。

2.2 整体架构。电子画像主要由数据采集、数据预处理、数据标签化和画像展示应用四个部分构成,如图一所示。

(1)数据采集。数据采集前首先要准确识别目标用户,本文以高校学生数据为研究对象,而学生数据分为成两类:静态数据和动态数据。静态数据包括了用户属性、性别、年级、户口所在地、专业等稳定的信息;动态数据包括了课程成绩、食堂消费信息、图书馆借阅信息等动态变化的信息。静态数据可以采用批处理的方式进行采集,调度周期可以很长,动态数据采集可以使用工具Flume。

目前,很多高校已经基本建立了完备的教务管理信息系统、学工管理系统、一卡通管理系统等,在统一数据中心存储了大量数据,因此可以从统一数据中心进行数据采集,选取出需要的数据进行下一步的处理。

(2)数据预处理。数据中心的数据不全是结构化的,还积累了大量的非结构化和半结构化数据,并且为了保证数据的质量,需要对采集的数据进行数据加载、数据清洗、数据去重、标准化等处理。使之转化为机器更容易读取、使用的结构化数据。同时还需要根据时间演进,比如时间周期有日、周、月等维度,不断更新数据模式,确定数据实体之间的关系。最终数据将按统一的格式进行存储,为标签化工作做好了准备。

(3)数据标签化。标签通常一种是人为规定的高精炼的特征标识,是一种可以把数据形象化的方法,是基于人为定义的一种规则,为所要描绘的状态给出一个明确语义描述。通过对采集到的原始数据进行处理、统计分析,抽取、集成得出特征数据,并对特征进行扩展、训练,从而归纳出标签模型。

标签有以下两个特点:

语义化:由于是人制定标签规则,人们可以方便地理解每个标签的含义,标签化语言也可以避免每次不同人、不同解释带来的理解偏差。

短文本:每一个标签通常只表示一个含义,标签本身已不需要做过多文本分析等预处理的工作,为机器读取标准化的信息、聚合分析提供了便利。

(4)画像展示。画像展示包括个体画像展示、分类群体画像展示、全体画像展示以及自定义群体画像展示。由于结果之间可能数据维度较多、关联关系复杂,因此需要利用可视化技术,将对象数据进行结构化的摆放,突出关键信息,以适合人类思维图形化的方式将最终结果进行呈现。同时,画像展示应该能够支持人为对画像结果进行调整,以适应不同需求,并且可根据用户点击情况自动地识别出用户关注度,来对标签权限进行调整。

3 电子画像在高校的应用

高校积累了大量用户数据,比如学生专业、性别等基本信息,宿舍出入门禁信息、食堂消费等生活信息,图书借阅、网络学习、选课等学习信息,以及参加社团、活动等各种信息。因此,通过电子画像技术对以上信息进行收集和分析,进行用户建模,可以来对学生进行就业情况分析、行为轨迹查询与分析、综合预警、心理分析等。下面以职业倾向预测和学生社交画像为例进行说明。

3.1 职业倾向预测。影响就业倾向的关键因素有很多,比如学生的家庭经济情况、兴趣爱好、技能掌握情况。家庭经济情况可以根据学生的消费信息进行分析,通过采集一卡通消费数据建立起消费数据的时间序列,对消费的周期性、波动性与冲动性等进行度量;专业技能掌握情况可以通过采集和分析学生不同科目的成绩,判断出学生对不同知识的掌握情况;由于不同职业倾向的学生在图书借阅上会有较大差别,比如准备出国的学生往往会增加对外国历史、文学、托福和雅思类书籍的借阅,考研的学生更会倾向数学、政治等考研科目的参考书,所以情趣爱好可以通过对图书借阅信息进行采集和分析进行判断。通过对学生以上三种数据的采集、分析和挖掘,可以生成对应着不同的学生特征标签,通过标签结果可以对学生未来的就业倾向进行精准预测,有助于就业指导教师对毕业生提供个性化的就业指导。

3.2 学生社交画像。通过分析学生在校园行为轨迹的相似性可以对其社交网络进行构建。需要统计在短时间内在同一地点不同学生出现的频率,分析共现的显著性,并且对学生基本数据进行采集,如性别、专业、民族等,以此分析出每个人的个性化社交需求,刻画其社交圈。比如通过采集一卡通信息,发现如果有两、三个同学一天内同时进出过宿舍、食堂、小卖部,并且这一现象周而复始,再结合其基本信息,比如年级、专业等数据进行分析,那么就可确定这位同学的社交圈,并且通过标签模型可对学生社交情况进行定义,为学校学生管理者提供更好的工作参考,有助于为学生匹配有共同文化认可的社交团体,更好地满足学生个体社会交往需要。同时,当发现某位学生的社交范围过于狭窄甚至为0时,则会通过标签信息给出预警和进行危机干预的建议,对学生成长起到正面的促进作用。

4 结语

通过电子画像技术对高校用户进行分析,为学校对学生进行个性化、精准化的指导提供了有效依据,对推进学校治理体系和治理能力的现代化、提升教学及管理水平具有积极辅助作用。然而还有很多挑战需要克服,比如异构的数据类型和参差不齐的数据质量给数据采集、集成提出了新的挑战。高校应该探索如何将结构化、非结构化以及半结构化数据进行融合,同时注重数据采集的质量,强化数据文化。此外还需要紧密跟踪业界研究动态,同时加强高校间的沟通协作,不断探索新技术与高校数据的结合与应用。

猜你喜欢
画像结构化标签
威猛的画像
促进知识结构化的主题式复习初探
“00后”画像
画像
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
标签化伤害了谁
科学家的标签