智慧校园学生画像方法研究

2018-06-12 06:41李光耀宋文广谢艳晴
现代电子技术 2018年12期
关键词:大数据平台数据仓库智慧校园

李光耀 宋文广 谢艳晴

摘 要: 市面上加强家庭学校沟通的APP都有一定的局限性,并不能满足学生的个性化需求。通过对学生画像在大数据平台上实现的架构体系、Hadoop平台相关技术以及Hive数据仓库的研究,分析从智慧校园海量数据中提取标签,生成学生画像的实现原理,研制一套适合给学生“画像”的标签体系。优选三层数据仓库,清洗、提炼、聚类的流程方式,优化学生标签的类别和内容,完善给学生打标签的规则,实现在智慧校园中学生画像的构建。通过研究学生画像,更有利于教师、家长了解学生,为学生量身定做其培养方案,助其早日成才。

关键词: 大数据平台; 智慧校园; 学生画像; 标签体系; Hadoop; 数据仓库

中图分类号: TN911.73?34 文献标识码: A 文章编号: 1004?373X(2018)12?0161?03

Abstract: The APPs that increase communications between families and schools have some limitations and cannot satisfy the individual requirements of students. Therefore, a label system suitable for student profiling is developed by means of studying the architecture system of student profile implementation on the big data platform, the related technologies of Hadoop platform, and Hive data warehouse, and analyzing the implementation principle of extracting labels from massive data of smart campus to generate student profiles. The three?layer data warehouse and the flow pattern of cleaning, refining and clustering are preferentially selected to optimize the category and content of student labels, improve the rules of labeling the students, and realize the construction of student profiles in smart campus. The research of student profiles is conducive for teachers and parents to understand students, tailor the training program for students, and help students succeed at an early stage.

Keywords: big data platform; smart campus; student profile; label system; Hadoop; data warehouse

随着信息技术和网络的迅速发展,教育的信息化成为衡量一个国家和地区教育发展水平的重要标志。智慧校园推进了以学校为主体的教育信息化进程,已是教育信息化的重要组成部分。智慧校园是将师生、设备环境、资源以及社会因素,通过“互联网+”整合成一种独特的校园系统,以物联网技术为基础,信息的相关性为核心,通过多平台的信息传递提供及时的双向交流平台,形成智能学校[1]。而且市面上已有不少加强家庭学校沟通的APP,但这类APP都有一定的局限性,并不能满足学生的个性化需求。

基于大数据技术,通过整理搜集学生在网上的浏览、点击、留言、评论等碎片化的行为轨迹,研究学生言行,这些学生的言行轨迹直接或间接反映了用户的性格、习惯、态度等信息。把这些碎片式的学生信息整理后存储在数据库中,能被企业用来抽象出学生的信息全貌,这就是用户画像[2]。用户画像的主要工作就是标签化,使用高度精炼,语意突出的短文本来为用户打标签。在大数据和个性化技术的背景下,将用户画像应用在智慧校园中,将使人们曾希望却难以实现的因材施教有了实现的可能。

1 智慧校园学生画像设计

1.1 学生画像的数据分析

首先将学生数据划分为静态信息数据、动态信息数据两大类[3]。学生画像模型根据提供的数据来准确、全面、规范、合理的描绘出学生信息及各种属性,并且能够根据所描绘出的学生信息对学生进行分群,学生群的内部可以体现学生的相似性,各个学生群间则能够体现出不同的差异性。静态数据主要包括学生基本属性、成绩、爱好特长等数据。这类信息,通过简单建模预测,再进行数据清洗,根据自定义的规则统计分析生成相应的标签。动态数据为学生不断变化的行为数据,主要包括学生或家长在APP上进行的一些操作行为,如浏览、评论、下载等。这类数据需要经过数据清洗,文本特征提取,建模分析,生成相应的标签[4]。

1.2 学生画像的标签体系构成

学生画像目的是使家长、老师能够对学生画像有个清晰明确的认识,为后续的学生推荐与精准教育、个性化培养提供更好的服务。学生画像由学生标签体系[5]构成,因此设计统计方法和统计指标,使标签与学生群体信息更加贴近显得尤为重要。学生标签体系的建立,需要一定程度上人工的总结与概括,结合数据和学生生活信息,有目的有概括性的总结,完善标签体系的基本构成,使标签体系满足制度规范。

学生画像标签体系设计成四类:基础属性、性格属性、特长爱好、成绩优劣。基础属性包含学校、班级、学号、性别、家庭住址等基本信息;性格属性包含热情开朗、风趣幽默、坚强、自信等标签;特长包含球类、乐器、艺术等;成绩标签体现了学期、科目等信息。

2 学生画像实现

2.1 数据仓库设计

学生画像设计三层数据仓库:第一层为原始数据层,是根据业务需求对数据的汇总、抽象与集成;第二层是数据中间层,对原始层数据的清洗、提取整合;第三層是数据结果层,存放为学生打的标签,供外部应用生成学生画像[6]。其设计如图1所示。

2.2 学生画像的构建

2.2.1 学生画像设计流程

学生画像的主要任务是给学生贴“标签”,准确精炼地描述学生的特征标识,标签内容从标签体系中选择,将学生的所有标签综合在一起,就可以构成学生的“画像”。其设计方案如图2所示,分析学生基本信息和学生行为信息,标签从标签体系中选取。

首先根据学生画像的业务需求,对学生数据进行抽取、清洗、转换、装载入数据仓库的第一层,再将第一层的数据进行文本分词处理,词频统计,分类聚类,生成四张标签表:基本属性表(Base_Infor)、成绩表(Grade)、性格表(Character)、爱好特长表(Interests)。标签内容体系也作为一张表(Tag_Define)存储在数据仓库的第二层。之后再根据自定义的规则生成相应的学生标签,存储在数据仓库第三层的User_Profile表中。

2.2.2 学生画像规则实现

学生画像的标签设计成两部分:内容和权重。一个标签对学生不是一成不变,权重会随着时间的延长而衰减[7]。例如一名学生成绩表的部分记录如下:李明,数学,90。以上述成绩记录为例,为学生打成绩标签,先通过编写规则来计算标签权重,基本权重=[成绩总分],基本权重=[90100=0.9。]假设时间衰减因子记为R,随着时间D(天数)的延长,衰减因子R会线性减少,R=1-0.05×D。标签权重=基本权重×衰减因子。

由此可计算出李明数学成绩当天的标签权重为0.9,标签的内容即科目的名称数学,那么可以为小明打上一个标签:数学,0.9。6天后衰减因子衰减为0.7,标签权重为0.63,那么小明的标签变化为:数学,0.63。当标签权重一直减少到小于某个值如0.5时,应当为小明“撕下”数学的标签。这也体现了标签的实时性,记0.5为阈值。再使用Hive根据规则生成学生标签,存入学生标签库,学生画像表(User_Profile)如表1所示。

HiveQL生成标签语句如下:

为学生打性格、爱好标签步骤与成绩标签步骤类似,仅在编写规则时有所不同。性格爱好的基本权重即为TF/IDF的值,衰减因子相同。TF/IDF是一种词频统计方法[8],词频(TF)=某个词在文章中出现的次数,逆文档频率(IDF)=log[(文档总数(包含该词的文档数]+1))。

2.2.3 生成学生画像

通过上述步骤,即可在数据仓库第三层生成学生标签表(User_Profile)。此表中的权重(Tag_Weight)会根据表中的标签时间(Tag_Time)每日进行衰减,并自动更新。外部应用根据学生标签表数据生成学生画像,如图3所示。

3 结 论

随着智慧校园建设的不断推进,教育信息化程度越来越高,研究和探索学生画像和信息化教育将更加密切。学生画像[9]可以提高教学水平,分配教育资源,加强素质教育,学生有所侧重的培养,挖掘每个学生的特长,使教育真正变为因材施教。但是如何更加精确地画出学生的画像却是一个复杂而又漫长的事情,值得继续研究和探索。

在智慧校园的建设中存在各种各样的管理系统。在这些系统中保存了有关学生信息的海量数据,学生画像就是通过这些海量数据作为一个数据源,构建一个学生数据抽取模型。通过分析其个人属性、兴趣爱好、学习成绩等重要特征,对这些特征进行标签化处理,帮助学校、老师对每一位学生有一个正确的并且标签化的了解,让家长对自己的孩子在学习成长方面也有一个清楚的认识。通过标签,可以将此转化为计算机可以理解的语言,针对每位学生做出个性化的教学方案[10],以及线下进行的弱项科目的重点辅导提升,还可以根据学生表现出来的特长和天赋来重点培养兴趣爱好,来让学生的成长能够取长补短,实现素质教育和个性化教学。

注:本文通讯作者为宋文广。

参考文献

[1] 黄荣怀,张进宝,胡永斌,等.智慧校园:数字校园发展的必然趋势[J].开放教育研究,2012,18(4):12?17.

HUANG Ronghuai, ZHANG Jinbao, HU Yongbin, et al. Smart campus: the developing trends of digital campus [J]. Open education research, 2012, 18(4): 12?17.

[2] 张哲.基于微博数据的用户画像系统的设计与实现[D].武汉:华中科技大学,2015.

ZHANG Zhe. Design and implementation of user portrait system based on microblog data [D]. Wuhan: Huazhong University of Science and Technology, 2015.

[3] 刘鹏.基于Spark的数据管理平台的设计与实现[D].杭州:浙江大学,2016:15?17.

LIU Peng. Design and implementation of data management platform based on Spark [D]. Hangzhou: Zhejiang University, 2016: 15?17.

[4] XU G, ZHANG Y, ZHOU X. Towards user profiling for web recommendation [C]// Proceedings of Australasian Joint Conference on Artificial Intelligence. Heidelberg: Springer?Verlag, 2005: 415?424.

[5] 韩凤霞.大数据时代高校学籍预警机制的探索与研究[J].中国教育信息化,2015(19):46?49.

HAN Fengxia. Exploration and research on the early warning mechanism of college student status in the era of big data [J]. The Chinese journal of ICT in education, 2015(19): 46?49.

[6] 王有为,王伟平,孟丹.基于统计方法的Hive数据仓库查询优化实现[J].计算机研究与发展,2015,52(6):1452?1462.

WANG Youwei, WANG Weiping, MENG Dan. Query optimization by statistical approach for Hive data warehouse [J]. Journal of computer research and development, 2015, 52(6): 1452?1462.

[7] V?ZQUEZ A. Exact results for the Barabasi model of human dynamics [J]. Physical review letters, 2005, 95(24): 1?4.

[8] 李映坤.大数据背景下用户画像的统计方法实践研究[D].北京:首都经济贸易大学,2016:12?14.

LI Yingkun. Practical research on statistical methods of user portrait in large data background [D]. Beijing: Capital University of Economics and Business, 2016:12?14.

[9] 陈劳,张建华,周林志.数据“慧”说话:用校园网数据绘制用户画像[J].中国教育网络,2016(5):75?78.

CHEN Lao, ZHANG Jianhua, ZHOU Linzhi. Data "Hui" talk: using campus network data to draw user portrait [J]. China education network, 2016(5): 75?78.

[10] 李冰,王悦,刘永祥.大数据环境下基于K?means的用户画像与智能推荐的应用[J].现代计算机,2016(24):11?15.

LI Bing, WANG Yue, LIU Yongxiang. Application of user portrait and intelligent recommendation based on big data technology and K?means [J]. Modern computer, 2016(24): 11?15.

猜你喜欢
大数据平台数据仓库智慧校园
基于数据仓库的住房城乡建设信息系统整合研究
分布式存储系统在液晶面板制造数据仓库中的设计
基于大数据的智能停车场管理系统设计
基于大数据分析的智慧仓储运营支撑平台设计
探析电力系统调度中数据仓库技术的应用
基于B/S结构的学生公寓管理信息系统的设计与实现
“智慧校园”浪潮下大学课堂教学改革与设计
智慧校园关键技术分析与研究
袜业行业大数据平台的应用研究
智能云教学系统在计算机专业教学中的运用