学习行为数据仓库构建研究

2018-01-19 11:35代巧玲李振
软件导刊 2018年10期
关键词:个性化推荐学习行为数据仓库

代巧玲 李振

摘要:在学习过程中,由于不同学生个体有不同的学习方式、学习规律、知识基础及兴趣爱好,针对学生在学习过程中各种学习行为产生的数据,构建数据仓库。通过OLAP技术,结合不同行为产生的结果,在线分析学生在不同时间、不同模块产生不同行为的频次分布情况,推测学生的学习状态、学习侧重点、兴趣点、学习效率、学习轨迹与偏科现象等,使教师可以及时作出调整,提供更合理的学习策略,真正做到有科学依据地因材施教。同时,学习平台可以根据推测结果,推荐个性化的学习内容与学习路线,以提高学生学习效率。

关键词:学习行为;数据仓库;xAPI;个性化推荐

DOIDOI:10.11907/rjdk.181218

中图分类号:TP392

文献标识码:A 文章編号:1672-7800(2018)010-0187-04

英文摘要Abstract:In the process of learning, different students have different learning styles, learning rules, knowledge base and interests. We build data warehouse about the data of students′ various kinds of learning behavior in the learning process. Through the OLAP technology, combined with the results of different behaviors, we can analyze the frequency distribution of students′ different behaviors in different time and modules on line to speculate students′ learning state, learning focus, interest point, learning efficiency, learning trajectory, learning branch phenomenon and so on. According to these speculations, teachers can make timely adjustments, provide more reasonable learning strategies, and truly have a scientific basis to teach students in accordance with their aptitude. At the same time, learning platforms can recommend personalized learning content and routes to improve the students′ learning efficiency.

英文关键词Key Words:learning behavior;data warehouse;xAPI;personalized recommendation

0 引言

随着信息化的飞速发展,各行各业产生了海量数据,如何从这些数据中获取更多有价值的信息,成为各行业关注的焦点。例如,政府、军事及商业领域[1-3]都将海量历史数据抽取转换加载至数据仓库中,通过分析并挖掘隐藏信息,对其进行充分利用以获取更大价值。

近年来在教育领域,各大教育机构及院校纷纷利用已有的信息化系统(如:选课系统、招生系统、图书馆系统、教学评价系统、就业系统、教务系统等[4-8])产生的数据,建立数据仓库,以期发现其中隐藏的信息,用于提高教学质量及提供教育决策等。然而,这些已有的数据仓库都只是记录原始信息,或是最终考核结果之类的静态信息,并没有动态跟踪记录学生在学习过程中的各种学习行为轨迹。若将这些信息有效利用起来,可以分析挖掘出大量隐含的有价值信息。

本研究基于魏顺平[9]提出的学习分析数据模型与xAPI规范中描述学习行为的数据结构Statement,将其进一步改善为适合本研究的学习行为数据模型,旨在利用学生在学习过程中产生的数据构建数据仓库,在线分析学生的学习状态、学习侧重点、学习效率、学习轨迹等,不仅可以使教师利用分析结果对学生进行教学干预或提出学习策略等,同时使教育机构可以优化已有的在线教育平台,提高学生学习效率。

1 相关概念

1.1 xAPI

xAPI是一种专门用来存储与访问学习经历的技术规范。它是“训练和学习框架”(TLA)中的一部分,国外已有学习平台通过该方式记录学习行为。如果说被记录的学习行为是一种“产品”,xAPI则可被称为创建“产品”的图纸[10]。

xAPI利用活动流(Activity Stream)概念描述学习者学习经历,当学习者与其他人通过互动进行学习时,xAPI可以记录这些学习经历。学习经历以Statement形式存在,Statement在xAPI规范中是一种具有语义结构的数据,将学习事件数据存储到 LRS(Learning Record Store)中。一个Statement除具有执行者、动作、对象3个基本属性外,还包含结果、情境、时间戳、授权等可选属性[11],如表1所示。

1.2 数据仓库

数据仓库之父William H Inmon[12]指出:“数据仓库是一个面向主题、集成、时变且非易失的数据集合,用于支持管理决策。”数据仓库建立在用户提供的大量数据、硬件环境与数据库管理系统上,是决策支持分析的基础[13]。数据仓库是后期在线分析的数据环境。

1.3 ETL技术

ETL技术负责将分散的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中[14]。在此阶段得到的数据质量,直接关系到后期在线分析决策的准确性。

1.4 OLAP技术

OLAP(联机分析处理)也称为多维数据分析。OLAP 委员会对其定义如下:使分析人员、管理人员或执行人员能够从多种分析角度对从原始数据库中转化出来的、能够准确为用户所理解,并真实反映企业特性的信息进行快速、一致交互存取,从而获得对数据更深入了解的软件技术[15]。专业领域的数据分析师利用构建成功的数据仓库,并结合自己的经验,可作出有科学依据的决策。

2 基于学习行为数据模型的数据仓库设计

2.1 数据源获取

数据源是构建数据仓库的基础,本研究基于已有的学习分析数据模型[9]与xAPI规范中描述学习行为的数据结构Statement,将其进一步改善为适合本研究的学习行为数据模型,并获取学生各种学习行为产生的数据,作为数据源。

2.2 决策主题确定

通过确定决策主题,制定数据仓库范围,并确定需要关注的数据内容,以及需要分析与实现的目标。基于学习行为的数据仓库研究的决策主题有学习行为分析、作业成绩分析、课程成绩分析与课外活动记录分析。

2.2.1 学习行为分析

该主题为本研究的主要分析对象,通过分析该主题可以了解:①学生在不同模块产生不同行为的频次分布情况,从而推测学生学习的侧重点与兴趣点,并据此为学生推荐个性化学习内容,真正做到科学地因材施教;②发现学习者访问路径。机构管理者通过该方式不仅可以优化平台设计,提高平台使用率,同时可以据此给学生提供个性化学习路线,提高学生学习效率。

2.2.2 作业成绩分析

通过平时的作业测试,可以了解学生对某一单元的掌握程度,再结合学习行为分析主题与课外活动记录分析主题,推测学生在某一阶段的积极性与学习结果的关系,使教师可以及时采取适当措施,提高学生学习成绩。

2.2.3 课程成绩分析

通过期末考核测试,可以了解学生在某一学期的整体知识掌握程度,再结合学习行为分析主题与课外活动记录分析主题,可以推测学生在整个学期的学习积极性与学习结果的关系,从而使教师及时采取适当措施提高学生成绩。

2.2.4 课外活动记录分析

通过了解学生某一阶段参加不同活动的记录,可以了解学生在此阶段的积极性,结合其它主题域情况,使教师充分了解学生在某一阶段的状态,然后作出合理决策。

2.3 数据仓库模型确定

根据决策主题,可大致得出数据仓库维度模型,确定数据仓库维度模型对构建数据仓库可起到重要作用。根据事实表与维度表的关系,可将常见模型分为星型模型与雪花型模型。

星型架构(Star Schema)以事实表为核心,其它维表围绕该核心表呈星型分布,维表彼此之间没有任何联系,每个维表中的主键只能是单列的,同时该主键被放置在事实表中,作为事实表与维表连接的外键。

雪花型架构(Snow Schema)以事实表为核心,很多维表直接与事实表关联,允许附加一些其它维表,只与已有维表靠外键关联,而不与事实表直接关联,从而实现查看细化数据粒度的目的。

星型架构与雪花型架构的主要区别是,其可利用冗余的数据存储改善查询性能。因此,本研究依据数据仓库的易用性与高性能两个指标,采用星型模型。图1-图4分别为4个决策主题设计的对应星型模型。

3 基于学习行为数据模型的数据仓库实现

3.1 数据处理

ETL是数据仓库构建的重要一环,所得到的数据质量将直接影响后期决策的可信度。本研究采用脚本语言python,从数据源抽取出所需数据,主要进行的数据清洗、转换操作有:①剔除无用字段;②保证字段唯一性;③统一字段类型(类型转换);④设置字段特殊值处理情况(处理维度模型时建立外键关系,需要保证对应关系);⑤本研究数据源在抽取行为类型事实表的处理过程中,除浏览资源类型外,其它类型行为的Statement均没有情境(Context)属性,所以在抽取行为事实表时,将浏览资源行为类型的事实单独抽取存放于一个事实表中,其它类型行为事实存放于另一个事实表中;⑥考虑到OLAP查询性能,本研究的维度模型采用星型架构,因此在处理数据过程中,将维度表之间有关系的两个或多个维度表进行必要的合并,通过存储冗余数据达到查询性能的优化。

经过数据清洗及转换后,最终按照预先设计好的数据仓库模型将数据导入数据库中,作为数据仓库的数据源。

3.2 数据仓库构建

本研究采用SQL Server 2005 Business Intelligence Development Studio构建数据仓库。经过新建Analysis Service工程、新建数据源、新建数据视图、新建维度及维度层次关系、新建多维数据集5个步骤,成功构建数据仓库。

3.3 OLAP示例

通过观察初二上学期各门课程考试总成绩,可以看到学号为20150142的学生总成绩最高(见图5),学号为20150201的学生总成绩最低(见图6)。

通过观察“课外报名活动记录”决策主题对应的多维数据集(见图7),可以看到,与成绩较差的学生(学号为20150201)相比,成绩较优秀的学生(学号为20150142)参加课外活动较多,课外比较积极。

如图8所示,通过观察“学习行为分析”决策主题对应的多维数据集,在用户维度上选择学号为“20150142”与“20150201”的学生,学期维度上选择“初二第一学期”,模块选择全部,可分析得出,相较于成绩较差的学生(学号为20150201),成绩较優秀的学生(学号为20150142)在“测评”、“课程”、“课外中心”、“上传”以及“作业”模块的行为总频次均相对较高。

学校通常将最终成绩作为一个学生的考核标准,但是成绩不能代表一切,查找学生获得对应成绩的背后原因更为重要。

通过以上比较分析可以发现,相较于成绩较优秀的学生,成绩较差的学生在初二第一学期参加课外活动不太积极,在各个学习模块行为频次也较低,能很大程度上反映成绩不佳的原因。因此,教师可根据每个学生的具体情况,提供相应的学习策略,使优秀的学生更加优秀,同时使相对较差的学生成绩得到改善,真正做到有科学依据地因材施教。

4 结语

由于不同学生个体有不同的学习方式、学习习惯、知识基础以及兴趣爱好,通过OLAP技术,在线分析某个学生在不同时间、不同模块发生不同行为的频次分布情况,并且结合学生的作业成绩、课程成绩、课外活动记录,可以推测学生的学习侧重点、兴趣点以及偏科现象,从而使教师及时作出调整,提供更合理的学习策略,真正做到有科学依据地因材施教。同时,学习平台可以根据推测结果,推荐个性化的学习内容与学习路线,以提高学生学习效率。

通过综合分析,教师可以对比某班级连续两学期的整体活跃度与最终成绩分布情况,发现其中的不足之处,从而适当调整教学策略,提高班级整体成绩。同时,教育机构可以根据学生访问平台不同模块的频率及学习轨迹,对平台作进一步优化,以提高平台使用率,进而间接提高学生学习效率。

本研究充分利用学生各种学习行为产生的数据,挖掘并分析其中有价值的隐含信息,以推进个性化学习的发展。然而,由于数据源有限,未能将学生各方面信息收集齐全(如就业信息、学籍信息、图书借阅信息等),若能全面收集学生及教师的相关数据源,并对其进行充分利用,进而构建数据仓库,则会挖掘分析出更有价值的信息,作出更科学的教育决策。另外,本研究创建的数据仓库为集中式,而非分布式,若构建分布式数据仓库,还可将不同地理范围的学生进行对比分析,如可以对比了解同一学校的不同分校之间,在教学背景、教师资源、生源情况相当的情况下,学生学习的整体情况。

参考文献:

[1] 范灵俊,洪学海,黄晁,等.政府大数据治理的挑战及对策[J].大数据,2016,2(3):27-38.

[2] 陈凯.基于GPS的工程机械设备智能管理系统研究[D].厦门:厦门大学,2016.

[3] 王建辉,李涛.基于Hive的支付SDK日志分析系统的设计研究[J].计算机应用与软件,2017(7):51-54.

[4] 龙新征,李丽,彭一明,等.基于数据仓库的高校数据统计服务平台研究[J].通信学报,2013,34(S2):163-169.

[5] 郭载勋.数据仓库与数据挖掘技术在高校招生决策中的应用研究[D].北京:北京工业大学,2014.

[6] 吕欣.数据仓库与数据挖掘在图书馆决策管理中的应用[J].数字技术与应用,2017(6):89.

[7] 张端鸿,刘波,卞月妍.院校数据仓库架构与建设的过程研究[J].高校教育管理,2017,11(2):26-33.

[8] 方园,高润生,徐国徽.数字化校园环境下的一卡通系统[J].华中师范大学学报:自然科学版,2017(S1):156-160.

[9] 魏顺平.学习分析数据模型及数据处理方法研究[J].中国电化教育,2016(2):8-16.

[10] 邢晓萧,师海宁.xAPI记录系统在分析网络学习行为中的应用[J].计算机教育,2017(5):133-135.

[11] 胡建平.xAPI与基于Moodle的在线学习经历数据获取[J].现代教育技术,2016,26(11):121-126.

[12] 李雄飞,杜钦生,吴昊.数据仓库与数据挖掘[M].北京:机械工业出版社,2013.

[13] 沈伟.基于数据挖掘技术的高职院校招生决策仓库设计与实现[J].网络安全技术与应用,2015(3):165-167.

[14] 邓炳光,张林霞,张治中,等.基于数据仓库的旅游服务平台的设计与实现[J].电视技术,2015,39(20):26-30.

[15] 崔颖贺.家校互动教育平台中数据仓库的研究與应用[D].长春:东北师范大学,2011.

(责任编辑:黄 健)

猜你喜欢
个性化推荐学习行为数据仓库
基于数据仓库的住房城乡建设信息系统整合研究
分布式存储系统在液晶面板制造数据仓库中的设计
基于学习行为数据的在线学习时间规律探析
探析电力系统调度中数据仓库技术的应用
慕课环境下的学习者
基于数据仓库的数据分析探索与实践