在线学习资源推荐综述

2023-07-03 14:11董永峰王雅琮邓亚晗
计算机应用 2023年6期
关键词:习题学习者知识点

董永峰,王雅琮,董 瑶*,邓亚晗

(1.河北工业大学 人工智能与数据科学学院,天津 300401;2.河北省大数据计算重点实验室(河北工业大学),天津 300401;3.河北省数据驱动工业智能工程研究中心(河北工业大学),天津 300401)

0 引言

近年来,信息科技的迅猛发展给各行业带来了一系列新的产业战略机遇和市场挑战,教育产业亦然;但传统的教育模式已经难以满足学习者的需求,如今越来越多的人选择通过线上学习来提升自我。

国内外己出现一批成熟的在线教育平台,缓解了学习者对学习新技能的急迫需求,为教育行业带来了变革,同时也带来了相应挑战:一方面,学习者很难从海量的学习资源中获取所需学习资源,需花费大量时间寻找学习资源,降低了学习的效率;另一方面,平台无法为学习者提供个性化的学习资源,难以预测学习者个体的学习进度,导致部分学习者对所学课程难度不适应,对所学内容不感兴趣,无法完成课程。因此,个性化学习资源推荐应运而生。个性化在线学习资源推荐泛指通过数据分析方法提取每位学习者的特征与偏好,量身推荐能够满足他们个性化要求的在线学习资源,其中在线学习资源通常指习题、概念、知识点、线上课程、学习视频等。通过在线学习资源推荐,学习者无需将精力花费在寻找学习资源中,而将更多的时间投入感兴趣资源的学习中,提高了学习效率和效果。本文首先总结了当前主流国内外在线教育平台中的学习资源推荐行为,并从两个角度出发:1)从不同推荐目标的角度,总结分析了以知识点习题、学习路径、学习视频、课程为目标的推荐算法的优缺点;2)从学习者和学习资源建模角度总结了基于学习者画像、学习者行为、学习资源本体的推荐算法并详述算法流程;总结了当前可用学习资源数据集;根据当前学习资源推荐算法现状指出学习平台、冷启动、算法普适性和隐私保护等方面的不足以供未来研究参考。

1 国内外在线教育平台现状

1.1 国外在线教育平台

MOOC(Massive Open Online Course)是一种可以让学习者通过MOOC 网站自由注册和使用的开放网络在线教育服务模式[1]。自2012 年起,MOOC 逐渐成为世界范围内的一种相当普遍的教育模式。

Udacity 是一个盈利性在线教育平台,专注专业研发和前沿技术的在线培训。当学习者在Udacity 上选择其感兴趣方向后,平台将此方向的所有课程根据难易程度排序推荐,一目了然。

Coursera 是于2012 年4 月正式成立的大型网络公开在线课程平台,由美国斯坦福大学的两名计算机科学专业教授共同创建。在学习者浏览Coursera 某一课程时,平台将显示其他用户对该课程的评价,同时推荐对这门课程感兴趣的人同样感兴趣的其他课程。

edX 是一个由美国哈佛大学和美国麻省理工学院于2012 年4 月共同合作创立的非盈利的大型开放式课程平台。平台为学习者推荐最新的和最顶尖的课程,并根据学习者填写的感兴趣方向定制个性化课程搜索。

除了这三大领先的MOOC 平台以外,国外还有一些比较成熟的教育平台,如可汗学院(Khan Academy)。许多国家区域也开创了属于自己本国的MOOC 平台,如英国的Future Learn、澳洲的Open2study、欧盟的OpenupEd 等。

1.2 国内在线教育平台

国内的MOOC 也在迅速发展。国内许多教育机构和高校也开始意识到创建自己的平台并收集数据信息的重要性。

清华大学于2013 年10 月建立学堂在线平台,为学习者推荐优质课程、热销课程、国家一流课程等,以帮助学习者更迅速地选择课程。

依托高等学校本科教学质量与教学改革工程的背景,中国大学MOOC(又称慕课),由网易旗下的网易云课堂与爱课程网携手打造。平台为学习者推荐一周内最新最热门的课程,并根据学习者选择的课程推荐相关其他课程。

网易云课堂由网易公司于2012 年12 月底推出,主要提供在线实用技术视频课程。学习者选择感兴趣的方向后,平台为其推荐相关课程。

除在线课程教育平台外,许多教育机构还对线上教育的不同模式进行了探索。2016 年4 月,清华大学和学堂在线联合发布推出了新型智慧教学解决方案——雨课堂。

与雨课堂不同,科大讯飞基于学生学情、学科教学内容等数据,构建了教育领域知识图谱。教师通过预设教学重点,使用科大讯飞所提供的知识点图谱引导学生学习,提升了学习效率,达到使学习者自主学习的目标。

现有在线教育平台种类繁多,但存在课程完成率低的通病,其中一个重要的原因是平台提供的课程不足以吸引用户,说明在线教育平台维系用户规模的能力严重不足。尽管这些在线教育平台都为学习者提供一定程度的课程推荐,但推荐结果单一,通常仅推荐热销课程,不具有个性化特征,致使学习者很难在繁多的课程中找到适合的感兴趣的课程,在线学习资源推荐的研究工作亟须推进。国内外在线教育平台见表1。

表1 国内外在线教育平台Tab.1 Domestic and international online education platforms

2 基于不同推荐目标的学习资源推荐算法

学习资源包含知识点、习题、学习视频、课程等多种类型,不同类型的学习资源分别具有独特的数据形式和特征分布。针对这一问题,研究者通常使用特定的方法解决不同目标的学习资源推荐问题,本章总结了以知识点习题、学习路径、学习视频、课程为推荐目标的常用算法及优缺点。

2.1 以知识点习题为目标的推荐算法

知识点习题推荐的难点在于知识点或习题中通常包含多个异构数据,即文本、概念和图像等。如何整合这些材料,以多模态的方式帮助学习者学习和理解,如何将同一个习题中文本的不同部分与不同的概念或图像关联起来都是困扰着研究者的问题。最常见的知识点习题推荐算法有两种:基于习题相似度的知识点习题推荐和基于学习者认知的知识点习题推荐。

2.1.1 基于习题相似度的知识点习题推荐

当学习者想针对某一薄弱知识点进行强化练习时,通常利用知识点习题相似度为学习者提供相似知识点习题推荐。

最开始,一些研究者利用练习的文本或概念计算习题的相似性。Williams等[2]认为,相似的习题通常具有共同的核心概念,通过概念相似性分析习题是否相似。向量空间模型(Vector Space Model,VSM)是海量题库系统中常用的试题相似度度量方法。Tsinakos 等[3]提出使用一种基于VSM 结合词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)和余弦相似度的冲突检测算法计算习题之间的相似性。针对VSM 在准确表示不同特征词的知识关系和潜在语义关系方面的局限性,Yu 等[4]提出了一种结合领域本体和VSM 的试题相似度度量方法,通过结合VSM 中的特征向量和单词权重揭示单词之间的内在关系,计算试题的相似度。除VSM 外,Li 等[5]提出了一种基于机器学习的习题推荐方法,使用K-means 算法和K最近邻分类算法(K-Nearest Neighbors,KNN)根据学习者对知识点的掌握程度和对所有知识点的平均掌握程度,将学习者分类,针对不同类别推荐适合的习题。

以上方法都建立在单一类型数据集的基础上,没有综合利用多种异类数据来精确地理解和表示每个习题的语义。针对这一问题,Liu 等[6]开发了基于多模式注意力的神经网络框架。对于包含多种类型信息文本的习题,模型使用卷积神经网络(Convolutional Neural Network,CNN)提取图像表示,使用嵌入层表示概念。通过一个基于注意力的长短期记忆(Long Short-Term Memory,LSTM)网络,以多模式的方式处理异构材料,学习每种练习的统一语义表示。

基于习题相似度的知识点习题推荐方法从知识点习题本身出发,虽然可以更好地利用本体之间的关系,却忽视了学习者本身的知识状态和认知情况,因此有研究者提出了基于学习者认知的知识点习题推荐方法。

2.1.2 基于学习者认知的知识点习题推荐

目前,使用多种认知诊断模型对学生的认知进行建模和分析[7],以达到良好的推荐效果也是一种主流知识点习题推荐方法。

基于项目反应理论(Item Response Theory,IRT)[8]、DINA(Deterministic Inputs,Noisy“And”gate)[9]和基于协同过滤算法[10]是几种经典的基于认知的知识点推荐方法。IRT 模型和DINA 模型都来源于数学统计模型,其中:IRT 模型使用统计方法建立平均分排名等数学理论模型,被广泛应用于预测学生的综合能力和区分练习难度,但通常只考虑了学习者的状态,却忽视了习题特点;DINA 模型是针对二进制数据的统计模型,引入了矩阵Q来建模习题和知识点间关联,从而判断学习者对正确回答该问题所需的每一个知识点掌握与否。通过这些信息了解其学习中的不足,据此向学习者推荐习题,但是DINA 模型往往忽略了学习者未考察的知识点[11]。协同过滤算法假设行为相似的用户偏好相似,因此可以向用户推荐相似用户的偏好项目。目前的基于协同过滤的习题推荐算法中,通常从学习者的习题记录中分析其偏好,再对比计算其他学习者的相似度,根据相似度最高的学生偏好进行习题推荐;但该方法在推荐习题时,忽略了不同学习者对不同知识点的理解程度差异。

针对以上这些算法的不足,研究者尝试引入知识点之间的关联信息。蒋昌猛等[12]提出了使用知识点层次图对习题进行个性化的推荐,根据知识点天然存在的结构层次关系,辅以专家知识建模,成功地构建了知识点的层次关系。Zheng 等[13]提出了一种基于知识结构树的习题推荐算法,通过量化学生认知水平,根据其学习相关数据获取学生的知识需求,基于知识点的关联关系构建知识结构树,将知识需求与知识结构树相结合,向学习者推荐习题。

基于学习者认知的知识点习题推荐方法大多都基于学生本身的认知状态与习题记录为学习者进行推荐,却往往忽视了知识点习题中彼此间联系。

2.2 以学习路径为目标的推荐算法

在种类繁多的在线学习资源中,使用个性化推荐系统是帮助学习者高效和精准地获取学习资源的有效途径。特别地,对于学习者,按照一定的学习路径可以更高效地学习。Durand 等[14]基于图论证明了学习资源的顺序对学习者的重要性。Chen 等[15]指出学习先验知识和后验知识有助于学习者理解当前的学习资源,这也支持将学习资源分类生成为学习路径的观点。学习者可以在推荐的学习路径中依次学习,可以更加系统有效地达到最终学习目标。目前常用的学习路径推荐方法主要分为基于数据挖掘的学习路径推荐和基于知识图谱的学习路径推荐。

2.2.1 基于数据挖掘的学习路径推荐

数据挖掘被广泛应用于将学习内容组织成学习路径。Chen[16]构建了一个基于基因的个性化网络课程学习系统,生成适合学习者的学习路径,系统挖掘个体学习者测试数据和学习成绩数据。Dwivedi 等[17]改进了这一方法,通过包含学习者学习路径记录的可变长度遗传算法(Variable Length Genetic Algorithm,VLGA)构建学习路径。Chen 等[18]提出了一种基于坐标系的改进蚁群优化算法推荐学习路径。Bendahmane 等[19]提出了一种基于学习者能力的方法,该方法认为个性化的学习路径取决于所收集的轨迹在学习环境中的活动,故根据学习数据、学习者的期望,定制学习环境和适应学习者的学习路径,提高学习质量。Hsieh 等[20]使用数据挖掘方法开发了一个在线课程学习系统,该系统通过构建学习材料的关系层次,生成适合学习者的学习路径。

通过这些基于数据挖掘的方法,学习者不需要浪费额外的时间组织学习内容。但是目前存在两个问题:第一,此类学习系统中更新数据困难,这些非自适应的习题每次更新数据时都要重新生成新学习路径;第二,当系统中存在多个相似的学习内容时,生成的学习路径有时会存在冗余的学习资源。

2.2.2 基于知识图谱的学习路径推荐

在研究如何利用知识图谱生成良好的学习路径时,大部分研究者选择将学习资源视为节点,将关系视为学习路径中的路径。

最早的有关知识图谱路径的研究引入了连接模式,称为元路径,以指导被推荐者学习[21]。元路径被定义为一个实体类型的序列,捕获以知识图谱为单位的学习者行为偏好。Yu 等[22]提出在元路径相似矩阵上使用矩阵分解进行学习路径推荐,此类方法的性能依赖于元路径的质量,而这需要大量的领域知识。Catherine 等[23]利用逻辑编程模型推断用户在路径上的偏好。

这些方法无法学习用户和项目的表示,因此很难推广到隐性交互中。为了解决这些问题,最近的研究学习了每条路径的表示。Hu 等[24]利用CNN 嵌入实体以获得路径的单一表示,却忽略了路径中实体和关系的顺序依赖性。Sun 等[25]采用了循环神经网络(Recurrent Neural Network,RNN)嵌入实体,从而获得路径表示,但这样的路径建模仅涉及实体嵌入。这些限制可能会损害模型的推理能力。

上述基于连接关系的知识图谱学习路径推荐方法并未充分利用知识的连通性,一个好的学习路径推荐模型应该能够生成满足不同场景下不同学习需求的学习路径。针对这些问题,研究者使用多维的知识图谱建模包含多种类型的实体和关系。Shi 等[26]提出了一种基于多维知识图框架的学习路径推荐模型,由多维知识图谱和学习路径推荐模型两个模块组成,通过构造多维知识图表达学习资源间复杂语义关系,从而达到学习路径推荐的目的。Zhou 等[27]提出了在多维知识图谱的基础上,使用课程序列为学习者推荐学习路径。构建多维课程知识图谱后,使用AprioriAll 算法从学习者的过往交互数据中挖掘目标知识点,生成学习路径并推荐给学习者。

基于知识图谱的学习路径生成算法根据个体的学习需求和节点间关系生成约束,从而生成学习路径推荐;但算法中知识图谱嵌入表示是否有效,能否与学生个性化需求完美结合,这些问题仍困扰着研究者。

2.3 以学习视频为目标的推荐算法

随着在线教育的普及,传统的教育形式正越来越多地被在线学习形式取代,诸如Bilibili、Youtube 和Coursera 之类的视频网站为希望学习特定主题的人们提供了更多的选择和丰富的学习资源。许多著名的大学提供在线学习视频,以便国际学习者参加他们的课程。此外,在线视频教育能够到达难以建立传统学校的偏远地区,不仅帮助了更多人接受更好的教育,而且降低了教育成本。通常学习视频推荐方法分为基于协同过滤的学习视频推荐和基于内容的学习视频推荐。

2.3.1 基于协同过滤的学习视频推荐

协同过滤被认为是推荐系统中最流行的算法,它为用户提供了其感兴趣的相似项。陈汉福[28]构建了基于协同过滤的学习视频推荐系统,根据学习者观看和收集视频的行为构造学习者与视频之间的交互向量,利用交互向量测量学习者之间的相似性,并据此向学习者推荐学习视频。Choi 等[29]提出一种基于学习者面部表情的学习视频推荐方法,通过捕获用户面部表情的变化分析学习者当前偏好,以解决学习者观看视频时经常存在的学习者偏好改变问题。Sincan 等[30]提出了一种新的基于内存的协同过滤视频推荐算法。Ding等[31]使用多元线性回归模型,通过分析一系列针对视频的用户行为自动计算用户的偏好,无需用户进行评分操作。针对视频描述之间的语义关系,Yu 等[32]分别对视频相似度矩阵和用户相似度矩阵进行归一化处理,并引入知识图谱,基于多路径关系的置信度进行推荐,并将推荐结果与协同过滤推荐结果进行融合。

由于在线教育平台上缺乏明确的评分数据,越来越多的基于协同过滤的学习视频推荐系统通过隐式反馈收集用户偏好,例如视频观看时长和视频观看时间;但是,这些系统往往忽略学习者的视频暂停和拖动行为,这些行为同样反映了学习者对视频的偏好。尽管协同过滤算法已被广泛应用,但算法本身仍然存在数据稀疏、可伸缩性差和冷启动问题,严重限制了推荐质量。

2.3.2 基于内容的学习视频推荐

解决冷启动问题的一种方法是基于内容为用户进行推荐,核心思想是基于对所推荐项目的内容分析,向用户推荐类似的项目。熊玲[33]提出了一种基于标签的视频推荐方法,该方法通过标记观看视频记录构建学习者的兴趣模型,为学习者提供学习视频推荐。Tsai 等[34]提出了一种自适应个性化排名机制,该机制使用基于偏好和基于邻居兴趣的方法对学习对象与用户意图的相关程度进行排序,用本体描述视频学习资源,为主动学习者提供合适的学习视频资源。Cui 等[35]提出了一种新颖的基于视频内容和社交网络的视频推荐算法,由信任朋友计算模型和视频的质量评估模型组成。Li 等[36]提出了一种利用深度卷积神经网络缓解冷启动问题的基于内容的视频推荐方法。Deldjoo 等[37]提出了一种基于视频内容的推荐系统,该推荐系统可以自动分析视频内容,并基于当前应用传感器和媒体学习理论推荐同风格的视频。Lee 等[38]将视频推荐建模为基于视频内容的相似性学习问题,并采用了深度学习进行视频嵌入,这些经过训练后的视频嵌入可以预测基于共同观看的系统识别的视频关系。Bhatt 等[39]提出了一种视频推荐算法,将基于主题的视频表示与主题间关系的顺序模式挖掘相结合。针对不存在明显组织关系的学习视频,Tang 等[40]设计了面向特定学习方向的概念导航系统,通过对已搜索到的学习视频文本展开内容分析,根据分析结果生成关联概念和视频内容的概念图,并基于此为学习者推荐学习视频,提高视频学习的效率,帮助学习者探索感兴趣的知识。

由于基于内容的课程视频推荐通常使用标签和本体描述视频,导致此类方法很大程度上忽略了各个学习视频之间的知识相关性。

2.4 以课程为目标的推荐算法

课程推荐是一项重要且具有挑战性的任务,特别是在互联网发展迅速、教育资源丰富多样的当下。其主要挑战在于目前大多数学术领域都存在大量学习资源,而在课程学习时却不可避免地忽视学习者对特定知识的个性化需求。因此,及时捕捉学习者行为并对其学习过程进行个性化指导是重要且必要的。

为了解和捕捉学生对课程的兴趣,研究者在多个方面进行了研究,包括课程推荐、行为预测、用户画像等。传统的基于协同过滤的课程推荐策略考虑学生的历史互动,并根据具有相似兴趣的用户的潜在共同偏好提出推荐。这样的方法通常会因为学生和课程交互的稀疏性问题而限制了推荐性能。因此,部分研究者提出通过利用诸如用户信息、项目属性信息、社交网络、图像等辅助信息解决这个问题。

在线学习平台积累了大量的学习者与网站的互动数据。通过这些交互数据和学习者本人信息可以发现其学习模式。Rawat 等[41]提出了一种基于学习者个人特征的课程推荐方法。该方法在考虑学习者的知识水平和技能水平的基础上,根据学习者的个人资料和学习日志对他们进行分类,然后采用关联规则挖掘向学习者推荐合适的课程。

知识图谱作为一种新型的图结构,同样可以作为辅助信息缓解冷启动问题。Jung 等[42]设计了一个知识图谱增强的个性化课程推荐框架。通过学习者和课程相关的关键字,整合课程的内部信息和外部知识,使用知识图谱作为辅助信息提高推荐性能,嵌入学生课程水平,向学习者推荐课程。

除此以外,研究者还尝试引入其他辅助信息。李弘运[43]设计了使用微博账号登录的在线学习资源管理平台,并通过系统收集了用户的社交信息和课程的学习者评分,改进基于协同过滤的推荐算法为学习者提供课程推荐,根据课程内容的相似性解决了新课程的冷启动问题。Gulzar 等[44]设计和开发了一种混合推荐系统,构建了课程本体,混合方法与本体一起被用来检索有用的信息并作出准确的推荐,方便学习者获取信息,并为其提供个性化服务。贺超波等[45]构建了基于兴趣社区的在线学习服务,通过分析论坛中学习者的多种互动数据,挖掘学习者间的关联,建模学习者兴趣特征,依据关联度次序向学习者推荐课程。Yin 等[46]针对MOOC 平台设计了基于LDA(Latent Dirichlet Allocation)的课程推荐算法,该算法构建了基于LDA 主题模型的学习者兴趣模型,并结合项目的分布构建了主题和学习者得分矩阵,利用主题模型本身的优点减少计算量,与传统的用户程序矩阵方法相比,能更准确地挖掘学生的潜在兴趣。

3 基于学习者和学习资源本体的推荐算法

鉴于学习资源的数据多样性,学习资源推荐算法通常因推荐目标不同而结构差异巨大,但总体可以划分为从学习者建模和从学习资源建模两方面出发的学习资源推荐算法。基于此,本文总结了基于学习者和学习资源本体这两类常用学习资源推荐算法并以通用的方法为例详述了算法具体流程。

3.1 基于学习者的学习资源推荐算法

作为学习资源推荐的主体,学习者建模是个性化学习资源推荐系统中最重要的部分,只有精准地建模学习者偏好,才能实现高效的推荐。基于学习者的推荐算法主要介绍常用的基于学习者画像和基于学习者行为序列这两种算法。

3.1.1 基于学习者画像的推荐算法

用户画像指将真实用户的相关数据经过算法的分析建模后,根据用户的偏好生成相应的用户模型。根据用户画像的原理,可以利用算法生成学习者画像,将学习者划分成不同类型,基于学习者画像个性化推荐不同学习资源。陈海建等[47]等根据脑电研究的原理,对学习者基本信息、知识点兴趣、学习风格和学习偏好等方面进行了学习者画像,通过标签化处理将学习者划分成多个类,并分别为不同类型的学习者提供教学方面改进建议,这表明通过挖掘学习者的个人数据建立学习者画像能够达到精准教学的目的。

其中n表示规定的学习行为向量维度。

通常学习行为的特征值间存在较大差异,因此通过对向量特征进行归一化处理保证各个特征间具有水平相当的影响。在归一化后,使用K-means 算法对特征数据进行聚类分析时,首先处理学习者标签,使用特征词作为其特征标签。然后通过K-means 算法得到聚类的划分群体,再为每个学习者群体构建学习者画像。另一方面,根据学习者历史信息获取学习者目前的学习兴趣,可以使用余弦函数进行相似度计算,如式(2)所示:

其中:KWi和KWj分别表示两个不同的关键词,ki和kj表示知识点的特征向量。通过学习者画像高度概括学习者个人性格属性特征,再和已经计算好的知识点相似度等内容一起应用到学习资源个性化推荐中,为类型相似的学习者推荐其感兴趣的知识点,达到更优的学习资源推荐效果。

除K-means 聚类外,研究者还尝试通过不同技术构建学习者画像。王莉莉等[49]使用了双向长短期记忆网络和注意力机制建模学习者画像。葛迪等[50]从行为、对象、场景这3个方面构建学习者画像,并使用图神经网络自适应地动态更新画像。

基于学习者画像的学习资源推荐算法通过划分学习者类型建模学习者偏好,但不能准确针对特定学习者行为进行个性化推荐,因此研究者使用基于学习者行为序列的推荐方法解决这一问题。

3.1.2 基于学习者行为序列的推荐算法

学习者行为序列通常指学习者于在线教育平台上学习时,根据每个学习行为开始和结束的时间,生成遵循时间顺序的学习行为序列[51]。以最经典的基于学习行为序列相似度推荐算法为例,通常可以将学习者行为序列建模为序列集合S={(x1,y1),(x2,y2),…,(xi,yi),…,(xn,yn)} (n≥2)。其中(xi,yi)表示序列中学习者第i个学习行为,xi表示学习资源;yi表示该学习者对学习资源实施了相应的操作。用si表示学习者的第i个行为状态,即学习者行为序列数据中第i个元素对中的元素xi和yi链接组成的行为状态。

首先求得两个状态序列Ci和Cj最大公共状态子序列。在此基础上,获得Ci和Cj状态次序相似度,如式(3)所示:

其 中:comm(Ci,Cj) 为Ci和Cj的最大 公共状 态子序 列;|Ci∪Cj|代表Ci和Cj的所有的行为状态数;len()表示包含的状态数。

设Ci中包含γ+1 个行为状态,Cj中包含ω+1 个状态,则Ci中的状态转移个数为γ,Cj中的状态转移个数为ω。假设Ci和Cj存在ε个相同的状态转移,对于第i(1 ≤i≤ε)个相同的状态转移,取其在Ci和Cj中发生的最小转移次数作为第i个状态转移的次数τi。对ε个相同状态转移的次数求和得到φ。则两个状态序列Ci和Cj的状态转移相似度计算公式为:

两个状态序列Ci和Cj的状态值相似度计算公式为:

两个行为序列Si和Sj的最终的相似度函数是由式(3)~(5)的结果分别根据不同权重线性组合得出:

其中:α+β+δ=1,α>0,β>0,δ>0。

基于计算得出的行为序列相似度,对行为序列具有较高相似性的学习者,采用协同过滤算法进行学习资源推荐,即参考兴趣相似的其他用户的评价信息,预测学习者对于未交互的学习资源的兴趣。

3.2 基于学习资源本体的推荐算法

学习资源推荐算法的另一常用方法是根据学习资源本体间特征及资源间相互间关系为学习者推荐学习资源,可以有效解决协同过滤算法在面对无历史信息的新用户和与用户数量相比数量庞大的学习资源时,出现的冷启动和用户信息稀疏问题。卢春华等[52]提出了基于本体的神经网络推荐模型。

在已建立学习者与学习资源本体的基础上,使用TransR(Translating entity space and Relation spaces)构建学习者与学习资源的关系网络。对于每个含有关系的三元组,使用转移矩阵Mr将头实体h和尾实体t映射在关系空间。头、尾实体的投影向量分别定义为hr=hMr和tr=tMr。则目标函数定义为:

首先最小化目标函数,在嵌入层得到实体和关系的向量表示,使用轻量级双向循环神经网络对学习序列进行建模。以门控循环单元(Gated Recurrent Unit,GRU)作为基本单元,有效获取学习长期偏好,提高网络更新效率。GRU 的激活函数将上一个时间步t-1 的状态和当前时刻t的状态线性组合:

更新门zt的表达式为:

重置门rt的更新公式为:

当前状态激活函数的定义为:

其中:xt表示当前t时刻的输入,ht-1为上一时刻t-1 的隐含向量,σ为激活函数,⊙表示Hadamard 运算。

学习资源-注意力机制的设计使得解码器能够在学习资源的序列中动态地选取数据,对所有被选取的结果都进行了线性组合,以便于决定哪类学习资源会影响推荐结果,在获取不同学习者的不同学习资源偏好后,编码器部分的输出公式如下:

其中:a为计算得出的注意力系数。

将编码器输出的学习者对已学习和已浏览资源的偏好,输入到解码器中,同时输入候选的学习资源实体和学习者实体。将三者通过双向RNN 层和前馈隐藏层,通过激活函数得到各候选的学习资源实体的长度划分平均值。其中,网络权重的更新采用随机梯度下降法,损失函数则采用交叉熵损失,函数定义如下:

其中,x是预测结果的分布;y是实际学习序列的分布。模型结构如图1 所示。

图1 基于本体的神经网络推荐算法结构Fig.1 Structure of neural network recommendation algorithm based on ontology

4 学习资源数据集

学习资源领域的公开数据集较少,一方面由于数据通常包含学习者的隐私,数据公开难免涉及隐私泄漏问题;另一方面,构造这类数据集通常需要大量的人力物力,因此许多研究者选择使用非公开的数据集。基于此种缘由,创建在线教育平台时,开发人员就应当注意收集用户的学习行为数据等,这些数据记录为教育教学的研究起到了重大作用。为了便于研究者针对学习资源推荐这一特定问题的研究,本文总结了目前主要的公开学习资源数据集,如表2 所示。

表2 公开学习资源数据集Tab.2 Public datasets of learning resources

edX 教育数据集 edX 是由美国哈佛大学、麻省理工学院两校共同创建的非盈利性质的在线教育平台。2014 年5月,edX 平台发布了平台的开放数据集。数据集包括2012 至2013 学年edX 平台上共290 门课程开放数据,包含课程编号ID、上线日期、课程名称、讲师、课程主题、是否提供认证、拿到认证人数、用户年龄中位数、男性占比、女性占比等23 个字段。

Canvas Network 开放数据集 Canvas Network 是一个开放在线课程平台。2016 年3 月Canvas Network 公布的数据集包括该平台的10 个学科门类里的238 门课程,课程中医学、计算机、数学等科学类课程占少数,大部分为职业应用类课程,有130 门之多。公布的数据集包含学习者信息、课程信息等26 个字段。

HarvardX Person-Course Academic 数据集 包含 edX 平台上哈佛大学2012—2013 学年秋季、春季和夏季的学习者数据。数据集包含课程ID、学习者ID、学习者国籍、分数等20 个字段。

英国开放大学学习分析数据集(Open University Learning Analysics Dataset,OULAD)英国开放大学是一所完全在线的大学,他们公布了2012/2013 学年和2013/2014 学年7 门课程的匿名数据,其中3 门是社会科学课程,4 门是理工科课程。数据集包含关于学生的地域信息、人口统计、个人数据、参与校内活动情况、课程交互信息等。

MOOCCube 教育数据仓库 MOOCCube 是清华大学和学堂在线联合创建的一个开放数据仓库,收集了来自学堂在线教育平台的真实用户行为数据,包括用户与学习视频交互、留言等。作为附加资源,MOOCCube 还包含一个大型概念图和相关学术论文。

MOOPer数据集 MOOPer数据集是由国防科技大学和在线实践教学平台头歌平台(EduCoder)共同发布的大型开放实践数据集。数据集包括平台2018至2019年间用户参与实践练习的交互数据,并将课程、实践、关卡、知识点等实体属性信息及相互关系构建为包含11类实体,10类关系的知识图谱。

5 结语

随着现代信息科学技术的飞速发展,传统授课模式遭受了前所未有的严峻挑战,越来越多的新技术加入课堂中。无论是线上教育平台还是辅助授课软件,都为学习者创造了更多的学习机会与更好的学习条件。多种个性化学习资源推荐算法都帮助学习者更快地找到适合自己学习风格的学习资源,但是截至目前,在学习资源推荐领域仍有几大问题还未解决。

1)学习平台移动端稳定性。

科技发展使得移动设备更加普及,越来越多学习者使用电子设备进行课程学习,这对学习平台和辅助授课软件的硬软件设施提出了要求。在复杂的情况下能否利用有限的资源为学习者提供准确的学习资源推荐,特别是一些视频直播课程,平台需要在移动客户端为每位学习者提供稳定同步的课程进度、习题测试,保证平台移动端的稳定性。

2)冷启动问题。

冷启动问题指一个新的系统启用时或新用户使用系统时,由于系统内无足够的数据以分析新用户的偏好,导致新学习者在使用在线学习资源推荐系统时推荐不准确的问题。目前研究者已尝试许多方法缓解推荐算法中的冷启动问题,例如,引进社交信息、引入专家知识等,但是这类方法通常很难拓展迁移到其他模型中,导致无法有效解决冷启动问题。

3)推荐方法的普适性。

推荐方法通常是针对某一特定问题而开发,不同方法适用对象不同。因此,在进行学习资源推荐时应针对不同算法缺陷,选取最适合学习者的个性化推荐算法。目前的一大趋势是使用混合推荐策略改善推荐效果,但是多种推荐算法能否很好地结合仍是未知数。

4)隐私保护问题。

近几年来,人们越来越重视个人数据的隐私问题。对于在线学习资源推荐方法,分析数据并从中获取偏好时,需要收集学习者的个人信息、社交信息、学习水平等数据,因此在使用时更要额外注意学习者隐私信息保护,避免隐私泄露。另一方面,面对一些脱敏数据,在线学习资源推荐方法需要正确地分析提取学习特征,避免推荐效果受其影响。

针对以上这些问题,研究者们仍然需要进行不懈的努力,提高在线学习资源的推荐准确性和算法普适性,以使在线学习者获得更好的学习体验和学习效果。

猜你喜欢
习题学习者知识点
从一道课本习题说开去
一道课本习题及其拓展的应用
抓住习题深探索
一张图知识点
一张图知识点
第四页 知识点 歼轰-7A
你是哪种类型的学习者
十二星座是什么类型的学习者
精心设计习题 构建高效课堂
汉语学习自主学习者特征初探