一种新的高校外语MOOC平台构建与实现

2019-10-23 03:20张静

微型电脑应用 2019年10期

张静

(咸阳师范学院外国语学院, 咸阳 712000)

0 引言

当前的MOOC环境(例如：Edx，Coursera，Udacity，Udemy，P2PU等)利用分层独立结构。课程之间没有语义关系。界面更类似于传统的数字图书馆，其中搜索特定资源将涉及在列出的课程类别中找到适当的课程，然后搜索特定学习对象，例如视频讲座、文章、作业或PowerPoint演示文稿等。例如，假设一名学生开设了一门名为“Data Mining”的课程，并且他因为某些统计背景缺乏知识而难以完成作业。如果MOOCs的学习对象在语义上相互关联并且实施了个性化推荐，学生将获得他需要修改以回答此作业的正确资源，语义技术支持比当前MOOC平台提供的信息管理更灵活的信息管理。本文通过介绍各种协作语义过滤技术，用于构建语义丰富的MOOC管理系统，并利用该项技术搭建了一个语义中型平台的原型实现[1-4]。

为了实现在线发布信息的广泛化，搜索引擎不能依赖曾经被雅虎等在线目录使用的手动索引过程。但是，完全自动化的索引过程的精度低于手动索引过程。协作过滤是通过使用在社交网络中收集的知识来自动化索引过程的方法，协同过滤的早期研究已应用于协同过滤和社交过滤等方面，该类应用均是基于各种统计数据，如精度和准确度，而用户的知识和经验往往被省略。本文介绍了社交协作的各个方面，并描述了一种通过构建由社交网络成员维护的集合网络(称为社交语义协作过滤(Social Semantic Collaborative Filtering，SSCF))来改进协同过滤技术的方法。基于他们对给定主题的专业水平，用户收集小的信息子集并与社交网络的其他成员共享这些集合。

2 MOOC平台实现介绍

2.1 社交语义协同过滤(SSCF)算法介绍

案例介绍如下：如图1所示。

假设Alice注册了语义丰富的数字图书馆或MOOC课程，根据图1关系可看出她的一些朋友已经注册了，通过在线社区中已知的功能，她将她的个人资料与她朋友的个人资料相关联[5-6]。

稍后，Alice开始收集她的报告所需的信息，保留了她在在线书签系统管理的馆藏中找到的资源的链接。不久，她发现她收藏的资源并未以令人满意的程度涵盖报告的主题。通过SSCF提供的功能，她试图找到她所在社区内对相关主题有更高专业知识的其他人。

图1 用例关系图

SSFC模型介绍如下：

MOOC中的ollab orative过滤功能列出了在给定社交邻域范围内的所有集合，其主题与Alice定义的主题相关。基本SSCF模型元组M(P，C，G，F，T)，其中通过对等体F之间的直接连接在社交网络图Gpeers(P，F)中链接的一组用户P维护一组集合F，每个都用图表T中的概念注释，其中包含各种知识组织系统(税收，叙词表，标签)。假设每个集合c∈C只有一个所有者p∈P。模型定义如下：

PeerCollection：P∈C—返回用户拥有的所有收藏。

OwnedBy：C→P—返回该收藏的所有者。

SubCollection：(C，C)→如果一个集合是另一个集合的子集合，则检查。

Expertise：(P，C)→[0,1]—表示用户P在由集合C表示的主题中具有的专业水平；在模型中，它表示该系列的质量。

Classification：C→T—返回描述该集合的主题列表。

PeerDistance：(P，P)→N—使用Dijkstra算法计算社交网络图中两个对等点之间的距离。

Similarity：(T，T)→[0,1]—计算两个分类主题之间的相似性水平。

FinalRankingSM：(user, collection, PeerDistance, Similarity,Expertise)→[0,1]—基于以下方式计算user∈P的社交网络中的Collection∈C的排名值：

——与所有者的距离= OwnedBy(Collection)；

——用户拥有的分类主题与所有者之间的相似程度(Similarity(Towner，Tuser))；

——所有者的专业衡量标准(Expertise (owner, collection))。

knowsRange：定义了在遍历社会关系图时两个人之间的最大距离。

计算集合专业知识水平的一种可能方法是分析集合包含的图表，在他们的收藏中包含给定集合的人越多，它就越重要。集合的质量对应于所有者在相关主题上的专业水平，算法如下[7]：

如图1所示的场景中，Alice发现她的一位朋友Caroline收集了有关数字图书馆的信息，并且她对该主题的专业水平非常高，由于Caroline在她的数字图书馆文件夹中包含由Damian和Eric(分别为图书馆和Web语义)提供的高质量文件夹，因此作为Caroline的推荐，此信息将自动提供给Alice。 Alice发现Eric的Web语义集合非常有用，她决定直接在她的书目本体调解下链接它。她还链接到Bob的人工智能文件夹，Alice现在可以利用她的直接朋友Caroline和Bob以及社交网络的其他成员(Damian和Eric)收集的信息，而不会打扰她的直接朋友。

算法1

REQUIRE:p∈P

ENSURE:C'⊂CownedbyusersinknowsRange

degreesofseparationfromp'

Pused=Φ

FORd=1toknowsRangeDO

FORALLp'∈PsuchthatPeerDistance(p,p')=dDO

IFp'∉PusedTHEN

Pused←Pused∪{p'}

FORALLc∈PeerCollection(p')

IF∃c'∈C'SubCollection(c',c)THEN

Tc=Classification(c)

Tc'=Classification(c')

IFSimilarity(Tc,Tc')

C'←C'∪{c}

ENDIF

ENDFOR

ENDIF

ENDFOR

C'←sortC'accordingtoFinalRangkingsm

RETURNC'

2.2 社会语义协同过滤评估

SSCF方法不同于传统的协同过滤，因为其利用用户明确给出的社交关系，而不是基于协同过滤算法人工创建的社交网络计算推荐。

假设

当使用社交语义协同过滤技术来传播信息时，整个社交网络变得更加明智。换句话说，该假设声称社交网络的成员可以访问由域专家提供的更高质量的信息。

仿真模型

仿真模型基于Web语义项目中定义的类似想法，SSCF和Web语义之间的主要区别在于，在Web语义中，用户执行项目手动查找某个主题的专家的过程。在SSCF中，社交网络中提供的知识的语义注释用于自动化查找最高质量信息的过程。仿真模型本身可能与所提出的类似，因此本文只需证明在给定的最大分离度范围内找到专家是可能的。本模型基于两个网络：社交网络和收集网络，其中包含用户收集的信息。与集合网络重叠的社交网络(从单个人的角度看)的示例，每个集合都使用Dewey Decimal Classification(DDC)进行注释。主要实现在计算主题之间的相似性的意义上模型的简化。如图2所示。

图2 从单个人的角度评估模型

基于DDC类别之间的分类关系，即主题之间的相似性，创建集合网络，每个集合由社交网络的一个(且仅一个)成员拥有。给定用户关于与他/她的集合相关联的主题的专业水平由范围[0,1]中的实数表示。

仿真模型的条件假设

在SSCF模型中，每个用户使用所选主题的信息管理集合，不同的用户代表给定主题的不同专业知识，假设如下：

用户在特定集合上提供的信息的质量与用户关于集合主题的专业水平成比例。

可以在社交网络中找到对给定主题具有高度专业知识的用户。

根据简单的社交协同过滤模型，模拟环境包括一组用户和由这些用户管理的一组集合。该系列的质量取决于用户对相关主题的专业知识，每个用户都知道许多其他用户；然而，社会关系并不是隐含的——它被认为是对称的。

虽然根据小世界现象，社会关系程度的分布是基于幂律的(Zipf分布)，但在实验过程所设定的社会联系的程度是钟形曲线形状。一些研究人员建议将这种分布应用于特定类型的社交网络，例如学术网络。

2.3 通过实验对社交网络给定范围(R)内的平均最大专业知识进行分析，解决如下疑问：

1) 用户是否可以在六个分离度内访问由域专家遍历其社交关系和馆藏网络收集的信息？在Zipf社交关系分布的社交网络中，六个分离度内的最大专业知识是91%，可以解释为用户可以通过收集网络访问领域专家的专业知识。对于具有钟形曲线分布的社会关系的特殊类型的社交网络，社交网络的成员甚至可以在三个分离度内获得更高的专业知识。

2) 社交网络成员获得的平均专业知识是否高于单个(未连接)成员的平均专业知识？我们计算了社交网络成员的平均专业知识(R = 0)。在两种类型的社会关系分布的情况下，社交网络中的单个成员的平均专业知识甚至比在一个分离度内的网络中的平均专业知识低得多。

考虑到对上述问题的解决，基于假设条件成立—即当使用SSCF方法传播信息时，整个社交网络变得更加明智。通过构建了一个类似的社会协同过滤模型，仿真结果显示，如图3所示。

每个用户能够(平均)找到由限于六度分离的社交网络的子图中的其他用户提供的最佳信息质量。证明了构建的社会网络模型对应于小世界现象，因此，已经实现了SSCF方法的基本假设：整个社交网络更好地了解并且可以在社交网络邻域内找到专家(具有高于90%的平均专业水平)。

3 总结

本文基于协同过滤技术构建语义MOOC管理系统，主要介绍了系统设计过程中的关键算法—SSCF，并设计原型系统，对SSCF模型进行仿真，仿真结果表明该模型在给定范围内的平均最大专业知识的百分率较高，即对于用户提供更为精确的信息推送机制。