数字教学资源的语义标记系统设计研究

2017-07-25 21:58王小梦郭爽
中国教育信息化·高教职教 2017年7期

王小梦++郭爽

摘 要:随着互联网的普遍应用特别是大数据、云计算和移动互联等技术的发展,教学资源逐渐向数字化、网络化和智能化方向发展。数字教学资源建设是教育现代化的核心,其最终目的是为了满足信息环境下师生的多元化需求,以提高教学效果,培养学生的综合素质和能力。然而,当前数字教学资源由于来源不同,质量参差不齐,在内容上存在大量的重复交叉,用户不得不消耗大量时间在资源查找和知识发现上。因此本文尝试运用语义标记的方式增强不同教学资源的关联性,丰富教学资源的内容和表现形式,改善用户的体验,最终实现数字教学资源智能化发展。

关键词:数字教学资源;语义标记;语义网;信息组织方式

中图分类号:G434 文献标志码:A 文章编号:1673-8454(2017)13-0040-05

随着信息化和数字化的不断发展,为了适应教育现代化的发展需要,教学资源的数字化进程逐步加快。然而其存在的问题也日益凸显。不同来源的教学资源采取不同的数据规范和标准,使数字资源之间难以统一口径,资源之间缺少必要的关联。除此之外,资源本身的描述不够具体,用户往往需要花费较多的时间提取所需信息,这些问题的存在都严重阻碍了教学资源的智能化进程。2000年,Web之父、万维网的发明者伯纳斯·李(Berners-Lee)提出了语义网(Semantic Web)的概念。自2009年肖顿·戴维(Shotton David)等人提出语义出版概念后,语义出版就受到了出版界与学术界的广泛关注。语义出版是一种语义増强的期刊出版形式,它通过语义标记的方式丰富了文章的内容和表现形式,有助于增强文章内容的关联性,改善科研用户的阅读体验,最终实现智能化出版。[1]

近年来,面对数字教学资源建设窘迫的现状,语义相关技术逐步受到关注。杨现民、余胜泉等[2]2013年基于学习元平台(Learning Cell System, LCS),提出了綜合应用语义基因、基于规则的推理、关联规则挖掘等技术实现资源动态语义关联的方法,并在实践中验证了该方法的准确性。杨现民[3]提出教学资源动态语义聚合是要自动生成具有内在逻辑关联的资源结构体,且可以随着资源之间关联关系的变化而动态更新和发展。语义标记技术可以增强教学资源之间的语义关系,促进资源的发现获取,能够在一定程度上解决教学资源数字化进程中面临的困境。鉴于此,本研究将对数字教学资源的语义标记相关技术进行探索,提出数字教学资源语义标记系统模型,并以基础教育教学资源为例对数字教学资源语义标记实现路径进行分析,期望能对当前数字教学资源建设提供借鉴和参考。

一、数字教学资源语义标记的相关理论与技术

1.语义标记的概念与意义

语义标记是建立在资源深度揭示与高度集成基础上的信息组织方式,它的出现为创新教学资源组织与发布方式提供了新的思路;同时,通过对资源知识单元进行语义标识提高资源对象间的关联度,有助于实现资源内容的按需重组与发布。[1]借助本体、关联数据等语义相关技术,可以丰富数字教学资源的内容特征,增强不同资源间的语义关联,并提供相关资源数据集的获取途径,提高资源的利用率。从数字教学资源的内容、形式和服务等方面来看,语义标记具有五方面显著的意义:

(1)实现资源内容结构化。在海量教学资源中,存在着大量碎片化、非结构化的信息,用户无法高效地进行筛选、提取和利用,通过XML、RDF、OWL等技术和标准,可以将大量非结构化、碎片化信息转变为结构化信息。在此基础上,通过添加语义标签,划分教学资源的结构层次,建立资源与数据库之间的链接,以便实现教育内容的获取和处理。

(2)促进教学资源的融合。在语义标记的网络环境下,不同来源的数字资源、不同描述方式的内容可以通过提取元数据、构建本体库、进行数据关联等方式实现数字资源的有效融合;通过语义互操作实现不同类型数据之间的融合,从而解决不同数据描述方式带来的资源异构问题以及不同数据库来源带来的跨库检索难以实现的问题,改变信息孤岛等情形的存在,大大提升用户的检索效率和检索体验。

(3)实现数字资源可视化。语义标记通过添加语义标签、高亮词条等可视化方式,可以更好地展示教学资源的知识结构,帮助用户快速理解资源核心主题,获取相关信息,提高学习效率。

(4)实现资源对象关联化。语义标记借助语义技术,通过自动识别资源中有意义的实体,从内容的逻辑结构等不同层次实现对教学资源的精准分析,实现知识单元之间的多层次关联,深度揭示教学资源的知识结构,便于用户阅读和理解。同时,通过教学资源的多重引用关系和本体技术,实现不同语义资源之间以及内外部资源的联系,便于用户拓展阅读。

(5)实现资源个性化推送。不同的用户有着不同的信息需求,个性化是信息服务的发展趋势,面向语义标记的数字教学资源有必要关注用户同数字化资源之间的相关性,分析用户的兴趣所在,并以用户需求为导向组织和提供适合的教学资源。

2.数字教学资源语义标记的表现形式

数字教学资源语义标记的表现形式主要包括两种,一种是对资源外部形式特征的揭示,如揭示资源的媒体类型、格式、适用对象、作者、日期、版权管理、标识、评价等信息,并根据这些外部的形式特征建立起与相关实体资源的关联。另一种是对资源内容特征和逻辑结构的揭示和描述,具体可以体现为标题、学科、年级、教材版本、知识点等实体的语义标注,实现资源内容的结构化导航及相关资源之间的联系等。语义标记的发展阶段大致划分为三个层次——描述外部特征的初级阶段、浅层语义特征描述阶段和深层语义特征标引阶段。在浅层语义特征描述阶段,主要关注半隐性或半显性语义特征的描述。随着相关技术的不断发展成熟,逐步过渡到全面实现语义特征标记的高级阶段。

3.数字教学资源的语义标记技术

语义标记通过XML、元数据、本体、关联数据等语义相关技术,能够实现非结构信息的结构化,通过添加语义标签使信息资源内容有层次,从而为实现内容的自获取与融合提供基础。

(1)XML

XML(eXtensible Markup Language,可扩展标记语言)是由W3C定义的一种用于对信息进行描述的语言,是标准通用标记语言SGML的一个优秀子集。XML既能对数据内容进行描述,也可以对其结构进行描述,从而体现数据之间的关系。在数据交互和集成方面,XML有着独特的优势。XML的可扩展性使用户可以根据特定的需要定义文档中的标记,非常灵活;XML可以使数据结构化,方便建立任何层次复杂的模型。作为数据表示与交换的标准,XML可以表达各种类型的不同数据,提供数据结构和内容表示的通用格式,从而实现数据的交互与共享。此外,其跨平台能力能够实现不同数据源数据的无缝集成。

(2)元数据

元数据是用来对数据属性进行描述的“关于数据的数据”。信息界将元数据定义为:既可以用来描述信息资源,也可以为各种不同的数字化信息单元和资源集合提供规范,并且能够对数字资源进行整合,加强对信息资源的搜集开发和组织利用。[4]元数据的可获取性和泛在性,为数字资源聚合提供了数据基础;其规范性的结构特征能够实现数字资源不同层次的集成。

(3)本体

本体是某个领域的概念集合和概念之间的关系,通过形式化的方式表达该领域的知识及其知识结构。在Tim Berners Lee提出的Web体系结构中,本体层起着关键作用。本体可以为不同类型不同来源的资源提供统一的概念描述标准,从而实现资源的语义化标注和资源与资源之间的语义互操作,这为解决不同资源间的语义异构难题提供了基础;同时,对不同领域的资源构建本体,可以将不同的知识本体聚合,有利于解决数字资源孤岛问题,从而实现数字资源多层次全方位的深度聚合。[5]在知识组织中,本体的主要作用就是基于资源集合构建一个本体概念模型,该模型通过对资源进行语义标注,将其组织成相互关联的知识网络,从而完整清晰地反映资源的知识结构,更好地实现知识检索。[6]目前,基于本体的应用主要是构建各种类型的本体知识库和本体概念模型,在语义层面上对资源内容进行描述和揭示。

(4)关联数据

关联数据由语义网创始人Berners Lee在2006年7月首次提出,是W3C推荐的用来在语义网上发布、共享、链接各类数据、信息和知识的一种标准。关联数据是一种推荐的语义网最佳实践,是语义网发展的重要推动力量。关联数据可以理解为用URI来命名数据资源,采用RDF模型来描述和联接资源,并揭示资源间的语义关系,通过HTTP协议来获取这些数据。关联数据对数据资源进行语义描述,不仅可以揭示数字资源内部的复杂联系,还能够实现不同数字资源之间的语义互操作,从而促进资源之间的语义互联和深度聚合。它不仅使分散异构的数据实现语义关联,还常与本体技术结合,增强资源之间的语义相关,从而使数据资源成为无缝关联的有机整体,便于实现数字资源的一站式检索等其他应用。

二、数字教学资源的语义标记系统模型

基于当前数字教学资源建设面临的问题,以及语义标记为导向的数字资源建设所具有的优势和价值,本文依据王晓光、陈孝禹提出的语义出版的DBIU模型,借助数字教学资源语义标记相关技术,构建了数字教学资源的语义标记系统模型。[7](见图1)

依据王晓光、陈孝禹提出的语义出版的DBIU模型,將数字教学资源语义标记层次模型分为数据层(Data)、业务层(Business)、交互层(Interaction)和用户层(User)。

数据层用来存储各种类型的数据。在语义标记中,数据类型丰富,除了传统的结构化数据之外,还包括了大量的半结构化和非结构化的数据。数据层即用来存储不同类型的数据,它是语义标记系统的基础。数据层不仅仅是传统的以单个资源作为存储单元的教学数据资源库,还有大量的以细粒度“知识单元”作为独立存储单元的数据库,例如XML数据库、关系型数据库等。这些数据库的建立满足了用户实现知识快速获取和高效利用的信息需求,将信息服务由资源本身深入到了资源内部的知识单元,使语义标记具备了知识服务的功能。

业务层则是在数据层存储各类数据、建立知识单元的独立知识库的基础之上,对知识单元进行识别,实现知识单元与知识单元之间的自动关联,从而构建一个广泛的、充满语义联系的知识网络,实现知识的自动发现。业务层能对数据进行结构化处理,并对资源内部的知识单元进行细粒度的识别和语义标注,将众多资源联系起来,建立起层次多且丰富的知识关联,满足当前环境下用户对信息和知识集成和集中获取的需要。业务层建立的关联不仅包含传统的教学资源之间的相互关联,例如建立一个资源同相关资源之间的联系,还包括资源内部各个部分之间的联系以及教学资源内部知识单元同外部资源之间的链接,大大丰富了教学资源的知识内容。

交互层是直接面向用户的,通过提供用户交互界面来对用户发现、获取和利用知识进行指导。交互层基于资源发现的导航设计以及信息可视化窗口等技术,可以将知识以更生动的方式呈现在用户面前,能够帮助用户迅速获取想要的知识,增强用户对复杂知识的理解。

用户层是通过分析和识别用户需求,挖掘用户兴趣来满足用户对知识信息的个性化需求。在用户层,通过对用户使用网络和浏览教学资源的行为进行记录和分析,借助数据挖掘等技术,分析出用户的信息需求和兴趣所在,建立用户兴趣库,并据此向用户推荐可能感兴趣的资源,使资源利用水平和知识服务水平都得到了很大的提升。

综上所述,在语义标记层次模型中,数据层主要用于对各类型数据的存储,通过知识库的建立实现用户对信息和知识的自由存取和利用,需要借助XML、元数据标准对数据格式及数据属性进行规范化标记。业务层则强调对数据资源进行深层次的加工整合,以实现对知识单元的语义识别及相互之间的语义关联,通过构建知识网络促进知识的自动发现和获取,业务层需要借助本体技术构建学科知识本体模型,在此基础上利用数据关联语义技术实现资源之间的互操作。交互层通过信息可视化技术,将经过语义标注和关联的教学内容以生动简单、易于理解的形式呈现给用户,帮助他们理解复杂知识内容。用户层则是通过对用户浏览利用资源记录的分析,借助数据挖掘和算法推荐等技术,揭示用户兴趣所在,并以此为依据实现资源个性化推送。

三、教育数字资源语义标记的实现路径——以基础教育教学资源为例

从语义标记层次模型中可以看出,数据层是开展上层活动的基石,业务层是交互层和用户层功能实现的前提,只有依据数据层和业务层的要求来对数字资源进行语义标记,才能更好地为交互层和用户层提供一个组织有序、整合良好的资源整体。本文依据数字教学资源的语义标记系统模型以及语义标记相关技术,建构了数字教学资源语义标记的实现路径,大体包括三个阶段——元数据阶段、本体建模阶段、数据关联阶段。本节将以基础教育教学资源为例进行路径分析。

1.元数据阶段

元数据是“关于数据的数据”,是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。我国现有的基础教育教学资源库建设大部分遵循CELTS-42[8]元数据规范,然而不同的教学资源平台对资源属性的描述都不尽相同,表达上也存在一些出入。因此本文依据教学资源语义标记的表现形式,即资源外部形式特征和资源内容特征两个方面对元数据进行整理归纳,得出基础教育教学资源元数据集。(见表1)这个阶段的语义标记还仅仅停留在浅层语义特征描述阶段。要想达到深层语义特征标引阶段,还需要构建学科本体模型,实现对资源内容特征和逻辑结构的深层揭示。

2.本体建模阶段

本体是某领域的概念集合和概念之间的关系,通过形式化的方式表达该领域的知识及其知识结构。构建学科领域本体是一个浩大的工程,单纯靠领域专家手工构建,人力和时间成本都不小,单纯靠机器自动构建的准确率还较低,目前认为由领域专家构建骨架本体、机器辅助完善本体是一个较为可行的方案。在中小学学科领域尚未形成可供参考的本体构建思路和模型。相比其他知识本体,学科知识有其独特的性质,不单要考虑知识内容本身,也要考虑学科教学内容及教学内容组织形式。本文依据丁国柱、余胜泉[9]对语文学科本体的构建流程,从学科知识本体、学科教材本体、学科教学本体三个维度出发构建学科骨架本体。(见图2)

(1)学科知识本体建模

知识分类是构建知识本体的前提,基础教育学科知识体系是在课程标准指导下,学科知识点之间相互关联构成的知识系统,它是基础教育教学资源平台建设的核心技术和难点。当前不少教学资源平台都推出了自己的知识点体系,然而这些知识体系描述相对粗略,缺乏教学信息的描述,知识点之间只是单一维度的上下位线性关系,缺乏知识之间多维度逻辑关系的体现。在数据系统中表征相对完整的学科知识体系,其实质是构建学科知识本体。目前学科知识本体的建构大多依据教材体系进行建构,还存在许多不合理的地方。

(2)学科教材本体建模

在学科教学中,知识的组织形式通过教材呈现,一线教师和学生最终通过教材完成对知识的传授和学习。如果说学科知识本身是内容,那么教材则是对内容的组织。把学科知识内容与教材关联有助于教学资源的组织,学生学习往往以教材教学顺序展开,学科知识本体就可通过教学流程进行整合,为学习资源深度聚合、情境导航、资源推荐、智能导学等应用打下基础。

(3)学科教学本体建模

只有学科知识内容本体和学科知识组织本体还不能反映学科知识应该如何教授,也无法表征不同层次的学生对同一个知识点的教学要求,因此必须深入课程标准,认真分析其对学科知识的选择、对不同学习层次学生的要求、教学方法的指导意见等,这就是学科教学本体。学科教学本体包含相关知识实例的教学方法、学习方法、教学目标、教学内容、教学测量和评价等。

3.關联数据阶段

关联数据(Linked Data)是一种发布和链接各类数据信息的方式,由伯纳斯·李在2006年提出。其目的在于基于当前的Web,建立一个联接所有自然、社会和精神世界的数据之网,对其中的所有事物以及事物和事物之间的关系进行计算机可理解的描述,构建数据之间的紧密联系,从而使任何人都可以借助互联网来高效地查找、利用和分享这些信息和知识。[12] 在构建了学科本体之后,将这些本体数据转化为语义元数据,用RDF格式来表示,并用URI表示的资源来替代这些RDF格式或者XML格式表示的语义元数据中数据类型属性的属性值,从而形成不同数据集数据之间的关联。与传统网络相比较,以关联数据为核心形成的数据之网能够提供给用户更准确、更丰富的信息资源,更好地满足用户获取资源的需求。

四、反思与小结

随着语义相关技术的发展,本文针对目前数字教学资源建设方面存在的问题,提出了数字教学资源的语义标记系统模型,并以此为依据展示了基础教育数字教学资源的语义标记的实现路径,揭示了利用语义相关技术进行数字教学资源标记的有效性和可行性。然而目前数字教学资源本体建构的相关实践还处于发展阶段,教学资源深层语义标记是教学资源数字化发展的必然趋势,在未来随着本体、关联数据等相关语义技术的不断成熟和发展以及用户对语义标记强烈的需求推动,数字教学资源的语义标记可以挖掘出更多隐性的知识特征,集成更丰富的信息源,为用户获取信息带来更多便利,为智慧教学提供必需的支撑。

参考文献:

[1]江燕青.面向语义出版的学术期刊数字资源聚合研究[D].上海:华东师范大学,2016.

[2]杨现民,余胜泉,张芳.学习资源动态语义关联的设计与实现[J].中国电化教育,2013(1):70-75.

[3]杨现民.泛在学习资源动态语义聚合研究[J].电化教育研究,2014(2):68-73.

[4]张天明.基于本体的中药材数字信息资源知识组织模型研究[D].吉林大学,2014.

[5]欧石燕,胡珊,张帅.本体与关联数据驱动的图书馆信息资源语义整合方法及其测评[J].图书情报工作,2014(2):5-13.

[6]温芳芳.试论中文电子期刊数据库资源重复建设问题——以VIP、CNKI、万方三大全文数据库为例[J].新世纪图书馆,2008(2):69-71.

[7]王晓光,陈孝禹.语义出版:数字时代科学交流系统新模型[J].出版科学,2012(4).

[8]CELTS.基础教育教学资源元数据应用规范[S].CELTS-42,2003.

[9]丁国柱,余胜泉.基于本体学习算法的学科本体辅助构建研究——以学习元平台语文学科知识本体的构建为例[J].中国电化教育,2015(3):81-89.

[10]伍革新.基于关联数据的数字图书馆资源聚合与服务研究[D].华中师范大学,2013.

(编辑:王天鹏)