基于Web的课程知识图谱的构建方法研究

2020-12-08 08:40胡茹艳
无线互联科技 2020年19期
关键词:语料库课程内容本体

胡茹艳

(云南师范大学 信息学院,云南 昆明 650500)

0 引言

近几年,随着知识表示和机器学习等技术的应用,知识图谱技术突破性的发展为课程知识图谱的构建提供了一种全新的方式,而网络中拥有丰富的信息资源,同时其词条数量大,为课程知识图谱的构建提供了基础[1]。利用知识图谱技术将网络中的知识提取并建立关系,将知识进行可视化操作,最终以图的形式展示出来,这样比较符合人们的认知习惯,可以让学习者快速获取知识与知识之间的逻辑关系,从而更加明确地了解整个课程知识结构体系。所以,基于优质的教育资源站点构建课程知识图谱,能揭示课程知识体系。所以,探讨课程知识图谱的构建是可行而且可靠的。

1 课程知识图谱研究概述

课程知识图谱构建主要分为本体层和数据层[2]。在课程知识图谱的研究过程中,研究者通常采用本体来实现课程知识图谱的建模,但是不同研究者对知识的逻辑结构解读不一样,所以定义的类以及关系也存在差异。潘颖等[3]认为课程知识的基本单位是知识点,因此在构建知识本体时将知识点定义为类,并通过父类和子类来描述知识点的关系;邢科云[4]以认知学习理论为基础,将课程知识本体分为“框架树”本体、“知识点网”本体和教学媒体资源本体;其中,每一部分都定义了不同属性与关系。从上述研究者的分析可以看出,课程知识图谱的本体层需要借助课程知识本体进行管理。课程知识本体包含了课程内容的概念,体现了完整的内容体系。构建课程知识本体,首先要明确并弄清楚课程知识的内涵与结构特点,建立课程知识的认知结构,其次通过本体技术将知识点及其关系以形式化的方式进行表示和存储。

2 课程知识图谱的构建过程

2.1 总体流程

课程知识图谱构建所利用的数据源主要来自开放课程库和开放领域,包括:结构化数据、半结构化数据以及非结构化数据。首先采用网络爬虫技术从优质的教育资源站点采集课程知识内容的语料数据并进行数据的清洗和分词;其次应用基于TF-IDF与互信息MI权值的统计学习方法实现文档关键词的抽取,利用基于词向量的K-means聚类和基于规则的方法提取分类关系,然后将知识存储于neo4j图数据库,最后利用Protégé工具完成课程知识图谱的构建,如图1所示。

图1 构建流程

2.2 课程知识语料库构建

构建课程知识语料库,就是利用网络爬虫完成从指定的Web页面抓取和保存数据。主要是定点抓取优等质量的课程知识内容文档,以完成课程知识图谱的构建任务。主要包括:爬虫引擎、资源URL调度、资源下载、解析以及内容处理等部分。由于抓取的课程语料中包含大量程序代码、特殊字符及其他无意义的HTML元素标记。这些元素对于概念抽取部分没有任何意义,甚至有可能对最终的任务结果产生影响。所以需要对这些内容进行数据清洗,以此来提升课程内容的质量,改善概念抽取效果。清洗后的数据用作基础语料库,为课程知识图谱的构建奠定数据基础。

2.3 课程知识图谱的本体模式构建

首先采用TF-IDF和MI权值相结合的统计技术,从语料库中抽取关键词实体。TF-IDF用以评估一字词对于一个语料库中的其中一份文件的重要程度。在TF-IDF中,TF表示一个词在文本中出现的频率。其计算公式为:

(1)

其中n表示某个词在文章中出现的次数,m表示文章的总次数。TF就是该词语的词频。IDF是逆文档频率的意思,是衡量单词普遍重要性的标准[5]。计算公式为:

(2)

其中,N表示语料库的文档总数,M表示包含该词的文档数,如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。提取出单个的知识点,我们需要进行关系的提取,从而能建立有结构的知识图,对文本分类关系的提取,主要通过基于词向量的K-means聚类和基于规则相结合的方法,抽取出知识点实体的包含关系和上下位关系,这一步是知识图谱模式层本体构建的关键。

早期,MacQueen提出了K-means算法[6]。K-means是基于原型的、划分的距离技术,其算法思想是:

(1)选定K个初始聚类中心,计算其中心值;

(2)计算各数据点到聚类中心的欧式距离,按照距离最近原则分类;

(3)重新计算每类的中心值,作为新的聚类中心,再次分类;

(4)直至标准函数收敛,则算法终止。

2.4 课程知识图谱的存储

经过上述数据的获取以及处理,得到的是课程内容实体以及实体之间的关系,最后一步就是对知识进行存储,存储知识的方式多种多样,这里使用neo4j图数据库,因为neo4j具有优秀的关系展示页面,在进行数据存储时,将其存储在网络上而不是在表中。利用JAVA编程语言,通过neo4j图数据库构建课程知识体系的知识图谱,可以更加直观地将知识点之间的关系展示出来。

3 结语

在传统以网页互联为学习者提供资源的形式中,因为网页之间复杂的环境和链接跳转之间的烦琐,可能会导致学生出现“信息迷航”的问题,文章针对此问题提出了一种课程知识图谱的构建方法,知识图谱在课程内容的精炼、归纳有着广泛的应用,通过关注知识之间的语义关系,并将其关系以图谱的形式可视化出来,有利于学习者掌握课程知识内容的脉络。充分利用知识图谱和现代化信息技术,为课程知识结构的构建提供一种新的方式,为课程知识信息化建设提供了新手段。

猜你喜欢
语料库课程内容本体
Abstracts and Key Words
基于“课程内容六要素”的绘本文本解读路径探析
对姜夔自度曲音乐本体的现代解读
《语料库翻译文体学》评介
《我应该感到自豪才对》的本体性教学内容及启示
基于JAVAEE的维吾尔中介语语料库开发与实现
学前教育专业体育课程内容的构建
依标明辨 巧用萃取——谈如何将文本内容萃取成课程内容
《风电场规划与设计》课程内容探讨
Care about the virtue moral education