基于本体的博物馆知识库构建方法研究

2011-05-21 00:41任雪原
电子设计工程 2011年12期
关键词:博物馆学知识库实例

李 慧, 万 静, 任雪原

(1.北京化工大学 信息科学与技术学院,北京 100029;2.66061部队 北京 102300)

知识库是近年来流行的有效的知识管理工具之一,为了实现知识的共享与交流,许多行业已经开始建立领域知识库。本体(Ontology)[1]作为知识和概念描述的重要工具,可以清晰描述领域知识库中的概念及其关系,实现领域知识的共享和重用,也有利于领域知识库的管理和维护。基于本体构建的领域知识库成了目前知识库的重要研究方向。

1 本体论

本体概念最早源于哲学领域,后来被引入信息科学中。在计算机领域里,斯坦福大学的Gruber于1993年给出了定义“本体是概念化的明确的规范说明[2]”,用概念化的形式结构<D,R>来表示本体,其中 D 是领域(Domain),R 是 D 中相关的关系集合,该定义能够很好地表现出本体的本质特性。

通俗地讲,本体就是用来描述某个领域范围内的概念以及概念之间的联系,使得这些概念和联系在共享的范围内有着明确唯一的定义。普遍认为,本体包含4层含义:形式化(formal),明确(explicit),概念模型(conceptualization)和共享(share)。“形式化”指本体是“具有机器可读性”(即能被计算机处理);“明确”指所使用的概念及这些概念的约束和限制条件都预先有明确的定义和说明;“概念模型”,又称概念化,指通过抽象出客观世界中某些现象的相关概念而得到的模型;“共享”指“本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集[3]”,即本体是群体接受的共识而非只有部分人接受的。

从结构上讲,本体既可以表示为简单的树状结构,也可以表示为复杂的网状结构。不同结构的本体如图1所示[4]。

图1 不同结构的本体Fig.1 Ontology with different structures

2 本体与知识库

知识库(Knowledge Base)[5]是知识工程中结构化,易利用,易操作,全面有组织的知识集群,是针对某一或某些领域问题求解的需要,采用某种(或若干种)知识表示方式在计算机存储器中组织、存储、使用和管理互相联系的知识片集合。

本体是概念层次上对概念化的清楚描述,可以为知识的构建提供一个基本的结构,本体可以将领域知识的概念和相互之间的关系进行较为精确的定义,从而解决机器理解问题。本体可以作为知识和概念描述的工具,以明确一致的方式表达概念的内涵,描述领域知识库中的概念及其关系,实现领域知识的共享和重用,也有利于领域知识库的管理和维护。

知识本体可以用一个三元组定义[6]:

KO=<KA,Re,Rule>

上面的三元组中各符号的代表的具体含义解释如下:

1)KO(Knowledge Ontology),表示知识本体;

2)KA(Knowledge Atom)为知识原子,表示整个知识模型中的最小表示单元。可以是类、公理及基本的操作关系等,也就是:

KA={bi|1≤i≤n,bi∈Q}

bi表示知识论域Q中的知识原子;

3)Re(Relation)表示知识原子之间、由知识原子构成的知识实体之间存在的相互联系作用的集合,即:

Re={Rij(bi,bj)∨Rkl(mk,ml)|1≤i,j,k,l≤n}

其中,m表示由知识原子构成的知识实体,即m={Σbibj∨∏bibj|1≤i, j≤n;bi,bj∈Q},Rij表示知识原子之间的关系,bi,bj,Rkl(mk,ml)表示知识实体之间的关系。

3 博物馆本体构建

3.1 本体构建方法

本体构建方法的研究和使用对本体的构建非常重要,没有好的指导方法,不利于本体的规范建设,很难在不同领域本体的构建中保持一致。到目前为止,本体构建方法仍然没有一个统一的标准,构造本体的过程各不相同。现有的本体建模方法主要有IDEF-5法、TOVE法、骨架法、METHNOTOLOGY和“七步法”[7]。

通过对几种建模方法的比较后发现,斯坦福大学医学院开发的“七步法”拥有相对成熟健全的技术,侧重于本体的构建过程,构建过程适用性强,尤其适合领域本体建立,而本课题研究的正是博物馆领域本体,分析比较之后选用“七步法”作为本课题本体构建基本方法。

建模工具方面,本文将采用Protégé作为本体的建模工具,设计博物馆领域本体。它是目前使用最为广泛的本体论编辑器之一,功能强大,并包括大量的插件并拥有丰富的操作符集合。以下为使用“七步法”建立博物馆本体的过程:

1)确定本体的领域和范围 这个环节当中,需要搞清楚如下问题:本体的功能和作用;本体覆盖的专业领域和范畴;要建立什么样的领域本体;本体的目标用户是谁;选择哪种本体描述语言。

2)考虑现有本体的复用 考虑有没有前人已经构建好的本题库,有的话可以节省开发成本,缩短开发时间。在本课题中,没有现有的本体资源可用,所以此过程暂不考虑。

3)列举领域中的概念术语 创建领域本体时,需要大量的领域知识,还需要众多领域专家参与,从而很好的把握目标领域的知识框架。这个步骤当中,要通过对领域知识的分析,尽量全面地列举出系统中需要解释的或者陈述的所有概念(包括类、属性和实例)。本文中博物馆知识库中的概念定义来源于以下几个方面:针对本体的目标研究领域知识的各种专业文献,国家现行的相关的各种标准和规范,如博物馆藏品信息指标体系规范等。

4)确定类和类层次 类是本体中基本的单元,代表了具有共性的一类对象,是一种上下层次结构的组织形式。子类可以继承父类的特性,表达比父类更具体的概念。例如博物馆本体中,“博物馆”是本体的最高层次类,而博物馆学、博物馆藏品、博物馆管理以及中外各国博物馆等是其子类,他们会继承博物馆所有的特性。

定义类和类层次的方法是:从概念集当中选取具有独立存在性的对象概念术语(不是描述这些对象性质的概念),作为本体类中类层次结构中的节点。通过判断某一个类的具体实例是否是另外类的实例,来判断两个类的层次关系。如中国古代纺织品是古器物的子类,中国古代纺织品的全部实例都是古器物的实例。

5)定义类的属性 属性用来描述类和实例的特性,描绘了概念间的内部结构。仅仅依靠类和类层次不能提供足够的信息来确定本体的领域和范围,因此在定义类及其层次之后,就应该描述概念的内部结构,即类的属性,例如本文中的属性名称、描述、关键字、参考书目、地点、备注等。对于列表中的每个属性,应该确定其具体描述哪个类,要特别注意类继承特性。

6)定义属性的分面 一个属性可能由多个“分面”组成[8],一个属性的分面,就是属性取值的类型、容许的取值、取值的个数等。添加完类的属性之后,为类的属性添加约束条件。属性约束条件是用来描述属性的值类型 (Number、String和Boolean等)、允许值范围等。

7)生成实例 定义类的实例需要:首先确定一个类,接着创建类的单个实例,最后添加实例的属性值。以类“建博物馆学”的一个实例“博物馆类型”举例,添加它的属性值:名称,简介,参考书目,关键字等的内容。本体构建项目当中,实例表现很重要,因而实例化是开发过程中最为繁琐,工作量最大的部分。

本文中,以“博物馆”和“文物”2个大类为基本节点,建立本体知识库。图2为博物馆本体图的一部分,没有包括实例部分和属性部分。

3.2 本体形式化及存储

本体语言用于为领域模型编写清晰的、形式化的概念描述。通过本体语言,用户可以方便的创建本体。通常,本体语言提供了概念、概念之间的关联、概念的实例等基本建模元素。 目前有很多本体描述语言:SHOE、XOL、OML 、RDF[9]、RDF Scheme、OIL、DAML、DAML+OIL 和 OWL[10]。 这些语言是按不同标准分类的。

图2 博物馆本体图片段Fig.2 Segment diagram of museum Ontology

OWL(WebOntologyLanguage)是W3C最新推出的Ontology的描述语言的标准,是建立在RDF(S)的基础上,结合了DAML+OIL的应用经验而发展起来的。OWL具有很强的知识表达能力和表达语义的机制,能清晰地表达词表中各词条的含义及其之间的关系,还添加了更丰富的用于描述类型和属性的词语,因此选择OWL作为本体描述语言。下面为OWL语言表示博物馆本体的部分:

<owl:Ontology rdf:about=""/>

//类

<owl:Class rdf:about="# 博物馆学">

<rdfs:subClassOf>

<owl:Class rdf:ID="博物馆"/>

</rdfs:subClassOf>

</owl:Class>

//DatatypeProperty数据属性

<owl:DatatypeProperty rdf:ID="关键字">

<rdfs:domain rdf:resource="# 博物馆学"/>

</owl:DatatypeProperty>

<owl:DatatypeProperty rdf:ID="名称">

<rdfs:domain rdf:resource="# 博物馆学"/>

</owl:DatatypeProperty>

//实例

<博物馆学 rdf:ID="博物馆类型">

< 关 键 字 rdf:datatype="http://www.w3.org/2001/XMLS chema#string"

>博物馆类型</关键字>

<名称 rdf:datatype="http://www.w3.org/2001/XMLSchema#string"

>博物馆类型</名称>

</博物馆学>

……

</rdf:RDF>

用OWL表示本体之后,可通过Jena工具包将OWL语言表达的博物馆本体存储到关系数据库中,博物馆知识库系统管理平台通过数据库访问本体数据。

4 博物馆知识库系统设计与实现

本文创建的知识库系统采用目前广泛使用的基于B/S的3层体系结构,博物馆知识库系统体系架构如图3所示,包括以下部分。

1)表示层 本层的功能是提供友好的GUI界面,实现用户和系统的交互,用户通过浏览器访问知识库系统,系统接受用户的操作请求,然后将其提交到服务器,由业务逻辑层的相关组件去处理请求,处理完毕返回的结果显示给用户。

2)业务逻辑层 对应逻辑架构中的知识管理层,本层是整个系统的核心。包括了对领域知识的维护、检索、管理等方面,提供了对知识管理的各方面的支持与逻辑实现。

3)数据层 用于存放知识库系统的各类数据,包括知识资源的数据和其他一些系统相关的数据(例如日志、用户信息等)。这些数据通过上面的业务逻辑层提供的访问操作接口进行操作,对用户的应用是透明的不可见的,这一层可以使用关系数据库实现。

图3 博物馆知识库系统体系架构Fig.3 Architecture diagram of museum knowledge base system

知识库系统分为2个模块:1)前台展示模块,用户可以查询知识、浏览条目和添加知识;2)后台管理系统,包括知识库结构管理、条目浏览与管理、用户操作审核、模板管理、和用户管理。系统模块结构如图4所示。

图4 博物馆知识库系统模块Fig.4 Block diagram of museum knowledge base system

普通用户和本体管理人员可以访问博物馆知识库系统,浏览查询知识条目,以及修改知识库结构和实例。由于文章篇幅的原因,这里就不具体介绍系统的建立和使用过程。

5 结束语

将本体技术应用到博物馆知识库的构建中,用以解决博物馆知识的整合和共享,也使得相关知识的检索更加便捷。通过本体以及本体构建方法等理论的研究,利用Protégé工具构建了博物馆领域本体,并用OWL语言表述本体。最后,设计了3层架构体系的博物馆知识库,并实现了B/S结构的知识库系统。

[1]邓志鸿,唐世渭,张铭,等.Ontology研究综述[J].北京大学学报:自然科学版,2002,38(5):730-738.DENG Zhi-hong, TANG Shi-wei, ZHANG Ming, et al.Overview ofOntology[J].ActaScientiarum Naturalium Universitatis Pekinensis,2002,38 (5):730-738.

[2]GRUBER T R.A translation approach to portable Ontology specifications[J].Knowledge Acquisition,1993(5):199-220.

[3]STUDER R,Benjamin R,Fensel D.Knowledge engineering:principles and methods[J].Data and Knowledge Engineering,1998,25(1-2):161-197.

[4]何克清.本体元建模理论与方法及其研究[M].北京:科学出版社,2006.

[5]孙旭升.基于本体论的知识库系统应用研究[D].辽宁:大连交通大学,2007.

[6]于鑫刚,李万龙.基于本体的知识库模型研究[J].计算机工程与科学,2008,30(6):134-136.YU Xin-gang,LI Wan-long.A study of the knowledge base model based on ontology[J].Computer Engineering&Science,2008,30(6):134-136.

[7]USCHOLD M,KING M,MORALEE S.The enterprise Ontology[J].The Knowledge Engineering Review,1998,13(1):31-89.

[8]Gomez-Perez A,Manzano-Macho D.An overview of methods and tools for ontology learning from texts[J].The Knowledge Engineering Review,2004,19(3):187-212.

[9]Semantic Web.Resource Description Framework (RDF)[EB/OL].(2004-02-10) [2011-04-07].http://www.w3.org/RDF/.

[10]Semantic Web.Web Ontology Language (OWL) [EB/OL].(2007-09-06)[2011-04-02].http://www.w3.org/2004/OWL/.

猜你喜欢
博物馆学知识库实例
博物馆学理论体系的形成与发展
论博物馆学教育的名实关系与培养目标
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
中国博物馆学研究创新方向
论中国高校博物馆学学科发展的四重困境
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究
完形填空Ⅱ
完形填空Ⅰ
位置与方向测试题