数字图书馆与数字博物馆之间的资源复用方法

2014-07-27 06:21郭少友
创新科技 2014年14期
关键词:数据格式拷贝粒度

郭少友 王 旭

(郑州大学信息管理学院,河南 郑州 450001)

数字图书馆与数字博物馆之间的资源复用方法

郭少友 王 旭

(郑州大学信息管理学院,河南 郑州 450001)

数字图书馆与数字博物馆之间的资源复用是指一个馆可以通过拷贝或链接的方式使用另外一个馆的相关资源,涉及四个步骤。包括:馆际之间建立数据映射;选择合适的复用粒度;选择合适的复用方式;实现资源复用。

数字图书馆;数字博物馆;资源复用;数据映射

数字图书馆把图书、期刊、网络文献等信息资源以数字化形式加以存储,并通过网络提供使用。数字博物馆对实体博物馆中代表自然和人类文化遗产的各种实物进行加工、整合,并将其以数字化方式呈现在网络上。这两种数字化文化服务平台都突破了时间和空间的限制,使得用户可以利用互联网随时随地享用其丰富的资源。然而,目前国内的数字图书馆和数字博物馆大都相互独立运营,馆际之间缺乏内容共享,不能实现跨库、跨系统的数字资源互连。当用户在数字博物馆网站上浏览某个文物时,无法顺着链接去浏览数字图书馆中的相关资源,反之亦然。数字图书馆与数字博物馆之间的资源复用可以解决上述问题。数字图书馆与数字博物馆之间的资源复用则是指A馆通过拷贝或建立链接的方式使用B馆的某些资源,B馆的这些资源在服务于B馆的同时,还被A馆重复使用了。这样既能充分发挥数字图书馆和数字博物馆各自的资源优势,还能弥补各自的资源缺陷。

1 相关工作

关于数字图书馆与数字博物馆之间的资源复用,国内外已有相关的理论研究和实践,大致可以分为以下两类:

1.1 整合式复用。这类复用由第三方机构来完成,将图书馆、博物馆的资源(主要是元数据)复制到本地并加以整合,在此基础上为用户提供元数据检索服务,用户可以顺着链接查看元数据所对应的、存储在数字图书馆或数字博物馆中的原始资源。理论研究方面。郑燃等[1]指出,图书馆、博物馆和档案馆都有极其丰富的数字资源,但由于行政体制等方面的原因,各自所采用的元数据标准、遵循的协议不太一致,存在重复劳动和资源利用率不高等问题,可以通过资源整合来解决。实践方面。由欧盟资助的文化资源集成项目Europeana[2]已将来自2 000多个机构的1 000多万个数字对象的元数据集成在一起,用户可从Europeana的门户网站对元数据进行检索,并可进一步到各个机构网站获取详细的数字对象信息。

1.2 分散式复用。这类复用直接由图书馆或博物馆来完成,馆际之间可以拷贝或链接对方的资源,复用可以是单向的,也可以是双向的;可以是一对多的,也可以是多对多的。理论研究方面。Frost A[3]归纳了图书馆与博物馆之间协作式知识复用的三个关键步骤:第一,从协作单位的知识库中找到一个可以复用的词语;第二,在知识库中发现有助于理解该词语的上下文知识;第三,在知识库中进一步发现有助于理解该词语的进化历史知识。实践方面。大英博物馆、意大利博物馆、阿姆斯特丹博物馆等11个博物馆已将其数字资源转换为关联数据,美国国会图书馆、英国国家图书馆、瑞典国家图书馆等已将其书目记录转换为关联数据,上述转换结果都是可共享的、可复用的[4]。

从目前的情况看,针对第二类复用的研究相对较少,相应的实践还处于试验阶段,虽然这类复用需要图书馆和博物馆亲自处理复用细节,增加了各自的负担,但从灵活性和方便用户的角度看,具有一定的意义。本文将在现有研究的基础上进一步探讨与第二类复用相关的几个问题,包括:数据映射关系的建立、复用粒度和复用方式的确定、复用的实现等。

2 资源复用方法

2.1 建立数据映射关系。影响图书馆和博物馆之间资源复用的主要技术障碍是资源的异构,可以通过数字对象的元数据之间的映射来间接实现,而元数据之间的映射则包括元数据格式之间的映射和值词汇表之间的映射两个方面。

2.1.1 元数据格式之间的映射。书目数据是数字图书馆的核心资源,一般采用MARC(Machine-Readable Cataloging)格式进行描述;文化遗产元数据是数字博物馆的核心资源,一般采用博物馆元数据格式如CIMI、REACH、CDWA或VRA Core来描述。为了实现馆际资源复用,首先需要将图书馆和博物馆的数据格式“对齐”,即确定二者的元数据格式之间的映射关系。表1显示了主要字段与四种博物馆元数据格式之间相关字段的映射关系。

2.1.2 值词汇表之间的映射。元数据格式映射问题解决之后,对于元数据中的主题词、类目词这两个能表征数字资源内容特征的字段来说,还涉及语义层面的映射,具体可通过值词汇表之间的映射来完成。图书馆在描述数字资源的主题和类目时所采用的值词汇表与博物馆所采用的可能不同,从而会导致在描述相同或相似的数字资源时选用了语义相同但外观不同的词语或代码,而在元数据格式映射这一层面无法解决这一问题,因此需要事先进一步建立不同值词汇表之间的映射,以解决多词一义问题。例如,如果一方采用本体BioCaster中的概念“Person”作为主题词,另一方采用本体UMLS Semantic Network中的概念“Human”作为主题词,从关键词匹配的角度看,两个概念并不相关,无法建立映射关系;但从语义匹配的角度看,二者则属于相似概念,可以建立映射关系[5]。

2.2 确定复用粒度。按从小到大的顺序,可将资源复用的粒度分为五级:概念级、知识元级、元数据级、单资源级、多资源级。概念级复用的对象是单个概念,主要来自图书馆或博物馆自建的值词汇表和本体,例如博物馆可以复用中图法中的类目词作为其文化遗产元数据中类目字段的值。知识元级复用的对象是单个知识元,其中知识元是用三元组表示的、包含主谓宾结构的最小知识单元,是对资源进行知识标引、知识表示的结果。元数据级复用的对象是单个资源的元数据,既可以是只含部分字段的不完整元数据记录,也可以是包含所有字段的完整元数据记录。单资源级复用的对象是单个数字资源,既包括数字对象,也包括数字对象的替代物如元数据、知识摘要、知识标注结果等。从实际应用的角度看,图书馆与博物馆之间可以达成知识产权方面的协议,允许自己的部分或全部数字对象及其替代物供对方有限制地或无限制地复用。多资源级复用的对象是多个数字资源。针对某个应用,图书馆或博物馆可以同时复用对方的多个相关数字资源,包括这些资源的数字对象及其替代物。

表 1 CNMARC主要字段与四种博物馆元数据格式相关字段之间的映射关系

2.3 确定复用方式。图书馆或博物馆复用对方的数字资源,可以采用以下两种方式:其一,拷贝式复用。将被复用的数字资源复制到本地进行保存,并在约定的权限范围使用复制过来的资源。这种方式可以保证本地用户在访问复用资源时始终有效,但缺点是需要保存并管理拷贝过来的复用数据,提高了系统运行的成本。其二,链接式复用。不必拷贝并保存被复用的资源,直接在本地资源与被复用的资源之间建立链接;当有需要时,将这些被复用的资源作为临时资源下载到本地供用户使用。这种方式的优点是不必承担保存并管理被复用资源的费用,但可能出现断链的情况,需要复用方定期检查与被复用方之间资源链接的有效性。

2.4 实现资源的复用。其一,数据获取。对于上文所列举的五级复用粒度,复用方无论选择哪一级,都可以采用以下两种方式来获取被复用的数据:一是通过双方合作的方式获取数据。图书馆与博物馆之间可以建立合作关系,无偿地交换各自所拥有的基础数据,如值词汇表、元数据;如果条件许可的话,甚至可以交换数字对象数据。这种方式特别适合于同时拥有数字图书馆和数字博物馆的单位,如某些高等院校。二是通过公知协议及相应的检索接口获取数据。当图书馆与博物馆之间不存在合作关系时,可以采用OAI-PMH协议(Open Archives Initia⁃tive Protocol for Metadata Harvesting)或SPARQL协议(Simple Protocol and RDF Query Language)来发布数据和获取数据。OAI-PMH协议是一种基于HTTP的应用层协议,提供了一个元数据互操作框架。SPARQL协议是为RDF开发的一种查询语言和数据获取协议,可以用于任何用RDF格式表示的信息资源。其二,数据复用。复用粒度不同,复用时所采取的具体方法也不同。这里元数据复用是资源复用的重点。对于图书馆而言,一本书就是一个资源;对于博物馆来说,一件展品就是一个资源。每个资源数字化之后,都可能包含两个方面的数字信息:元数据及其对应的数字对象。元数据的复用可分为两种情况:第一,拷贝式复用。复用方获取被复用方的元数据之后,在许可的范围内,可直接将这些元数据用于本地的各种应用。第二,链接式复用。对于给定的一个图书馆数字资源,其元数据是已知的,为了在某个博物馆中找到相关或相似的资源,可以计算该资源与该博物馆所有数字资源之间基于元数据的相似度,并据此判断资源之间的关系,具体可按如下规则进行:若相似度为1,可认为两组元数据所代表的资源完全相同,是相等关系;若相似度值在[0.9,1)之间,可认为是相似关系;若相似度值在[0.7,0.9)之间,可认为是相关关系。上述关系确定之后,可以在复用方和被复用方之间建立相应的链接关系,当复用方用户检索到某个资源后,可以顺着链接找到相等、相似或相关的资源。

3 结语

数字图书馆和数字博物馆大都是独立建设的,彼此之间较难做到资源的共享与复用。可以通过拷贝或建立链接的方式实现数字图书馆与数字博物馆之间的资源复用,本文所提的资源复用方法包括以下四个基本步骤:其一,首先在馆际之间建立数据映射关系,解决影响复用效果的资源异构问题。其二,选择复用粒度。可根据实际情况选择一种或多种粒度。其三,确定复用方式。复用方可根据自身情况,采用拷贝或链接的方式来复用被复用方的资源。其四,具体复用时首先需要通过双方合作或公共检索接口来获取对方的数据,然后根据所选择的复用粒度和复用方式进行实际的资源复用。下一步将选取一个实际的数字图书馆和一个实际的数字博物馆,利用本文提出的资源复用方法开展实证研究。

[1]郑燃,唐义,戴艳清.基于关联数据的图书馆、档案馆和博物馆数字资源整合研究[J].图书与情报,2012(1):71-76.

[2]Wikimedia Foundation, Inc. Europeana[EB/OL]. [2014-03-24].http://en.wikipedia.org/wiki/Europeana.

[3]Frost A.Knowledge reuse situations[EB/OL].[2014-02-20]. http://www.knowledge-management-tools.net/knowledge-reuse.ht⁃m l.

[4]CKAN.Datahub[EB/OL].[2014-02-25].http://datahub.io/da⁃taset.

[5]米杨,曹锦丹.基于PROMPT的本体映射实例分析.情报学报,2010,29(6):987-991.

王旭(1993.7-),女,在读本科。

G250.76

A

1671-0037(2014)07-40-2

本文系教育部人文社会科学研究规划基金项目“图书馆数字资源的细粒度语义化描述与复用研究”(编号: 13YJA870008)研究成果之一。

郭少友(1964-),男,博士,教授,研究生导师,研究方向:信息检索等。

猜你喜欢
数据格式拷贝粒度
超重力场中煤泥颗粒沉降规律研究①
粉末粒度对纯Re坯显微组织与力学性能的影响
动态更新属性值变化时的最优粒度
MIT—BIH心率失常数据库的识读
文化拷贝应该如何“拷”
文化拷贝应该如何“拷”
情感粒度
基于RFID的户外广告监管系统的设计与实现
一种融合多业务的信息化系统框架研究
食管腺癌DNA拷贝变化相关基因的生物信息学分析