数字图书馆互操作协议比较研究

2011-05-08 08:28吴育芳
图书馆界 2011年1期
关键词:检索服务器标准

吴育芳

(湛江师范学院图书馆,广东 湛江 524048)

1 引 言

Web为数字图书馆提供了开放的应用及开发环境,从此,越来越多的数字图书馆在 Web上充当起信息提供者的角色。但由于各数字图书馆建设的主体、理念不同,因而使用了不同的标准和技术,使得其体系结构相对复杂多变。用户查找资料时,必须分别进入各个数字图书馆的界面,适应不同的检索要求。如何将在 Web上广泛分布、异构、自治的数字图书馆联合起来,向用户提供统一、透明的一站式服务(即实现数字图书馆之间的互操作),也就不可避免地成为数字图书馆研究与开发的中心问题。

根据 USIEEE的定义[1],互操作性是指两个或多个系统相互使用已被交换的信息的能力。就其本质而言,互操作性是在异质实体(包括异种体系结构、异种操作系统、异种网络和异种语言等)中获得资源的透明调用的能力。

数字图书馆的互操作是指数字图书馆交换文档、查询和服务的能力[2]。互操作既可出现在不同数字图书馆系统之间,也可出现在一个数字图书馆系统的内部各构件之间。它要求技术(软件体系结构、通信协议和数据格式等)、内容(元数据及其语义等)和组织(数字图书馆提的基本访问原则、支付方式和认证等)三方面的合作。数字图书馆的互操作主要体现在系统间的数据交换和服务协作两个层面上。

互操作协议是数字图书馆馆际通信的基础,也是数字图书馆互操作的重要研究内容。目前主要有三种典型的互操作协议:HTTP协议是 Web上最宽泛的数字图书馆互操作协议,对参与成员没有任何要求,最易实现;Z39.50协议是被传统图书馆广泛认同和应用的互操作协议;OAI-PMH协议是电子文档共享的互操作协议。通过对三者的比较,笔者分析各自的优势和不足,并根据“适度代价获取充分功能”的原则,认为 OAI-PMH协议更有利于数字图书馆的互操作。

2 数字图书馆的互操作协议

数字图书馆互操作协议定义了信息搜索和检索的接口界面、查询语言、结果集格式以及客户机与服务器之间的交互方式等。实现数字图书馆的互操作,必须建立数字图书馆互操作协议。下面对三种典型的互操作协议进行讨论。

2.1 HTTP协议

HTTP[3](超文本传输协议,Hypertext Transfer Protocol),是客户端浏览器或其他程序与 Web服务器之间的应用层通信协议,用于从 WWW服务器传输超文本到本地浏览器的传送。

HTTP包含命令和传输信息,不仅可用于 Web访问,也可以用于其他因特网/内联网等应用系统之间的通信,从而实现各类应用资源超媒体访问的集成。它可以使浏览器更加高效运行,使网络传输量减少。它不仅能保证计算机正确、快速地传输超文本文档,还能确定传输文档中的哪一部分以及哪部分内容首先显示(如文本先于图形)等。

HTTP是一个属于应用层的面向对象的协议,由于其具有简捷、快速的优点,适用于分布式超媒体信息系统。HTTP协议的主要特点可概括如下[4]:1)支持客户/服务器模式;2)简单快捷。客户向服务器请求服务时,只需传送请求方法和路径;3)灵活。允许传输任意类型的数据对象;4)无连接。限制每次连接只处理一个请求;5)是无状态协议。

HTTP协议是基于请求/响应模式进行运作的,其客户机/服务器模式的信息交换过程分为四部分:建立连接、发送请求信息、发送响应信息和关闭连接[5](如图 1所示)。1)建立连接:连接通过套接字(Socket)实现的;2)发送请求:客户机把请求送到服务器的停留端口上,完成提出请求的动作;3)结果响应:服务器在处理完客户的请求后,要向客户机发送响应信息;4)关闭连接:客户和服务器双方都可以通过关闭套接字来结束 TCP/IP对话。

图1 HTTP信息交换过程

HTTP协议不需要信息组织之间达成任何规范,只要求信息能公开访问即可。例如用户通过Web搜索引擎检索整个互联网的信息,在这里可以将整个 Internet看作是一个 HTTP协议下超大的数字图书馆。显然,HTTP协议可以包容最大范围的信息,但是这种方式的信息服务质量很难令人满意。

2.2 Z39.50协议

Z39.50[6](信息检索应用服务定义和协议规范,Information Retrieval Application Service Definition and Protocol Specification),是根据信息检索的美国ANSI/NISO标准和国际 ISO23950标准,由美国图书馆界创立的计算机数据库网络互联通讯协议。

Z39.50起源于图书馆界,主要应用在书目信息的共享和互操作上,是传统图书馆领域广泛应用的一个国际标准。它基于客户机/服务器模型,属于ISO的 OSI参考模型的应用层协议,是有状态的、面向连接的协议。Z39.50是独立于任何特定类型的信息或特定类型的数据库系统,具有丰富的语义表述、良好的互操作性和强大的功能,可管理客户和服务器之间信息交换的格式和过程。

Z39.50指定规范和编码来建立不同的计算机平台,进行信息系统之间的连接与通信。它要求计算机间使用一种标准的、以相互可理解的方式进行通讯,使信息查找的发起和通信标准化。Z39.50的目的是构建联邦式数字图书馆,协调各个参建馆的目录共享,规范查询格式、简化检索过程,实现异构机型、异种操作平台和不同图书馆系统之间的通信[7]。并且,Z39.50支持不同数据结构、内容和格式的系统进行的数据传输,实现不同平台和系统之间的互联和查询[8]。

采用 Z39.50协议需要在客户端和服务器端安装相应的软件,其操作的对象是 MARC纪录,双方的交互采用 TCP/IP协议。其工作原理如图 2。1)客户机和服务器建立连接;2)连接成功后用户向服务器提交一个“查询”请求;3)服务器接收到请求后,将检索请求同时发送给多个数字图书馆,并将各个数字图书馆的查询结果汇总、整理后保存到服务器上,根据用户的要求实例化或仅提供集合记录指针;4)关闭连接。

图2 Z39.50协议分布式检索模式

通过 Z39.50协议的互操作功能,可实现协议图书馆之间各种形式的数据记录交换。Z39.50能够表述抽象复杂的搜索要求,还可以实现文件排序、更新数据库、查询的定义、控制和存储等功能。

Z39.50协议使用的无缝性较好。它的应用范围比较广泛,包括联机编目、公共检索、馆际互借、定题服务等。它的功能也比较完善,除了资源共享和联邦检索外,还包括会话管理、结果集处理等许多复杂功能。但是良好的无缝性是需要很高代价的:它要求不同的参建馆在数据共享方面达成共识,遵循共同标准;要求系统建设时要按照共同的标准进行协调;要求各成员馆有专门的系统来实现互操作的功能。Z39.50协议系统建设的成本比较大,对参建馆要求过多,并不适合大量成员馆的参与。[9]在Web环境中,数字图书馆节点的数量都比较大,在这种情况下,利用 Z39.50协议来解决数字图书馆的互操作就变得十分困难。

2.3 OAI-PMH协议

OAI-PMH[10](OAI元数据采集标准协议,Open Archive Initiative for Protocol Metadata Harvesting),最初起源于电子出版界(E-print Community)的互操作计划,因为数字图书馆的互通性检索与之相似,所以在 2000年上半年,将其适用范围扩展至数字图书馆领域。

OAI-PMH是一种独立应用、能够提高 Web上资源共享范围和能力的互操作协议标准。为了标准的统一性和广泛的适用性,OAI-PMH把 Dublin Core(DC)作为互操作的标准元数据,但是由于 DC的 15个元素不能很好地满足不同部门的需求,所以OAI-PMH也支持其他任何可以编码成 XML格式的元数据标准。

OAI-PMH是近几年在数字图书馆界引起广泛关注的新技术,它具有简单、开放与灵活等特点,被认为能很好地解决数字图书馆的互操作问题。OAI-PMH以 HTTP为基础定义了一个标准的接口,使服务器能将其存储的元数据信息有选择地提供给外部应用程序服务器或其他服务器。也被认为是解决不同资源的元数据互操作,有效挖掘、发布和利用互联网上数字信息资源的协议。[11]

OAI-PMH体系包含两种不同的角色:数据提供方(Data Provider)和服务提供方(Service Provider)。[12][13]该方案能有效地解决各资源库在元数据格式上存在的异构性(互操作框架如图 3)。1)数据提供者利用开放协议从每个 DL中采集元数据,经过处理、合并后集中保存在一个元数据仓储中,并将自己拥有的元数据用公共元数据格式(Dublin Core)加以表达,通过 OAI协议提供统一的标准化接口,向外部揭示自身的元数据。2)服务提供者是元数据的收割方,使用 OAI协议向数据提供者发出请求(Requests),获取据提供者的元数据,并以这些元数据为基础向用户提供进一步的信息增值服务。

图3 OAI-PMH互操作框架结构模型

OAI-PMH协议的设计是按简单易用的原则进行的,因此实施起来比较容易。在编码方式上,所有成功的检索均以 XML记录的形式将元数据返回给请求方。OAI-PMH利用的都是现有 Web的成熟技术,是一个应用成本很低的元数据收割机制。

OAI-PMH协议因其易用性和直接基于元数据操作的特点,不需要共同规范,也不要求复杂的协议,数字图书馆可以以一种低门槛的方法加入联盟,各馆之间是比较松散的群体,可以尽量保持参建馆的独立性,这更符合中国图书馆在组织建设上的实际情况。[9]参建馆只需要根据 OAI-PMH协议做很小的改动就可以进行元数据层的互操作,因此,比较适合更大范围内数字图书馆系统间的合作。

3 HTTP、Z39.50、OAI-PMH三种协议的互操作比较

上面三种协议方式都能解决分布式数字图书馆的异构性问题,实现跨资源库、跨馆的检索。但其功能定位和发展前景各有不同,应根据数字图书馆自身发展情况加以斟酌使用。

3.1 协议应用情况比较

表1 三种互操作协议的比较

HTTP协议是互联网上应用最为广泛的一种互操作协议,所有的 WWW文件都必须遵守这个标准,但它没有规定元数据标准,协议复杂程度低,是使用最广泛也是最轻量级的互操作标准。Z39.50协议始于图书馆界的书目数据共享,是一个功能完善但使用较为复杂的重量级协议。OAI-PMH协议起源于电子出版界的电子文档共享,它提供了基于元数据的、简单易行的互操作框架,是一种轻量级的协议,目前应用越来越广泛。

在元数据标准上,Z39.50协议采用的 MARC元数据著录信息的准确度高,但字段繁琐重复,结构复杂,数据处理要求高,操作难度大、效率差,只有专业编目人员才能使用。其技术的复杂性提高了标准使用的门槛,显然在描述电子资源方面有一定的局限性;而 Dublin Core相对简单,其内核只是一个很小的应用集合,而且经过几年的发展和修正,已经能很好地对大多数电子资源进行描述。该标准实施起来比较容易。

对开放互联参考的七层模型来说,HTTP协议、Z39.50协议基于 TCP/IP,属于底层协议;而 OAIPMH协议基于 HTTP,更容易实现。

在互操作方式上,HTTP协议采用数据收集的集聚式检索模式,既不要求对现有联盟参与馆的结构做任何修改,也不要求成员馆遵从某种协议,而是通过收集各个数字图书馆可公开访问信息的路径来获得最基本的互操作。这种方法通常提供统一的用户界面,用户输入查询请求,系统执行分布式搜索,并将查询结果合并后返回给用户。这种方式简单易行,有很好的适应性和伸缩性,不过效率低,服务的质量差。Z39.50采用的是一种联邦检索模式,即将检索请求同时发送给多家数字图书馆,并将各家数字图书馆的查询结果汇总整理后发送给用户,这种方式符合技术发展的趋势,但是因为要与多个数字图书馆进行交互,运行速度会变慢。OAI采用的是元数据收割模式,即服务提供者从多个数字图书馆信息提供者处收集元数据,建立一个集中式的联合目录,这种方式大大提高了查询的速度,但要求服务提供方必须拥有足够的空间来存储不断增长的元数据信息,而且联合目录无法实时反映数据提供者的数据更新情况。在这一点上 Z39.50更加符合技术发展的趋势。

3.2 三协议应用前景的比较

William Arms根据互操作协议所提供的功能和实施代价这两个主要指标,给出了一种评价数字图书馆互操作的“功能——代价”曲线模型。其中横轴表示互操作方法提供的功能,纵轴表示实施互操作方法的代价(如图 4)。[14]

曲线左下方的 HTTP和 HTML提供适度的功能,成本低。曲线右上方的 Z39.50协议和 MARC具有强大的功能,但因实施代价太高很难大范围推广应用。虽然理想的互操作方法应置于曲线的右下方,以较小的代价获得强大的功能,但目前仍很难实现。数字图书馆的研究讲究以适度的代价获取充分的功能,位于曲线中部的 OAI-PMH、XML和 DC有着广阔的应用前景。目前,基于 OAI-PMH协议的联邦搜索是数字图书馆界互操作研究与开发的热点。国际上著名的数字图书馆项目 NDLTD和 NSDL均采用此方法作为互操作的解决方案。需要说明的是,“功能——代价”曲线并不是一成不变的,随着实施成本的降低和具有强大功能的新技术的应用,曲线模型将会有所改变。

4 结 语

在 Web上实现大规模的数字图书馆互操作,OAI-PMH协议具有相对低的运行成本。但是 OAI-PMH方案在很多方面还需要改进,尤其在具体实施时所涉及的设计和技术问题,如:元数据选择的标准;元数据收割到中心仓储后怎样进行再组织;元数据的更新问题;不断增长的元数据信息与集中式目录存储等。为了解决这些问题,目前有一种提法:将先进的网格技术与 OAI-PMH协议相结合以增强数字图书馆的互操作性,利用网格技术存储元数据,并对元数据进行管理,从而实现数字图书馆信息资源共享和跨仓储的无缝检索。随着研究的深入,我们相信在不久的将来,不同数字图书馆系统间的互操作会变得愈来愈容易,数字图书馆系统能够真正实现开放性、互操作性和扩展性。

[1]吴 斌.论数字图书馆的互操作性[J].电脑知识与技术,2006(29):172—173.

[2]张付志,孔令富,刘明业.互操作联邦数字图书馆研究[J].情报学报,2003(3):336—340.

[3]http[EB/OL].[2010-03-24].http://baike.baidu.com/view/70545.htm?fr=ala0_1_1.

[4]张利柱,董兴辉,刘 晶.基于 HTTP协议与 XML技术的信息交换[J].中国电力教育,2006(S3):73—75.

[5]赵衍敏,姚自明,赵岳松.基于 HTTP协议的高速代理服务器[J].计算机工程与科学,2003(2):64—66.

[6]什么是 z39.50软件[EB/OL].[2010-03-24].http://zhidao.baidu.com/question/1795165.html.

[7]周 斌,刘 波,杨岳湘.Z39.50协议的原理及其在分布式检索中的应用[J].计算机工程,2002(9):77—81.

[8]周从军,徐 革.Z39.50协议在建设分布式图书馆网络系统中的应用[J].图书情报工作,2002(9):101—102,126.

[9]齐华伟,王 军.OAI-PMH与数字图书馆的互操作[J].图书馆论坛,2005(8):19—22.

[10]OAI[EB/OL].[2010-03-24].http://baike.baidu.com/view/555113.html.

[11]Open Archives Initiative Protocol for Metadata Harvesting[EB/OL].[2010-03-24].http://cn.bing.com/reference/semhtml/Open_Archives_Initiative_Protocol_for_Metadata_Harvesting.

[12]吴颖红 .OAI协议与数字图书馆互操作性研究[J].图书馆理论与实践,2009(1):104—106.

[13]周 伟.基于网格技术的数字图书馆互操作框架[J].现代情报,2007(6):91—93,96.

[14]张付志.异构分布式环境下的数字图书馆互操作技术[M].北京:电子工业出版社,2007:48—49.

猜你喜欢
检索服务器标准
最新出版团体标准
CNKI检索模式结合关键词选取在检索中的应用探讨
通过实际案例谈如何利用外文库检索提高检索效率
瑞典专利数据库的检索技巧
忠诚的标准
2018年全球服务器市场将保持温和增长
英国知识产权局商标数据库信息检索
党员标准是什么?
优秀作品的标准
用独立服务器的站长注意了