数字图书馆信息集成模型研究

2011-07-17 10:31张琳娜
河南图书馆学刊 2011年5期
关键词:全局数字图书馆

张琳娜

(陕西师范大学图书馆,陕西 西安 710062)

业界根据数字图书馆建设的基点、体系形式和所解决的关键任务等,将数字图书馆的发展确定为从“基于数字化资源”向“基于集成信息服务”以及“基于用户信息服务”三个阶段[1]。数字图书馆信息集成服务是基于用户需求,无缝集成数字图书馆资源、技术、组织、服务等要素,使用户得到在时间和空间上一致的、动态的、面向主题的信息服务[2]。

近十年来,对信息集成服务技术的研究以某一集成目标下,特定数据资源的整合技术研究为主。如利用OPAC系统提供的其他电子资源链接的接口表,存储相应的数字资源信息的URL链接,实现已购电子图书资源如超星、书生等与Malines系统的整合[3];利用开源软件PKPHarvester2对数字资源进行基于OAI-PMH协议的元数据收割,实现对提供OAI接口的数据资源的整合研究[4];通过自建资源系统接口二次定制开发实现自建资源与OPAC系统数据整合的研究[5]等等。这些研究成果对“基于集成信息服务”数字图书馆的发展有一定推动和示范作用,但其立足于“基于数字化资源”建设成果本身,属于自底向上的研究方式,有一定的局限性。本文采用自顶向下的研究思路,从“基于用户信息服务”数字图书馆的体系结构出发,针对信息集成过程中存在的普遍问题,提出了一种信息集成模型,旨在为数字图书馆建设提供通用的集成模型依据。

1 数字图书馆体系结构

在数字图书馆建设中,系统与资源是基础,集成是手段,“一站式”门户是平台,提供全面、标准、个性化的信息服务则是数字图书馆建设的最终目标。因此,数字图书馆的体系结构应该由N个系统与资源,一个信息集成平台加一个“一站式”门户组成,即概括为N+1+1的结构(如图1所示)。

图1 数字图书馆体系结构

系统与资源包括馆内外的各类管理系统和数字图书馆前期建设过程中形成的数字化资源。这些系统和资源都是依据各自业务逻辑和数字化标准而建的,之间往往没有统一的接口和数据标准。

“一站式”门户是用户访问数字图书馆的统一入口。通过门户,用户就可以获得如统一检索、资源链接与全文获取、馆际互借、咨询与帮助,以及针对用户的个性化服务,如信息推送服务、定题服务等。

信息集成平台为各个管理系统的集成和数字资源的融合提供一系列的整合服务,使得各系统及资源之间能够有效地实现数据交换与共享、应用的相访以及接口的标准化开放,确保应用的即插即用。

2 存在的问题与解决的方案

2.1 存在的问题

“基于用户信息服务”的数字图书馆是一个十分复杂的信息系统,其信息集成过程需要面对以下问题:①分布性。数字图书馆的信息资源往往是异地分布的,存在网络传输的性能和安全等问题。②异构性。这些信息资源通常是独立开发的,软硬件平台环境和数据格式、模式的异构问题是集成过程需要面对的最大的问题。③自治性。信息资源和服务往往由各自组织独立维护和管理,在被集成的同时,其内部运行不能受集成所干扰,需具备高度自治能力。④透明性。如软硬件平台的透明,对数据存储位置、数据模型和数据语言的透明等。其与系统解决异构性的程度和能力相关,决定了系统的功能和使用的方便程度。

2.2. 解决的方案

目前常用的信息集成方案大体可分为模式集成和数据复制两种[6]。模式集成是将信息资源的数据视图集成为虚拟的全局模式,通过将用户在全局模式基础上提出的查询请求映射成各信息源在本地可以执行的请求操作,从而达到集成目标。该方法的映射算法具有一定的复杂性,对网络依赖性强,但透明度高、实时一致性好。数据复制是将各信息源数据复制到数据仓库中,并维护整体一致性,提高信息共享利用效率的集成方法。该方法的查询访问方式简单、集成性能高,但需负担数据仓库的创建及数据传输带来的额外代价。

2.3 XML 和Web服务技术

网络的迅速发展使数据信息由原来的结构数据扩展到半结构数据或者无结构数据。XML作为半结构数据模型,能够用来描述互联网上的任何数据和实体[7]。XML将数据、结构和格式独立开来,XML表示数据,DTD或XML Schema规定文档结构,CCS或XSL定义文件显示格式,XSLT、XQuery作为XML的转换语言、查询语言。其在数据模式描述,屏蔽数据异构性,实现无缝集成上都有已有技术无法实现的优势。Web服务技术构建在XML之上,通过使用统一的标准(服务通信SOAP、服务描述WSDL和服务发现UDDI),封装数据、消息和行为,让其他的应用程序在无需考虑具体应用环境的情况下调用并得到响应。其是一种松散耦合的集成方式,真正实现异构信息源的无缝集成。XML和Web服务技术框架可以较好地适应分布式系统的服务分散性和资源异构性等特点,非常适合用于资源整合[8]。

3 信息集成模型

针对“基于用户信息服务”数字图书馆中信息集成存在的普遍问题,结合已有方案和技术,本文提出一种基于XML和Web服务技术、复制集成和模式集成相结合的信息集成模型 (Information Integration Model,简称IIM)。IIM将XML作为公共数据模型,Schema作为数据模式的描述语言,XSLT作为数据转换处理语言,XQuery作为查询语言,通过各信息源与XML的转换,消除信息源间的异构问题。IIM利用Web服务对边界进行封装,向上为“一站式”门户提供基于全局模式的统一查询接口,向下为各局部应用系统或资源提供统一的集成接口,从而有效的解决系统相互操作的问题。此外,IIM采用复制集成和模式集成相结合的方案,提供一种按需集成策略。一方面对数字图书馆的骨架数据和有固定共享需求的数据信息,通过内部的同步机制实现自动共享;另一方面通过对集成需求的分解和数据结果的整合,实现对其他数据的共享,从而使IIM具备实时、高效的特性,提高系统运行效率。

3.1. 模型的体系结构

从功能上来说IIM由数据源管理器、数据转换处理器、复制处理器、查询处理器、局部Web服务、全局Web服务六部分组成,IIM的模型结构如图2所示。

图2 IIM的模型结构图

3.2 模型的运行机理

IIM的工作流程分管理和运行两部分。管理是元数据以及集成规则生成的过程。在这个过程中,IIM管理员根据共享协议注册局部信息源,定义共享内容、设置集成方式及相关参数,建立局部与全局的模式映射关系,维护全局模式信息以及局部与全局的模式转换规则,为IIM的有效运行奠定基础。运行过程包括内部自动同步和外部主动集成两个过程。自动同步主要针对复制处理器中的数据同步过程。IIM将遵循管理阶段定义的运行设置自动启动处理过程,并在其他模块的协助下完成共享数据的同步。外部主动集成体现在对由全局Web服务接受的查询请求的处理。此类集成需求往往是随机、零散的,由外部应用系统提出且集成内容不固定。对这样的集成请求,IIM会按照全局模式与局部模式的映射/集成信息对请求进行解析,判断具体的处理方式,交由不同的处理器完成。

4 数字图书馆中的IIM应用

以陕西师范大学图书馆为例,我馆资源数字化已经全面建成,馆内除了馆藏资源、随书光盘系统外、还有中文古籍、网络课程、西北地方志、教师教育图书等七个特色数据库。购买的中外文数据库、电子图书更是达到了百余种。这些资源由不同的组织独立开发,除了软硬件平台、数据模式不同外,其数据类型更是涉及文字、图片、视频、多媒体等。如何采用一种通用的集成技术、统一的数据标准,为读者提供“一站式”访问服务是我馆数字化建设的新方向。

图3 数字图书馆的架构

基于IIM而设计的数字图书馆架构 (如图3所示)能有效地解决了以上问题。IIM服务器包含IIM核心结构、控制管理平台以及全局复制数据库。其从全局角度出发,对已有数字化资源进行整理,构造出我馆标准的全局数据模式。IIM将基于全局数据模式的Web服务发布到UDDI服务注册中心,供“一站式”门户及馆内外各应用系统或资源查阅。各类系统或资源作为IIM中的局部数据信息,一方面保留、存储和维护各自的数据,另一方面通过在IIM中注册,以全局模式或全局数据为门户提供数据信息,当需要时,也可以通过馆内UDDI服务注册中心查阅其他系统或资源的全局服务说明,与IIM建立连接并获取数据。

5 结语

数字图书馆的建设水平是图书馆现代化的重要标志。本文依据自顶向下的理念,从“基于用户信息服务”数字图书馆体系结构中所需的信息集成技术出发,针对集成过程存在的问题,提出一种基于XML和Web服务技术、复制集成和模式集成相结合的信息集成模型,给出了模型的体系结构,并阐述了模型的运行机理和运作方式。不同系统或资源之间的集成是一个复杂的问题,解决信息集成问题是一项艰巨的任务。本文提出的信息集成模型对数字图书馆建设具有一定的理论参考价值和实践应用价值,但在这个过程中仍有许多细致的问题有待于我们进一步地探索和完善。

[1]张晓林.数字图书馆机制的范式演变及其挑战[J].中国图书馆学报,2001(6):3-8,17.

[2]卓文飞,潘淑娟.国内外信息集成服务的发展与实践[J].农业图书馆情报学刊,2009(12):192-196.

[3]应红燕.Melinets书目系统与电子资源整合的实现技术[J].现代图书情报技术,2008(12):99-102.

[4]陈和,王爽.基于开源软件实现馆藏数字资源整合与统一检索[J].现代图书情报技术,2009(6):70-75.

[5]黄婧,吴英梅,贾西兰.自建资源与异构系统集成实践研究_以北京师范大学图书馆为例[J].现代图书情报技术,2010(11):75-78.

[6]张琳娜,王映辉.基于节点自治的分布式数据共享模型研究与应用[J].计算机工程,2009,(3):32-35.

[7]张付志,巢进波.信息集成技术在数字图书馆中的应用研究[J].计算机工程,2005(7):90-92.

[8]焦允.一种联盟型图书馆域内资源库集成模型及其 XML Web Serices实现[J].图书馆杂志,2007(11):48-53.

猜你喜欢
全局数字图书馆
Cahn-Hilliard-Brinkman系统的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
落子山东,意在全局
图书馆
答数字
数字看G20
新思路:牵一发动全局
去图书馆
成双成对
数字变变变