跨库文献检索方法应用于科研文献系统中的研究与分析

2022-07-08 07:47孔建

黑龙江科学 2022年12期

孔建

(黑龙江省科学技术情报研究院，哈尔滨 150028)

1 背景及意义

各种知识数据库、数字图书馆、自建数据库等电子信息资源丰富了人们的知识面，拓宽了读者查找信息的途径。数字资源的检索系统之间存在着很大的差异，为了使用不同的检索系统，用户需要花费一定的时间来适应和熟悉。科研机构和大学图书馆通常有几十个甚至数百个数据库可供选择，研究人员在搜索信息时不仅要选择与主题对应的数据库，还要了解每个数据库中的搜索定义，熟悉每个数据库中的接口规则[1]。

大多数文献数据库存在重复内容，影响了用户的检索效率[2]。用户搜索信息往往需要在好几个数据库中反复搜索，而数据库中的大多数资源记录是独立的，其相关性并不高，因此很难在用户网络之间建立连接。人的知识系统是关联的、互相影响的，数据库系统中孤立的资源记录无法反映相互关联的知识需求。

跨库检索技术的应用能够解决以上问题，此技术已引起了广泛关注，目前已开发出了各种相关的解决方案和跨数据库检索系统。跨数据库检索系统主要基于Web搜索代理模式，用户通过搜索页面发送搜索命令，资源主机指定数据库来检索经由网站超文本传输协议的信息，每个数据库的网站完成摘要后返回HTML[3]。这种方法可实现统一的跨数据库检索，但检索缓慢，需要复杂的维护，数据编目缺乏统一标准，难以扩展。

图1 跨库检索基本原理Fig.1 Basic principle of cross-library retrieval

2 主要技术及特点

2.1 跨库检索系统

跨库检索(Cross-Database search)是指用户使用多个分布式的异构信息数据源做为最终检索对象节点的一种文献数据库检索系统。其提供一致的搜索界面，当用户输入搜索命令查询时，跨库检索系统会在不同的资源数据库信息中查找数据，统一显示出搜索结果并排序。跨数据库检索系统提高了检索资源的准确性和用户访问权限，增强了搜索资源数据库的效率和资源广度。

目前，国内外已开发出了较多成熟的跨库检索系统，1998年，美国洛斯阿拉莫斯国家实验室开发完善了跨库检索系统FlashPoint。美国加利福尼亚大学的数字图书馆开发了跨库检索系统SearchLight。我国也自主开发了跨库检索系统[4]：清华同方在数字图书馆管理系统中使用了自主开发的异构数据库，提供了统一的检索平台USP(UnionSearchPlatform)。USP是基于智能网络数据库的跨库检索平台，用户可通过文献检索界面，实现跨多个文献信息数据库的搜索，对分布在网络上的各种检索工具进行智能集成。

中国科学院文献信息中心实施的中国国家科学数字图书馆(CSDL)项目，研发了CSDL集成检索系统。此系统于2003年由CSDL开发并投入使用，CSDL的跨库检索系统已整合了不同来源和结构的6大类近100种数据资源，包括全文数据库、摘要索引数据库、电子书资源、无网络资源、国内外OPAC关键资源及通用目录资源。

但是，以上的跨库检索系统存在着一些问题，如工作效率不高，没有公开的数据共享接口，复杂的结构难以维持，相关数据描述不通用等，很难进行多个数据库之间的信息交换。

2.2 跨库检索技术

跨库检索系统提供了一个统一的搜索界面，以多分布的、异构数据源为对象，按照不同的数据源特性为用户搜索，将其处理成相应的搜索表达式，再发送到各数据源来检索数据，待搜索结果返回、去重、排序等操作后，为用户呈现出最终信息。

网上各种数据库资源的分布是异构的，具有独特的登录认证、不同的页面布局、各种文件格式，会给读者使用资源造成一定的困难。跨库检索技术可缩短人们获取文献所花费的时间，促进资源共享，提高科技文献资源的利用率。

传统的C/S模式需要客户安装软件，初次使用系统的用户操作起来较为烦琐。因此，跨库检索系统采用B/S模式设计，主要包括以下几部分：一是身份注册认证模块。用以核实身份，区分授权用户与非授权用户，分配相应的权限。二是检索模块。作为核心，用户可以自由匹配搜索条件，可以按照标题、作者、时间检索其他项目，也可以选择一些资源对象的检索，检索文档类型可以指定，还可以让用户使用自定义的搜索界面。三是资源管理模块。允许系统管理员添加或配置各类数据库，以支持跨数据库检索系统资源。四是管理用户信息的模块。包括信息管理、搜索历史。

2.3 元搜索引擎

元搜索引擎是一种调用其他独立搜素引擎的引擎，即通过用户界面帮助用户选择和使用适当的搜索引擎，在多个搜索引擎中实现搜索操作，其基于全球分布网络对各种搜索工具进行控制[5]。

元搜索引擎具有以下特点：一是搜索提交后访问的数据库转为多个。这些多个数据库皆为异构，它们部署在不同的存储器内，并使用各自单独的检索引擎。元搜索引擎用户发送的搜索指令被搜索引擎发送到多个数据库执行并搜索，用户可以通过单一的搜索指令来统一检索多个数据库的搜索引擎。不同的索引数据库有着不同的要求，搜索引擎针对使用者提交的搜索要求，进行匹配转换。二是通过深度分析搜索引擎来得到信息。虽然元搜索引擎的最终结果是基于各单独搜索引擎得到的数据，但它需要对各独立的搜索引擎数据结果进行深入分析，如重复数据消除、合成、排序等。三是标记记录。每个记录皆由搜索引擎源码标出，每个记录的源码都会标注清楚来源等。总结跨数据库的搜索结果，记录每个数据库的连接。

元搜索引擎存在着一些问题，即如何调用另一个文献数据库挂载搜索引擎的索引数据库，在其他搜索引擎中获取查询结果，并对结果进行评估、排序和呈现。为了解决这些问题，采用了用户自主提交、判断搜索结果的输出，深度优化检索机制的设计及加强分布式文献数据库的调用等技术[6]。

元搜索引擎通常调用单独的搜索引擎结果页面，无须在单独搜索引擎的索引数据库交换文献数据信息。但在早期开发元搜索引擎时，需要通过数据库验证方式访问单独搜索引擎，其调用多个数据库来源时要考虑其合法性及相应的搜索引擎索引数据库处理查询。不同的数据商为各个搜索引擎提供相关资源时，往往有不同的访问方式来对其数据进行检索，所以需要用一种相对的分布式对象技术。为了实现元搜索引擎对数据搜索的要求，通常会并发访问每个数据库独立的检索引擎，需要等待全部搜索引擎将搜索结果提交汇总并得出结果。每个搜索引擎返回的时间不同，搜索的结果也不一致，这对元搜索引擎检索完成有所影响。

数据集成是集成所有记录的汇总信息资源数据库，将其纳入到跨库检索系统的数据库中。使用者使用检索系统来搜索数据，检索程序在本地检索到的数据与基于元搜索引擎检索到的数据相比，其检索效率得到了提升。文献数据资源原文的获取一般采用以下两种方式：一是专业文献数据库。其通常需要付费，针对有需求的用户群。其拥有的付费专业数据库资源会提供相关文献摘要信息，将其导入目录跨库检索系统相应的资源条件下。跨库检索系统在信息检索时，使用者需要提交查看全文的请求，获得相应的资源数据库提供的链接。二是其他文献数据库。其原始数据不由数据库供应商提供，可以使用Web爬虫程序分析所有的数据，总结资源网站，将其引入跨库检索系统记录中。文献信息资源都保存在本地数据库中，当用户提交检索时，是在自由数据库中搜索，因此，该方法与元搜索引擎相比，文献资源集成方法无法反映其相关变化。

2.4 中间件技术

中间件技术是为了使用户在进行跨库检索时，通过调用数据库中的技术令各独立数据库全部参与检索，不需要对原文献数据做详细概述。中间件技术将用户不同文献的检索数据转化为相应的对象要求，通过数据访问接口提供一个资源对象，返回给用户实时访问并整合结果。其最大的优点是实时，当资源对象的数据发生变化时，对象发送的检索需求可以得到及时的反馈。其文本由文献资源通过中间件来递交，不需要去指定数据库提供方下载，其唯一的要求是，原数据库提供方需要用户提供正确的访问接口。各种数据库因文件索引的数量不同，检索技术平台也不尽相同，这对检索速度产生了影响，会影响整体检索时间。基于中间件的检索模式如图2。

图2 基于中间件的检索模式Fig.2 Retrieval mode based on middleware

目前比较流行的中间件技术有公共网关接口，此技术是基于外部的应用程序(CGI程序)与Web服务器两者中通信的接口标准，在CGI程序与Web服务器之间相互发送信息的一种方式。CGI中使用的程序规范允许Web服务器在执行时使用外部程序，将外部程序的相应信息反馈到Web浏览器，公共网管接口可以将Web的超文本文档转化为一个交互式媒体。

3 结语

建立区域性共享的科技文献信息资源共享服务系统是服务于科技创新体系的关键。目前，科研院所及院校图书馆使用的文献信息资源系统过于分散，各检索界面不统一，过程烦琐，反应缓慢。基于此，分析了各类文献信息资源的特点，建立了基于元数据的跨库检索系统，使用户能够在单一界面自定义检索资源。此方法检索方式灵活，结果反应迅速。基于元搜索引擎、数据集成及中间件技术，从语义、结构、句法三个方面定义了元数据的框架结构，分析了跨库检索系统元数据规范的设计要求。未来，跨库检索系统还需要提供链接到原始的源文件，以满足用户需求。