大数据背景下我国高校图书馆检索服务应用研究

2014-08-18 10:05施亮魏凤萍
现代情报 2014年6期
关键词:技术应用高校图书馆大数据

施亮+魏凤萍

〔摘要〕大数据时代的高校图书馆面临着如何解决资源有效检索和利用的问题。本文介绍了高校图书馆正在采用的几种主流检索服务技术并举例对它们做出了评价,最后对未来检索服务应用的趋势也做出了展望。

〔关键词〕检索服务;技术应用;高校图书馆;大数据

〔中图分类号〕G252.6〔文献标识码〕A〔文章编号〕1008-0821(2014)06-0139-04

我国高校的学术资源投入一直在保持较快增长,根据“教育部高等学校图书情报工作指导委员会”发布的《高校图书馆发展报告》,2006-2011年纳入统计的近500所高校的文献资源购置费均值超过了300万元人民币,其中超过了1 000万元的高校有42所,有5所高校超过了3 000万元[1]。文献资源购置费的高投入带来了文献资源的高增长,以北京的清华大学图书馆和武汉的华中科技大学为例,到2011年底学术资源馆藏总量分别为4197万册(件)和579万余册(含院系资料室),均涵盖了理、工、文、经管等各学科的综合资源,另外分别有各类网络数据库500个和400多个以及大量电子期刊和图书资源。高校馆藏的不断积累,标志着学术资源“大数据(Big Data)”时代的到来。

1高校图书馆在大数据时代面临的困境

韩翠峰认为,大数据时代的到来将对作为社会中储存信息知识、提供信息服务的信息中心的图书馆形成冲击与挑战[2]。付蔚和王海兰找到的一份2002年的评估报告指出Google搜索引擎在一天半的时间内处理的问题要比全美所有图书馆一年所提供的检索服务量要多[3]。而在2007年余金香等人做的文献统计,也支持了以上评估报告的结论,她们发现不少的调查研究都报道了大部分的用户包括学生、教师及专业人员查找资料时的首要信息源不是图书馆购买的商业电子资源或者联机公共检索目录,而是Google[4]。笔者认为造成这种结果的原因主要在于随着馆藏资源的日益丰富,学术资源种类繁多、数据量大、形式各异,不同的电子资源又往往分散在各自独立的数据库、检索系统和发布系统,这使得图书馆的学术信息资源比较分散杂乱,给读者检索和利用造成了许多不便,所以适时、有效地利用先进的学术资源检索技术是高校解决上述问题的重要途径。

2现有检索技术及其优缺点

目前我国高校图书馆采用的检索技术主要有“联机公共检索目录”和“联邦检索”,现分别介绍如下:

2.1联机公共检索目录

联机公共检索目录的英文为“Online Public Access Catalog”又简称OPAC,它通过计算机终端查询图书馆书目数据资源,为读者提供馆藏文献的线索和获取馆藏文献的便利。最早的OPAC系统出现在20世纪80年代,OPAC的初始设计是基于编目理论发展的印刷型世界,目录典型地揭示纸质书刊馆藏,延续了传统图书馆卡片式目录的构建思路,提供与卡片式目录相同的记录内容、记录格式和检索途径[5],随着网络技术的飞速发展,目前广泛采用的OPAC是第二代,它在检索点和网络功能方面进行了改进。根据钱文丽和李亮先提供的调查,我们发现目前国内高校可供选择的OPAC的系统厂家有十几家,其中在我国“211工程”院校使用较多的主要有国内公司开发的libsys、ILAS和MELINETS以及国外的INNOPAC、ALEPH和WebCat[6]。

2.1.1联机公共检索目录的工作原理

OPAC的工作原理主要分为3个层次,图书馆馆藏书目元数据与电子资源元数据一起构成数据层;业务逻辑层构建在数据库系统与客户端之间,为每一数据源的MARC元数据建立统一的文档类型定义,并通过该类型定义将各数据源的元数据映射成全局XML文档视图来进行整合;客户端在OPAC的基础上,经过一定的扩充修改后实现统一检索功能。如图1:

该系统可查询清华大学图书馆收藏的中西文图书、日文图书、俄文图书、中西文期刊和1994年以后入藏的日文期刊、多媒体资源、大部分外文电子期刊、学位论文和中外文电子图书,以及7个专业图书馆及部分系图书馆的馆藏。它使用命令语句并包含菜单导向检索,增加了关键词检索,更多地为用户显示数据库记录中的有关主题信息,有的系统还使用词组进行检索。此外,该系统更注重用户界面的设计,为用户提供更多的功能,如下拉式菜、帮助功能、拼写错误校正、浏览查找、布尔逻辑检索、图形显示书目资料的排架位置等。更为突出的是突破了书目数据的限制,引进了期刊题录、文摘及情报数据等。

2.1.2对联机公共检索目录的评价

OPAC系统的应用对学术检索的作用是显著的。首先,OPAC为读者检索馆藏资源提供了一个统一的界面;其次,OPAC的应用促使读者养成利用网络查询资源的习惯;最后,OPAC的机读目录格式为揭示网络信息资源提供了可能。

当然,OPAC也存在自身的局限,余金香和李书宁就认为OPAC发展中存在以下问题:①书目记录之间的关联性不强,用户不易辨别和理解检索结果各实体之间的关系;②文献单元应该从形式层面提升到内容层面上;③检索问题:失败率偏高、耗时,扩展检索能力不强[4]。2005年OCLC在《对图书馆与信息资源的认知:给OCLC成员的报告》中提到:信息用户中“84%的用户使用搜索引擎进行信息检索,1%的人从图书馆网页上进行信息检索,只有10%的大学生认为,在通过搜索引擎找到图书馆网站后,图书馆的馆藏可以满足他们的信息需求”[7]。由此看来,OPAC技术还需要进行进一步改进,以便更好地满足读者检索学术资源的需求。

2.2联邦检索

维基百科对联邦检索的功能定义为:它可将一个检索请求以合适的语法进行转换后发送到一组独立的数据库中,并合并检索到的检索结果以简洁统一的格式和最小的重复显示出来,同时能提供一个自动或者用户选择的排序方式对结果集进行排序。业界主流的联邦检索系统包括WebFeat、MetaLib、Serials Solutions和Muse系统,截止到2007年,以上几家公司拥有了全球近20 000万家用户[8]。endprint

2.2.1联邦检索的工作原理

联邦检索的运作机理是这样的:首先它为每个数据库创建资源描述,随后选择满足特定信息用户需求的检索数据库,将用户提问式转译成适合所选数据库的检索格式,接下来合并检索结果并按用户需求定制个性化的排序方式将检索结果反馈给用户,如图3:

1111图3联邦检索流程结构图

以Metalib系统为例,我们可以实现如下功能的检索:①检索馆藏的纸质资源的电子目录;②检索图书馆购买的电子资源并提供全文链接;③检索Google Scholar等网络免费电子资源并直接反馈全文信息;④可以自定义不同资源进行整合检索;⑤读者在登录个人空间模块后该系统能提供个人检索的书目记录文档,也能提供个性化数据库集合定制检索,以及提供定期检索提醒服务。

2.2.2对联邦检索的评价

联邦检索技术与联机公共检索目录结合,让学术资源的整合检索更加便利,从而提高了学术资源的利用率。

尽管联邦检索系统具有自身的优势,但Webster认为该技术还是不能根本解决检索平台间日益增长的复杂性和缺乏统一性等问题[9]。联邦检索在使用过程中会存在着一些无法克服的困难,主要有以下几点:①因在多个数据库中同时进行实时检索,这就导致了联邦检索的结果返回速度过慢;②由于每次各个数据库反馈给联邦检索的结果有限(每次只能抓取20~30条结果),所以无法实现真正意义上的结果的相关性排序和去重。③读者必须通过图书馆的认证系统才能实现检索功能;④联邦检索并不能优化检索系统,其功能受制于本地数据库检索性能和搜索能力的局限。考虑到联邦检索技术功能的不足,陈家翠认为元搜索为基础的知识发现系统是下一次学术资源检索发展的方向[9]。

3检索技术应用的趋势

鉴于OPAC和联邦检索系统的不足,近年来,图书馆界一直在寻求一种数字资源的整合之道。为用户提供一个实现各类学术资源发现与获取的一站式解决方案,以提升用户利用资源的有效性与友好性,基于元数据预索引的网络级发现服务系统即是其中的佼佼者[10]。2010年,美国著名的教育技术方面年度报告《地平线报告》就指出,网络规模发现服务将是未来三年发展迅速的一个领域。据几大网络规模发现服务提供商统计,至2011底,已经有400余家美国高校图书馆和公共图书馆使用网络规模发现服务[11]。目前,被我国高校用户认识和采用发现服务系统主要有Summon、EDS和Primo 三个产品,虽然用户数量较少,但已引起了业内的广泛关注。

发现服务系统将图书馆的所有资源和馆外学术资源纳入了统一的架构和单一的索引体系,它事先为图书馆众多的本地和远程资源建立了一个集中索引仓储,用户通过一个类似Google的单一检索框检索这个仓储以实现资源的一站式检索,并且这些系统还会对检索结果进行有效的组织和揭示,以帮助用户发现最合适的资源,系统的稳定性方面也超越了所有以往的统一检索产品。因此它是高校图书馆学术资源深度整合和便捷获取的发展方向。

目前的发现系统主要采用两种系统架构:纯SaaS(软件即服务)型和混合型。纯SaaS型以Summon系统为代表,完全将元数据仓部署在云端,力求实现对于图书馆全部资源元数据的覆盖,并在此基础上构建一个完整统一的元数据索引,如图4。

混合型以Primo系统为代表,本馆馆藏和自建资源数据部署在本地,其他元数据部分在云端,目的是以馆藏和自建资源补充目前元数据仓储中元数据覆盖的不足,如图5[12]。

两种模式各有利弊,混合型模式能更好地和图书馆原有的OPAC系统进行整合,而纯SAAS模式能减少图书馆对学术资源维护的成本。

有关发现服务系统的功能,我们以清华大学图书馆的“水木搜索”(Primo系统)为例:

①在资源整合方面可以整合查询图书馆的各类馆藏资源,包括实体资源和数字资源,涵盖了本地拥有的资源、远程存取资源、书目、全文等。

②在检索方式方面,Primo提供了简单检索和高级检索两种模式,其中简单检索类似于Google的单一检索框,方便读者进行快速检索;高级检索则提供了“题名”、“作者”、“主题词”等4个检索字段限定栏,同时可以限定“资料类型”、“语种”和“出版日期”等文献特征,同一字段内可以使用AND、OR、NOT进行逻辑检索,可使用半角双引号进行精确匹配,可使用截词符,不同检索条件间逻辑以AND逻辑连接,从而满足精确检索的需要。

③在检索结果提炼方面,提供了多样化的排序和分面分析功能。Primo将检索结果按照相关度分值排序,与查询相关度最大的排在最前面,读者可以重新选择排序方式,可以按日期或流行程度排序;在分面分析方面,可以通过主题、文献类型、作者、出版来源和语种等十多个角度来提炼结果。多样化的结果排序和分面为读者筛选文献提供了便捷的通道。

④在结果获取方面,提供资源的一站式获取。每条记录的简单浏览界面会显示获取链接,结果页面提供直接查看馆藏的借阅信息、提供已购电子资源的全文链接并提供开放资源的SFX链接功能等。

此外,该系统还整合了个性化显示和Web2.0的功能,结果页面会显示与检索主题相关的百科词条,显示图书封面、目次、书评,并将不同版本或多个分册的图书书目记录合并为一条记录显示;它可以让人们联机协作与共享信息,用户参与互动,给系统提供的数据增值,用户可以为百科词条挑错,为记录增加标签、评论、打分,还可以发送检索结果至EndNote等。

当然,目前的发现服务系统也存在一系列问题,主要表现在:①国外的几大发现服务系统针对中文资源的目录签约度不高,导致了发现服务系统仅能访问少数中文资源;②并非所有资源都能实现全文检索;③现有的资源发现系统尚不能很好地揭示不同资源条目之间的复杂关系[13]。

针对以上问题,目前发现提供商和图书馆解决采取了部分弥补措施,例如针对中文资源的访问瓶颈,EDS和南京大学联合开发了Find+,利用国内的合作团队开发中文目录资源;而某些高校采取的办法是在引进国外发现服务系统的同时,引进国内开发的中文发现系统。西安交通大学图书馆为例,该馆在引进国外Summon发现服务系统的同时,也购买了国内超星发现作为中文资源发现的补充。但由于版权的原因,要想实现所有资源的全文检索可能是一个不可完成的任务。在今后的研发过程中,如发现系统更好地借鉴FRBR(书目记录的功能需求)的思想,将会对资源条目之间的关系揭示带来改进。endprint

4结束语

大数据时代的“3V”:量级(Volume),速度(Velocity)和多样性(Variety)[14]给不断加大学术资源建设投入的高校带来了严峻挑战,如何让文献检索服务得到广大师生用户的认同是实现大数据第四个V(Value)的重要前提,而学术资源检索技术的采用又是文献检索服务得以实现的重要前提。每个新的检索技术的采用并不是对先前技术的全盘否定或者抛弃,而是以原有技术为基础的改进和增加,它们之间是整合协同关系。高校的学术资源提供者应关注检索技术的发展,了解各种检索技术的优缺点,结合用户的切实需求和使用习惯,及时引进新技术并科学引导用户对新技术进行利用,以达到高效利用学术资源的目的。

参考文献

[1]CNNIC.2011年高校图书馆发展报告[EB/OL].http:∥www.scal.edu.cn/courseInfo Search.html?miscdictId=7,2013-05-20.

[2]韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2012,(5):37-40.

[3]付蔚,王海兰.Web20时代OPAC发展及书目创新服务的思考[J].图书情报工作,2007,(2):117-120.

[4]余金香,李书宁.Web20时代OPAC发展研讨[J].图书馆杂志,2007,(8):31-35.

[5]魏瑞斌,陈丹丹.基于引证网络的高被引文献实证分析——以知识服务为例[J].现代情报,2011,31(3):117-121.

[6]钱文丽,李亮先.“211工程”高校图书馆OPAC系统比较评价研究[J].图书馆论坛,2010,(2):75-77.

[7]黄田青,陈清文.WPopac:新一代的Opac[J].情报杂志,2007,(12):112-113.

[8]马骅.国外主要联邦检索系统的兴起、现状及发展趋势[J].图书馆建设,2009,(3):1-5.

[9]陈家翠.联邦检索机制及其存在的问题[J].图书情报工作,2006,(6):87-89.

[10]秦鸿,钱国富,钟远薪.三种发现服务系统的比较研究[J].大学图书馆学报,2012,(5):5-11.

[11]安伟,徐敏,李刚.网络规模发现服务的研究与实践[J].图书情报工作,2012,(9):125-128.

[12]窦天芳,姜爱蓉.资源发现系统功能分析及应用前景[J].图书情报工作,2012,(7):38-43.

[13]陈定权,卢玉红,杨敏.图书馆资源发现系统的现状与趋势[J].图书情报工作,2012,(7):44-48.

[14]官建文,刘振兴,刘扬.国内外主要互联网公司大数据布局与应用比较研究[J].中国传媒科技,2012,(17):45-49.

(本文责任编辑:马卓)endprint

4结束语

大数据时代的“3V”:量级(Volume),速度(Velocity)和多样性(Variety)[14]给不断加大学术资源建设投入的高校带来了严峻挑战,如何让文献检索服务得到广大师生用户的认同是实现大数据第四个V(Value)的重要前提,而学术资源检索技术的采用又是文献检索服务得以实现的重要前提。每个新的检索技术的采用并不是对先前技术的全盘否定或者抛弃,而是以原有技术为基础的改进和增加,它们之间是整合协同关系。高校的学术资源提供者应关注检索技术的发展,了解各种检索技术的优缺点,结合用户的切实需求和使用习惯,及时引进新技术并科学引导用户对新技术进行利用,以达到高效利用学术资源的目的。

参考文献

[1]CNNIC.2011年高校图书馆发展报告[EB/OL].http:∥www.scal.edu.cn/courseInfo Search.html?miscdictId=7,2013-05-20.

[2]韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2012,(5):37-40.

[3]付蔚,王海兰.Web20时代OPAC发展及书目创新服务的思考[J].图书情报工作,2007,(2):117-120.

[4]余金香,李书宁.Web20时代OPAC发展研讨[J].图书馆杂志,2007,(8):31-35.

[5]魏瑞斌,陈丹丹.基于引证网络的高被引文献实证分析——以知识服务为例[J].现代情报,2011,31(3):117-121.

[6]钱文丽,李亮先.“211工程”高校图书馆OPAC系统比较评价研究[J].图书馆论坛,2010,(2):75-77.

[7]黄田青,陈清文.WPopac:新一代的Opac[J].情报杂志,2007,(12):112-113.

[8]马骅.国外主要联邦检索系统的兴起、现状及发展趋势[J].图书馆建设,2009,(3):1-5.

[9]陈家翠.联邦检索机制及其存在的问题[J].图书情报工作,2006,(6):87-89.

[10]秦鸿,钱国富,钟远薪.三种发现服务系统的比较研究[J].大学图书馆学报,2012,(5):5-11.

[11]安伟,徐敏,李刚.网络规模发现服务的研究与实践[J].图书情报工作,2012,(9):125-128.

[12]窦天芳,姜爱蓉.资源发现系统功能分析及应用前景[J].图书情报工作,2012,(7):38-43.

[13]陈定权,卢玉红,杨敏.图书馆资源发现系统的现状与趋势[J].图书情报工作,2012,(7):44-48.

[14]官建文,刘振兴,刘扬.国内外主要互联网公司大数据布局与应用比较研究[J].中国传媒科技,2012,(17):45-49.

(本文责任编辑:马卓)endprint

4结束语

大数据时代的“3V”:量级(Volume),速度(Velocity)和多样性(Variety)[14]给不断加大学术资源建设投入的高校带来了严峻挑战,如何让文献检索服务得到广大师生用户的认同是实现大数据第四个V(Value)的重要前提,而学术资源检索技术的采用又是文献检索服务得以实现的重要前提。每个新的检索技术的采用并不是对先前技术的全盘否定或者抛弃,而是以原有技术为基础的改进和增加,它们之间是整合协同关系。高校的学术资源提供者应关注检索技术的发展,了解各种检索技术的优缺点,结合用户的切实需求和使用习惯,及时引进新技术并科学引导用户对新技术进行利用,以达到高效利用学术资源的目的。

参考文献

[1]CNNIC.2011年高校图书馆发展报告[EB/OL].http:∥www.scal.edu.cn/courseInfo Search.html?miscdictId=7,2013-05-20.

[2]韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2012,(5):37-40.

[3]付蔚,王海兰.Web20时代OPAC发展及书目创新服务的思考[J].图书情报工作,2007,(2):117-120.

[4]余金香,李书宁.Web20时代OPAC发展研讨[J].图书馆杂志,2007,(8):31-35.

[5]魏瑞斌,陈丹丹.基于引证网络的高被引文献实证分析——以知识服务为例[J].现代情报,2011,31(3):117-121.

[6]钱文丽,李亮先.“211工程”高校图书馆OPAC系统比较评价研究[J].图书馆论坛,2010,(2):75-77.

[7]黄田青,陈清文.WPopac:新一代的Opac[J].情报杂志,2007,(12):112-113.

[8]马骅.国外主要联邦检索系统的兴起、现状及发展趋势[J].图书馆建设,2009,(3):1-5.

[9]陈家翠.联邦检索机制及其存在的问题[J].图书情报工作,2006,(6):87-89.

[10]秦鸿,钱国富,钟远薪.三种发现服务系统的比较研究[J].大学图书馆学报,2012,(5):5-11.

[11]安伟,徐敏,李刚.网络规模发现服务的研究与实践[J].图书情报工作,2012,(9):125-128.

[12]窦天芳,姜爱蓉.资源发现系统功能分析及应用前景[J].图书情报工作,2012,(7):38-43.

[13]陈定权,卢玉红,杨敏.图书馆资源发现系统的现状与趋势[J].图书情报工作,2012,(7):44-48.

[14]官建文,刘振兴,刘扬.国内外主要互联网公司大数据布局与应用比较研究[J].中国传媒科技,2012,(17):45-49.

(本文责任编辑:马卓)endprint

猜你喜欢
技术应用高校图书馆大数据
现代烟草工业发展趋势及降焦减害技术应用研究