机构知识库联盟研究现状与热点分析

2018-08-22 01:39王燕红阳广元西南民族大学图书馆
图书馆理论与实践 2018年7期
关键词:知识库剖析分布式

王燕红,阳广元(西南民族大学图书馆)

1 引言

机构知识库 (Institutional Repository,简称 IR)联盟(以下简称IR联盟)既是一种解决单个学术机构在构建自身IR时面临的资金缺乏、内容征集难、技术条件不成熟等制约因素的有效方案,又是避免各机构资源重复建设和促进各机构资源分布式整合与统一管理,实现各机构资源的最大化开放存取的一种有效途径。[1-3]近年来,我国研究者对IR联盟进行了不同角度的深入研讨,并取得了一些学术成果。本研究以“中国知网”、“万方数据知识服务平台”和“维普中文期刊服务平台”为样本来源数据库,以(题名/关键词=((机构知识库or机构库or机构仓储or机构资源库or机构存储库or学术仓储or机构典藏库or机构知识仓储or机构存储or机构典藏)and联盟)or机构知识库联盟or机构库联盟or机构仓储联盟or机构资源库联盟or机构存储库联盟or学术仓储联盟or机构典藏库联盟or机构知识仓储联盟or机构存储联盟or机构典藏联盟or机构联盟知识库)[1-5]为检索式,在所有学科专题中进行“精确匹配”检索,对检索结果去重和剔除(如编辑寄语等)非相关文献后,最终获得我国IR联盟研究有关的文献51篇。笔者对学术文献的主题及内容梳理发现,目前我国学者对基于关联数据的知识发现的研究主要集中在IR联盟的定义、IR联盟构建模式、研究成果和实践经验介绍、综述或其他研究内容等四类主题。

2 国内机构知识库联盟研究综述

2.1 机构知识库联盟的定义

目前,国内学者对IR联盟还没有形成一个比较统一的界定和认识,比较典型的定义如下。

(1)王文华、渠芳等认为IR联盟是指多个机构以一个机构为基地联合构建IR,并通过合作的方式将各自所拥有的资源库整合以对外提供统一的数字化服务。[1,6,7]

(2)曾苏等认为IR联盟是指两个以上大学、研究机构及相关组织通过合作的方式构建IR或共享IR资源,以集中存缴、元数据收割等方式统一提供知识传播和知识服务,实现不同机构间知识产出的共享、利用。[5]

(3)孟祥保认为IR联盟是指两个及其以上学术机构间采用统一技术平台和管理方式进行各机构学术资源的收集、管理及分布式数字整合,以实现各机构学术资源的最大化开放存取。[2]

(4)王颖洁等认为IR联盟包括两层涵义。① IR联盟的构建。其侧重于没有IR实体建设经验的机构按照某种合作(如地域、学科等)关系,以事先按调研和建设目标制定的建设方案开展并实施IR联盟的构建。② IR联盟化。其侧重于已有IR实体建设经验的机构按某种利益和联系,并依托已有技术经验和实力不断吸纳相关新机构加入,以实现各机构间知识资源的整合、交换与共享。[8]

(5)陈慧香等认为IR联盟是指两个及以上高校、研究所与相关机构以合作协调的形式,将联盟内各成员的资源与科研成果以构建共享IR群和提供统一数字化服务为目的而进行整合,最终实现不同成员间资源的共享与利用。[9]

从上述学者们的定义可知:① IR联盟的成员数至少两个;② IR联盟是以自愿合作、相互协调的方式构建;③ 目的是降低各成员的成本投入,实现成员间资源整合与共享、经验分享和统一数字化服务;④ 最终实现各成员资源的最大化传播和利用。

2.2 机构知识库联盟构建模式

IR联盟构建模式是指构建IR联盟所采用的程序及方法,包括构建目标、政策框架、构建流程、组织方式、管理机制及功能定位等,目前IR联盟的构建模式主要有以下四种。[6,7,10-13]

(1)集中存储式IR联盟。指联盟机构成员都直接将自己所拥有的元数据与内容提交到整个联盟所建立和拥有的唯一服务器上,并通过统一的服务平台进行管理和提供各项服务(包括作为数据提供方为其他服务提供方提供元数据采集服务)(见图1)。集中存储式IR联盟的优点是能有效解决单个IR建设的弊端,降低各机构参与IR建设的成本,避免不必要的重复建设,实现运营成本和利用两方面的“规模性”效益,并在技术标准及服务等方面实现统一性,有效控制IR内容的质量,便于内容元数据的分布式协调统一管理和最大化开放存取。集中存储式IR联盟的不足主要表现在:① 因各机构发展现状及趋势不一致导致IR政策制定及实施效率偏低;② 因集中存储式IR联盟无法体现各机构的品牌效益而缺乏归属感,从而制约各机构内容的提交;③ 易引发多方面(如贡献率或利用率是否均衡、投入产出比是否合理等)矛盾而影响集中存储式IR联盟的可持续发展;④ 因文化及管理方面的差异性导致建立全国或全球范围的集中存储式IR联盟缺乏可行性。

图1 集中存储式机构知识库联盟

(2)分布式IR联盟。指联盟机构成员均在构建属于自己独立IR的基础上,以联盟形式构建一个统一分布式检索服务平台,数据和资源本身仍以分布式的方式存储在各机构的IR中(见图2)。分布式IR联盟的主要优点是在保持各成员品牌标志及个性化的同时实现资源的最大化开放存取等;主要缺点是检索效率低、不一致问题多等。

图2 分布式机构知识库联盟

(3)分布采集式IR联盟。指联盟机构成员均在构建属于自己独立IR和检索平台的基础上,以联盟统一规划发展要求构建联盟统一检索服务平台,并从各成员独自管理的IR中将元数据(原始数据仍保留在各独立IR中)采集并存储到联盟中心搜索数据库里,数据和资源本身仍以分布式的方式存储在各机构的IR中,其与分布式IR联盟的主要区别是分布采集式IR联盟需要将分散在各独立IR中的元数据采集并存储在联盟的中心元数据库中(见图3)。分布采集式IR联盟的优点主要有:① 各成员IR构建技术与实践经验的共享有利于加快无IR成员的IR构建;② 联盟只负责宏观政策指导,各成员高度自治,利于各成员按自身发展规划进行IR政策的制定与管理;③ 便于各成员个性化发展自身IR特色,保留其品牌标志和效率;④ 扩大各成员成本资源来源渠道,缓解成本投入压力。分布采集式IR联盟的主要缺点是联盟成员的高度自治性导致各成员独立IR建设存在不一致性,主要表现为:① 分布式IR联盟强调成员高度自治性而非强制要求统一软件,从而导致IR应用软件系统不一致;② 因各成员IR应用软件系统不一致而导致元数据标准应用不一致,并需要在统一跨库检索时进行元数据转换;③ 因联盟只负责宏观政策指导而会导致各成员在自身发展规划背景下制定不一致的政策与管理策略,从而对IR内容质量等造成影响。

图3 分布采集式机构知识库联盟

(4)集中存储和分布采集相结合的IR联盟,又称为联合式IR联盟,是指由多个机构或特定部门间按某种协议或联合组织等方式构建的IR联盟,既通过集中提交方式聚合资源,又通过分布式采集方式收集元数据(见图4)。联合式IR联盟的主要优点有:① 降低成员的IR构建成本;② 保留集中存储式成员的品牌标志和效率;③ 便于加盟成员依据自身发展规划有选择地采取不同的加盟方式,利于成员的差异化发展等。联合式IR联盟的最大缺点是效率不高和不一致性问题多。

同时,渠芳还提出了一种基于SaaS理念的能避免集中存储式IR联盟数据冗余、混乱和分布采集式IR联盟高成本等弊端,以及满足用户学术交流与个性化需求的IR联盟构建模式(见图5)。[14]

图4 联合式IR联盟

图5 基于SaaS理念的机构知识库联盟建设平台的总体框架

2.3 研究成果和实践经验介绍

(1)研究现状。王颖洁在概述国内外IR联盟发展现状的基础上,以陕西高校IR联盟构建实践为例,从建设基础、建设意愿、建设阻碍因素、构建模式四方面深度剖析了区域性IR联盟构建面临的困境与解决方案,指出应在现有国内外区域性IR联盟构建实践经验的基础上,探索出一条适合我国国情的行之有效的区域性IR联盟发展途径。[15]崔晓西等采用问卷调查的方式全面分析了我国IR及IR联盟的发展现状,指出应把握IR联盟发展趋势以进一步促进高校IR资源的共享利用、挖掘潜在的高校资源并促进服务的创新。[16]黄筱瑾等概述了我国当前IR联盟的建设现状,指出我国IR联盟的构建应从构建模式的最优选择、建设政策的完善、争取多方支持、优化人员结构和寻求可持续的资金保障等五方面来推进我国IR联盟的建设与快速发展。[17]陈美华等从软件系统功能、服务特性、组织模式和资金保障机制四方面全面概述了美国IR联盟的建设现状,指出应采取适合我国国情的IR联盟构建模式(分布采集式与集中存储式并行),发挥IR联盟优势以积极开发IR技术、经验共享及平衡发展,构建有效地资金保障机制。[18]陈娜从构建模式、发展现状及存在问题三方面全面剖析了我国高校IR联盟建设现状,指出应从完善政策框架、制定与强制性自存储制度、构建资源质量保障机制以及妥善处理好知识产权四方面促进我国高校IR联盟的建设。[19]周艳等深度剖析了国内外IR联盟的研究现状,构建了基于开放存取理念的IR联盟模型。[20]陈慧香等从理论层面和实践层面深度剖析了国内外IR联盟的研究现状和差异,指出未来应从IR联盟模式的最优选择、加强IR联盟平台的构建、拓展IR联盟的服务功能、建立数据管理标准和规范以及支持联盟数据关联等五方面推进我国IR联盟的发展。[9]邵波等在概述了国内外IR联盟研究现状的基础上,指出未来应加强四方面的工作:统一数据交换接口;统一学者数据模型;建立数据管理标准;制定版权管理标准。[21]

(2)实践项目介绍与分析。王文华从组织结构、技术结构和成本三个方面重点阐述了英国伦敦IR联盟构建的典型项目:SHERPA-LEAP知识联盟库,指出IR联盟的构建将有助于各成员机构节约成本,促进它们之间的资源共享、深度合作和跨学科新知识创新,并面临各成员机构收录内容不一致的新挑战。[1]孟祥保从发展历程、系统结构、服务功能以及管理策略四方面深度剖析了韩国全国性IR联盟dCollection,指出应从建设模式、建设步骤、建设经费、资源建设内容、管理与使用等方面深入汲取其建设经验,以联盟方式加快我国IR的建设和学术资源的最大化开放存取。[2]渠芳从IR联盟构建的可行性、服务内容、构建模式、运行机制四方面全面深入地剖析了徐州高校教学联合体IR联盟的建设经验,指出我国应加快IR联盟的构建,以促进IR的可持续发展。[6]傅晔从建设现状、建设经验等两方面深入剖析了台湾学术机构典藏(TAIR),指出应在汲取TAIR经验的基础上,从争取相关行政主管机关重视与支持、发挥联盟优势实现IR技术与经验共享、明确著作权方案实现先易后难、区别对待的建设模式、制定“自上而下”的强制性资源缴存制度等方面来构建省域级高校IR联盟。[22]朱志伯等认为目前IR联盟构建模式主要有四种:分布式模式、集中式模式、收割式模式和混合式模式,并深度比较了这四种模式的优缺点,然后从可行性和构建模式等两方面阐述了南通高校联合体IR联盟的建设模式。[13]田丽君等从建设模式、建设规模和服务效果三方面深入剖析了芬兰Doria和Theseus两个IR联盟,指出应以政府主导、项目拉动、统筹规划,采取统一平台、分散建设、集中呈现的建设模式,强化IR间资源共享力度与范围,采取集中技术服务模式和企业化管理运营模式为IR联盟的可持续发展注入生机与活力。[23]张凤梅等从建设背景与措施等两方面全面剖析了旅游院校五星IR联盟的建设模式及意义,指出IR联盟将通过提供统一的资源服务来提升资源被发现和利用的几率,最大化的实现资源的共享及服务效率。[24]符敏华深入剖析了大陆CALIS与台湾TAIR两个IR联盟之间的异同,指出应从资源建设的基础环节、重要环节、增值环节和用户粘度四方面加强大陆高校IR联盟的构建。[25]

2.4 综述或其他研究内容

学者们还从应用领域、服务平台、职能规范、风险管理、工作流模式、认证与授权等角度对IR联盟进行了深入的剖析,如,都平平等从学科网资源聚合角度深度剖析了基于域的IR联盟,指出域IR联盟将促进资源的收割、共享及利用,为人才培养和学科建设提供更广泛、更高效和更科学的服务;[26]周艳等深度剖析了国内外IR联盟的研究现状,构建了基于开放存取理念的IR联盟资源知识整合服务平台。[20]张丽娟等指出应从三方面规范IR联盟职能和规避风险:形成基于“合理使用”角度的许可规范;完善许可协议中的款目字段及内容;深入挖掘使用许可协议跟其他环节的深层关联。[27]司莉等深入探讨了澳大利亚IR联盟实践项目——澳大利亚联机研究储(Australian Research Repositories Online to the World,ARROW),指出应在汲取其经验的基础上,从三个方面设计IR联盟工作流:强调因库制宜的设计理念;明确各参与主体的职责与分工;重视联盟系统间的协同化发展。[28]司莉等以问卷调查的方式深度剖析了我国高校科研数据IR联盟的构建需求,分析结果表明:① 权限和质量问题是高校人员收集他方数据的主要障碍;② 高校科研人员保存科研数据的方式以个人自存储为主,但数据保存现状不容乐观;③ 高校机构知识库使用率较高,但还未成为高校科研人员获取数据的主要来源与共享数据的重要渠道;④ 高校科研人员对于科研数据机构库联盟有强烈需求,但对联盟的发展前景不太看好。[29]马建霞深度剖析了跨仓储统一认证与授权系统Shibboleth,指出我国在构建IR联盟时应充分考虑IR联盟的访问控制策略,尽量做到细粒度的、灵活的、可扩展的访问控制。[30]司莉等从利益相关者理论角度将科研数据机构库(Institutional Research Data Repository,简称IRDR)的角色主体划分为研究人员、研究机构、数据管理与服务提供者、出版商、研究资助者、平台管理者、外部用户及政府八类。[31]

3 机构知识库联盟研究的特点、不足及发展建议

3.1 特点

(1)从研究成果的情报来源看,检索到的51篇学术成果中,有46篇载于学术期刊、4篇载于会议论文集、1篇为硕士学位论文。表明我国学者对IR联盟的研究与实践十分关注和重视,并取得了大量参考价值大的学术成果,同时其研究也出现了泛化趋势。

(2)从研究作者群来看,我国IR联盟研究领域已初步形成了以司莉、都平平、曾苏等核心作者群和武汉大学、中国矿业大学、南京大学等核心机构对其进行持续跟踪地深入研究与实践,表明我国已初步形成了比较完备和稳定的科研人员及团队对IR联盟的持续性理论探讨和实践运用。

(3)从研究主题看,国内IR联盟研究逐步从最初的理论层面(如国外研究现状、最佳实践项目分析、构建模式等)不断向实践层面(如外语院校IR联盟构建实践、旅游院校五星联盟、高校IR联盟CALIS)深入,研究内容也从最初的整体研究向如认证、授权、角色定位等更细化的层面转化,从各方面为我国IR联盟的发展提供有参考价值的研究成果。

(4)从研究主体看,国内IR联盟的研究成果主要集中载于图书情报类期刊,占总情报来源的84.31%,其中核心期刊数占总情报来源的58.82%,同时也出现了如学位论文、《南京医科大学学报:社会科学版》《中国纪念馆研究》等非图书情报类情报源发表的研究成果,这表明我国IR联盟的研究主体开始呈现泛化趋势,也将吸引更多其他领域的研究者加入到我国IR联盟的研究与实践。

3.2 不足及发展建议

尽管我国IR联盟在理论层面和实践层面都取得了一定价值的研究成果和实践经验,但还存在如IR联盟的定义未形成统一界定、实践案例分析多但运用层面分析少、宏观层面(如构建模式、构建策略、最佳案例分析等)分析多但微观(如授权方式、认证方式、角色定位等)层面分析少等不足。笔者结合上下文分析认为,我国IR联盟的研究未来应加强以下三个方面的研究。

(1)加强IR联盟内涵的研究。目前,国内外还没有对IR联盟形成一个比较认可的、易理解的、利于实践的统一认识和界定,这将不利于初涉IR联盟领域的研究者、政策制定者和资金投入者对IR联盟的理解和政策支持,同时也将阻碍我国IR联盟的深入发展。因此,在对IR联盟进行深入研究与实践运用的同时,应该首先弄明白“什么是IR联盟”、“IR联盟的内涵”、“IR联盟的优势与挑战”等,这样才能更好地争取各方面的政策支持、人才队伍建设和资金保障等,从而进一步促进我国IR联盟的深度发展。

(2)加强最佳实践的引荐。IR联盟作为一项实践性强的课题,除了从理论层面进行研究以外,最重要的是要弄明白“如何做”的问题,如“采取什么样的构建模式”、“采取什么样的访问控制策略及实现技术”、“采取什么样的共享标准及元数据技术”等。因IR联盟的理论研究与实践应用都起源于国外,因此,国内在开展IR联盟的研究与实践时,可以优先学习和引荐国外IR联盟的优秀理论成果和最佳实践案例,以从中汲取有用的、利于国内IR联盟研究与实践的理论指导和实践经验,然后结合我国国情和IR联盟发展现状,探索出适合我国各领域的IR联盟发展的路径,以加快我国IR联盟的深度发展。

(3)加强IR联盟的实践运用。我国IR联盟虽经过近十年的研究,在实践层面积累了一定经验,但是还不够深入和全面。IR联盟本身实践性较强,只有将IR联盟的理论探讨和已有实践经验不断地运用在新的实践中,才能更好地促进理论研究的深化和实践经验的优化,真正地促进我国IR联盟的快速发展。

猜你喜欢
知识库剖析分布式
汉语近义词辨析知识库构建研究
一元一次方程错解剖析
剖析高考数列创新题
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
“几何图形初步”错解剖析
集合中的错解剖析
分布式光伏热钱汹涌
分布式光伏:爆发还是徘徊
基于DDS的分布式三维协同仿真研究
卫星状态智能诊断知识库设计方法