记忆机构的开放数据建设和数字化服务转型*

2020-05-12 07:51张喆昱
图书馆论坛 2020年5期
关键词:关联机构记忆

张喆昱,张 磊

0 引言

图书馆、美术馆、博物馆、档案馆等作为传承人类文化遗产的记忆机构(以下简称“记忆机构”),致力于收集、保存和管理人文科学资料,为大众提供知识服务。在互联网和数字化浪潮下,记忆机构纷纷将实体资料数字化、加工整理,组织成可用程度不一的网络数据资源,最终开放为社会所用。伴随“数据驱动”新兴研究范式到来,人们对记忆机构数字资源的共享和利用的期望急剧攀升,导致记忆机构传统的资源分享模式与社会需求之间的鸿沟日趋加大。记忆机构在新形势下的数字化服务转型势在必行。

在社会需求和技术推动双重作用下,国内外记忆机构开展了积极探索,推出开放数据服务,挖掘人文资料的潜在价值,促进文化创新。记忆机构的社会定位也在悄然改变,从资源持有者转向创新的使能者。随之而来的挑战包括数字化时代记忆机构的定位、记忆机构如何利用人类文化知识宝藏支持数据驱动的创新活动、如何实现记忆机构的数字化服务转型等。本文在总结国内外记忆机构人文开放数据建设实践的基础上,尝试以开放数据内容深度、开放数据内容广度、开放数据的利用3个分面对国内外记忆机构的开放数据建设及使用情况进行梳理,为我国记忆机构的数字化服务转型提出建议。

1 记忆机构的开放数据建设

在信息通信技术支持下,记忆机构可以在传统的基于物理介质文献的人类文化遗产保藏和运用方面,借助数字化手段,提升服务能力。通过资源的数字化建设、数据的开放共享,记忆机构不仅可以在更大范围内更全面地传播藏品资源、挖掘资源价值、提升服务水平,更能在文化创新活动中起到积极作用。近年国内外记忆机构纷纷将推进开放数据建设作为发展方向,采用关联数据技术促进记忆机构中结构化与语义化数据的建设和再利用[1]。虽然图书馆、博物馆、美术馆和档案馆记忆人类文明的宗旨相同,但鉴于服务目的的差异和组织机构的分离,本文将按形态归类,总结国内外记忆机构的开放数据建设实践。

1.1 图书馆开放数据建设

传统图书馆肩负着搜集、整理、收藏文献资料,开发信息资源,进而为民众服务的职能。其特点在于藏品是经过文献作者的凝练、图书管理人员加工整理后的权威信息。新形势下,各国图书馆不同程度地开展了开放数据探索。

欧洲图书馆的开放数据探索非常活跃。德国数字图书馆(Deutsche Digitale Bibliothek,DDB)2013年向公众发布API(应用编程接口)[2],提供基于关联技术的德国文化和科技数字资源的开放数据服务,促进了数据创新[3]。从2014年起,德国数字图书馆联合其他机构,每年共同举办“达芬奇编码”竞赛活动,以开放数据形式为大众提供元数据、图像、音频、视频、3D模型,不仅揭示了这些文化机构数据的潜在价值,且进一步促进了开发者、游戏玩家、设计师与各文化机构之间的交流,竞赛结束后不少获奖项目跟专业机构开展了进一步的合作[4]。英国大英图书馆建设了多个开放数据平台[5],其中2016 年推出的data.bl.uk公开了74个数据集[6],除提供JPEG、PDF等部分数字化馆藏外,还提供结构化的机读格式信息,甚至以关联数据方式组织和发布所有书目数据BNB(British National Bibliography)[7],以研讨会、数据利用大赛等方式推广开放数据,开设British Library Lab,鼓励公众参与研究[8]。

在北美地区,美国国会图书馆(Library of Congress,LC)2009 年起致力于将主题词表(LCSH)、名称规范档(LCA)、图书分类法(LCC)等规范性文件以关联数据方式开放,提供API 访问和批量下载,帮助开展自动化的关联和推理[9]。美国数字公共图书馆(Digital Public Library of America,DPLA)提供所有DPLA 记录的批量下载,这些数据可以通过API 用于关联应用开发[10]。加拿大多伦多公共图书馆发布了开放数据政策及使用条款,公布了涉及书目、网站搜索、持证读者、流通等方面的30多个开放数据集[11]。

在亚太地区,作为新西兰开放获取许可框架和开放政府信息、数据再利用计划的一员,新西兰国家图书馆制订《开放数据计划》[12],开放出版物、论文、报刊索引等的元数据以供下载,DigitalNZ API整合150多个组织的元数据用于应用集成,鼓励对这些数据进行深度分析或开发[13]。韩国国家图书馆发布国家书目的关联开放数据(LOD)网站,涵盖书目、主题、作者等方面的信息,为关联和融合其馆藏及网络数据带开了方便之门[14]。

在我国,上海图书馆从馆藏特色资源——家谱开始,建设了集人、地、时、事、物、文献为一体的人文数据基础设施[15],以关联数据形式提供数据服务。在此基础上,连续4年举办开放数据应用开发竞赛,数据种类和开放数量也从首届5万种家谱元数据发展到第二届新增开放24万种名人手稿档案元数据[16],2019年更与国内外6家单位联合推出涉及家谱、名人、建筑、红色文献、电影、诗词、民国书刊、藏印等多类型历史人文内容的数据数千万条,开放数据竞赛为数据合作单位、历史人文爱好者和数据创客提供了良好的学习交流平台,各方共同挖掘历史人文数据背后的应用潜力,丰富了数据资源利用手段,在国内记忆机构开放数据应用中起到了引领作用。

1.2 博物馆美术馆开放数据建设

博物馆美术馆收藏具有代表性的人类文化遗产,供来访者观赏和研究。其特点是历史性强,藏品稀有度高。为让世界各地的使用者体验特定的历史文化特色,对特定类别的文物展开全方位研究,国内外博物馆美术馆在藏品元数据、藏品的数字化对象等多个层次开展了开放关联数据探索,其中以美国洛杉矶Getty博物馆、大英博物馆最全面。

美国洛杉矶Getty博物馆免费提供自有版权藏品及10万余张无版权对象的高清数字图像下载,这些丰富的数字化资源反映了Getty研究院和Getty博物馆的数千件藏品,内容范围还在不断扩大[17]。Getty叙词表关联数据包含艺术、建筑、装饰艺术、档案、书目材料等领域的结构化术语,为编目员和数据加工者提供了权威规范,为数字艺术史研究和发现提供了强大的渠道,促进了博物馆数据与网络资源的结合[18]。

大英博物馆开放了藏品的数字化档案、高清图像供下载。作为关联数据建设的先驱,2011年大英博物馆就基于馆藏目录创建了关联数据项目ResarchSpace[19]。

在藏品数字化服务方面,洛杉矶郡立美术馆开放了2万份高清图像资料,只要注明出处便可无限制使用[20]。2017年起,美国大都会博物馆将无版权藏品的高清图像开放给公众免费使用[21]。荷兰国立博物馆[21-22]和芬兰国家美术馆[23]更胜一筹,不仅提供藏品的高清数字化图像供大众下载,还提供有关艺术品及艺术家数据的API,鼓励人们进行资源整合、应用程序创新和艺术品的衍生创作。

亚洲具有代表性的关联开放数据应用当属日本关联开放数据学术博物馆。该馆以关联数据技术整合全国博物馆、馆藏文物、作者、设施等元数据记录,供大众进行SPARQL查询,有利于与事件数据、GIS数据、日本DBpedia、物种数据等数据资源的整合[24]。

1.3 档案馆开放数据建设

档案馆记录了特定历史人物或事件的事实性信息,往往具有原始记录性。在档案领域推进开放数据活动有利于公众了解或核实某些事实。开放数据应用较全面的有英美两国的国家档案馆。英国国家档案馆整合2,500 多家档案机构的3,200 万份记录,公开了API Discovery,向社会提供数字化服务,形成全面的历史人文记录数字化资源[25-26]。美国国家档案馆提供以联邦法规编码规范档和总统公共文件为代表的大批数据集、以国家档案目录API为代表的访问接口,以及众包工具Transcribr[27],促进了大众对档案数据的创新应用。新西兰档案馆2005年起成为政府开放数据运动的重要伙伴,开放了包括公共服务、历史文化在内的4个数据集,提供API访问或直接下载,供大众二次开发利用[28]。德国联邦档案馆在维基百科网站投放了几千份德国历史照片[20]。

1.4 记忆机构开放数据建设的协作

在资源协作方面,英国博物馆、图书馆和档案馆理事会(Museums,Libraries and Archives Council,MLA)和加拿大国家图书档案馆(Library and Archives Canada,LAC)[29]等做出了表率。澳大利亚昆士兰州立图书馆将近3万名士兵一战前拍摄的照片数字化,作为开放数据集发布在政府网站,同时与澳大利亚档案馆合作,通过国家档案馆API,将这些士兵肖像与国家档案馆的个人档案进行匹配[12]。另一个著名的记忆机构开放数据建设协作是始于2008 年的Europeana,它整合欧盟数十个国家不同类型记忆机构的书籍、绘画、音乐、档案、电影等数据资料,向全球提供免费的数字资源获取平台,在跨机构、跨领域文化资源融合中取得了良好效果;2012年建设关联开放数据,提供批量下载、API、SPARQL 查询等服务,Europeana Lab网站为促进文化遗产创新和创造提供了良好的平台[30-32]。

整体而言,记忆机构的开放数据建设具有3个特点:(1)国外记忆机构的开放数据建设和数字化服务实践较丰富,尤以世界级顶尖图书馆和博物馆的探索更突出,数字化内容开放程度高,开放比例也大[20]。(2)开放数据项目集中在欧美,亚洲地区日韩的开放数据建设较先进[18]。(3)我国记忆机构的开放数据整体水平不高,从事开放数据探索的机构不多,开放数据数量少,级别较低。比如,国内博物馆藏品的数字化资源呈封闭状态[20]。尽管国内早有基于关联数据实现记忆机构数字资源整合的研究,但鲜有不同类别的记忆机构联合开展开放数据建设和联合提供数字化服务的成果[28]。

2 开放数据项目(活动)特征

国内外记忆机构的开放数据建设特征,可从开放数据内容深度、内容广度及利用形式3个分面进行梳理,见表1。

表1 国内外开放数据建设特点

开放数据的深度按照Tim Berners Lee 提出的开放数据五星评价体系[33]划分。第一级对应五星评价体系的四五星,其特征在于以RDF数据模型存储数据,利用URI命名数据实体,使数据之间互相关联。第二级对应五星评价体系的二三星,以结构化数据或非专有格式提供开放。第三级对应五星评价体系的一星,数据可在互联网上访问。这样分级的意义在于,具备第一级特征的开放数据可以支持自动化的关联和推理,更适合专题研究者和跨领域研究者开展深入或跨界的高水平研究;第二级开放数据满足人们对精准获取数据和访问广泛数据资源的需求,更利于大众创新应用;第三级标准降低了开放数据的利用门槛,更加激发公众对人文艺术的创意。

从开放数据的广度来说,完整藏品、多种类别数据的完全开放最为理想。可是,一些常见的约束条件,如知识产权、法律法规、社会影响等使得开放数据的广度呈现多样化特征。此外,数字化制作、加工和维护成本也是一个不容忽视的要素。

开放数据的利用程度是一个常被忽视但对记忆机构职能转型意义深远的一个维度。与记忆机构传统职能定位相吻合,以关联数据形式开放的规范档会帮助记忆机构更好地揭示藏品内容,编织数字化资源的知识网络。但开放数据的爆炸式增长和记忆机构专业人手不足的矛盾也会激发一些新的数据建设和数字化服务形态的出现。例如,利用众包方式开展数字化藏品的信息补全可以成功地将记忆机构的数字化服务对象(开放数据的消费者)转变为开放数据的建设者。这将引发记忆机构原有组织关系的调整。此外,带有地域特征、表现风格和文化底蕴的文创设计也将促使记忆机构人类文化保藏者的社会定位发生改变。

3 国内记忆机构的数字化转型模式

依据上述分面的多类特征审视国内外开放数据实践,可勾勒出我国记忆机构的数字化服务转型模式。

(1)根据各机构的能力、预期受众和愿景探索独特的数字化服务模式。记忆机构定位的不同,藏品内容、级别和丰度的差异意味着我们不能限定于唯一一种记忆机构的数字化服务模式,而应根据各机构的能力、预期受众和愿景探索独特的数字化服务模式。即便是跨机构、跨领域的开放数据协作,也应根据预期受众形成有针对性的数字化服务模式。

以上海图书馆(以下简称“上图”)为例,该馆一直致力于推动历史人文数据的开放利用,倡导多源数据融合。一年一度的上图开放数据应用开发竞赛为各数据合作单位、历史人文爱好者和数据创客提供了良好的学习交流平台,通过竞赛宣传推广了上图和各家数据合作机构的开放数据资源,以丰富的数据内容、种类和数量催生高附加值的数据应用和服务。在上图历年开放数据竞赛中,达到第一级开放内容深度,广泛关联多种数据源,富有创意的数据利用作品尽管占有一定比例,但在与参赛者的沟通过程中,对各类文献资料原文扫描图像的需求占比更大。可见,低端的开放深度(第三级)和极大的开放广度或许是这一类受众获得数字化服务的最佳形态。上图推出的中文古籍联合目录及循证平台,以古籍目录和古籍文献中蕴含的数据、事实和知识,以及基于它们的统计、分析和推理来协助各类人文、历史、社会科学研究;而历史文献众包平台为用户提供元数据深度著录和全文标引的功能,对无法OCR的全文进行抄录,是低端数据深度开放的良好应用。

数字化服务的目标定位也将影响开放数据建设和服务的形态。例如,如果要重现老街道、老建筑的文化风采,就需要关联众多机构/数据源中历史上的建筑、人物、事件等信息,这就需要开放数据达到第一级深度。从另一个角度来说,如果只满足查阅原版文献等需求,则建立可查询(第二级深度)和网上浏览(第三级深度)的数据库不见得不是一种恰切的数字化服务模式。

开放数据的开放深度和广度以及数字化服务能力不得不受到其他因素的制约,如资源持有人开放意愿,资源内容涉及人物后代(如家谱)。所以,采用因地制宜的数字化服务模式是有效的方法。

(2)加强跨组织的协作和资源、成果共享。跨组织跨领域的协作能更全面地揭示隐藏在不同数据源间的知识联系,协作成果也将使资源得到更充分的利用。不同类别记忆机构的协作、国内各地区机构的协作、大范围的国际协作都有必要[34-35]。比如,历史街道及历史建筑重现可以由图书馆提供数字化服务来完成,但为了深度发掘其人文价值(建筑风格、设计图档)或出于历史建筑保护的目的,则需要跨部门(档案馆、博物馆)协作。目前国内跨图博档机构的协作较少。上图古籍联合目录将多馆馆藏目录进行融合,包括柏克莱加州大学东亚图书馆、哈佛大学哈佛燕京图书馆以及澳门大学图书馆等,提供古籍书目数据查询和全文影像浏览。相比单一部门的开放数据建设,多方协作能产出更全面、更深入的技术成果。充分的资源利用和数据共享能破除片面采集、数据私有、重复劳动等现象,节约开放数据建设和数字化服务的成本。

(3)人类记忆机构的职能定位应从记录文化演变的资源库转为数据驱动创新的使能者。在生产能力逐步提高、产品日益丰富的社会,借助记忆机构的开放数据和数字化服务,通过活用历史人文开放数据,更能在物质产品和精神产品开发的竞争中掌握优势。支撑带有地域特征、表现风格和文化底蕴的文创设计能促使人类记忆机构的职能从记录文化演变的资源库转变为数据驱动创新的使能者,这种职能转型将从传统职能的根上开出数据驱动的万众创新之花。

(4)制订适应于数字化服务快速变化的法规框架。开放数据建设和数字化服务必须在法规框架中实施,也将伴随这一框架的演变而发展。有别于传统物理世界的产品和服务,数字化产品和服务天生迎合了世界快速变化的特质。再加上人们的数字化服务需求瞬息万变,加大记忆机构数字化服务实践的快速发展与相对滞后的法规框架之间的冲突。数据的安全与保密、个人隐私与知识产权的保护、内容的合规性和平台的法律责任等一系列问题是最大限度发挥数字人文开放数据和记忆机构数字化服务效用所面临的挑战,迫切需要研究和立法跟进。

4 结语

本文从开放数据的内容深度、广度、利用形式等维度梳理国内外记忆机构的开放数据建设实践经验,认为我国人类记忆机构的数字化服务转型应根据各机构的能力、预期受众和愿景探索差异化的数字化服务模式;加强跨记忆机构的跨组织协作和成果共享;记忆机构的职能定位应从记录文化演变的资源库转型为数据驱动创新的使能者;应及时制订适应数字化服务快速变化的法律法规框架。上图陆续进行一系列探索,今后将结合上图数字化服务转型实践,对上述建议逐步检验并加以落实。

猜你喜欢
关联机构记忆
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
“一带一路”递进,关联民生更紧
奇趣搭配
智趣
一周机构净增(减)仓股前20名
一周机构净增(减)仓股前20名
一周机构净增仓股前20名
一周机构净减仓股前20名
儿时的记忆(四)
儿时的记忆(四)