基于保护传承理念的古籍数字图书馆建设研究

2023-05-26 03:49乔红霞李晋元
河南图书馆学刊 2023年4期
关键词:数字图书馆海南省标准化

乔红霞 李晋元

摘 要:古籍数字化是当代保护和传承古籍的时代特征。进行古籍数字图书馆建设,使古籍在纸质载体得到保护的同时,通过数字加工成为数字古籍,得以数字古籍的形式网络再生。文章构思了省域各古籍收藏单位共建古籍数字图书馆的工作模式,以海南省古籍资源为例,分析了古籍数字化工作流程中古籍元数据描述、对象数据采集、管理数据的命名等标准运用问题,以期为联合共建古籍数字图书馆提供参考。

关键词:古籍数字化;数字图书馆;标准化;海南省

中图分类号:G250.7   文献标识码:A   文章编号:1003-1588(2023)04-0128-07

古籍数字化是运用信息处理技术将古籍原本文献转化为计算机可识别和处理的数字信息的过程,即从利用和保护古籍的目的出发,采用计算机技术,将古籍和其承载的知识信息转化为能被计算机识别的数字符号,从而制成古籍电子索引、古籍书目数据库和古籍全文数据库,用以呈现古籍文献信息资源的一项系统工作[1]。它是当代在计算机技术、信息处理技术、网络传输技术广泛应用的形势下,保护古籍的重要方法,也是当代区别于我国历史上任何一次保护古籍行动的时代特征。历史上,我国古代文献保护和传承经历过甲骨、金石、简册、写本、刻本、抄本、石印、铅印等载体形式的变化,随着每次文字载体的变更,作为中华文明载体的古籍,其保护和传承形式也随之变更,如:春秋时孔子保护古籍是简册、东汉保护古籍是刻石、宋代用的是雕版印刷、明代《永乐大典》和清代《四库全书》用的是抄写、近现代用的石印和铅印等,在一次次传承形式更替的过程中,中华文明得以绵延赓续。

我国自1984年台湾地区“中央研究院”历史语言研究所首先运用计算机技术实施“史籍自动化系统”以来,中文古籍和计算机逐渐融合,出现过单机版、网络版古籍数据库,古籍数据库类型有书目数据库、图片数据库、全文数据库等形式。2007年“中华古籍保护计划”实施后,古籍数字化建设与开放共享走上了快车道,全国累计发布古籍及特藏文献影像资源达13万部,国家图书馆建设的“中华古籍资源库”通过全彩影像数字化和缩微胶卷转化影像方式,目前已在线发布古籍数字资源约10.2万部(件),先后7次联合39家单位发布数字古籍2.8万部,其中有明清版刻、稿抄本古籍、碑帖拓本等,实现了古籍资源统一入口检索、读者免登录访问,平台智能推荐、多种浏览器兼容,为广大读者和学者利用古籍提供了极大便利。古籍数字化平衡了古籍的文物属性与文献属性,实现了古籍保护与利用的和谐统一[2]。

2022年4月,中共中央办公厅、国务院办公厅印发了《关于推进新时代古籍工作的意见》(以下简称《意见》),再次强调推进古籍数字化,加强古籍数字化资源管理和开放共享。我国古籍现存数量约20万种[3],截至2021年年底,全国古籍保护工作座谈会发布全国汉文古籍普查完成270余万部[4]。可见古籍数字化工作任重而道远。

1 海南省古籍数字化的资源现状和建设内容

海南省历史上曾经出现过丰富的古籍收藏,因天气溽热、台风频繁、蚊虫丛聚、琼北地震等自然因素,以及孤悬海外、社会动荡等历史原因,曾经见于记载的古籍收藏,省内十不存一,仅存的古籍属吉光片羽,十分珍贵。目前,海南省参加普查的14家古籍收藏单位和个人普查登记古籍约2,240部、23,931册。全省古籍普查中发现了琼台书院藏书、苏泉书院藏书(即海南第一楼藏书)、王国宪藏书、乐嗣炳专藏等大宗文献遗存,内容覆盖经、史、子、集、丛(含新学)五大部类,版本以汉文刻本为主,有刻本、稿本、抄本、活字本、套印本、石印本、铅印本等类型。海南省有三部古籍入选《国家珍贵古籍名录》:海南师范大学图书馆藏明徐氏东雅堂刻本《昌黎先生集》入选《第二批国家珍贵古籍名录》、海南省民族博物馆藏明黄氏集义书堂刻本《大广益会玉篇》、明复古斋刻本《诗法》(乐嗣炳跋)入选《第六批国家珍贵古籍名录》。海南省图书馆、海口图书馆、文昌市图书馆、海南师范大学图书馆、海南大学图书馆收藏的54部古籍入选《第一批海南省珍贵古籍名录》[5]。海南古籍语言文字专题特色突出,善本古籍品位可观,普通古籍亦可见证海南历史发展,有重要的文献价值和文物价值,因此基于保护和传承的理念,建设全省古籍数字图书馆建设十分必要且迫在眉睫,主要有三项内容:一是应用古籍普查登记目录成果,编写古籍编目元数据,建成古籍书目数据库。二是保护现存海南古籍,进行古籍图像数字化加工,实现省内古籍数字化母本收藏地存储,全省统一备份,并将发布版上传至省古籍数字图书馆平台网络发布。三是采集现存古籍资源(包括影印古籍)[6],进行线下古籍采访,线上数字专题古籍收集,尤其是海南地方古籍,经省古籍数字图书馆平台整合,实现地方古籍和特色专题古籍的数字版网络回归。

2 古籍数字图书馆是智慧图书馆建设的基础

古籍数字图书馆多数是以古籍书目数据库+数字古籍图像库为资源、以检索浏览为主要服务形式的模式。近年来,我国开始了古籍智慧化的探索,应用OCR扫描、AI识别、自动标点等技术建设古籍全文数据库,进行信息整合挖掘,建设知识图谱,实现古籍智能化整理。影响较大的是由字节跳动与北京大学数字人文实验室、国家图书馆联合推出的古籍数字化阅读平台“识典古籍”[7],由四川大学、阿里巴巴集团公益基金会、美国加州大学伯克利分校联合发起的“汉典重光”海外古籍数字化回归与研究整理平台[8]。对于图书馆等古籍收藏单位来说,进行古籍数字化的初衷是基于古籍本体的保护和传承,重点是要保存古籍的真实面貌,不同版本原样复制,即通过扫描、拍照,把古籍图像文字保存下来,用数字图像形式实现古籍的文物属性。

海南省现存古籍藏量不多、收藏分散,省古籍保护中心可采用“明确责权,分别加工,集中建库,统一检索”的协作方式,联合各古籍收藏单位建设全省古籍数字图书馆。明确责权是指明确各古籍收藏单位对古籍和古籍数据的所有权,明确联合共建过程中的各协作单位对古籍数据的加工、转让、使用、共享、保护等工作规则,完善古籍数字产品的分级分类管理,通过数据开放、特许开发、授权应用的方式,实现省内古籍数字产品的依法、有序、规范保护和利用。集中建库是指全省古籍数字资源集中在一个数据平台发布,分三个步骤:各单位首先利用前期《海南省古籍普查登记目录》书目数据,转换为馆藏古籍元数据;其次对收藏的古籍有序进行图像扫描,按照技术要求保存古籍数字母本;再次将古籍元数据和古籍图像命名封装,TIFF格式图像除本地存储,另备份一份保存版和发布版,和元数据一并提交省古籍保护中心,统一在全省古籍数字图书馆平台网络发布。统一检索是指读者可以由一个页面登录省域古籍数字图書馆网站进行模糊检索,也可以根据题名、著者、主题词、出版地、出版发行、索书号等进行检索、浏览,根据古籍的“经、史、子、集、丛”分类法进行浏览。智慧古籍图书馆建设将在建设省域古籍数字图书馆基础上,对特色古籍、专题古籍再进行AI识别、知识挖掘,循序渐进实现古籍数字图书馆的智慧化升级。

3 保护传承理念与古籍数字图书馆建设的关系

3.1 保护传承理念是以保护为核心,保护和利用相结合

进行古籍数字化是以保护为核心,纸质古籍得到保护,数字古籍母本也以数字的形式长期典藏,即用古籍原本通过扫描拍照,获取长期保存级数字古籍母本,实现纸质古籍保护和数字古籍母本的双重版本保护;再通过复制、衍生出数字古籍,通过数字图书馆发布,使纸质古籍避免了过多直接翻阅而受损,文物属性得以保护;加工后的数字古籍母本,TIFF格式、不压缩、长期保存级,作为数字古籍的典藏本;由母本衍生出版印刷本、网络发布本,可用于古籍研究、影印复制、网络发布,实现了开放和共享,数字古籍可通过网络“化身千百”,实现古籍的文献属性。数字化后,古籍的文物价值和文献价值可以用不同的形式体现。作为文物价值的古籍原本,得以在收藏单位恒温恒湿库保存;作为学术资料价值的古籍,以数字载体形式在数字图书馆存储、网络发布,让科研人员和普通读者可随时通过电脑、手机等终端,远程访问古籍数字图书馆,浏览、下载。

用保护传承理念指导古籍数字图书馆建设,保护是前提,传承是目的,因此要正确处理保护古籍和数字化开放的关系。对古籍原本、数字古籍母本加强保护,数字古籍的发布版本应最大限度地方便读者使用,从登录方式、响应速度、阅读方式、文字识别、下载打印、多媒体分享等方面,为利用数字古籍的读者提供更多的便捷方式,让读者共享中华古代文明智慧。

3.2 保护传承理念倡导对现存古籍全面数字化

基于保护传承理念进行古籍数字化,是基于地域或机构收藏古籍为主的数字化工作,倡导馆藏古籍全面数字化,即凡是1912年以前的我国典籍,只要在本地或本机构收藏,均具有数字化价值。在开展数字化前,收藏机构可以对古籍进行文献评估,善本、孤本、稀见本、专题古籍可以优先,品相不完整可以待修复后数字化,普通古籍也应数字化。全国现存20万种古籍全部数字化可能需要几十亿元,在国家财力允许的条件下应尽快集中力量实现全部重要古籍的数字化[9]。

3.3 保护传承理念统筹古籍数字图书馆建设全过程

基于保护传承理念进行古籍数字化,应是围绕“保护古籍、传承文明、开发资源、服务读者”方针,统筹古籍保护工作全过程的数字化。将古籍数字化并用软件系统平台呈现,形成古籍收藏、管理、采访、编目、修复、数据加工、数据传递等工作模块,检索、浏览、下载、打印、图像索取、读者交流等读者服务模块,具备古籍收集、典藏、开发、利用等功能,以独立的网络IP呈现在互联网上,就形成了古籍数字图书馆。古籍数字化作为数字图书馆建设的一个重要部分,大致有古籍数字化加工准备、古籍元数据著录、古籍图像数字化、数据命名、数据检验、数据保存与提交、发布利用等环节。见图1。

3.3.1 提取古籍前的书况检查。书况检查是古籍安全的重要保证,检查古籍原本情况并进行登记,是古籍藏品出库前古籍库管人员必须做好的基础工作,也是数字化加工、交接、质检、标引等后续工作的依据。根据国家古籍保护中心编写的《古籍数字化工作手册》(V.1)要求,主要是对古籍原本逐叶翻检,清点古籍册数和叶数,填写古籍《文献整理登记表》(全书)和《文献整理登记表》(各卷)。《文献整理登记表》(全书)有六个字段,分别是ID、加工记录标识号、名录号、题名卷数、相关说明、册数。《文献整理登记表》(各卷)有二十一个字段,分别是ID、内部序号、加工记录标识号、册次、卷次、叶数、封面、前护、后护、封底、开本、板框、透字、夹框、夹字、皱折、缺叶、残叶、签条、夹纸、备注。检查书况过程中按书叶原貌统计总叶数,记录古籍的缺叶、漏叶、错叶、重叶、空白叶等情况,注明是否需要补配、去重、变更叶码顺序等,登记扫描或拍摄的叶数,形成较为完整的书况检查记录。

3.3.2 古籍元数据制作。古籍元数据制作除了前面需要制作《文献整理登记表》(全书)和《文献整理登记表》(各卷)外,还需要制作《书目数据表》《卷目数据表》《外字表》《管理信息表》。《书目数据表》有23个字段,分别是ID、加工记录标识号、名录号、普查编号、书目记录标识号、索书号、分类、题名卷数、其他题名、主要责任者、其他责任者、存(缺)卷、版本(含补配)、册数、板框、版式、合订状态、装帧形式、丛编、附注、批跋、馆藏单位、制作单位。《卷目数据表》有10个字段,分别是ID、內部序号、加工记录标识号、丛书标识号、子目题名、层级号、册号、卷名、叶码、属性。《外字表》登记的是古籍数字化使用的Unicode 5.0 UTF-8字符集里不包括的文字,即集外字,本表格有6个字段,分别是ID、内部序号、加工记录标识号、外字、描述、位置,依据《汉语文古籍机读目录格式使用手册》393字段系统外字附注的外字描述方法,即左右结构不用标出偏旁位置,其他结构都要标出字的结构位置。例如:

左右结构“儋”:##@a=#[亻詹]#(dan)

其他结构“惖”:##@a=#[易(上)、心(下)]#(ti)

《管理信息表》是古籍在数字化加工过程中的数字化参数等管理信息。每部古籍12个字段,分别是ID、加工记录标识号、技术信息、格式、分辨率、色彩、色彩位深、压缩、加工方式、事件类型、操作、操作日期等。另外,《古籍数字化工作手册》(V.1)还规定:使用Microsoft Office Access 2003进行数据制作,使用Unicode 5.0 UTF-8字符集,用通行繁体字、字体字号为宋体11号;著录文字处理错误率不超过0.3‰,著录信息描述与古籍实际内容完全一致,标引词与标引对象文件正确链接等。

3.3.3 古籍图像数字化。根据古籍的装帧形式,在不拆分古籍的前提下进行古籍数字化,扫描的页面是半叶和双半叶,封面、封底、空白页、附件、书口、天头、地脚,都在扫描(拍摄)范围。扫描的半叶和全叶位置见表1。古籍数字化环境应注意防护光源,避免透光或反射光的影响。如果是彩色扫描(拍照),首先进行数字化设备的基本色彩校正,测量数字输入设备和数字输出设备的色彩属性,将色标与古籍放在一起进行比对。古籍原件扫描(拍照)时页面向上,用零边距扫描仪(数码相机),将古籍放在翻拍台上,冷光源照明,按1:1比例扫描,叶面外围要求留白,宽度不超过1厘米;书叶间距不超过0.1厘米。扫描后图像清晰、端正,图像倾斜角度不大于0.2度。扫描后的数据文件叶码连续,没有重叶、缺叶、错叶、折叶等情况(原书缺叶、错叶除外)。补扫缺叶图像要与同册图像文件的大小一致,颜色接近。见下页表2。

3.3.4 加工记录标识命名。《古籍数字化工作手册》(V.1)规定,一部古籍的加工记录标识号为8位阿拉伯数字,由单位代码(4位,由国家古籍保护中心统一分配)+单位内部古籍数字化流水号(4位)组成(从1开始,不足4位以0补齐)。古籍保存文件命名由三级结构组成:第一级目录名称为加工记录标识号。第二级目录名称为古籍册号。每部古籍有多册实体,每一册命名为4位数字,从0001开始,依次按流水号命名。第三级保存图像数據文件,按照扫描页码,命名从0001开始,加“.tif”。以海南省图书馆藏明刻本《宋大家苏文忠公文抄》二十八卷为例:加工记录标识号为XXXX0001,该书第一册号为0001,第一叶的叶号为0001,文件保存目录为XXXX0001/0001,图像文件名为0001.tif。

4 古籍数字图书馆建设的基本要素

4.1 古籍数字图书馆建设平台

古籍数字化是传统古籍整理与现代计算机技术相结合的产物,是运用信息处理技术将文献转化为计算机可识别和处理的数字信息的过程。古籍数字化平台软件是古籍数字图书馆建设的基础设施,应具有安全性、易用性、开放性、可持续发展等特征,一般应具备以下功能:①古籍数据库制作管理与发布。②数字资源制作加工。③统一检索平台。④数字参考咨询。⑤互联网信息资源整合。⑥读者登录及个性化信息服务。⑦古籍阅览和整理辅助工具[11]。

古籍数字图书馆软件平台应具备资源、服务和管理三大职能,古籍平台通过模块组织实现这些功能,主要模块有资源加工、资源发布、资源检索、资源访问权限、下载和安全控制、用户服务、用户登录、交互数据管理、统计分析、日志管理等。

我国现有应用较广泛的古籍数字化平台有书同文公司的“数码翰林”等,“数码翰林”是北京书同文公司在推出文渊阁《四库全书》电子版、《四部丛刊》的基础上,继续研发的大型数字化软件工具。该软件是一个对实体资源信息和元数据实施数字化加工、结构化置标、提交发布,并在网络环境下向公众提供信息服务的集成性软件,包括数码大师、电子编目员、发布系统三个部分,用于《中国历代石刻史料汇编》全文检索数据库,两岸五地(大陆、港、澳、台、日)13个成员馆联合共建的“孙中山数字图书馆”等[12],中易公司开发的《中易汉神e》、北大方正集团公司开发的“DABSI—方正德赛古籍数字化系统”[13],台湾“中央研究院”历史语言研究所“汉籍电子文献资料库”、日本“日本国立公文馆内阁文库汉书库”所用古籍数字化平台,值得借鉴。

海南省古籍数字图书馆服务平台是基于对本省古籍进行保护理念基础上的共建共享一体化、分布式的古籍数字化服务体系,是全省古籍资源收集、加工、保存和发布、读者服务的网络窗口。该平台在总体技术上应选择基于国际标准编码字符集ISO/IEC 10646/Unicode(CJK+)的汉字平台,支持汉字繁体和简体,有中文、英文、日文等版本,具备统一性、开放性、安全性、互操作性、兼容整合性、成熟性、组件化、标准化等多重特征,以便于各个应用系统和各类资源系统的互操作、链接、交换数据和数据集成。

4.2 古籍数字化加工工具

4.2.1 扫描设备。馆藏古籍是珍贵而脆弱的文献资源,数字图像采集需要精度高、速度快,对书籍无损坏的非接触式、保护性的数字化大型扫描设备,主要参数要求是零边距或非接触,冷光扫描,设备A3幅面的光学分辨率600dpi以上,CCD感光元件不低于5,000像素点,色彩位数24bit,目前市场上有赛数OS12002V、Book2net、Bookeye5等,赛数OS12002V是一款高精度专业古籍扫描仪,顶置式扫描头,台式非接触扫描,V型书稿台,打开角度90~180度,可快速扫描成标准图像,解决了扫描古籍时不能接触、不能分拆的难题。

4.2.2 数码拍照设备。单反数码相机的有效像素不低于2,100万像素,最好选择有效像素达3,300万像素以上的数码设备。

4.2.3 其他工具。包括古籍翻拍架、大容量移动硬盘、DVD光盘、用作背景的中灰色纸板或黑色纸板、IT8标准色彩导表(色卡)、衡量古籍开本和板框的标尺、玻璃压板、玻璃清洁剂、衬纸等。见图2。

5 专业人才是建设古籍数字图书馆的必要因素

古籍数字化应是古籍收藏、保护、整理、阅读、研究、利用等各阶段、多层次的数字化。古籍数字图书馆建设是古籍整理工作的系统化体现,集古籍数字化加工、读者服务、数据检索、古籍全文数据库、古籍业务管理于一体,因此必须坚持古籍保护专业引领的原则,遵守古籍整理的思路,在古籍数字化规划中要贯穿保护和传承理念:一是数字化之后尽量达到无须再看印本古籍的目的。二是印本古籍因保管不善损毁后,能够尽可能原色再造古籍原本[14]。进行专业管理,首先要用专业思维制订保护古籍且行之有效的建设方案,做好规划,保证古籍数字图书馆建设扎实有序开展。专业管理还要把古籍保护和利用的专业思维运用到古籍数字化过程中的项目管理、项目评价、古籍藏品管理与保存、应急预案、数据安全、质量监督、管理制度实施等方面。

每一部古籍的数字化都涉及繁体字的辨认、古籍元数据著录、古籍图像扫描(或拍照)、管理数据著录,需要一大批热爱古籍、耐心细致、有古文献基础的专业工作者。古籍数字图书馆建设是计算机和古籍的结合,古籍专业人员要与计算机网络专业人员密切协作,用计算机技术和网络技术演绎古籍数字化的专业流程,以开放共享的传承理念,激活古籍里的文字,让数字化后的古籍走出文物库房,供用户在网络上阅读研究,通过手机微信、微博、QQ、抖音等转发分享,真正实现古籍资源的公益性、基本性、均等性和便利性[15],让数字古籍更便捷地惠及学者和普通读者。

参考文献:

[1][13] 毛建军.古籍数字化理论与实践[M].北京:航空  工业出版社,2009:5-6.

[2] 免费阅览全文影像!国家图书馆联合39家单位累计在线发布古籍数字资源13万部(件)[EB/OL].[2023-01-04].http://www.nlc.cn/pcab/zx/xw/202301/t20230105_214422.htm.

[3] 中国古籍总目编纂委员会.中国古籍总目前言//中国古籍总目[M].北京:中华书局,2009:3.

[4] 全国汉文古籍总量达270余万部 资源分布和保存状况基本摸清[EB/OL].[2023-01-04].https://www.163.com/dy/article/GR8IR85K0514R9KU.html.

[5] 乔红霞.海南古籍何处寻[N].海南日报,2022-04-25(A15).

[6] 姚伯岳.“北京大学数字图书馆古文献资源库”的建设[J].数字图书馆论坛,2006(12):12-17.

[7] “识典古籍”测试版上线,3000万字符在这里跳动[EB/OL].[2023-01-04].https://www.sohu.com/a/592831356_121124334.

[8] 乐艳娜.数字化助力古籍回归与再造[J].环球,2021(19):54-56.

[9] 古籍为何要数字化 该如何加速[EB/OL].[2023-01-04].https://www.sohu.com/a/117949838_48677.

[10] 朱强,张春红,龙伟.国家图书馆图像数据加工标准和操作指南[M].北京:国家图书馆出版社,2011:9,45.

[11] 刘晓清.怎样建设数字图书馆[M].北京:海洋出版社,2010:215-260.

[12] 王立清.中文古籍数字化研究[M].北京:国家图书馆出版社,2011:90.

[14] 朱本军.海外汉籍数字化加工现状与实践研究[J].古籍保护研究,2020(1):113-129.

[15] 赵文友.基于开放共享理念的古籍数字资源服务:以“中华古籍保护计划”为中心[J].古籍保护研究,2020(2):21-28.

(编校:周雪芹)

猜你喜欢
数字图书馆海南省标准化
标准化简述
标准化是综合交通运输的保障——解读《交通运输标准化体系》
海南省肿瘤医院
基于云计算的数字图书馆建设与服务模式研究
刍议数字图书馆计算机网络的安全技术及其防护策略
是海南省还是海南岛?
论汽车维修诊断标准化(上)
海南省农垦设计院
交通运输标准化
海南省计划10年内对万名农民实行中专学历教育