我国古籍书目数据库建设标准规范探讨

2010-03-22 16:01周琳洁洛阳师范学院图书馆河南洛阳471022
图书馆建设 2010年2期
关键词:书目著录古籍

周琳洁 (洛阳师范学院图书馆 河南 洛阳 471022)

我国古籍书目数据库的建设始于20世纪80年代,它的建立是古籍数字化深入发展的基础。古籍书目数据库主要有两种形式:一种是馆藏书目数据库,一种是联合书目数据库。其中,古籍联合目录数据库是发展趋势。

我国较早建立古籍馆藏书目数据库的有国家图书馆、南京图书馆、辽宁图书馆等。目前,拥有古籍馆藏的图书情报机构大部分都建立了古籍书目数据库,向用户提供古籍的收藏信息和版本情况,而且,相当一部分的图书馆网站能够提供古籍书目检索。随着现代信息技术的发展,古籍联合书目数据库的建设被提上日程,我国及海外一些古籍收藏机构为此做出了积极的努力,开始统一标准、规范,进而实现联合编目的历程,出现了一些比较有影响的古籍联合编目项目,如中国高等教育文献保障系统(China Academic Library & Information System ,简称 CALIS)的“古籍善本联合目录数据库”、台湾汉学研究中心的“中文古籍书目资料库”、 美国的“中国古籍国际联合目录”项目、日本的“全国汉籍资料库”等。

1 古籍书目数据库建设标准规范现状分析

古籍数字化相关标准的建设是古籍数字化的基础,也是实现古籍数字化资源共享的前提。我国古籍数字化在多年的实践中,形成了自己独特的规范标准体系,产生了数个与古籍数字化有关的国家标准、行业标准等。主要包括:

(1)《古籍著录规则》[1](GB3792.7-87) 其于 1987年作为中华人民共和国国家标准正式颁布,为古籍著录提供了统一的工作规范。1996年10月出版并于2005年修订的《中国文献编目规则》[2]第4章“古籍”已基本按《国际标准书目著录》[3](International Standard Biliographic Description,简称ISBD)的原则对中文古籍的著录规则进行了规范,经修订的《古籍著录规则》与其内容几乎完全一致。

(2)《汉语文古籍机读目录格式使用手册》[4]1996年2月,国家文化部正式发布了国家文化行业标准《中国机读目录格式》[5](WH/T0503-96)(China MARC Format,简称CNMARC),随后国家图书馆提出了《古籍机读目录格式字段表(讨论稿)》,并最终于2001年10月正式出版发行了《汉语文古籍机读目录格式使用手册》[4]。

(3)《中国古籍分类表(拟定)》 2002年初,中国国家图书馆发展研究院对“四部分类法”进行了科学的分析、研究和调整,提出了《中国古籍分类表(拟定)》。这个分类表的提出,对大陆地区着手编辑的《中国古籍总目》[6]和两岸五地(大陆、香港、台湾、新加坡及欧美)要合作建设的《古籍联合目录资料库》都提供了有力的技术支持。

(4)《古籍描述元数据著录规则》(2004年5月) 该标准草案属于科技部科技基础条件平台工作重大项目《数字图书馆标准与规范建设》的一部分。该标准规定古籍著录使用规范的繁体汉字。古籍元数据规范共有17个元素需要著录,各个元素根据其需要又设置了不同的修饰词。

(5)《古籍著录细则》[7]其由高等学校中英图书数字化国际合作计划项目管理中心发布,主要应用于印刷型古籍的数字化文本。它规定古籍的著录重点是题名的确定、版本说明、相关文献、装帧形式、收藏单位、时空范围等。

(6)《北京大学古籍数字图书馆拓片元数据标准》(2001年3月)[8]其是为北京大学古籍数字图书馆的拓片特藏制定的元数据标准。该标准主要内容包括:拓片元数据结构、相关元素组成、相关语法语义规则等。

近些年来,古籍数字化标准问题在一定程度上受到了重视,作为基础,古籍元数据著录规则是近年来关注的焦点。从2002年开始,由科技部委托国家科技图书文献中心协调中国科学院文献情报中心、中国科学技术信息研究所、国家图书馆、中国高等教育文献保障系统管理中心、北京大学图书馆、上海图书馆等21家单位联合进行了数字图书馆的相关标准规范研究。其中直接与中文古籍有关的包括:《舆图描述元数据著录规则》、《舆图描述元数据规范》等10项规则。此外,还制定了不同类型数字资源的加工标准和规范,如拓片、舆图、字画、手稿、文牍、契约等纸质类古籍和甲骨、金石、竹简、陶器等具有三维造型的实物类古籍在加工标准规范方面是有差异的。虽然众多著录规则已在实践中得到应用,但目前在全国范围内尚未形成一个统一的强制性的标准,而且由于出台不及时,一些有条件的图书馆或信息机构已经尝试将元数据用于古籍著录,形成了各自独立的元数据著录规则。现实中,许多单位设计数据库时采用的标准不一致,从而难以实现数据库的资源共享。

2 我国古籍书目数据库标准规范目前存在的主要问题

2.1 古籍书目数据库著录和检索的标准不尽相同,质量不一。

从理论上讲,古籍书目数据库有相关的参照规范与标准。1987年1月国家颁布的《古籍著录规则》[1](GB3792.7-87)遵循《国际标准书目著录》[3](ISBD)原则,成为国内古籍著录的主要依据,使古籍编目从著录项目的设置、排列顺序和著录用标识符号3个方面直接与国际标准接轨。1995年12月出版的《中国机读目录格式使用手册》[9]和1996年2月中华人民共和国文化部发布的行业标准《中国机读目录格式》[5](WH/T0503-96),进一步推进了我国书目数据库的规范和统一。2001年10月,国家图书馆在实践的基础上编制了《汉语文古籍机读目录格式使用手册》[4],作为各图书馆建立古籍书目数据库的参考标准。但在实践中,各图书馆的古籍记录字段详简程度不一,除了书名、作者、出版情况、册数、分类号等基本记录字段外,有些大型图书馆还包括介绍印章、纸张等版本细节情况,而有的图书馆没有相关细节等情况,差距较大。各古籍书目数据库的检索方式与结果显示方式也表现出一定的差异。古籍书目数据库都具有检索功能,检索字段一般包括题名、责任者、分类号、索取号等。一些大型图书馆则提供更多的检索方式,有浏览、简单检索、高级检索、二次检索、跨库检索等检索途径,检索字段和检索方法也相对较多。古籍书目数据库的结果显示形式不一,只有个别大型图书馆才能提供较为丰富的显示形式,如国家图书馆有标准、卡片、引文、字段名4种格式。

2.2 在繁简字和分类法的使用上不统一

关于古籍书目数据库繁简字的使用问题,1992年7月国家新闻出版署和国家语言文字工作委员会发布的《出版物汉字使用管理规定》中指出,整理、出版古代典籍可以使用繁体字[10];《中国文献编目规则》明确指出:“著录汉字古籍应使用规范的繁体汉字”[2];而《汉语文古籍机读目录格式使用手册》没有明确提出在编制机读目录时字体的使用问题,但其所举例子全部使用简化字[4]。由此可见,由于缺乏全国性的统一标准,各馆根据实际情况自定标准,造成了古籍书目著录时繁简字的不统一。

对于古籍文献的分类,国家目前尚未做出统一规定,图书馆界也未达成一致。目前,使用比较多的有传统的古籍文献分类的“四库全书(四部)法”(简称“四库法”)和《中国图书馆分类法》(第4版)[11](简称《中图法》)。“四库法”是集我国古代分类法之大成,有较完善的分类体系,反映了古代学术以儒学为主线的发展规律。而《中图法》是我国图书分类的国家标准,具有一定的权威性,为当代广大读者所熟悉,符合用户的检索习惯。而目前大多数图书馆采用的“四库法”多为经过部分改造的“四库法”,其类表设计或依据“四库法”,或依据部分《中图法》,类目内容设置机动性大,各馆互有差异。因此,我国至今尚未形成统一完善的古籍分类法。

2.3 古籍书目数据库是否纳入母馆的综合书目数据库未达成一致

古籍书目数据库的建设者主要是各级各类的图书馆。在国内现有的古籍书目数据库中,绝大多数都是依附各自图书馆、档案馆、研究所等馆藏古籍资源而建,并且古籍数据库自成系统,操作上只是将古籍的联机检索与馆藏借阅功能简单结合。随着图书馆信息资源整合程度的提高,一些图书馆不再设置专门的古籍书目数据库,而是直接将古籍作为馆藏资源,并入公共联机检索目录之中,用户通过统一的检索界面来获取有关的资源。但就全国而言,古籍书目数据库是否与母馆书目数据库进行统一建设尚未达成共识,各馆自主性较大。

3 我国古籍书目数据库标准规范建设策略

古籍数字化标准规范建设是以实现古籍资源的共建共享为基本目的,因此在古籍数字化中应优先采用较为成熟的国际和国内标准,按照文献数字化中通用的标准与规范来实施古籍数字化,尽可能保证资源与服务的可持续发展。同时,结合古籍的特点,建立和发展具有中国特色的适应古籍数字化的标准规范,保持协调性、连续性,兼顾各方面的利益,避免出现相互矛盾的标准。在实践中,各个古籍数字化机构应着眼全局、遵循标准,共同推进古籍数字化的规范发展。

3.1 修订和完善古籍数字化著录标准

与普通图书比较,《古籍著录规则》的制订和修订工作相对滞后。因此,加快《古籍著录规则》的修订工作,争取尽早颁布实施,是保证古籍数字化联合目录工程的重中之重。以往,我国古籍书目数据库的著录格式主要依据2001年10月北京图书馆出版社出版的《汉语文古籍机读目录格式使用手册》[4]。根据国家标准《中国机读目录格式》[5]修订的新的古籍机读目录格式确定以后,已经投入使用的非CNMARC格式的古籍书目数据均应尽早转换为CNMARC格式,以便纳入全国统一的古籍书目数据资源共享体系,发挥更大的作用和效益。

古籍数字化元数据标准还处于小范围的实验阶段。以都柏林核心元数据为代表的元数据是适应网络信息资源描述的一种方式,在古籍数据库著录中也开始得到应用,其中,以北京大学数字图书馆古籍元数据标准和台湾“中央研究院”傅斯年图书馆为代表。还有一些古籍数字化机构采用了机读格式转换成元数据的方式,并制定了古籍元数据与机读目录的对照表。在现阶段,元数据的应用是一种趋势,但因其发展的时间较短,内容、标准尚不统一,因此首先应对古籍数字化核心元数据标准达成共识,才是一种比较现实的解决方案。

3.2 规范古籍书目数据库的分类标准

选用何种方法对古籍进行分类,其结果直接影响到数据库的检索结果与用户的利用。目前还没有统一的古籍分类法,现用的分类法有“四库法”、中国古籍善本书目分类法(简称善本分类法)、中外图书统一分类法、中国图书馆分类法、中文普通线装书分类表等。“四库法”、善本分类法等分类法符合中国古代经史子集传统儒学分类体系,且比较成熟,但不利于按古籍的学科体系划分和研究;《中图法》等分类法能较好地从学科体系方面划分古籍,但不符合传统的思维方式和古籍的文献体系,且易造成朝代、时间等的分离。国内有的学者提出结合法,即同时选用较有代表性的“四库法”和《中图法》两部分类法对同一古籍进行分类,分别著以分类标识,使读者可以从两个不同的角度进行检索。20世纪末至21世纪初,国家图书馆组织了“古籍编目中四部分类法的应用及其类目表的调整”课题小组,主要参照《四库全书总目》、《中国古籍善本书目》、《中国丛书综录》、《北京图书馆古籍善本》及国家图书馆分馆使用的十五大类分类法的类目,对每一类目及类目间的差异进行分析,以期正确调整4部分类法的类目设置,正确反映学科的发展水平和成就[12]。

3.3 建立古籍数字化规范数据库

建立古籍数字化规范数据库是满足古籍客观著录的有效方法之一。数据库管理方式的重要目的之一是为了更加便捷地获取数据,并实现数据共享。古籍著录比一般图书著录更为复杂,有许多需要规范统一的著录内容。现已完成的古籍书目数据库数量已经很可观,这些古籍书目数据亟待整合完善、规范统一,古籍名称规范(包括题名、著者、地名、出版者、刻工、版本类型等)也已成为当务之急。目前,已经在编制的古籍数字化规范数据库有《中国古代著者规范数据库》和《中文名称规范数据库》等。《中国古代著者规范数据库》由国家图书馆善本特藏部善本组负责编制,收录范围包括1911年辛亥革命以前出生的,有过著作或诗文,至今有文字记载的著者的简要生平资料。每条规范数据内容主要包括:著者名称、性别、生卒年、字号、籍贯、主要事迹、著述等。香港几所大学图书馆于1999年成立了“香港中文名称规范工作小组”,开始了《中文名称规范数据库》的建设,意在探索实现全球中文信息资源的共建共享之路径。今后,应致力于建立和完善古籍名称规范数据库,包括题名规范数据库、著者规范数据库、地名规范数据库、出版者规范数据库等。古籍规范数据库的建立和应用将会为古籍数字化的规范发展和未来的联合编目提供极大的方便[13]。

3.4 规范古籍书目数据库的字库

统一用字是实现古籍著录规范化的重要一环。只有各种软件使用统一的字库,才能保证字体、字号一致,满足古籍著录用字的要求。古籍书目数据实现规范化,有利于进一步使数据库之间兼容和资源共享。现有古籍书目数据库特别是大陆地区在所用字库上分歧较大,大多数数据库提供的是简体字检索,提供繁体字检索的极少,并且现有的繁体字库储量较低。从利用古籍角度而言,用繁体字比较合理,也利于与港澳台地区的古籍资源实现资源共建和交流共享;从检索角度而言,用简体字符合大多数中国大陆地区用户的习惯,其中部分古籍还存在新版翻印。所以建议所有书目数据库能同时提供简体和繁体两种字库,在技术上实现简繁两种字体的转换,使文献和用户两方面都可较好地兼顾。此外对采用何种字体、字号、文字编码等细节方面也需要统一规范。

目前出台的国家标准字库包括:1996年2月出版的《中国机读目录格式》中规定的字符集《信息交换用汉字编码字符集·基本集》(GB2313-80);1996年3月正式颁布的《国际标准化汉字字符集》(ISO10646),共收入中、日、韩3国汉字20 000余个,可进行简繁体字转换,但字符间出入转换精度不高。除此之外,台湾国家图书馆INNOPAC系统的汉字内码CCCII字符集,收入了84 000个汉字,包含常用字、罕用字和异体字[12]。经过清华大学图书馆等单位的实践,证明其能较好地满足古籍编目中的用字问题。鉴于此,我国古籍数字化应在《国际标准化汉字字符集》(ISO10646)国际标准基础上,建成包含20 000-30 000个古籍常用字的基本字库,同时建设避讳字、异体字、生僻字等古籍专用字库,配备完善的词语匹配表,以利于繁简字的自动转换[12]。

3.5 实行古籍与普通图书及音像制品统一建库

古籍是古代印刷术的产物,随着时代的发展,书籍的印刷、装帧技术不断改进,因此,同一内容的文献会有不同的载体形态,可能会有古代的线装书、近现代的平装书、缩微制品、声像制品和光盘。国内现有的多数古籍书目数据库是由图书馆来建设的,受传统图书馆的设备条件和建设理念影响。因此,对于古籍书目数据而言,只有在各馆中实行古籍与普通图书及音像制品统一建库,才能用一条检索命令将同一内容的各种载体形态的文献全部检索出来,以满足读者的选择要求。所以,古籍和普通图书能够统一建库,也是对古籍书目数据库规范化的要求。

4 结 语

总而言之,古籍数字化标准建设只有置于文献数字化标准框架体系之中全面考虑,才能改变重复分散的状况,通过统一规划和管理,做到最大范围的文献信息资源共享。但标准问题并非一朝一夕就能促成,它是一种长效机制,要通过不断吸纳古籍数字化过程中的经验教训,在实践中逐步发展。这需要有一个具有知识吸纳能力的古籍数字化标准的机制,能够把古籍数字化诸环节的经验教训和程序设计、功能实现方面的成果以标准、规范的形式吸纳起来,使新的古籍数字化项目能够在更高的起点上进行。如果相关部门能够联合从事古籍数字化的主要单位,制订古籍数字化的统一标准,使其规范化,并在此基础上进行分工合作,建立可共享的资源体系,将会促进国内数字化古籍的开发与利用。

[1]国家标准局. 古籍著录规则[S]. 北京:中国标准出版社, 2009.

[2]国家图书馆《中国文献编目规则》修订组. 中国文献编目规则[M].北京:北京图书馆出版社, 2005.

[3]国际图书馆协会和机构联合会. 国际标准书目著录[M]. 顾,译.北京:北京图书馆出版社, 2008.

[4]鲍国强, 程有庆. 汉语文古籍机读目录格式使用手册[M]. 北京:北京图书馆出版社, 2001.

[5]朱 岩. 中国机读目录格式[S]. 北京:中华人民共和国文化部,1996.

[6]《中国古籍总目》编纂委员会. 中国古籍总目[M]. 上海:中华书局,2005.

[7]古籍著录细则[EB/OL].[2009-10-01].http://www.cadal.cn/cnc/cn/jsgf/gj-zlgz20040426.pdf.

[8]胡海帆. 大学古籍数字图书馆拓片元数据标准的设计及其结构[J].图书馆杂志, 2001(8).

[9]国家图书馆. 中国机读目录格式使用手册[M]. 北京:北京图书馆出版社, 1995.

[10]新闻出版署, 国家语言文字工作委员会. 出版物汉字使用管理规定[G]// 新闻出版总署科技发展司, 新闻出版总署图书出版管理司, 中国标准出版社. 作者编辑常用标准及规范. 2版. 北京:中国标准出版社, 2007.

[11]中国图书馆图书分类法编辑委员会. 中国图书馆分类法[M]. 4版.北京:北京图书馆出版社, 1999.

[12]徐 清, 王 唯. 近十年古籍书目数据库建设研究概述[J]. 图书情报知识, 2006(5).

[13]唱春莲. 《中国古代著者规范数据库》编制概况[J]. 文津流觞,2002(8).

猜你喜欢
书目著录古籍
常用参考文献著录要求
常用参考文献著录要求
推荐书目《初春之城》
常用参考文献著录要求
中医古籍“疒”部俗字考辨举隅
关于版本学的问答——《古籍善本》修订重版说明
关于古籍保护人才培养的若干思考
我是古籍修复师
本刊参考文献著录要求
本刊邮购书目