基于元数据的古籍数字化探究

2018-11-23 11:30刘小杰
卷宗 2018年31期
关键词:元数据古籍图书馆

摘 要:本文古籍元数据的相关内容入手,首先对我国古籍数字化的建设现状进行了描述,紧接着通过对比我国现有的古籍元数据,对基于MARC和基于DC的古籍元数据标准对比分析,最后对我国现行的古籍元数据标准建设中的问题提出自己的建议和想法。

关键词:元数据;图书馆;古籍;古籍数字化;古籍元数据

Digital Exploration of Ancient Books Based on Metadata

Xiao-jie liu

(zhengzhou library, zhengzhou 450000)

Abstract: In this paper, the related contents of ancient books metadata, first of all to our country ancient books digitization construction situation are described, and then by comparing the existing ancient metadata, based on ancient books of MARC and DC metadata standard comparison and analysis, the last of our current problems in ancient books metadata standard construction put forward his own Suggestions and ideas.

Keywords: Metadata;The library;Ancient books;Digitization of ancient books;Metadata of ancient books

古籍文献作为图书馆文献资源的一种形式,其不同于其他文献资源的本质特性,它记录着我国五千年的历史文化精髓,是我国悠久文化的文字记录材料。而古籍文献的文物特性也导致其保存难度大,甚至有些孤本、珍本的纸张已经变质变脆,大大影响了古籍的史料参考价值和阅读价值,如何有效的保护好图书馆这些珍贵的古籍文献,并将其提供给读者使用,扩大古籍文献的影响和魅力,是我们图书馆这些古籍收藏单位所面对的共同难题,而古籍文献数字化就是一种保护和传承古籍文献的有效解决方法。

1 我国的古籍数字化建设现状

我国古籍数字化取得的成果主要集中于古籍资源数据库的建设,主要包括古籍书目数据库和古籍全文数據库两种。目前大部分古籍收藏单位都建立了古籍书目数据库,同时还合作建立了一些古籍联合目录数据库,如中国高等教育文献保障系统古籍联机编目、中国科学院古籍联合书目数据库等。古籍全文数据库的建设,大部分是各个图书馆依靠自己的特色古籍资源来建设古籍全文数据库,同时还有一些研究机构、出版机构以及数据库商业机构在近几年在不断的探索和研究,建造了一批高质量的古籍数字化全文数据库,如中国基本古籍库、汉籍全文数据库、汉达文库等。随着科技的进步和古籍数字化的不断发展,我国的古籍数字化已经从简单的文本转换转为信息的重组和发掘,而且从国家层面上开始建设中华古籍数字资源数据库,2012年底,国家古籍保护中心启动建设“中华珍贵典籍资源库”,立足于《国家珍贵古籍名录》,从中遴选出1115部珍贵古籍进行数字化,并积极研究推进资源的网上发布使用;同时着手加强与国际间的合作,以国际合作项目的模式来将流失海外的我国古籍文献进行数字化,来增进国内外古籍数字化的交流与合作,取得了一系列的成果如海外图书馆所藏古籍善本项目、中华古籍善本国际联合书目数据库等。

2 我国现有的古籍元数据标准及对比分析

元数据格式有很多种,在图书馆和Internet上广泛应用的元数据格式主要是机读目录格式(MARC)和都柏林核心元数据(Dublin Core),而且这两种元数据格式在我国的古籍元数据建设中得到了广泛应用。

2.1 我国的古籍元数据标准

MARC机读目录格式可以对图书、连续出版物、电子资源、乐谱、视听资料等格式的文献进行著录,经过不断发展广泛应用于图书馆的编目著录。中国机读目录格式(CNMARC)是我国常用的机读目录格式,其中具体有关古籍的应用标准有:1)国家图书馆制定的《汉语文古籍机读目录格式使用手册》;2)中国高等教育文献保障系统(CALIS)制定的《CALIS古籍联机合作编目规则》,CALIS古籍机读目录格式基本上和国图的格式一致,二者一脉相承,都是MARC机读目录格式在古籍文献著录上的延伸和发展。

都柏林核心(DC)元数据是一种结构化格式的元数据,由标题、作者、主体、出版者、描述、其他参与者、日期、类型、格式等15个元素组成,具有简易性、通用性、可重复性和可扩展性等优点。鉴于DC元数据的通用性和适用性,我国的一些机构也在积极推进基于DC的古籍元数据建设工作,并制定了相关的元数据著录规范,使用范围比较广的主要有:1)《我国数字图书馆标准与规范建设》项目(CDLS);2)中科院古籍数据库的DC元数据格式,二者都是在DC元数据的基础上进行了本地化修改,以适应各自的古籍文献著录需求。

2.2 都柏林元数据与CNMARC对比分析

基于CNMARC和基于DC的古籍元数据在实际应用中各有优缺点,而哪一种格式在未来古籍元数据的发展中更有优势呢?我们通过横向对比的方式来将DC元数据、CDSL的古籍元数据、中科院的古籍元数据和CNMARC的各个核心元素字段进行对比,列出表1所示的对照表如下:

联系各种元数据的标准规范,我们可以进行DC元数据和CNMARC在古籍元数据应用标准上的一些差异分析:

2.2.1 数据信息的描述能力分析

数据信息的描述能力主要从元数据的字段划分和应用来分析,只有字段划分和应用的科学合理,数据信息详细明了才能体现出元数据的信息描述能力。从字段和元素划分上看,CNMARC有9个大的字段块,同时各个字段下可以划分很多子字段,有些字段还可以重复,从这方面看CNMARC的数据信息描述能力应该非常强大,几乎给人一种无所不容无所不能的感觉;反观DC元数据,仅仅十几个核心元素,各元素下的子集相对于MARC也很有限。但是从实际应用方面来看,在使用中CNMARC格式的书目记录只使用了很少的一部分字段,通过对国图数据的抽样分析显示,使用字段多于30个字段的书目记录只有0.09%,而且80%以上的常用字段大概只有20个左右;DC元数据格式的元素数量虽说比较少,但是使用率非常高,基本上都是必备字段,在数据信息的描述能力上不输于CNMARC。由此可以看出,虽说CNMARC的字段比较多,但是真正对读者和馆员有用的字段和方便资源检索利用的字段却很少,很多字段属可有可无字段,在对古籍元数据应用上,DC元数据要优于CMARC元数据。

2.2.2 数据信息的内容描述方式分析

从表1的对比中我们可以看到,在CNMARC中对资源信息的某个特征描述多在不同字段重復,比如200的$f$g字段和7xx字段都是关于责任者和责任方式的字段;或者是某一特征分散在多个字段描述,比如200字段和51x字段都是题名相关信息。这就会产生两方面的问题,一方面是元数据对同一描述特性冗余著录,易导致元数据字段对某一特征的描述产生矛盾,数据通用性差,影响数据交换;另一方面相同的信息在不同的字段里被重复著录,增加了著录人员的工作量,更不便于用户对有用信息的获取。而DC元数据的同类信息全部集中在一个元素内,没有这方面的影响。由于古籍著录的特殊性,同类信息集中著录更适合古籍著录的要求,因此从数据信息的内容描述方式上看,DC元数据的元素分类比较科学和人性化。

2.2.3 数据格式的可扩展性分析

扩展性分析方面,CNMARC和DC元数据的数据格式设计时都预留的有相关字段的扩展空间,如CNMARC的9xx字段就是馆藏信息自定义字段,馆员可以根据自己的需要自定义馆藏字段;DC元数据的扩展也很简单,就是在15个核心元素外,根据需要制定相应的其他元素,CDLS的古籍元数据采用的就是这种做法,但是DC元数据基于先进的网络技术和XML网络传输语言,数据格式简单易学,可扩展性比CNMARC更好。

通过以上三方面的对比分析,我们可以看出DC元数据在对信息对象的描述能力和方式上都优于CNMARC,在可扩展性和使用上也比CNMARC更好用,在进行古籍数字化建设时,DC元数据应当是首选的数字技术标准。

3 图书馆古籍的元数据标准建设的问题及对策

目前,我国古籍数字化进程发展了将近30年的时间,取得了相当大的成绩,这点我们都有目共睹,但是不可否认的是,在元数据标准建设方面,与国外相比我们仍存在着比较大的差距和问题,需要我们尽快解决。

3.1 统一元数据标准,加快DC元数据本地化

DC元数据已经在我国一些图书馆和企业得到了应用,但是DC元数据本地化的问题一直没有解决。本地化的问题主要体现在两个方面:一方面体现在没有标准化的DC元数据中文版本,现有的图书馆使用的基于DC元数据的标准规范主要是CDLS和中科院两个版本,这些版本在古籍元数据规范上的定义差异性也很大,在具体应用上存在很多空白;另一方面就是元素名称及注释的翻译和理解不准确,没有规范统一的译名,会对馆员和用户造成使用上的困扰,从侧面说明了我国DC元数据在本地化的规范标准没有很好地重视。这就需要我们尽快地制定统一的DC元数据相关标准规范,形成内容全面的古籍数字化元数据标准,让古籍元数据更好用、更实用,统一协调DC元数据本地化的标准规范建设,统一元素译名和定义注释,从根本上解决DC元数据本地化的问题。

3.2 形成系统化的古籍元数据标准体系

我国现有的古籍数字化元数据标准的系统化程度比较低,主流的元数据标准数量少,且属于各自为政各自发展自己的元数据标准,相互之间缺乏有效的沟通交流,特别是MARC格式和DC格式的元数据通用问题,缺乏必要的骨架标准体系支撑。在这一方面,我国需要加快古籍数字化标准建设的同时积极推动古籍数字化元数据的标准体系建设,加强沟通交流,同时鼓励企业参与标准规范体系的建设实施,推动古籍元数据标准系统化规范化发展。

3.3 重视古籍元数据专业人才的培养

古籍元数据标准的建设是一项工作量浩大且技术繁杂的工作,需要大量专业人才保证古籍元数据标准体系的构建和古籍数字化资源的建设。人才培养主要有两个方面,一方面是学术研究人才培养,应当在学校设立专门从事古籍数字化及古籍元数据标准研究的学科,开设古籍文献学、数字化技术、计算机数据库设计等课程;另一方面是专业的岗前职业培训,从事古籍数字化及元数据加工地工作人员必须接受岗前培训,在短期或中长期之内通过指导培训掌握必要技能,经考核合格后方可从事具体的实际工作。

4 结语

本文仅从古籍元数据建设的角度对古籍数字化工作进行了分析和探讨,古籍数字化还有很多方面的工作,如古籍数字资源的共建共享、转化利用以及宣传推广等。但是古籍元数据建设是古籍数字化中的一个重要环节,是古籍数字化的基础性建设工作,只有做好古籍元数据建设工作,才能将古籍数字化其他工作做得更好。

参考文献

[1]郭秋福,江汇泉.MARC与DC元数据的对比分析[J].数字图书馆论坛,2008(4):39-43.

[2]耿秋红.试论元数据——谈DC元数据与MARC[J].现代情报,2004(7):94-95.

[3]高娟,刘家真.中国大陆地区古籍数字化问题及对策*[J].中国图书馆学报,2013(7):110-118.

[4]王雁行.以“中华古籍保护计划”为依托建设国家古籍资源数据库[J].国家图书馆学刊,2016(3):82-88.

作者简介

刘小杰(1990-),女,河南郑州,学士学位,助理馆员,研究方向:图书馆学。

猜你喜欢
元数据古籍图书馆
中医古籍“疒”部俗字考辨举隅
关于版本学的问答——《古籍善本》修订重版说明
关于古籍保护人才培养的若干思考
图书馆
我是古籍修复师