古籍档案的数字化建设分析

2009-11-30 08:17张宛艳
档案管理 2009年5期

张宛艳

摘要:作者阐述了古籍档案数字化建设的基本实施途径,并从古籍档案数字化的几种实现方式和存在的若干问题等方面探讨了古籍档案整理利用的特点,提出了个人对古籍档案数字化建设的一些思考,以期为古籍档案管理者提供工作参考。

关键词:古籍档案;古籍档案整理;古籍档案数字化:档囊管理者

我国历史源远流长。古代文献档案浩如烟海。古籍档案作为民族历史文化的象征,是先人留给我们的历史文化瑰宝和宝贵财富。是今人研究历代社会政治经济、科技文化等方面的重要原始材料,整理保存和研究利用古籍档案是一项长期而艰巨的任务。随着文献信息载体向数字化、网络化发展的趋势,古籍档案整理已经走出传统观念,正在朝着数字化存储和网络化服务的方向发展。

1古籍档案数字化建设的意义

古籍文献对于人类文明与社会发展有重要的史料作用,同时也是我国档案文献遗产中重要的一部分。据有关专家估计保存至今的古籍约23万卷,全国古籍藏量应在5000万册左右,可谓卷帙浩繁。这些宝贵的文化遗产,蕴藏着丰富的信息资源,为学者进行学术研究提供了取之不尽、用之不竭的资料,古籍档案作为纸质文献,随着时间的推移,它越“古老”,其珍贵价值就越高;同时纸张的老化也在加剧,且不易修复;再加上反复借阅使用,必将加速纸张的磨损,这些都造成对古籍文献或多或少的损坏,随着计算机应用、数据库技术、网络多媒体技术的普遍实施,科技的发展迫使古籍档案的整理也应与之相适应,然而实际情况是古籍档案整理工作的科技应用和其他领域相比显得要落后许多,开拓古籍档案整理与研究的现代化领地,是摆在我们面前的严峻课题。

古籍档案数字化就是从利用和保护古籍档案的目的出发,采用计算机技术,将常见的语言文字或图形符号转化为能被计算机识别的数字符号,从而制成古籍档案书目数据库和古籍档案全文数据库,用以揭示古籍档案信息资源的一项系统工作。古籍档案数字化以后,读者可以通过光盘或者网络浏览阅读电子读物,可以任意跳跃查找或局部放大,避免了直接翻阅古籍档案的诸多不便,给古籍档案的使用带来革命性的变化,数字化后的古籍档案不仅可提供屏幕阅读、内容检索,还可以提供下载打印、远程全文传送、专题展览。以及制作多媒体电子媒介等多种全方位的服务。事实证明,古籍档案数字化不但有效地保护了古籍档案,而且方便了读者的阅读使用,大大提高了古籍档案的利用价值。

2古籍档案数字化建设的方式

我国从上世纪80年代中期就开始古籍档案数字化的尝试,从单纯的全文扫描图像,到制作书目数据库、开发研制各种检索工具,再到现在的对古籍档案全文数字化,经过这么长期的探索,已取得不少成就,也积累了丰富的经验。目前古籍档案数字化一般来说有以下四种方式:

完全图像方式。这是最简单的一种数字化的方,法。只需将古籍档案扫描成图像,存储在存储介质上即可,文字是以图像方式如BMP、JI G、TAG、GIF等格式存储,通过这种方式得到的古籍档案数字化版本被称为“全图像版”,全图像版直观真实、快捷实用,但文字与图像之间没有索引关系,无法直接检索到古籍档案内容。不便查找。

目录文本、正文图像方式。这是在“全图像版”基础上的一种改进。目录全部用文本方式存储,而正文部分采用图像方式存储,并建立目录与正文之间的索引关系。读者可以在目录级进行检索和查找,并可根据目录与正文之间的索引关系,找到所需的正文图像。这里的目录可以认为是广义的目录,除了包括卷名、书名、大小标题外。还可以包括图名和表名等,这种方式的古籍档案数字化版本可称为“标题检索版”。

全文本方式。“标题检索版”只实现了目录级的检索与查找问题。全文本方式是将书中所有文字全部采用文本方式存储,属于真正意义下的数字化图书,可以实现全文检索和查找。这种古籍档案数字化版本我们称为“全文本版”。

全文图文对照方式。该方式是上述方式的综合体,也是目前古籍档案整理工作者普遍运用的方法。它分别以图像和文本方式存储古籍,还对古籍档案中的每一个汉字与它在原书中的图像之间建立索引关系,用户既可以在“全文本版”中检索、查找和阅读古籍档案,又可以迅速方便地“翻阅”到当前文字在“全图像版”中对应的位置。这种方式得到的古籍档案数字化版本我们称为“图文检索版”。“图文检索版”是目前最为理想化的数字化方式,既可以读文、检索,又可以观察原文图像,观看古籍档案中字体的写法、排版特点等情况。

3古籍档案数字化中存在的问题及对策

古籍档案的数字化极大提高了古籍档案的利用价值,解决了古籍档案“藏”与“用”之间的矛盾,但是在利用过程中我们也看到古籍档案数字化还存在不少的问题。

3.1古籍档案数字化申存在的问题

目前古籍档案数字化建设和利用中存在着许多值得重视的问题,主要是:偏重于硬件建设,软件开发和信息服务明显滞后:核心技术开发能力薄弱,关键硬件和软件依赖进口;信息资源开发严重不足,而网络和数据库又存在大量低水平的重复建设,且难以实现互联共享;信息安全存在隐患。

现行通用的标准是1996年10月由中国文献编目规则编撰小组编撰、全国情报文献工作标准化技术委员会及中国图书馆学会推荐使用的《中国文献编目规则·古籍著录规则》。随着时代的进步和科学技术的日新月异,原有标准已经无法完全适用。因此,我们有必要根据这个著录规则编目或对已有的目录加以修订补充,统一著录标准,以保证数据库的质量和查询服务效果。不仅要有规范的著录条例、数据库格式、编目软件使用字库,还要有统一的古籍分类法,这些标准的制定不仅要有图书馆界、档案界、信息产业界和软件开发商共同参与,而且要有从事古籍档案整理的专业人员参与,这样才能为读者提供一个数字化古籍档案的统一平台。

古籍档案数字化建设和利用工作是需要学术界和软件厂商的共同参与,因而有产业化的趋势。由于前期参与的机构众多,造成数据文件格式繁多。一般不能通用,需要单独的阅读器才能使用,这样的局面极不利于读者阅读、使用。另外,在古籍档案数字化产品中,选题和内容重复也是一个不争的事实。例如《四库全书》原文电子版、《四库全书》全文检索版、《四部丛刊》全文检索版等。重复的选题,造成了人力、物力、财力等资源的巨大浪费。

还有,当今在学术界愿意从事古籍档案整理工作的年轻人才已经非常少,特别是那种既具备古籍档案整理知识又能熟练掌握应用现代化信息技术的较高层次的复合型人才更为匮乏。随着从事古籍档案整理的老一辈工作人员的陆续退休,古籍档案数字化建设工作的人才“断层”问题,显得尤为突出。

3.2对古籍档案数字化建设的思考

我国的古籍档案浩繁,且分布地域广泛,为了避免造成重复建设的资源浪费,全面了解全国古籍档案数字化建设和应用情况,促进古籍档案数字化建设和利用的健康发展,我们呼吁成立全国古籍档案数字化建设领导小组和古籍档案数字化建设专家组,由各相关专业、各相关领域的学者专家组成,加强统筹协调,坚持面向市场,统一规划,统一领导,相互协调,相互配合,相互支持,在古籍档案数字化建设中实现资源共享,扎扎实实推进我国古籍档案数字化的建设和应用。

要进行广泛调研和深入分析,吸取经验教训,避免走弯路;在技术上要高起点,实行整体规划,业务系统建设与整合分步实施:在建设中要充分考虑对已有系统整合与无缝连接,共同协商制定古籍档案数字化的内容、标引的深度、相关检索工具的配置等,不能为了数字化而搞数字化,要用市场的办法发展数字化;不能搞没有效益的数字化,更不能搞“花架子”。同时各个相关业务单位应该树立大局意识,舍弃小我利益,既要培育竞争机制,又要加强统筹协调,努力为古籍档案数字化发展创造良好的环境:要按照互联互通、资源共享的原则,杜绝各种网络和系统的重复建设,防止一哄而起;既要重视对外开放与合作,又要加强自主科研开发。

古籍档案的数字化建设对研究人员提出了更高的标准,它不仅要求研究人员要掌握古籍档案的分类、版本鉴定、编目,还要会编制数据库,懂得计算机网络、多媒体等现代技术,并能辅导读者利用现代化的科技手段来阅读、使用和研究古籍档案。因此尽快培养一批学有专长、信息素养较高、技术熟练、善于合作的复合型人才显得极为重要而又迫切。

总之,古籍档案数字化整理工作是随着科技的进步而进步的,它需要档案工作者和研究者、古汉语学者和数字信息专家们的通力合作。相信只要我们进行不懈的努力,最终定能实现数字化的古籍档案真正意义上的资源共享。

参考文献:

[1]覃燕梅,我国高校图书馆古籍文献保护工作研究[J].图书馆论坛,2007(4).

[2]朱小健,古籍整理通用系统及其中字典的编纂[J].语言文字应用,2000(3).

[3]余述淳,古籍资源数字化建设的一些探讨[J].大学图书情报学刊,2003(2).

[4]潘德利,中国古籍数字化进程和展望[J].图书情报工作,2002(7).

[5]王发杜,古籍数字化的几点思考[J].图书馆论坛,2006(3).

[6]厉莉,古籍数字化的现状及对策[J].江西图书馆学刊,2002(1).

[7]郑幸飞,从书院文化数据库建设看古籍文献数字化[J].图书馆,2006(6).

(作者简介:南阳师范学院来稿日期:2009-06-20)