古籍保护面临的问题及对策探讨

2015-07-13 15:14黄卫华
中国新技术新产品 2015年10期
关键词:数据库建设统一标准

黄卫华

摘 要:随着古籍保护的相关政策法规的陆续出台,图书馆业界掀起了保护性建设热潮,尤其是数字化古籍,面临空前的发展契机。本人重点总结研究了相关的数据库建设的文献资料,重点对其中涉及的问题与困境(例如统一标准方面)进行比照分析,试图寻找解决问题的突破口。

关键词:古籍保护;数据库建设;统一标准

中图分类号:G253.6 文献标识码:A

古籍是指以文字符号(含图形)方式记录的古代典籍。其载体则以纸本印刷书籍为主,也还包括了像碑刻,青铜铭文,简牍帛书等以文字为记录符号的古代文献。

从某种概念上说,古籍属于文物,但又不同于其他种类的文物。人们对古籍的利用,也就是对其的研读,是要通过翻阅的,但由此产生的二次伤害又给古籍保护带来新的难题。我们不能因噎废食,不能为了保护古籍,而将其“冷藏”不提供使用,又不能为了利用古籍,而无节制使用。面对这个两难的命题,数字化,无疑是个很好的折衷点。

1 古籍数字化相关的保护背景

古籍的重要历史文化价值,已经被全社会认可,并由政府不断出台相关的配套政策,提供古籍抢救性保护和数字化开发的政策支持。2007 年国务院办公厅发布《关于进一步加强古籍保护工作的意见》( 国办发[2007]6 号) ,其中第五条提出了古籍数字化的具体要求,更将古籍数字化推向了高潮。

2011年文化部、财政部发出实施全国范围的“数字图书馆推广工程”中,古籍的数字化作为其建设的重中之重,并成为其推广的对象。截止到目前为止,古籍数字化工程已完成的重大项目包括了建成“中国基本古籍库”。

2 进一步解读古籍数字化

2.1古籍数字化的技术简介

所谓古籍全文数字化就是在保持古籍原貌的前提下,通过多媒体的图文扫描技术,提取古籍的内容,生成JPEG、TIFF等格式存储的图片,该图片文件可以直接作为源数据存储成古籍档案,也可以通过进一步的文字识别,如采用OCR技术,生成以WORD、TXT、HTML等格式文字文件,在此过程中涉及到的最基本的就是数字影像技术。这也是古籍数据库的建立的前提。我们通过现今的数据库对象处理技术,是能够给读者提供了方便快捷的界面,来进行古籍的全文搜索,全文阅读,甚至可以图文并茂,呈现出高真度的阅读体验。

2.2 古籍数字化的意义

2.2.1 从保护性开发的角度,可以避免原件丢失与损坏的风险

能保留至今的古籍大部分已是孤本,文献纸质已经脆化、图片发黄褪色,把其进行数字化转换,一方面可以通过减少与原件直接的使用接触,从而达到最大限度保护文献的目的。笔者通过与县市区图书馆的文献互助加工的工作,了解到,例如肇庆地区的高要馆,正是通过将孤本古籍进行高清度图像摄影,首先把纸质文献转化为可辨识的图像,实现了数字化的基础工作;与此同时,把原件通过恒温恒湿的冷冻技术,通过物理技术的转换,最大限度优化了文献的储存环境。

2.2.2 古籍数字化资源的直接便捷检索,利于优秀传统文化的传播

古籍文献作为一个文本化的物质文化遗产,对于现代中国社会建立一个完整系统的传统文化学习研究的体系,起到根本性的支撑作用。正是基于现代社会对数字资源的高比重需求,现代图书馆的古籍资源数字化应运而生,以便捷的全文检索为核心的古籍数字化建设,建设目的是使得有研究需求的读者人群,能最快速最直接的得到准确的“第一手”研究资料。

2.3 古籍数字化关键点

古籍数字化涉及到如下几个关键点:元数据,文献图像,全文文本等。

在数据库技术的层面上的元数据,是整个数字化物理层的基础,它以数据条的形式记录了古籍对应的特征和属性等

古籍原文图像,就是将古籍以图像形式扫描,全文录入计算机,它一定程度上规避了文本搜索的过程存在一些技术上的“失真”的情况。

全文文本就是把扫描后的图像识别转换成数字文本,它的优点在于方便检索,编辑,存储空间小。缺点是对于生僻字,繁简字,通假字,识别后的错讹率高,不方便录入。

3 国内古籍数字化现状调查与问题分析

3.1 技术实现层面上

由于考虑到研究相关技术和相关设备投入的成本过高的问题,仅仅依靠政府的投入还是无法有效推动古籍数字化的发展,因此迫切需要一些有技术实力的企业参与到该项工作中来。

由于有相关的法律法规关于版权的规定,很多拥有古籍孤本或者需要做古籍研究的学术机构,包括了上至国家图书馆,各大学图书馆,以及相关学术研究机构大部分采用与数据库出版商合作或购买的方式,主要通过租用或购买数据库产品的途径,拥有数字化古籍的使用权限。同时还可以用相对少的经费,轻松解决内容更新等等冗繁的问题。

成功的案例里就有《广东省历代方志》,广东省历代方志具体项目内容是,先通过图书馆方面内部的协调,通过总分馆之间的协调,省级馆与市级馆之间的协调,市级馆到县级馆之间的协调,全面的协调机制开始运作以后,实现了纸质珍贵孤本方志,在省级图书馆广东省立中山图书馆的总调度和统筹下,完成了纸质文献的基础收集工作,接着,就是通过图书馆方,和数字化加工商之间的协商,完成了文献每一页的图像高清度摄影工作,也就是文献原本图像化。

在这个过程中,图书馆方与数字加工商很好的协调了版权方面的问题,就图像化的原本,再加工出版成为精装版的版权归属问题已经达成了很好的共识。精装版的《广东历代方志》从明清到民国,形成一个连贯的历史发展脉络,精美的装潢,高辨识度的文字阅读效果,使得有研究需要的读者群体得到了最终的阅读需求和权益的满足。同时《广东历代方志》的数字化发布平台,版权的归属也是属于馆方的,这也体现了对原始资源的占有方的尊重。数字化的《广东历代方志》通过网络,可是在图书馆以外的外网直接访问,与精装版的《广东省历代方志》的阅读效果等同,这也排除了很多离图书馆相距较远的读者直接“登门”的麻烦。

3.2 技术成果背后的隐忧

3.2.1 项目形式单一,图书馆与数字开发商缺乏深层互动

业界成功的数字化古籍的案例无一不是,技术开发商和图书馆方的“无缝”对接的成果。这是一个合作而非彼此“博弈”的一个过程,作为主导方的图书馆,因其本身占有原始资源的优势,往往轻视了与数字开发商平等交流的一个合作基准。

基于以上种种因素,造成了最后资源的使用者——古籍研究的读者群的阅读质量和权益得不到保障。

比如广东省立中山图书馆的古籍的数字化阅览功能。只对持有本馆读者证的读者,在本馆范围内使用。

从一个侧面看,用户的需求还是和现在的项目开发还存有一定的差距。

3.2.2 直接经济利益驱动不足,市场不成熟,经济效益不明显

我国古籍数字化产业的特点是:在数字化开发商的前期投入研发的成本巨大,而研发资金的投入主要来自国家、和拥有古籍文献的图书馆,国内的数字化开发商由于行业形成时间比较滞后,商业的推广和营销策略跟不上市场的发展,出现了盲目的搜索用户群,往往收效欠佳,不但浪费了时间也消耗了宝贵的研发成本。

古籍数字化的研究开发、商业化应用都需要大量资金投入,而资金回收期相对较长,在很大程度上限制了我国古籍数字化的发展。

3.2.3 对从事古籍数字化的复合型人才的缺乏

在古籍数字化的过程,一项基础的关键工作是录入文本前对古籍的整理,在全国范围内,从事这方面工作的人才非常少,因其需具备的不单是古籍整理知识,更需要熟练的计算机技术。

3.2.4 涉及版权的问题

古籍数字化要解决的另一个重要问题是版权。所有的文化产品都涉及到版权,而对于古籍资源,版权归属的界定尤其困难。

比如最简单的标点整理,就牵涉到版权问题。某A方整理的版本,与某B方整理的版本,由于都基于同一文本但仅仅因为标点的差异,两者就存在版权的争议,到底是谁盗用了谁,我国版权法执行了多年,积累了不少经验,但对于这样的案例的责任追究难度还是比较罕见的高。

另外,原本文献由于盗窃的难度,责任易于认定。一旦实现了数字化,由于数字化古籍处理系统安全管理存在这样那样的漏洞,很容易数据库被恶意攻击访问,从而盗窃了相关的数字资源,用于非法的复制和使用。这样的版权的认定就增加了难度。

4 探求古籍数字化发展对策

4.1 行业内急需标准化的制定和有力度的执行

古籍数字化标准是古籍数字化建设长远持久的根本保障。在多年的数字化实践中,陆续研制并应用《古籍著录规则》、《古籍专门元数据著录规则》、《汉语文机读目录格式使用手册》等等相关标准,可参照执行。目前大部分古籍数字化标准规范已经研发完成,可直接参照执行。国家古籍保护中心组织编制了《古籍数字化工作手册》,对即将开展的珍贵古籍数字化工作进行规范。古籍数字化标准规范体系建设要以实现古籍资源的共建共享为基本目的,优先采用已经成熟的国际标准和通用规范,认真贯彻国家标准和行业标准。建立全国统一标准,包括元数据著录标准、数字化影像标准、资源格式标准、资源标引标准、数字化古籍长期保存和发布标准等。

4.2 古籍资源共建共享的统一平台开发方案的相关设计。

古籍数字化的目标是通过统筹规划,共同建设,使所有古籍数字化成果能够在统一平台上便捷的检索和利用,真正实现古籍资源的共建共享。

古籍数字化是通过图书馆方与数字化开发商在项目开发协议的指引下,共同开发,达到使数字化成果在一个统一的平台上方便快捷的检索的最终于目的。

而针对现今古籍处理业界各自为阵,缺乏交流的现状,在技术层面的理解是,根源在于缺少公用的计算机支撑环境,因此以上提到的古籍数字化统一平台的开发,就尤显必要。

该平台应针对不同对象,进行操作界面的切换。主要是数字化建设方,和数字化使用者之间的切换。

而对于建设者,应该具有以下具体功能:

(1)扫描录入

通过扫描将古籍以图片形式录入系统,可以随时编辑更改、放大缩小、旋转、精密打印等操作;能够对扫描图像进行数据库管理;能提供强大的OCR汉字识别软件,以便将古籍图像转化成文本。

(2)编辑排版

应当由一个适用于古籍整理的汉字库,具有古籍中常见字、异体字及某些特殊用字,应有补字软件。

(3)全文检索功能

能够将普通文本文件植入检索系统中,实现主题词检索和全方位检索,并根据检索要求自动汇集成段资料。

(4)能够和互联网直接联通,满足网络交流的需要。

而对于古籍资源的使用者,也划分为两种:

一种是大众读者,由于古籍数字化成果的服务利用的公益性质,可以免费向大众读者开放的功能包括:用户检索,普通阅览等。一般的这类读者可以通过图书馆官网的统一发布平台,凭借自己的读者证,通过单点登录,实现无障碍阅读。

另一种是从事古籍研究工作的用户,在兼备以上大众读者的使用权限的前提下,还可以提供图像数据的下载功能。这也有赖于文献发布平台的技术基础,比如首先检索的技术要实现图文数据库的技术。

但由于涉及到版权的问题,在使用下载功能之前,必须获得授权许可、签署保证书。

结语

数字化古籍是现今数字化时代古籍保护上的必然选择,在有关政府,研究机构,和数据库商三方的共同努力下,建设初现规模,但距离真正实现古籍资源的共建共享的目标,还有待各界同仁的共同努力探索,完善数字化工作的制度执行体系,建设体系,共享体系和服务体系,为古籍文化传播和古籍文物保护贡献自己的力量。

参考文献

[1]杨琳.大陆古籍数字化的现状及存在的问题[D].第一届中国古籍数字化国际学术研讨会论文集.

[2]刘琳,吴洪泽. 古籍整理学[M]. 四川:四川大学出版社,2003.

[3]汪琳.古籍数字化的现状研究[J]. 图书馆情报,2009(11).

猜你喜欢
数据库建设统一标准
信息系统建设中厂商选择的思考
浅谈大数据信息化及数据库建设
政府公报全文数据库建设探析
浅谈陕西省文物信息化管理