特色数据库建设

2020-09-26 11:59李秀东徐培德
群文天地 2020年5期
关键词:版面日报检索

李秀东 徐培德

中小型图书馆立足本馆特色,建设本地区、本馆独有的数据库是当前图书馆数据库建设的一个亮点。由于老旧报纸酸性大、存储难、学者使用率低、科研价值高等原因,老旧报纸的数字化加工成为当下解决问题的主要途径。通过查访各类文献和咨询情况,青海省尚未对《青海日报》1990年以前的老旧报纸进行数字化加工,本文本着方便读者检索、提供图书馆多样服务的原则,在充分考察报纸数字化的最新技术的基础上,针对馆藏《青海日报》老旧报纸的数字化加工建库工作进行项目论证。

一、《青海日报》老旧报纸数字化的必要性

据统计,1995年至2004年,全国只有15家报社投资历史报纸数字化项目,2005年到2006年,投入制作的有10家。近年来,向“数字报业”转型已成为全国报业的共识。《青海日报》作为中共青海省委机关报,创刊于1949年10月20日,《青海日报》忠实记录了青海省解放以来的历史变迁、文化发展、生产实践等综合性知识,是青海地方政治、经济、文化、社会发展、风俗民情及自然资源等的综合反映。经过70多年的厚重积淀,《青海日报》既是一部鲜活的青海地方志,也是保存地方记忆、传承地方文化的重要载体,是研究青海的文史资料、发展青海的决策参考。但众所周知,报纸所采用的新闻纸不是可以长期保管的档案介质,青海省委党校图书馆收藏了该报自创刊至今的纸质报纸,由于纸质版报纸受馆藏条件限制,1960年以前报纸由于受损、受潮、菌害、酸腐现象严重。近年来校院教职工对历史报纸的需求不断上升,以党史党建教研部为甚。2021年是中国共产党建党100周年,对《青海日报》过报历史见报数据进行技术性开发,充分挖掘见报数据的价值,既为建党100周年献礼,也为充实校院数字图书馆服务内容,满足读者对青海历史资料的检索需求,实现历史见报数据的增值利用,对青海省文化建设、历史事实还原、舆论引导有一定的现实意义。此外,开发以历史报纸为基础的全媒体数据库,利用历史报纸数字化最新成熟技术和新闻分类标准,对报纸版面制作环节采用版面全信息重构,建立技术先进、管理便利、通篇检索、具有良好兼容性的数据库,形成新闻数字内容的服务平台,以更加快捷、方便、真实的方式,为用户服务。

1.老旧《青海日报》数字化是解决文献资源保护与利用矛盾的有效途径

老旧报纸数字化,就是通过最新数字出版技术把纸质报纸上的内容进行扫描、文字识别以及插入音视频或动画进行版面重构等一系列步骤,转换成可以被电脑、手机、平板等多终端使用的格式,通过互联网展现的一种基于PDF版面的Flash形态的多媒体数字报。《青海日报》老旧报纸由于长期保存在库房里,重藏少用,少有读者。由于党校图书馆多次馆舍搬迁、报刊库房调整,长期封存的报纸纸张,由于年代久远,大部分报纸已经老化、发脆、破损严重,假如继续以旧报纸提供读者查询、翻阅,将造成更为严重的破损。而老旧报纸数字化后,则可以在保护文献版权的同时,放开使用权限,尽可能使用户利用网络不受时空限制的查阅资源,还可以通过加密、禁止非法下载等相关手段保护版权,报纸数字化的信息在检索、复制、传输上可以给读者提供极大方便,不仅可以被多人同时重复使用,也有利于报纸原件的保护,切实做到了旧报纸的保存与利用并举,从而解决了保护与利用的矛盾,对于提高资源的利用率,实现资源的社会功用具有十分重要的现实意义。

2.老旧《青海日报》数字化便于挖掘旧报纸的史料价值

我国近代办报人提倡“秉笔直书”“春秋笔法”精神,这也就是为什么近代以来会将新式报纸或新闻纸看作史书的延续。英国萨里-罗汉普顿大学历史学教授约翰·托什在《史学导论》中就曾说英国早期报纸“它们记录了当时产生最大影响的各种观点”“提供了对事件的日常记录”“经常会提供有关一些问题的更全面的调查结果”等,研究青海历史,老旧《青海日报》中有最重要、最可靠的史料,其史料价值需要重视,在相关研究中应注意收集并挖掘。郑曦原的《帝国的回忆》就是利用《纽约时报》晚清对华报道选编,和《泰晤士报》晚清改革观察记,翻译编写而成的。

老旧《青海日报》作为当时历史的真实记录,其时代特征中蕴藏着许多极其珍贵的史料,如实记录了当时社会政治、文化生活、经济、新闻动态等诸多方面的现实状况。为充分发挥旧报纸的潜在史料价值,满足不受时空限制的研究利用需求,数字化开发老旧《青海日报》刻不容缓。

从另一方面说,报纸是一种有历史积淀的印刷文献,一直是各类型图书馆收藏、整理、编目的主要对象。老旧报纸的数字化开发便于检索,这就为我校及学者的多学科、多视角的学术研究开启了便利之门。

二、老旧《青海日报》数字化的主要内容

1.纸质资料数据处理

限于当下图书馆普遍存在数字化技术设施设备缺乏、人员技术水平参差不齐,最新报纸数字化技术适宜引入数据商对图书馆馆藏1949年10月2日至1989年12月纸质报纸进行数字化处理,生成高清晰度图像及文档。

数据商利用先进的技术和管理方式,解决报纸在处理版面数字化过程中存在的问题,诸如版面还原不清晰、文字错误率高、字形还原非原貌等遗憾和缺失,特别注意针对2001年1月1日《中华人民共和国国家通用语言文字法》生效前的非规范汉字(含繁体字、港台字、试行简化字等)的正确表达。实现目前行业普遍实行的标准数字报刊功能,在保留目前现有数字报刊功能的基础上,增加如下主要功能:

建立以XML对报纸结构和內容进行描述和封装的数据基础,实现信息的多通道发布和个性化服务;创建文本间的关联、特殊的交互设计实现文本的输入、跳转、检索等操作;图片采用动态链接,实现视频新闻链接,增加新闻的附加属性;利用多媒体技术中的线条处理技术,条块分割成各自独立的信息空间;利用多媒体技术实现对内容的分类导航、导读功能;采用国家新闻分类法标准和数字化技术标准,将版面结构和版面内容等完整信息实施数字化展示。

2.数据索引及数据库特性

实现数据索引,使用基于概率和词典的分词库数据索引技术,上万条记录情况下,检索响应时间不超过1秒,且数据库具备以下特性:

(1)安全性。索引数据自动定期进行备份,备份目标支持本机和远程服务器。提供手动备份和自动备份选项,自动备份又分为定时备份和指定时间间隔循环备份,备份工作进行一次设置后,无需后续干预可有效运行。随着资源库中数据的不断增加,索引库也不断增大。系统允许对索引库进行分割,分割后检索效率不受影响。支持按日期进行索引库的自动分割。

(2)灵活性。系统中索引数据库可以是多个,按照语种、资料类型等生成多个索引数据库。索引数据可以按照任意的规则进行排序,例如可以指定某一时间段内的文章,或者文件大小在某一范围内的资料,均可以作为筛选条件应用于索引数据库中,筛选的结果还可以按照正序和反序进行自动排列。

(3)易用性。索引数据库中,除保存索引数据,还需保存附加信息,例如资料原文,数字指纹,日期信息,内部编码和其他定制的信息。对于不同的索引资料,可以通过设置配置文件,来决定要索引的字段,要保存的字段。

实现全文检索。基于索引数据库和用户给出的查询条件,实现快速读取,对海量信息的检索在毫秒级时间内完成。用户可以使用中文、英文进行检索,检索结果界面友好、信息丰富、分类清晰,检索结果按照相关度进行排序,同时,参考用户使用习惯、大数据分析结果、数据聚合信息等,对检索结果的排序进行调整,提升用户的使用体验。检索系统能满足以下要求:

①支持多种编码

对于不同编码的检索关键词,系统能自动识别和转换。无论是中文的GB码,BIG5码,系统都能正确识别并统一转换成UTF8编码,能在索引数据库中正确查找到需要的结果。

②支持多关键词

多关键词之间可以指定逻辑关系,如逻辑“与”,逻辑“或”,逻辑“非”等,并且多个关键词能自动按照权重对结果进行排序,提高检索的易用性和准确性。

③高召回率、高准确率

提供精准的中文分词,中文分词准确、完整,在检索时,对用户输入的检索关键词进行分析和分词,如果检索结果不理想,自动进行二次精细分词,再次查找,确保查询精确度。

④模块化可升级

全文检索的分词部分、检索部分、展现部分独立模块化。每一模块有自己的配置文件,可以单独进行配置。如果需要对某一模块进行升级,仅需要替换该模块的动态库即可。各个模块所使用的词典,语料库等,可以随时替换更新。

三、老旧《青海日报》数据库建库原则及结构设计

构建《青海日报》老报纸数据库不但充实了图书馆的数字资源,而且读者能够在极短的时间内获得自己想要的文献资料,实现图书馆“收藏”和“使用”的有机统一为最终目标。构建《青海日报》老报纸数据库时需坚持以下原则。一是先进性思想,在数据库的建设上要具有高强度的检索性,确保检索在各种环境下能够进行,包括系统脱机、光盘、联机与网络检索等,同时为了能够获得检索的全面性,内容要做到详尽,覆盖要全,能够满足不同读者的各类信息需求,才能确保读者一次就可以搜索到自己所需要的文献资料。二是发展性原则,数据库的构建要确保每个时段系统发展的一致性原则,还要确保将来数据库的发展,以达到符合社会发展性原则。三是协调性原则,在数据库的建设中要朝着集约化、正轨化、统一化、全面化、产业化和规模化方面发展,对信息化资源能采取取长补短,有效互补,使得数据库的使用范围变得更广,确保社会效益的有效提升,以此实现资源的真正意义上的互通。

数据库的结构设计是数据库建设质量高低的一个重要性参数。《青海日报》旧报纸信息格式包含文本、图片,基本字段为标题,主题标题、引题、副题、提要和小标题等标题。《青海日报》老旧报纸特色数据库应提供多类型检索方式,而且都可以在系统内存在,包含分类查询、关键字模糊检索、数据库分类检索、数据库高级检索等方式。本文库有效采用TRS全文检索系统里全文检索功能,提供各种方式的全文检索,包括整个字段检索、组合检索、文章关键字检索,以及二次检索,方便用户从不同角度找到自己想要的数据。本项目宏观上分为两大环节,一是馆藏旧报纸的整理、数字化,二是搭建多媒体数据库。

四、老旧《青海日报》数字化建库工作的重点难点

本课题采用经验总结法进行数字化建库,经验总结法是通过对实践活动中的具体情况,进行归纳与分析使之系统化、理论化,上升为经验的一种方法。总结推广先进经验是人类历史上长期运用的较为行之有效的方法之一。

系统总体结构要求实现入库、索引、WEB服务和客户端四部分,并设计相应的数据库。入库程序实现内容的自动、手动导入;索引工具构建索引;WEB服务响应用户的查阅请求并生成读报页面或检索结果页面。

阅读页面要求实现原版原式,给读者原汁原味的读报体验,与纸质报刊版面效果、字型完全一致。实现流行的阅读视图,包括版面图,版面导航,标题导航,及“上一版”“下一版”和“上一期”“下一期”导航区。版面导航能够以合理的形式列出本期报纸所有版面,并可点击跳转到相应版面。标题导航能够以合理的形式列出本版报纸所有文章标题,并可点击跳转到相应文章。同时,要求实现全部报纸内容的版面、标题、图片导航功能。总之,整合《青海日报》的各项新闻资源,实现新闻资源标准化、智能化的统一管理,实现新闻历史数据库建库工作。

参考文献:

[1]王茂华.历史报纸档案数字化项目的几点经验:《重庆日报》历史报纸抢救工程的回顾与总结[J].新闻研究导刊,2013.5.

[2]胡阳.《沈阳日报》历史报纸数字化的开发与应用[J].中国记者,2017.

[3]刘家强.辽宁省图书馆藏旧报纸数字化管见[J].圖书馆学刊,2013.

[4]玉翠玲,刘斌.大学生媒介文化概论[M].北京,北京师范大学出版社,2016.

[5]张艳国.大学本科毕业论文创作指导[M].武汉,华中师范大学出版社,2017.10.

(作者简介:李秀东,中共青海省委党校图书馆研究馆员。研究方向:中小型数字图书馆建设。徐培德,中共青海省委党校图书馆研究馆员。研究方向:数字图书馆建设及读者服务。)

猜你喜欢
版面日报检索
打了疫苗还感染,为何还要打疫苗
CNKI检索模式结合关键词选取在检索中的应用探讨
通过实际案例谈如何利用外文库检索提高检索效率
瑞典专利数据库的检索技巧
A Survey of Research on Fine—grained Sentiment Analysis in Chinese
英国知识产权局商标数据库信息检索
两会党报传播力总榜出炉:浙江问鼎
灵感日报
版面撷英
求果