公共图书馆民国报刊数字化建设现状研究*

2021-07-08 06:42林卫东李洪梅
山东图书馆学刊 2021年3期
关键词:民国报刊全文

任 静 林卫东 李洪梅

(山东省图书馆,山东济南 250100)

1 引言

民国报刊是历史的忠实记录者和具象体现者,也是社会发展变革的助推动力和必要条件。民国报刊能够还原更多民国时期的历史细节,具有更为重要的史料研究及现实意义。民国报刊年代久远且保存情况不容乐观,严重影响了它的利用。民国出版的报刊多为土纸,俗称“马兰纸”“毛头纸”,纸张主要用稻草制成,在造纸过程中加入了漂白剂和松香、明矾等添加剂,酸化严重,不易长期保存。国内大部分图书馆保存库房虽然能够做到防火、防水、避光、恒温等措施,可是保存状况仍然堪忧。目前民国文献保存状况,按照《古籍特藏破损定级标准》,进行定级,民国报刊接近一级破损。有相当数量的报刊开始散佚漫漶,甚至一触即破,濒于损毁。面对惊人的老化速度,将纸质民国报刊数字化可以延长民国报刊的使用寿命,也有利于实现民国报刊的共建共享。

数字化是对民国报刊原件最大程度的保护,是延续民国报刊生命的有效措施,一方面可使得民国报刊信息得以永久保存,另一方面也可为读者高效率的获取一次文献提供便捷。通过数字化建设,读者可以高效便捷的获取一次文献,还可实现民国报刊数字信息资源的全方位、便捷、高效的信息传递服务。数字化可以节约科研工作者的时间,还可以极大地便利全国各地读者和海内外专家的检索,并有效地节约了读者和海内外专家在文献收集方面所需的时间成本。大部分馆藏丰富的图书馆,多已经建成了包括期刊全文库、报纸全文库、馆藏书目数据库和报刊类专题数据库等多种类型数据库。

2 民国报刊数字化建设现状

目前公共图书馆共建有各种类型民国报刊数据库约60种,其中可通过购买获取的综合性民国报刊数据库有十余种,如“全国报刊索引——民国时期期刊全文数据库”“大成老旧刊全文数据库”“全国报刊索引——中国近代中文报纸全文数据库”“古联——晚清民国文献平台”“瀚堂——近代报刊数据库”“睿则恩——中国近代报刊原文影像数据库”“商务印书馆《东方杂志》期刊全文检索数据库”“爱如生——中国近代报刊库”等[1]。这些可购买的数据库都是文献开发程度较高,收录资源的范围和数量大,已经有一定市场影响的产品。

笔者对31个省级公共图书馆和15个副省级公共图书馆进行调研,调研主要集中在五个方面,包括建设类型、建设时间、数字化形式、资源数量和建设形式。经统计,在民国期刊数据库的建设中,有7家公共图书馆建设了综合性期刊全文数据库,建设时间最早的是上海图书馆和重庆图书馆,都实现了PDF格式全文数字化,建设形式采取自建和外包相结合建设的的图书馆较多。建成民国期刊书目数字化的公共图书馆有20家,书目数据库能实现民国报刊基本检索信息,都能提供网上书目查检,部分期刊可进行篇目查检。多家公共图书馆结合自身馆藏特色建有以馆藏特色为基础的期刊专题数据库。专题数据库相对于全文数据库来说规模较小,但是能够挖掘馆藏特色,是全文数据库很好的补充。在民国报纸数据库的建设中,建有综合性报纸数据库的公共图书馆有8家,除国家图书馆的“民国中文报纸资源库”实现了标题OCR文字识别,其他数据库都是PDF格式全文数字化。建成民国报纸书目数据库的公共图书馆有10多家,民国报纸专题数据库一般以大型有影响力的报纸为开发对象,突出地方特色。另外,由于文献集中保存的原因,很多公共图书馆的民国报刊与民国图书、古籍共同保存,所以在数字化时也存在民国报刊与民国图书、古籍共建的情况。专题数据库的建设中,尤其是图片数据库中,部分资料或者图片来源于民国报刊。

2.1 民国期刊数据库建设现状

民国期刊相对于民国报纸得到了有效的开发和整理,民国期刊数据库按类型又可分为综合性全文数据库、书目数据库和专题数据库。

2.1.1 综合性全文数据库

目前共有7家公共图书馆建设了综合性期刊全文数据库,以“全国报刊索引——民国时期期刊全文数据库”为例,是目前所有民国报刊数据库中收入期刊种数和数量最多的数据库,共收录民国期刊2万余种。该数据库影响力也非常大,已经服务到300多家国内和海外的公共图书馆、高校图书馆以及情报研究机构等[2]。公共图书馆建设的综合性期刊全文数据库具体概况如表1所示。

表1 公共图书馆民国期刊综合性全文数据库建设概况

已经建成的综合性民国期刊数据库有三个特点:第一,在建设原则和建设规模上,都是以馆藏特色为基础,采取边建设边完善的原则。也有部分图书馆采取缩微胶片的形式进行转换,分期分批进行数字化转换,如国家图书馆、天津图书馆、浙江图书馆等;第二,在检索功能和阅读功能上,目前已开发的民国期刊数据库在功能上非常注重检索功能,能实现按照题名、责任者、出版者、出版时间等多个检索字段进行检索。大部分数据库都能实现界面友好便捷的阅读体验,部分数据库阅读界面能够实现图文对照;第三,在开放获取上,只有国家图书馆和杭州图书馆可在外网提供免费全文浏览服务,其他数据库仅限于馆内获取,所有数据库登录之后都可实现全文浏览并且提供全文下载。因此,公共图书馆可以考虑如何最大程度地放宽用户限制,有意识地扩大数字资源的用户范围,使数字资源实现最大化的共享。

2.1.2 书目数据库

民国期刊书目数据库包含了民国期刊的基本著录信息,目前完成期刊书目数字化的公共图书馆有20家,如大连图书馆、重庆图书馆、江西省图书馆、首都图书馆、安徽省图书馆、山东省图书馆等。公共图书馆在进行全文数字化之前基本都建立了书目数据库,如重庆图书馆的“民国期刊书目数据库”包括题名、著者、出版地、出版者、出版时间、分类号等基本书目信息。后来重庆图书馆建设的“馆藏民国文献检索系统”投入使用,该库结合书目数据库和全文数据库,提供多种查询途径,可以全文下载阅读。此外,南京图书馆建设了“南京图书馆建国前中文期刊分类目录”、广东省立中山图书馆建设了“建国前广东期刊库”、大连图书馆建设了“馆藏旧报刊目录数据库”、四川省图书馆建设了“馆藏新中国成立前期刊(缩微品)目录”、辽宁省图书馆建设了“馆藏建国前东北地区期刊库”等。也有公共图书馆没有建库,但是已经完成了书目数字化工作,如2003年首都图书馆馆藏的2900余种期刊就全部数字化完毕,在此基础上又进一步开发了多个专题数据库。山东省图书馆在2013年也完成了馆藏2500余种民国期刊的书目数字化工作,并以此为基础近些年共完成了国家图书馆民国时期文献保护中心资助的四个民国时期文献整理出版项目。

2.1.3 专题数据库

很多图书馆在专题数据库建设上独具特色,有单独的民国期刊专题数据库,有从民国文献资料中析出的专题数据库。目前单独的民国期刊专题数据库数量不多,有上海图书馆开发的以学科为主题的专题期刊数据库“近代民国中医药专题数据库”和“上海年华——中国现代电影期刊全目书志”(非全文数据库)[3],前者从民国著名中医药学期刊中精选专题数据17万余条,全面收录近代中医药重要期刊,是研究近代中医药史重要的检索工具,后者共收录电影类期刊杂志300余种,全面客观地展示中国现代电影类期刊的发展历程。

2.2 民国报纸数据库建设现状

公共图书馆开展民国图书和民国期刊的数字化工作较早,民国报纸却因出版频率高、发行量大、收藏完整性难以保证、原件脆弱等原因,数字化工作进展缓慢。

2.2.1 综合性全文数据库

民国报纸数据库收录规模最大的当属国家图书馆建设的“近代报纸数据库”和上海图书馆建设的“中国近代中文报纸全文数据库”。国家图书馆的“近代报纸数据库”共收录民国报纸400余种,以国家图书馆的馆藏为主,其他图书馆所藏的报纸为辅,收录具有全国影响或在某一地域影响较大的报纸,提供基于标题的篇目检索,报纸篇目内容(包括引题、标题和副题)进行OCR文字识别,并能够准确定位到单篇内容位置,方便使用者进行查阅[4]。上海图书馆的“中国近代中文报纸全文数据库”收录了《新闻报》《时报》《大公报》《小报》《上海泰晤士报(英)》《大美晚报(英)》《民国日报》《益世报(天津)》《中央日报》《大陆报(英)》《上海晚邮(英)》《上海差报(英)》《中华快报(英)》13个报纸数据库,每种报纸都收录了从创刊至终刊的所有版面。《益世报》除收录天津版外,还收录了西安版、上海版,《大公报》收录了天津、上海、汉口、香港、重庆、桂林多地出版的报纸。《小报》包含近千种民国时期有广泛读者的报纸。另外,国内多个图书馆也开展了民国报纸数字化工作,具体概况见表2。

表2 公共图书馆民国报纸综合性全文数据库建设概况

民国报纸数字化建设存在以下三个特点:第一,民国报纸数字化主要是集中在馆藏和数字化经验较丰富的图书馆,民国报纸数字化工作要晚于民国期刊数字化。民国报纸的大规模整理和保护工作还未完全开始,已数字化的报纸种类均不多,存在扎堆大型官报或影响力大的报纸的情况;第二,目前已经建设的民国报纸数据库采用缩微胶片转换形式较多,缩微胶片转换可以保护民国报刊原件的二次损伤,但是缩微胶片受印本质量、缩微倍率等因素限制,图像的清晰度差异较大,文字识别难度比较大;第三,民国报纸数字化过程中遇到的问题较多,如排版无规律、版面不确定、报纸副刊多、篇目内容、广告、无标题的照片、漫画、题词、简讯、信件等的处理等问题深深影响着数字化工作的各个操作细节。

2.2.2 书目数据库

目前完成报纸书目数字化的公共图书馆有10余家,如重庆图书馆的“民国报纸书目数据库”、四川省图书馆建设的“馆藏新中国成立前报纸(缩微品)目录”、南京图书馆建设的“南京图书馆建国前中文报纸目录”、广东省立中山图书馆建设的“解放前广东报纸库”等。首都图书馆也完成了馆藏200余种报纸的书目数字化工作,山东省图书馆完成了馆藏300余种民国报纸的书目数字化工作。这些书目数据库都是建设综合性全文数据库和专题数据库的有力支撑。

2.2.3 专题数据库

专题数据库一般以大型有影响力的报纸为开发对象,突出地方特色。民国报纸专题数据库建设有突出地方特色的报纸专题数据库,如上海图书馆建设的“字林洋行中英文报纸全文数据库(1850-1951)”,收录了7种中英文报纸,真实生动还原了近代中国的历史。首都图书馆建设的“北京记忆·昨日报章”专题数据库,包括《京报》《顺天时报》《北平日报》《京话日报》《群强报》《益世报》等报纸。宁波图书馆建设的“《申报》宁波史料(1872-1949)”主要收录《申报》中所有宁波的史料。这些专题数据库充分展示了公共图书馆的地方特色资源,充实了公共图书馆的数字化内容。

2.3 民国报刊与民国图书、古籍共建的概况

部分图书馆民国报刊与民国图书、古籍同时建设,没有单独分类,如厦门图书馆建设的“馆藏民国文献数据库”收录有民国文献1万多种包括图书、期刊、报纸等不同载体的文献。广东省立中山图书馆建设的“缩微文献全文数据库”不仅包含民国期刊554种如《外交公报》《商业月报》《筹赈月刊》《赏奇画报》等[5],民国报纸490种如《广州民国日报》《广州民生日报》《中山日报》《广东日报》《粤江日报》等,还包含民国图书和古籍。广东省立中山图书馆建设的另一个数据库“特藏文献数据库”除了收录民国期刊和解放前民国报纸外,还包括广东图书(解放前)、民国书目、广东辛亥革命图片等多种文献类型。

这种情况也存在于专题数据库建设中,如南京图书馆建设的“中国近代文献图像数据库”收录了143种馆藏文献中析出的历史照片和图像近12万张,涉及民国历史、人物、艺术、商业等多个领域,包括“抗日战争历史图库”“百年商标”“老商标老广告数据库”“红色记忆图片数据库”“百年人物”等图片库,基本涵盖了民国时期出版的图片资料[6];首都图书馆2017年自建的《世纪写真——民国时期的百态民生图文库》专题数据库,收录反映民国时期社会发展的文章和图片,有文教天地、社会万象、市井风情、时事写真、影剧国粹、帝都旧影等几个栏目;“上海图书馆藏淞沪抗战图片库”以图片形式再现两次淞沪战役的全貌,从馆藏的中、英、日语历史文献中选录相关图片达8000余帧;广西壮族自治区图书馆“广西民国照片数据库”汇集民国时期老照片1228张;重庆图书馆研发的“中国抗战大后方3D数字图书馆”,既包括抗战时期出版的各种报纸和期刊,还有抗战时期的视频资料和名人手迹等。

3 民国报刊数字化建设的四点思考

根据上述介绍和分析,公共图书馆建设的民国报刊数据库已经提供了很多可供参考的经验,公共图书馆在进行数字化建设时还应考虑以下四个方面:

3.1 可以通过普查尽量减少重复建设

已经建设的民国报刊数据库,基本都是基于本馆馆藏建设的,有许多与其它馆重复的报刊。比如《大公报》,首都图书馆的“北京记忆·昨日报章”专题数据库、上海图书馆的“中国近代中文报纸全文数据库”、天津图书馆的“民国报纸数据库”都收录了该报。造成这种情况的一部分原因是无法准确查到各馆馆藏情况。目前民国报刊只有《全国中文期刊联合目录(1833-1949)增订本》和《解放前中文报纸联合目录草目》两个收录比较全面的目录,民国报刊底数不清,存藏情况不明。2018年国家图书馆民国文献保护中心启动了民国报刊普查工作,有十几家单位申报试点,综合评估后有国家图书馆、上海图书馆、重庆图书馆、山东省图书馆、广东省立中山图书馆等八家单位先做起来,目前国家图书馆已经完成报刊数据普查,上海图书馆和重庆图书馆已经提交了部分数据。通过全国性民国报刊的普查和整理工作,可以为民国报刊整理开发的总体规划、各收藏单位的特色专题规划提供分析依据。准备进行民国报刊数字化的公共图书馆建设时可以有的放矢,还可以查漏补缺,保证每种报刊的连续性和完整性。

3.2 建设数字化标准,为长期保存和后期开发奠定基础

已建设的民国报刊数据库,数据标准不统一,数据质量也有差别。数字化程度也不尽相同,有的能实现题名检索,有的只能实现报刊名检索,只有少数能实现全文检索。民国报刊数字化目的是尽量减少文献原件的流通使用,因此应该在项目立项之初慎重考虑,做好调研工作,高标准地制定技术标准,数据库建设的标准化包括扫描工作的标准化、数据著录的标准化和质检工作的标准化。扫描工作最好一步到位,考虑到数据质量以及未来灵活转换,扫描格式建议为RAW无损格式,建议存档文件选取色彩为24位彩色,格式选择为TIFF、JPEG2000,图像分辨率至少要达到600dpi,为民国报刊的后期开发利用和长期保存奠定坚实的基础。建库时上传数据最好选择PDF格式,这样各种浏览器、数据库都能兼容支持。数据著录和质检工作可利用计算机技术和现代化手段提高数据质量。

3.3 专题数据库建设可以借力民国报刊的影印出版

专题数据库的建设已经开始受到关注并将有统筹地推进,为专业学科或某一领域的研究提供更全面和专业的资源。专题数据库的建设可借鉴民国报刊影印出版物的选题模式[7]。近年国家图书馆出版社、线装书局、中华书局、岳麓书院、上海辞书出版社等各大出版社出版了很多民国报刊专题汇编。如国家图书馆出版社出版的《民国时期漫画杂志汇编》《国立北平图书馆英文期刊汇编》《民国期刊资料分类汇编》《民国时期山东革命根据地红色期刊汇编》《二战后日本战犯审判报刊资料汇编》、线装书局出版的《中国近现代女性期刊汇编》、中国书店出版的《民国国术期刊文献集成》《民国佛教期刊文献集成》、上海辞书出版社出版的《中国近代中医药期刊汇编》等[8]。这些专题汇编也可以做成专题数据库更好地为读者利用。

3.4 适应市场形势,准确选择加工公司

近年,随着信息技术的发展,开展古籍和民国文献数字化的公司也增多了,同时已经破解了很多技术难题。图书馆除了自建数据库外,在开展民国报刊数字化时,需要多考察有经验且技术成熟的数字化加工公司合作来保证数据安全和数据质量。目前,全国有很多数字化公司能够实现民国报刊数字化工作,有多个数字化方案可供选择,比如,国家图书馆依托中国数字图书有限责任公司开展了民国报刊的数字化工作,重庆图书馆依托重庆西信天元数据资讯有限公司开展了民国报刊数字化工作,浙江图书馆、宁波市图书馆和杭州市图书馆依托杭州中元数据科技有限公司开展了民国报刊数字化工作,辽宁省图书馆和首都图书馆依托超星公司数字集团进行了数字化工作等。

猜你喜欢
民国报刊全文
百强报刊
《小学生必读》再次入选向全国少年儿童推荐百种优秀报刊
他们为何都爱民国?
青年再造
发现“西方中医”
反腐
来信
民国人爱刷朋友圈
在“门”字内加字可以组成新的字,试着填填下面的空吧!
民国书家与民国书风