古籍数字出版的产业化发展探索

2023-08-29 11:16洪涛陈必佳
出版广角 2023年13期
关键词:古籍整理古籍数据库

洪涛?陈必佳

【摘要】近年来,我国的数字出版业迅速成长,在融合发展和产业化道路上不断探索。古籍出版领域的数字出版资源丰富,但其在产业化模式方面受众少、专业性强,难以打开局面,需要密切配合技术发展、人才培养等环节以形成聚合效应。中华书局在10余年前就开始古籍数字化的探索,为此成立古联公司专注古籍数字出版,在公司业务发展中摸索并形成了可持续的产业化模式,完成了将古籍数字化技术应用到古籍整理数字化出版的产业实践。

【关  键  词】古籍数字化;古籍数字出版;产业化模式

【作者单位】洪涛,古联(北京)数字传媒科技有限公司;陈必佳,古联(北京)数字传媒科技有限公司。

【中图分类号】G255.1【文献标识码】A【DOI】10.16491/j.cnki.cn45-1216/g2.2023.13.009

中国的传世古籍浩如烟海,是中华民族历史和文化传承的重要载体。新中国成立以来,国家高度重视古籍整理出版工作,成绩斐然。随着信息时代的到来和数字化浪潮的兴起,传统出版业的数字化转型成为时代趋势[1]。以知识服务为代表的服务模式与技术创新持续发展,融合出版和产业化运营成为出版领域共同关注的话题[2]。在数字化转型过程中,各出版社因分工不同而有不同的转型方略[3]。古籍数字出版在摸索中起步,逐步形成了成熟的生产流程和产业化模式。

在数字出版的专门领域,如何形成可复制、可操作、可持续的产业模式,并保持其有效性、营利性,是出版业热切关注的问题。当前,古籍数字出版依旧面临诸多困境,如受众范围小、市场规模可拓展空间有限、投资规模大、投资回报周期长等。产业结构模式转型是出版业在数字经济时代行业转型的有效路径之一[4]。从目前的数字出版产业来看,产品种类繁多,产业的内涵和外延逐步丰富,产业链和产业规模化逐渐形成。如何更高效率地生产古籍整理数字化产品,更大范围地满足用户需求,让古籍数字出版业务在现有市场环境下持续良性发展,是古籍整理从业者和古籍數字出版从业者共同关心的话题。

本文结合中华书局古联(北京)数字传媒科技有限公司(以下简称“古联公司”)在古籍数字出版产业化发展道路上的经验和实际情况,概括构建古籍数字出版产业链的总体思路:充分开展高质量的内容建设,为读者打造数字化内容精品;通过技术创新、打造众包平台、开展人才培训服务等形式,打造线上古籍整理和数字化产业链,进一步推进内容生产。

一、古联公司的发展历程及资源利用

1.发展历程回顾

古联公司脱胎于中华书局“古籍资源部”,成立于2015年8月,承担古籍数字化项目建设及相关数字产品的研发和推广工作。古联公司正式成立之前,古籍资源部早在2003年就开始古籍数字化工作的探索。经过10余年的准备,古籍资源部在2014年6月发布了中华书局推出的第一个古籍数字化产品——《中华经典古籍库》镜像版。基于对新时代数字技术发展的展望和对古籍数字出版产业发展的预期,次年10月,中华书局结合古籍整理出版的核心业务要求,将原古籍资源部改组,成立古联公司。在新的经营模式下,中华书局的古籍数字化工作进入高速发展阶段,结合数年的实践经验,产业化模式的框架和思路渐趋清晰。2017年7月,古联公司建立新闻出版业科技与标准重点实验室——古籍数字化与知识工程重点实验室,重点投入标准建设、自然语言处理、知识组织、技术开发,致力于解决我国古籍整理数字化与知识服务中的关键问题,确立了在古籍数字化领域的专研地位。

2018年4月,作为古籍整理出版资源平台的籍合网发布,古联公司开启了以此为基础的平台化建设。同年,籍合网在线众包编辑校对的工作模式全面启动,将古籍数字化与传统出版产业的工作流程相结合,加快大型项目的编校速度,服务纸书出版和数据库建设。从2020年起,一批古籍智能整理技术工具逐个落地,并广泛服务于古籍整理与编辑出版业务。2021年,致力古籍整理专业人才培训的平台籍合学院上线,该平台培训内容注重学术专业性和实践操作性的结合,在产业化服务中承担起为古籍整理出版建设人才梯队,并持续性输送人才的任务。至此,古联公司沿着中华书局进行古籍整理出版的脉络开展数字化工作,并完成了将古籍数字化技术应用到古籍整理数字化出版的产业实践。

2.充分利用资源,打造数字精品

《中华经典古籍库》是古联公司用以打造品牌效应的核心产品,该优质产品带来了用户和收益,也为古联数据库业务奠定了良好的基础。《中华经典古籍库》包括镜像版、网络版和微信版三种形态,其各自的运营和维护特点不同:镜像版是将产品部署在用户本地,在销售初期表现最好,符合广大国内机构的采购特点和需求;网络版的建设随着海外市场的开拓逐步发展起来,其突出优点是开通试用便捷,有利于数据统计和分析,更新服务及时;微信版针对个人用户,是市场上第一个可以通过微信公众号直接使用的大型古籍数字化产品,用户在“经典古籍库”微信服务号里可以进入《中华经典古籍库》进行检索和阅读,从市场角度来看,微信版的突出特点是售价低廉、使用灵活、传播快捷,在创造口碑、拓展用户方面发挥了重要作用。

《中华经典古籍库》充分利用中华书局优秀古籍整理出版成果,通过版权合作,将兄弟出版社的整理本古籍进行数字化并整理入库。数据库的发布标志着中华书局的古籍数字出版工作走向市场,开启全新的业务版图。2018年,《中华经典古籍库》获得第四届中国出版政府奖,在推动媒体融合发展、服务公共文化建设方面获得了高度认可。截至2022年底,《中华经典古籍库》上线资源22.5亿字,其中超过10亿字的资源来自中华书局以外的23家出版社。古联公司积极与各家古籍出版社进行资源合作,通过市场化运作,保证各出版社利益,将《中华经典古籍库》打造成全国性的古籍整理出版成果数据库。在出版成果的聚合与数字化之外,古联公司尤其重视原创性古籍数据库的开发,这也是今后古籍数字出版的生命力所在。

古联公司始终注重古籍数字化产品的质量,在通过数据库真实反映原书面貌的前提下,尽可能通过技术手段和工具为读者使用及阅读提供方便。在内容显示方面,数据库对标题、正文、注释内容进行严格区分,对书名、专名的显示加以处理,同时提供原书图像和文本页面的对照、标题目录到正文的链接、注号到注文的链接。在检索方面,数据库具有繁简字关联检索、忽略特定字符数的模糊检索等功能,提高了读者的使用效率。

3.扩大资源合作,拓展选题思路

古联公司的内容服务充分利用已经整理出版的纸书资源和学术作者资源。古联公司核心的数据库业务模式可以分为两种:一种是以古籍整理图书为对象的古籍数字化业务模式,将已有的古籍整理出版成果整合成数据库的形式服务用户;另一种是独立于纸书出版的古籍数字出版业务模式,将古籍文献通过数字化加工和整理后直接呈现在用户眼前。

古籍数字化业务模式接近于纸质出版物的升级和增值服务,而数字化只是纸书出版流程完成后的再加工。出版社出版的古籍整理图书通过数据编辑完成数字化,通过分类重组打包形成独立的数据库产品。除《中华经典古籍库》外,籍合网上的《中华古籍书目数据库》《中华文史学术论著库》等产品也是对已出版纸质出版物的重新加工整理,是依据市场定位形成的服务于不同读者的专题数据库。这种模式的数字化业务与中华书局的传统出版业务密不可分。

古籍数字出版业务模式独立于纸书出版存在,可以称之为古籍数字出版。其最鲜明的特点是不依赖于已有的古籍整理出版成果,直接利用历史文献进行开发,形成原创性的古籍专题数据库,因此能够弥补已出版资源的不足。这类数字出版物具有专业性强、主题明确的特点。近年来涌现的各家大型古籍数据库产品,给人文领域的学术科研带来了方法论的变革,学术机构和公共图书馆都在努力推进馆藏资源数字化,并购买各类数据库等电子资源供师生使用。数据资源的海量化不可避免地带来内容的冗余,这既给个人用户检索资料带来干扰,也增加了不必要的采购成本。同时,数据库的生产者为满足数据海量的需要,被迫减少了针对主题资源的个性化设计和功能性服务。古籍数据库虽然给读者带来了便利,但弊端也日益明显。考虑到不同用户的专业化与个性化需求,古联公司深入专题数据库的制作和研发,目前已经与十几位作者签约合作,制作完成的专题数据库涉及地方文献、口述历史、古代人物、出土文献、艺术与民俗等内容,代表性的数据库有《历代石刻总目数据库》《历代进士登科数据库》《陕西文献集成数据库》《殷墟甲骨文数据库》等。古联公司通过与作者的合作研发,突破了出版社资源限制,打开了古籍数字出版的局面,提升了核心竞争力。

上述两种业务模式分别对应“出版数字化”与“数字化出版”两个概念,都是数字出版的衍生含义,强调资源的整理、组织、聚合,以满足用户的内容消费需求为目的。前者是传统出版业在内容和形式上的延伸或扩展,后者不仅是出版介质的变化,更涉及生产方式、流通方式、销售方式的变化,以及出版组织形式、人才评价机制和考核体系的变革,是一种持续创新的产业形态[5]。古联公司成立以来,数据库产品从单一的《中华经典古籍库》系列发展到31个数据库,与23家出版社、13位作者开展版權合作,生成古籍整理成果30多亿字,涵盖专业古籍整理出版资源22.5亿字,石刻资源5万余篇,历代登科人物10万余条,木版年画18000余幅,书法作品10000余种,甲骨文卜辞143856条(数据截至2022年12月)。上述资源聚合在一起,构成了全国最大的整理本古籍资源数据库。古联公司通过多年资源积累与产品研发,为客户提供了便捷的数据库服务、多元的使用场景。截至2022年12月,古联公司拥有数据库机构用户150余家,服务个人用户20万人。

二、古联公司古籍数字化技术工具的开发与应用

1.技术工具

数字化出版最重要的特点就是利用技术工具进行编辑和数据处理。在业务发展的过程中,古联公司始终注重技术研发,开发了包括繁简转换、OCR文本识别、自动标点、专名标引等在内的一系列技术工具。智能化工具在传统古籍整理工作中表现不凡,技术工具的准确率不断提高,大大节约了古籍整理过程中的人工成本。目前,针对古籍整理的自动标点、繁简转换、命名实体识别的准确率已经可以有效地辅助阅读,为古籍整理提供帮助。OCR识别系统也在多个出版社进入大规模产业应用阶段。

2.众包平台

古籍整理众包平台在2018年开创古籍整理编校众包的工作模式,2020年正式上线能在移动端分发任务的i编纂小程序。在线众包平台和移动端小程序双线并进,展开了大量包括校对底本、引文核查、编辑整理、图像处理编排等在内的工作,极大地推进了古联公司的数据库开发进度,为中华书局等多家出版社提供了编校支持。

古籍整理众包平台包括编辑器和业务管理系统两大部分。编辑器对接文献处理工具,用户可以在线编校稿件。业务管理系统承担业务流程管理和用户管理:业务流程管理包括线下文件切割、上传任务系统、注册用户线上申领;用户管理包括个人信息和工作能力的审核、在线合同签订,以及后续的质检抽查。在实际的项目经验积累中,古联公司建立了稳定的在线众包团队,并进行分组细化管理。i编纂微信小程序在原有古籍整理平台的基础上增加了手机微信派单、用户申领抢单的模式。同时,古联公司还通过小程序中的个人工作排行、奖章标记等机制激励编辑,通过其中的指定派单提高编辑的任务适配度和工作效率。

3.编校系统

古联公司的数字化技术平台服务于不同的业务流程。2022年,古联公司将古籍整理相关技术工具整合成“古籍数字化整理平台”发布,编辑可以上传需要处理的古籍图像,通过人工智能的OCR文本识别系统识别成文本,并在系统内开展校对工作,校对好的文本再由计算机通过自动标点、自动标引专名线等功能进行辅助处理。平台还提供在线编辑功能,编辑可以进行文档结构的标引和编辑工作,最终生成Word文档或符合古联公司规范的XML文件。针对古籍编辑,古联公司还研发了文达编校——智能编校系统。该系统用于帮助编辑核对引文,检查文字规范、标点格式等常见错误,提高编辑的工作效率[6]。文达编校系统的开发疏解了古籍编辑的编校压力,让编辑更加关注稿件的内容质量。

4.标准建设

为保证质量,古联公司配合众包平台的古籍整理工作建立了合理的资格审批和质量审核机制。在数据库质量把控方面,古联公司拥有包括《数据加工流程总规范》《编辑器数据整理工作规范》《元数据规范》等在内的26种数据加工及技术开发标准,以规范数据库生产流程。这套数据加工及技术开发标准在2020年荣获中国质量协会颁发的质量技术奖二等奖,如今已成为多家出版社古籍数字化出版的应用标准。

5.字库和输入法

在技术工具开发中,古联公司注重古籍数字化的基础能力建设,为配合不同类型的古籍数字化和出版需求开发了字库和输入法。其中包括通用的中华书局宋体字库(13万字)及输入法,配合佛教文献出版和数字化制作的梵文悉昙体字库(7569字)、配合甲骨文文献出版及数字化制作的古联甲骨文摹寫字库(15445字),字库中的字形根据学术进展和资源数字化不断修订和更新。古联公司还为用户提供云字库,用户不需要下载字库就可以在网页上浏览古籍。

三、古联公司人才培养业务的拓展及产业闭环的形成

数字出版领域的人才队伍建设一直是出版领域讨论的重要问题,除了招聘和对选拔人才环节的把关,对于专业性较强的领域,提供专门的培训是出版单位人才管理的重要内容[7]。在资源、平台、工具三者具备的前提下,古联公司基于中华书局自身的内容和人才优势,将古籍整理实践和数字化时代下新的古籍整理出版要求相结合,建设培训课程体系,拓展人才教育和培训业务。2019年7月,中华书局主办、古联公司承办了第一届线下 “古籍整理编校研修班”。活动消息公布后反响热烈,来自全国550余位到场学员和2300余位线上学员参与研修。通过此次活动,古联公司看到了古籍整理从业人员及读者对培训的迫切需求。随后,古联公司在籍合网平台建立籍合学院,利用数字平台拓展古籍整理业务。此外,古联公司还专门组建培训部,调集具有专业背景的编辑进行视频整理和在线培训平台建设,为高校文献学专业学生、出版社从业人员、大众爱好者提供相关服务。

籍合学院在课程制作方面的合作对象主要是古籍整理经验丰富的高校教师、出版社编辑、文博机构研究员。籍合学院的课程体系包含通识、技能、案例、专题4部分。通识课包含古籍整理基础理论课程、文献学基础理论课程、通识性讲座等内容;技能课从古籍整理及出版工作实务入手,帮助学员提高注释、校勘、版本辨析等技能,并建立系统的知识框架,提供有实践价值的观点及方法;案例课围绕案例进行复盘分析,邀请有整理及出版实操经验和优秀成果的教师,为从业者提供最具指导价值的一手经验;专题课讲授古籍整理中常用、核心且具有一定难度的专题知识,完善从业者知识体系。

籍合学院目前主要针对三种类型的服务市场:大学课程合作、编辑继续教育和大众古籍整理爱好者的培训。其中,古联公司将籍合学院的资源和实践项目与高校的教学活动相结合,嵌入教学体系,为高校等教育单位提供教育资源支持,随着与高校合作的深入,培训内容逐步拓展到课程共建、合编教材等产学研合作。目前,古联公司已与多所大学开展课程共建工作,实现产品能力、课程资源与高校教师资源的优势互补,同时借此深入高校教学体系中,挖掘更多的应用场景。

籍合网上的培训平台与众包平台相互呼应,形成了在线学习、考试、认证、实践一体化流程。籍合学院的学员有一部分是古籍数据库的用户、读者,具备一定培训基础的学员在通过考试认证等资质审核后,就能在古籍整理众包平台或者小程序分领任务,逐步参与古籍整理、校对、编辑,成为古籍整理编校的生产者,已经是众包平台成员的学员也能通过继续培训不断提升自身的业务水平。读者、学员与整理者的身份由此形成流动性——籍合学院的优秀学员加入整理者团队,扩大古籍整理编校队伍,提高古联公司的古籍数字化的生产力,优秀的古籍数字化产品吸引更多的读者成为籍合网用户,从而形成产业闭环。

四、结语

内容是出版业的优势,古籍数字出版应立足内容,以用户和读者的需求为中心,开发有深度、有温度、符合市场需求的古籍数字化产品,利用科技赋能,促进融合发展[8]。古联公司的产业模式发展充分立足中华书局古籍整理出版的历史与经验,以用户需求为本,以社会效益和经济效益均衡发展为目标,守正创新,尊重市场规律,形成了可持续、促发展的优质产业链。新时期,古联公司将立足自身优势和特长,结合实践创新,探索产业融合发展更多的机会和可能。

|参考文献|

[1] 安玉滨. 我国数字出版产业发展现状及策略分析[J]. 黑龙江科学,2017(14):84-85.

[2] 张新新. 数字出版产业化道路前瞻:以专业出版为视角[J]. 出版广角,2014(18):33-35.

[3] 缪宏才,周典富,严岷. 出版数字化转型的思考与实践[J]. 出版广角,2022(5):61-64.

[4] 李海涛. 数字经济背景下出版数字化转型趋势探究[J]. 新闻爱好者,2022(2):106-108.

[5] 王曦,李弘. “十四五”时期推进我国数字出版业务工作展望:基于生产力发展视角[J]. 出版广角,2022(4):12-16.

[6] 徐仲莉. 构建智能图书编校排系统,助力图书出版数字化转型[J]. 传播与版权,2021(8):24-26.

[7] 肖丽娜. 信息化时代的数字化出版构想[J]. 传媒论坛,2021(15):87-88.

[8] 杨中启. “十四五”出版高质量发展的四个维度[J]. 出版科学,2022(4):5-13.

猜你喜欢
古籍整理古籍数据库
斯盐最灵,此籍可餐
——盐业古籍整理新成果《河东盐法备览合集简注》出版
中医古籍“疒”部俗字考辨举隅
论“明清实录藏族史料类编丛书”古籍整理工作
关于版本学的问答——《古籍善本》修订重版说明
关于古籍保护人才培养的若干思考
我是古籍修复师
对敖鲁古雅鄂温克人的古籍整理