资源库数据建设:数字出版的重中之重

2016-01-19 11:57叶延春
出版参考 2015年18期
关键词:资源库图书加工

叶延春

在数字化转型升级过程中,中国建筑工业出版社实现了全媒体形态的预期目标。转型升级内容覆盖了从选题策划、内容组织建设到产品研发、产品销售的全业务、全流程,开发了涵盖电子书、网络课程、数据库和移动阅读App等产品。数字产品包括,已上线的“中国建筑出版在线”、工具书在线、“建筑文库”移动阅读、数字期刊平台等,另外还完成了英文图书元数据的推送等工作。这些多形态的数字产品,是建立在本社海量的资源库的数据基石之上的。利用资源库现有的资源,可以对图书内容实现结构化、碎片化、富媒体化;通过元数据标引、数据挖掘、数据关联,可以实现个性化、定制化服务,以便适应不同终端用户的个性需求。所以,资源库的数据建设、维护和管理是数字出版的重中之重,否则,前端多形态数字产品就将成为无源之水、无本之木。资源库工作庞杂繁复,如何让资源库的数据建设完善、规范有序,是数字出版中心相关人员必须不断思考的问题。

资源库的数据建设:要有独有的加工标准

资源库的数据建设从前期规划到具体实施是一个复杂的系统工程,也是一个从摸索中不断走向完善的过程。在这个过程中,我们致力于数据建设逐步趋向规范化和标准化。

资源库数据形式按内容可分为原始数据和基于原始数据的再加工数据;数据处理按加工手段可分为数据采集、审核、分类加工、发布等。

原始数据主要分为,从ERP和在线编纂系统采集到的图书信息,排版厂提交给出版社的排版文件和链接图,在线编撰的过程文件及最终文件等。

再加工数据包括:可带链接的、用于在线发布的PDF文件;结构化的WORD文档;EPUB文件;CEB文件等。

资源库的数据建设,按流程顺序,可分为图书详情信息采集、排版文件、图片、PDF、EPUB的采集(该采集是用定制的采集工具在内网批量上传)、标引、加工、审核、发布等。这些流程经过两年多的运行和经验积累,已形成建工社自身特色的加工标准:

⑴采集信息的唯一性。定期从在线平台或ERP系统读取已正式出版发行的纸质图书、电子图书。该阶段主要是读取图书详情信息,诸如:社书号,丛书名,书名,装帧,开本,定价,ISBN,图书销售分类,中图分类号等。读取的全部信息在库中留存,主要信息用于外网发布。采集时需要注意的是,出版资源库要坚持“一书一号”原则,即同一本书所有信息都能最直接地从一个入口找到相关的信息,同一个社书号,无论版次只能有一个建档。本书所有信息操作都是基于这个唯一的建档号。不仅如此,还要做到系列丛书能够有效关联,甚至后台资源之间、前台的不同站点之间也要能有效关联。

⑵采集信息的准确性。从ERP采集到的信息因各种原因,会存在信息不完整或有错漏的情况,需要人工标引。

要素标引完毕,还有“精编”项目:内容提要和目录内容。该内容可从ERP或排版文件读取,如不能读取则需人工录入。为保证采集到的图书信息准确,标引之后多人审核是必要的,审核无误后才可发布到外网。

⑶排版文件、图片、PDF、EPUB的采集。由排版厂提交到本社的排版文件和图片一般滞后于信息发布1-3个月。数字出版部门收到排版文件后,要对文件做两项必要的检查。一是要保证内容的正确性。二是检查排版文件的完整性。

内容检查无误后,可以用采集工具来按类型分门别类地批量采集。在采集工具中,不同数据类型如同一个个“盒子”,启动批量采集时可自动归入到相应的“盒子”中去。同一书号、不同版次的文件,不可采用批量方式,标明版次后需人工逐个插入到相应的资源文件夹中。可供采集的数据有:封面及正文排版文件、PDF、EPUB、CEB、插图、经典资源包等。

PDF文件在采集之前,要严格区分高精度(用于内网存档或内部职工因需调用)、低精度(用于外网售卖的电子书)、正文样张(用于外网读者的10%免费翻阅),批量上传。EPUB文件直接批量上传即可。

⑷数据加工。分基本加工和深度加工两种。

基本加工:是将排版文件加工成CEB,PDF,EPUB等格式。必须注意的是,PDF文件用于外网发布时,使用低精度,同时还要批量拆分10%的PDF文件用于PC端客户的免费浏览;用于资源库留存的PDF文件则应生成高精度。既有图书中,如果没有排版文件的电子版,可将纸质图书经过扫描生成PDF文件,整合成一个文档,通过OCR识别,扫描的PDF中的文字内容可以识别,可视为“字符”形式,以便内容检索和查找。

深度加工:主要是指将PDF文件、EPUB文件、由自动引擎版面回写的WORD文档,在已有的结构化基础上,按需进行深度碎片化、富媒体化。以建工社为例,经过深度加工成功推出了数字期刊平台,终端用户可通过检索期刊的栏目、标题、作者、文献,订制自己需要购买的文章。

⑸审核和发布。纸质图书的“编、校、印、发”有其完备的运作方式和标准,数字出版则不然。虽然数字出版早已不是什么新生事物,但在“审、校、发”方面,业界并没有形成统一的标准。出版社在转型初期都会面临审校过程操作性不强、严谨性欠缺、重视度不够等情况。

经过多年实践和摸索,建工社的数字出版物在正式发布之前的审校,已初步形成保障质量的运作方式和标准:一是不同流程由不同人员定岗负责。二是坚持全面检查、兼顾重点的制度。三是在无纸化的条件下,人机界面交互的同时与纸质样书核对。

审核无误的信息,定期由专人发布。资源库的数据是动态的,每天都会有变化。需要发布的信息,坚持定期、分批发布的原则。不是零散处理而是以时间段来加以区分,易于批量处理,也方便前后台的数据比对和查询。另外,需要提前发布的纸质图书或电子书,也有应急响应措施。

资源库数据的维护和更新:“看不见”的后续工作尤为重要

如果说数据建设是资源库的基础性的工作,那么资源库的数据维护和更新则是“看不见”的后续性工作。无论是内部人员在后台的数据调用还是终端用户在前台的数据访问,都要保证数据的时效性、准确性。因此,资源库数据的日常维护和更新就显得尤为重要。

⑴定期采集、发布新书。新书是指已出版发行的新版、再版、重印的纸质图书。每周由发行部门提供新书列表,数字出版部门根据列表,利用ERP与资源平台的接口读取相应字段,采集图书详情;扫描纸书封面并上传封面图片,标引,审核,发布。发布新书之前,由专人查看是否有前版,如有前版则从后台撤下,发布后“图书在线”只保留最新版。

⑵不定期整理需要深度加工的现有资源。资源库中数据庞大,为了避免过度加工、盲目加工,造成人力和物力的浪费,须由专门人员将资源库中需要再加工的、有市场前景的图书资源,根据其性质、特点,分别导出需要结构化、碎片化的图书列表,交由有关人员作相应的拆分,并将内容对象导入到相应的资源库,满足新的数字产品和商业模式的需要,提高内容的利用率。数字出版资源库里的出版资源可能会有多种类型,针对不同性质的图书资源采用不同的反解方式,并建立不同类型的资源库,如标准规范库、按篇章节拆分的期刊库、按条目拆分的汇编及专业词典库、职业资格考试的视频库、供终端用户有偿下载的图片库等。

⑶内外网已发布资源数量的定期核对。建工社的数字出版资源管理系统与发布管理平台处于同一个库中,出版资源管理平台的数据变动直接反映到发布平台,再由发布后台正式发布到前台的“图书在线”。在“中国建筑出版在线”上线初期,因为种种原因发布新书时偶有前后台数量不能完全对应的情况,需要按图书销售分类人工核对。为保证这些数据完全正确,分类核对做法沿用至今。主要核对内容:各分类下已发布新书数量;电子书总数;POD数量。三个平台的图书分类方式完全对应。

⑷“丢书”情况的查缺补漏。丢书情况分两种:一种是有库存的、从ERP里无法读取的,另一种情况是营销中心因种种原因没有提供样书的。定期核查营销数据中有库存的图书,只要库存非零,在“图书在线”前台必有在线销售;纸质书库存为零则自动纳入POD。每月由营销中心提供销售数据,正式出版发行的新书如因某种原因在前台没有在线销售信息,两个月内必须由人工补录。

⑸资源数据的导出和调用。资源库内的数据不仅是用来加工各种数字产品的,更重要的一个功能是本社图书资源的“仓储”。库内可调用的文件类型很多,导出时根据实际需要可按图书状态、入库时间、销售类型下载。编辑出版部门因图书的再版或重印需要调用原始文件时,可在资源库平台说明用途并在线申请,由部门领导在线核准、数字出版中心的相关人员授权后方可下载。授权时指定下载人员、可下载的内容、下载的时间限制等。严格“申请、审批、核发、授权、下载”程序,以策库内资源的信息安全。

⑹未雨绸缪,着眼于将来未知形态数字产品的资源建设。为适应市场变化和需要,数字出版资源库的建设都是为后续数字运营平台和自适应的动态出版系统服务的。为了保证将来的可扩展性,必须要求元数据内容的自定义和可扩展,加工处理的方式,也应向着智能化、自动最大化、标准化的方向发展。

总之,无论是资源库的数据建设还是数据维护更新,资源库相关人员都是面向社内外的用户服务;无论后端数字产品将来的形态如何变化,做好服务都是资源库团队的本职。以“一个团队、一个标准”的不变,应对数据服务内容的不断变化,是数字出版资源库业者孜孜以求的目标。

(作者单位系中国建筑工业出版社)

猜你喜欢
资源库图书加工
认识“超加工食品”
后期加工
图书推荐
贵州●石斛种质资源库
欢迎来到图书借阅角
高中历史信息化教育资源库应用探索
福建基础教育教学资源库建设研究——以福建基础教育网资源库为例
菱的简易加工几法