浅谈数字出版资源的结构化

2017-03-28 07:48张国强沈
出版与印刷 2017年2期
关键词:标引结构化文档

张国强沈 菁

浅谈数字出版资源的结构化

张国强1)沈 菁2)

从数字出版的特征来讲,它必须有数字化出版资源作为基础条件。但是,用二进制数字编码记录、储存的出版资源,并非就是数字化出版资源,而只能说是数字形态出版资源。两者在数据组织方式、外部特征和形成的数字出版产品方面均有所不同。数字形态出版资源只有经过结构化处理才能形成数字化出版资源,结构化处理通常有“前结构化”“中结构化”和“后结构化”三种途径。比较而言,“中结构化”是现阶段一种较为理想的数字出版资源结构化的方法,其最大的特点是效率较高、成本相对较低、对编辑流程影响甚小。

数字化出版资源;数字形态出版资源;结构化处理

一、数字出版、数字—模拟出版和亚数字出版

数字出版是利用数字技术进行内容编辑加工,并通过网络传播数字内容产品的一种出版方式。它的基本特征是内容生产数字化、管理过程数字化、产品形态数字化和传播渠道网络化。其中的“管理过程数字化”不具有行业特点,目前已经见于各个行业的企事业单位和管理机关。另三个“化”则富有出版行业的特点。“内容生产数字化”和“产品形态数字化”,就意味着数字出版中精神文化内容的生产都是以数字化方式实现的,所提供给消费者的产品也只是可以解码还原成各种信息内容的编码数字,而不附加其他物质载体;“传播渠道网络化”,则表明数字出版产品仅仅通过信息网络就可传播,而不须利用任何交通运输工具。此外,数字出版还具有复制后置化、信息交互化、版本更新便捷、发行快捷化等附加特点。

可见,数字出版应该从编辑、复制、发行的出版活动全过程到最终产品的形态都全部实现数字化。有些出版活动仅仅部分应用了数字化技术,就不属于数字出版,只能视为具有数字化因素的出版活动。

譬如,利用数字化技术排版、印刷纸质出版物的出版活动,只能姑且称为“数字—模拟出版”。因为利用电子排版文件制作印版后印刷,实际上就是一种模拟方式;即使是数字印刷,虽然没有实体的印版,但也是要把编码数字先解码还原为相应的图文信息储存在具有类似印版作用的成像载体上,再把这些图文信息模拟重现在承印物上。更加重要的是,纸质出版物的产品形态并非数字化的,还停留在模拟状态,而且其传播必须借助交通运输工具。

再如,生产存储有电子书的手持阅读器或者载有各种作品(如文字作品、摄影作品、美术作品、图形作品、计算机软件、音频节目、视频节目等)的只读光盘、优盘、集成电路卡(IC卡)等的出版活动,虽然已经实现内容生产数字化,也难以归入真正的数字出版,姑且可称为“亚数字出版”。这是因为:其一,这类出版物产品都要随同特定的固定物理载体提供给消费者,没有实现产品形态数字化;其二,这类产品都需要在批量复制以后才开始发行,没有实现复制后置化;其三,这类产品都必须借助交通工具进行实体运输才能流通,没有实现传播渠道网络化;其四,其中有些产品虽具有信息交互功能,但仅限于消费者与产品之间,出版者对消费者在购买、使用产品过程中的个性特点基本上是一无所知。当然,无论是数字—模拟出版,还是数字出版、亚数字出版,都需要以二进制数字记录、储存的出版资源,而后两者更是将此作为必备的基本条件。

二、出版资源数字化

广义的出版资源,是指出版物产品形成过程中必须加以开发、利用的各种社会资源,包括人才资源、物质资源和信息资源。狭义的出版资源,则是指信息资源中可以转化成为出版物内容的精神文化成果资源,也称“出版内容资源”,其主要特点在于不会像物质资源那样在生产过程中被消耗后就不再保留原有的使用价值,而是会转移到出版物产品中形成新的出版资源,并通过后续的开发、利用而不断扩大和增加使用价值。本文中的“出版资源”都是就其狭义而言的。

出版资源的记录、存储,在很长历史时期内是采用模拟方法,即用人类视觉可以直接感知的各种符号把内容信息记录在甲骨、石头、金属、丝织品、竹简、木牍、纸张、塑料等载体上,或者利用电—磁之间的物理关系把图、文、声、像信息转化为磁信号记录在铁磁体载体上,或者利用电—磁—机械振动之间的物理关系把声音信号转换成机械振动轨迹固化在塑料上。

随着计算机信息技术的飞速发展,出现了数字化方式,即借助计算机或其他相应电子设备把各种内容信息按照特定的编码规则转化为二进制数字信号后记录、储存在磁、光、电等介质上,使用时再利用一定的电子设备将经过编码的数字信号进行解码,形成人类感官能够感知的信号。这种将出版资源以二进制数字信号记录、储存的过程,就是“出版资源数字化”。

以模拟方式记录、存储的出版资源,每使用一次都会有一定的损耗,所以会逐渐失真、报废。以数字化方式记录、存储的内容信息,除非载体或者解码设备损坏导致无法使用,数字信号本身在使用过程中不会有损耗,始终保持“崭新状态”。所以,数字化方式明显优于模拟方式。

三、数字形态出版资源和数字化出版资源

出版资源数字化的一般结果是形成“数字形态出版资源”。这类出版资源种类多样,从目前我国出版界的现状而言,它们的类型按其来源主要有如下一些:一是作者电子原稿。这是作者利用计算机等电子设备直接记录并储存的智力创作成果数字文件,其格式通常为Word或纯文本。二是计算机排版文档。这是由各种计算机排版软件形成的数字文件,如方正“书版”的FBD小样文件、PS大样文件,InDesign 的Indd 文件,等等,以及据此转换的CEB文件、PDF文件等。三是页面扫描图像文件。这是把已出版的纸质出版物逐页扫描后形成的数字文件,一般采取TIFF、JPEG、GIF、PNG、BMP等格式。四是光电扫描识别文档。这是将已有纸质出版物逐页扫描后得到的图像文件进一步利用光学字符识别(Optical Character Recognition—OCR)技术处理的数字文件,一般为纯文本。

虽然这些文件从出版的角度看,都是为出版工作服务的出版资源,而从信息特征这一角度来看,又都是数字形态的,但是,从数字出版的角度来讲,它们都还只是“数字形态出版资源”,而不是“数字化出版资源”。

“数字化出版资源”是指以二进制数字方式记录、储存并在数据组织结构上符合数字出版技术要求的内容信息,亦即可以直接供数字出版工作选择、组配使用的出版资源,如各种数据库文件,已经用XML(Extensible Markup Language,可扩展标记语言)作过标引的XML文件等。

数字形态出版资源与数字化出版资源的差别主要在于:第一,数据组织方式不同。前者是线性的,即信息的接受顺序与其存储的位置有关;后者是结构化的,信息存储的位置与接受信息的先后顺序无关。第二,外部表现特征不同。前者是被污染的,如Word文档,排版文档中有很多版面描述信息;后者则是干净的,除了精神文化内容本身外,没有其他无关的信息。第三,应用方向不同。前者可以用于数字—模拟出版、亚数字出版,而在数字出版中使用有限,一般仅可制作成以线性方式阅读的电子书刊或音频、视频产品,难以把多种媒体融合在一起,且有的还不能自如适应用户终端的特性(如PDF格式、CEB格式的电子书在手机和尺寸较小的平板电脑上使用都很不方便);后者可以作为各类数字出版产品的内容资源并顺利实现多种媒体融合,用其制作的数字出版产品能够很方便地适应各种用户终端的特性,同时还可以十分便捷地用于数字—模拟出版、亚数字出版,实现按需出版、全媒体出版等。

不过,虽然数字化出版资源有别于数字形态出版资源,但是两者之间并不存在不可逾越的“鸿沟”。因为两者都是用二进制数字信号记录、存储信息内容,所以,对数字形态出版资源进行结构化加工、处理(对页面扫描图像文件应在结构化加工前先进行OCR识别处理)后,就可以使之转化成为数字化出版资源。

四、出版资源结构化的途径

从目前的技术来看,根据相关技术运用的时间先后,出版单位实施数字出版资源结构化的途径大致有三种。第一,“前结构化”。这是对作者原稿进行结构化加工,即在内容创作、编辑的同时进行结构化标引,形成结构化文件。第二,“中结构化”。这是将结构化加工与排版过程相结合,即将内容结构化标记与排版指令合并输入同一文档,排版结束时既可导出结构化文件,也可导出排版文档。第三,“后结构化”,也称“反解”。这是对既有电子排版文件或者光电扫描识别文档专门进行结构标引加工,形成结构化文件。这三种途径各有特点,其应用的背景条件和所需的人力投入都有所不同。

“前结构化”需要有数字复合出版系统支持,才能高效地得到优质的结构化出版资源。目前,国外已有的数字复合出版系统(又称“双轨出版系统”)兼具版面输出功能和结构化资源输出功能,其特点是在用XML编写数字出版处理软件时,以XSL(Extensible Stylesheet Language,可扩展样式表语言)设计一个显示/输出软件,可以将XML处理的结果进行排版、印刷,最终同一文件可产生结构化数字文件和印刷排版文件两种文件。这显然是非常理想的。但是,数字复合出版系统目前存在一个很大的问题,就是对原有的创作、编辑加工流程干扰太大。作者或编辑在处理内容时还要兼顾内容的结构化标引工作,不但会被干扰分心和增加工作量,而且内容结构化标引的本身有一定的技术要求,作者、编辑如果不下一定的功夫学习、操练,一时难以掌握。我国目前还未见十分成熟的数字复合出版系统。况且,即使系统开发成功,正式投入使用前还涉及对作者、编辑的训练及编辑加工流程的变革。这些都需要假以时日。所以,在我国出版业实施数字化转型发展的当前阶段,前结构化还只是一种前瞻性的出版资源结构化途径,期望未来能够真正实现。

“后结构化”是对既往数据进行反解。采用这种结构化途径,无论是基于电子排版文件,还是利用光电扫描识别文档,都仅仅是节省了把内容信息输入计算机的人力,而实际上存在许多重复劳动,因为这是将原本已经合在一起的内容重新按照内容层级拆分开来,还要把原来存在的与出版物内容无关的版式信息和样式信息(如排版指令,页眉、页脚文字,页码及装饰性图片等)予以剔除。初步处理完毕的纯文本文件才能借助工具软件进行结构标引加工,并且对标引结果必须进行人工复核、修改。况且,对光电扫描识别文件还必须进行人机结合式的校对。可见,这种结构化途径的效率较低,通常只适用于对历史上形成的出版资源进行结构化加工,它在当前的出版业数字化转型发展中暂时有存在的必要,但是不应该作为出版资源结构化的主流。

“中结构化”即“结构化排版”。它既可避免“前结构化”因创作环境、编辑加工流程的变化而给作者、编辑人员带来的不便,也可避免陷于“后结构化”的“排版—反解—校对”的被动应对的困境。从理论上来讲,“中结构化”具备效率较高、成本相对较低、对编辑加工流程影响甚小等显著特点,可说是我国现阶段一种较为理想的出版资源结构化途径,可满足新产生的出版资源实现结构化的需要。

五、中结构化的基本方法

中结构化的实质,就是实现内容结构化标引与排版指令输入合一的“结构化排版”,以解决长期以来困扰出版界的排版文档不能直接用于数字出版的难题。这种方法大致上包括这样几个流程环节。

第一,制定标引规范。分析研究各种出版物的结构构成状况并分成若干类型,再依据XML文档编写规范规定对各种结构成分的标引方式,统一自定义标记形式或标引用语。

第二,排版兼标引。对稿件内容排版时同步进行内容结构标引。如采用方正书版排版软件组版时,可将排版指令与结构化标记结合输入,以减少后期处理的繁杂工作和重复劳动,形成统一的基础数字化文档。若还需对知识点作标引,可预留“知识点标记”,留待编辑添加关键词。

第三,出校样复核。打印出校样,进行初校和二校,既校对书刊内容、形式,还检查结构化标记的正误、衍缺。如果需要对知识点予以标引,由编辑人员在预留的“知识点标记”中补充填入关键词和对知识点标记的位置进行增删调整。

第四,改样并复核。由排版单位依据校样标注进行修改,并对再次打出的校样进行三校,消灭改样操作的失误之处。本环节根据校改质量状况可重复进行若干次,直到数字文档完全正确无误。

第五,分别导出文件。利用工具软件对已经确认无误的数字文件进行处理:按统一规则将自定义标记转换成为符合规范的标引语句后,导出为剥离了各种排版指令的XML格式的内容结构化文件,用于存档及复合利用;保留排版指令而剔除各种结构化标记和知识点标记后,导出为排版文档,用于印刷。

第六,通读、整理付印样。用排版文档打印出付印样,进行通读和文字技术整理,防止剔除结构化标记、知识点标记后可能产生的版面错误。达到付印标准后,转入制版、印订等纸质出版物的一般生产程序。

第七,元数据标注。利用工具软件从出版物内容中把有关元数据提取出来,以XML格式文件储存后与相应的结构化文件整合,方便数据入库及多重发布。

采用中结构化方法能够获得标准的XML格式文件,从而在出版资源的复用性,数据的结构性、完整性、可靠性、标准性、流通性及可追溯性方面,都能达到要求。这种方法不但适应我国社会文化消费现状,而且十分符合当前我国出版行业的实际,能够有效地提高出版资源的利用率,提高出版工作的效率和水平,促进整个出版行业的数字化转型,带动产业的整体发展。

[1] 国家新闻出版广电总局出版专业资格考试办公室.出版专业实务•初级 [M].武汉:崇文书局,2015.

[2] 国家新闻出版广电总局出版专业资格考试办公室.出版专业实务•中级 [M].北京:商务印书馆,2015.

[3] 国家新闻出版广电总局出版专业资格考试办公室.出版专业基础•中级 [M].北京:商务印书馆,2015.

[4] 国家新闻出版广电总局出版专业资格考试办公室.数字出版基础[M].北京:电子工业出版社,2015.

(作者单位:1)上海辞书出版社 2)上海出版印刷高等专科学校)

猜你喜欢
标引结构化文档
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
档案主题标引与分类标引的比较分析
本刊对来稿中关键词标引的要求
基于RI码计算的Word复制文档鉴别
本刊对来稿中关键词标引的要求