图像资料规范著录与关联应用

2018-09-19 01:55刘洁璇
图书馆理论与实践 2018年8期
关键词:拓片字段著录

刘洁璇

(南京师范大学图书馆)

1 研究意义

机读目录 (Machine-Readable Cataloging,MARC)是描述文献著录的国际标准格式,MARC21(USMARC)与中国机读目录(China Machine Readable Catalogue,CNMARC)对图像著录采用了代码加子字段描述的形式,代码类型丰富,每种代码含义各异,很容易被机器自动识别,字段结构与对应关系易于代码校验。

MARC是一种结构化数据,CNMARC格式字段比都柏林核心(Dublin Core,DC)元素丰富,信息揭示详备、检索体系完备、扩充修改功能强、安全控制操作便捷,其应用优势主要体现在对图像的描述、管理方面。将数据从一个系统移动到另一个系统,并进行转换,正是基于底层的元数据。一方面,认真区分中西文著录中代码含义差别有助于提高应用集成的精确度。如,MARC21的008字段按字符位定义数据元素,为区分不同的含义,同一数据元素有时会被定义多种代码。对图像代码含义进行对比分析是避免机器自动识别与文献实体偏差的前提。另一方面,准确理解字段间的对应关系与结构有助于代码选择、校验。如,MARC21的034字段的编码形式反映了255字段著录的与制图资料有关的比例说明、投影说明、坐标说明,天体图的赤纬、赤经以及二分点等数学数据说明;MARC21的007字段采用属性树结构,由00字符位定义资料类型代码,再由此代码定义该资料类型的其他数据元素代码,在数据管理操作时应注意代码变化引起的格式变化。

再者,除了参照《国际标准书目著录》(International Standard Bibliographic Description,ISBD) 外,中文图书著录还要考虑我国国情、中文名称特点、文献的特殊性。尤其是中国人的姓名具有形式简短、重名率高的特点,编目工作中对个人知识责任的准确识别直接影响文献的有效查找、选择和获取。[1]随着网络交互信息资源、书目数据关联化的迅速发展,合作信息行为、合作信息查寻与检索不断发展,社会标注的应用越来越广泛。然而社会标注中语义、语法表达及拼写不规范等问题会影响信息标引、检索的准确性、全面性。去除标签噪声、信息干扰,将为信息资源的标引、组织、检索提供更开放的共享模式。[2]

同时,编制规范记录、建立规范文档、实施规范控制、进行规范维护有助于完善目录的汇集功能、查询功能,满足国际、国内书目资源的共享需求。虽然越来越多的公共图书馆、高校图书馆跟随美国国会图书馆采用《资源描述与检索》(Resource Description and Access,RDA)新规则进行编目,但RDA仍以ISBD中的基本数据元素为著录基础。基于RDA的测绘制图资源 MARC21书目数据编目变化主要是著录规则的变化,如缩略词的使用。[3]可见,书目标准化研究进一步促进了元数据在知识管理领域的推广应用,为拓片、舆图等中国特色古文献的数字化管理提供了技术标准,为反映我国宏富的传统文化,解决资源共享中的兼容、映射等问题提供了支持。书目标准化著录的可持续发展既需要理论的不断更新,也需要及时的经验总结。我国长期以来延续使用的编目规则及在此基础上形成的庞大的CNMARC记录仍具有重要的研究意义。

2 规范著录与关联应用的关系

随着网络资源的幂指数增长及图像识别、图像检索的发展,对文献特殊细节项的著录有助于测绘制图资料的准确定位与知识发现线索的系统梳理。由于知识关联以数据集成为主要操作,所以,MARC元数据的描述、检索功能在知识定位、检索点查重、资源对接、安全管理操作实践中发挥着重要作用。通晓著录规则有助于保证书目著录的一致性、整体性,方便资源共享、数据无障碍交换。

2.1 规范著录易于知识定位

MARC元数据描述、标识了信息资源对象的内容、属性和外观特征,记录了图像资料的内容、索引及关系,提供了对象的实体位置或网络地址,反映了数据的更新、迁移等变化,高质量的MARC元数据便于资源定位与获取。

(1)CNMARC与MARC21的920馆藏信息字段揭示了收藏机构及馆际互借方式。必备子字段$a揭示了收藏该文献的成员馆代码,该代码在OPAC(Open Public Access Catalogue,开放的公共查询目录)以文字形式显示;必备子字段$z揭示了馆际互借方式:0不提供馆际互借,1返还式馆际互借,2文献传递,3提供电子传递,4订购中,9注销。9XX本地使用块的规范著录规定直接关系文献资源定位。

(2)CNMARC字段间的对应关系映射了文献间的关联关系,解读关系有助于兼顾图像资料的系统性、完整性获取。如,MARC21的76X-79X连接款目字段采用标准子字段结构,按照数据功能定义不同的子字段数据内容,说明相关文献与编目文献间的关系:空间(年代)关系——书目文献间的时间性关系。如,先前和后续关系的连续出版物;平行(横向)关系——书目文献间的不同版本关系,如,不同语种的版本、不同载体或形式的版本等;层次(垂直)关系——总体对部分或部分对总体的层次关系,如,期刊文章与期刊的关系、附属丛编对主丛编的关系等。CNMARC的4XX连接款目块连接了与在编文献有关的其他实体记录,CALIS联合目录4XX字段采用了嵌套式结构将需要连接的数据字段(包括字段标识符、指示符、子字段标识符和数据)作为子字段内容嵌套在$1子字段内,直观反映文献间的丛编、补编(或增刊)、正编(或正刊)、替代/部分替代、吸收/部分吸收、并入/部分并入、合并、分成、译为、译自、复制为、复制自、总集、分集等关系。如果违背统一的著录规则,在不同的应用系统之间移动数据、在一个应用系统组合中管理复杂的接口都将非常困难。

(3)基于关联数据的书目数据模型BIBFRAME(Bibliographic Framework,书目框架)将为未来网络世界书目描述带来改变。BIBFRAME利用关联数据模型,定义了一套由RDF类、属性及其关系组成的词汇。[4]这种新的数据格式通过属性特征区分不同实体,又通过实体的属性关系各个实体相互关联,更适应网络资源整合、定位。在新技术环境中,MARC元数据定期维护更新机制的建立有助于满足读者对图像信息检索广度与深度的需求。随着电子文献引用比例的增大,通过对856字段增设DOI(Digital Object U-nique Identifier,数字对象唯一标识符)著录,在MARC与DC之间建立映射关系,实现二者的相互转换,使图书馆信息资源与网络资源合二为一。[5]由于DOI对期刊论文、科学数据的子项(包括图形、表格、图片,以及书籍章节/条目等提供编码注册),其后缀可以通过分隔开的子字符串(节点)来反映等级信息或粒度层次。出版机构可在期刊论文编码中增加节点,将期刊论文编码方案进行扩展得到这些论文部件,如图表、图片的DOI编码方案。[6]通过DOI标识符的多重解析功能,实现图像知识链接和对相关知识的整合、集成。[7]

2.2 规范著录提供多检索点查重

MARC元数据提供了多种检索途径:分类、仿照复分方法便于图像的批量查找;子字段具有检索、查重功能;代码可作为包含或排斥某类图像资料的限定信息。

图像资料的积累为考古文化谱系研究的深入、探讨中华文明的形成与发展提供了资料基础。CNMARC的690字段记录了中国图书馆分类法(Chinese Library Classification,CLC)分类号。分类中出现的类目复分、仿分现象为图像资料的查找、分类提供了线索。在中国文物考古(K87)中,对于图录、题跋等具有共性的类目,在需要详细分类的类号上直接加上复分类号(图录+2,题跋+4);而在K873出土文物图录类目复分时需使用《中国地区表》(如甘肃+42)。

壁画是敦煌学研究的重要分支。为保护敦煌壁画艺术遗产,敦煌研究院与浙江大学合建的敦煌壁画数字资源库系统对壁画及相关文献的数字资源采用了三层嵌套式元数据规范描述:以石窟元数据为上层元数据,石窟内的壁画元数据为中层元数据,研究信息、临摹信息、拍摄信息等壁画相关元数据为下层元数据,以支持信息汇聚、分析。[8]从CLC分类检索上看:敦煌文献研究集中在G256.1;敦煌学(总论)集中在K870.6;壁画集中在K879.41;壁画图录集中在K879.412。以“敦煌装饰图案”做主题检索,可以发现《敦煌装饰图案》(2010)、《敦煌历代精品边饰·圆光合集》(2010)等书目,通过对相关作者、丛编的查重,可不断发现新的“路标”并建立关联。

文献学科内容的主题概念是标引的主要概念和主要对象。深度标引为图像信息的准确表达、筛选、存储、检索、提取提供了有力保障。CNMARC的606论题主题、607地理名称主题所设子字段,$a款目要素,$x论题复分,$y地理复分,$z年代复分,$j形式复分都具有重要的检索意义。

多重标引为信息检索提供了多个检索入口。贺兰山在607地理名称标目中属自然特征名称标目,通常记录在$a款目要素子字段,而在606论题主题标目字段通常记录在$y地理复分子字段。$j形式复分子字段描述了文献类型或形式,图解、图谱、画册、摄影集、图集、地图集是图像资料的常用词。通过“贺兰山”主题检索书目列表可以发现:贺兰山图像资料研究涉及神话、原始宗教、石画、文字、地理、地质、生物、林业几大学科领域。图录具有较高的科学、历史、艺术、文献史料价值,多检索点查重对跨学科、交叉学科间的资料对比、佐证提供了有力支持。

系统地搜集整理图书中不同时期的各类图表,对艺术风格演变、流派划分研究意义重大。如,木刻版画的构图、画风、刀锋、镌刻极具时代特色,其摹真常用作画稿范式,在长达千年的版刻版画发展史中,书籍中附着的木刻插图作品林林总总,内容涉及宗教、戏曲、小说等经史子集各类,形式或长版方式、或圆形月光式、或连版或单幅、或上图下文、或文中插图。[9]如果仅以“版画”做主题检索,检出的文献数量过于庞大,难以一一浏览,而仅以类号做分类检索又可能出现漏检,且这两种常用的检索方式对图像专指度不高。

MARC21与CNMARC对图书所含图表著录采用了代码及子字段描述。对专著性文字资料所含图表:MARC21在008字段18-21字符位选用4种代码(不足用空位,超过选择主要4种)描述,代码信息与300字段$b其他形态细节子字段对应;CNMARC在105字段0-3字符位选用4种代码(不足用空位,超过选择主要4种)描述,代码信息与215字段$c其他形态细节子字段对应(见下表)。

表 MARC21、CNMARC专著性文字资料图表代码对比

与MARC21相比,CNMARC增加了对透射图片(n)的定义,以代码o表示彩饰,删除了对照片的定义(CALIS规定不使用插图、照片、手迹等表示图的来源的字样)。代码识别与主题检索配合使用,可将分散在不同文献中的同类型图像(如摹真(a)h、地图b)解析出来;与CNMARC 6XX主题标引块$z年代复分或MARC21 6XX主题标引块$y年代复分配合使用,能进一步提高信息资源的年代专指度。

2.3 规范著录方便资源对接

图像资源与信息资源的统一揭示是实现各类资源(图像、文字、影像、网络资源等)无缝对接的基础,也是立体呈现研究对象、实现资源整合对接的重要途径。

随着定位与定量观测、遥测技术的不断成熟,地形图、遥感影像与图像、断面图、平面图、投影图、数学方程、数理模型、立体图示成为近代地理学的重要描述方式。在机器学习和统计中,一般的图像关联数据包含了对象的属性、同类型对象间的同质关联和不同类型间的异质关联。CNMARC、MARC21在地图资料著录时,对比列尺、坐标、制图数学数据等也做了相应记录。

传统聚类方法以同质数据为主要对象,如,河洛文化文献数据库“河洛碑志拓片”、“洛阳师范学院馆藏拓片及志石”子库对拓片资源数据进行标引时,按照不同文献种类元数据建立不同的元数据标引模板,再按不同元数据模板分配相应的数据项目分类标引,通过超链建立子库间的关联。[10]然而,现实的数据分析需要涉及多种类型的数据对象,从学术科研角度看,同一金石器物、拓片、拓片数字图像虽然记载的内容是重复的,但不同载体形态反映的信息量无法绝对分离。CNMARC的191编码数据字段描述了拓片的内容与外观特征。通过856电子资源定位与检索字段与影像挂接后,能清晰反映器物的铭文图像、不同时期器物的状况,全面揭示不同版刻、刻本与复本间的差异;451字段连接了在编文献同一载体的其他版本,如,不同语种的其他印刷版;452字段连接了在编文献不同载体的其他版本,如印刷版与电子版、盲文版。

2.4 规范著录有助安全管理

MARC元数据对资源对象使用、保存、管理权限的描述,保障了数据安全风险控制。如,MARC21的307文献检索或获取时间字段记录了可以获取文献或检索文献(主要是电子资源)的日期和/或时间信息。355保密级别控制字段包含了有关文献、题名、文摘、内容附注、作者等信息的保密级别,相关文献处理说明和外传规定,包含文献保密级别的降级和解密数据、保密体系名称、国家原代码等内容。357文献传播控制字段记录了编目文献的原创者(作者、生产者)对文献传播控制的说明。561所有权与保管史字段包含了有关编目文献从产生到检索获取这一时间段的所有权及其保管史方面的信息。583业务措施附注字段包含了对文献检索、评估、鉴定、分类、复制、微缩、保存、转移和保护措施,及执行措施的方法或技术,如邮寄方式、处理时粉碎等。856电子资源定位与检索字段包含了文献相关电子资源的地址、登录方式、读取方式、传输方法、口令等重要信息。

3 MARC图像资料著录的关联应用

大数据环境下,馆藏资源的有效组织与序化是图书馆的基本业务,对图像文献的内容特征及资源实体对象之间关联状态描述的元数据是学科资源重组、关联应用的基础。由于CNMARC主要用于数据描述与交换,CNMARC XML格式更适应互联网+和数字图书馆应用环境。

CNMARC XML结构中,记录头标、控制字段、子字段、代码分别与ISO 2709中的术语、元素名称相对应。遵循国际通用的标准与规范便于上层应用的设计与开放互联。通过转化格式,CNMARC实现以XML语法描述原始资源,并以XML样式表的方式表达,为XML环境下CNMARC记录的交换处理及数据变换、复制提供临时格式。通过OAI-PMH协议收割典藏机构的元数据,Z395.0分布式虚拟联合数据库检索体系,能实现对分布式系统的统一查询。

3.1 地图治理

CNMARC与MARC21在地图信息限定检索、主题聚类统计中具有一定的应用价值,记录头标区06字符位代码反映了记录类型:a专著性文字资料,e测绘制图资料。CALIS专著性文字资料著录参考ISBD(M)、《普通图书著录规则》(GB3792-85),测绘制图资料著录参考ISBD(CM)、《地图资料著录规则》(GB3792.6-87)。当专著性文字资料105字段0-3字符位包含代码“b”,215字段$c子字段包含“地图”时,表示该专著含有地图。如,该条记录105字段10字符位指示符为1,表示含有索引。图表索引的使用能进一步提高地图查检效率和精确度。测绘制图资料120字段1字符位对索引进行了详细的代码描述;121字段对测绘制图资料的出版形式进行了详细的代码描述;123字段记录了206字段著录的测绘制图资料的比例尺与坐标,为定位包含我国台湾岛、钓鱼岛、南海诸岛等重要岛屿测绘制图资料,核查南海断续线、国界线的表示与标注,维护国家领土完整提供识别信息。

从690字段CLC来看,中国地图主要集中在K992类目。此外,气候图入P469,地图制图学入P28。6XX主题分析块$j形式复分子字段与CLC总论复分相结合(加在主表分类号码后的“-复分号”),便于区分资料类型统计图表,使地图析出更加序化。

文献学科内容的主题概念是标引的主要对象,地理名称标目是重要检索点。607字段记录了某一行政管辖区名称、某一自然地域的地名、某一历史地域的地名等。一方面,注重数据元素来源的规范性和数据元素之间的关联度,明确主题词规范所依据的词表类型及人名、地名的取值范围,有助于强化规范控制;[11]另一方面,对词表中没有的历史地名、历史遗址以原历史名称标目,以我国习见名对江、河、湖、海、山脉等自然特征区域名称标目,有助于检索语言与自然语言的结合,适应未来RDA发展要求。

与CNMARC相比,MARC21专著性文字资料008字段18-21字符位包含图表元素代码“b”,300字段$b子字段包含“map”时,表示该专著含有地图。如该条记录31字符位指示符为1,表示含有索引。测绘制图资料008字段25字符位说明了测绘制图资料的出版形式,比CNMARC 121字段定义的代码更丰富;33-34字符位还对测绘制图资料的特殊形式进行了定义,在地图相关制品审查中具有统计意义。

3.2 美术鉴赏

《韩熙载夜宴图》是中国十大传世名画之一,以连环长卷的方式描摹了韩府夜宴的全过程。CNMARC记录在画作相关研究资源分层关联揭示上具有重要意义,通过对CNMARC记录检索可以发现以下几点。

(1) 《顾闳中·韩熙载夜宴图》(2016)含摹真,高31cm,经折装。北京师范大学(代码211260)、淮阴师范学院(代码232370)都藏有该书,前者不提供馆际互借,后者提供返还式馆际互借。

(2)电子资源《韩熙载夜宴图:古代谍报史上的艺术佳作》(DVD,NTSC3.58)载体形态为光盘,播放时长39分钟,内容涉及古画鉴赏、历史事件等。

(3)郑振铎的钢笔手稿《五代顾闳中画韩熙载夜宴图》被中国国家图书馆收藏。

(4) 《韩熙载夜宴图》的相关研究——学位论文。328学位论文附注字段揭示了研究者学位、所属学科、专业、学位授予单位、学位授予时间等相关信息。

(5) 《韩熙载夜宴图》图像志考(2014)以中国画绘画研究为主题,含彩图、肖像、摹真,有书目和索引。

在美术评论、工笔画/人物画技法研究中,分析级文献(又称析出文献)具有重要的参考价值。分析级文献指检索时要通过另一个书目及其所在位置识别的文献,如,专著的某一章节或期刊的某篇文章,多层析出文献包含两个以上子析出文献。CNMARC要求析出文献不仅要著录析出文献本身,还应包括连接单元、宿主文献的标识、析出文献在宿主文献中的准确位置(常用页码表示)几部分。[12]有明确责任者(顾闳中)的作品(《韩熙载夜宴图》)为在编文献《臆说〈韩熙载夜宴图〉》的研究对象时,采用604名称与题名主题字段,其结构与4XX连接款目类似,将著作名称记录在$1内嵌套的500统一题名字段,著者名称记录在$1内嵌套的7XX知识责任字段,便于建立文献间关联。随着数据库技术及应用的发展,对特色文献进行全文扫描并提供网络检索、图像识别,使篇目中的照片、图版,地图集中的单幅舆图、图片等析出文献通过856字段建立关联,能方便读者反复查阅。

对美术作品的相关研究机构、研究者、研究文献、临摹人、临摹作品收藏地、临摹作品收藏者、拍摄者、图片处理信息等元素进行规范描述并分层关联,有助于通过典籍间的关系考证实现知识溯源。中文个人名称标目由主标目及其附加成分(限制性信息)组成。普通汉语名称标目(直序式)为区分同名同姓的人物,附加生卒年;笔名、艺名标目(直序式)也会附加生卒年。如,画家朱耷(1626-约1705年),号八大山人。在600个人名称主题标目时,朱耷、八大山人都可作个人名称的款目要素,都是规范检索点。CLC K82-64类目集中了中国人物的生卒年表、疑年表、年谱。200字段$f、$g子字段按照规定信息源照实著录了对文献的知识内容负主要责任的个人或团体,$f著录第一责任说明、$g著录其他责任说明。7XX知识责任者块一般将绘画者、摄影者、临摹者记录在701、711、721字段,插图者、插画者记录在 702、712、722字段,通过$4子字段的关系词代码说明。7XX责任者标目的对应附注记录在314字段。对个人与文献间责任关系的记录方便下一步资源连接。

3.3 文字考古

拓片是记录中国古代文化的重要载体,为语言文字、书法、篆刻等相关学科发展提供研究素材。如,甲骨文字数量多、字符繁复并具图画结构,甲骨拓片字形特征提取是计算机辅助甲骨学研究的关键,寻找拓片是应用数学形态学方法进行图像处理与分析、提取甲骨拓片字形特征指标的前提。[13]CALIS使用CNMARC对拓片的物理特征进行代码描述,著录规则参阅《中国文献编目规则》第五章“金石拓片”。与专著性文字资料相比,金石拓片的规定信息源、主要信息源多取自拓片整体:如,题名一般根据所题文字拟定,器物主人或出资制作器物者加器物名称;墓主、碑主姓名及寺、观、庙、堂名称加石刻形式;题名、题记加题名、题字词、题记形式;图像、图所在地或其内容加画像、图形等。责任说明包括撰文者、书篆者、镌刻者及其责任方式。常用版本名称包括传拓朝代+拓本、影印本、石刻本、缩印本等,版本说明的著录内容应作考证,考证依据须在附注项说明,器物出土的地点、时间、收藏者也著录于附注项。尺寸是着墨部分的尺寸,著录为“长×宽”,不足1cm以1cm计算。

对于拓片CNMARC记录头标区06字符位选用代码u,200题名与责任说明字段$b一般资料标识子字段著录“拓片”。191字段反映了拓片的基本物理形态特征,以所拓制的原文献所属资料类别将拓片分为甲骨、金属、玉、石、陶、竹六大类,当2-3字符位取值aa或ac表示拓片来源为龟骨或兽骨。191字段与690字段相对应,从CLC来看古书契集中在K877下的类目,并与H121古文字学,J292.2碑帖、书法作品,J292.4篆刻、治印及作品、K879.3古代雕塑研究密切相关。除了原始拓片,拓片图录、文字、题跋索引也具有较高的文献史料价值,如Z89:K877组配复分类目下的专著。

为保证国家数字图书馆拓片元数据在功能、数据结构、格式、语义、语法等方面的一致性、整体性及大范围互操作和数据共享,国家图书馆采用了24个元素,包括14个核心元素、6个古文献类型核心元素、4个拓片个别元素,并扩展了元素修饰词及编码体系修饰词,实现对拓片原物及由拓片原物复制转换而成的数字化拓片资源的精确描述。[14]如,对核心元素“题名”的元素修饰词拓展了首题、额题、阴首题、阴额题、盖题、中题、尾题;对“相关资源”的元素修饰词拓展了金石原物、拓片底本、合刻、合拓、合裱、合订、丛编、子目、书目文献、录文,编码体系修饰词拓展为URI。对古文献类型核心元素“收藏历史”的元素修饰词拓展了获得方式、题跋印记;对“文献保护”的元素修饰词拓展了文物级别、破损级别。对拓片个别元素“书刻特征”的元素修饰词拓展了书体、镌刻特征、铭文行款、字数。元素的专指性、精确性提升了元数据的分析应用价值。由于复用了DC标准,为XML环境下拓片元数据与MARC记录的交换处理创造了条件。

猜你喜欢
拓片字段著录
常用参考文献著录要求
常用参考文献著录要求
常用参考文献著录要求
《韦洽墓志》拓片
五代南汉李纾墓志拓片
北宋《曲行殷墓志》拓片
拓片制作中的用墨技巧
浅谈台湾原版中文图书的编目经验
题名与责任说明附注字段用法分析
本刊参考文献著录要求