术语辞书编纂中的元数据设计

2015-06-30 09:33全如瑊李芸
中国科技术语 2015年3期
关键词:知识框架质量保证

全如瑊 李芸

摘要:首先强调了工具书作为用户寻求科技数据的重要来源。接着指出,要保障工具书的质量,就要求对工具书词条的知识内容进行控制。多数词典以形或音作为排序依据,但评价一部工具书的好坏以及是否满足了读者查询知识的需求,概念是其关键因素,因为概念是知识的基本单元。为此,文章最后提出了一套面向知识的元数据(knowledgeoriented metadata,KOM)集合。总而言之,对于条目内容的内在管理远比表面或形式上对文件和工作流的这些外部管理更重要。

关键词:质量保证,面向知识的元数据,对内容的内在管理,知识框架

中图分类号:H083;N04;H164文章类型:A文献标识码:1673-8578(2015)03-0005-09

Abstract: Dictionary and encyclopedia are important sources for scientific and technical data. In order to assure the quality, we need to control the contents of dictionary entry and encyclopedia article. In this article, we proposed a set of knowledgeoriented metadata (KOM) for dictionary and encyclopedia making. We also think that more emphasis should be paid on internal control over knowledge contents than those paid on external management of file and work flow.

Keywords: quality assurance, knowledgeoriented metadata, internal control over content, knowledge framework

一辞书编纂需要现代化的管理方式和手段

辞书可说是历史最悠久的数据汇编了,古往今来在知识传播上起的作用也是其他书籍无法比拟的。前人从当时的浩瀚文献中提炼出精华,以条目的形式为后人打开知识的大门。它首先是提供语言学的资料,如汉字的形、音、义,为读者进一步阅读其他书籍提供便利,一般语文词典(dictionary of common words)都属此类。再后便是直接提供知识,从普通常识直到专业知识,这主要体现在后来出现的百科全书上。

自然词典和百科全书的分别远不止此。例如前者的字头(head character)和词目(headword)可有各种词类,包括各种语法功能词甚至拟声词;字词条(character or vocabulary entry)要给出字词的定义和惯用法甚至例句。但百科全书的条头(heading of article)大多是名词或名词组,而这个条头只是个标引词,只是利用它们引出一段知识来,同一个百科条目(encyclopedia article)未尝不可选用其他相关的标引词。百科条目的内容要广得多,例如术语条目也可能包括概念演变和百家争鸣的材料。条头标引词还可能是专名(人名、地名、作品名等),借此引出历史、地理、人文的内容。英语国家多年来强调二者之分,但法语国家一向融合二者。不过英语辞书近年也有融合二者的趋势,例如英国朗文出版集团于20世纪60年代派专人去法国拉鲁斯出版社学习,然后出版了第二版《当代英语词典》(Longman Modern English Dictionary),书中就包括了1/6的百科条目,内容涉及地理、历史、生物学等,专名很多。中国历来受英语辞书影响较大,不过这种“混合型”的辞书也深受欢迎,如《辞海》[1]和《中国百科大词典》[2]都属此类。其实,《现代汉语词典》[3]中也有不少所谓的百科式的知识性条目,只是没有专名词条,它也可称为综合性词典(generalpurpose dictionary)。本文探讨的对象包括普通词典、百科全书和这些“混合型”的辞书。

读者可能对辞书有许多期望,但有3个方面最为人们所关心,即完备性、便检性、易读性。

完备性,或称综合性(comprehensiveness),涉及辞书是否能满足广大读者的寻检需求。当然,任何辞书也满足不了兴趣各异、水平不一的广大读者的过细需求,所以这里只谈粗线条的需求。重要条目是否完备,这称“宏观完备性”,设计时一方面要考虑读者对象和出书宗旨,另一方面要参考词频表和下面将要谈到的知识框架。义项是否完备,这称“微观完备性”,反映了条目的综合性,设计时也要考虑以上两个方面。辞书编纂者要考虑到的还有“封闭性”问题,即在一个词条中用来解释条头的话语本身,如有费解处是否另有专条加以解释。如否,则读者在相关条目间循条查询时,仍然会遇到重大漏解的地方。另一种封闭性,是指相互参见是否做到双向。前者可称为解释系统的封闭性,后者则为参见系统的封闭性。

再一个与完备性有关的问题涉及词源学。一个词的诸般义项间存在引申、派生等关系,一般辞书多按历史顺序加以排列。不过科技工作者更关心的不是字词的古代渊源,而是概念的现代演变。特别是在中国,大量科技用词源自西方,翻译时选用的汉字词确切与否?译文是否丢失什么重要信息?所用汉字词本身带来的联想是否又增添了什么额外的信息?在一本完备的辞书中,这些问题都应得到妥善的交代。

便检性(accessibility),指是否便于检索。由汉字的形、音、义三个方面来看,字形检索可提供唯一的(unique)检索途径,在中国出现最早也最发达,已有的检索系统很多,不过做起来都比较费力费时。借助辅助的音符系统,如注音字母和汉语拼音,很容易利用字音检索,操作较便利。不过对于古涩的生僻字,读者根本不知读音,仍要依赖字形检索。辞书界近年更重视的是字义检索。词条中的种种设置如“近义词”、“近义词辨异”、“反义词”、定义中的“上下位概念”和“分类特征”、语词的“分类归属”、术语的“学科归属”,以及百科全书中的“分类目录”,都是字义检索手段。多层次的“分析索引”(包括相关索引)使我们能更有效地直接检索条目内容,“相互参见”则造就了条目之间的直接联系。而到了现代的电子词典,超级链接(hyperlinking)和全文检索(full text searching)技术,使我们完全摆脱了过去只能线性地检索词头的单一途径。endprint

易读性(readability)的要求异常重要,因为大部分读者都是外行(包括相对外行,如同属同一大专业但小专业不同的科技工作者,他们对于所检字词正因有不解之处才要进行查询,只是起步点和一般读者不同而已)。已有的增进易读性的措施包括:用俗名代替术语作标引词;条目中定义和解释要先行,但行文要由浅入深;释文中使用举例法,由简单、具体且熟知的事例入手,再进入总结性的抽象论断;添加有助说明的背景材料;避免过多引用其他术语,减少参见其他条目的需要;不回避形式定义和公式、符号的使用,但放在条目后面并充分解释;使用表格、图解和图片说明等。

词典编纂是个永续的工作,随着科技的不断进步,更新是永远不会终止的,包括个别条目的增补及改写,甚至框架的更动。现在有了电子版之后,可以做到及时更新。但要满足上述三项要求,却有大量工作要做,这才使我们转而求助于现代化的手段。

二元数据设计提供协助术语辞书编纂的工具

大部分出版单位都购置了计算机和一些常用软件如数据库、排版系统等。这些工具的使用减少了手工和纸张工作,确实提高了效率,特别是在许多编辑和出版的操作上。但存储、检索、排印,以及对工作流的控制,都只是对数据的外部管理,并无助于保证数据本身的质量,无助于提高词典和条目的完备性、检索性和易读性。我们最关心的还是深入条目内部直接对知识进行管理。

元数据(metadata)是界定和描述数据(data)的数据,目前常作为管理工具,例如用于统一数据格式以利数据交换和共享,用于控制数据工作的工作流以提高效率和消弭疏漏和错误等。但我们考虑元数据未尝不可深入内部作为知识的管理工具。

近几年,元数据这个题目在国内期刊上出现频繁,其实这个概念已存在较长时间了。例如世界标准化组织(ISO)第37技术委员会(TC37Terminology)在20世纪90年代(1996年)就已就此撰写出一个国际标准《ISO 12620:1999 Computer applications in terminology—Data categories, NEQ》[4](中国在1997年也等效采用了这个国际标准,据此发布了国家标准《GB/T 16786 术语工作 计算机应用 数据类目》,此后陆续随ISO版本修订,最近的版本是2007年发布的《术语工作 计算机应用 数据类目(GB/T 16786—2007)》[5]),其中的数据类目(data category)就是一种元数据,该标准中,数据类目分为三个类型:术语和与术语相关的数据类目(term and termrelated data categories),这主要涉及语言层面,包括术语的各种表示法,语法、惯用法、语源、术语授权状态和术语概念关系,等义关系等;描述性数据类目(descriptive data categories),这主要涉及知识层面,包括专业领域和分类体系,定义、说明和语境,概念关系,概念结构,叙词、关键词和索引词等;管理性数据类目(administrative data categories),这主要涉及管理层面,包括日期、责任者、语种、排序序列、参见和源文献等。

结合辞书编纂工作,我们考虑到上述类目中的第二类即描述性数据类目对于辞书编纂更为重要。因为每一特定的知识领域都有其独特的概念系,也就应有其独特的元数据集。例如根据经验,对于介绍“生物(organism)”的条目来讲,“结构(structure),功能(function),发育(development),生态和进化(ecology and evolution)”等几方面的知识应是必须介绍的内容,这几个类目也就是管理此类条目的元数据。在百科全书界,针对某个领域的一套类目常被称为该领域的“知识框架”。

这种知识框架对于百科式条目最为重要,不过设计起来常常需要相关学科的专家和术语学专家的共同努力。因为许多术语可能在多门学科里使用,其基本含义相通,但因各科的理解和侧重不同或借用和引申的程度不等,以致在定义上有所不同。严格说来,它们构成了一套同源术语(cognate terms),只不过因为共性突出所以仍然沿用同一指称(designation)。对于这些术语,一方面既要指出其共性,另一方面还必须点出其个性(差异)。这时如由单科专家处理,可能考虑不全面,也不易给出概念演变的来龙去脉。

对于社会科学(social sciences)和人文学科(humanities)以及新兴领域中的术语,因一时难以或无法取得共识,通常不对其进行标准化。一般说,它们不作为规范性术语学(prescriptive terminology)的研究对象,而要由描述性术语学(descriptive terminology)来处理。在辞书中,一般是采取客观综述的方式,将各家见解归类简介。其实,即或是已规范的科技术语,也不是仅介绍优先术语(preferred term)和许用术语(admitted term),还要介绍拒用术语(deprecated term)和被取代术语(superseded term)。不过要注明其目前的术语授权状态(normative authorization status)。这是因为,一方面标准化并非一成不变,一般若发现原定名有不当之处可在定期(一般是5年)复查时加以更改。另一方面,读者正是因为遇到拒用术语或被取代术语才查阅词典,如不列出,则等于失去词典释疑解惑的功能。因此一般说,词典都应是描述性的(descriptive),这样才能满足读者的广泛需求,但词典却可通过加注术语授权状态的方法起到规范(normative)作用。

三面向知识的术语辞书编纂元数据

下面列出部分重要的、有助于深入条目管理知识的元数据名称。本文主要是说明这些元数据的意义(也即设立它们的理由),并未一一给出元素属性和元素构成的XML定义(这些机械式的简单操作留待下一步来做)。同时要声明,因为不限于词汇层面,所以这里的“辞书编纂”一词要超出lexicography(词典编纂学)的含义。endprint

(一)条目分类

以下分类只是为了分项叙述的方便。因为事实上大量术语先是普通词语,然后在某个学科中被赋予严格定义而成为专科术语。在一段语境中它究竟是作为普通词语还是作为术语来使用,常要根据使用场合和语境来判断。而在普通词典中这两者可能在词条中只是作为两个并列的义项出现,因此同一个词条可以兼具下面两种属性。

普通词语条目

普通词语条目主要用于介绍汉字的形、音、义和词及词组的释义,常附惯用法和例句。字头或词目可为任意词类。对释文的逻辑性要求不如对术语的要求高,常可采用近义词或例解和比拟等方法解释,但要求近义词、用例和比拟对象的熟知度比字头或词目为高。一词多义(一个指称对应多个概念)时,按一个条含多个义项来处理。

百科条目

一般词典的百科式词条同百科全书的条目还有所不同:前者仍遵循词典传统,释文内容紧扣词目,且同属一个指称的不同概念(一词多义),只作为不同义项处理;后者条头则仅仅是个标引词,有更换余地,而在一般百科全书中,一个概念一个条目,对于多义字可以是几个条目都冠以同一个条头(有时同一指称在不同领域代表不同概念,此时可在条头后加括号,注明所属领域以示区分)。

术语条目

术语是定义明确的学术用语,只存在于特定的范围(一定的专业领域)内,因此领域定义是必要成分。百科知识(自然科学、社会科学、人文学科、工程技术等)主要是通过这些条目来介绍的。

专名条目

人名、地名、作品名、历史事件名等,主要是用来引出地理、历史、人文等资料。定义主要是描述式的,但特别要指出该名之所以闻名之处。以历史事件为例,首先要明确时空位置,说明性质,然后交代时空背景、事件经过、事件影响、因果分析和历史意义(包括不同看法)等。

(二)释义部分

一般词条的释文主要就是释义和惯用法的介绍,在较长的百科条目中,前面总有一段引言,交代释义、背景、意义,甚至对全文梗概做一勾画。条目的质量在很大程度上取决于这一部分撰写的优劣。

1.解释(explanation)

在初级词典中对普通词语,常采用对释法或描述说明法来释义,前者用熟知的同义词来解释,后者则直接描述说明,包括用熟知的事物来比拟或举出熟知的个例帮助读者类推。对于一些描述主观感觉的词语,我们常使用一种发生式的解释,即告诉读者在什么客观条件下可以获得这种感觉,真正的感觉还要读者本身去体验。

2.定义(definition)

对于术语,我们要求严格的定义。一般定义多采用内涵定义(intensional definition)中的属种式定义(generic definition),即指出其上位概念(superordinate concept)以及它与并列概念间的区别特征(delimiting characteristic)。不过要注意,同一事物也可能同时要求多个定义。例如阿司匹林(aspirin)是个有机化合物,因此可根据其化学结构给出化学定义;在药理上,它是个非甾体抗炎药(NSAID),据此可以给出药理学定义;在临床上,它可用于退热、镇痛、抗炎和抗血栓,因此它又分属于这几类药物而得出不同的临床医学定义。这些不同的定义正说明它的多维属性要同时采用不同的概念系来定义。这些定义对应同一客体,可互补共存。事实上,很多高档词典和综合百科全书正是这样地对客观事物给出综合的多维定义。

在概念间,除了属种这种逻辑关系(logical relation)外,还存在通过客体本身的直接关联而发生的本体关系(ontological relation),例如生物体和其器官之间、机器和其部件之间的整体-部分关系(partitive relation)。再有就是表示时空相接的序列关系(sequential relation)。不少术语是根据这两类关系下的定义。

每个条头都要做概念分析,分解出上位概念和区别特征。这是检查全词典封闭性的一个必要步骤。然后再看两者是否都另有专条交代。此外,为了方便读者的理解,建议定义中一定要例举一两个熟知的下位概念。

3.上位概念(superordinate concept)

在一般词典中使用的上位概念不见得就是专业分类体系中最邻近的上位概念。例如在生物分类阶梯(门、纲、目、科、属、种)中为种下定义时,不一定要用属名作上位概念,一般可选用上面任意一个比较熟知的名称。例如现代人类的种名是智人,定义时上位概念可选用目名(灵长目)、纲名(哺乳动物纲),甚至亚门名(脊椎动物亚门),但门名(脊索动物门)却用得很少,因为此名不为人所熟知。但此时需要区别的就不限于同一层次的并列概念,而且上位概念所加的限定词也要求具有更高的特异性,要足以区分开该上位概念层次以下的一切其他概念。

4.区别特征(delimiting characteristic)

有时定义只包括一个加有限定词的上位概念但没有并列概念需要区别,即这个上位概念只有一个下位概念,这时不存在区别特征。

5.下位概念(subordinate concept)

当一个概念的下位概念为数不多,且大多熟知,也可使用外延定义(extensional definition),即列出其全部下位概念。但一般仍推荐内涵定义。

6.操作式定义(operational definition)

对于某些物理量、化学量常采用物理和化学实验操作来定义,这样可得出客观而精确的定量定义,结果有高度可重复性(reproducibility)。其实这种定义并不限于理化范围,例如用智力量表(intelligence scale)来定出人的智力,也是一种操作式定义。此类定义在实验科学中使用得很广泛。不过,使用这种定义时不能仅仅描述操作,例如定义智力测验时还要说明它的效度(validity),即要说明所得结果为什么能代表智力。endprint

7.单位和量纲(unit and dimension)

对于定量定义来讲,一定要给出单位。采用标准单位制推衍出的单位,要附量纲式。

8.语境(context)

这个成分多见于面向词语的词典而少见于面向概念的百科全书。一个词的语境是出现本词的文本,长度为一个分句至几句话。在一般辞书中表现为例句,例句也常称为语境参考(context reference)。语境建立起由语词到概念再到生活环境或专业领域之间的联系,但首先它还是联系了语词和概念,因此我们有所谓的定义性语境(definitional context)和说明性语境(explicative context)。它们分别包含了全部或部分的概念信息。不过,定义性语境和定义是不同的,后者用的是正式语言,措辞严谨,而前者却是在一个活生生的话语环境中不仅给出概念信息,还提供了有关惯用法和固定搭配的信息。

9.惯用法(usage)

这个成分也是多见于面向词语的词典而少见于面向概念的百科全书。惯用法是指一个词在特定的时间、地理和使用场合(又称“语域”register)中的用法和频度。实际上,惯用法不仅教给我们如何去用,而且只有在真正的使用中我们才能对这个词有更深入的理解。时间上有“古语”“过时”“废弃”之分;地理上有不同国家(如英美)和不同地区(如中国大陆和台湾)的分别;使用场合上有技术语域和作坊语域(benchlevel register)等差异。

10.熟知度级别(degree of wellknownness)

人们通常用简单的熟知事物去解释复杂的生僻事物。在前面“解释”和“定义”中都强调要用熟知的事物去比拟,用熟知的个例或下位概念去说明。因此我们只能用熟知度级别较高的字词来解释级别较低的字词,而熟知度最高的字词必须另用其他方法来释义。熟知度可用三分法,不求精确。

11.常见误解(common misconceptions)

辞书释文的一个重要内容就是澄清常见误解。因此平时要将各方发现的误解一一记录在案,归类分析其原因,择其常见典型写在释文中。一类最常见的误解是由下面的多义词、异义词和同义词造成的。

(三)形-音-义关系

在国际标准化组织的协调下,现在各国都在发展术语标准化工作,其目的就是:至少在一个学科之内,力求每个术语都做到单名(mononymic)和单义(monosemic),以利信息的正确交流。但由于历史的原因,每种语言中都充满各式各样的多义词、异义词和同义词,影响着信息的有效交流。从另一方面来讲,介绍这些词有助进一步界定本词的确切含义。

1.多义词(polyseme)

同一语种中具有两个或两个以上词义的语词。例如:

日(太阳)→日(白昼)→日(时间)

多义词通常是一个词随着时间的推移和在人群间的传播而逐渐获得了不同的含义,而由非同源并对应不同概念的词转而取得相同的形和音的现象则罕见。严格由术语学的观点来看,一个多义词实际上代表了几个不同的术语(概念)。目前标准化的做法是在一个专业领域内消除多义词,要求在每个学科中仅具单义,但在不同的专业领域间允许存在。但一些多义词是科技界的常用词,在讨论一些普遍的科技问题时保持多义,这就可能导致歧解。参见下面“(四)词源”部分。

2.同(近)义词(synonym)

同一语种中表述同一概念的语词。严格讲来,完全的同义词罕见,绝大多数只是概念相近,称近义词(near synonym);它们只是在某些语境下可以互换,在其他情况下则不能互换。

3.近义词辨异(differences between near synonyms)

在近义词之间存在或多或少的差异,包括概念和惯用法的差异。一般词条和百科条目的释义部分常设置这个内容,帮助明确词义和概念。

4.同形\[和/或\]同音异义词(homonym)

具有相同字形和/或发音但对应不同概念的语词。包括下面三种情况:

(1)同形\[异音\]异义词(homograph) ,如“公差(gōngchā)”和“公差(gōngchāi)”。

(2)同音\[异形\]异义词(homophone) ,如“树木”和“数目”。

(3)同形同音异义词(full homonym) ,如“杜鹃(花名)”和“杜鹃(鸟名)”。

这些异义词,特别是第3型,极易混淆。第1型和第2型则要看受方是阅读文字材料还是倾听语音材料而有所不同。

5.等义程度(degree of equivalence)

两个语词间内涵重叠的程度,即外延覆盖的程度。另有同义程度(degree of synonymy)一词,但那仅指同一语种内,而此处则包括不同语种间语词的比较。

6.假等义(false friend)

又称不等义(nonequivalence)。这又包括两大类:

(1)假同源词(false cognates),这只见于同源语种之间,如日语中的“手纸(指信)”不等于汉语中的“手纸”。

(2)假仿造词(false calques),这见于对译的两个语种之间,又称假外来语翻译(false loan translation)。在中国现存术语中,这是最应关注的问题。详见下面“(四)词源”部分的“2跨语言借用”。

7.反义词(antonym)

所谓反义包括两种情况:互补(complement)和对比(contrast)。例如结构主义(structuralism)和功能主义(functionalism)虽为反义,却因侧重不同而可互补而并存。但原子主义(atomism)则否定结构主义,两者是真正的、互不相容的对比关系。endprint

反义词常常有助于说明词义。例如,当我们孤立地见到physical一词时,还说不上来它指的是什么,只有在上下文中查知同它并列或对比的话语时,才能有个初步的理解。

physical factor & chemical factor——物理因素和化学因素;

physical environment & human environment——自然环境和人类环境;

physical environment & biotic environment——非生物环境和生物环境;

physical network & logical network——物理(实指“实体的”)网络和逻辑(“形式的”)网络;

physical diseases & mental disorders——躯体疾病和精神障碍;

physical anthropology & cultural anthropology——体质人类学和文化人类学。

(四)词源

词源学不仅追溯、针对既有概念如何聚字成词来表述此概念(造新词),还要探讨概念的演变。例如中国人遇到不解的词语时总是根据构词的字义来推测整词的含义,这时个人对字义的认识、个人的知识背景等等都会影响对整词的理解。于是词语在流传中就会发生畸变。以上还只是个人因素,如果是把术语由一个学科移植到另一学科,那只能是在概念特征中选取适合目的学科的部分而同时舍弃了不适合的部分。另一方面为了解释目的学科的现象或为了同目的学科的既有理论相融合,还可能赋予这个术语若干新的特征。这样就派生出一个同母词词义有相当差距的新术语。

除了下述几种常见的词源外,还有其他演变途径,例如通过汉字简化活动把下面两个词合并成了一个多义词:

幹细胞(stem cell)和乾细胞(dry cell)都被简化为干细胞。

1.跨学科借用(transdisciplinary borrowing)

大量同源多义术语是由此产生的。例如“运动”一词先后衍生出下述含义:

(物理学)物体的位置变化;

(体育)出于锻炼或竞赛目的的身体活动;

(一般)政治、文化、生产等方面的群众性的、大张旗鼓的活动。

2.跨语言借用(translingual borrowing)

在中国,大多数术语是通过翻译途径从西方引进的。其中相当一部分采取的是字面翻译,从而带来程度不等的不等义现象(nonequivalence)。就以一个常用词“文化”为例,在现在的学术文章中常被视为英语“culture”一词的等义词。“culture”本义为“培养”后引申出“教化”等含义。“culture”一词现主要指人类个体生后所学到的为群体所共有的、稳定的精神遗产及其物质表现,一般包括:语言、宗教、社会体制、法规、礼仪、风俗、知识、信念、价值观、工具、技术、文艺创作,等等。而汉语中“文化”两字则取自古文献的“文治教化”。这表面看来似乎很恰当,但翻译过来和使用后我们仍然发现了不等义的地方。例如《文选》中有言:“文化内辑,武功外悠”,这里“文”是作为“武”字的对义语,有“非暴力”的含义。这个含义是英语原文中没有的。另外,“文”字给中国人的第一个联想就是“文字”,于是教识字的教员成了“文化教员”,组织群众扫盲、识字的场所成了“文化馆”。这些含义也是原文没有强调过的。再一方面,同“文化”一词相联系的还有“文明(civilization)”一词,两者常混同使用。但也有人将两者对立起来,例如视前者专指精神方面的成就,而后者专指物质方面的成就。而且还应指出,“文明”一词可作形容词,我们可以谈到“不文明”和“比较文明”,而“文化”则不成。文明与野蛮(或原始)为对义词,隐含着单线进化论的意味。

有鉴于此,术语学反对字面翻译,而强调引进概念,再根据概念的精确描述(即定义)重新定名(造新词)。事实上,一些较好的引进术语其实并不是翻译,而是新词,因为它们是根据定义创造出来的。它们大多是偏正词组,核心词对应定义中的上位概念,前置定语对应区别特征。

3.母语词源(etymology of source word)

对于引进的词语必须追溯母语的词源,例如一个词可能是源于拉丁语→法语→英语,那么就应逆序逐级往上追溯。

4.(译文)方向性(directionality)

指能保证等义性的翻译方向,当然最好是双向等义,这出现在两种语言中术语是一对一对应时。规范性术语学要求,当两种语言中存在一对多对应时,要保证第一种语言中的唯一术语与第二种语言中的优先术语是双向等义,而当两者间存在多对多对应时,要保证两种语言中的优先术语是双向等义。因此注明方向性可以帮助我们决定翻译时是否应该选择优先术语。

5.新词(neologism)

在印欧语系国家,早年间的新词大多是由现代学者采用希腊或拉丁词根创造的仿古术语。直到近20世纪中叶才出现来自车间或实验室工作语言的术语,且主要在工程技术方面。现在由俗语转化而来的术语已越来越多。

在中国,早年间音译词不少,后来大多被意译词取代。上面介绍过的根据定义利用偏正词组制造新词的方式,就是我们推荐的创造新词的一个很好途径。

(五)主题词控制和检索途径

在辞书编纂过程中,最重要的就是控制全局。一方面要对全书(特别是条目间的关系)进行宏观管理,另一方面还要对条目内部进行微观管理。我们主要是使用主题词作为主线来管理和控制。不过这里使用的“主题词”一词,不要同情报学(information & documentation, I&D)中的“主题词(subject heading)”混为一谈。endprint

再一方面,辞书要保证便检性,就要为读者提供足够的检索途径。除了按音序或形序翻阅条头以外,还包括相互参见和索引(主要见于百科全书)。而索引也不限于按音序或形序来检索,还可按分类排序,从而为索引带来一定的系统性。索引还可以分层次,两个层次之间可以是基于各种概念关系(例如上下级概念的关系)。此外还有所谓关联索引(related reference),把同某个条目有各种关联的条目名称汇总在一起,这种索引异常有用,只是要求制作者必须对全书布局有充分的理解。辞书一般不设为检索内容使用的目录,但不排除大条目为便利翻阅而设置的条目内目录。

1.主题词表(lists of subject words)

主题词泛指辞书中一切要求释义的词语或术语。

一级主题词:条目标题;

二级主题词:大条目内的段落标题;

三级主题词:段落内主题。

一般词典中可能只有一级主题词,二三级主题词主要见于百科全书。在百科全书中,全部主题词都是索引词①。

主题词表应有多种排序,以反映不同的体系,例如按:音序;形序;分类(见下面“2分类体系”);专名原文等。

2.分类体系(classification system)

传统的学科分类,体系众多而且不时在变动,但内容交叉重叠的弊端一直没有得到彻底的解决。因此我们推荐使用主题标引的分类体系。一个筹划编纂辞书的学术单位,应及早着手组织术语学专家和多科学者编制分类体系。自上而下和自下而上地反复推敲,同时也可将相对独立的部分分隔开,一个模块(module)一个模块地编制。最后的产品就是上面的按分类组织的三层主题词表。

3.知识框架(knowledge framework)。

按分类体系组织的、用以安排条目和指导条目撰写的主题词表。其中一级主题词用以安排条目,二三级主题词用以指导条目撰写。

4.读者对象(readership)

出书宗旨的主要内容,是决定全书覆盖范围(coverage)和起点高低的重要因素。根据读者对象,才能确定调查用户需求的具体范围。

5.需求分析(needs analysis)

要了解读者是检字还是求知;是求学,是工作,还是科研;专业范围是什么;要单语还是双语,如为双语,是单向还是双向等。

6.专业领域(subject field)

一般词语有其使用场合,而术语更是只适用于它被定义的领域中,这要一一注明。但另一方面,通过借用和引申,术语总有扩大适用范围的趋势。传统学科间的分界现在越来越模糊,已难据此对术语做出唯一的归属。因此我们才推荐情报界使用的主题标引法(见“2分类体系”)。术语界更有人主张:在标注术语条目的专业领域时,尽可能选择较高级别的、范围更广的领域。总之,词典和百科全书工作者,必须对知识分类有成熟的考虑,能在术语归类上做到不重叠、不遗漏,使读者能方便地检索到所求。

7.条目提纲(article outline)

选择典型条目,设计有待介绍的二三级主题词表,用以指导撰写。

8.相互参见(cross reference)

相关条目间要设条目级的相互参见。在不同条目中的上下位概念间、并列概念间、同义词间、反义词间、同源多义词间,都应设立词一级的相互参见。这些参见都是双向的。相互参见提供了条目间的检索途径,体现了概念间的网络结构。保证参见系统的双向性也就是保证了参见系统的封闭性。

9.索引(index)

在百科全书中,一般都设置索引,索引到三级主题词。还可设置图片索引、表格索引、部分外文索引(如果某特类条目都附有外文的话)等。

10.目录(table of content)

一般辞书不设目录。但小本、条目为数不多的百科全书,也有使用书前目录的。而百科全书的大条目中,也可设置段落目录。

(六)质量评价

质量评价是必要的元数据,它帮助我们决定材料的取舍和是否需要进一步的补充和修正工作。而且质量评价工作应是随时随地进行的,不能等待临出书前再进行。全面质量管理(TQC)是关键。评价内容主要包括:

1.完备性

内容包括两个层次:一个是复审原定的分类体系和知识框架是否完备,近期学术是否有新进展,是否有重大历史事件出现等,这主要是靠专家评审和补充;一个是核对成书是否符合知识框架,这后一工作可以靠计算机来完成。

2.封闭性

解释系统封闭性——检查条目定义中的上位概念和区别特征中的词语或术语是否见于主题词表;

参见系统封闭性——检查相互参见是否双向;检查索引词是否覆盖了全部主题词。这个封闭性同时也代表了便检性。

3.可靠性(reliability)

包括检查材料是否属实,推理是否合乎逻辑等科学性的问题。这要由专家来审查和纠正。

4.易读性

最好的测试就是找典型读者试读。

5.条目评注(comments)

各方对逐个条目的总体评价。

6.读者反馈(readers feedback)

搜集读者反馈是项极其重要的、永续性的工作,因为用户中藏龙卧虎,根据软件开发的经验,用户提供的帮助常常大于专家。新版虽说还需时日,但新版的预备工作是无时无刻不在进行中的。对读者反馈的应答可能马上就可实施。

四结语

在术语辞书编纂过程中,元数据的设计是最基础的准备工作,是协助辞书编纂的有力工具,对元数据的各项内容进行填充和更新是贯穿始终的,也将是影响辞书质量的关键。然而,以往的文献,包括笔者以前的相关文章[6]多从技术层面对已有的词典数据进行元数据的设计,使用某种标记语言加以命名、说明和标注,讨论其各种细节和工程实现等,属于数据处理的层次,以外部管理为主要目的。本文则是从内在的知识层面论述了词典和百科全书在内的工具书所需的元数据应如何设计,提出了一套面向知识的辞书编纂元数据集合,属于知识管理的层次,从而在更高、更宏观的层次上全面描述了辞书的元数据集合。

注释

① 在《不列颠百科全书》详编的大条目中,由编辑发掘出隐式主题并将其显式化写为旁注,印在页旁空白上,称为书签(bookmark)。不过,对于一般辞书,不推荐这种做法。

参考文献

[1] 上海辞书出版社编委会.辞海[M].上海:上海辞书出版社,1999年.

[2] 中国大百科全书出版社编委会. 中国百科大辞典[M].北京:中国大百科全书出版社,2005.

[3] 中国社会科学院语言所词典编辑室. 现代汉语词典[M].5版.北京:商务印书馆,2005.

[4] 国际标准化组织. ISO 12620:1996 Computer applications in terminology — Data categories[S]. 1996.

[5] 中华人民共和国国家质量监督检验检疫总局,中国国家标准化管理委员会. (GBT 16786—2007)术语工作 计算机应用 数据类目[S],北京:中国标准出版社,2008.

[6] Li Y, Fu A P. Designing Metadata for Chinese Dictionary Entries[J]. Data Science Journal, 2007(6): 853-856.endprint

猜你喜欢
知识框架质量保证
田湾核电站运行阶段质量保证分级管理
田湾核电站运行阶段质量保证分级管理
焊接技能评定过程中的质量保证要求
关于如何做好水质环境监测的质量保证研究
小虚词大学问重夯实促品味
论多媒体在初中历史教学中的应用
化学反应工程教学的一点思考
高考化学复习备考策略研究
质量保证监查在AP1000依托项目中的应用
试析如何做好水质环境监测的质量保证