面向技术文档翻译的双语术语知识库建设研究

2021-01-22 03:22李双燕苗菊
中国科技术语 2021年1期
关键词:云计算

李双燕 苗菊

摘 要:技术文档翻译关系企业全球化进程,是语言服务行业的重要内容,其翻译质量在很大程度上受制于译员对专业领域知识的正确理解。基于领域本体的双语术语知识库将概念与概念之间的关系进行形式化描述,形成知识图谱,辅助译员学习领域知识。文章选取信息通信技术中的云计算领域,按照知识采集、知识表示、知识应用等知识组织活动,探讨双语术语知识库的建设模型、原则、流程与方法等,并手工构建了一个云计算领域双语术语知识库,可为译者等语言服务人员提供知识服务,助力企业跨语言跨文化经营,同时也为其他垂直领域双语术语知识库建设提供实践范例与研究启示。

关键词:双语术语知识库;领域本体;技术文档翻译;云计算

中图分类号:H083; H059; U46  文献标识码:A  DOI:10.3969/j.issn.1673-8578.2021.01.007

Construction of Bilingual Terminological Knowledge Base for the Translation of Technical Documents//LI Shuangyan MIAO Ju

Abstract: Translation of technical documents plays an integral part in the globalization of enterprises, thus being an important business of language service industry. The translation quality depends to a large extent on translators command of domain knowledge. Ontology-based terminology knowledge base can present a formal description of concepts and their relations, forming a well-structured knowledge map, which can serve as a great help for translators. Taking cloud computing in the domain of information and communication technology as a demo, we explore the construction of bilingual terminological knowledge base in terms of the constructing model, principles, processes and methods, etc. and set up a bilingual terminology knowledge base for cloud computing. This bilingual terminology knowledge base can serve language service providers, facilitate the cross-cultural business, and shed light on the construction and research of bilingual terminological knowledge base for other vertical fields.

Keywords: bilingual terminological knowledge base; domain ontology; technical translation; cloud computing

收稿日期:2020-08-15

基金项目:国家社会科学基金重大项目“双语术语知识库建设与应用研究”(15ZDB102)阶段性成果

引言

技术文档(technical documents)是指“与程序或硬件一起交付的一套操作说明”[1],比如,产品说明书、在线帮助、维修手册等,旨在为用户提供产品介绍、操作步驟、常见问题处理等信息,在一定程度上代表着产品的软实力,是产品交付的必备组成部分[2]。技术文档的专业化水平是衡量企业发展成熟度、制约企业全球化进程的重要因素。随着“一带一路”“中国制造2025”等国家发展战略的提出,跨国产能合作及产业链分工调整给中国企业海外发展提供了全新的投资机遇,中国企业“走出去”开启2.0时代,企业技术文档的翻译服务亟待升级,以匹配企业国际化需求。技术文档翻译不仅需要译员具备较高的双语语言能力,还需要熟悉专业术语和领域知识,后者往往是大多数语言背景的译员所欠缺的。传统翻译术语库虽然可以提供与术语相关的信息,但对术语所代表的概念间的关系及所对应的客观现实描述不足,译者只能获得知识碎片。

本体(ontology)的引入可有效解决这一问题。基于本体的双语术语知识库是当前知识组织领域的重要研究内容,通过对各类专业领域知识进行组织、描述和管理,形成具有一定深度的知识结构框架,为用户进行专业知识的学习、交流与传播提供帮助。国内外现已在术语知识库的建设方面取得了不小的成就。国外相关研究日臻成熟,代表性成果有加拿大的多领域大型术语库TERMIUM(支持英语、法语、西班牙语、葡萄牙语4种语言),西班牙的环境领域术语库EcoLexicon(支持英语、西班牙语、德语、法语、俄语和希腊语6种语言),德国的网络术语库WebTerm,俄罗斯的计算机信息系统科技术语库AISNT,和涵盖欧盟24种官方语言的大型互动型术语库IATE等。国内代表性成果有通用型术语知识库HowNet(汉英双语)、CCD中文概念词典(汉英双语)等 ,专业领域术语知识库有电信领域知识库 [3]、中华烹饪文化知识库 [4]、中医典籍知识库 [5]、慢性病健康教育知识库 [6]等,不过这些专业术语知识库多为单语,而非双语或多语,不是直接服务翻译的。因而,亟须探索面向翻译的专业领域双语或多语术语知识库,满足企业全球化发展与国家战略发展需要。

当前对技术文档翻译需求最大的是信息通信技术(information and communication technology, ICT)领域,占各行业技术文档总需求的51.09%[7],因而,本研究选择信息通信技术领域构建双语术语知识库。又由于信息通信技术涵盖范围广泛,本研究特聚焦于云计算(cloud computing)这一前沿领域。云计算描述了一种基于互联网的新的信息技术(information technology,IT)服务增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且虚拟化的资源。云产品种类较多,更新换代较快,译员学习新知识的速度须与产品更新的速度相匹配。云计算市场目前还不太规范,在IT文献和IT媒体中有着对基于云的模型和框架的各种不同定义和说明,增加了人们的困惑,使用过程充满了陷阱、歧义和谬误[8]。解决的途径就是正确界定云计算的概念及概念间的联系,以知识为基础来决定一个术语该如何使用、如何翻译,以及在多大程度上需要调整。确切地说,就是基于本体理论描述云计算领域知识,构建该领域核心概念及概念之间的关系,使领域基本概念得以清晰化、系统化、可视化,帮助译员便捷地获取领域知识图谱,更好地进行翻译。

1 建设双语术语知识库的理论基础

建设双语术语知识库需要宏观与微观两个层面的理论指导。

宏观层面,双语术语知识库依托知识组织理论进行总体框架设计,将整个研究分为知识采集、知识表示、知识运用三部分,每一部分都为下一阶段的研究奠定基础。(1)知识采集,主要指运用信息技术手段构建大规模数据并从中进行自动化术语信息的抽取和预处理;(2)知识表示,指描述专业领域知识,构建知识网络,实现计算机对于领域知识的语义识别;(3)知识运用,包括两方面:建立知识导航系统、知识检索系统和人机交互界面;开发双语术语知识库在生产、科研、教育等领域的应用途径,根据实际应用效果和用户要求验证开发流程的合理性并进行完善。

微观层面,依据术语学理论和本体论进行术语知识体系的建构。最初,知识库是基于关系数据库构建起来的。在此基础上构建的专题数据库对领域知识的揭示不足,不能准确呈现概念之间的关系,语义检索、知识推理、知识发现与知识共享等高级功能难以实现。要有效克服传统术语库的不足,术语知识库需要做好两方面的工作:一是术语概念关系的表示与架构,二是知识处理技术[9]。前者解决内容问题,后者解决方法问题。

第一项工作主要依托术语学理论完成基础数据的组织整理工作,具体包括:确立术语筛选标准,设定双语术语条目存储结构,完成术语的提取、存储、标注、编码、定义、术语属性粒度设置等工作,并确定术语翻译的原则与方法等。在此,术语是指“构成某特殊领域中知识的独立概念实体、特征或关系” [10]。第二项工作主要依托本体论完成专业领域知识的概念网络构建工作,形成立体化的主题知识图谱,实现知识的体系化与可视化[11]。本体模拟人类认知思维过程构建概念语义网络,对领域概念及概念间的关系进行规范化描述,使概念之间的各种规律、联系等都被显性地描述出来,这有利于全面获取、分析并利用知识,它是一种系统性表示某一领域知识框架的手段[12]。具体包括:构建领域主题图,对专业领域主题的名称、主题所在的资源出处、主题包含的所有概念之间以及概念与主题间的关联进行构建;在此基础上,利用基于 XML 语法的扩展性资源描述语言编写主题图中概念链接的计算机识别程序,建立人机交互界面。

这两项工作相辅相成,反映了术语学与本体论的融合。把传统术语学中基于概念的术语观(concept-based viewpoint)推进到基于知识本体的术语观(ontology-based viewpoint),用知识本体的理论和方法来研究术语,扩大了术语学的研究范围[13]。

2 建设双语术语知识库的技术基础

建设云计算领域的双语术语知识库需要确定云计算领域本体,选用合适的本体建设工具。

2.1 云计算领域本体构成要素

云计算领域本体是针对云计算领域内共同认可的概念及概念之间相互关系的明确定義,包括各类与信息通信相关的术语、词汇等,并对云计算领域知识的结构与内容加以限定,从而形成描述云计算领域中具体知识的基础。用公式可以简单表示为CCDO=(C, P, R, a, I),CCDO是指云计算领域本体(cloud computing domain ontology),其构成要素可简述如下:

(1)概念集C(concept):定义了云计算领域本体所包含的概念的集合,即:C = {C1,C2,…,Cn}。其中,Ci (1≤i≤n) 是云计算领域的某个概念,它在概念模型中被定义为类(Class),即语义类型,是具有相同属性对象的集合,例如虚拟机、云服务等。

(2)属性集P(property):定义了概念集C中每个概念的特征或者与其他概念的关系,前者被称为数据属性(data property),后者被称为对象属性(object property)。数据属性是一个概念本身所具有的属性,例如“公园”具有地址、大小、电话号码等属性;对象属性则是两个或多个概念之间的相互联系,例如“云使能技术(cloud enabling technology)”与其下属各语义类型之间是包含与被包含的关系,可以表示为“isKindOf”。

(3)关系集R(relationship):定义了云计算领域中概念之间的交互作用,是“对象属性”的重要组成,例如上面提到的“isKindOf”,最基本的关系包括子类关系(is-a)、实例关系(instance-of)和部分关系(part-of)等。

(4)公理集A(axiom):定义了概念集C和属性集P上的永真断言,是定义在概念和属性上的限定和规则,如:在Network类的operatedBy属性上面添加公理cardinality≤1,即:约束每个网络最多只被一个运营商运营。

有鉴于此,本研究选取云计算领域专业书籍 Cloud Computing: Concepts, Technology & Architecture(《云计算:概念、技术与架构》,下文简称《云计算》)。原书于2013年在美国出版,2014年引介到国内,以通俗易懂的行文全面介绍了云计算的核心概念及相关技术,是一本不可多得的云计算入门书。此外,国内外云计算领域领先企业发布的系列云产品文档也是重点参考资料,这些文档可以在线免费获取,且为多语版本,例如:亚马逊云文档(AWS)、微软云文档(Microsoft Azure)、阿里云文档等,有的企业还共享了多语言术语库,例如亚马逊云提供了8种语言对照的术语及其释义,为本研究提供了高质量的双语语料。

语料采集完毕,需要进一步整理,包括格式转换、语料清洗、分词、标注与对齐等。对于纸质书籍,采用OCR光学字符识别软件 ABBYY FineReader 将其转换为可编辑的.txt文本,利用Tmxmall在线对齐工具进行对齐,并进一步对语料进行清洗(修改、编辑、去重等),然后就可以进行术语提取相关操作了。所搜集的在线双语技术文档也采用同样的处理方式。

4.2 抽取领域双语重要概念

本研究使用Tmxmall在线提取与人工筛选相结合的方式确定术语。根据术语学相关理论与术语标准选择最基本、最核心的概念,确保术语无歧义、简明、准确。提取的概念以词或词组为主,主要有noun(multitenancy)、noun+ noun(cloud provider)、adj.+ adj.(active-active)、adj.+ noun(public clouds)、prep. +noun(on premise),还有多词组合(platform-as-a-service)等。最终从上述各类资源中采集到的双语术语词条统计如下:《云计算》856词条,亚马逊云文档430词条,微软云文档213词条,阿里云文档172词条,合计1671词条。

4.3 双语术语条目存储结构

知识库的构建既要满足特定领域的需要,又要考虑人类知识整合的需要。术语的相关信息在知识库中是以一定的结构来存储的,合理的结构一方面有利于知识检索、展示和使用,另一方面有利于与其他知识库或术语库之间的术语交换,因而需要先确定术语条目的存储结构。本研究参考ISO 12620[16]对术语数据类别的划分,将术语条目分为三个层次:概念层、术语层和管理层,分别录入概念知识、术语知识和管理知识(详见图2)。

1)概念知识(Concept-related knowledge)

根据人类认知世界的方式,概念先于术语,即所指先于能指。在概念层中,需要描述的信息有:

领域——所属专业领域或次领域;对概念的描写——定义、解释、例子、知识单元(对概念进行更细粒度的描写)、概念特点及非文本类信息;概念之间的关系——比如一般-特殊关系。知识库可以显性化地表现出这些关系,是其区别于普通术语库的特点所在。

2)术语知识(Term-related knowledge)

“术语”本身是一个多义词,既可指语言与形式的统一体,也可指语言形式。本研究整体上使用的是前者,而此處使用的是后者,即词汇学方面的信息,主要包括:词形;语音;在目的语中的对等语;术语的类型——包括同义词、缩略形式等;语法信息——包括词性、单复数等。这是知识描述的重要载体,通过信息的规范化描述来表达领域专业知识。

3)管理知识(Administrative knowledge)

这类数据是为了便于管理术语或查找参考信息,涵盖日期、责任人、交叉引用、来源等知识。例如,ISO 8601[17]规定日期的格式为年-月-日,即YYYY-MM-DD,时间为hh:mm:ss。若不按照此格式,那么在进行数据交换时,就要对与日期相关的信息进行转换。

4.4 定义类及类的等级

这里的“类”指的是语义类型,在本体构建环境下,语义类型被定义为概念的集合。类的等级以树形结构为特点,存在上级语义类型与下级语义类型,上下级之间是一种包含与被包含的关系,这种包含既包括属性上的包含,也包括内容上的包含。为确保语义类型及其等级的合理性,特制定如下构建原则:(1)语义类型的构建以知识共享为旨要,结合云计算的知识特点进行构建;(2)提取概念集合的抽象概念作为语义类型,不受概念集合中概念频数的限制;(3)构建语义类型的树形框架图时注意上下级语义类型的继承问题。

以此为原则,构建出以下多级语义类型,语义类型结构细分到第7级(详见图3)。

建立语义类型之后,可以利用Protégé的“注解(annotation)”功能对其进行定义及其他属性描述,其界面见图4。

“注解”板块自带约10种内容描述条目,包括“comment”“seeAlso”等,允许用户根据需要增删条目。此处增加了一些注解项,如“context”“reference”等。以“自定义镜像”词条为例,该术语对应的英文有“user-defined image”“custom image”“customized image”。这三种译法在行业中并行了很久,最后才统一为“custom image”,本知识库除列出统一译法之外,还将曾经的译法也在“注解”中写明,以便译员了解术语的历史翻译演变。

4.5 定义类的语义关系及其约束

这里的语义关系是指概念与概念之间的关系,这是建立语义网络的基本单元。概念间客观存在的各种关系需要在知识库中表示出来,这是知识库构建工具的重要服务内容。

(1)云计算领域的语言描述比较严谨、客观,语义关系外显化,较容易判断,主要的判断依据是《云计算》一书正文句子中的谓语动词及其他连词。例如“Data centers consist of both physical and IT resources.”中,谓词“consist of”表明“data centers”与“physical resources”和“IT resources”之间是一种包含与被包含的关系。

(2)除了这些比较明显的关系,还有一些比较模糊的关系,需要根据其内在的语义进一步归纳梳理,使看似无关的概念勾连在一起。例如“cloud mechanism(云机制)”与“cloud characteristics(云特征)”两个语义类型看似毫无关系,但深入思考一下,就会发现云之所以具有这些特性其实是通过云的不同机制实现的,两组概念之间是一种支持与被支持的关系。这种关系就要在知识库中体现出来。

(3)本研究梳理出来的语义关系大致可以分为三大类,即概念上相关(concept related)、功能上相关(functionally related)和物理上相关(physically related)。每一类又可以细分出不同的子关系(详见图5)。

①概念上相关:其下属的语义关系比如“isCharacterizedWith”(具有……的特征),建立了术语“cloud computing”与术语“elasticity”(弹性)、“measured usage”(可测量的使用)、“multitenancy”(多租户)、“on-demand usage”(按需使用)、“resiliency”(可恢复性)、“ubiquitous access”(泛在接入)之间的关系,表示的意思是“Cloud computing is characterized with elasticity, measured usage, multitenancy, on-demand usage, resiliency and ubiquitous access”,即云计算具有这6个特点。

②功能上相关:其下属的语义关系比如“isSupportedBy”(由……支持),分别建立了云计算的上述6个特征与云机制(cloud computing mechanism)之间的对应关系,比如,连接了术语“elasticity”与术语“hypervisor”(虚拟机监控器)、“resource replication”(资源复制)、“failover system”(故障转移系统)、“resource cluster”(资源集群)、“resource management system”(资源管理系统),可以用一个完整的句子表示为“Elasticity is supported by hypervisor, resource replication, failover system, resource cluster and resource management system”,即云计算的弹性特征是由这5个方面支持实现的。

③ 物理上相关:其下属的语义关系比如“consistOf”,连接了术语“service”(服务)和“container”(容器),语义关系的限制类型为“some”,表示的意思是“Service consists of some containers”(一个服务由若干个容器组成)。

如此便建立了一个庞大的术语家族,“辈分”、亲疏关系一目了然,用户获得的不是术语的个体,而是由多个术语个体组成的整体,形成了一个立体思维导图。

4.6 创建实例

理解了上述步骤之后,就可以利用Protégé来创建具体的实例了,每个实例都需要进行注解、语义关系设定、关系属性约定等,即进行形式化编码,以实现本体的共享与重用。这些实例组成实例库,实例的不断补充可以丰富知识本体。

4.7 知识检索与展示

Protégé检索框支持对知识库任意字段的检索,输入所查术语的全部或部分即可获取搜索结果。可以利用视图插件(OntoGraf)实现对实例及其关系的可视化展示,被称作E-R图(entity-relationship diagram),可将以某一术语为中心的概念关系展示出来(详见图6)。

4.8 知识评价与进化

本研究尝试从内容与主体两方面对知识库进行评价:从检验的内容来看,分为一致性检验、语义类型构建检验、语义关系构建检验、语义网络框架构建检验;从检验的主体来说,分为Protégé软件自动推理机检验、领域专家检验、同类书籍检验、终端用户检验等。其中,自动推理机检验知识本体的一致性,领域专家检验语义类型及其关系的正确性,同类书籍检验整个语义框架的合理性与全面性,终端用户即知识库的最终使用者(比如译者),通过具体的翻译实践测试知识库的可用性。多法并举,完善知识库的质量,促进知识进化。

5 结语

本文以我国语言服务行业技术文档翻译需求为出发点,以信息通信技术云计算领域为例,构建了面向技术文档翻译的双语术语知识库,是翻译学、术语学与知识管理等学科交叉研究的一次尝试,主要取得了以下几项研究成果:比较系统地梳理了云计算领域知识,形成了比较清晰的基本概念知识图谱,确立了双语术语知识库建库模型、建库原则、建库流程和方法,初步构建了云计算领域双语术语知识库,改善了云计算领域知识采集、知识表示及知识应用等一系列知识组织活动,可为译者学习专业知识、进行文档翻译提供知识服务平台,还可以辅助技术文档写作等活动,是企业内容管理的重要组成部分和发展方向。

术语知识管理体系的建设在今天的知识经济中早已纳入许多国家的发展战略,许多国家都把术语知识管理系统作为国家和地区的基础设施加以建设,高度重视术语学和知识工程学的研究以及术语知识库的构建。双语术语知识库构建的价值不仅在于借助本体技术呈现领域词汇表或术语表,也不仅仅是借助本体建立一个单纯的术语知识、翻译知识的查询系统,而意在借助本体利用形式化语言对知识进行描述,使知识在人与机器之间达到共享,进而实现个体知识與群体知识的共享,满足创新型国家知识服务体系建设的深层次需求,服务国家知识创新工程体系建设。

不可否认,目前本研究在知识库的构建工具与方式两方面还存在一定的局限性。就构建工具而言,Protégé可视化只能展示二元关系,无法展示多元关系;不支持图表输入,而图表对技术文档信息传播非常重要。就构建方式而言,人工方式效率低,构建的知识库在实例和属性方面规模小,难以应对大数据时代领域知识的快速增长。因而,今后需要探索知识库自动或半自动构建技术,提高领域知识的获取效率,降低知识获取成本;观察译者等用户获取领域知识的行为,收集用户反馈,不断完善优化,使之成为一个系统化、智能化的信息通信技术领域双语术语知识服务平台。

参考文献

[1] Microsoft Corporation Editorial Style Board. Manual Style for Technical Publications[Z]. Seattle: Microsoft Press, 2004.

[2] 中华人民共和国国家质量监督检验检疫总局, 中国国家标准化管理委员会. 消费品使用说明:第1部分 总则:GB 5296.1—2012[S]. 北京:中国标准出版社,2013.

[3] 李勇,李晓峰. 面向领域知识库的电信业务本体创建[J]. 计算机科学,2008,35(4):77-79.

[4] 许鑫,郭金龙. 基于领域本体的专题库构建:以中华烹饪文化知识库为例[J]. 现代图书情报技术,2013(12):2-9.

[5] 高明月. 基于本体的《备急千金要方》语义网络构建研究[D]. 北京:北京中医药大学博士论文,2016.

[6] 唐晓波,郑杜,谭明亮. 慢性病健康教育知识服务系统模型构建研究[J]. 情报科学,2019,37(1):134-140.

[7] 李双燕,崔启亮. 国内技术写作发展现状调查及其对MTI教育的启示[J]. 外语学刊,2018(2):51.

[8] ERL T, MAHMOOD Z, PUTTINI R. Cloud Computing: Concepts, Technology and Architecture [M]. Beijing: China Machine Press, 2016: 1-2.

[9] MEYER I, SKUCE D, BOWKER L. Towards a new generation of terminological resources: An experiment in building a terminological knowledge base [C] //Proceedings of the 16th International Conference on Computational Linguistics. Nantes, 1992: 957.

[10] BOWKER L. Terminology [C]//Baker M, Saldanha G (eds.). Routledge Encyclopedia of Translation Studies. 2nd ed. London/New York: Routledge, 2009: 286.

[11] 苗菊,宁海霖. 翻译技术的知识体系化演进:以双语术语知识库建设与应用为例[J]. 中国翻译, 2016(6):61-62.

[12] 原伟,易绵竹. 俄语计算语言学领域本体知识库的构建[J]. 解放军外国语学院学报,2012(1):41.

[13] 冯志伟. 现代术语学引论[M]. 增订本.北京:商务印书馆,2011:13,598.

[14] 董振东,董强. 知网简介·知网[EB/OL]. [2020-05-06]. http://www.keenage.com/zhiwang/c_zhiwang.html.

[15] 崔启亮,罗慧芳. 翻译项目管理[M]. 北京:外文出版社,2016:68-71.

[16] International Standard Organization. ISO 12620: 2019 Management of terminology resources:Data category specifications [S]. ISO/TC 37/SC, 2019.

[17] International Standard Organization.ISO 8601-1: 2019 Date and time:Representations for information interchange [S]. ISO/TC 154, 2019.

作者简介:

李双燕(1982—),女,南开大学翻译学博士,首都经济贸易大学MTI教育中心主任,硕士生导师,主要从事翻译与技术传播研究,主持或参与国家、教育部、北京市、校级等各级科研项目近10项,发表论文20余篇,翻译出版科普读物7部。2020年荣获“首届全国高等学校外语课程思政教学比赛”一等奖,“首届全国翻译技术教学大赛”华北赛区二等奖,校級“教育教学成果”一等奖等。通信方式:lsyan025@163.com。

苗菊(1955—),南开大学外国语学院教授、博士生导师,翻译学研究中心主任,获南开大学“英才教授”荣誉称号。在美国印第安纳大学比较文学系完成博士后研究,至今多次赴北美和欧洲知名大学访学和调研。曾任渥太华大学翻译学院中国高校咨询专家,维也纳大学非欧盟成员讲学计划客座教授。系统研究当代西方翻译理论的流派与要略,翻译学科体系的发展与科学方法,在国内翻译学术界倡导描述性和实证翻译研究,开拓数字时代翻译研究多学科发展。

猜你喜欢
云计算
云计算虚拟化技术在电信领域的应用研究
基于云计算的医院信息系统数据安全技术的应用探讨
谈云计算与信息资源共享管理
志愿服务与“互联网+”结合模式探究
云计算与虚拟化
基于云计算的移动学习平台的设计
基于云计算环境下的ERP教学改革分析
基于MapReduce的故障诊断方法
实验云:理论教学与实验教学深度融合的助推器
云计算中的存储虚拟化技术应用