《翻译驱动型语料库》述评*

2014-03-11 09:04江苏师范大学北京师范大学张继光天津外国语大学王少爽
语料库语言学 2014年2期
关键词:平行语料库工具

江苏师范大学/北京师范大学 张继光 天津外国语大学 王少爽

Federico Zanettin.2012.Translation-driven Corpora: Corpus Resources for Descriptive and Applied Translation Studies.Manchester: St.Jerome Publishing.xii+244pp.

《翻译驱动型语料库》述评*

江苏师范大学/北京师范大学 张继光 天津外国语大学 王少爽

Federico Zanettin.2012.Translation-driven Corpora: Corpus Resources for Descriptive and Applied Translation Studies.Manchester: St.Jerome Publishing.xii+244pp.

1.引言

自Baker(1993)倡导将语料库运用于翻译研究,至今已过20年。在此期间,语料库已成为翻译工作的一种重要辅助工具,基于语料库的研究方法也已逐渐发展为描写翻译研究的主流,语料库技术应用被众多翻译院系定为译者培训课程的重点内容之一。同时,诸如翻译记忆(TM)系统、基于统计的机器翻译系统(MT)等翻译辅助工具越来越倚重语料库。语料库是当今众多语言服务提供商不可或缺的工具,也是目前翻译云建设的关键技术。语料库方法被视为翻译研究的一种新范式,并有学者提出“语料库翻译学”的概念(王克非 2006;胡开宝2011),不少以此为主题的著述陆续出版。

2012年英国St.Jerome出版社推出了《翻译驱动型语料库》一书。该书副标题为《描写及应用翻译研究的语料库资源》。该书作者是著名语料库翻译学研究者Federico Zanettin。书中介绍了语料库翻译学在过去20年所取得的成果,全景式地介绍了语料库创建常见工具及其研究应用,对于当前翻译研究具有重要指导意义。本文首先分述各章主要内容,然后评述其学术贡献与写作特点,最后探讨该书对于国内语料库翻译学研究的启示。

2.内容概述

该书共八章。第二至第七章,每章分别关注语料库创建及使用中的一些具体问题,同时设置有实践任务、延伸阅读书目、在线语料库资源链接等。

第一章“引言”概述了此书的主要内容及配套的光盘资源。电子文本和文本分析工具为从事学术研究的学者及语言服务提供商带来了许多宝贵的机会,但如何使用这些资源却对专家学者们构成了不小的挑战。本书旨在帮助研究者应对挑战,充分利用语料库工具开展相关研究及应用。

第二章“语料库语言学与翻译研究”介绍了几种常见语料库及语料库语言学在翻译研究中的运用。该书重点关注“翻译驱动型语料库”,即基于与翻译相关的目的而创建、使用的语料库。翻译驱动型语料库一般包括两个或更多的子语料库,可以对它们进行比较和对比,以发现源语和目标语的异同之处,揭示译语文本独特的语言特征,或用来研究翻译风格和体裁;翻译驱动型语料库还可以用来调查特定人员所使用的翻译语言,比较其异同。本章还论及了如何利用语料库研究译作规律(翻译共性)、译者规律(译者风格)和语言规律,接着回顾了几个常用于翻译教学的语料库,最后简述了语料库在机辅翻译和计算语言学中的运用。

第三章“语料库设计与语料获取”简介了语料库建设的各个步骤,论述了语料库规模及构成等方面问题,包括单语语料库、双语语料库和多语语料库的设计和标准,还涉及了这些标准与翻译驱动型语料库之间的关系,以及如何获得语料。Zanettin指出,语料库设计首先需要考虑的是规模,而语料库的规模以及设计标准取决于创建该语料库的目的。语料库设计的第二大问题是语料库构成。Zanettin以英语-意大利双语双向平行语料库CEXI作为个案,研究具体阐述翻译驱动型语料库的设计问题。采用纸质文本电子化的传统方式建立大型语料库成本高昂,Zanettin大力提倡借助互联网资源来创建语料库,并重点推荐了创建网络语料库的工具WebCONC。另外还介绍了WebCorp Live、Wacky!、BootCaT等工具及应用。把互联网作为语料库资源使用,有两种方法:第一种是把网络作为宏观语料库,设置一定参数,把检索范围限制在网络中的一个小领域,这与在语料库中设置参数选择子语料库的做法类似;第二种方法是把互联网作为语料库素材的来源,也就是从互联网上选择文本,然后把它们收录到大型的、鲁棒的语料库(robust corpora)中。

第四章“语料编码与标注”重点关注用于描写翻译学的语料库的标注方法及标准。Zanettin谈到电子文本编码的发展历程,推荐使用UTF-8作为当前语料库建设的恰当编码格式。单词层次最常见的标注是词性标注和词形还原。另外,还可以对文本进行语义、语篇标注。多语语料库标注可以涉及其他的文本或语言学信息,如译文的源语信息、源语文本与目标语文本的对应情况、某个单词的词义或标准的翻译对等语。Zanettin指出,是否标注及标注的程度取决于研究目的,用于描写翻译研究的标注的程度应该是位于“完全不标注”和“极其细致的标注”两极之间。作者介绍了两种通用语料库标注标准:“文本编码计划”(TEI)指南和“可扩展标记语言语料库附码标准”(XCES)。讲述了在TEI标注框架里如何对翻译驱动语料库进行标注,重点是三类信息的标注:语料库整体文本的文献信息、语料库中每个文本的文献信息、文本本身的结构信息。前面讲到的标注都是和文本在一起,放在方括号里面的,这是“文本内”标注(inline annotation)。作者还介绍了另外一种标注模式,即分离式标注(standalone annotation)。进行分离式标注,不同层次的标注被记录下来、然后和正文文本分开保存。Zanettin认为分离式的XML标注具有光明的前景,因其有助于语料库资源的互通与分享。章末结论建议,为了让研究者能够共享语料库资源,学界很有必要采用一个通用的标注标准。

第五章“语料库工具及语料库分析”首先分别介绍了用于创建、管理及分析语料库的软件工具,然后将重点放在语料库分析方面。一些常见的语料库分析工具和技术通过实例展示出来,让读者清楚地了解它们如何揭示语料库的词汇模式,例如搭配、类联接、语义倾向、语义韵、语义关联等。索引工具帮助研究者揭示语料库的语言和文本信息。语料库提供的实证证据使得用户能够更容易识别语言、文本行为的模式,证实或证伪自己的直觉。通过提取索引行并对之进行归类,用户可以搜集到某个单词的词汇环境信息,也就是它的搭配概貌。但是检索词必须要表达准确,否则搜索结果会出现“噪音”(noise,无关信息)或“缄默”(silence,遗漏信息)。本章重点介绍了用于提取类联接关系的程序Sketch Engine。该软件最大的特色是“词汇素描”,它可以自动总结一个单词的语法和搭配行为。互信息、Z值、T值、对数似然率等用来计算搭配显著性的几种统计学方法及其各自适用的范围,在本章也作了详细说明。

第六章“创建多语语料库”阐述了双语平行语料库的创建与应用。Zanettin首先比较了可比语料库与平行语料库,然后概述了平行语料库句子对齐的步骤及所使用工具,通过引用各种平行语料库创建过程中的例子详述了平行语料库处理方面的问题。多语平行语料库OPUS被用来作为个案研究,讨论了可以用来创建对齐版本的平行语料库所需的工具及创建步骤。接着又讨论了平行语料库与翻译记忆的差别,以及在可比语料库和平行语料库中的“词语对齐”。Zanettin介绍了两类对齐方法,一类基于长度,另一类基于内容。基于长度的对齐依靠计算一对文本里单词、句子的数量,利用统计学方法计算它们之间的关系。第二种方法是基于“类符”而非“形符”。这种方法的双语对齐是通过“锚点”建立起联系,一种特别的锚点词是语料库的结构标注。Zanettin推荐了ParaConc Aligner和Alinea两种常见的语料库对齐工具。

第七章“使用多语语料库”论述了在描写翻译研究、应用翻译研究中用于对多语语料库开展研究的工具和技术手段,并解决了索引行的展示与分析等相关问题。在概述了用于检索平行语料库和提取平行索引行的一些工具之后,接着用两个个案研究让读者了解利用平行语料库可开展的各种分析。可开展的分析种类取决于语料标注的层次、用来提取及展示索引行的工具。最后简析了职业译者如何利用多语语料库资源。可比语料库与平行语料库可以帮助译者解决一些用其他方法无法解决的问题。本章介绍了用于检索ENPC语料库的TCE应用程序以及用于检索COMPARA语料库的DISPARA应用程序,以及WordSmith和MultiConcord这两个索引工具,并重点讲解了ParaConc的使用方法。

第八章“结论”预测未来电脑技术的发展给语料库创建及分析带来的影响,并对基于语料库的翻译研究项目的未来发展方向提出建议。Zanettin指出,基于语料库的翻译研究是一项众人参与的事业,它的发展前景取决于现在面临的一些问题能否成功解决,其中最主要的问题在于是否有合适的语料库资源及工具。

3.简评

《翻译驱动型语料库:描写及应用翻译研究的语料库资源》反映了语料库翻译学领域的发展历程及最新成果,系统总结了语料库翻译学中的各种常见工具、程序及研究方法,对于语料库翻译学研究的深入拓展具有重要意义。本书体现了Zanettin对语料库翻译学的研究方法与工具的系统化思考,其写作特色主要体现在以下三个方面:

第一,概念新颖,讲解到位。在本书中,Zanettin提出了一些新概念、新术语,并介绍了一些不太为普通读者所熟悉的专业术语,对这些术语进行了清晰的解释。譬如,本书的书名是“翻译驱动型语料库”,这本身就是一个新术语。语料库语言学领域一直存在两种研究范式:基于语料库的研究(corpus-based studies)和语料库驱动的研究(corpus-driven studies)。梁茂成(2012)系统分析了这两种研究范式,指出二者具有不同应用领域。本书提出的“翻译驱动型语料库”,是指出于与翻译相关的目的而创建、使用的语料库。“翻译驱动型语料库”和上文提到的两种研究范式属于不同的概念。但是“翻译驱动型语料库”与“基于语料库的翻译研究”、“语料库驱动的翻译研究”又有密切联系,“翻译驱动型语料库”既可用于“基于语料库的翻译研究”,也可用于“语料库驱动的翻译研究”。

第二,涵盖面广,信息量大。本书文献信息丰富,系统总结了前人在相关领域已开展的研究,全面介绍了语料库翻译学能够用到的各种资源、工具。Zanettin对语料库设计、语料搜集、语料库编码与标注、语料索引与分析等语料库创建与使用的全过程,均进行了详细的介绍与说明,重点讲解了利用互联网创建语料库的相关工具及注意事项。该书体现了语料库翻译学领域的最新研究进展。

第三,编排合理,可读性强。本书内容安排合理,由易到难、循序渐进,帮助读者从理解该学科最为基础的概念入手,逐步过渡到复杂的概念及应用程序。Zanettin采用理论与实践相结合的方式,方便读者掌握相关的工具及程序,具体体现在三个方面:第一,在讲解工具手段时,作者一般都会运用实际例子及图示的方式说明其应用方法,方便读者理解;第二,借助个案研究,详细说明前人在创建及分析语料库时遇到的问题及解决方法,针对性强;第三,每章均精心设有配套任务,让读者亲自动手实践,真正掌握新学到的研究方法及工具,可操作性很强。另外,本书还提供了光盘,收录了书中提到的免费工具、在线网络资源的链接以及任务部分的材料,这大大方便了读者开展研究实践。

4.对我国语料库翻译研究的启示

在国内,虽然使用语料库方法研究翻译现象已经取得了丰硕的成果,但语料库翻译学如何深入开展,是目前我们面临的主要课题。该书对于国内语料库翻译学研究具有很强的指导意义。

一方面,国内学界应与国际学界接轨,积极创建网络语料库。目前国内基于互联网的语料库建设项目发展相对滞后,虽然国内已创建了多个大型语料库,但是基本上都是采取传统方式而建,极其费时费力。利用互联网资源创建大型参照语料库和平行语料库,可以节省宝贵的人力、物力、财力,同时版权限制也比纸质版的相对要小。国内已有部分学者开始利用互联网资源创建语料库,并取得了初步成功。熊文新(2013)从互联网采集“中外对话”双语环保类文章,创建了平行语料库。他通过页面分析,利用正则表达式提炼网页中的正文文本部分,并以纯文本格式保存各个文档,“实验仅耗时330分钟,就积累了500多万字词特定领域的高质量语料”(同上:133)。

另一方面,我们应善用工具,但不能过于迷信工具。基于语料库的研究现在受人追捧,但务必牢记语料库只是一种工具和手段,应充分认识语料库的局限性,避免陷入盲信语料库数据的窠臼。基于某一语料库研究发现的结果不仅需要其他语料库的数据进行多元互证(triangulation),同时需要利用语料库以外的知识进行评估,例如语料库收录文本在创作时的特定编辑及出版状况。语料库工具呈现的数据最终还是得由人去分析、解释。Tymoczko(1998)就曾提醒我们:“基于语料库的翻译研究切勿自降身价,陷入盲目的搜寻量化证据,这已经侵蚀了很多‘科学研究’,使它们变得荒谬、空洞。使用语料库翻译学工具和研究方法的研究者必须避免求稳这个心态,检索语料库及强大的电子文档不能仅仅是为了证明很明显的道理或给出让人信服的量化数据,这都是没有真正必要的。简言之,付出了很多时间与金钱,结果证实的却是凭常识都知道的事。”

概而言之,《翻译驱动型语料库》一书较为全面地考察了翻译研究的语料库方法及所用到的各种工具资源,有望为国内语料库翻译学提供研究方法和思路上的指导,同时亦对语料库在翻译实践及研究中的应用层面具有重要参考价值。

Baker, M.1993.Corpus linguistics and translation studies: Implications and applications [A].In M.Baker, G.Francis & E.Tognini-Bonelli (eds.).Text and Technology: In Honour of John Sinclair[C].Amsterdam: John Benjamins.233-250.

Tymoczko, M.1998.Computerized corpora and the future of translation studies [J].Meta43(4): 452-459.

胡开宝,2011,《语料库翻译学概论》[M]。上海:上海交通大学出版社。

梁茂成,2012,语料库语言学研究的两种范式:渊源、分歧及前景 [J],《外语教学与研究》(3):323-335。

熊文新,2013,Web、语料库与双语平行语料库的建设 [J],《图书情报工作》(10):128-135。

王克非,2006,语料库翻译学——新研究范式 [J],《中国外语》(3):8-9。

通信地址:221116 江苏省徐州市江苏师范大学外国语学院/100875 北京市北京师范大学外文学院(张继光)

050031 天津市天津外国语大学中央文献翻译研究基地/河北省石家庄市石家庄经济学院外国语学院(王少爽)

* 本研究得到教育部人文社会科学研究基金项目“基于语料库的当代英语散文汉译文本研究”(12YJC740137)、江苏省社会科学基金项目“葛浩文译作特征描述性研究”(13WWC011)和江苏省省高校哲学社会科学研究基金项目“基于语料库的当代英语散文汉译研究”(2011SJD740024)的资助。

猜你喜欢
平行语料库工具
向量的平行与垂直
平行
逃离平行世界
波比的工具
波比的工具
《语料库翻译文体学》评介
准备工具:步骤:
“巧用”工具
再顶平行进口
基于JAVAEE的维吾尔中介语语料库开发与实现