应用文汉英双语平行语料库研制与应用

2012-04-01 22:18兵谢家成
关键词:英双语英汉应用文

熊 兵谢家成

(1.华中师范大学 外国语学院,湖北 武汉 430079;2.长江大学 外国语学院,湖北 荆州 434023)

应用文汉英双语平行语料库研制与应用

熊 兵1谢家成2

(1.华中师范大学 外国语学院,湖北 武汉 430079;2.长江大学 外国语学院,湖北 荆州 434023)

双语语料库主要有平行语料库(parallel corpus)和对比语料库(comparable corpus)两种形式。平行语料库由于其独特的优势受到国内外研究者的高度关注。应用文汉英双语平行语料库属于专门用途全文语料库,目前规模约200万字/词,中远期规模为600万字/词。建成后,将主要用于4个方面的研究:语言与语言对比研究、应用文翻译研究、翻译教学研究、资源提取与机器辅助翻译运用研究。

应用文;英汉平行语料库;翻译研究;翻译教学

双语语料库是相对于单语语料库而言的。双语语料库主要有平行语料库(parallel corpus)和对比语料库(comparable corpus)两种形式。平行语料库能同时提取原文和目的语对应译文;对比语料库则包含两个语域或者话题类似的双语语料,即具有可对比性的双语语料。这两种语料库涉及两种语言,因而被广泛应用于双语对比研究、翻译研究与翻译教学等相关领域。

平行语料库由于其独特的优势受到国内外研究者的高度关注,从上个世纪90年代开始,国内外的一些机构和研究者开始建设多种类型的平行语料库并进行应用研究。不过,目前国内高校和研究机构建设的平行语料库主要是通用型的平行语料库或文学翻译语料库,以应用文为主体的平行语料库只有某些分支的语料库,如法律平行语料库、旅游平行语料库、商务语料库等。另外,此类研究大多着眼于个别的语言现象或翻译现象。笔者拟构建国内首个具有较大规模的综合性应用文汉英双语平行语料库,并以此为基础,进行更为广泛而系统的应用文文体特征、翻译特征及翻译教学研究。同时,本语料库的建设,对于翻译实务,如机器辅助翻译也具有十分积极的作用。总之,随着国家政治、经济、文化等各项事业的飞速发展以及对外交流活动的日益频繁,对应用文文本的翻译需求也与日俱增,本语料库的建成将能够满足这种需求。这对于国民经济的发展和中外经济、文化的交流将具有积极的推动作用。

一、双语平行语料库的构建及应用研究现状综述

双语语料库的构建始于上世纪90年代中后期。目前已有若干所大学、研究机构或研究者建立了多种类型的双语平行语料库。在国外,英国曼彻斯特大学科技学院(UMIST)翻译研究中心1995年创建了世界上第一个翻译语料库(Translational English Corpus)。该语料库主要收集从各国语言翻译成英语的文本,目前已有上千万词的语料。不过,它并不要求必须双语对齐,因此并不是双语平行语料库,而是对比语料库。在国内,最早建立起较大规模双语平行语料库的是北京外国语大学中国外语教育研究中心,该中心2004年初步建成了“新型双语对应语料库”(含汉英、汉日两个双语平行语料库)[1],规模为3000万词次。在其中的汉英双语平行语料库中,语料文本类型主要有文学类、人文类、社科类和科技类。受国家社科基金重大规划课题资助,该语料库目前正在进行扩展,目标为1亿词次的超大规模综合性通用英汉/汉英平行语料库。另外,一些学者也建设了具有一定规模的综合性通用英汉/汉英平行语料库,如李德俊[2],[3]主持建设,以汉英词典研编为主要目的,规模为2000万词次的英汉平行语料库;卫乃兴[4]主持建设,以研究探讨英汉对等表达为目的的规模约900万词次的英汉平行语料库。一些机构,如哈尔滨工业大学(英汉双语语料库,40万对)、中科院软件所(英汉双语语料库,15万对)等,也建设了规模不等的英汉/汉英综合性平行语料库。

除了综合性通用英汉/汉英平行语料库外,国内学者还构建了一些针对某一特定文本的英汉/汉英平行语料库,如针对特定文学作品的翻译平行语料库,有《红楼梦》汉英平行语料库[5]、莎士比亚戏剧英汉平行语料库[6]、绍兴文理学院的中国古典文学英译双语平行语料库等。

专门用途英汉双语平行语料库也是双语平行语料库的重要类型,典型的有商务英汉双语平行语料库[7]、双语旅游语料库[8]、中国法律法规汉英平行语料库等。这些专门用途英汉平行语料库主要为单一用途的语料库,或规模有限,或并未公开、无法获取,因此,有必要建设更为全面、规模更大的开放型应用文平行语料库。

双语平行语料库的相关研究可大致分为两大类别:

一是探讨如何科学规划、高效构建各种类型的英汉/汉英平行语料库[1],[7],[8],如设计理论、操作程序,包括文本的转换、语料的标注、语料的对齐等。

二是双语平行语料库的相关应用研究,主要包括以下几个方面:

利用双语语料库进行翻译研究。目前利用双语语料库进行翻译研究已得到广泛重视[9]。双语语料库翻译研究在研究方法上以语言学和翻译理论为指导,以概率和统计为手段,以双语真实语料为对象,对翻译进行历时或共时的研究[10],因此语料库方法与Gideon Toury[11]所提出的描写翻译研究有很多交合点。可以说,基于语料库的翻译研究为认识、研究翻译现象提供了新的思路和方法[12],[13],因而被广泛应用于翻译研究,尤其是翻译特征研究及对翻译共性的研究[14],如利用对比语料库探讨翻译汉语的词汇特征[15]、文学翻译中人称代词的显化和变异[16],以及利用汉英双语平行语料库分析英译汉文本的词类分布、词汇组合等方面的语言特征等[17]。也有考察特定作品翻译特征的研究,如基于《红楼梦》语料库的汉英习语及其翻译研究等[18]。目前基于双语语料库的翻译研究主要是针对文学翻译,不过对非文学翻译的研究也正日益受到关注,如利用双语旅游语料库对旅游宣传文本的翻译研究[8]。在对翻译特征的研究方法方面,除了充分利用语料库技术手段外,也有研究者利用人工分析标注的方法,对文本翻译进行语篇、功能等层次的深入研究。如利用Werlich[19](P150)提出的平行文本比较模式对文本内部构成规则(internal composition rules,即文本构成的基本因素及其组合规则,如开头、顺序形式、文本结构、文本单位和结尾等)进行分析和归纳,挖掘中英文酒店文宣在文本惯例上呈现出的不同特点[8]。另外,也有研究基于双语语料库并结合体裁分析考察专门用途英语翻译[20]。这些研究表明,语料库检索手段与人工标注相结合能更全面、更深入地探讨文本的翻译特征。

双语平行语料库也被用于汉英对比研究。这些研究大多利用双语平行语料库进行英汉对比个案研究,如“so…that”的汉语对应结构研究[21]、“把”字句研究[22]、“一……就”的英译对比研究等[23]。基于平行语料库的英汉对比研究有助于深入了解英汉双语转换规律,不仅适用于一些特定的疑难表达,也可用于大规模的双语对等表达提取,尤其是应用文翻译中的术语提取。实际上,基于平行语料库的对等词提取研究目前已成为平行语料库研究的一个热点(如卫乃兴[4],李文中[24]),这类研究不仅有助于翻译实践,也有助于各种词典的编纂。国内一些机构和研究者还研制了相应的对应表达提取工具和词典编纂辅助工具[2]。这些研究有助于双语语料库资源的有效获取与运用。

双语平行语料库在翻译培训[25]、语言及翻译教学[26],[27]、机器辅助翻译教学[7]等方面也受到了广泛关注。比如通过自建或在线语料库,教师精心设计学习点[26]或学生自主探究学习,通过检索软件在语料库中提取并呈现相关索引,供学生练习和讨论,教师随后作总结,有助于翻译教学。

二、应用文汉英双语平行语料库的构建

语料库构建中最重要的因素是语料的代表性,语料的代表性与语料库的设计目的密切相关。笔者拟构建具有较大规模的应用文汉英双语平行语料库(属于专门用途全文语料库),目前规模约200万字/词(为统计方便,中文部分按字数计算,英文部分按词数计算),中远期规模为600万字/词。本语料库的设计目的主要是进行与应用文相关的双语对比研究、翻译研究及翻译教学与翻译实务研究。下面从语料的构成、选取与录入、整理、对齐、标注等方面分别进行介绍。

语料的构成。本研究将应用文定义为“人们在工作、生活、学习中为处理实际事务而写作,有着实用性特点,并形成惯用格式的文本”。具体类别包括新闻文本、广告文本、旅游宣传文本、合同协议、演说词、公文信函、说明书、求职信、公示语、菜谱,等等。与此相应,整个语料库包括7个子库:新闻文本子库、广告文本子库、旅游宣传文本子库、合同协议文本子库、演说词文本子库、公文信函文本子库、其他类型文本子库(包括说明书、求职信、公示语、菜谱等)。本语料库文本类别包括汉语原创文本、对应英语译本、英语原创文本、对应汉语译本4种。根据以上语域类别分层抽样、均衡抽样,使入库语料具有较好的代表性。收录比例注意协调、均衡,英译汉稍多于汉译英。

语料的选取与录入。语料的选择决定着语料库的典型性、代表性,因此语料的选择与监控也是语料库建设的关键。语料库所收录的文本绝大部分来源于以下途径:网上的电子文本或CD-ROM光盘,网上数字图书馆,以纸质形式呈现的印刷品、书籍或宣传页等。这些材料都通过互联网下载、格式转换、文本电子扫描、人工录入等各种方式转为TXT文档。由于语言材料数量多,质量难免良莠不齐,这就凸显了语料选取的原则——必须挑选语言质量高的文本。文本若含有明显的语法、用词或印刷上的错误,均不收录;语料选取时应注意译本的质量,力避太过贴近原文句法结构以致僵硬的译文和太过自由的意译,因为本语料库除了用于语言研究外,还会用于教学,严谨选材显得尤为重要。为确保收集的文本质量与内容符合标准,本语料库在建设中实行多层把关制,以甄别、核实文本的代表性。

语料的整理。选取好的语料之后,还需对其进行加工处理。对所有的语料都要进行降噪处理,清除杂质、冗余符号等无关信息。有些文本带有插图、照片、标志、字体等非言语因素,是应用文文本中不可缺少的一部分,但在转换成电子文本语料后,这些非言语因素都必须去除,以方便标注和日后检索。作为补偿,将对具有这些特征的文本在其电子文本的篇头和文中进行标注,方便研究者和学习者查找相应的原始文档。语料的篇头标注也是语料整理的重要环节,详细的篇头标注能为所收录语料提供必要的信息,如文本类型、百科分类、篇名、作者名、作者背景、译者名、译者背景、年代、出版信息或其他来源、文本字数、有无非言语因素等。

语料的对齐。平行语料库建设过程中很重要的一环是语料的对齐。整理后的中英文语料首先借助Winalign工具,实现以句为单位的粗略对齐,然后人工检查,以方便Paraconc检索。

语料的标注。整理对齐后的语料还需进一步做机器自动标注。中文语料用中科院计算技术研究所开发的“汉语词汇分析系统”(ICTCLAS)进行分词处理,以方便进一步检索和研究。为了更深入、更广泛地探索应用文的语篇结构,还对不同类型的文本分别选取少量典型的样本,根据体裁分析方法,基于功能进行语步(move)的人工标注。这种标注有助于揭示应用文文本的语篇构成特色。

语料整理对齐并标注后,统一将文本转换成XML格式,方便传播和检索。

三、应用文汉英双语平行语料库的应用展望

本语料库建成后,将主要用于4个方面的研究。

第一,语言与语言对比研究。利用本平行语料库,开展基于应用文语料的语言与语言对比研究。既有将应用文作为整体与通用语言的对比研究,也有针对具体应用文类型的分类研究,还可以结合译文,开展英汉双语对比研究,重点考察英汉应用文在词汇、句法、语篇和文体上的共性和差异,以此揭示该文本类型中特有的语言现象和规律。这种基于大量语料的实证研究,相比传统的经验式或感悟式个案研究,具有更高的可信度。

第二,应用文翻译研究。主要包括微观和宏观两个方面。微观方面,研究翻译转换规律,主要集中于应用文文本翻译过程中词法和句法层面的转换机制,前者如词类转换情况,后者如各种句式的转换情况,特别是应用文英汉互译中汉语某些特有的句式(如无主句、“把”字句、意念被动句等)的转换机制。宏观方面,以实证和量化的方式对应用文翻译的文体、风格、翻译共性等进行研究,根据大量语料对译者个人偏爱的语言表达形式(如词类/标记比率、句子长度、词频、句型、搭配方式、叙事结构等)加以分析,从中发现更有说服力的翻译文体/风格表征及其表现手段。另外,还可对以下问题进行研究:应用文翻译与普通翻译在语言特点上是否存在共性?是否具有另外的特点?这些特点与特定文本类型或特定时期的翻译规范是否有关?

第三,翻译教学研究。应用文翻译教学及其研究是目前翻译教学中的一个重要环节。本语料库的构建解决了大量应用文语料的存储及其定性/定量分析的问题。基于多维度的研究发现以及较大规模的双语语料库平台,教师可精心设计数据驱动教学(data-driven learning),如利用语料库检索软件生成的索引帮助学习者发掘双语转换的规律,从中揣摩职业译员所用的翻译策略,学习他们常用的方法与技巧,提升应用文翻译的综合转换能力。

第四,资源提取与机器辅助翻译运用研究。具有较大规模的应用文汉英双语平行语料库是一种宝贵的资源,通过多种语料库手段,能够提取丰富的双语对比表达,尤其是术语表达。这些术语表达,以及平行语料本身,可充分用于目前的机器辅助翻译。

综上所述,本语料库具有很好的应用前景,有助于深入探讨英汉应用文文体特征的异同,以及英汉应用文互译时在词汇、句法及语篇层次转换方面的特色、翻译策略等。这些对比研究成果以及作为丰富资源的双语语料库平台的建成,将有助于培养高素质的应用型翻译人才,促进针对应用文的机器辅助翻译实践与研究。

[1]王克非.新型双语语料库的设计与构建[J].中国翻译,2004(6).

[2]李德俊.基于英汉平行语料库的词典编写系统CpsDict的研制[J].现代外语,2006(4).

[3]李德俊.完全对等、零对等的考察与汉英双语词典研编——基于平行语料库的研究[J].辞书研究,2009(2).

[4]卫乃兴.基于语料库的对比短语学研究[J].外国语,2011(4).

[5]刘泽权.《红楼梦》中英文平行语料库的创建[J].当代语言学,2008(4).

[6]胡开宝.莎士比亚戏剧英汉平行语料库的创建与应用[J].外语研究,2009(5).

[7]王立非.高校《机辅商务翻译》课程建设及教学系统的研发[J].中国翻译,2011(2).

[8]李德超,王克非.新型双语旅游语料库的研制和应用[J].现代外语,2010(1).

[9]Laviosa,S.Corpus-based Translation Studies:Theory,Findings and Applications[M].Amsterdam:Rodopi,2002.

[10]王克非,黄立波.语料库翻译学的几个术语[J].四川外语学院学报,2007(6).

[11]Toury,G.Descriptive Translation Studies and Beyond[M].Amsterdam and Philadelphia:Benjamins,1995.

[12]秦洪武,王克非.基于语料库的语言对比和翻译研究[J].外语电化教学,2006(6).

[13]王克非.语料库翻译学——新研究范式[J].中国外语,2006(3).

[14]王克非,黄立波.语料库翻译学十五年[J].中国外语,2008(6).

[15]王克非,胡显耀.基于语料库的翻译汉语词汇特征研究[J].中国翻译,2008(6).

[16]王克非,胡显耀.汉语文学翻译中人称代词的显化和变异[J].中国外语,2010(4).

[17]秦洪武,王克非.基于对应语料库的英译汉语言特征分析[J].外语教学与研究,2009(2).

[18]刘泽权.《红楼梦》中的习语及其翻译研究[J].外语教学与研究,2008(6).

[19]Werlich,E.A Text Grammar of English[M].Heidelberg:Quelle and Meyer,1982.

[20]谢家成.基于体裁分析的专门用途语篇翻译模式及运用[J].上海翻译,2010(2).

[21]秦洪武,王克非.基于语料库的翻译语言分析——以“so…that”的汉语对应结构为例[J].现代外语,2004(1).

[22]王克非.汉语把字句的特点、分布及英译研究[J].外语与外语教学,2003(12).

[23]谢家成.“一……就”的英译——兼谈英汉平行语料库辅助汉译英调查[J].中国科技翻译,2004(2).

[24]李文中.平行语料库设计及对应单位识别[J].当代外语研究,2010(9).

[25]Zanettin,F.Bilingual Comparable Corpora and the Training of Translators[J].Meta,1998(4).

[26]秦洪武,王克非.对应语料库在翻译教学中的应用:理论依据和实施原则[J].中国翻译,2007(5).

[27]王克非,秦洪武,王海霞.双语对应语料库翻译教学平台的应用初探[J].外语电化教学,2007(6).

Development and Application of Chinese-English Bilingual Parallel Corpus for Practical Writing

XIONG Bing (Philosophy Department,Central China Normal University,Wuhan Hubei 430079)
XIE Jia-cheng (School of Foreign Studies,Yangtze University,Jingzhou Hubei 434023)

Bilingual corpus has two main forms:parallel corpus and comparable,and much attention is paid to the former at home and abroad due to its unique advantages.Chinese-English bilingual parallel corpus for practical writing belongs to special purpose full text corpus,with a size of about 2million characters/word at present and a size of 6million characters/word in the future.It would be mainly used in the following 4areas of research:language and contrastive study of languages,translation research on practical writing,translation teaching research,research on resource extraction and machine-assisted translation application.

practical writing;parallel corpus;translation research;translation teaching

H315

A

1673-1395(2012)02-0075-04

2012-01-02

教育部人文社科规划基金项目(10YJA740104)

熊兵(1967-),男,湖北武汉人,教授,博士生导师,主要从事英汉语言对比与翻译研究。

责任编辑 强 琛 E-mail:qiangchen42@163.com

猜你喜欢
英双语英汉应用文
应用文写作:语言简练、得体、有效
中英双语阅读 金银岛
中英双语阅读 柳林风声
中英双语阅读 呼啸山庄
中英双语阅读 假如给我三天光明
高职应用文写作教学改革与创新
四种英语常考应用文写作范例
高职应用文教学方法初探
浅谈英汉习语的文化差异及翻译方法
英汉诗歌中的隐喻对比研究