《诗经》汉英平行历时语料库研制与应用

2020-05-05 03:10李广伟
沈阳大学学报(社会科学版) 2020年2期
关键词:高频词历时语料

李广伟, 岳 峰

(1. 福建师范大学 外国语学院, 福建 福州 350007; 2. 南华大学 语言文学学院, 湖南 衡阳 421001)

翻译学研究领域于20世纪50年代盛行规范研究,80年代开始向描写研究转变。这种转变与90年代译学语料库建设的兴起共同促成了语料库翻译学的诞生[1]。在研究方法上,语料库翻译学以语言学理论为指导,以概率和统计为手段,以真实语料为对象,对翻译进行历时或共时研究,代表了一种新的研究范式[2]。而历时语料库可对各年代语言样本进行比较,发现语言运用的历时变化,进而为翻译研究、语言演化研究及翻译语言与目标语之间的互动研究提供数据支持[3]。

《诗经》是中国最经典的诗体文学作品[4], 也是古代社会文化的重要载体[5]。自中西交流之始,《诗经》便成为传教士、汉学家、翻译家和诗人的翻译焦点,呈现出复译不断、异彩纷呈的特点。据笔者统计,仅英语译本就产生了26个(包含全译本10个、选译本16个),为增进中西文化交流作出了重要贡献。然而,《诗经》翻译研究仍然相当薄弱,普遍缺乏科学的描述性研究。仅有吴晓龙、高博[6]等创建了理雅各韵文本、庞德译本、许渊冲译本和汪榕培译本4个译本的语料库,不能客观反映《诗经》英译的总体特征和历时变化。

本文拟对《诗经》汉英双语平行历时语料库的研制与应用进行研究,重点探讨语料库的设计、制作与基本应用,以期对不同时期的译本进行数据化分析,揭示《诗经》英译的主要特点和整体风貌,进一步促进《诗经》在海外的传播。

一、研 制

语料库翻译学的关键在于语料库的研制,它是任何从事该领域研究的学者均无法回避的问题,也是至关重要的第一步[7]41。以下从语料库的设计和制作两个方面进行探讨。

1. 语料库的设计

语料库的设计是指语料库的总体建设规划[7]41,主要包括研制目的、历时性和代表性3个方面。

(1) 研制目的。建设语料库的目的在很大程度上决定了语料库的类型、库容、属性及其加工程度[7]41。本研究拟建设一个代表性较好又具有历时性特征的汉英双语平行语料库,旨在探索《诗经》汉英语言转换规律和翻译策略,考察翻译文本的语言特征和译者风格,揭示潜藏于翻译文本深处的带有某种规律性的特征、用法和结构,从而为《诗经》翻译中特有的语言项在不同时期译本中的历时变化提供支撑。

(2) 历时性。历时性是指所选语料在时间上要具有一定的跨度和连续性[8]。一般而言,历时语料库要有100年的时间跨度,也就是连续3代以上的语言使用者[3]。本研究根据查明建、谢天振《中国20世纪外国文学翻译史》[9]的历史分期与《诗经》英译本出版时间的先后顺序,将《诗经》英译本分为19世纪70—90年代末期、20世纪初至新中国成立前、新中国成立后至改革开放前和改革开放后4个阶段。研究收集的语料从理雅各1871年第一个全英译本开始到安增才2000年全译本结束,时间跨度达129年,充分保证了语料的连续性和历时性。

(3) 代表性。语料库的代表性是指语料库收录的语料在多大程度上代表某一语言应用的种类或文体[7]44。为了保证语料库的权威性和代表性,《诗经》源语文本选取了2012年上海古籍出版社出版的简体中文版。该版本由中国第一代女教授、著名《诗经》研究专家程俊英先生译注。在英语译本的选取方面,将10个英文全译本全部收录。选译本主要选取不同时期、不同身份、有较大影响的译者的文本,且选译篇数不足20篇者不予收录。所选译本见表1。

如表1所示, 4个阶段共包含15个译本, 译者有传教士、外交官、汉学家、诗人和大学教授,他们来自英国、美国、瑞典和中国4个国度。 对于影响较大的译者,将其译本全部收录, 如理雅各,被称为《诗经》英译的奠基人, 其1871年散体译本、1876年韵文体译本和1879年节选与宗教有关的选译本均被收录, 以便比较同一译者对同一文本的不同处理方式和同一时代不同译者对同一文本的处理方式, 以阐释译本的共时特征和历时变化。

2. 语料库的制作

语料库的制作包含语料采集、语料加工、语料标注、平行对齐4个方面,以下进行简要阐述。

(1) 语料采集。语料采集是指将书面语料实现电子化,转换为语料库的指定格式。由于《诗经》英译本众多,一些版本需要多方寻找获得,如有从孔夫子旧书网购买的纸质版本、有通过文献传递的方式获得的版本、有从网上下载的电子版本。对于纸质版本,通常通过扫描的方式获取PDF或图片格式,然后采用QQ图片文字提取功能提取所需文字,或采用“CS扫描全能王”实现文本电子化。对于下载的PDF版本,需要转化成Word格式,然后中英文分别单独保存为TXT文档(Windows系统默认编码格式为ANSI),以便后期统一进行加工处理。

(2) 语料加工。语料加工是指将电子文本清洁去噪及进行必要的标注加工。扫描和网络下载的电子文档,都可能存在一些多余的空格、空行或乱码,有必要对文本进行清洁处理。目前,有多种工具可以实现文本清理功能,如“文本整理器”“TextForever”和“EmEditor”等软件都可以对文本进行批量清洁。在文本清洁后,还需要对汉语进行分词处理。汉语分词一般采用中国科学院计算研究所张华平博士开发的汉语词法分析软件ICTCLAS 3.0进行分词处理。该软件具有分词和词性标注功能,针对现代汉语分词准确率高达97%[6]。但针对古代汉语准确率却不是很高,需要人工进行后期检查。完成分词后,需要对中英文文本进行句子切分,为在软件中实现句对齐进行预处理。研究以句号、分号、感叹号、问号作为语句切分的标记,句子切分在“EmEditor”软件里批量完成。

(3) 语料标注。语料标注是指对语料库中的具体样本的属性或特征进行描述[6]。常用的有COCOA参考系统模式。如CLEC( Chinese Learner English Corpus,中国学习者英语语料库)的标注方式,TEI(Text Encoding Initiative,文本编码倡议)模式, BNC( British National Corpus,英国国家语料库)的标注方式。相比较而言,对于平行语料库的标注,使用TEI模式更为简便,容易被用户理解。根据TEI模式,本研究对语料进行了篇头信息标注和篇体信息标注。本语料库的历时信息主要在篇头信息里进行标注,标注符号见表2。

表2 《诗经》历时语料库篇头信息标注

如表2所示,在篇头信息标注方面,共有序号、时间、译者等8个标注项目。主要采用了国际上通用的尖括号形式,其中〈〉为开始标记,〈/〉为结束标记。具体标记内容在尖括号内,全部用大写字母进行标记,如译者用TRANSLATOR标记。篇体信息根据研究内容进行标注,如词性标注,汉语采用ICTCLAS自带的词性标注集,该软件的最新版也可对英文词性进行标注。

(4) 平行对齐。平行对齐是指源语语料与目的语语料之间的翻译关系或对应关系,主要分为篇章、段落、语句和词汇4个层面的对齐[7]49。对齐单位越小,对于翻译研究越有价值,但难度也越高,目前还没有专门实现汉英词汇层面对齐的软件。主要原因有二:一是汉语和英语差异的客观存在,源语和目的语在词语或语句层面并不都存在一一对应关系;二是译者主体性的存在,为了实现某种翻译目的,如押韵,译者会将一句源语译作多个目的语语句,有时甚至会出现省译的现象。因此,《诗经》汉英平行语料库在尽量实现句对齐的基础上,以《诗经》源语文本为基准,允许一对零、一对一、一对二或一对多等情况的存在,以方便多译本平行检索。双语平行对齐可运用新西兰奥克兰大学Michael Barlow教授开发的ParaConc软件自动实现,但仍需要人工进行校对,该软件可以对双语文本进行合并、分割、插入空行等操作。语料平行对齐后,需要保存平行语料。全译本中英文同名存放,结尾以CH和EN进行区分,不同版本英语EN后加序号。选译本由于译者选译篇数不同,中英文放置同一文件夹,完成历时语料库的研制。

二、 应 用

在《诗经》汉英平行历时语料库研制基础上,下文将对《诗经》及其英译的总体特征进行考察,以揭示《诗经》英译的总体风貌。为了便于比较,主要以不同时期的10个全译本为例进行阐释。具体考察参数包括形符(tokens,语料库中总词数)、类符(types,语料库中不同单词数量)、类符/形符(type/token ratio,TTR,类符和形符之间的比率)、平均词长、句子总数、平均句长和高频词等。这些参数对展示翻译文本的宏观特征具有重要作用。以下将结合这些参数的统计数据,从词汇层面、句式层面和高频词的应用3个方面逐一分析。研究运用Wordsmith Tools 5.0对原文及译文进行了统计,具体数据见表3。

表3 《诗经》汉英平行历时语料库宏观描述

1. 词汇层面

在形符方面,表3显示,《诗经》原文形符数为23 362个,10个译本形符的数量均明显高于《诗经》原文的形符数,最高的是理雅各1876年译本,达59 574个,是原文的2.55倍;最低的庞德译本为38 029个,是原文的近1.63倍。这在某种程度上证明了目的语扩张是翻译显化现象特征之一。Blum-Kulka认为“翻译过程会使译文相对于原文更加冗长”[10],这可能是文学翻译过程本身内在的特征,与译本的时代关系不大。

在类符方面,从表3可以看出,原文类符数为5 946个。这一方面表明《诗经》本身用词特别丰富,倾向于变换词汇来表达文本意义;另一方面,《诗经》写作时代单音词较多,也会增加类符的数量。据考证,《诗经》原文中叠音词就达654个,草名有105个,马名也有38个,而仅描写手部动作的单音节动词就有采、挹、投、捣、击、携等50多个。10个译本中,类符数较高的詹宁斯译本和庞德译本,分别为6 630和6 141个。詹宁斯译本类符数比原文多684个,这与其翻译理念相吻合。詹宁斯主张翻译应该贴近原作。在其译本序言中,詹宁斯写道,“好的译文应该与原文在内容和形式上一致”[11]21。当时香港的一些著名汉学家也称其译本相当接近原作[11]20。而庞德译本形符最少,类符数仅次于詹宁斯。这与其意象派诗人的身份是相符的。意象派要求“诗歌要凝缩、简练、含蓄, 突出意象美”[12]。为了突出意象美,作为意象派大师的庞德,可能创造了大量意象词汇。而类符数最少的是许渊冲译本,为4 329个。这可能是因为许渊冲为传达《诗经》的意美、音美和形美,有意识地降低了类符数量,以降低阅读难度,使读者“知之,好之,乐之”,最终使中国文化走向世界,使世界文化更加光辉灿烂[13]。

在类符/形符方面,一般而言,类符和形符之间的比率是反映文本用词丰富度的一个指标。语料库规模相同,类符/形符越大,说明用词越丰富。但由于各译本长度不一,为了便于比较,研究采用了标准化类符/形符(standardised TTR),也就是按照一定的长度(通常为1 000个形符) 分段计算文本的比值进行比较。从表3可以看出,《诗经》原文标准化类符/形符是48.27,说明在《诗经》写作时代古人就很重视用词的丰富度了,这与类符呈现出的结果不谋而合。译文文本位列第一的是庞德译本,为49.61。这表明庞德十分注重用词的丰富度,有很强的文学素养,能够创造大量词汇传达诗人情感[14]。而最低的是高本汉译本,比值为36.96,这与高本汉翻译《诗经》的目的息息相关。高本汉在其译本序言中说,“我的翻译不彰显文学性,而是尽可能采用直白的语言,为汉学专业的学生服务,让他们能够熟悉这部在中国文学和文化史上具有重要地位的伟大作品”[15]。

在平均词长方面,10个译本的平均词长均在4.07到4.27之间变化,这和王克非教授统计的英语原创文学的平均词长4.26相当[16]58。同时,英语原创诗歌平均词长在4.12上下浮动,也趋向于英语翻译语料库(TEC)小说子库的平均词长4.36[17]80,但却远低于英语原创非文学的4.87,这可能表明英语的文学语言具有某种共性。词长最短的是韦利译本,为4.07。语料库数据表明,韦利使用较短单词(2、3、4个字母的单词)的比例达到64.4%,明显高于其他9个译本,这些短词多为虚词和人称代词,说明其译本口语化倾向明显。

2. 句子层面

在句子总数方面,《诗经》原文共有3 937句,7 284行。其中:4字组成的行数最多,达6 724处;5字次之,369处;3字158处:6字85处;7字19处;2字14处;1字7处;8字5处;最少的为9个字组成的句子,只有1处。这表明《诗经》句式错落有致,节奏感强。在10个译本中,除了阿连壁、高本汉和庞德译本句子总数较低外,其他译本都与原文句子总数接近。最低的是高本汉译本,只有1 565句,其原因在于,高本汉翻译时基本上每节诗歌结束时才使用一个句号或感叹号或问号,其余使用逗号或分号,而软件在句子统计时默认以句号、感叹号或问号为一个句子结束。而阿连壁和庞德译本句子总数少的原因在于二位译者的创造性较强。比如,阿连壁有时为了传达《诗经》的意义,把整节诗翻译为英语的一个复合句。这在某种程度上也是其翻译思想的体现。阿连壁注重意义的传达,他在《关雎》译文注释中说,“本诗和其他大部分诗一样,采用了意译的方法,我无意遵循源语结构,但是希望能够准确地传达原诗的意义”[18]。庞德是位创造性极强的诗人,通常运用意象手法对《诗经》进行改造。这也是庞德翻译观的体现,他认为翻译诗歌就如同创造新诗[19]。

在平均句长方面,《诗经》原文平均句长5.93,这是因为《诗经》主要由四言句式构成。10个译本中,平均句长均高于《诗经》原文的平均句长,但低于英语原创诗歌的平均句长24.14[14]。仅有庞德译本21.88,接近原创诗歌,这可能是受《诗经》原文句式影响造成的。

3. 高频词应用层面

高频词是在一个文本里使用频率特别高的词语。一般以一个词语在整个文本中占的百分比或者该词语在整个词频中占的前后位置来决定该词语是否为高频词[20]。

研究仍然运用Wordsmith Tools 5.0对各译本中的前10个高频词进行统计,基本数据见表4。

表4 《诗经》汉英平行历时语料库前10个高频词信息统计 %

续表4

文 本文 本12345678910汪榕培译本(1995)the7.44and2.96in2.09to1.94a1.56of1.47is1.43I1.34my1.32are1.10安增才译本(2000)the7.29and4.08of2.62to2.33is1.89in1.58are1.49a1.29I1.25with1.11

从表4可以看出,《诗经》源语文本高频词以助词、代词和介词为主,这与王克非教授考察的汉语文学原创语料库的高频词结果相符,其考察结果为:的、了、不、是、他、一、我、在、着、你[16]87-88。虽然《诗经》文本体现了鲜明的古代汉语的特色,如之、兮、矣等词,但这可能说明古代汉语的文学语言和现代汉语的文学语言在高频词使用上存在某些共性。而10个译本排前10位的多为功能词,如冠词(the、a)、介词(of、in、with)、代词(I、my、our、you、he、his)、连词(and、as、that)和系动词(is、are)以及不定式符号或介词(to)。这一结果与Olohan对TEC的考察结果基本一致[17]78, 也与BNC的统计相吻合,其位列前10位的词为:the、of、and、to 、a、in、that、is、it、for。这表明英语文本无论是翻译英语还是原创英语,排前10位的基本是无实际意义功能词,这可能证明翻译英语和英语本族语在高频词的使用上具有共性。值得注意的是,虽然译本产生于不同时期,译者身份迥异,但翻译均受源语影响,译本不可避免会呈现某些共性。表4显示,10个译本高频词的排序虽然略有差异,但是排前两位的都是the和and,而且除了庞德译本外,每个译本均有人称代词I,而BNC排前10位的高频词却并不包含I。

三、 结 语

以上分析表明,在《诗经》英译100多年的时间里,不同译本在形符、类符、类符/形符、平均词长、句子总数、平均句长和高频词使用方面都存在差异。这种差异产生的原因与译者翻译目的、翻译理念和译者身份息息相关。虽然译者身份不同、时代不同、译者主体性的发挥程度不同,但译本的产生都深受源语文本的深刻影响。翻译研究者不能脱离源语进行所谓的翻译研究,而应把研究原文在不同译文中的呈现方式与传播效果相结合,这样才可能对我国优秀文化的对外传播更有意义。有必要指出的是,本研究只是对《诗经》英译的总体状况进行了考察,具体译本的特征及其形成原因有待深入探讨。未来研究将在揭示不同时代的译本特征、译者风格、译者主体性发挥及形成原因等方面进行继续探索,以推动《诗经》英译研究不断向前发展。

猜你喜欢
高频词历时语料
30份政府工作报告中的高频词
省级两会上的高频词
面向低资源神经机器翻译的回译方法
量词“只”的形成及其历时演变
常用词“怠”“惰”“懒”的历时演变
28份政府工作报告中的高频词
省级两会上的高频词
可比语料库构建与可比度计算研究综述
对《红楼梦》中“不好死了”与“……好的”的历时考察
历时九年的星际穿越