《论语》多译本平行语料库的创建

2020-11-06 04:46杨晔王子涵
文存阅刊 2020年18期
关键词:论语

杨晔?王子涵

摘要:《论语》被称为东方哲学经典中的经典。一直以来为包括中国、日本等世界诸多国家久为研读,并发挥着持久而深刻的影响力。本文选取在中华典籍文化海外传播中发挥了重要影响力的汉学家译注的《论语》译本,创建汉日平行语料库,以期推动《论语》语言特征等方面的实证研究。文中详细介绍了包括语料清理、语料对齐、语料的分词和标注、语料检索在内的汉日平行语料库的创建步骤。

关键词:论语;多译本;平行语料库

一、概述

作为孔子教义权威记载和儒家思想的基础文本,《论语》一直是中华文化的主流意识形态,也对亚洲乃至西方文明产生了重要影响[1]。它以语录体和对话文体为主,记录了孔子及其弟子言行,以及孔子与时人的问答。它是进行孔子研究的重要资料,书中集中体现了孔子的政治主张、伦理思想及教育思想等。从学而篇到尧曰篇,通行本《论语》共二十篇。

本文以《论语》现代汉语译文及海外汉学家译注的五个日译本为语料,构建《论语》汉日平行语料库,为《论语》的实证研究做基础。

二、平行语料库建设现状

平行语料库可分为通用语料库和专门领域语料库。通用语料库以北京外国语大学研制的汉英、汉日对译语料库为代表,其特点是收录内容覆盖面广,语料规模大,可应用于语言研究、翻译研究、教学研究、词典编纂等[2]。专门领域语料库以文学类平行语料库为主,法律、医学、科技、旅游等非文学类平行语料库的建设及研究也取得了进展。

专门领域语料库的研究也取得一定进展。如:以教学应用为目创建英汉平行语料库、《红楼梦》中英平行语料库、莎士比亚戏剧英汉平行语料库、契诃夫小说俄汉平行语料库等。学者基于自建平行语料库对双语文本进行一对一或一对多平行检索,对翻译策略、译者风格和翻译语言特征等方面进行研究。具体包括:从词汇角度对隐喻翻译策略的研究、对报道动词的翻译及显化进行的研究;从句法角度对“忙XX”结构、“把”字句、叙事标记语进行的研究;以及从篇章角度对语篇难易度与语篇范化、译者风格等内容进行实证研究。

通过对文献的梳理可以看到,这些研究成果存在一定相同之处,即普遍使用句对齐,所用工具和软件基本相同;标注过程中以词性标注为主,使用自动标注辅以人工校对的模式。不同点有:①标注的内容呈现多样性,在平行语料库的建设过程中,标注虽然不是一个必须的步骤,但通过对句法或词性的标注为后续深入研究提供了方便。除词性标注外,学者基于不同的研究目的,对文化负载词、对句子类型、有/无习语、谚语、有/无修辞等内容进行标注;②部分学者开发了网络检索功能;③建设方法多样性,除常见的语料对齐软件外,还有学者使用Trados、python、office中VBA语言、web进行语料库建设。

目前,平行语料库的建设以汉英双语平行语料库为主,非通用语种的语料库建设尚存不足。部分自建的语料库中收录语料数目少,缺少一对多平行语料库非通用语种平行语料库建设成果较少。鉴于此,本文在中译本之外,选取五个日译本,构建汉日平行语料库。

三、《论语》汉日平行语料库的创建

一般而言,平行语料库的创建步骤主要为:①语料的预处理;②语料加工;③语料的检索。其中,语料预处理包括语料输入与语料清理等工作;语料加工包括语料对齐与语料标注等工作。本文所建立的汉日平行语料库是一文多译,且在句子层面呈现对应关系的语料库。通过对汉语或日语的关键词进行检索,可以提取出含有该关键词的所有语句,并且能够使原文与多个译文同屏展示。同时为便于进一步深入研究日语译本,对语料进行了分词和词性标注。《论语》汉日平行语料库的加工过程如图1所示。

1.语料预处理

如图1所示,语料预处理包含语料输入及语料清理两个步骤。

《论语》汉日平行语料库中共收录两个中文文本、五个日译本。中文文本为朱熹撰《论语集注》、杨伯峻的《论语译注》。日译本均为日本汉学家译注的现代日语版本(译注者分别是:贝塚茂树、宇野哲人、金谷治、宮崎市定、加地伸行)。

将收集到的纸质版语料,使用光学识别软件电子化后,转换为TXT格式,进而对语料进行清理和校对。语料清理一般包括文本格式的统一、字符替换、拼写检查和编码转换等。具体包括:①图片及前言后记等无关信息的剔除;②文本格式、字体类型及大小的统一;③文本杂质的清除,多余空格、符号的删除;④错别字的修改等。汉学家译注的《论语》为了便于读者理解,在译文之外,普遍添加了词语注释以及针对语义乃至语境的解释,这些文字属于注释内容,不属于翻译内容。此外,为了读懂汉文原典,日本人发明了“汉文训读法”,具体方法是在汉文原文旁边加上一些符号,就可以阅读中国古文。我们选取的日译本中均有这种“训读文”,这些内容不属于现代日语翻译文本,所以在创建《论语》汉日平行语料库时,将书中出现的“注释”以及“训读文”未进行收录,只保留了日文译文。清理完毕后的语料规模在40万字左右。

2.语料加工

首先是使用线上对齐工具实现句子层面的对齐。《论语》语言为古汉语,段落简短,多以一句话为一个段落。由于日文版《论语》是日本译注者根据朱熹、何晏等人的注释,并结合自己的研究成果,进行译注,所以不但在语义理解方面,存在与中国学者相异之处,在段落的划分上也存在差异。本研究以朱熹撰《论语集注》为依据,将各译本的段落划分与此保持一致。同时,在句对齐方面,以中文原文中的句号、问号、分号、叹号等为切分句子单位,将日语译文及现代汉语版译文与原文进行句对齐处理。

在此基础之上,通过使用python对语料进行了分词和词性标注。并对分词和标注的结果进行人工校对及修正。图2为最终标注结果。日语中有“形容词”和“形容动词”之分,形容动词是表示事物性质和状态的词语,在修饰名词与可充当谓语等功能方面,与形容词相同。但活用形式不同。下图中第4行右侧第3个词“形狀词”,即为形容动词。此外,图中词性标注中有“助动词”(如图中第1行右侧第1个词),这是因为日语中词性有“助词”和“助动词”之分。

3.语料检索

本研究使用CUC_Paraconc进行语料检索。在CUC_Paraconc中载入语料,能够实现中日语料的双向检索,通过设置载入语料的数量可以实现一对一或一对多的语料检索。如图3,在“原文关键词”处输入中文“礼”,下方的检索结果中,就能获得包含关鍵词“礼”的中文以及对应译文,同时还能看到该词在中文原文出现的频数,即75个。这里显示的是在中文原文中出现的频数,没有显示在日译本中的出现频数。如果想获得该词在日译本中的出现频数,就要在“译文关键词”处输入相应日文关键词。

经过分词处理后的语料可以进行检索分析。如图4所示,如果想了解翻译文本中哪些词与“孔子”共同出现在一个句子中,可以将“孔子”设为索引词。图4所示是为了考察“孔子”一词的右侧有哪些词高频出现,搜索范围设置为右侧三个词。从图4可以看到,「がいわれ」与“孔子”一词共现频率最高,其次为「から」一词。(图中「孔子がいわれた」相当于汉语中的“子曰”;「孔子から聞いた」相当于汉语中的“子问”的意思)。

此外,还可以进行其他关于词汇、搭配、句法方面的检索;对分词和词性标注的语料,可以利用软件的统计功能,进行类符、形符、词频、词汇密度、词汇搭配强度等参数的统计分析。

四、结束语

自建语料库的优点在于能够遵循自己的研究目的,有针对性地选取语料,做符合研究目的的标注。本文以《论语》原文及日译文为研究文本,详细介绍了从语料清理到语料检索的语料库建设过程,为多译本汉日平行语料库的建设及研究提供了经验。目前市面上的语料库工具多适用于英语,而对于非通用语种建库,存在功能不健全不完善之处,这也给非通用语种的语料库建设提出了挑战。今后,将继续对《论语》汉日平行语料库进行完善。

参考文献:

[1]杨平.《论语》核心概念“仁”的英译分析[J].外语与外语教学,2008(02):61-63.

[2]王克非.新型双语对应语料库的设计与构建[J].中国翻译,2004(06):75-77.

作者简介:

杨晔(1971年-),女,副教授,哈尔滨理工大学

王子涵(1995年-),女,硕士研究生,哈尔滨理工大学

基金项目:

黑龙江省哲学社会科学研究规划项目(批准号2019YYB067)的阶段性成果。

猜你喜欢
论语
知之为知之,不知为不知
漫画欣赏《论语》
点点读《论语》
点点读《论语》
点点读《论语》
《论语·学而第一》
《论语·为政第二》
点点读《论语》
点点读《论语》
半部《论语》治天下