基于语料库研究方法的英汉定量对比研究

2023-03-22 05:51朱明慧

现代英语 2023年2期

朱明慧

(上海大学，上海 201900)

一、引言

近年来，随着语言学的各分支学科的不断深入发展，同时也得益于计算机科学的飞速发展以及统计分析方法的日益完善，定量分析研究逐渐引起学界的广泛重视，成为对比语言学研究的一种趋势。而在定量对比研究中，基于语料库的研究方法是最常用的方法之一。许余龙(2009)[1]在对第五届国际对比语言学大会的述评中指出，大会的宣读论文中有60.2%的英语论文选择使用语料库的研究手段，并以此为主要依据进行深入探讨。

然而，我国的对比语言学研究尚存在一些不足。王文斌(2019)[2]以近70年内国内汉英对比语言学研究为对象，对其展开了系统的梳理和总结，强调了多年来我国英汉语言对比研究成绩显著，问题亦不少。在研究方法层面，他指出，目前的研究大多在思辨层面，即使有些实证研究，也通常是一些数据罗列，尚未充分借用语料库对某些语言现象进行较为系统而全面的描述。同时，在语言对比研究方面，中国学者国际化意识不足。

因此，文章着眼于定量对比分析中较为常用的基于语料库的研究方法，从对比语言学国际领先期刊Languages in Contrast选取了3篇关于英汉对比的英语文章，从国内外国语言类核心期刊选取了2篇汉语文章，对英汉语言对比领域的主要研究方法进行综述。文章拟从对比研究的主要类型、研究设计和在数据统计分析过程进行初步探讨，进而对英汉语言对比研究方法得出较为清晰的认识，力求对国内学者进行英汉语言的对比提供研究方法上的建议。

二、语料来源

文章共收录文章5篇，其中3篇英文文章来自Languages in Contrast，两篇汉语期刊分别来自《解放军外国语学院学报》和《外国语》。Languages in Contrast是由同行评审的对比语言学学术期刊。期刊着重于对两种或两种以上的语言进行对比研究，范围包含理论语言学与应用语言学的所有分支，是对比语言学领域最为权威的国际期刊之一。同时，《解放军外国语学院学报》和《外国语》也属于国内外语类的权威期刊，是国内学者交流学术热点的重要阵地。

三、基于语料库的案例分析

在定量对比研究中，研究的主要类型、研究设计以及数据统计分析过程是十分重要的部分。

(一)定量对比研究的主要类型

许余龙(2001)[3]提出，根据语言对比研究的特点，可以将实证性定量对比研究分为定量篇章对比分析研究、语言对比调查研究和语言对比实验研究。文章所涵盖的5篇文章均属于定量篇章对比分析研究范畴。定量篇章对比分析研究主要是在对两种语言的篇章进行对比分析的基础上，研究两种语言中两个相对应的语言系统或项目在使用数量、分布和用法方面的异同和特点。

McEnery和Xiao(2006)[4]利用4个独立的语料库，即英语、汉语书面语语料库及英语、汉语口语语料库，从被动语态的长短、语义层面、语用特征、句法功能以及体裁类型方面，对英汉语言中的被动语态的使用频率进行了全面的对比，探讨了两者在被动语态使用的异同，也解释了两者产生差异的原因。

Boulin(2017)[5]利用由小说文本组成的英汉双语平行语料库，每种语言约268000字(不包括翻译文本)，探讨了英汉语中的指示副词now和“现在”的使用频率、语义范围和语用功能异同。

Xiao(2011)[6]利用三个平衡类比语料库，囊括英语、汉语以及对应英语翻译，对英汉语中词丛和重复话语标记的出现频次和使用场景的异同，为英汉互译提供策略上的建议。

吴格奇(2013)[7]以英文和汉语学术论文作者如何通过自称建构身份为研究目标，利用自建语料库进行了详细的对比分析。语料库包括90篇基于实验或语料的实证性研究的英、汉语期刊论文，对论文作者在自称时使用的第一人称代词和第三人称名词进行统计，探讨了英汉论文作者身份构建方式的异同。

许文胜(2011)[8]借助“英汉文学名著语料库”，以语言类型学为切入点，在文本采样的基础上，运用检索软件对英汉两种语言的连词使用情况展开考查，对英语和汉语这两种语言系统在各方面使用的差异和相同之处，包括连词的使用数量、分布及用法方面。同时，也考查英汉两种语言由翻译对译入语造成的潜在影响。

(二)研究设计

定量研究设计的基本原则是控制差异，这一原则与对比研究的基本原则一致，其目的是确保对比研究建立在某一共同基础上。本部分将以选取的5篇以定量篇章对比分析研究为主的文章为例，来探讨其研究设计以及讨论其设计的合理性。

一种语言内部可以有多种类型的不同语言变体。在定量语言对比研究中，只有控制语言变体和其他方面的不同而带来的差异，才能观察和说明所研究的语言之间的差异。在探讨定量研究设计中如何控制差异时，维尔斯曼(1997)[9]认为，有如下四种控制差异的基本方法:随机化、保持因子不变、设定自变量因子以及统计调节。

在5篇论文中，控制差异的主要方法是保持条件或因素不变，缩小变量的变化范围。例如，Boulin(2017)[5]所采用的语料库是由现代小说文本组成的平行双向翻译语料。英语的语料选自于若干外国作家的代表作品(Brown，2003[10]；Rowling，2007[11])。汉语的语料选自于中国台湾作家钟文音(2012)的《艳歌行》[12]、吴明益(2013)的《复眼人》[13]以及巴代(2007)的《女巫笛鹳》[14]。所选取的语料均为相似的文学文本，同时语料字数也相似，以考察now和“现在”的使用异同。使用这种方法的好处在于保持了问题会影响研究结果的因子保持恒定不变。许文胜(2015)[8]也是采用研究文学作品的方法来缩小变量的变化范围。语料来源为18部英美小说及其译本、26篇现代汉语小说、《红楼梦》及其两个英译本。研究的文本为从语料库中选择的著名作家及其代表作，以及在学界具有一定影响力的翻译作品。吴格奇(2013)[7]的研究对象为学术论文，自建的语料库中涵盖了90篇期刊论文，英汉论文的数量相等，各45篇。为了控制差异，选取的所有论文都是独立作者展开的实证性研究。

采用保持因子不变的方法可以较为深入地研究语言之间某一文体中的差异，然而，研究结果的有效性也因此受到了限制。在所列举的例子中，英汉两种语言的差别不再能反映两种语言的整体差别，而只能反映两种语言在某一种文体中的使用差别。

在控制差异时，设定自变量因子也是一种可行的方法。如果既要看语言之间的差异，又要研究语言内部不同问题之间是否存在差异，可以采用设定自变量因子的方法。例如，McEnery和Xiao(2006)[4]所选取的语料涵盖15种不同的体裁，包括冒险小说、科幻类小说、新闻报道等类型，以语料的体裁设定为自变量因子，分别统计英汉被动语态在各种体裁中的使用量。

Xiao(2011)[6]也采用了类似的语料，但不同的是，笔者采用了双向翻译对等语料，在部分研究设计中把文类设定为自变量因子，将英语原文语料与对应的汉语译文语料进行对比。对体裁这一因子的处理，则采用保持因子不变的方法，在统计的时候选用某一类型作为分析的单一体裁语料。

控制差异的最后一种方法是统计调节，这一方法通过对统计数据进行处理来控制差异，消除控制变量的影响。例如，许文胜(2015)[8]在统计数据是采用每百句和每千词(字)中连词频率作为参数。McEnery和Xiao(2006)[4]在对英语文本中被动语态的使用进行统计时，为保证频率统计的可比性，数据只包括由be/get后面紧跟实义动词的过去分词形式的结构，排除了get用作使役动词的情况。同时笔者不仅将各语料库的频率进行了统计，也将每100000词(字)的被动语态使用情况作为参数。

(三)数据统计分析

在进行定量对比研究的数据统计分析时，极为重要的一点是必须对数据反映什么样的语言事实有一个清楚的认识，从而确定数据之间的可比性。

McEnery和Xiao(2006)[4]进行了多项数据的对比，包括在语料库中英、汉语被动语态各自的使用频率，有施事被动句和无施事被动句的使用频率以及在书面语和口语语料库中的差异、在不同体裁中被动语态的使用情况、被动语态在句中所作的成分等。在进行了两种语言内部的比较后，笔者转而比较两种语言之间的差异，得出了两种语言在总体使用频率、被动语态的施事者、语义特征、句法功能及体裁类型具有差异，并解释了产生差异的潜在原因。

Boulin(2017)[5]进行了两个角度的对比，包括英语原文和汉语译文角度以及汉语原文和英语译文角度进行比较。理论上来说，在翻译对等的语料中，指示副词now和“现在”在语义结构上应该是相同的，因此出现的频率也应一致。分析发现，now在英语原文出现的频率高于英语译文，“现在”在汉语译文中出现的频率高于汉语原文。在对应图式和非对应图式的统计中，研究发现now在大多数情况下不会被汉译成“现在”，而“现在”大多被英译为now。

Xiao(2011)[6]旨在研究语言内部及语言间的词丛和言语重复标记的使用情况及异同，因此结合英语原文、汉语译文及汉语原文进行了数据分析。在分析中，作者指出与汉语相比，英语中使用词丛的频率更高。而与汉语原文相比，汉语译文中词丛的使用更为常见，使用范围也更加广泛。使用言语重复标记时，作者将汉语和英语分开对比，得出汉语译文比汉语原文使用频率更高，英语译文比英语原文使用频率更高的结论。

吴格奇(2013)[7]首先统计了英汉论文中作者自称的出现频次。统计得出无论是英语论文还是汉语论文，第一人称自称的使用频次都比第三人称高。在英汉论文自称第三人称使用频次都较低时，笔者指出，虽然汉语论文中使用第三人称的频次稍高与英语语料，但是这种现象不能直接判定汉语论文作者在论文中有更强烈的呈现自我倾向。这里第三人称的不可比性是文章较为严谨的一点。

许文胜(2015)[8]利用语料库和检索软件，以英语的语义类型作为视点与汉语的连词进行比较，从英、汉原文文本、英—汉、汉—英译文文本等方面进行定量分析，用数据解释英汉语篇衔接中连词使用数量、分布和用法方面的异同，指出理解连词的重要性，并强调了连词在翻译中的重要作用。

四、思考与展望

近年来，无论是理论上还是时间上，国内外的对比语言学研究成果都颇有建树。在研究方法层面，研究者倾向于利用语料库来获取更多的语言事实，在描述语言事实的同时，尝试深入挖掘语言差异现象。在利用语料库进行定量对比分析研究时，要深入思考，并选择适当的研究类型，遵守研究设计的基本原则，遵循控制差异的四种基本方法，并在数据分析过程中合理运用数据来说明语言事实。在基于语料库的对比研究迅猛发展时，研究者也要注意研究的深度和广度。研究者应充分借用语料库对某些语言现象进行较为系统而全面的描述，不能只是简单的数据罗列。定量分析与定性分析并不矛盾，而是可以看作一个连续体(维尔斯曼，1997)[9]。因此，为了避免研究方法过于单一，未来研究者可以以语料库方法为基础，采用定量对比分析和定性对比分析的方法来探讨语言之间，特别是英汉语之间的异同，以达到研究深度和广度上的掘深和拓宽。

五、结语

文章以5篇选自于国内外顶级期刊的基于语料库的定量对比研究为例，讨论了在英汉对比中定量对比研究的主要类型、研究设计以及数据分析过程。文章选取的案例均为定量对比篇章分析研究，在研究设计上采用多种方法控制差异，并在数据分析过程中合理运用数据对语言事实进行阐释。当下，语料库技术在不断更新发展，研究者可以充分利用语料库为主要依据和手段，采用定量对比分析与定性对比分析相结合的方法，对某些语言现象进行系统且全面的描述，而国内学者应多重视采用语料库的方法进行英汉语之间的全面而深入的对比。