卫乃兴谈语料库语言学的本体与方法

2014-03-11 09:04北京航空航天大学卫乃兴
语料库语言学 2014年2期
关键词:语言学语料库语言

北京航空航天大学 卫乃兴

卫乃兴谈语料库语言学的本体与方法

北京航空航天大学 卫乃兴

编者按

本刊从第2期开始,将推出“同题共议”栏目。每期由《语料库语言学》提出选题,邀请两位从事语料库语言学相关研究的学者,就约定的议题进行笔谈。两人各自阐述,互不交流,以此保证观点的独立性。本栏目鼓励和而不同的学术争鸣。学术思潮诸流并进,方才是兴盛气象。

本期“同题共议”立意语料库语言学的本体与方法,由卫乃兴、许家金两位语料库研究者,就有关的5个议题分述各自观点。本刊不作评点,亦不选择立场,其中观点全赖读者审查。本刊欢迎读者同仁就相同议题来稿研讨。

1.你怎么看语料库研究对语言学的贡献和意义?

要回答这个问题,我们最好看看语料库语言学对语言学产生了什么样的影响。我个人的认知是:语料库语言学对语言学产生了无法忽视的理论与方法影响。在理论层面,辛克莱式语料库语言学(Sinclairian Corpus Linguistics以下简称“辛式语料库语言学”1)对传统语言学的影响与冲击十分巨大。这个研究路线与范式取得了一系列重要发现。Sinclair提出的成语原则、扩展意义单位、语义韵、短语学等重要思想及其理论,否定了传统语言学“句法至上”的思想以及诸多观点,使人们认识到了语言使用过程中形式与意义、词汇与语法、型式与功能等各种共选关系。具体而言,我们不再将词汇与语法割裂分治,也不再将单词视为自足的意义单位,而是首要地观察它们的共选型式。这些思想催生和推进了世界范围内语料库语言学的多方面发展,冲击波影响到理论语言学和应用语言学,曾引起激烈的讨论。应用语言学家Widdowson(2000)强烈地反对将语料库研究成果应用于语言教学,生成语言学家Newmeyer(2003)尖锐否定语料库数据对语言能力理论构建的作用。语料库语言学造成的冲击与反弹可见一斑!对这些贡献,老一代的语言学家是能够公正、客观评价的。Johansson(2011:117)说,这些研究“对语言理解有着深远的影响,为新的语言理论诞生打下了基础”。Halliday (1992)认为,Sinclair的研究写下了语言学史上最重要的一章。

我个人的体会也十分强烈。早年在伯明翰大学听Sinclair讲授语料库研究,研读他的著述,如Sinclair(1966,1991)、Jones & Sinclair(1974),深深为其崭新观点所吸引。后来跟随杨惠中先生进行实证研究,折服于这些思想与观点的表述力。这些经历改变了我的语言观和研究方法,也走上了语料库语言学的不归之路。

就国内语料库研究而言,人们对辛式语料库语言学所知较少,所受影响大多来自Geoffrey Leech的一类研究和计算语言学。但近年来人们开始了解Sinclair,逐渐认识到了辛式语料库语言学的意义。这值得鼓励,但认真阅读他的一系列经典著述,理解其思想和方法仍需时间。

在方法层面,语料库语言学对语言学的贡献体现为语料库建设技术与数据处理方法的发展。在语言学史上,研究者从未像今天这样可以使用大数量的、真实的、经过科学手段处理的高质量数据,这是语料库语言学的贡献。这方面,以Geoffrey Leech为代表的学者做了重要的工作。他们建立了具有示范效应的语料库建设技术,开发了英语词类、句法、语义分析的多种计算技术,所建立的多种语料库以及各种标注工具已成为语言研究,尤其是应用语言研究的重要资源。

简言之,无论在理论层面还是方法层面,语料库语言学对语言学都产生了深远影响,作出了重要贡献。需要注意的是,近几年语料库语言学的两个研究路线和两个社团(指伯明翰团队和兰卡斯特团队)间争辩不休,2008年在“语料库邮件列表”(Corpora List)讨论组上发生了针对“新手语料库研修训练营”(Bootcamp Workshop)课程设置的一系列辩论,该辩论被整理后在《国际语料库语言学杂志》(International Journal of Corpus Linguistics)2010年第3期进行了集中报道,McEnery & Hardie(2012)第6章也有专门论述,其中双方使用了一些有失雅量的话语,也影响到中国语料库学者。我认为,两者代表了两种不同类型的语料库语言学,如Leech(2011:156)所言,伯明翰的语料库语言学是研究驱动的(research-driven),而兰卡斯特是资源驱动的(resource-driven)。从这个角度看,两类语料库语言学当然都是语言学需要的,或许不应发生那么偏激的争执。

2.你如何描述语料库研究的本体论与方法论及其关系?

本体论涉及语料库语言学的本质属性、研究客体及目标,影响着方法论。现在,语料库研究队伍急剧增大,对该学科的本质属性及其研究客体多有认知殊异。比如,有人将研究客体视为社会现象或做事方式,有人视之为心智行为,还有人视之为科学体系之符号等等。因此会有不同的方法论表述。然而,将语料库语言学简要且宽泛地概括为“对真实语言使用的研究”(the study of real life language use)应是整个社团的共识之一。由此,语料库语言学的研究客体则具有极强的社会现象属性。作为一种科学探索,其本体论的区别性属性是研究真实语言使用,包括真实使用的词汇、结构、意义和功能等广泛内容,其方法学涉及范围极广的过程性方法和微技术,其中语料库资源、数据处理以及相关计算技术是必不可少的支撑性要素。

目前,绝大多数研究者将语料库语言学视为一种方法(见McEnery & Hardie 2012)。这并无大错。语料库语言学正在进入相当广泛的语言学甚至其他社会学科领域,不同的领域及其客体需要不同的方法。况且,这些学科久已发展起了各自的经典方法,语料库的介入只是增加了一种新的方法。然而,这种观点轻易地抹杀了语料库语言学的理论分量。如上面所谈,语料库语言学的理论分量与贡献不容忽视。像词语共选、扩展意义单位、语义韵这些重要的发现及表述已在很大程度上成为语料库语言学的缺省值,即使强烈批判辛式语料库语言学或新弗斯语料库语言学(neo-Firthian Corpus Linguistics)、否认语料库语言学理论地位的“方法论者”,其研究也不乏这些重要概念、观点与方法。如果我们认真阅读一下McEnery与同行的研究(如Bakeret al.2013等),也不难发现其中明显的弗斯和辛式特征。也就是说,严肃的语料库语言学学者回避和摆脱不了业已确立的研究成就及其方法;犀利尖刻的批评背后可能是对批评对象的不解。试图将语料库语言学描述为理论中立的一套方法失之于极端表述,且弊多益少。

毋庸讳言,辛式语料库语言学是少数。但我认为,科学研究不是民主政治,不能搞少数服从多数;目前,少数人对辛式语料库语言学的坚守格外重要。

进一步讲,科学探索中的本体论和方法论是互为影响和制约的,理论与方法相互界定、相互渗透。我经常给学生讲,如果你做Chomsky的生成语言学,你要学会种树(画深层结构树形图),做Langacker和Talmy的认知语言学,你要学会盖房子(画语义表征图),做辛式语料库语言学,你要学会阅读词语索引。不同的本体理论要求不同的特征性方法。如果我们观察国内语言学博士点训练学生的方法,会发现很多不同。之所以不同,主要因为语言本体观不同。有些博士点共享一些训练方法,则由于本体立场接近。现在,语料库语言学内部因其本体观的认识差异,所需的具体技术、程序与环节也不同,但基本的特征性方法应不至殊异太大。

简言之,我赞同Leech(1992:106)早年的表述,即语料库语言学既是方法的,又是理论的,是语言研究的一种新路径。

3.相对于其他语言学领域,语料库研究的方法论特色是什么?

结合国内语料库语言学年轻学者的认知现状,我想谈三点。

1)语料库语言学数据的区别性特征。语料库语言学数据以其验证性、大数量性、自动化、计量性等特征有别于其他类型数据。我们使用的是自然发生的验证数据(attested data),是研究效度的必要条件;我们不可能将直觉数据混杂其内。语料库语言学依据的是大数量数据,研究报告和论文呈现的也是大数量数据,与传统思辨研究依赖的例举(exemplification)以及微量数据形成鲜明对比。现在人们热衷于谈论大数据,事实上语料库语言学是最早开始大数据研究的。语料库语言学数据由自动或半自动计算技术处理,准确度高。语料库语言学数据可计量,揭示了概率信息。

2)语料库语言学的特征性分析技术。任何一个学科都有其核心的分析技术(analytical apparatus)。语料库语言学在其数十年的历程中发展起了自己的特征性分析技术,包括频数统计、词语索引分析、搭配分析、词丛、主题词等。中国学者对这些概念及其操作并不陌生,但我想强调的是它们作为分析技术的属性。它们是概念,是数据种类,也是语料库语言学赖以进行各种语言问题探索的分析技术。也就是说,我们使用这些概念及数据,以它们为工具,切入所关注的问题,进行抽象与概括。比如,我们可以使用上述分析概念和技术探讨话语分析或篇章组织的问题、特定语域文本的句法特征、第二语言不同发展阶段的结构、语义及语篇问题、外语教学中的技能发展,等等。

3)自下而上与自上而下兼用的精密分析过程。我曾在过去两篇文章中(卫乃兴2008,2009)强调自下而上方法的重要性,但主张兼之以自上而下的方法。实际上,语料库语言学的研究过程显示很强的自下而上与自上而下交替兼用的精密分析特征。经典语料库语言学研究中的归纳与推演,数据观察与理论(特征)讨论,往往是层层展开,步步深入,穷尽一切可能,逐渐逼近,到达结论。需要指出的是,国内的不少语料库语言学研究缺乏应有的精密分析过程,显示不出应有的分析力量(analytical power)。一些研究将事实与评价混在一起,将语料库数据与直觉数据杂合,宏观概述多而语境分析少,数据与观察与结论之间、不同理论之间跳跃大,缺失环节多,没有语料库语言学社团所熟悉和接受的范式特征。这可能与中国人历史悠久的“天人合一”世界观、偏好辩证与综合、擅长宏论的习惯有关。无论如何,这不利于中国语料库语言学走向世界。

4.统计分析手段在语料库研究中的地位与作用如何?

统计手段的使用是语料库语言学重要的方法特征。目前使用的诸多统计手段,T检验、Z检验、互信息、对数似然率检验、卡方检验、Dice系数、因子分析等,都是概率模型下的数据分析手段,提供了关于语言形式的概率信息,揭示出形式在交际中的效用程度,是研究者进行量化分析并继而定性分析的必要信息。统计信息也使语料库语言学较其他语言学更具方法学上的科学属性。

另外一方面,统计手段有待于改进和发展。Kilgarriff(2005)发表了题为Language is never, ever, ever random的论文,讲了统计手段存在的问题:目前所有的统计手段都基于对“语言现象是随机的”这一零假设的拒绝或接受;但语言交际从根本上讲却是目的驱动的而非随机的。当语料库很大时,我们总能拒绝零假设,但这不一定意味着语言事件互为关联。再之,各种统计手段的原理及其适用对象和目的有别,但都不无缺憾。比如,MI偏向于低频事件,高频事件不一定获得显著高值。

据我所知,Sinclair是最早使用统计分析的语料库语言学家(见Sinclair 1966)。他在OSTI项目中首先使用了多种统计分析(如卡方检验、费舍尔精确检验,以及Poisson检验等,见Jones & Sinclair 1974)。但在后来的COBUILD语料库和Bank of English语料库研究中,Sinclair较少使用统计手段。这应当与大型语料库条件下现有统计工具的缺陷有关。

然而,因噎废食不是可取之策。一方面,应在诸多可能性中选择合适的统计手段处理数据,以免误导;另一方面应尝试克服现有问题,改进统计手段。比如,Gries(2013)等一直在试图改进统计手段;李晶洁等也尝试设计了新的互信息(MI)计算方法(Wei & Li 2013)。

需要指出的是,部分年轻学者的研究显示了另一种倾向,即一味热衷于统计信息的展示,而忽视语言学问题的讨论。一些文章展示了大量各式各样的统计信息图表,却鲜见具体语境下形式与意义的详尽分析。这是一种“见林不见树”或“见量不见质”的倾向:语言不见了,文本意义不见了,只留下干巴巴的数学信息!

5.语料库研究如何做到与相关学科的借鉴融通?

这个问题至少可有两种理解。其一,语料库语言学如何进入其他学科,扩展跨学科研究?事实上,语料库语言学一直在扩展其研究领地,从早期的语言描写进入了广泛的学科问题探索。这些进入与扩展大体上采用了下述几个策略:1)选取那些与语料库语言学不存在本体论尖锐对立的学科,易采用语料库语言学的特征性方法;2)聚焦于特定的具体学术问题而不试图对付整个学科的宏观问题;曾经响亮一时的“认知语料库语言学”、“语料库批评话语分析”、“语料库语义学”等旗号最终只是昙花一现;3)提供强有力的语料库语言学描述与独特的理论表述。这些扩展活动成果丰硕。如,下列分别是语料库语言学在应用语言学、二语习得与外语教学、语用学、话语分析、批评语言学、翻译研究、口语研究、对比语言学、文学等领域产生的经典研究:Flowerdew(1997)、Altenberg(1998)、Gu(2001)、Aijmer(2002)、Tognini-Bonelli(2002)、Nesselhauf(2005)、Mahlberg(2007)、Simpson-Vlach & Ellis(2010)、Xiao & Dai(2014),这些也应是国内研究者的必读作品。

第二种可能的理解为:语料库方法如何与其他研究方法结合、融通?很多研究都是非常具体的问题导向型研究,需从不同的角度探索,而语料库方法是可选者之一。比如,关于外语教学常用词组表的研制,可用普通和专门语料库的词频和搭配研究加上旨在检验词汇单位心理凸显性的心理语言实验,再结合旨在调查教学价值的教师访谈研究(见Simpson-Vlach & Ellis 2010)。理论上说,语料库应用于其他学科问题研究应有广阔前景。

然而,语料库语言学参与其他学科问题探索时,仍有分析技术的兼容和中间过程环节的衔接问题。如,系统功能语言学的诸多系统与子系统(如评价系统、鉴赏系统、评判系统、情感系统)与语料库数据的兼容与排斥度如何?进行认知语言问题探索时,语料库数据显示的型式(patterns in the data)与心智型式(patterns in the mind)之间的连接环节是什么?生成语言学的深层结构树形图与语料库语言学的高频线性序列如何兼容?这些概念与技术问题值得认真思考和解决,而不是仓促打出眼花缭乱的旗号。

相对而言,语料库语言学易与本体立场相近的学科结合,如上面提到的应用语言学等;与本体立场尖锐对立的学科则有不少冲突,如各式各样的心智语言研究、生成语言研究等。

从另一个角度看,融合固然必要,分歧也不可少。科学的突破与发展常常需要一些有益的歧见与新径,有赖于独特的思想与方法。

注释

1.此处Sinclairian译成“辛式”而不是“辛氏”,其主要考虑是:“辛氏”过于强调Sinclair个人的研究特色;“辛式”则指包含Sinclair本人在内的相关团队以及遵循的研究范式。后者更符合我们希望表达的意思。

Aijmer, K.2002.English Discourse Particles: Evidence from a Corpus[M].Amsterdam: John Benjamins.

Altenberg, B.1998.On the phraseology of spoken English: The evidence of recurrent wordcombinations [A].In A.Cowie (ed.).Phraseology: Theory, Analysis, and Applications[C].Oxford: Clarendon Press.101-122.

Baker, P., C.Gabrielatos & T.McEnery.2013.Sketching Muslims: A corpus driven analysis of representations around the word ‘Muslim’ in the British press 1998-2009 [J].Applied Linguistics34(3): 255-278.

Flowerdew, J.1997.The discourse of colonial withdrawal: A case study in the creation of mythicdiscourse [J].Discourse and Society8(4): 453-477.

Gries, S.2013.50-something years of work on collocations: What is or should be next? [J].International Journal of Corpus Linguistics18(1): 137-165.

Gu, Y.2001.The changing orders of discourse in a changing China [A].In H.Pan (ed.).Studies in Chinese Linguistics.Volume II[C].Hong Kong: Linguistic Society of Hong Kong.31-58.

Halliday, M.1992.Language as system and language as instance: The corpus as a theoretical construct [A].In J.Svartvik (ed.).Directions in Corpus Linguistics: Proceedings of the Nobel Symposium 82 Stockholm, 4-8 August 1991[C].New York: Mouton de Gruyter.61-77.

Johansson, S.2011.A multilingual outlook of corpora studies [A].In V.Viana, S.Zyngier & G.Barnbrook (eds.).Perspectives on Corpus Linguistics[C].Amsterdam: John Benjamins.115-130.

Jones S.& J.Sinclair.1974.English lexical collocations: A study in computational linguistics [J].Cahiers de Lexicology24: 15-61.

Kilgarriff, A.2005.Language is never ever ever random [J].Corpus Linguistics and Linguistic Theory1(2): 263-276.

Leech, G.1992.Corpora and theories of linguistic performance [A].In J.Svartvik (ed.).Directions in Corpus Linguistics: Proceedings of the Nobel Symposium 82 Stockholm, 4-8 August 1991[C].Berlin: Mouton de Gruyter.104-122.

Leech, G.2011.Principles and applications of Corpus Linguistics [A].In V.Viana, S.Zyngier & G.Barnbrook (eds.).Perspectives on Corpus Linguistics[C].Amsterdam: John Benjamins.155-170.

Mahlberg, M.2007.Clusters, key clusters and local textual functions in Dickens [J].Corpora2(1): 1-31.

McEnery, A.& A.Hardie.2012.Corpus Linguistics: Method, Theory and Practice[M].Cambridge: CUP.

Nesselhauf, N.2005.Collocations in a Learner Corpus[M].Amsterdam: John Benjamins.

Newmeyer, F.2003.Grammar is grammar and usage is usage [J].Language79(4): 682-707.

Simpson-Vlach, R.& N.Ellis.2010.An academic formulas list: New methods in phraseology research [J].Applied linguistics31(4): 487-512.

Sinclair, J.1966.Beginning the study of lexis [A].In C.Bazell, J.Catford, M.Halliday & R.Robins (eds.).In memory of J.R.Firth[C].London: Longmans.410- 430.

Sinclair, J.1991.Corpus, Concordance, Collocation[M].Oxford: OUP.

Tognini-Bonelli.E.2002.Functionally complete units of meaning across English and Italian [A].In B.Altenberg & S.Granger (eds.).Lexis in Contrast[C].Amsterdam: John Benjamins.74-95.

Wei, N.& J.Li.2013.A new computing method for extracting contiguous phraseological sequences from academic text corpora [J].International Journal of Corpus Linguistics18(4): 506-535.

Widdowson, H.2000.On the limitation of linguistics applied [J].Applied Linguistics21(1): 3-25.

Xiao, R.& G.Dai.2014.Lexical and grammatical properties of translational Chinese: Translationuniversal hypotheses reevaluated from the Chinese perspective [J].Corpus Linguistics and Linguistic Theory10(1): 11-55.

卫乃兴,2008,语料库语言学的Firth学说基础 [J],《外国语》(2):23-32。

卫乃兴,2009,语料库语言学的方法论及相关理念 [J],《外语研究》(5):36-42。

通信地址:100191 北京市北京航空航天大学外国语学院

猜你喜欢
语言学语料库语言
体认社会语言学刍议
《复制性研究在应用语言学中的实践》评介
语言是刀
《语料库翻译文体学》评介
《神经语言学和心理语言学视角下的二语习得》述评
让语言描写摇曳多姿
累积动态分析下的同声传译语言压缩
基于JAVAEE的维吾尔中介语语料库开发与实现
我有我语言
语篇元功能的语料库支撑范式介入