国内外语料库语言学发展研究概述

2021-02-13 10:03陈钊
关键词:方法论语料语言学

陈钊

(北京语言大学 汉语国际教育研究院,北京100083)

随着计算机的普及和大数据时代的到来,人们利用数据的方式也趋于多样化,语言科学与计算机科学的结合,便衍生出一个新的研究领域和方向——语料库语言学。语料库语言学的发展已有很长的时间,其研究方法与理论也日益成熟,但在研究过程中,仍存在一些问题,如语料库语言学的学科地位是怎样的?它是否是一门独立的学科?由此产生了很多分歧。又如语料库语言学的研究范式之争,“语料库驱动”和“基于语料库”二者存在分歧。甄凤超主张要坚守“语料库驱动”的研究范式,认为“基于语料库”研究范式的学者都信奉某种语言学理论,但至今尚未看到真正从理论出发的基于语料库数据证伪的理论研究[1]。再如,语料库语言学与其他学科的融合形成了“语料库翻译学”“认知语料库语言学”等交叉领域。格里斯(Gries)是认知语言学与语料库语言学结合的支持者,他主张将语料库的方法应用到其他领域,这样语料库语言学才能长足发展[2]。而甄凤超借威廉姆斯的一句话——“不能因为只是在研究中使用了语料库,就能够把自己称为语料库语言学研究者”来反对这种“认知语料库语言学”的提法[1]。这样的分歧点不止一个。“认知语言学”与“语料库语言学”的结合是否合理?今后语料库语言学将如何发展?这些都是值得研究者深思的问题。本文从国内和国外两个角度出发,通过对CNKI上的相关文献进行梳理,以便明晰语料库语言学的前世今生,尝试参考各家之观点,为以上问题寻求一个答案,或者说是相对合理的解释,以期能为语料库语言学的发展理清脉络。

一、国内外语料库的发展

(一)国外语料库的发展

国外的语料库发展起步很早。王建新将语料库分为计算机化以前的语料库和计算机化的语料库两个阶段:前者的代表有夸克在1959年首倡并领导的《英语用法调查》;后者又可以分为第一代未加分析与标注的语料库和第二代标注的语料库[3]。刘满堂也是以计算机化为阶段划分标准,认为早期的语料库为手工语料库时期,弗朗西斯和库塞拉建成的布朗语料库标志语料库的建立进入电子时代[4]。潘永樑则是根据语料库规模的大小划分出第一代语料库和第二代语料库[5]。丁信善认为,语料库的发展可以以乔姆斯基的1957年《句法理论》为界,认为早期的语料库是为了语言习得、音系研究及方言学而建立的。转换生成语法的提出,使得语料库的发展出现停滞。20世纪80年代以来,以伯明翰英语语料库为代表的一大批语料库相继建成,并逐渐复兴[6]。许家金认为,美国20世纪初到60年代,结构主义一统天下,直接影响了美国语料库的发展,如在特瓦多的主持下,弗朗西斯和库塞拉建成了布朗语料库,但这一语料库是在众多学者批判的环境下建成的。20世纪中叶,美国以生成语法为主导,否认语料库的语言学价值[7]。随后,英国夸克、格林鲍姆、利奇秉承结构主义描写的传统创建语料库。

通过以上梳理可以看到,国外语料库是从手工收集语料时期开始就有了语料库的雏形,随后计算机的发展与普及为语料库的建立更是助力颇多。不过,美国与欧洲的语料库发展并不一致,美国布朗语料库的建立标志着语料库研究在现代语言学意义上的开端。但是,20世纪60年代的美国由生成语法主导,语料库语言学发展出现停滞,而英国成为了语料库研究的重镇。从1999年举办第一次语料库会议起,美国才开始奋起直追[8]。

(二)国内语料库的发展

我国国内语料库发展相对于国外起步较晚。20世纪80年代早期,以甄凤超为首的项目组建设的JDEST学术英语语料库,开启了语料库语言学在中国的发展[9]。我国语料库建设虽然出现时间较晚,但发展迅速,各种语料库相继出现。例如,200万字次的汉语词频统计语料库,7 000万字次的现代汉语语料库等[10];除此之外,还有“国家语委语料库”“北京大学现代(古代)汉语语料库”等[11],以及在2012年上线的由北京语言大学研发的BCC语料库。从20世纪90年代初开始,中国大陆开始建设外国人学习汉语的中介语语料库[10]。第一个语料库是北京语言学院于1995年建成的汉语中介语语料库检索系统,此后,中介语语料库发展十分迅速[12]。2019年,北京语言大学崔希亮、张宝林团队建设“全球汉语中介语语料库”,其规模还在不断扩大。

二、语料库语言学的理论与方法

语料库语言学(corpus linguistics)这一概念的出现不晚于1959年[7]。之后,围绕它最多的一个问题就是,语料库语言学到底是不是一个独立的学科?学界大致可以分为两类观点:1.语料库语言学属于单独的学科,有自身的理论基础和方法论;2.语料库语言学不是一门单独的学科,基于语料库语言学的研究方法决定了它自身属于方法论。卫乃兴等提出“适用语言学”,认为语料库语言学可以归为这一类,因为有些语言学在可预见的将来是无法应用的[13]。

在语料库语言学发展的过程中,代表理论当属弗斯的弗斯理论,当代的代表人物当属以约翰·辛克莱尔和韩礼德等新弗斯学者。他们认为,语言是一种社会行为和做事方式,并且坚持一元论的语言观点。在弗斯语言学理论中,词汇处于语言描写的中心位置。而新弗斯学者的词语学研究更强调词汇和语法的同一性。在理论上,弗斯提出类联接和搭配,新弗斯学者提出搭配词、语义趋向和语义韵等理论[14]。不难看出,以上学者从理论的创建等方面认为语料库语言学属于单独的学科。国内学者也论证了语料库语言学的学科地位。如桂诗春等认为,语料库语言学是一种工具,但更是一门学科,而且是实践性、应用性很强的一门学科[15];梁茂成等提到,语料库语言学已经形成了相对稳定的学科理论和格局[16]。当然也有学者持第二种观点,即语料库语言学不属于一门单独的学科,而是一种方法学,只有作为方法学,它才能在任何语言研究领域中得以应用[17]。

“语料库驱动”和“基于语料库”两种范式是语料库语言学主要的方法论[17],这两种方法论也引起过不小的分歧。基于语料库语言学是否是一门独立的学科,有的学者认为“语料库驱动”决定了语料库语言学是一门独立的学科;而“基于语料库”的研究范式是在已有的理论中进行验证的,它决定了语料库语言学不是一门独立的学科。这一分歧最早发生于2008年的“训练营论战”。2008年8月13日,语料库列表(corpus list)在论坛上发布了一则名为“R的定量语料库语言学(quantitative corpus linguistics with r)”的培训班讯息,当日,比尔·卢指责培训班课程中既无搭配研究,也不包含语义韵。14日,沃尔夫冈·特伯特也加入讨论,并暗示在认知语言学框架下谈论语料库,背离了语料库(驱动)语言学研究的准则。威廉姆斯在论战中提到,“不能因为只是在研究中使用了语料库,就能够把自己称为语料库语言学研究者”。哲学基础和语言学理论的不同导致了两种研究范式之间的种种差异[17]。有些学者还认为,就目前来说,“语料库驱动”根本无法做到,也不可能完全脱离现有的理论。本文承认“语料库驱动”的范式有其自身局限性,但不能以偏概全。卫乃兴等从语料库语言学的学科地位着眼,阐释了应关注辛克莱尔提出的“最小假设”方法论的主张,认为该主张是归纳研究法在语料库技术环境下的典型运用,体现了对文本事实的尊重[13]。这一方法论主张属于“语料库驱动”的范式,但这其实是连接两种分歧的桥梁,“基于语料库”的研究虽然更多地把语料库作为一种工具,但这并不代表语料库语言学就只是一个工具,而是体现了语料库语言学的实践性、应用的广泛性,语料库语言学的两种范式并不是对立存在的。

通过以上理论和方法论的梳理与讨论,本文认为语料库语言学作为一门独立的学科是毋庸置疑的,它有其自身的理论基础,同时也有对应的方法论。语料库自身的特点决定了这一门学科应用的广泛性,既可以有基于自身理论的研究,也可以结合其他学科进行研究。而目前语料库语言学更像是“O型血”,是一个万能献血者,但是语料库语言学不会只是方法论,仅作为方法论与其他语言学分支结合,它也会吸收其他语言学理论的方法,并与其融合。

三、教学语料库语言学的应用

语料库语言学具有很强的实践性和应用性。丁信善认为,语料库可以用作言语研究、词汇研究、词典编纂、句法研究、语义研究[6];潘永樑认为,语料库语言学还可以应用在语料处理工具的研制、机器翻译等方面,这些可以归纳为语言自然处理研究[5]。除此之外,语料库较为广泛的应用便是外语教学。约翰斯(Johns)提出了“数据驱动学习(data-driven learning,DDL)”。这一发现式学习方法的提出,进一步促进了语料库应用于外语的教学[18]。不仅国外学者,国内学者也发现了语料库应用于外语教学的便利。语料库在我国一开始就只有两个焦点:一是中文信息处理;二是语料库与外语教学的研究[16]。上文提到,我国在20世纪90时代初开始建立学习者语料库,触发了一系列中介语和二语习得的研究[9]。桂诗春等也提到应加强语料库语言学在外语教学中的应用研究[15]。语言教学是语料库语言学应用最为广泛的方面,从1992年到2015年就有语料库语言学相关领域的语言教学研究文章581篇[19],可见数量之多,但同时也存在一些问题,如“教学导向”和“研究导向”的偏重不同问题。“教学导向”和“研究导向”到底是怎样的关系?张宝林认为,语料库存在潜在的巨大价值,这些价值只有通过二次开发才能充分体现出来,而二次开发是语料库和教学的接口,是语料库为教学服务的桥梁[20]。二次开发需要广大教师和汉语教学领域、研究领域的专家学者的直接参与,并研究如何把开发出来的这些教学资源加以整合。在提供方便快捷的使用方法方面,语料库建设者也有其用武之地。

语料库语言学除了以上的应用外,还有与其他语言学分支结合的应用。蒙娜·贝克提倡利用语料库进行翻译学的探讨,认为语料库对译者培训有很大的促进作用。国内翻译理论不受重视,翻译教学令人担忧,但是语料库本身所具有的优势加上研究的进一步深入,在翻译教学领域必将大有作为[21]。目前,认知语言学和语料库的结合是一个研究的热点[8]。但很早就有学者尝试用认知语言学的理论结合语料库语言学进行研究,如王文娥评述了戴南的《隐喻与语料库语言学》[22]。“认知语料库语言学”这一说法第一次使用是在2008年10月德国举办的一个专题工作坊上。与会者认为,语言学和语料库结合是方法论创新和多样化的需要。许家金对语料库语言学与功能语言学、语用学、语言类型学的关系都有程度不同的研究[7]。除此之外,我国国内语料库多以书面语料为主,口语语料较少,二者极不平衡,而且对于语料库语言学的理论研究也不够深入,这是研究者不能忽视的问题。

四、语料库语言学的未来之路

通过以上的梳理发现,我国语料库语言学虽然发展迅猛,在学界也是一个热点研究课题,但与国外这个领域的研究相比仍然有一定的差距,主要体现在以下几个方面。

(一)语料库的规模和语料内容不平衡

目前,我国已经拥有数亿字的语料库,如BCC语料库规模为150亿字,但从语料质量和内容上看仍有很大的提升空间。从总体上看,我国语料库均是书面语料很多,但口语语料较少。如北京语言大学的“全球汉语中介语语料库”,虽然语料规模逐渐扩大,且有口语、书面语语料,但是不难发现其仍然存在书面语多于口语的情况,语料内容不平衡。

(二)语料库语言学理论和方法研究不平衡

我国引入语料库语言学后,对理论的研究创见并不多,而方法论的使用也是大部分为“基于语料库”的研究,几乎没有“语料库驱动”的研究成果。虽然有学者提出要坚守“语料库驱动”的研究范式[1],但是在研究上还需进一步加强理论和方法论的探索。

(三)语料库语言学研究相关领域发展不平衡

国外研究的热点是构式语法和认知语言学的结合,虽然我国有学者尝试语料库语言学与认知语言学等其他分支语言学结合的研究,但主流研究仍是基于语料库,很少有新理论的结合。可见,我国在语料库语言学的研究,尤其是相关领域的研究方面还有很长的路要走。

五、结语

本文对比了国际的语料库研究,梳理了我国的语料库语言学的发展。语料库语言学作为一门独立的学科,有其自身的理论和方法,具有很强的应用性和实践性。它的两种研究范式虽然有不同之处,但是并不是完全对立存在的。在我国“基于语料库”的研究众多,这是值得欣慰的,但同时也有很多值得反思的问题。语料库语言学作为一门学科,与其他语言学分支的结合也是需要关注的问题。国际上认知语言学、构式语法与语料库语言学的结合已然是前沿研究,但在我国仍有欠缺,需要加强。语料库语言学发展至今,对各个领域的研究都有很大的影响,随着研究的不断深入,可以预见,语料库语言学必然会注入更加鲜活的生命力,同时也会为其他语言学领域提供更多的理论和方法论的支撑。

猜你喜欢
方法论语料语言学
基于归一化点向互信息的低资源平行语料过滤方法*
体认社会语言学刍议
《复制性研究在应用语言学中的实践》评介
汉学方法论值得关注
《神经语言学和心理语言学视角下的二语习得》述评
UAF的方法论意义
抓改革落实,习近平的十大方法论
简述黑格尔的哲学史观与方法论
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法