泰语语料库和语料库索引在泰语教学中的应用

2016-03-16 19:11朱蒙
教育教学论坛 2016年9期
关键词:语料库

朱蒙

摘要:语料库语言学的快速、持续发展产生了巨大的语言数据资源。语料库索引又为处理语言数据资源提供了新的研究方法和技术手段。泰国语料库语言学和语料库索引虽然还不十分发达,但已经能为泰语教学所用,为传统的教学模式提供新的视角,注入新的活力。

关键词:语料库;语料库索引;泰语教学

中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2016)09-0269-03

一、语料库和语料库索引

语料库语言学是20世纪中后期开始发展的一门新兴学科,研究对象为真实的语言数据,严格设计并创建的语料库所包含的应该是真实文本和真实话语,用统计学方法对语料进行定量分析,并同时加以用归纳法进行定性分析,从一个新的角度揭示自然语言的复杂性,所反映的是最典型和最真实的语言特征,即语言实例在出现频率上的优势即是对其背后语法体系的概率体现。

在语料库研究中,对某一搜索词的语法关系、用法、以及搭配的分析是通过语境(context)进行的。语料库索引利用计算机技术和专用软件,通过在语料库电子文本中进行关键词搜索,把检索结果以关键词为中心、以该词所在行为语境,按预定跨距(word span)在屏幕上显示出来。作为语言学研究的一种新方法,语料库及语料库索引在18世纪的欧洲就已经得到了应用,随着语言学的研究中,利用语料库对语言进行研究的成果不断出现,语料库语言学和语料库索引的应用范围也越来越广泛。

二、泰国泰语语料库和语料库索引建设

泰国的语料库建设起步较晚,由于大部分的语言学研究人员计算机知识的缺乏,造成大部分语言研究和教学人员对语料库研究和语料库索引运用的忽略。笔者在2011年赴泰国留学期间,曾就语料库研究这一问题询问泰国的学者,一般鲜有人听说此领域,更无从谈起用于泰语教学。就笔者所掌握的资料,目前已经完成和能够供公众和相关研究人员进行索引使用的泰语语料库主要有以下三个:

(一)泰国国家电子计算机技术中心(NECTEC)开发建设的ORCHID语料库

由于该语料库没有对公众开放,而且容量较小,只有40万泰语词汇数量,并且在所搜集的语料来源类型上也比较单一,只有学术文献一种语料来源,所以应用范围有限;

(二)朱拉隆功大学语言学系开发建设的泰语语料库

该语料库主要用于教学和研究,语料来源类型包括报纸、杂志、文学作品、学术文献、法律文献、演讲文稿等,并对公众提供检索服务;

(三)泰国国家电子计算机技术中心和朱拉隆功大学语言学系共同开发的泰国国家语料库(TNC)

该语料库目标语料容量为8000万泰语词汇数量,截止到2013年6月,已收录语料3190万泰语词汇数量。在词语类型的划分数据的基本处理规则上是遵循TEI(Text Encoding Initiatives)和CES(Corpus Encoding Standard),语料来源类型和比例参照英国国家语料库BNC(British National Corpus),选取原则为语料的内容、建立时间和媒介类型,以保证所选取语料的多样性原则。

以泰国国家语料库为例,在线可提供的检索服务包括关键词、关键词与搭配文本的检索,检索结果为:1)关键词在所有文本中的词频,以及在不同文本类型中的分配比例,文本类型包括:小说、报纸、半学术文本、学术文本、法律文本和其他;2)在规定的跨距内呈现关键词所在语境文本,还可以对语境文本根据文本时间、性别、年龄段的条件对呈现内容进行约束。

三、泰语语料库索引在泰语教学上的运用

Hunston认为语料库对语言教师的职业生涯影响体现在两大方面:一是语料库会导致对一种语言的新的描写,从而使教师对教什么的看法产生根本性的转变;二是语料库本身能被用来开发新的教学材料,并为新的大纲设计、教学方法奠定基础。

(一)从学习者的角度来看,运用泰语语料库检索督促学生自学能力的培养,完成教师角色的转换

在信息时代,教师不再是全能的课堂控制者,也不再是唯一的信息源。教师的角色开始从信息源(source of knowledge)转换为学习过程的组织者(organizer of tasks or opportunities for learning)在外语学习的过程中,学习者通过语言接触自己发现规则、做出假设,并在语言运用中不断检验和修正自己的假设,这种学习方式又称为数据驱动学习(Data-driven learning)同传统外语教学相比,数据驱动学习具有以下主要特征:1)以学生的自主学习为主要的过程特征;2)以真实语言为主要语言输入;3)强调探索和发现的学习过程。

泰语语料库的出现使学习泰语的学生能够得到大量真实、针对性强的泰语语料资源,同时这些语料资源通过在线检索已经被整理排序,并根据所要求的跨距呈现语料所在的上下文语境,对学习者理解语料的前后搭配词和在真实语料中出现频率最高的搭配方式有直观的认识。这和以往泰语学习者只通过查询字典和利用网络搜索引擎的方式获得例句的方式相比更加有利于对关键词的理解。因为字典中出现的例句带有很强的字典编写人员的主观性,而利用搜索引擎搜索出的例句重复度很高,常常一个页面的例句其实都是同一句话,利用语料库索引搜索可以避免以上情况的发生。下面以名词 后是跟表示对象的介词 还是 为例来说明泰语语料库索引在泰语教学中的运用:

介词 和 都可以在名词 后连接表示对象的名词性结构,学习泰语的学生也常常不知道到底是 正确还是 正确。当有这样的疑问时,教师就可以让学生自己利用泰语语料库来寻找问题的答案。

首先在索引关键词里输入 以及搭配词

,得到表(一):

再在索引关键词里输入 以及搭配词 ,得到表(二):

首先我们想从表一、表二中判断文体是否对这两个介词的选择具有影响,所以可以采用统计学中的列联分析的方法,看分类型变量“文体”和分类型变量“介词”是否独立。因此我们给出原假设H0:在置信度为95%的情况下,行变量“文体”和列变量“介词”是独立的。并将上述三个变量“频数”、“文体”、“介词”及相应数据代入SPSS软件中,得到如下结果(表(三)):

从表(三)中学生可以很清楚地看到p=0.000<0.05,所以拒绝原假设,得出结论:在置信度为95%的情况下,文体和介词的选择是不独立的,即:文体对 后选择介词“ ”还是“ ”是有影响的。

另外,还可以利用表(一)和表(二)的数据得到反映具体每种文体中使用词频的对比柱形图—表(四)(见上页)。

从表(四)中可以得出以下结论:名词

后既可以用 ,也可以用 ;并且两个介词的使用词频差别不大;但在文本的有些文体上出现差异较大,在报纸文本中 的使用频率较高,而在法律文本中 的使用频率较高。

(二)从教学者的角度来看,运用泰语语料库检索对泰语教学的影响

1.语料库和语料库索引本身就是真实的、容量巨大的语言数据源,可以为泰语教学大纲的设定、具体课程的备课提供素材。语言是有生命的,是在不断变化的。以泰国国家语料库为例,它是动态的,并不是封闭的,所囊括的语料在持续扩充中,多类型的文本来源保证了大量的新词汇被及时吸收进来。这和传统的从字典和词典中找例句和素材的方式相比有着时效性的优势。

2.通过泰语语料库索引所提供的词频信息,可以确定泰语中的基本词汇,即使用频率最高的词汇,这些高频词汇反映了泰语的典型特征。在制订教学大纲中就应该以这些高频词作为教学的重点内容。除了制订教学大纲,在教学、测试和练习中也应得到相应的体现。

3.泰语语料库不仅含有大量的词汇信息,还通过关联词的搜索功能可以得到大量的词法和句法资料,对研究泰语语法中的词汇搭配,词汇的语义选择趋向都能提供相应的素材支持。

结语

目前,有很多学者在研究外语教学中语料库所能够发挥的作用,而语料库语言学和计算机技术的发展又给这一研究注入了新鲜的内容。学生在教师的引导下以语料库索引为工具,对语言进行观察、分析和归纳,与学习的实质“探索知识的真谛”相契合。但同时语料库索引技术的使用又给教学的实施者教师提出了更高的要求。尤其是在计算机知识方面的要求。在外语教学中,任何新思想、新方法和新技术的应用和实践,教师发展始终是主要的瓶颈。泰语教师应该消除所谓的“技术恐惧”,积极利用可供使用的泰语语料库和语料库索引资源,从而使泰语教学更富有成效。

参考文献:

[1]Graeme Kennedy,An Introduction to Corpus Linguistics,1998.

[2]卫乃兴,李文中,濮建忠.语料库应用研究[J].上海外语教育出版社,2005.

[3]许家金.语料库语言学的理论解析[J].外语教学,2003.

[4]李文中,濮建忠.语料库索引在外语教学中的应用[J].解放军外国语学院学报,2001,(2).

[5]杨贝.语料库在外语教学中的应用及应注意的问题[J].洛阳师范学院学报,2006,(1).

猜你喜欢
语料库
《语料库翻译文体学》评介
基于语料库的“はずだ”语义用法分析
基于语料库“隐秘”的词类标注初步探究
基于COCA语料库的近义词辨析 ——以choose和select为例
基于JAVAEE的维吾尔中介语语料库开发与实现
语篇元功能的语料库支撑范式介入
基于英汉双语平行语料库的无根回译研究
基于语料库的近义词辨析研究——以suspect和doubt为例
低碳经济英语语料库建设与应用
基于网络语料库的“给力”研究