基于语料库的应用语言学方向论文摘要研究

2014-01-17 01:05巩培林
安徽文学·下半月 2014年9期
关键词:词频语料语言学

巩培林 姜 诚

(上海理工大学外语学院)

在过去的三十年里,储存在电脑数据库里的语料的搜集和分析形成了一种新的学科——语料库语言学。语料是语言数据的集合,或是书面语或是由口语转写而来。语料库的主要功能是用来验证关于语言学的某种假设。根据目的的不同,语料库的设计、库容和语料的特征也不一样。目前用来研究语言学的语料库大多数是通用语料库,如英国国家语料库、美国国家语料库。它们被设计用来研究各种语言层面的问题,如韵体学、词汇、语法、话语模式和语用学。还有一种专门用途语料库,如在编纂一本学习者词典时确定哪些单词以及单词的哪些意义应该包括在词典里;在某种工业领域内,工人使用最多的是哪些单词和意义;及某种语言在不同的语境下使用的区别。

本文的目的旨在研究论文摘要的性质、两种期刊论文摘要的相似和不同。本文基于语料库的方法,发现了在应用语言学论文摘要中使用较多的英语语言模式。本研究的重点为比较形符、类符、TTR、词频、每种摘要的平均字数、多词序列等。本研究的结果可以用来更好地了解两种期刊的不同,并为论文摘要的写作提供帮助。

一、文献综述

语料库是书面文本或者转录自口语的书面语的集合,可以作为语言学分析和语言描述的基础(Kennedy,1998)。今天,语料库是指文本的集合,这些文本经过选择集合起来以便可以在计算机上研究语言。

基于语料库的研究可以追溯到20世纪60年代(Sinclair et al.,1969),然而由于语料库的研究离不开计算机技术,所以直到20世纪80年代,随着百万级语料库的建成,才成为一门独立的学科 (Cheng,Warren,Xu,2003)。对论文摘要进行最早研究的是Graetz,他研究了健康科学、社会科学、教育和人类学方面的90篇论文摘要的语法结构。他发现:“the abstract is characterized by the use of the past sense,the third person,passive and the non-use of negatives...It is written by tightly worded sentences,which avoid repetition,meaningless expressions,superlatives,adjectives,illustrations,preliminaries,descriptive details,examples,footnotes.”后来的语料库研究主要集中在语篇组织而不是语言选择。许多研究者都自建了小型语料库。郑志恒(2007)自建了100万字的新闻英语标记语料库来研究语料库建设过程的理论和应用以及方法和步骤。Sallager-Meyer(1992)通过选自论文、案例报告和评论文章的84篇医学文章摘要,研究了动词时态的分布。他发现不同的动词时态用于不同的功能,过去时大部分用来描述研究目的、方法和结果;现在时主要用来某些发现、结论和建议的总结中。Sallager-Meyer的研究结果与Tseng(2011)的研究结果略有不同。Tseng研究了三种应用语言学期刊的90篇论文摘要的move结构以及每种move的动词时态。他发现摘要呈现出four-move的结构,现在时通常用来描述背景、目的和结论,过去时主要用于描述研究方法和研究结果。Liu(2012)利用当代美国英语语料库和英国国家语料库的学术写作子语料库,发现了在一般学术写作中使用频率最高的多词序列(MWCs)(包括习语、词簇、短语动词等)。

二、语料库的构建

为了本研究的目的,作者首先建设了一个将近9万字的小型特殊用途语料库(见表一)。语料取自应用语言学方向639篇论文的全部摘要,通过在线数据库ScienceDirect下载。639篇论文摘要中有367篇摘自English for Specific Purpose,其余 272篇摘要选自Journal of English for Academic Purpose。从发表时间上看,所有论文都是在2000年到2013年之间发表的,从而保证语料的及时性和最新性。

表一

表一中,平均来看,EAP期刊每篇论文摘要的字数要多于ESP期刊。从某种程度上我们可以说,EAP的论文较ESP更加丰富。在“类符/形符比”这一列,可以发现随着语料库库容的增加,“类符/形符比”逐渐减小。这是因为“there is more repetition of individual words in longer texts ”(Biber et al,1999)。

三、研究结果

本研究的语言分析是利用免费语料库检索软件AntConc 2.3.1,并在三种层次上分别进行分析:单词、多词序列和整个语料库水平。在每个水平上,分别对EAP和ESP进行分析。在单词水平上,本研究比较了两种语料库的词频表。在多词序列上,考虑到两种期刊的名称为English for Specific Purposes和English for Academic Purposes,所以本文采用4词序列。在语料库水平上,分别研究了“academic”和“specific”各语料库中的分布情况。

(一)词频

表二 词频表

词频表可以用来发现不同语料库的差异。表二分别列出了在两种摘要中出现频率最高的前十五个单词。我们可以看到两者之间存在惊人的相似,甚至前六个最高频的词排列顺序都一样。总的来看,出现频率最高的是功能词,如 the,of,and,in 和 to。 这也验证了其他语料库相关研究中指出的,虚词比实词出现的频率更高。从第七个高频词开始,我们发现了不同。EAP 的实词(academic,writing,students,english)比ESP中的实词(english,reserach)更多。从实词的内容上,我们还可以看出,EAP更多的是关注教学方面,而ESP更多关注的是研究领域。

(二)多词序列(MWS)

在出现次数最高的四次序列中,有五分之四的多词序列都包含单词“academic”。另外,有大量的“university”,“second language”表明 EAP 中的论文主要侧重于教学方面。而ESP期刊则没有表现出这个特点。

在单词/短语使用和结构安排上,两种期刊也表现出不同。在EAP中,作者通常先表明他们论文的目的(如,“Abstract The purpose of...”),而 ESP 中,作者通常倾向于先阐述论文的内容和方法论(如,“This paper reports...”)。 请看下例:

The present paper reports an investigation into the use of linking adverbials in the academic writing of Chinese doctoral students.”

除了上述差别外,两种期刊的摘要也有相同点,都使用了大量相同的固定短语,如: “the extent to which”,“the ways in which”,“in/on a corpus of”,“in the context of”。

(三)单词分布图

分别用单词“academic”和“specific”得到两个单词在语料库中的分布图如图一和图二。

分析之前,需要知道每一条竖杠代表该单词出现一次。从第一张图中可看出,“academic”在EAP中总共出现了535次,在ESP中出现了225次。从图片上可以直观地看到,“academic”一词在EAP的分布要“浓”于 ESP。 也即,“academic”一词在 EAP中出现的次数要远远多于在ESP中出现的次数。具体从数字上来讲,“academic”一词出现在EAP中的频率是出现在ESP中的两倍。如果再考虑到每种期刊选取的摘要数量,这一对比就更加明显了:EAP共选取了272篇摘要,也即每篇摘要中出现1.97次;而ESP中每篇摘要只出现了0.69次,只有EAP的三分之一。你也许会发现在第一张图的中间,前半部分竖杠的密度要大于后半部分,这是因为EAP的语料位于ESP的语料的前面。

图二 “Specific”分布

同样可以得到“specific”的对比结果。“specific”在EAP中出现了54次,在ESP中出现了101次。表面上看 “specific”出现在ESP中的频率是出现在EAP中的两倍。但当考虑到每种摘要的数量时就会发现,其实“specific”在两种摘要中出现的频率大致相同,分别为EAP中的0.202次、ESP中的0.27次。

四、结论

在本研究中,作者自建了一个大约9万字的论文摘要小型语料库,语料选自网络数据库ScienceDirect的两个期刊共639篇论文的摘要。利用基于语料库的方法发现了论文摘要的性质、两种摘要的异同。EAP更加侧重于教学方面,而ESP更多的是关注研究。此外两者的结构也有所差异。基于语料库的研究方法在研究风格差异、观察单词和搭配使用情况以及识别重复使用的语言模式等内容时十分有用。本研究也为论文写作的教学提供了实证,其他研究者也可以根据研究目的的不同重复该研究采用的方法及借鉴该过程。

[1]Awal,N.M.,Zainuddin,I.S.&Abdullah,I.H.Use of Comparable Corpus in Teaching Translation[J].Procedia Social and Behavioral Sciences,2011(18):638-642.

[2]Biber,D.,Conrad,S.&Reppen,R.Corpus linguistics[M].Cambridge University Press,2000.

[3]Charles,M.Proper vocabulary and juicy collocations:EAP students evaluate do-it-yourself corpus-building[J].English for Specific Purposes,2012(31):93-102.

[4]Chen,X.X.&Ge,S.L.The Construction of English-Chinese Parallel Corpus of Medical Works Based on Self-Coded Python Programs[J].Procedia Engineering,2011(24):598-603.

[5]Liu,D.L.The most frequently-used multi-word constructions in academic written English:A multi-corpus study[J].English for Specific Purposes,2012(21):25-35.

[6]Supatranont,P.Developing a writing template of research article abstracts:a corpus-based method[J].Procedia-Social and Behavioral Science,2012(66):144-156.

[7]Valipouri,L.&Nassaji,H.A corpus-based study of academic vocabulary in chemistry research articles[J].Journal of English for Academic Purposes,2013(12):248-263.

[8]陈明瑶.ESP与语料库建设[J].外语研究,2000(64):60-61.

[9]王立非,文秋芳.“中国学生英语口笔语语料库”的建设与研究评述[J].外语界,2007(1):118,22-28.

[10]谢家成.小型英汉平行语料库的建立与运用[J].解放军外国语学院学报,2004(3):45-48.

[11]杨端和.大学英语四、六级考试语料库建设分析[J].外语电化教学,2007(1):113,50-55.

[12]郑志恒.美英报刊英语标注语料库的建设研究[J].外语研究,2007(2):102,32-38.

猜你喜欢
词频语料语言学
基于词频分析法的社区公园归属感营建要素研究
基于语料调查的“连……都(也)……”出现的语义背景分析
认知语言学与对外汉语教学
华语电影作为真实语料在翻译教学中的应用
词频,一部隐秘的历史
云存储中支持词频和用户喜好的密文模糊检索
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
以关键词词频法透视《大学图书馆学报》学术研究特色
社会语言学名词