基于语料库的专业四级阅读试题与《综合教程》课文语言难度对比

2018-09-03 03:47洪令凯
智富时代 2018年7期
关键词:阅读理解语料库

洪令凯

【摘 要】阅读理解是英语专业四级考试的重要组成部分。利用语料库相关检索软件,从词汇和句法两个层面对《综合英语》第二版教材和专四阅读语言难度进行对比研究,分析具体差异,并据此提出相关教学建议。

【关键词】语料库;专业四级;综合教程;阅读理解;语言难度

一、引言

英语专业四级考试(TEM4)是由我国高等学校外语专业教学指导委员会组织,英语专业四级命题小组负责命题与实施,为检测本科英语专业教学大纲执行情况而进行的本科教学考试。该考试是一种测试应试者单项和综合语言能力的水平参照性考试。考试的范围包括大纲所规定的听、读、写、译四个方面的技能。其中,“读”占有很高比重。“阅读部分短文词语丰富,语法覆盖全面,是检测学生词汇、语法及语篇理解能力的重要手段。”与此相应,如何提高学生的阅读理解能力也随之成为外语教师的热点研究课题。《综合教程》1至4册第二版作为英语专业基础阶段教材,其特点在于所使用的语言材料是系统的、精选的,技能训练是综合的。所用教材的文章都选自第一手英文资料,尽可能保留了原文的风貌,是原汁原味的英语语言素材。目的是为了培养和提高学生综合运用英语的能力,难点是提高学生语篇理解分析能力。当然,也是为了通过专业四级做准备。通过查询中国知网笔者发现,目前的研究大多集中于阅读感知、理解过程、阅读教学和阅读模式等方面,而针对阅读测试难度方面的研究,尤其是针对英语专业四级的阅读语篇难度研究较少,将其与教材语篇难度作对比研究更少。此外,传统的阅读理解研究多以定性为主,缺乏定量研究。鉴于此,本研究拟使用语料库手段,将定量研究和定性研究相结合,试图从句法和词汇两个层面对TEM4阅读理解部分和《综合教程》的课文语言难度进行对比分析,并据此为阅读教学提供建议。

二、相关文献综述

目前,国内针对阅读测试的语言难度研究尚处于起步阶段,研究方法和标准不一。詹宏伟、黄四宏从句法角度对比了不同句法难度的文本对阅读理解产生的影响,并据此提出教学建议。唐美华采用语言统计学方法,从文本结构、语义复杂性和可读性三个层面对2004年英语专业四、八级新考试大纲施行后TEM4和TEM8中的阅读理解部分的难度进行了对比研究。然而,由于该研究各自只选取了12篇短文作为样本,其研究结果缺乏普遍性,不足以描述TEM4和TEM8 的阅读文本难度差异。胡萍英通过问卷调查,指出语法隐喻与语篇难度之间的关系。刘冰、陈建生利用语料库语言学技术,对大学英语四六级考试中的阅读理解部分进行了对比分析,并对未来的四六级测试和外语教学工作提出了建议。郝伟丽、冯筠等参照Bachman和Palmer的考试任务特征模式,分析了2013年12月大学英语四级阅读理解试题的内容效度。王金巴探讨了大学英语阅读理解中生词密度和文本难度之间的关系。综上可以看出:在研究方法方面,传统阅读研究大都以定性研究为主,缺乏客观、详实的数据支持;在研究对象方面,传统研究的文本选择结构单一,语料规模较小。因此,其研究结果具有一定的局限性。

三、研究方法

(一)研究方法与步骤

本研究通过定性和定量相结合的统计方法,以语料库语言学手段对《综合教程》教材与专业四级阅读试题语言难度进行整体对比。

词汇特征和语法特征是语料库语言学用来衡量语言难度的主要手段。以词汇层面为界,本研究分为两部分:一是词汇层面的研究,包括词汇难度和词汇差异;二是词汇以上层面的研究,包括平均句长和语法隐喻(被动语态和名词化)。

(二)语料库及研究工具

为了分析《综合教程》教材与专业四级阅读试题语言的难度,笔者建立了两个小型语料库。一个语料库(以下简称《综合教程》阅读库)的语料来自于上海外语教育出版社出版的《综合教程》1至4册第二版的48篇TEXT 1课文文本(约46563词),该书是大多数高校英语专业一二年级的基础英语课的教学用书。另一个语料库(以下简称专四阅读库)取材于2009年到2018年全国英语专业四级考试阅读理解部分的篇章,共计37篇(约18553词)。为了便于研究,删除了两个语料库中所有短文内超纲词的中文注释。此外,还对这两个语料库分别做了自动词性附码,采用的是分类详细的CLAWS7词性附码集。这两个语料库分别保存为语料库软件容易识别的.txt文件。使用的研究工具包括WordSmith Tools 4.0,UltraEdit32,AntConc和Range32等软件。

Range软件是语料库研究中的一个常用工具,由新西兰语言学家Paul Nation开发,主要用来分析词汇的跨文本分布。Range软件自带三个词汇底表,一级词汇底表(BASEWRD1.txt)包括英语中最常用的1000词族,二级词汇底表(BASEWRD2.txt)包括英语中次常用的1000词族,前两级词汇底表中的约2000个词族来源于Michael West(Longman, London 1953)的通用英语词汇表(A General Service List of English Words)。三级词汇底表(BASEWRD3.txt)来自Coxhead (1998, 2000)的学术英语词汇表(Academic Word List),是高中和大学各学科的常用词汇,涵盖教育、语言学、金融、商务管理等多个专业,共570个英语词族。Range软件的一个主要功能就是可将研究的文本与词汇底表相对比,分析出文本中词汇在各级词底表中所占比例以及不包含在词表中的词汇所占比例,还可用来对比两个文本的词汇,分析出两个文本所用的相同和不同词汇。

四、研究结果

(一)《综合教程》阅读库与专四阅读库词汇难度对比

在语料库研究中,型符(token)指语料库中出现的每一个词的数量,能反映语料库的总的词数。型符/%即指出现在某词汇底表中型符的数量以及在占总型符数量的百分比。类符(type)指语料库文本中首次单独出现的词型,类符/%指出现在某词汇底表中类符的数量以及占总类符数量的百分比。一个词族(family)由主词(headword)及其派生形式和曲折形式构成,例如单词develop,其曲折形式developed,develops, developing 以及派生形式development都是屬于以develop为主词的词族成员。

通过Range32对《综合教程》阅读库与专四阅读库分别进行处理,得出词汇分析结果为:《综合教程》阅读库中总型符数为46563,类符数为6876,词族数为2044;专四阅读库中总型符数为18553,类符数为3957,词族数为1588。(见表1、表2)

Paul Nation在做词汇分析时,多利用词族信息来判断词汇难度和覆盖度。仇家金等(2010)认为类符的三级及词表外词汇是更可靠的难度判别标准。三级词汇表中的第三级和词表外词汇能更好地反映文本的词汇难度。由表1和表2可以看出,从词族来看,在《综合教程》阅读库中,有393个词族属于第三级词汇底表,在专四阅读库中,有276个词族属于第三级词汇底表。从类符列来看,在专四阅读库中,有1584个类符属于第三级词汇底表和词表外词汇,占总类符数的40.03%;在《综合教程》阅读库中,有3443个类符属于第三级词汇底表和词表外词汇,占总类符数的50.08%。因此,从类符来看,专四阅读库中属于三级词汇底表和词表外词汇的比例要低于《综合教程》阅读库中三级词汇底表和词表外词汇的比例,也就是专四阅读库中属于一、二级词汇底表的词汇比例要高于《综合教程》阅读库。从词族来看,专四阅读库中的词族总数量和三级词汇底表中的词族数量也均低于《综合教程》阅读库。由此我们可以推断,专四阅读的词汇难度要低于《综合教程》课文的词汇难度。

(二)《综合教程》阅读库与专四阅读库词汇差异对比

一般情况下,英语文本中的虚词即功能词应用频率最高,如限定词a/an, the, that等,介词(如of, on, in, to , with等),代词(I, he, they等)。在统计文本词频时,这些词往往排在最前面,属于高频词汇,但这些词的使用频率无法反映文本的具体词汇应用特色。为了排除这些功能词的干扰,我们在统计文本的高频词汇时,应将这些词排除在外。Range 软件本身自带一个功能词表,其中涵盖了常用的各种功能词309个。笔者应用Range软件的Stop list功能,去除了英语文本中常见的功能词,得出文本中实词的使用情况。

词表外词汇反映文本不同的主题内容

词表外词汇能较好地反映出文本的内容倾向。《综合教程》阅读库中属于词表外词汇的前 20 个高频词族包括:BRIDE, STORYTELLER, GROOM, AMERICAN, KIDS, CHINESE, BUDDIES, INTERNET, JESUS, FRENCH, HOLLYWOOD, MOVIE, PANTS, VERMONT, NAGASAKI, PARIS, VALENTINE, ATMOSPHERE, CALIFORNIA, FOLKS。专四阅读库中属于词表外词汇的使用频率最高的前20个实词词族包括:AWARDS, AMERICAN, PARENTING, HARRINGTON, RAINBOW, FAKE, ALDEN, CD, EMOTIONS, FISHER, INTERNET, LITERACY, OMIAI, PHILIP, ED, GRADUATION, ILLITERATE, JAPANESE, LITERATE, MICKEY。《综合教程》阅读库中使用频率最高的词汇基本都与地域相关,如American, Chinese, French, Hollywood, Vermont, Nagasaki, Paris, California。但在专四阅读材料中,我们就会发现使用频率高的词内容较为分散,包括国家(American, Japanese)、教育(literacy, graduation, illiterate, literate, ED, parenting)、自然(rainbow, fisher)等。

(三)词汇以上层面

(1)平均句长

平均句长是指一个语篇中句子的平均长度,以词数为统计单位。一般来说,简单句的句长较短,容易理解;并列句、复合句或并列复合句的句子较长,较难理解。因此,通过对平均句长的统计和对比可以从一个侧面了解语篇的难度。通过对两个语料库的总句子数和平均句长统计,《综合教程》库共有3205个句子,平均句长为14.53词;专四库共有1125 个句子,平均句长为16.49词。两个语料库的平均句长存在差异,专四阅读的平均句长比《综合教程》课文句子长。

(2)语法隐喻

语法隐喻是影响语言材料难度的重要因素。Halliday区分了两种语法结构对语义的体现关系,一种是一致式,即语言结构直接反映现实世界;另一种是隐喻式,即语言结构不是直接反映现实世界,体现出了不同的语言单位之间的转换过程。这种语法结构对语义的不一致体现就是语法隐喻。

语法隐喻阻碍了学生阅读理解的过程。范文芳分析了决定语篇难易度的因素,认为在其它因素相同的情况下,語篇中语法隐喻的含量越高,语篇的难度就越大。Ravelli指出,外国学生在掌握英语语法隐喻时会比较困难。造成这些问题的根本原因就是语法隐喻的复杂性。Lassen 在研究专业技术手册时,曾提到语法隐喻的五种体现形式:名词短语、被动语态、定冠词省略、非限定动词 V-ing 形式和省略句。通过韩礼德对语法隐喻的定义,语义的不一致表达形式都属于语法隐喻的范畴。以下针对语法隐喻的几个主要形式(被动态和名词化),分别对《综合教程》库和专四库做统计分析和对比。被动语态通过设计完善的正则表达式检索项,在经过词性附码的两个语料库中检索被动语态谓语的使用情况。数据表明,两个库在被动语态谓语的使用上没有显著性差异。

名词化是指把别的词类加上-tion、-ment、-ness、-ity(包括其复数)等后缀转化成名词的语言现象。Halliday 认为名词化是语法隐喻的主要体现,指出“名词化是创建语法隐喻的唯一最强大的手段”。名词化表达抽象的概念和过程。名词化程度越高,语言越抽象,语言难度越大。由于统计两个语料库中全部名词化现象有一定困难,本文只对几个高频名词后缀进行统计和比较。

表3数据表明,在对所选的几个常用名词后缀的统计中,《综合教程》库的名词化现象与专四库差异不大。因此从名词化的角度分析,专四库语言难度略高于综合教程库。在名词化统计的过程中,检索结果中存在噪音(noise),如nation是以-tion结尾的名词,但不属于名词化。考虑到对两个语料库均采用未排除噪音的方法统计,因此结果仍有效,且具有可比性。

五、本研究对教学和考试策略的启示

本研究基于语料库语言学的方法,通过词汇和词汇以上两个层面对专业四级阅读试题与《综合教程》课文语言难度进行比较。

词汇层面上主要从词汇难度和词汇差异两方面进行分析比较。通过语料库分析软件Range32的分析结果,我们发现专业四级阅读考试在词汇广度和深度上要略低于《综合教程》课文。词汇以上层面主要从平均句长和语法隐喻两方面进行分析比较。在平均句长方面,结果表明两个语料库的平均句长略有差异,专四库的平均句长比综合教程库长;在语法隐喻方面,專四库语言的名词化现象与综合教程库差别不大,说明两库语言难度相当。综合上述两个层面,专业四级阅读试题与《综合教程》课文语言难度相当,阅读部分的试题难度符合基础阶段的教学水平,整体把控得非常到位。这个结果对未来的英语专业教学具有一定的指导意义。首先,从词汇教学方面来讲,教师应当根据学生不同的学习阶段对教学重点进行调整:对基础阶段的学生,教师可以在帮助他们扩展基础词汇的同时,讲授一些相关的词汇学知识,如词根、词缀的变体及曲折变化等。其次,从句法教学方面来讲,教师可以提供并督促学生阅读更多的英美原版材料,并要求他们对其中出现的长难句型进行分析和仿写。此外,根据本研究所做的统计可知,英语专业四级阅读语篇中语法隐喻的使用频率不低。这就要求教师在对学生施教过程中,有意识地引入“语篇”概念,进而引导学生更多地关注到语篇层面上的功能。具体来讲,教师可以指导学生借助概念语法隐喻来分析理解难句,通过人际语法隐喻领会作者的言外之意,运用语法隐喻把握语篇脉络并正确理解篇章意义。

在考试策略方面,笔者针对性的提出一些意见和建议。

培养良好阅读习惯:在阅读过程中要从整体出发把握文章的结构脉络,不要过分拘泥于语言的细节;对于阅读中遇到的生词,要大胆去预测,并在之后的阅读中不断地修正猜测,不要急切地求助于字典;注意句子与句子之间的表面衔接,从逻辑语义上达到整体连贯一致。了解阅读理解过程:阅读理解过程至少分为三大层次,字面理解层、推论理解层、评论理解层,对阅读理解过程的了解有助于把握三层次的相互关系和作用。字面理解层主要依靠语法能力或语言能力完成;推论理解层主要依靠阅读技巧和语言能力完成;而评价理解层则是读者与作者观点交融糅合的过程。导入阅读理解方法:扩大词汇量。利用词缀来猜测生词意义,如 im-,com-,dis-,-or,-tion等;利用上下文的语义联系来推测词的意义,如因果关系、反义关系等;运用归纳法,把同一类词归纳在一起,如把有关化学与医药的词汇、货币与金融的词汇归纳在一起。拓宽知识面,积累背景知识。考研阅读所选文章来源于英美国家各大报刊杂志,具有很强的时代性和文化性,所以必须扩大阅读量,积累背景知识,熟悉西方思维模式,养成英语思维的习惯。掌握阅读方式,纠正不良习惯。阅读方式一般分为下列几种:略读、寻读、细读、评读。通过前两者进行快速阅读,后两者准确把握文章焦点、论据、推理过程,并对其做出评价。同时必须纠正不良阅读习惯,如指读、出声读、回视、译成中文等。掌握阅读理解技巧:正确处理速度与准确性之间的矛盾。首先确保阅读理解的准确性,速度只有在准确理解的基础上才有意义。一味追求速度,囫囵吞枣,或者碰到难点就反复重读,都是不可取的。考生必须合理分配时间,二者兼顾。这可以在平时训练中,规定自己限时完成额定任务,以加强时间分配意识。采用合理的解题步骤。一般有两种方法:短文—看题—解题;看题—短文—解题。一般来说,先读文章能够较好地把握文章主旨大意。面对篇幅较长,问题较多的短文,可以选择第二种方式。遇到篇幅短的短文,可以选择第一种方式。具体采用哪种方式也是因人而异,随文而变的。

六、结束语

本文利用语料库语言学的方法,将定量研究与定性研究相结合,验证了《综合教程》和专业四级考试阅读试题在语言难度上的差异,并据此提出了相关的教学建议。由于篇幅所限,本研究除了从词汇及词汇以上两个层面进行研究外,并未涉及到语篇体裁和语言难度的关系,这一点有待继续研究,从而使考生及英语教师对专业四级考试阅读理解试题有一个更全面科学的认识。

【参考文献】

[1]梁茂成,李文中,许家金.语料库应用教程[M].北京:外语教学与研究出版社, 2010.

[2]Coxhead A A. New Academic Word List[J].TESOL Quarterly

[3]唐美华.英语专业等级考试中阅读理解对比分析[J].吉林省教育学院学报,2009(01).

[4]Ure J. Lexical density and register differentiation[M]./ /Perren G, Trim JLM (eds). Applications of Linguistics. London: Cambridge University Press, 1971: 443-452.

[5]Hu Zhuanglin.Linguistics:An Advanced Course Book[M].Beijing University Press,2002.

[6]薛凤敏.基于语料库的BEC中级阅读词汇难度分析[J].海外英语,2017(02).

[7]刘冰,陈建生.大学英语四六级阅读语言难度对比---基于语料库的研究[J].重庆交通大学学报(社科版),2013(5): 141-144.

[8]郝伟丽,冯筠,李宁等. CET4 阅读理解试题的内容效度分析[J].考试研究,2015(04).

猜你喜欢
阅读理解语料库
《语料库翻译文体学》评介
基于语料库“隐秘”的词类标注初步探究
新高考改革下如何提高学生的阅读理解能力
基于JAVAEE的维吾尔中介语语料库开发与实现
基于网络语料库的“给力”研究
语料库语言学未来发展趋势