英语专业四级考试阅读理解词汇研究
——基于语料库技术

2021-06-25 14:09张诗雨
现代交际 2021年9期
关键词:真题语料库英语专业

张诗雨

(西安外国语大学英语教育学院 陕西 西安 710128)

英语专业四级考试(TEM4)是按照英语专业教学大纲和四级考试大纲针对英语专业学生的重大英语标准化考试。[1]《高校英语专业四级考试大纲》指出,英语专业四级考试旨在检查已学完英语专业四级课程的学生是否达到教学大纲所规定的各项要求,考核学生运用各项基本技能及学生对语法结构和词语用法的掌握程度,既测试学生的综合能力,又测试学生的单项技能。本研究选取2009—2019年英语专业四级考试真题中的阅读理解部分,并自建微型语料库,使用AntConc软件生成词表,考察文本中的重点与难点词汇,为英语专业阅读教学和考生备考提供参考。

一、文献综述

目前,国内英语专业四级考试阅读部分的研究并不少见,但是主要集中于文本难度分析、内容效度等方面。唐美华[2]运用Wordsmith及SPSS对自建专四、专八语料库对文本结构、语法隐喻等进行对比,发现理解语篇的必要条件是词汇的积累。高博、赵海娟[3]通过对比自建四级库、八级库发现,英语专业八级考试难度在词汇、句法层面均高于英语专业四级考试,从而对教学提出了建议。张珊[4]统计了2012—2016年专业四级考试阅读原文,分析了选文题材、体裁、生词数量、篇幅长度等特征,发现专业四级考试题目要求基本符合《高校专业四级考试大纲》的要求,贴近考试目的。杨卫健[5]通过收集调查问卷,从答题效度角度检验了专业四级考试试卷的效度。从现有研究来看,对于英语专业四级考试中的阅读理解题目研究更多着眼于对篇章的分析,如对比分析英语专业四级和八级考试的篇章,鲜见英语专业四级考试阅读理解篇章中对词汇的专门研究。

二、语料库的构建

本研究选取了2009—2019年英语专业四级考试真题阅读理解部分,并自建了小型语料库:其中2009—2015年每年4篇文本,2016—2019年每年3篇文本,共计40个文本。将这40个PDF文件保存为DOC文件,把这些DOC文件分别保存为对应的纯文本TXT格式文件,并分别命名;同时删除每篇阅读理解之后的题干和选项。使用文本整理器(TextEditor5.0)对转换格式后的纯文本进行清理,再使用分词软件Tokenizer进行分词处理,然后使用AntConc 3.4.1w对以上语料进行统计。结果见表1。表中的“类符形符比”栏小数点后保留3位数。

表1 2009—2019 年英语专业四级考试 阅读理解部分语料库数据统计表

在语料库语言学中,类符(type)指词形相同的词,而形符(token)指词语的总量,即日常所说的“词”。类符/形符比(type-token ratio,TTR,又称形次比或类形比)则指类符与形符的比值,可用来衡量文本中的词汇密度。表1显示,2009—2019年英语专业四级考试阅读理解试题中类符数4074个,形符数20036个,开次比为0.203。过去11年真题中,英语专业四级考试阅读理解部分形次比2015年最高,达到0.449,2016年最低,为0.366。经过对比发现,从2016年起,阅读理解部分改为3篇文章之后,较改革之前的4篇文章,类符/形符比明显下降,也就是说,词汇密度明显降低了。

三、2009—2019 年英语专业四级考试真题阅读理解语料库词表

本研究使用AntConc 3.4.1w软件面板中的Word List功能生成词表(1),见图1。

图1 2009—2019 年英语专业四级考试阅读理解语料库词表(1)

从图1可以看出,类符数总共4074个,形符数为20036个,但是频率最高排名靠前的词汇都是些常见的冠词、介词、代词、连词、be动词等;这些词,英语专业学生早已经掌握,并不是学生备考需要准备的单词。我们还发现,词表中有些词如am、is、are、was本来是be动词的不同形式,却被计作不同的单词,这样类符数就会变得很多。为了筛选考生需要的单词,我们采用以下两种方法:一是先从这个词表中选出学生已经掌握的常见词汇1793个,制作一个停用词表;二是在Tool Preferences选项中加载制作好的停用词表(stop list),以期过滤掉这些常见词汇,结果如图2所示。

图2 2009—2019年英语专业四级考试 阅读理解部分语料库词表(2)

在词表(2)中,常见词已经被过滤掉,类符和形符数大大减少,均变为2281个。然而,词表(2)中的一些词如absorbing和absorbs是同一词汇的不同曲折形式;为了把这类词汇合成一个单词,我们在Tool Preferences功能中勾选了Use lemma list file选项,将词形还原,生成词表(3),如图3所示。

图3 2009—2019 年英语专业四级考试 阅读理解部分语料库词表(3)

从词表(3)中可以看出类符数变为 2067个,形符数未变,这是因为有些词如avoided、avoiding、avoids已经还原为一个单词avoid,所以类符数减少了。而且这个词表中的词汇都是实词,如avoid、break、choose、define、display等,这类词几乎是英语专业四级词汇大纲所覆盖的词汇,也是考生必须熟练掌握的词汇。接下来,我们着重选取了考生难以理解且容易出错的词汇进行深入分析。

四、部分重点、难点词汇分析

1.book

该词最常见的两个释义为“书,书籍”或“预定(位子,膳宿等),预购(票等)”;但是,当在自建的小型语料库检索框中输入book这一单词时,发现除了这两条释义如下图中的第2、第3、第4、第5条,还出现了其他释义的情况,如第1条。联系上下文可知该词应为动词,但不是预定位子、膳宿或预购票等意义。那么,这个词的真正意义是什么呢?笔者在牛津高阶英汉双解词典中查找释义,找到“engage or hire(sb)in advance”,即预约或雇佣(某人)。因此,如果考生不能注意到该词的罕见释义,可能造成阅读文本的理解困难。

图4 book 在2009—2019 年英语专业四级考试 阅读理解部分的检索结果

2.rush

rush也是专业四级阅读常考词汇之一。在检索栏内搜索rush,得到如下结果:

图5 rush 在2009—2019 年英语专业四级考试 阅读理解部分的检索结果

由检索结果可知,rush常见词性有两个:名词和动词。rush做名词时,通常解释为“a violent forward motion”,即匆促的动作;而做动词时,通常解释为冲、奔、疾驰等。但观察第6条检索结果发现,“rush”作为名词解释为“大量急需,争相抢购”;在检索结果9中,则解释为“忙碌、繁忙”。对比不同的词条发现,在英语专业四级考试中,rush的释义也不尽相同;虽然出现在多年的试题中,所考察的意义、词性都是不同的。

3.bud

bud的释义在词典中(牛津高阶英汉双解词典、Merriam-Webster词典)有两条:花苞,芽;半开的花,未长大的叶。在本文建立的语料库中,bud一词共出现两次,在第二条检索结果中,bud可解释为芽,苞,花蕾,是bud的常见释义。而在第一条检索中,“wearing the white bud”理解为芽、花苞这类生物则讲不通,因此bud此处一定有其他意义。细读原文,该文的话题是耳机研发过程。根据上下文可以推测,bud应理解为“嵌入式耳机”或“耳塞”。而这个意义在词典中尚未收录。这提示我们,语言是不断变化的,单词的义项也会随着时代的发展而不断增加,尤其是科技类词汇日新月异,需要考生加以注意,在备考过程中不能只关注考纲词汇,更要扩大自己的知识面,仅仅依靠现有词典中的解释可能无法理解。

五、结语

词汇是导致阅读理解障碍的重要原因;因此,词汇量大小直接影响着考生的阅读水平。本文首先在建立英语专业四级考试2009—2019年真题阅读理解部分语料库的基础上,运用语料库软件进行统计分析,观察了过去11年中阅读理解语篇的类符数和形符数及词汇密度的变化规律。在此基础上,生成了真题词表,让考生熟悉了真题中出现的词汇和频数。通过对语料库中三个重点词汇的分析,提醒考生备考阶段要扩大阅读量,根据语境理解词汇的确切意义。

通过以考试真题为文本建设的专门用途的语料库,不仅可以洞察命题规律,对英语专业教师把握阅读理解部分的词汇教学和学生备考也有一定的指导意义和价值。本研究只是在这一领域做了初步探索,还有许多工作值得去做。今后,我们将会在现有语料库基础上进行标注赋码,以进一步观察词汇或短语的搭配规律。

猜你喜欢
真题语料库英语专业
交互式教学在英语专业阅读课改中的应用研究
玩转高考真题
基于语料库的清末民初日源外来词汉化研究
Structure and context in College English learning
TheRelationshipbetweenLanguageandSociety
Pragmatic Analysis of Cat in the rain
运用语料库辅助高中英语写作
中考英语真题演练(一)
高考真题训练之化学反应原理
交变电流高考真题赏析