近七年英语专业四级阅读理解内容效度评估

2012-01-05 12:44侯艳萍
关键词:教学大纲大纲生词

侯艳萍

(上海外国语大学 英语学院 ,上海 200083)

近七年英语专业四级阅读理解内容效度评估

侯艳萍

(上海外国语大学 英语学院 ,上海 200083)

从考试任务特征的角度,对英语专业四级考试改革后近七年(2005-2011)的阅读理解部分的内容效度进行了探究。研究范畴包括输入语篇特征(语篇篇幅、生词数量、题材、体裁、易读度)和预期回答特征(阅读技能覆盖),并将结果与英语专业教学大纲和考试大纲的要求进行了比较。研究发现,改革后专业四级阅读理解部分内容效度较高,所测试内容基本符合大纲要求,并体现出较好的连续性。对今后的专业四级阅读命题提出了一些建议,并对今后的阅读测试进行展望。

英语专业四级;阅读理解;内容效度

一、研究背景

作为国内唯一一种专为英语语言文学专业学生基础阶段设计实行的大规模标准化的语言测试,英语专业四级(以下简称TEM4)的目的是推动高校英语专业教学大纲的贯彻与执行,对英语专业学生的英语实际运用能力进行客观和准确的测量,从而为提高我国英语教学的质量而服务。

从1990年开考至今,TEM4一直致力于不断完善和规范施考程序和内容。2005年4月,为了更好地体现出教学大纲和考试大纲对于英语专业人才培养目标、教学要求等方面的任务变化,在广泛调研和科学统计的基础上,考试项目组对考试的部分项目也进行了重新修订,考试形式和能力要求等均有所变动。其中,变动较大的阅读部分取消了快速阅读题型,总时间不变的情况下将阅读理解的文字处理量大幅提升,题目也由15题增至20题。新的考试形式实施至今已经7年时间了,改革几年来该部分题目的内容效度如何?是否真正反映出变化了的能力要求?本文将重点对改革后的专四阅读题目进行分析,以期对以上问题做出解答。

二、理论依据

外语测试作为心理测试或教育测量学的一个分支,其中效度概念的重要性毋庸置疑。随着人们对于效度这一科学概念内涵的不断认识,效度也成为了心理测试和教育测量学中发展最快、内涵变化最大的概念之一。在长达半个多世纪的探索过程中,随着教育和心理测量界对于效度这个概念内涵的研究的进一步深入,以及对于效度外延研究的进一步扩大,人们对效度概念的认识经历了单一概念阶段,种类概念阶段进而发展到了今天的整体概念阶段:

1999年,美国教育研究协会、美国心理学协会和国家教育测量委员会联合颁发的《教育和心理测试标准》(Standards for Educational and Psychological Testing)(以下称《标准》)最新版中,对效度做了这样的定义:效度指的是证据及理论对于根据指定用途对测试分数进行解释时的支持程度[1]9。

可见,根据这一最新认识,效度是一个整体性的概念(unitary concept),而不是一个组合式概念(componential concept),它指得是所收集的凭证能够在多大程度上来帮助阐释测验的分数所希望说明的测验的目的。效度不再是不同种类的效度,对效度的解释也被认为是收集、积累不同侧面的效度证据的过程。以前沿用多年的某些传统术语如内容效度、预测效度等将不再被应用,它们被看作是效度凭证的不同来源。这也是对传统组合式、种类式效度概念的根本性改变。

但是,无论效度概念如何变化,不变的是它的本质和内涵。其中重要的效度凭证之一就是基于测验内容的凭证,可通过分析测验的内容和测试的范畴获得。所谓测验内容,指的是测验的主题、用字、题型、学生的任务以及考题等等,而测试的范畴指的是测试的能力结构和具体技能。

Bachman认为,基于测验内容的效度证据研究,应包含两部分:内容相关性以及内容覆盖性。前者指的是将试卷与权威理论规范相比较,从而得出两部分的相异同程度,二者越接近,则试卷的内容效度越高;后者则是考察该试卷是否涵盖了应该考察的技能范围[2]。

三、实证研究

本文拟对专业四级2005至2011年的共28篇阅读理解篇章和相应的140道试题根据源自测验内容的效度证据进行分析和评价,本研究中对效度证据分析采用的是Bachman和Palmer[3]提出的考试任务特点框架,并结合TEM-4阅读考试规范和阅读考试的实际情况加以一定的改进,主要从TEM4阅读任务特征因素的角度开展分析,包括输入语篇特征(语篇篇幅、生词数量、题材、体裁、易读度)和预期回答特征(阅读技能覆盖、问题类型)。

在进行以上分析的同时,结合权威理论规范《高等学校英语专业英语教学大纲》(2000年版)和《高校英语专业四级考试大纲》(修订本)(2004年版)进行对比。从而分析TEM4阅读理解测试自2005年修订后的内容效度特征,明确该部分与相应教学大纲和考试大纲的吻合程度,并对今后的TEM-4阅读测试方向进行展望。

(一)TEM4阅读输入语篇特征

1.语篇篇幅:各年份阅读理解部分输入文字总字数(篇章字数和题目字数总数)见表1:

表1 2005-2011年英语专业四级考试阅读理解输入文字总数

考试大纲规定:阅读材料长1800个单词左右,阅读速度要求为每分钟120个单词。

英语专业教学大纲规定:阅读速度为每分钟120-180个词,理解准确率不低于70%。

从上表中可以看出,该七年中以2005年字数为最多,2006年的字数最少。其他年份多较为平均:篇章字数多为1800词左右,阅读总字数为2500词左右。需要注意的是,考试大纲是对四篇文章的总长度做出了规定,而教学大纲制定阅读速度时考虑的却是将所有的文字读完答题所需的时间。120个词的速度标准是包括了阅读文章,阅读题目和思考答题的所有时间。从这个意义上讲,25分钟的阅读量应该是25×120=3000词左右。所以,这几年年试题对大纲要求的总的把握是基本准确的,篇章长度完全符合考纲要求,总阅读量上还可以有适当增加的空间。

2.生词数量:理论上讲,阅读材料中不应出现教学大纲中不包括的超纲单词。但是经过与考纲的比较,我们确实发现有些生词出现其中。实际上,在阅读材料中出现适当少量的生词是可以接受的。本调查中,凡未列入《英语专业四、八级词汇表》(《高等学校英语专业英语教学大纲》词汇表工作组编写)中基础阶段规定的8000个词表中的词被归为“生词”。

考试大纲规定:语言难度中等,所用词汇基本上不超出教学大纲词汇表对四级规定的范围。

事实上,该七年文章中的生词比例(见表2)大大低于3%。

表2 2005-2011年英语专业四级考试阅读理解生词数及比例

续表

之所以可以容许一定生词出现,有以下三个原因:第一,从阅读理论的角度来讲,这一层次的读者会在阅读中自动使用交互式阅读模式(interactive model)[4][5]。也就是说,他们可以自如地利用自上而下(top-down)和自下而上(bottomup)这一双重结构进行解码[6]。前者指读者在阅读过程中主要根据所读材料的单位所构成的意义进行理解,而后者则指读者在阅读时主要利用先行存入知识结构处理新的信息。在一个层次上的知识不足以有效解码时,其他层次的知识会自动加以协助。所以,阅读考试中,如果学生个别单词不认识,完全可以通过上下文语境和已有知识进行一定的猜测,基本不会影响文章的理解程度。第二,从第二语言习得的角度来讲,Krashen曾提出要对学生输入比目前掌握的难度稍高一点层次的材料[7],这就是著名的i+1理论。其目的在于始终为学生提供一个合适的空间去刺激他们知识水平的不断提高。所以,英语学习者要始终注意利用上下文语境和图式知识来达到对新知识的理解。第三,从交际法教学的角度来讲,为了尽可能的让学生接触到原汁原味的英语,从而消除课堂中所学的英语与现实生活中实际使用的英语的区别,一般提倡使用真实的英语材料。Wilkins给真实材料下的定义是:“不是专门给外国人编写和录制的材料,而原来就是给本国人的材料。”[8]他提出不对文章作编辑加工,不把语言方面的难点去掉,但对语言的内容作不同的开发利用。所以,只要根据材料长度语言难度精心选择,再加以合理利用,含有少量生词的真实材料是完全可以作为考试材料的。

在这点上,该七年题目都符合大纲要求,考生基本不会感觉到生词对阅读造成的困难,生词量属于可接受范围。尤其是2009年和2011年的试卷对于生僻词汇加以中文注释,极大的降低了考生因词汇不熟而导致的阅读障碍。

3.题材:对近七年修订前后的阅读材料的题材分析见表3:

表3 2005-2011年英语专业四级考试阅读理解题材分布

考试大纲规定:题材广泛,包括社会、科技、文化、经济、日常知识、人物传记等。

教学大纲规定:教材应选用题材广泛的阅读材料,以便向学生提供广泛的语言和文化素材。

从上表可以看出,近几年所选文章全部在大纲规定范围之内,一般题材的文章占了绝大部分。2005年和2006年的文章题材分配更加均衡合理,除了常见的社会和文化题材外,各有一篇科普和人物传记/小说节选的文章。可见刚刚修订后的题目更为全面地贯彻了大纲的要求,更为侧重对学生知识面的考察。之后几年的题目相对集中在社会文化范畴之内,所以还可以再适当增加其他题材文章的比重,以便更好地考察考生的知识面和阅读技能。

4.体裁:体裁指的是文章的文体风格。在这里,对文章的分析见表4:

表4 2005-2011年英语专业四级考试阅读理解体裁分布

考试大纲规定:题材多样,包括记叙文、描写文、说明文、议论文、广告、说明书、图表等。

通过对这些阅读材料的分析,不难发现,七年中体裁分布最平衡的是2008和2011年。其他年份的考察中多以说明文和议论文为主。应该说,这是符合专业英语的教学要求的。说明文要求客观的阐述原理、事实和方法等,议论文则重在强调对个人的观点加以论证,这些都是应该掌握的较高层次的写作体裁。值得一提的是,由于改革后取消了快速阅读项目,所以之前常常出现在快速阅读中的广告、图表等也被列入了阅读理解新的体裁中。虽然目前还没有在试卷中得以应用,但是我们相信,随着以后体裁范围的扩大,这些形式也必将会在以后的考试中占有一席之地。

5.易读度:一定层次的阅读考试,应当有与之难易适合的文章材料。国外许多语言学家和心理学家都提出了量化计算阅读材料易读度的公式,如SMOG系数、Fry估量法、Flesh公式等等,都力求通过简单可行的方法对易读度进行实际测算。此处,笔者试用Flesh的易读公式进行测算。公式如下:

RE=206.84-0.85wl-1.02sl(wl指每100词所含的音节数,sl指每句平均词数)

用这个公式对近七年阅读材料用Flesh公式测算后的结果见表5:

表5 2005-2011年英语专业四级考试阅读理解易读度数据

表6 Flesh阅读能量表

考试大纲规定:能读懂英美国家出版的中等难度的文章和材料,读懂难度相当于美国Newsweek的国际新闻报道和相当于Sons and Lovers的文学原著。

教学大纲规定:同考试大纲。

根据以上要求再结合阅读能量表(见表6),不难看出,大纲对“中等难度”的规定是相当于大致50至70的标准难度,即相当于美国国内7、8年级或某些高中的阅读水平,美国大概有40%到75%左右的成年人可以达到这种阅读水平。对近七年28篇文章的分析结果显示,绝大多数文章的易读度在50至70之间,基本符合Flesh表格中中等难度的要求——即介于standard和fairly difficult之间。整体说来,2005年的文章难度相对稍大,基本高于standard档次而处于quality一档,这符合修订考题提升对学生能力要求的目的。从易读度上看其后几年的阅读材料难度似有趋易的特征。但我们也应该指出,易读度公式的测算仅从平均词数和音节数的角度进行,并不能绝对说明问题,因为具体一篇文章的难度还受到其他一些重要因素的制约,比如题材、体裁、词汇、专业背景知识、母语/非母语、语法结构等等,具体到每个阅读者的难度可能也是不一致的,但是,Flesh的公式可以给我们一个较为客观的衡量参照尺度,确定大致的比较标准。

(二)TEM4预期回答特征

对预期回答的研究主要集中在对阅读题目的分析上,即此7年共140个题目是从哪些角度来考核了学生的哪些阅读能力。具体来看:

阅读技能覆盖 在TEM4考试内容规范中,将阅读理解能力分为以下几方面:

1.辨别理解文章主旨和重要细节

(1)寻找文章主旨和重要细节 (对文章进行概括,提纲挈领;对语篇中的不同观点加以区分);(2)区分事实与观点,分辨作者态度;(3)理解文中隐含的意思 (通过理解字里行间的意义,通过运用外界知识如背景知识等)。

2.运用有助于理解的语言技能来理解文章

(1)理解句与句间语法关系(如因果、对比、目的等);(2)理解句子或从句的句法结构;(3)猜测单词和短语的意思;(4)认知连贯和照应。

在我们进行实际操作时,为方便起见,又将以上能力细分为以下7种(见表7):

01代表理解明确表达的概念或细节;02代表理解隐含表达的概念或细节 (如下结论、作判断和进行推论等);03代表辨别文章的中心思想;04代表理解作者的观点和态度;05代表猜测词和短语的意思;06代表句层次的理解 (理解句子表达的原因、结果、目的、比较等);07代表篇章层次的理解 (运用词汇的、语法的承接手段来理解文章各部分的关系)。

表7 2005-2011年英语专业四级考试阅读理解各年具体阅读技能考核表

新旧专业四级考试大纲均规定:(1)掌握材料的主旨和大意;(2)了解说明主旨和大意的事实和细节。(3)既理解字面的意思,也能根据所读材料进行一定的判断和推论。(4)既理解个别句子的意义,也理解上下文的逻辑关系。

英语专业教学大纲规定:要求在理解的基础上抓住要点,并能运用正确观点评价思想内容。

我们对以上结果分析如下:

七年的试题包括了考试大纲及内容规范所规定的全部内容。尽管每年的比例各有不同,但几乎每一年都会全面考察到这7种技能。

七年试题考察侧重点一脉相承,均为总体理解(global understanding),比率均为60%左右,而考察局部理解(local understanding)的约占40%。技能01每年考察的比例都约在30%左右,技能02、03、04是历来考察的重点。这一点告诉我们,作为最基本的一种技能,对于字面意义的单纯理解不可缺少,这也是理解全文的基础。但是,仅作到浅层次的理解还是远远不够的。理解隐含信息,掌握材料主旨和大意,以及领会作者意图等技能是对英语专业二年级学生的最主要的要求。也就是说,学生们应该透过现象领会本质,这才是阅读理解的精髓所在。对英语专业学生而言,应侧重于在全局上对深层次意义做出正确理解,即着眼于对高层次能力的培养。

技能05、06和07占的比例都不大。他们分别代表了对词汇层次/短语层次、句子层次和篇章层次的理解,但在本质上都属于有助于阅读的语言技能。前两种属于较低层次技能,后一种属于高层次技能。他们都是阅读必不可少的技巧,但又不是重点考察的要点。所以,近几年试题对他们既有所涉及,又把握了很好的比例。

综上所述,改革后的阅读试题不仅全面的综合了各项技能,又在分值的分配上取得了很好的控制,完全符合大纲的要求。在对阅读能力考察的策略和技能及其重点方面,近七年的题目体现出出题思路的连贯性和系统性。

四、结论与建议

通过以上分析,我们看到,改革后七年间阅读考试无论是材料选择还是题目设置基本都符合了其对应指导大纲的要求,在大纲明确提出需变动的地方(如文章长度、难度)等方面体现出了增加的梯度,而对于大纲修订前后要求不变的内容则体现出了较强的连续性和衔接性。分析表明,2004年至2011年专业四级考试试题所选测量工具内容(材料、题材、体裁、题目)具有较高的代表性,而且内容样本较为充分,就其基于测验内容的凭证而言,都体现出较高的效度。

但是,我们同时也注意到以下有待改进的问题。

应重视交际性的考察,重点测试学生在一定语境中运用语言进行有效交际的能力。由于TEM4是一项全国范围的大规模考试,为了保证阅卷的质量,考试分数的客观性和公正性、考试水平的稳定性,阅读考试全部采用多项选择题,保证了测试信度的同时,也不可避免的忽视了大量真正语言输入和交际能力的检测。建议有选择的增加一些诸如信息转换,匹配等题型,近几年的IELTS和PETS中的一些综合性的阅读题型也是非常好的尝试。但是,我们也要看到,对于这样一个大规模的考试,更改题型也确有一定难度,只能耐心的逐步加以改进。

题目难度有待更好控制,且建议四篇文章按易读度由易到难排列,循序渐进。同时,在文章选材时,应考虑在合理的范围内适当拉开文章难度层次,并按照由易到难的顺序逐步推进,给学生一个心理缓冲的过程,从而有利于更好的发挥他们的水平。

文章选材面可以更加广泛。只要是背景知识不过于专业,以至于造成对个别专业学生十分有利或不利的情况,其他的文章题材都可以考虑。尤其是诸如一些科普知识、史地知识等方面的文章以后出题都可以有所涉及。体裁也可更加多样化,如广告、图表、说明书等也可以作为材料选择时的体裁。

选材尽可能使用真实材料。为了能更好的激活学生的图式知识储备和已有知识、背景知识,建议在每篇文章前配以标题,以利于学生更快的熟悉题材,进入状态。

[1]American Psychological Association,American Educational Research Association,National Council on Measurement in Education.Standards for Educational and Psychological Testing[M].Washington:American Educational Research Association,1999.

[2]BACHMAN L F.Fundamental Considerations in Language Testing[M].Oxford:Oxford University Press,1990:244

[3]BACHMAN L F,PALMER A S.Language Testing in Practice[M].Oxford:Oxford University Press,1996:49

[4]RUMELLHART D E.Toward an Interactive Model of Reading[A].S Dornic.Attention and Performance,Vol.6:537 - 603.New York: Academic Press,1977.

[5]STANOVICH K E.Toward an Interactive-Compensatory Model of Individual Differences in the Development of Reading Fluency[J].Reading Research Quarterly,1980,15(1):10-29.

[6]CARRELL P.Some Causes of Text-boundedness and Schema Ingterfrence in ESL Reading[C].Carrell P,J Devine,D Eskey.Interactive Approaches to Second Language Reading.Cambridge:Cambridge University Press,1988:101-113

[7]KRASHEN S.The Input Hypothesis:Issues and Implications[M].London:Longman,1985.

[8]WILKINS D.Notional Syllabus[M].Oxford:Oxford University Press,1976.

[9]聂丹.普通话水平测试体裁难度层级探析[J].湖南大学学报:社会科学版,2012(2):103-106.

Evaluating the Content Validity of the Innovated TEM4 Reading in Recent Seven Years

HOU Yan-ping
(College of English Language and Literature,Shanghai International Studies University,Shanghai 200083,China)

This article explores the content validity of TEM-4reading(2005-2011)from the perspective of task characteristics.The study covers input characteristics(length,new words,topic area,genre,readability)and expected response characteristics(reading skills coverage).and later makes a comparative study between the research results with the teaching syllabus and testing syllabus.The results are rather satisfactory in terms of the content validity,the conformity with the syllabi,and its consistency.Recommendations and suggestions are put forward for further improvement.

TEM4;reading comprehension;content validity

H310.1

A

1005-6378(2012)04-0142-06

2011-12-01

上海外国语大学重大科研项目《外语学科系统评估与评价体系》(QJTD11WXM01)

侯艳萍(1977-),女,山东沂南人,上海外国语大学英语学院教师,博士,主要研究方向:英语语言教学与测试。

[责任编辑 周云逸]

猜你喜欢
教学大纲大纲生词
50个重要的知识点 一份“学习大纲”帮您梳理党的二十大报告
『五个生词』快速阅读法
以纲为要,创新课程体系建设
——上海老年大学教学大纲建设实践探索
以人为本 以纲为纲
——老年大学教学大纲实践与探索
互动式教学大纲在本科教学中的实践与探索
——以《工程制图与识图》为例
紧贴实战落实《大纲》要求推进航空体育训练创新发展
法国普通教育高中历史教学大纲评介
生词库
生词库
生词库