3～6 年级英语学习能力倾向测验的编制

2020-12-21 03:16范晓玲李添韵

教育测量与评价 2020年11期

范晓玲伍慧李添韵

一、问题提出

学习能力倾向测验主要用于评估个体获得新知识或新技能的可能性，预测个体在将来可能获得的学业成就或职业成就。[1]英语学习能力倾向是个体能否成功学习英语的一种特殊能力。[2][3]英语学习能力倾向测验则是通过测量学生的基本英语学习能力，评估其英语学习能力各个层面、不同程度（强、中、弱）的分布，从而预测其未来在新学习情境中英语水平提高的可能性。英语学习能力倾向测验可以为教师制定具有针对性、个性化、符合学生发展特征的辅导或干预方案提供依据，同时能帮助学生更清晰、更准确地了解自己的英语学习能力，从而更积极、主动地思考、应用英语学习策略。

学习能力倾向测验是目前国内外广泛应用的能力测验之一。西方国家在学习能力倾向测验的编制、使用及后续研究上已成规模，并在其教育及相关领域产生了积极影响，推动了各自国家教育的发展、人才的培养与选拔。我国关于学习能力倾向测验的研究主要集中在语文和数学学科领域，英语学科领域关注较少。随着社会信息化、经济全球化、文化多样化的深入发展，英语已广泛用于国际政治、军事、科技、医疗、文化、贸易等领域。不仅如此，很多基于二语习得理论的实证研究也指出，小学阶段的英语学习在很大程度上影响着学生最终的英语水平。[4]然而，目前来看，国内有关英语学习能力倾向测验的研究存在几点不足：一是在测量对象上，主要针对的是中学生、大学生、军人等人群，对于处于学习敏感期和关键期的小学生则少有涉猎；二是在研究方法上，国内主要是综述性文献或调查性测验，缺乏标准化的实证研究；三是在测验的理论依据上，已经编制出来的测验大多以经典测量理论（CTT）为基础，很少有测验以结果更精确、受抽样影响小的项目反应理论（IRT）为指导。本研究以CTT和IRT 为基础，编制3～6 年级英语学习能力倾向测验，其目的是检测学生个体的英语学习能力，为教师的教学和学生的学习咨询、辅导、干预等，提供科学、有效的评估工具。

二、研究方法

1.项目编制

在已有文献分析的基础上，本研究根据Carroll 和Sapon[5]的外语学习能力倾向理论，构建了小学生英语学习能力的4 个维度，即语言编码能力（f1）、记忆联结能力（f2）、语法敏感性（f3）和归纳语言能力（f4）。研究者采用借鉴和自编相结合的策略，编制了3～4 年级和5～6 年级各2 套试卷（A 卷和B 卷），共计4 套试卷，每套试卷各50个项目。经3～6 年级532 名学生预测结果的项目分析，根据项目难度和区分度标准对项目进行删除和修改，最终形成3～4 年级、5～6 年级正式测验各1 套，项目数分别为34 题和40 题，其中自编项目分别为33 题和39 题，自编率分别为97.06%和98.00%。正式测验的结构、内容与项目分布如表1 所示。

表1 正式测验的结构、内容与项目分布

2.实测对象

本研究采用方便抽样法，在湖南省长沙市的5 所小学，以班级为单位进行团体施测，统一播放测验的指导语和听力材料，测验时限30 分钟。1965 名学生参与作答，排除胡乱作答、漏答超过7 题的问卷，有效问卷1898 份，有效率96.59%。其中，3～4 年级卷941 份，5～6 年级卷957 份。有效样本的人口学统计如表2 所示。

表2 各年级抽样分布

三、研究结果

1.项目分析

（1）基于CTT 的项目分析

如表3 所示，3～4 年级、5～6 年级卷的项目难度分别为［0.24，0.79］和［0.24，0.82］；3～4 年级卷的平均难度为0.53，各分测验的平均难度分别为0.71，0.47，0.45 和0.44；5～6 年级卷的平均难度为0.60，各分测验的平均难度分别为0.66，0.54，0.68 和0.59。3～4 年级、5～6 年级卷的项目区分度分别为［0.21，0.75］和［0.27，0.51］；3～4 年级卷的平均区分度为0.41，各分测验的平均区分度分别为0.57，0.40，0.30 和0.27；5～6 年级卷的平均区分度为0.40，各分测验的平均区分度分别为0.32，0.44，0.44 和0.40。

表3 基于CTT 的项目分析

（2）基于IRT 的项目分析

根据IRT 的相关理论，一个有效的测验需要满足以下3 个假设：一是单维性假设，即测验对同一潜在特质进行测量；二是独立性假设，要求被试与测验项目之间独立，包括测验项目不会影响被试作答、被试之间的作答不会产生交互影响；三是测验未被加速假设，要求被试在规定的时间内完成测验。

本研究采用探索性因素分析，得出了3～4 年级、5～6 年级卷的第一特征值和第二特征值的比值分别为3.201 和2.725（见表4），同时从图1 和图2 的碎石图也可以看出，两个测验的第一主成分显著突出，第二主成分为拐点，满足了单维性假设。[6]在施测过程中，主试和班主任教师共同监考，在最大程度上排除了被试之间的干扰，满足了独立性假设。主试测验记录显示，所有被试完成测验项目的时间为20～26 分钟，而测验时限为30 分钟，满足了测验未被加速假设。[7]因此，本测验符合IRT 分析的前提条件。

表4 测验单维性假设结果

图1 3～4 年级卷碎石图

图2 5～6 年级卷碎石图

表5 基于IRT 的项目分析

本研究采用IRT 的三参数模型对测验的难度、区分度、猜测度进行分析，结果如表5 所示：3～4 年级、5～6 年级卷的项目难度参数分别为［-1.803，2.490］和［-1.787，1.517］，区分度参数分别为［0.320，4.879］和［0.370，1.316］，猜测参数分别为［0.031，0.404］和［0.049，0.374］。3～4 年级、5～6 年级卷各项目的平均难度均为-0.07，平均区分度分别为1.14 和0.78，平均猜测度分别为0.19和0.20。

两套试卷的被试能力分布如图3 和图4 所示，结果表明，被试的能力水平平均趋近于0，标准差趋近于1，抽取的样本质量较好，接近正态分布。

图3 3～4 年级卷被试能力分布

图4 5～6 年级卷被试能力分布

2.测验质量分析

（1）测验的信度

首先，基于IRT 的测验信息函数如图5、图6和表6 所示：3～4 年级卷和5～6 年级卷的最大信息函数分别为27 和10，其对应的能力值分别为-0.20 和0.60。

图5 3～4 年级卷的总体信息函数

图6 5～6 年级卷的总体信息函数

其次，基于内部一致性信度的分析结果如表6所示：3～4 年级卷和5～6 年级卷的Cronbach’s α系数分别为0.84 和0.87；分半信度分别为0.69和0.76。

表6 测验的信度

（2）测验的效度

本研究采用相关法分析测验总体与各分测验间的相关情况。如表7 所示：3～4 年级卷各分测验与测验总体的相关系数为0.58～0.84，5～6 年级卷各分测验与测验总体的相关系数为0.69～0.83；3～4 年级卷各分测验之间的相关系数为0.28～0.52，5～6 年级卷各分测验之间的相关系数为0.33～0.55。

表7 各分测验与测验总体的相关系数

表8 测验因子模型拟合指数

本研究采用验证性因素分析，探讨两个学段英语学习能力倾向测验的结构。如表8 所示：一、二阶模型中，3～4 年级、5～6 年级卷的RMSEA 均小于0.05，模型拟合指数CFI 和TLI 均大于0.90。图7 和图8 为两个测验的二阶模型拟合图。

图7 3～4 年级卷模型拟合图（二阶）

图8 5～6 年级卷模型拟合图（二阶）

本研究以取样学生的英语期末考试成绩为效标，进行预测效度的分析。在正式施测结束的两个月后，研究者收集了参与测试的某一所学校295 名学生的英语期末考试成绩，结果如表9 所示。取样学生的3～4 年级、5～6 年级卷总分与其英语期末考试成绩的相关分别为0.45 和0.31，且在0.01 水平相关显著。

表9 测验总分与英语统考成绩的相关

四、讨论

1.测验的结构

本研究编制的3～6 年级英语学习能力倾向测验主要用于测量小学生学习英语的最初准备状态和能力，评估其英语学习的潜力，同时为教师在教学过程中以发展的眼光多维度地评价学生、调整教学方式等提供依据。

通过查阅国内外有关学习能力倾向测验，笔者发现大多数能力倾向测验是以流体智力和能力的层级结构为理论基础的，大多数言语学习能力倾向测验包括了语言的编码、理解和应用能力。[8][9]鉴于目前国内中小学校普遍重视学生思维品质的培养，本研究基于文献查阅的结果，初步构建了测验结构，确定了项目形式和项目内容，之后再与7 名教龄在5 年以上的小学英语骨干教师和1 名心理学测量专家进行访谈，最终形成了3～6 年级英语学习能力倾向测验的4 个维度：语音编码能力、记忆联结能力、语法敏感性和归纳语言能力。测验内容包括寻找音韵、数字学习、匹配词语和归纳词组。考虑到测验为团体施测的纸笔测验，研究者将寻找音韵、数字学习连同指导语一起录制。

从测量结果来看，两个测验与其分测验的相关均较高，各个分测验之间的相关达到中度相关，且分测验与测验总体的相关明显高于各分测验之间的相关，一方面说明各分测验均对测验总体做出了贡献，另一方面说明各个分测验之间又具有相对的独立性。测验的一阶验证性因素分析和二阶验证性因素分析结果表明：RMSEA＜0.05，CFI 和TLI 均＞0.90，结构模型拟合优良[10]，说明两个测验的理论结构理想。

2.测验项目的质量分析

根据CTT 理论，难度为0.50 左右的项目具有最大的鉴别力，但实际编制测验时，却不能使测验的所有项目难度都在0.50 左右，因为这样做会使整个测验的区分能力降低，测验所能提供的信息量减少。[11]因此，在编制测验时，研究者应尽量使项目难度分布广泛，最好为常态分布。本研究中，基于CTT 的3～4 年级、5～6 年级卷的项目难度分布为［0.24，0.79］和［0.24，0.82］，符合最高行为测验难度在［0.20，0.80］之间[12]的分布要求，且难度在［0.30，0.70］之间的项目分别占项目总数的70%和58%，平均难度分别为0.53 和0.60，符合最高行为测验的项目难度为0.50 左右[13]的要求。关于测验项目的区分度，美国测量学家Aken认为项目的鉴别指数应在0.30 以上，但对于偏离平均难度较大的项目，其鉴别指数稍低于0.30 也可以接受。[14]本研究中，3～4 年级、5～6 年级卷的项目区分度分别为［0.21，0.75］和［0.27，0.51］，测验的区分度分别为0.41 和0.40，达到区分度可以接受水平[14]以上。

根据IRT 理论，项目三参数模型的可接受范围是难度为［-3.00，3.00］、区分度大于0.70、猜测度小于0.30。[15]本研究中，基于IRT 的3～4 年级、5～6 年级卷的项目难度参数分别为［-1.803，2.490］和［-1.787，1.517］，平均难度均为-0.07；区分度参数分别为［0.320，4.879］和［0.370，1.316］，大于0.70 的项目分别占67.60%和65.00%，平均区分度分别为1.14 和0.78，且猜测参数分别为［0.031，0.404］和［0.049，0.374］，猜测度大于0.30的项目数分别是4 个（11.80%）和3 个（7.50%），平均猜测系数分别为0.19 和0.20，基本满足难度、区分度和猜测度的可接受水平。

3.测验的质量分析

本研究基于CTT 的3～4 年级、5～6 年级卷的Cronbach’s α 系数分别为0.84 和0.87，分半信度分别为0.69 和0.76，与同类测验[16][17]相当，且达到良好信度[18]的标准。IRT 通常以测验的信息函数作为信度指标，通过衡量标准误、测验信息量来检验信度的高低。[19]漆书青认为，具有良好信度的测验，其标准误应小于或等于0.20，即测验的总信息量要大于25。[20]测验信息函数受项目数量、项目质量和被试能力水平的影响。本研究3～4年级卷的测验信息函数为27，5～6 年级卷的测验信息函数10，说明有些项目仍需修改。可能的原因有两个。一是个别分测验项目较少。考虑到学生的注意力、耐心、课时等因素，部分题型题量较少，再经过预测筛选，项目数就更少了，如语法敏感性和归纳语言能力分测验项目只保留了6～8个，未来的测验修订可以适量增加题量。二是项目的评分等级较少，如部分项目只有3 个选项，致使猜测系数较高。有研究指出，测验信息函数受项目的评分等级数影响，评分等级越少，信息损失越大，总体信息函数越小。[21]未来的测验修订可以考虑通过增加选项来降低猜测系数，进而提高总体信息函数。

结构效度方面，各分测验之间以及各分测验与总分的相关均较高且相关显著，说明测验的内部一致性较好。验证性因素分析结果表明，模型拟合成立，测验结构合理。预测效度方面，本研究收集了正式施测两个月后部分被试的英语期末考试成绩来考验预测效度。从考验的结果来看，3～4 年级、5～6 年级卷的量表总分与英语期末考试成绩的相关均显著，相关系数分别为0.45 和0.31，与同类研究结果[22]一致。

综上所述，本研究编制的3～6 年级英语学习能力倾向测验的项目质量和测验质量均符合测量学的基本要求，可以有效评估学生的英语学习能力现状，其评估结果可以为英语教育教学的质量评估以及英语学习的咨询、辅导和干预提供参考。