大学英语测试中信度和效度的个案研究——以吕梁学院为例

2014-10-26 12:09樊红红

韶关学院学报 2014年7期

樊红红

（吕梁学院外语系，山西吕梁 033000）

目前，对大学英语教学成果的评价主要还是通过一系列的测试。无论是全国性的大学英语四六级考试，还是大学每个学期的期终考试，都是通过测试来评价大学生的英语学习成绩。2014年，吕梁学院大学英语测试进行了改革，改过去的终结性评价为形成性评价+终结性评价，即平时考核加上期末的测试。平时的考核主要是对学生写作和翻译这两类主观题的测试。通过这两类题型来测试学生的英语语言运用能力和英语综合技能运用能力，这样可以提高英语测试的效度。期末考试则模拟四级考试的听力，阅读等客观试题类型来对学生进行测评，不同级别的题分别由两位不同的老师负责出A、B两种试卷。出题要求与大学英语四级卷相似。这两类题可以衡量学生对英语基本能力的掌握。这类题通常题量较大，相对而言，基本能保证评分的客观准确，从而有效地提高测试的信度。尽管如此，在实际的考核中也存在一些问题，命题时，不同的老师负责命不同题型，命题的难度系数就会存在有差异；不同的命题老师对语言点测试的侧重点不尽相同，有的是大相径庭，且对主、客观试题的评分标准的确定也会有偏差；所命的题目是否能较好地反映学生的学习效果、是否对教师的教师的教学具有反驳作用；命题是否遵循了教学大纲总体目标；教师的专业素养是否也会对命题信度和效度产生负面影响等。这一切均都对测试的信度和效度产生不同程度的影响。

一、信度和效度

（一）信度

信度就是语言测试的可靠性。它体现了测试结果与试题，试题与被测试者之间的关系［1］。信度主要受被测试者的水平，试题的质量、数量，考试结果的评价，测试的组织和实施等因素的影响。如果所有被测者的水平接近，试卷的可靠性较低，如果被测试者的水平间隔性较大，可靠性就较高。试题题量少，可靠性就低；题量大，可靠性就越高。同时，考试的结果要有一定的离散度，要呈正态分布，也就是说试题的区分度要高，即可以把不同层次的被测者区分开来，并且试题的难度要适中，这样才能区分被测者的水平，测试的内容应与被测者相适应，应属于被测者的能力水平之内。如果测试问题太难或太容易，或测试分数发现在一个点和一个地区，那么测试也会失去可靠性［2］。在组织和实施测试方面，测试环境和条件应有利于考试。另外，无论测试环境和条件是否一致，所有的被测者也会影响测试的信度。

（二）效度

效度就是语言测试的有效性。即测试所考的内容是否符合命题者想要考的内容［1］。也就是说测试是否达到了考核的目的。效度显示了测试和测试目标之间的关系，也就是说，效度检验我们的测试是否达到了预期目的。效度在测试中是很重要的。如果一次测试的信度很高，但所考的内容并不是想考的或应考的，那么该测试的效度就不高。相应地，这样的测试就毫无意义。在我国，衡量和区分人与人之间的差异主要是通过各种各样的考试，但几乎所有的考试都是关注考试结果，即只注重测试结果的可靠性。人们很少对测试结果进行分析［3］。这样久而久之，命题者还是按照惯例去命题，测试的效度就很难提高。因此，我们应加强对测试的效度的研究，因为，在测试中效度与信度一样重要，任何一方面的忽略都不能保证测试题的质量。

二、大学英语测试中信度与效度的现状

吕梁学院平时考核主要是写作和翻译，即主观题的考核。期末则以听力、阅读等客观题的形式来命题。在教师评分的过程中，主观题需要阅卷者根据自己所读到的内容进行主观判断，这种判断的结果决定学生的考试成绩。主观题越多，效度就越高。主观测试旨在衡量学生的英语语言运用能力。因此，平时对大学生的测试侧重的是考试的效度，而忽视的是测试的信度，尽管这类的测试不是没有信度。与之相反，每个学期的期终测试题型主要是听力理解题和阅读理解题，测试的形式多半是选择题、判断题等客观题型。这种题目的答案具有唯一性或固定性，这种题型主要有机器来阅，无需阅卷人的主观判断。它测试的主要是大学生对大学英语基础知识掌握，主要考查大学生的语言三要素中的其中两项，即考查的是他们的语法知识运用和词汇知识运用。这种题型的优点是评分客观准确，不受阅卷人主观情绪的影响；这种题考查的目的比较单一，答题比较简单，因此，覆盖面很广，有利于学生双基能力，即基础知识和基本技能的全面考查；这种题目有助于考查学生的答题速度；这种题型还可以用机器阅卷，这样可以大幅度的提高阅卷效率、节省大量的人力和物力；这种题的评分标准比较客观，对被测者也能提供比较准确的评价，进而提高了测试的信度。因此，这种测试的信度较高。这种题目的不利因素主要是考生会投机取巧，不会的题目，他们会采取投硬币或是瞎猜去解题，这样就会降低其评价的效度。

吕梁学院大学英语测试目前尚无口语测评。口语测试是一种比较传统的题型，其优点是能够考查大学生的语音语调、词汇量的大小、语法知识丰富与否等，最重要是考查了学生综合运用语言的能力。口语测试的不利因素主要体现在考生与测试老师面对面，必定会差生心理压力，影响考查的效度；另外，测试需要的考官比较多，而且耗时比较长，有时还需要电话设备等测试辅助手段等。其评分标准的尺度把握会因考官的不同而不尽相同，客观上造成测试的区分度低，进而影响了测试的整体信度。由于期末考试几乎都是客观题，难免有学生抄袭舞弊，影响对学生真实水平的把握。总之，通过一个学期的形成性考核试点，结果几乎所有的学生都能过关。由于这种测试不能完全反映学生的真实水平，这样学生的实际水平与考试结果出现了差异，也就出现了高分低能的现象。因此，大学英语教学的形成性考核方案还需逐步完善，尽可能地做到信度与效度的兼顾统一。

三、英语测试信度与效度及其分析

我们大学英语教研室针对大学英语的信度、效度的测试，设计了大学英语诊断性（Diagnose）试题。2014年4月8日，我们从2012级抽取物理系的物理教育专业两个班共83人，教育系的学前教育专业两个班67人，数学系的数学教育两个班81人，中文系的语文教育专业两个班75人以及化学化工系的化学教育专业两个班87人等五个专业393人参加测试。我们从2013级抽取经济管理系的财务管理专业两个班82人，计算机系的信息管理专业两个班76人，矿业工程系的矿井通风与安全专业两个班68人，生命科学系的食品生物技术专业两个班72人，以及化学化工系的应用化工专业两个班88人，总计386人。对779名同学共10个专业的学生进行了测试，其中因病、因事请假的18人，最终有效问卷674份。为了对该试题进行有效地分析，让被试在测试卷的最后写上自己CET-4通过的分数。下面是对被试答卷统计分析，被试的成绩频数分布曲线如下:

图1 大学非英语专业测试成绩分布曲线图

从曲线图上可以看出，被试的总分分布情况基本上呈正态分布。如图所示，本次大学非英语专业测试的总分基本上是呈正态分布。依据测试结果，我们采用了比较实用的信度计算方法，没打算采用再测信度和等值测试信度。本测试采用的是α系数公式（Cronbach，1951）。公式如下［4］：

其中，α为信度系数；

K为题目数；

表1 2013级非英语专业学生测试信度与效度分析

由表1可知：（1）从学生本次考试与国家四级成绩来比较，财务管理 r=0.385**，P<0.05；（2）信息管理r=0.459****，P<0.001，表明本次考试有效，即有很大的信度和效度。（3）矿井通风与安全专业与期末考试成绩相比较，r=0.458****，P<0.001相关度很高；（4）食品生物技术 r=0.388**，P<0.05，说明本次考试也是有效的，有很大的信度和效度。（5）应用化工r=0.387**，P<0.001。总的来说，相关度还是很高的。

表2 2012级非英语专业学生测试信度与效度分析

由表2可以看出：（1）从本次测试来看,总体相关性还是很大的，r=0.589*****，P<0.001。测试结果表明本次考试有着很大的信度与效度。（2）从表中五个专业的测试与这次考试的相关性来看，除了学前专业以外，其它专业的听力与本次考试的相关度都比较高。语文教育专业的四级成绩与本次考试也刚好相关，r=0.433*，P<0.05，调研显示，该班来自农村的比较多，听力基础薄弱，主要是语音不够好，因此，其听力考试与本次考试不甚相关，不过这次考试的难度值也是最大的。（3）总体来说，专业好的学生，无论是四级成绩，还是单项成绩与本次考试的相关性都很大。

四、结语

语言测试的基本要求就是保证其信度和效度。大学英语教师要命题时要充分考虑到信度设计测试结果的稳定性和可靠性，即该项测试是否真正度量了学生的语言水平。命题过程中语言教师也应该同时考虑测试是否达到了命题人想要考的目的，即考查效度。在我校大学英语测试实践中，所试点的部分形成性考核方式，从测试的信度和效度两个方面进行设计，但是测试结果表明这两方面的效果都不够理想。因此，今后的大学英语测试，大学英语教师要多重视语言测试理论的研究，准确语言测试的命题原则；命题前做好预测，命题后做好调研。尽量采取集体命题的形式，命题时要把握好测试信度和效度两个方面的平衡关系，不断优化测试的质量，并引导学生不仅要注重双基训练，还要把学习的重心逐步地转移到学习策略和运用语言的能力的培养上，从而更有效地推动我校大学英语教学的发展。

［1］孙成岗.现代语言测试与试卷分析［J］.解放军外国语学院学报，2000（4）:82-83.

［3］桂诗春.语言测试：新技术与新理论［J］.外语教学与研究，1989（3）:2-10.

［2］李筱菊.英语测试的科学与艺术［M］.长沙:湖南教育出版社，1995:7.

［4］黄萍.大学专业英语的测试信度与效度研究［J］.外语与外语教学，2001(11):16-18.