基于SPSS软件的英语期中试卷统计与分析

2018-11-15 06:33汪凤

文化学刊 2018年10期

汪凤

(安庆师范大学教育学院，安徽安庆 246133)

一、测试与教学

Davies(1968)曾说“好的测试就如一个忠实的仆人”“the good test is an obedient servant since it follows and apes the teaching.”，这个比喻形象的说明了测试最终是服务于教学的。[1]语言测试随着语言和语言教学的发展，现在已经成为一门独立的学科进行发展和研究，基于此，也可以说没有语言教学也就没有语言测试；当然，随着评价方式和教育改革的发展，语言教学评价方式丰富多维，这又从另一方面证明了语言测试作为评价方式的一种促进了语言教学。通过对学生语言能力及其运用能力的培养和检测，并且通过对学生的系统抽样，借以科学的评价和解释，得出其能力的综述。语言测试作为现在基础教育的常规评价方式，占据着不可替代的作用。语言测试本身也经历了三个阶段：命题设计、实施测试以及考后分析，这三个阶段无一不与语言教学息息相关，相互反馈。

(一)命题设计与教学

Alderson在命题设计这一概念中说过，命题设计包括制定考试内容规范、公布考试大纲、规定考试内容和试卷构成及试题形式以及确定计分体制。[2]这里就涉及了所测量的语言能力和结构效度，也是语言测试的理论基础，更是使分数具有可解释性的依据。为此命题之前特制订了明细表如表1所示。

完成了考试内容规范，还要设计相应的试卷，本组成员基于课程标准对初二学生的

表1 期中考试明细表

能力要求以及大纲的标准规范，紧密联系教材，突出重点，突破难点。除此之外，组内各成员牢记所命练习题的适用范围，以免出现超纲现象，造成学生对于测试产生心理压力，试卷总共分为四大部分，具体结构和分值可从明细表中得知。

实施测试阶段严格按照安庆市第十四中学的考试规范和标准进行，确保语言测试项目的科学性和可检测性。

(二)测试分析与语言教学

考后详细准确的成绩分析报告，其中包括了分数的频数分布、集中量以及差异量，信度效度难易度区分度等等，并且尽可能地找出存在的问题因素和方法，以便改进教学，对正常的英语教学产生积极的反拨作用。故本次笔者使用IBM SPSS Statistics v23 x64对试卷各题项、整套试卷做了全面的数据分析。希望对实验班级的英语教学提供科学的测试反馈和可靠的教学根据。

二、试卷成绩分析

通过对成绩的具体分析，我们能够得到量化的信息反馈，这对进一步完善教学，提高考试质量等都大有裨益。(邹申，2011)[3]

(一)分数的频数分布

频数分布是整理杂乱无序的数据的重要手段，是分析考试成绩时做的第一项工作。下面我将列举本次期中考试一个班级52名初二学生的成绩频数分布(图1所示)：

图1 成绩频率分布图

由图1的频率分布图以及直方图可见，100分-110分区间人数分布最多，人数基本集中在75分—125分区间中。根据偏态分布的解释，偏态分布指频数分布的高峰位于一侧，尾部向另一侧延伸的分布。它分为正偏态分布和负偏态分布，由直方图可以判断，此次成绩总分呈负偏态分布，由此就可以说明此次测验难度较小，群体测验的成绩多为高分，也说明师生双方积极努力，大多数学生掌握了教学大纲的基本内容。

分数经过归组整理和列表，其分布面貌和特征已经基本反应出来了，然而为了得到更确切的数据，还需要进一步的分析研究，下面将从算数平均数、中位数以及众数三个维度来展开阐述。

1.算数平均数

算数平均数的公式是：M=Σ X/ N，M=平均分，X=分数，∑=总和，N=人数，当然通过 IBM SPSS Statistics v23 x64软件，快速准确的计算出平均分为97.26分，算数平均分是最有效、简捷的集中量。这里通过SPSS 23继续生成了各题型的平均分，如表2所示：

表2成绩集中量分布表

由各类型题目的均分来看，可以得出听力和单词拼写全班得分普遍不高，分析是听力设备和题目偏难造成。

2.中位数

中位数是位于按一定顺序排列的一组数据中央位置的数值，各有一半频数分布在中位数的上下。也就是说，中位数是把按顺序排列的数据一分为二的数值，它也是集中量的一个指标。通过SPSS 23软件计算，结果如表2，所以可以得出结论，学生成绩的中间力量是高于平均分的。

3.众数

众数是一组数值中频数最高的数值，计算简便，简单易懂，同时不受两端极端数值的影响，然而它却不具备集中量的基本要求：准确和稳定(邹申，2011)。这里通过SPPS 23软件的统计分析，此次检测成绩众数不止一个，从低到高依次是91分，102.5分，106分以及108分，众数数据和算数平均数、中位数三者一起能粗略地判断频数分布，这一点是众数的有利之处。

(二)分数的差异量

上面讲述了集中量来描述一组分数，然而仅仅采用集中量还无法全面地反映分数全貌，因为其只能描述分数的平均水平或者可以称之为典型趋势，无法反映分数之间存在的差异和分别。故将从全距、标准差及差异系数来分析成绩的差异量。

1.全距

全距是一组分数中最高分与最低分之差。其特点是概念清楚，计算简便。本次考试，总分最高分为133分，最低分为38.5分通过计算，本次期中测试全距为94.5，可以看出离散度较大。但是，由于全距作为差异量容易受极端数据的影响，这里笔者所作结论比较表面。

2.标准差

标准差主要显示一组分数距离平均分的程度，它可以表明所有分数的分布情况，因此在体现分布情况时，与全距相比，它能够更详细地描述一组分数的差异特征。计算标准差的公式为：SD=√((Σd^2)/N)，d=离差，∑=总和，N=总频数，这套试卷的标准差是23.5067。

3.差异系数

三、试卷质量

一套试卷设计好并付诸实践之后，怎样才能知道这份试卷的质量呢？这就需要对试卷的质量进行评估和检验，一般要从四个维度来看，即效度、信度、难易度和区分度。(刘润清，韩宝成，1999)[4]

(一)效度

效度作为衡量测试的有效程度的标尺，是进行测试报告和反馈时必然要进行衡量的一个维度。这里笔者采用软件侧重对校标效度的测量，效标效度是指测验结果与效标之间的一致性程度，利用积差相关法( Pearson 法) 求效标效度。具体操作为，在 SPSS23.0中单击分析相关( C)双变量( B)，选择总分和平时成绩字段进入表达式，然后在相关系数中单击皮尔逊( N)得到结果。分析效标关联效度的通常作法是对试卷测量结果与有效标准进行相关分析，相关系数越大表示试卷的效标关联效度越好，一般认为相关系数在0.4～0.8比较理想。通常情况下通过以下取值范围判断变量的相关强度：相关系数0.8～1.0表示极强相关，0.6～0.8表示强相关，0.4～0.6表示中等程度相关，而0.2～0.4表示弱相关，至于0～0.2则显示出极弱相关或无相关(表3所示)。[5]

表3 效度相关性表

根据SPSS 23软件分析结果显示，本次校标效度是0.912，具有较强的相关性，换言之，效度较高。

(二)信度

信度表达的是测试结果的可靠性、稳定性与一致性。信度越高表示该测试的可靠性越高，测试的结果越稳定，被测试者在不同时间的测试成绩越趋于一致(杨端和，2004)。在SPSS 中单击分析→标度(A)→可靠性分析(R)，届时选择 Alpha 模型。通过信度分析可知，本次考试信度系数0.838，如表4所示。

表4信度表

0.60一般被认为是信度的临界值。若低于0.60，该测试就没有实际应用价值，本次考试数据显示，具有较好的可靠性。

(三)难易度

难度是衡量试题与试卷难易程度的指标，以难度系数( 记为 P) 来衡量。一般情况下，试题的难度系数即为该试题的平均得分率，答对的人数越多，平均得分率越高，P 值越大，难度越低; 答对的人数越少，平均得分率越低，P 值越小难度越高。可见，难度实际上表示的是一种易度，与试题的实际困难程度刚好相反(邹申，2011)。通常用下面公式求试题各题型的难度系数: P = X/W( 其中 P 为难度值，X 为全体学生该题实得均值，W 为该题满分值) 。结果如表5所示：

表5 难易度表

难度是指测验项目的难易程度。在教育测量中，一般是以能够正确回答试题的人数与参加测验的总人数之比，作为难度指标。难度是测验中项目分析的重要内容，测验项目的难度对测验的信度和效度都产生直接影响(朱德全，2001: 227)。一般难度系数处于0.5左右范围的具有较好的难易度，大于0.8太容易，小于0.3太难。难度系数P 值的分析显示: 本试卷各题型的难度系数基本集中在0.5-0.75之间，比较恰当合理，值得注意的是，单词拼写难易度只有0.29，说明很难，学生不能全部掌握相关知识和应用能力。一份试卷应该由不同难度的题目按一定比例组成，因此本套试题从难易度来看，具有一定的合理性和科学性。

(四)区分度

区分度在对考生的鉴别能力上具有不可替代的测量作用，所以在进行区分度测量时，常以考试总分作为被测试对象的实际能力水平，而把被测试对象在某题上的得分与总分之间的相关系数作为该题的区分度。对于客观题在此使用斯皮尔曼( Spearman) 等级进行相关分析; 对于主观题来说，采用皮尔逊( Pearson)等级进行相关分析。[6]在 SPSS 中单击分析→相关(C)→双变量(B)，将客观题及总分选入变量(V)对话框，选择斯皮尔曼(Spearman)，将主观题及总分选入变量对话框，选择皮尔逊( Pearson)，得区分度结果。结果如表6所示：

单词拼写作文总分单词拼写作文总分皮尔逊相关性1.598**.761**显著性(双尾).000.000个案数525252皮尔逊相关性.598**1.728**显著性(双尾).000.000个案数525252皮尔逊相关性.761**.728**1显著性(双尾).000.000个案数525252

由客观题和主观题区分表可以看出，各题型区分度分别为：听力0.689，单项选择0.744，完形填空0.911，阅读理解0.910，单词拼写0.761，作文0.728，一般认为区分度最好大于0.3，由此可以得出，各题型区分度较好。

从数据结果可以总结出，部分题目的难度过高或很低；难度过低，都不能很好地区分不同水平的个体。因而当题目的难度为中等时，区分度是最高的也是最可靠的。

四、总结和建议

(一)总结

通过运用SPSS 23软件对初二下学期期中英语试题的进行从离散到聚合以及单项到整体的分析，得出其信度效度比较可靠，总结来说是一套比较合理的试卷，同时也希望能给初中英语教师提供科学的数据和参考，以便其在以后的教学工作中有针对性的改进教学方法，从而指导学生更有针对性地面对每次考试。

但是，必须清楚的是，由于团队成员中存在部分在读应届生，没有实际教学经历，对于大纲的整体把握以及受试群体缺乏实际有效的了解；并且，在进行部分数据统计和分析时，采用单一的SPSS软件进行单维度分析，在合理性和科学性上稍打折扣。

最后，基于试题编制以及数据结果的分析和报告，对于今后的英语教学和命题提出些许不成熟的建议。

(二)建议

期中考试作为学期中间阶段的评价阶段和手段，其对教学的作用不言而喻。这种测试，不仅能够让学生在心理上有阶段感、轻松感，而且能使学生进行反思和进步。期中考试作为学期学习生活的承上启下阶段，要体现教学大纲，突出重点项目，在随堂测试的基础上，还要具备一定的综合性和系统性，设计的题目要能引导学生去对事实或者规则进行综合分析，从而在更高的水平上认识和掌握期中考试。