基于SPSS数据的中学物理教师命题质量分析

2016-09-10 07:22高远静吴炳光
中学物理·初中 2016年11期
关键词:区分度信度命题

高远静 吴炳光

形形色色的考试是备受老师、学生和家长关注的热点,然而在这个强调逐渐淡化分数的新课改时代,大家关注的依然是卷面成绩.一张不起眼的试卷,一个小小的数字为什么常年在老师学生和家长心目中占有重要的一席,甚至引其他问题?无非就是大家都认可的试卷对学生学习能力的重要测量和评价功能.可是很多老师往往在命题时忽略了试卷本身的教育测量与评价目的,甚至评价观念是模糊的,导致试卷本身的命题质量不高,测量结果的可信度就大大降低了.目前我国普遍教师的命题能力都亟须提高,如此才能保证产出优质试卷以供学生的学习评价使用.

教师命题能力的评定需要引入量化指标使教学评价可视化,试卷作为命题的可视化产出结果,以试卷质量分析入手,利用教育统计学手段进行评价指标量化是教师命题能力研究的切入点.中学阶段大规模考试引发大规模的试卷数据,在大数据背景下中学老师缺乏试卷挖掘的数据力成为制约教师命题能力发展的一个重要瓶颈.本文以广东省最近一次高二期末联考数据为例,基于SPSS数据方法分析教师的命题质量.

1 命题质量统计分析

从教育测量与评价的角度看,学校的期末考试其实是一种终结性评价,应该凸显其对学生该阶段相应学力水平的评定功能,同时还对后阶段的学习有预测和评估的作用.要实现从考试到评价的转变,科学的考试评价体系应该从理念、方法和技术三个维度构建,而通俗易懂、操作便利、分析功能强大的数字化统计软件无疑是迫切的现实需求之一.SPSS软件是一款通用的数据处理软件,笔者利用它来分析本次高二期末三校联考试卷的命题质量.

1.1 命题基本情况

本次联考物理试卷共8道选择题、1道实验题、2道计算题和1道选做题,考试时间为60分钟,命题人是佛山市某特级教师,联考考生为广佛两地三所市属名校的高二学生.本次研究选取考试后的625份有效样本数据进行质量分析,样本容量大,分析结论可信度高.

1.2 信度和效度分析

期末考试过程采取严格的监考管理,测试结果可靠度高,具有较高的测试信度.客观题全部机评,主观题每道题都有详细的评分标准,物理试题的答案比较单一,客观性强,评分者信度高.由于试题无法考察分半信度,故本研究采用Cronbach的а系数方法来评估试题的内部一致性信度,SPSS分析总体样本的а系数值为0.663,在可接受范围内.

为了保证测试的准确性,测试卷要具有较高的内容效度.本次考试由业内专家命题,具有一定的专家效度,可是没有编制命题双向细目表,也没有审稿人,暴露了一线教师命题缺乏科学性问题,试卷的内容效度有待商榷.由于无法考察效标关联效度,在此用SPSS软件统计相关系数来检验试卷的构想效度.表1给出第9~11题与总分相关性检验试卷效度.

统计结果表明,不同题目得分与总分之间的所有相关系数在0.285至0.539之间,而且显著性p值(Sig)均在0.001以下,有99.9%的置信概率,其中客观题与总分的相关系数偏低,说明试卷题目并不能十分准确地考查学生的学力水平.而各题目与总分的相关性超过各题目之间的相关系数,即该试卷命题做到了题目之间的关联度不会太高,各题目考查的知识能力不同.总体而言该试卷的构想效度一般.

1.3 难度和区分度

难度往往是命题者最重视又较难把控的一项试卷质量指标,它具有个人风格特质,命题者需要对测试对象的平均学力水平和题目的匹配程度有较准确的把握才能使难度控制在理想范围之内.单项选择题的难度一般是指通过率,即该题目的通过人数和总人数的比例.主观题则以得分率作为难度系数,即该题总体平均分和满分的比,系数越高,难度越小.难度系数算法简单,用Excel即能处理,不需要用统计软件.

良好的区分度也是命题者的一个理想试卷质量追求,它比难度系数更难把控在于它需要命题者对不同层次的学生的学力水平都要有准确的甄别能力.区分度同时也是筛选试题的重要指标.一般的测试可以用极端分组法来算区分度,即考虑高分组和低分组的得分率的差值.但是这种方法没有使用全部数据,分析不够科学,通常在大规模标准化测试中不采用这种方法,而采用相关分析法,即以试题与总分的相关系数作为区分度的指标,相关性越高,区分能力越好.即本文提及的检验构想效度的方法.

由此可见,在教育测量研究中,难度系数和区分度对测试卷的信度和效度都有直接影响.

在此采用一般的方法计算本次联考物理试卷的难度和区分度,如图1所示.

全卷来看难度是0.541,区分度是0.362,两项指标都不太理想.各题区分度总体偏低,除了第5题其余都低于0.4.各题难度不一,有2道题难度过大,难度系数低于0.3,而系数高于0.7有2道题,难度太低,不合理难度试题占总试题的36%.试卷的难度分布不均,没有体现难度梯度变化.从这两项指标的分析可以看出,首先命题者没有明确定位此次考试的评价功能,期末考试旨在检验学生是否达到本学期的教学目标,作为一种终结性评价,应该弱化考试的选拨功能,试题难度不宜太高;其次,普遍较低的区分度说明试题的甄别评价功能较差,选题不合适;最后,从较混乱的难度分布可以看出,命题有随意拼凑的嫌疑,或者命题者没有难度梯度意识,只想着利用难题和易题来平衡平均分.科学的命题应该是在选题之后把所有题目由易到难进行排序,保证测试者有较稳定的心理状态才能提高试题的信度.

1.4 正态分布检验

一份好的试题能够符合被试的能力特质呈正态分布的自然规律,同时正态分布也是试题做描述统计分析的基本前提.次联考数据样本量大于50,可以用SPSS的非参数检验的独立样本K-S检验其正态分布情况(图2)偏度0.158,峰度0.201,渐进显著性p值0.471,近似符合正态分布.

2 命题质量凸显的问题及对策

由上述的统计分析发现目前教师的命题质量仍然有待提高,体现有三个主要问题:第一,命题缺乏规范.无论是平时的测验还是大规模考试,很多老师都没有编制双向细目表命题的习惯,觉得细目表的编制工作繁琐,主要凭个人经验和直觉去进行组卷编题,导致试卷的内容效度无保障.除此之外,大多数老师也不重视试卷格式的规范整理工作;第二,命题缺乏科学性.教师在命题时往往忽略考虑考试的评价目标,容易把选拔性考试和过程性评价混淆,没有明确的目标导向.很多老师的命题过程是“信手拈来”的,没有系统的编制流程作依托,试题漏洞百出.试题最关键的难度和区分度把控仍然依靠主观经验,缺乏科学把控方法;第三,命题缺乏反思.考试数据输出是命题质量的体现,教师们对试卷分析仅停留在“看”数据的阶段,忽视挖掘数据评价试卷质量,同时忽视总结命题经验和教训,没有发挥大规模测试应有的数据力作用.

针对以上三个主要问题提出以下建议措施:首先,教研室和学校层面要重视对老师的命题规范操作培训和命题质量监管.教师本人要形成良好的命题习惯,只有提高普遍教师的命题能力,编制优质的试题,才能发挥考试的评价功能;其次,亟须进行提高教师命题能力的相关策略研究,把资深教师丰富的主观经验整合成科学操作化技术,形成一套科学的命题策略体系,作为命题操作和质量把控的重要依据;最后,引入教育测量与评价方法到试卷质量分析中,尤其是物理学科的定量特点使其试卷评价的量化操作更容易实现.通过考试后的大数据挖掘,形成多维数据模型,有利于形成优质试题库,总结命题经验,提升命题质量.

猜你喜欢
区分度信度命题
圆锥曲线的两个孪生命题
《生物统计》的试卷分析与解读
浅谈“命题的否定”与“否命题”
大学生积极自我量表初步编制
浅观一道题的“区分度”
论高职英语多元化综合评价模式的效度与信度
利用垂直平分线的定义巧解题
计算机辅助英语测试研究
否命题与命题的否定辨析
墨子论度