项目反应理论在中考命题质量评价中的应用

2014-02-08 03:25杨建芹
大连教育学院学报 2014年1期
关键词:区分度测验特质

赵 娟,杨建芹

(大连教育学院 学习质量监测中心,辽宁 大连 116021)

项目反应理论在中考命题质量评价中的应用

赵 娟,杨建芹*

(大连教育学院 学习质量监测中心,辽宁 大连 116021)

应用项目反应理论对中考命题质量进行分析,可以排除抽样干扰,准确评估试题的难度,客观精细地描述试题的区分度,评估整套试卷和各试题对学生能力估计的精度,查找赋分标准和阅卷过程中存在的问题。

中考命题;项目反应理论;质量评价

项目反应理论是建立在潜在特质理论基础上的现代测量理论,简称IRT。潜在特质是指被试者不能被直接观察到的某种稳定的、支配其对相应的测验项目做出反应,并对反应表现出一致性的内在特征(记为θ)。被试者的某个潜在特质与测量该特质的项目反应之间存在着如下关系:随着潜在特质θ的提高,正确反应该项目的概率P(θ)也提高。IRT是研究θ与P(θ)之间的函数关系,并用一定的数学模型来反映两者关系的一种测量理论。[1]

IRT有三个理论假设:一是能力单维性假设,指组成某个测验的所有项目都是测量同一潜在特质;二是局部独立性假设,指对某个被试而言,项目间无相关存在;三是项目特征曲线假设,指对被试某项目的正确反应概率与其潜在特质之间的函数关系所作的模型。

学业质量测量可以建立学生能力这一潜在特质与对试题的正确反应概率之间的函数模型。目前,IRT已广泛用于评价试卷(试题)质量,指导试题筛选和测验编制等方面。

大连市中考是大规模的标准化考试,在命题过程中关注局部独立性假设,保证项目间无显著相关。对测试数据进行因素分析,证明各学科的测验满足能力单维性假设。所以可以借助IRT对测验质量进行分析评价。

鉴于大连市中考各学科的数据特点,依据两参数模型(2-PL模型)和分步评分模型(GPCM),使用PARSCALE4软件对中考各学科测验作出参数估计,为命审题教师反思试题质量提供实证的参考依据;也为后继的中考命题积累基础项目和数据,逐步提高中考命题的质量。

一、IRT可以排除抽样干扰,准确评估试题难度

基于项目反应模型可以估算出试题的难度参数b,并可通过项目特征曲线直观地表示出来。

在经典测验理论中,难度系数是指0、1计分试题的通过率,或非0、1计分试题的得分率。同一试题的难度系数会因抽样不同而发生变化。在项目反应理论中,难度被定义为试题本身固有的潜在特质,是指项目特征曲线拐点处的被试能力值。同一试题的难度不会因抽样不同而发生变化。2-PL模型中,难度是指被试正确作答概率为0.5时对应的能力值。当被试能力高于试题难度时,其正确作答的概率大于0.5;反之,则小于0.5。

项目特征曲线表示被试能力(θ)与项目正确反应概率P(θ)的关系,如图1,横轴表示被试的能力量尺,b表示项目的难度参数,可见被试的能力值和项目难度值在同一量尺上;纵轴表示不同能力被试正确作答该项目的概率。项目特征曲线可以依据被试的能力值预测出被试可能正确作答该项目的概率。

图1 项目特征曲线1

根据图1,能力为-2.125的被试(能力非常低)正确作答该项目的概率为50%,高于该能力的被试正确作答的概率高于50%,能力在0左右(能力中等)的被试,正确作答的概率接近100%。根据图2,能力值为1.978的被试(能力非常高)正确作答该项目的概率为50%,低于该能力的被试正确作答该项目的概率低于50%,能力在0左右(能力中等)的被试,正确作答该项目的概率接近0。

图2 项目特征曲线2

二、IRT可以更客观精细地描述试题区分度

在经典测验理论中,用来表示区分度的鉴别指数是指高能力水平被试与低能力水平被试在某一题目上得分率的差值。也可以用被试在某一题目上的得分与总分的相关系数表示试题的区分度。在项目反应理论中,试题的区分度就是项目特征曲线上正确作答概率为0.5时曲线的斜率(a)。因此,项目特征曲线的斜率越大,则项目的区分度越高。

例1将16 000 000用科学记数法表示为__ 。

例1是一道非常简单的试题(P=0.97),由于抽取的样本中能力非常低的学生数量少,所以,借助于经典测量理论计算出的鉴别指数非常低(D=0.08)。项目特征曲线(图3)则能够清晰地呈现出该试题对能力非常低的考生群体有非常高的区分能力(a=1.279)。

图3 例1的项目特征曲线

例2如图(图略),抛物线与y轴相交于点A,与过点A平行于x轴的直线相交于点B(点B在第一象限)。抛物线的顶点C在直线OB上,对称轴与x轴相交于点D。平移抛物线,使其经过点A、D,则平移后的抛物线的解析式为__。

例2是一道比较难的试题(P=0.10)。借助经典测量理论计算出的鉴别指数没有达到非常好的程度(D=0.32)。这是由于一些中上等的学生因为不能一下子解答出来而放弃作答。而项目特征曲线(图4)则能够清晰地表明该试题对能力高的考生群体有非常高的区分能力(a=1.3)。

图4 例2的项目特征曲线

由此可见,经典测量理论中试题的区分度也明显依赖于抽取的样本,而IRT中的项目参数估计独立于样本,区分度参数a能更客观精细地描述试题的区分度。

三、IRT可以评估整套试卷和各试题对学生能力估计的精度

在项目理论中,信息函数是用以刻画一个测试或一道试题的有效性,它直接反映测验分数对学生能力估计的精度。信息函数值越大,估计就越精确,测量误差越小。

测验信息函数则是项目信息函数的累加和,测验信息函数反映了整个测验在评价不同特质水平被试时的测量精度。测验提供的信息量越大,则该测验在评价该被试特质水平时越精确,测量误差越小。

一般认为,当测验的信息量达到25时,即测量标准误差等于0.2时,测验质量良好;信息量为16~25时,测验有待改进。[2]由于大连市中考是水平考试和选拔考试合二为一的考试,要求测验的信息量不低于16,但对每道试题的信息量没有硬性规定。

图5 数学学科的信息函数曲线

图5是2013年大连市中考数学学科的信息函数曲线,由该图可以看出,被试能力在-1.24 处,信息量最大,超过18。对能力在-1.64~0.78之间的考生(覆盖了考生的73%)而言,信息量均不小于16。由此可见,2013年大连市中考数学学科的测验对绝大部分考生而言,测量精度比较高。

图6是某试题的信息函数曲线,显示该试题对于能力水平在0左右(中等能力水平)的考生测量误差小,而对于能力非常高或低的考生测量误差较大。

图6 某题的信息函数曲线

四、IRT可以查找赋分标准和阅卷过程中存在的问题

例3下面是从网上搜索的关于宋词的资料,请分别提炼出主要信息。(不超出所给字格)(2分)

(1)在宋代的多种文学样式中,宋词代表着宋代文学的最高成就。两宋期间,大批词人不断开阔写作视野,创新写作技巧,词坛呈现出名家辈出、精品如林的鼎盛局面。

图7 例3的项目特征曲线

(2)从艺术风格上看,宋词有以苏轼、辛弃疾的作品为代表的豪放派,词风洒脱旷达、气象恢弘,还有以柳永、李清照的作品为代表的婉约派,词调蕴藉清雅、意境柔婉。

该题设置了5个评分等级1、2、3、4、5,对应的分值分别为0、0.5、1、1.5、2分。

图7的特征曲线显示,被试获得2、4等级(0.5分、1.5分)的概率几乎不随被试能力的变化而变化。经测算,跨步难度从1等级跨到2等级(0分~0.5分)需要的能力水平为4.972,几乎不存在能达到此能力水平的被试。同样,由3等级跨到4等级(1分~1.5分)也几乎是不可能的,具体见表1。

表1 例3的项目参数

借助以上分析,可以看出在这一试题上,没有必要设5个等级,设3个等级(0、1、2分)即可。

例4生活中一定有让你感到“是在爱的中心,在幸福的中心”的那一刻。请描述当时情景。(7分)

图8 例4的信息函数曲线

这是语文学科中一道读写结合试题。图8是该题的信息函数曲线。从整体上看,此试题的信息量大,测试精度高。但0~1能力段的信息量低于其他能力段。鉴于以上分析,结合阅卷的实际情况可以推断:在阅卷过程中,评卷者对中档到中上档的作答没有能够进行精细的区分,评分误差相对大。因此,以后类似试题的批阅应该对中档到中上档的作答之间作出更细致的划分,同时增加评分标准的可操作性。

[1]钟轶,季晓辉.两种教育测量理论在试卷质量控制和评价中的应用及其展望[J].南京医科大学学报:社会科学版,2013(1):66-69.

[2]赵守盈,石艳梅,朱丹.项目反映理论在大规模选拔考试试题质量评价中的应用[J].教育学报,2013(1):74-76.

On Application of Item Response Theory to Evaluate the Test Question Quality of Senior High School Entrance Examination

ZHAO Juan,YANG Jian-qin
(Study Quality Monitoring Center,Dalian Education University,Dalian 116021,China)

The application of item response theory to analyze the test question quality of senior high school entrance examination can eliminate sampling disturbance,evaluate accurately the difficulty degrees of test questions,describe objectively and elaborately the discrimination of test questions,evaluate the assessment precision of students’ability by using the whole set of papers and the test questions,and find the problems of the grading standards and the scoring process.

question-setting of senior high school entrance examination;item response theory;quality evaluation

G632.4

A

1008-388X(2014)01-0017-03*

2014-01-03

赵娟(1966-),女,辽宁抚顺人,教授。

惠人]

猜你喜欢
区分度测验特质
文人的心理探索之“痴颠狂怪”特质
浅谈试卷分析常用的几个参数及其应用
图形推理测量指标相关性考察*
《新年大测验》大揭榜
论马克思主义的整体性特质
浅观一道题的“区分度”
两个处理t测验与F测验的数学关系
单维参数型与非参数型项目反应理论项目参数的比较研究*
抓住特质,教出说明文的个性
你知道吗?