一个简易DIF 侦测方法在性别差异中的应用研究

2020-12-21 03:16储林林李付鹏宋吉祥

教育测量与评价 2020年11期

储林林李付鹏宋吉祥

美国心理与教育测量学家桑代克曾提出一个假说：“凡是存在必有数量，既有数量即可测量。”这表明，事物的质可以转化为量来计算。考试（测验）就是一种测量，基于心理特质在一定时间范围内是相对稳定的假设，通过一组或几组试题，被试的心理特质是可以测量出来的。由此我们可以进一步提出若干问题：对于参加某个测验的不同群体（男生与女生、农村学生与城市学生等），测验分数是否具有群体差异？分数差异是否是被试群体的真正能力体现？测验分数群体差异的原因是什么？这些问题与教育测验研究中的项目功能差异（differentialitemfunctioning，DIF）相关。

本研究在Rasch 试题难度计算的基础上，根据一个常见的效应量计算公式，以一份普通高中语文学科试卷成绩的抽样数据为例进行实验设计，侦测考试分数在不同性别中的DIF 现象。为保持与相关DIF 研究文献表述的一致性，文中有时把试题称为项目，项目和试题是同一概念。

一、DIF 定义

心理测量的目的是了解被试在成就、能力、水平、人格等心理特质上的差异。任何测量（考试）都是由具体的试题构成的，具有不同文化背景和生活环境的被试由于对试题的熟悉程度、理解能力等存在差异，可能获取不同的结果，从而出现测量结果对一些群体或个体有利，对另一些群体或个体有偏见或者不利的情况，即导致项目（试题）的功能差异，这就是DIF 现象。Angoff[1]将DIF 定义为在控制群体能力之后，一个项目在不同团体中显示的不同统计特性。Dorans 等人[2]更明确地把DIF 定义为两组能力或表现相匹配的群体，在答题表现上出现显著的差异。DIF 分析作为一种统计方法，已经成为当前侦测测验公平性的重要手段。

在DIF 研究中有两个易于与DIF 混淆的概念：项目影响（itemimpact）和项目偏差（itembias）。

项目影响主要是比较两个原始群体（没有经过匹配的被试群体）在某个项目上的表现，例如男生群体和女生群体在同一份试卷上的差异。项目影响与DIF 的区别在于：项目影响常被解释为被试能力分布中群体之间稳定的、一致的差异，而DIF 则是经过匹配后的不同群体在项目功能上的差异；项目影响通过在项目表现上的差异来反映全体被试的能力分布，DIF 则比较经过匹配的两个群体之间的差异，并且这一差异不是测验编写者所期望的。与DIF 相比，项目影响是“真正的”差异；DIF 则是由不恰当或不相关的含有DIF的项目造成的差异，是“人为的”差异。

项目偏差是指试题中与测验构念（test construct）无关的因素造成的试题难度对不同背景被试群体的差异。举例来说，如果一道以足球赛为背景的数学推理问题，除了测试被试的数学知识，也许还测量了足球方面的知识，如果该题设计时并没有将足球知识作为考查的目标，但因不同背景群体的被试对足球知识的了解程度不同，造成试题对两个群体被试产生了不同的功能，从而测试结果出现了差异，这类差异是由项目偏差造成的，这类试题属于具有偏差的试题，不属于具有DIF 的试题。

二、DIF 检验方法

侦测不同群体的DIF 现象是教育测量的一个热点研究问题，目前已发展了多种DIF 方法，其中大部分方法都依赖于专门的分析工具，这不利于DIF 研究的普及和推广。根据不同群体均值差异效应量侦测DIF[3]是一种易于推广的方法，不需要借助专门的DIF 分析工具。下面给出不同性别群体均值差异效应量的DIF 计算公式。对于某个给定的试题i，计算该试题性别差异的效应量的公式[3][4]为：

判定效应量大小的标准如下：如果|t|＞1.96，显示了该试题具有DIF 存在，数值的绝对值越大，DIF 越严重；t＞1.96，表示该试题的难度相对于男生更难一些，即该试题有利于女生；t＜-1.96，表示该试题的难度相对于女生更难一些，即该试题有利于男生；-1.96≤t≤1.96，可认为试题不存在DIF 或者存在轻微的DIF。判断效应量可根据实际的研究需要来确定，难有统一的标准，也有研究[5]确定了比上述更为严格的判断标准。

需要指出的是，上述方法仅仅能够侦测试题在不同性别之间的一致性（uniform）DIF 现象。这意味着，如果以试题特征曲线显示不同性别之间的DIF 差异，两个曲线不会相交。其原因不在于上述计算公式，而在于所使用的试题难度计算方法。本文选择了基于单一难度参数Rasch 测量理论的试题难度计算方法，如果选择基于两参数（难度和区分度）或三参数（难度、区分度和猜测度）IRT 模型计算难度，则存在不同性别试题特征曲线相交的现象。实际测验中，不同群体间既存在一致性DIF 现象也存在不一致DIF 现象，但选择两参数或三参数模型，这是一个模型选择问题，也一直是研究界长期存在的“测量”与“统计”之争的问题，超出了本研究的范围。

而浙江省气象台此前使用的省级海洋业务平台因为开发应用多年,且主要功能以多种产品显示为主,不具有GIS缩放、格点订正等功能,无法很好展示近年来发展的海洋气象客观预报产品的精细化程度,已不能满足现代化海洋预报业务的需求。为此,省气象台及时组织力量开发新一代省级海洋预报业务平台。新一代海洋预报业务平台是立足于为全省气象预报员服务,基于海洋业务扁平化的理念,提供集数据采集、精细分析、格点订正、预报制作、快速发布、产品展示、工作记录等功能于一体,基于Silverlight和SQL数据库技术进行开发的专业业务平台,并将在使用中不断发展来更好满足台风和海洋气象预报业务需求。

三、试题难度计算方法的选择

从效应量公式可知，效应量的计算涉及求解不同性别考生在每道试题的难度和标准误。目前有两种方法供选择：一种是基于经典测量理论（CTT）的试题难度和标准误的求解；一种是基于Rasch 测量理论的试题难度和标准误的求解。两种方法有着本质的区别。CTT 下的试题难度具有被试样本依赖问题，选择不同能力水平的被试样本集，计算得到的试题难度有较大的差异：低水平被试样本集的试题难度系数更低一些，显示试题更难一些；高水平被试样本集的试题难度系数则更高一些，显示试题更简单一些。这也导致了一个尴尬的问题：哪一个被试样本集得到的试题难度更接近试题的“真实”难度？CTT 无法回答这个问题，因为有多少个被试样本集，理论上就可能有多少个试题的难度系数。

Rasch 测量理论下的试题难度计算具有样本独立性。Rasch 模型下的测量具有等距性和客观性两个最显著的特性。[6][7]这两个特性也是Rasch得以广泛应用的基础，解决了CTT 下试题难度对样本依赖的问题。以两名被试和两道试题为例：客观性可表述为，两名被试的能力水平比与试题的难度无关，即被试能力水平是客观的和等比率的；等距性可表述为，两名被试的能力水平差距和题目难度无关，无论两名被试的能力水平高低如何，二者之间的差距不会改变，因此是等距量尺。Rasch 测量的等距性和客观性反映了样本的选择与试题难度的计算无关，类似地，试题的选择也与样本能力水平的计算无关，Rasch 具有被试能力水平和项目难度测量的不变性。

从上述分析可知：CTT 下的试题难度对选择的样本有依赖性，试题难度不稳定；Rasch 测量理论下的试题难度与选择的样本无关，试题难度具有稳定性。基于此，本研究选择以Rasch 测量理论为基础获取试题的难度。

四、实验设计

1.研究目标

本研究有两个目标：一方面，对一份普通高中语文学科试卷的学生成绩抽样数据进行分析，侦测试题是否存在不同性别的DIF 现象；另一方面，将研究的DIF 结果与其他DIF 侦测方法的结果进行对比分析，检验上述DIF 侦测方法的有效性。

2.数据预处理

数据预处理包含3 个方面的内容：成绩数据编码；试题拟合统计；群体能力匹配。

（1）成绩数据编码

对考试成绩数据进行编码是因为Rasch 测量模型仅能处理具有0，1，2……这样连续分数的试题，因此，需要对试卷中的主观性试题的原始分数重新编码。编码参照了考生在主观性试题上的分数分布和评分细则，并邀请了语文学科专家进行评估。编码结果如表1 所示。

表1 高中语文学科试卷的试题编码

（2）试题拟合统计

在基于模型的测量统计中，数据是否拟合模型是分析问题的前提。项目拟合统计是一个反映数据满足测量模型期望的重要指示，只有数据拟合模型，模型产生的结果才有意义，这就要求研究之前要进行数据与模型的拟合分析。表2 以非拟合数值大小顺序给出了试题拟合统计信息。从表2 可知，大部分试题的加权拟合MNSQ 指标都在参照值1.00 左右浮动，部分试题的未加权拟合MNSQ 指标偏离参照值1.00 远一些。编号为T14，T17，T16 的试题加权拟合MNSQ 指标偏离1.00 较远。为尽量减少非拟合对后续DIF 的影响，本研究删除了这3 个试题，对剩余的19 个试题进行DIF 分析。

表2 高中语文学科试卷的试题拟合统计

根据DIF 的定义，仅仅在分数或能力匹配之后，不同群体之间的差异才能称为DIF，否则，可能仅仅是因为上述的项目影响，这是进行不同群体被试能力匹配的原因。本文采取的匹配方法是对不同性别群体被试分别分层抽样，确保不同性别群体每个分数段的被试数量大致相同，再将抽样数据合并为一个数据集。为确保被试能力覆盖尽量宽广，要保证每个群体的高分端和低分端都有一定数量的被试。

3.数据分析

数据分析包含总体差异、试题难度和标准误分布，以及试题不同性别的DIF 效应量这3 个部分。

（1）总体差异

总体差异将抽样样本分为男生组和女生组，分析不同群体的测验功能差异（differential test functioning，DTF），该分析有助于初步了解不同性别考生在这套试卷中的总体表现。图1 显示了不同性别考生的试题难度差异情况。图中每个点都代表一个试题，Y 轴是女生的试题难度，X 轴是男生的试题难度，点划线是试题均值的趋势线，两侧曲线图具有近似95%的置信区间。图1 显示：对于女生，编号为7 的试题更有难度；对于男生，编号为6 和9的试题更有难度。由前述DIF 与项目影响的区别可知，图1 显示，不同性别考生的个别试题存在着明显的差异。为验证这些差异是由DIF 造成的，我们需要继续进行进一步的分析。图中各试题编号是删除非拟合试题之后的新的编号，共19 道试题。

（2）试题难度和标准误分布

与上述总体差异分析不同，这里把男、女生视为一个抽样总体，利用上述效应量公式分析试题在不同性别中的DIF 差异。表3 给出了男、女生在每道试题上的难度、标准误、难度差异。

图2 更加直观地呈现了不同性别考生在试题难度上的差异，图中略小的方形点为男生的试题难度，略大的方形点为女生的试题难度，图形上方同时给出了试题编号和题号，较难试题的题号为T11 和T12，较易试题的题号为T4，这3 道试题对于女生来说都略微难一些。图2 也清晰地显示了其他试题相对于不同性别的难度差异。

（3）试题不同性别的DIF 效应量

图1 不同性别考生的试题难度差异

图2 不同性别考生的DIF

表3 不同性别考生的试题难度和标准误统计

依据表3 给出的不同性别考生的试题难度和标准误，利用公式1，我们可以直接计算出男、女考生在每个试题上的DIF 效应量，计算结果如表4 所示。表中的“DIF 效应量”列中，数值为正表示有利于女生，数值为负表示有利于男生。我们按照试题DIF 的程度进行了分类：|t|＜1.96 归为A类，这类试题具有轻微的DIF 现象；1.96≤|t|≤2.5×1.96 归为B 类，这类试题具有中等程度的DIF 现象；|t|＞2.5×1.96 归为C 类，这类试题具有较为严重的DIF 现象。表4 按照这个标准给出了每个试题的DIF 分类，其中A 类共有11 题，B 类共有8 题，没有C 类DIF 试题。

4.与其他DIF 侦测方法的结果比较

为检验上述DIF 方法的有效性，本研究还进行了与其他DIF 侦测方法的结果比较，主要进行了两个方面的比较：一方面，根据Mantel 卡方检验试题的显著性，结果见表4 中的“Mantel 卡方”列，试题T6，T7，T9，T15，T20，T21，T22 在0.05 的水平呈现出显著性；另一方面，根据基于Rasch理论拓展的RCML 通用模型进行DIF 性别检验，结果见表4 中的“RCML 模型”列，试题T6，T7，T9，T18，T22 呈现出以字母“B”表示的中等程度的DIF 现象，该分类方法参照了ETS 的Mantel-Haenszel DIF 检验分类标准。综合表4 中的信息可知：在本文所使用的效应量方法中，以字母“B”表示的中等DIF 程度的试题都显示了Mantel 卡方检验显著性，其中大部分试题也在RCML 通用模型DIF 性别检验中呈现出了中等程度的DIF现象；所显示出有差异的试题T15，T20 和T21 均处于两种检验方法划分DIF 类别的临界水平，如T15 的效应量数值为2.22，接近效应量方法A 类和B 类1.96 的临界水平，如果把这3 个试题均划归为A 类DIF，该方法和RCML 通用模型DIF性别检验方法将完全一致。这显示了两种分类方法的差异，并不是两种DIF 检验方法自身的差异。

五、结语

本研究通过两个群体均值差异效应量公式侦测试题的DIF 现象，对一份普通高中语文学科试卷的学生成绩抽样数据进行了DIF 分析。结果显示，大部分试题仅具有轻微的DIF 现象，部分试题具有一定程度的DIF 现象。分析也显示，该方法简单、易于理解，实际数据处理也不复杂，只要给出试题的难度和标准误就可以进行DIF 分析。更加有意义的是，该方法可以统一对一套包含二分计分的客观题和多分计分的主观题同时进行分析。目前较多的文献是对一份试卷中的二分计分试题和多分计分试题分别进行DIF 分析，这种处理方法割裂了一份完整的试卷，破坏了测验整体的结构，具有一定的局限性。本文使用的DIF 效应量方法是建立于考生在整张试卷所反映的能力水平的基础上的，分析保持了试卷的完整性，结果更加有效。此外，本文给出了一个基于该方法的DIF 程度分类标准，结果显示该标准与现有的DIF 分类标准具有一致性。

表4 试题的DIF 效应量