河南省中考英语试卷性别公平性研究

2018-03-14 12:42汪剑

文学教育下半月 2018年1期

汪剑

内容摘要：本研究对2015年河南省英语中招试卷中的客观题部分的性别进行公平性分析。研究问题：（1）该试卷是否存在对某一性别更有利的题项；（2）该试卷中5个语篇是否存在对男性考生，或女性考生更有利的语篇。研究发现：（1）該试卷中的第22题和第45题对女考生不利：（2）该试卷中5个语篇没有对某一性别考生存在明显有利或不利。结果表明，该试卷在性别层面存在些许不公平的题项，但总体质量较好。

关键词：河南省中考英语试卷性别公平性

一.引言

公平性问题是中考这种规模的考试必须看重的问题，对河南省这种人口大省来说更甚。任何涉及不公平的因素都可能产生重大的社会效应。涉及公平性的因素很多，性别因素是其中容易被忽略的一个侧面，但是同等能力但性别不同的受试，在某些题项上则可能存在明显的差异性，在大样本下观测，这种差异性可能更显著。

二.项目功能差异简介

项目功能差异检测（DIF）是检验大规模考试的公平性的常用的一种统计方法。DIF是指，对于某个特定项目，如果在来自同一目标特质的两批平行被试组中，显现出不同的统计特性，那么该项目就存在功能差异。（董圣鸿，马世晔，2001）“同一目标特质的两批平行被试组”是指在测验打算测查的能力（目标特质）上，两组被试具有相同的水平。

在大部分西方发达国家，DIF检测已是大规模测试研发的重要一环，在大规模测试实施前，都会进行一定规模的试测，并进行DIF检测，据此剔除有瑕疵的题项。在国内测量领域学者在上世纪末已将该方法引介到国内并进行了一些涉及方法论研究（曾秀芹、孟庆茂，1999；董圣鸿，马世晔，2001；曹亦薇，张厚粲，1999）。也有部分学者对某些具体的测试进行了一些实证性研究，有部分学者已将该方法运用到语言测试的公平性研究中，如汉语水平考试（黄春霞，2004）（鹿士义，2004），高考英语考试（雷新勇，2007），英语专四考试（李清华，孔文，2009）等。但是尚未见到从性别公平角度对中招考试进行的相关实证研究。目前河南省这个人口大省，每年参加中招考试的人数众多，考生之间性别，背景等方面存在较大差异，因此对该考试进行性别偏差研究是非常必要的。

目前测量界已有多种检测项目功能差异DIF的方法，在诸多方法中，MH（Mantel-Haenszel Pro-cedurel检测法和SIBTEST （Si-muhaneous Item Bias Proce-dure）比较常用。因为SIBTEsT存在众多优势，且本研究对象河南省英语中考试卷中包含的英语阅读测试每篇阅读任务带有若干题目（可以视为项目束），因此本研究选用SIBTEST方法进行。

三.研究设计

（一）研究对象

本研究研究对象为河南省2015年中招英语试题中的客观题。本研究拟考察该卷中五个客观题型中总共75个题项的性别公平性。五个部分分值共计95分（总分120），包括：20题听力理解（单选题）、15题单项选择（单选题）、包括10个题项的1篇完形填空题（单选题）、4个语篇的阅读理解题（单选题，每个语篇5个选择题）、10个词语运用题（选词填空题）。此外，因为完形填空和阅读理解题，每个语篇都是多个题项，即多个题项根据考生对同一个语篇的理解来进行能力考察的，因此，本研究还对所有语篇进行性别方面的项目束功能差异检验。

（二）研究问题

问题1，河南省该年英语中招试卷中所有客观题项在性别方面是否存在项目功能差异，即该试卷中是否存在对某一性别更有利的题项

问题2，该年河南省英语中招试卷中在语篇方面是否存在项目束功能差异，即该试卷中包括完形填空和阅读理解共计5个语篇中是否存在对某一性别更有利的语篇

（三）研究样本

本研究施测对象为两所中学九年级共1000名同学，其中男生女生分别为500人（实际参加测试的学生为1200余人，因需要男生和女生实现一对一匹配，从中随机选择各500名）。

（四）研究工具

本研究使用应用广泛的SIBTEST软件，版本为SIBTest1.7。先运行SIBIN，然后运行SIBTEST。得到的分析结果中，B为正值，表示对参照组有利；B为负值，表示对目标组有利。显著水平定为0.05。

（五）研究步骤

第一，施测并整理数据。

本研究用该真题对受试对象进行测试（在第一次月考中进行，避免太多学生已经接触该试卷，从而造成考试信度不高的问题）；测试完毕后，用专用统计软件对本次考试的所有实测情况进行统计（将所有考生的原始答案依据是否得分转换为“0”、“1”数据），按照性别分类并命名为男生组和女生组，储存备用。本研究假设有题项对女生组不利，女生组为目标组，男生组为参照组。

第二，用软件处理数据。

（1）数据处理第一步：运用SIBTEST程序进行分析。第一次将所有的项目都列为怀疑有存在项目功能差异，经筛选怀疑存在项目公平差异的题目包括：2道听力理解，2道单项选择题，2道完形填空题，2道阅读理解题，1道词语运用题；把这些题项分别剔除，对剩下的题目进行再一次操作，反复进行，直到没有DIF项目为止，这样得到一个最佳的匹配变量；把筛选出来的项目组成一个“怀疑分测验组”，用上一步操作得到的最佳匹配变量，再运用程序运算，如果此时得到的项目的B值，仍然在0.05的标准之上，那么这样的项目就是有DIF的项目。

（2）分别用SIBTEST软件检测5个语篇项目束功能差异

第三，对得出的数据进行统计学意义的解读：即根据数据，哪些题目体现出了统计学意义上的项目功能差异（DIF），对目标组有利或不利；哪些题目体现出了统计学意义上的项目束功能差异（DBF），对目标组有利或不利。

四.讨论

（一）问题1的讨论

试卷中第22题和第45题的B值分别为0.072和0.068，超过了0.05的界限，达到了显著水平。表明这两道题目存在明显的性别项目功能差异，对目标组（即女生组）不利。

第22题：-Is this phototaken in Tibet？

-Yes.You can see beautiful snow mountain in the of____the photo.

A.form B.background C.shape D.introduction

该题答案为B.

针对第22题的检测结果，结合具体题目，笔者认为可能有两种解释：第一，题干中有一个“Titet”这个生词，而这个词经常出现在政治性语篇中，而男同学对政治性语篇比较敏感，所以清楚地知道这个词的意思，这样能更好地理解题干的语境，所以能更好地作答，选出正确答案；第二，男同学更可能对摄影这个话题感兴趣，更能理解题干的意思，所以更可能选出正确答案。

第45题为完型填空部分的最后一个段落，上下文和选项如下：

The child replied，“My daddy is the 45，and he is taking me home.”

45.A.guard B.driver C.pilot D.traveller

該题答案为C.

针对第45题的检测结果，结合完型填空的上下文，笔者认为造成这种结果的原因可能在于：四个选项中，C选项应该是所有选项中在日常学习中出现词频最低的词，但是“pilot”所代表的飞行员这个职业是很多男同学期望的职业之一，所以男生对该词更敏感一些，所以更可能选对正确的答案，而女生更可能会选到干扰项B。

（二）问题2的讨论

问题2结果显示，该试卷中所有语篇中，虽然5个语篇里的单个题目表现出了一定程度的项目功能差异，但是任何一个语篇的项目束差异都没有表现出突然增大或突然缩小。因此，我们可以得出结论：本次考试选用的5个语篇在统计意义上没有对目标组明显不利或有利，本次试卷的语篇选用没有明显的项目束功能差异，即本次考试的语篇选用对相同能力但性别不同的考生不会造成成绩在统计学上的差异。

五.结论

本研究发现：第一，本次试卷中的第22题和第45题两道题目存在明显的性别项目功能差异，对目标组，即女考生不利。但根据DIF显著性的判断标准，此类题目在选用时需考虑，但是仍可以采用；第二，本次试卷中的完型填空和阅读理解共5个语篇（项目束）在性别方面没有明显的项目束功能差异，这五个语篇对某个性别的考生没有明显不利或有利。这说明本次考试的语篇较好，没有造成性别层面的不公平现象。

本研究对2015年河南省中考英语试卷进行项目功能差异分析，分析改试卷在性别方面的公平性问题，是对该考试效度和信度的一个检验。本研究由于主客观条件的限制，存在很多不足。比如，数据来源不是第一手的施测数据，样本代表性不充分；另外对结果的解释，更多凭借笔者的主观猜断，主观性较强；再加上本研究局限于对二级题型进行了检测，没有涉及到该卷中的主观题部分，因此仅凭这得出的结果，可能有失偏颇。