双因子项目反应模型在研究生招生考试质量分析中的应用*

2023-09-20 14:54宋学玲梁正妍

心理学探新 2023年1期

宋学玲,梁正妍

(1.教育部教育考试院,北京 100084;2.华南师范大学,广州 510631)

1 引言

全国硕士研究生招生考试(简称“研究生招生考试”)的试卷质量事关高层次人才的选拔,其重要性不言而喻。与高考、公务员考试等不同,研究生招生考试中对于考生学科专业能力的考查,主要通过“大综合”形式的试卷进行,即多个学科专业基础课程的知识点集中在一张试卷上。考试时长限制了试卷的题量,而“大综合”试卷又需要涵盖多个专业基础课程的知识点,大大提高了试卷的命制难度。从题型的设计,到各基础课程知识所占试卷题量、总分的比例,以及如何在有限的题量限制下尽可能地区分出考生的能力,这些对于命题人员来说都是极大的挑战。

试题试卷的评价需要结合考试本身的目的、考试的具体形式而定。目前试题试卷的评价多采用经典测量理论(CTT)和项目反应理论(IRT;Baker &Kim,2004)。CTT的数学模型简单易懂、可操作性强、应用广泛,但是也存在着不少局限,比如测量结果拓广有限、测量分数依赖试题、统计量依赖样本、信度估计不精确、能力量表与难度量表不一致等(漆书青等,1998,2002)。为了弥补CTT存在的缺陷,IRT应运而生。IRT主要考查被试的作答反应与被试能力之间的关系,通过项目特征曲线,将项目难度、项目区分度、被试能力值标记在同一个坐标系下,建立了被试能力与难度之间的直接联系。国内对于研究生招生考试的试题质量研究相对较少:冼利青等(1996)从经典测量理论的角度对医学硕士研究生入学考试的试题质量进行了分析;关丹丹等(2011)应用多元概化理论对全国硕士研究生入学考试心理学科目的试题质量进行了研究;赵守盈等(2012)采用Rasch模型对全国硕士研究生入学考试心理学科目的试题质量进行了分析;戴一飞等(2018)对法硕(非法学)专业学位联考的预测效度进行了分析。

总体而言,过往对于研究生招生考试试题质量的研究主要采用的是经典测量理论、项目反应理论以及概化理论三大理论,而其中基于项目反应理论的研究,主要采用的是单维Rasch模型。但是,采用Rasch模型的相关研究只对选择题部分做出了分析,同时也缺乏对“大综合”试卷中各基础课程试题间的比较分析,对“大综合”科目试卷质量的分析还不够全面。因此,探究双因子项目反应模型在“大综合”科目试卷质量分析中的应用路径,并采用该模型对研究生招生考试专业基础科目的试卷进行质量分析是非常必要的。

2 双因子模型与项目反应理论

2.1 双因子模型

双因子模型,又称一般-特殊因子模型(General-Specific Factor Model),其思想来源于能力结构的二因素理论(彭聃龄,2018)。双因子模型基于以下两点假设:(1)一般因子G的存在性,即存在一个可以解释所有项目共同变异的一般因子;(2)特殊因子Si的存在性,即存在多个可以额外解释部分项目共同变易的特殊因子(Holzinger &Swineford,1937)。双因子模型的数学表达式如下所示:

(1)

其中,{x1,x2,…,xn}是一个测验的全部项目,G为一般因子,{S1,S2,…,Sm}是m个特殊因子,ai为项目xi在G上的载荷,bij是项目xi在Sj上的载荷,δi是项目xi的测验误差。

双因子模型中,一般因子G与特殊因子S1,S2,…,Sm统称为公共因子(common factor),二者处于同一测量层次上,区别在于前者反映了所有项目的公共属性,而后者仅反映了部分项目的公共属性,因此每个变量仅在一般因子和一个特殊因子上的载荷非零,从而其因子载荷矩阵为分块矩阵。根据分析结果,双因子模型可以用来评估一般因子及特殊因子在整个测量中的重要性(顾红磊等,2014)。

一般而言,测验的测量结构可以分为以下五种类型:单维模型、多个单维模型、相关特质多维模型、二阶因子模型、双因子模型。当各维度之间不相关或相关较弱时(相关系数在0.1以下),建议采用多个单维模型;当各维度之间存在中低等相关时(相关系数介于0.1到0.4),建议使用相关特质多维模型;当各维度之间存在中高等相关时(相关系数在0.4以上),建议采用双因子模型(顾红磊等,2014;毛秀珍等,2018;Reise et al.,2007;Reise et al.,2010)。

2.2 项目反应理论

项目反应理论(IRT),又称潜在特质理论,是当前应用最为广泛的现代心理测量理论之一。IRT是在一定的假设下,用数学函数去刻画被试在项目上可观察的作答表现(得分)与其不可观察的特质水平(能力)之间的函数关系,即IRT模型。用概率密度函数来刻画被试的能力与其在项目上的正确反应情况之间的函数关系是自然的,相应的函数曲线称为项目特征曲线(闫成海等,2014)。

IRT的理论假设主要包含以下三条:(1)单维性假设,即测验只测量被试的某一种能力(潜在特质),其他能力对测验结果的影响可以忽略不计。(2)局部独立性假设,即被试在各个项目上的作答反应相互独立。(3)项目特征曲线假设,即被试在项目上的正确作答概率遵循一定的函数关系。后来,多维项目反应理论打破了单维性假设,题组反应理论打破了局部独立性假设,所以第三条假设是IRT的核心假设。

依据评分规则的不同,IRT模型可以分为二级计分模型和多级计分模型。针对非对即错的选择题,选用二级计分模型进行试题质量分析;针对简答题、综合题等,一般采用多级计分模型进行试题质量分析。

二级计分模型中常用的有Rasch模型、Logistic模型等。Logistic模型可分为单参数、双参数、三参数Logistic模型,其对应的项目特征函数分别是:

(2)

(3)

(4)

其中,pi(θ)是能力水平为θ的被试在项目i上的正确作答概率;ai,bi,ci分别是项目i的区分度参数(又叫斜率参数)、难度参数、猜测度参数(又叫下渐近线参数);D=1.7(或1.701)是一个常量。

多维项目反应理论(MIRT)建立在单维项目反应理论和因子分析的基础之上,克服了单维项目反应理论的单维性缺陷,可在多个维度上分析被试的作答表现。下面所述的双因子项目反应模型就是多维项目反应模型在双因子模型假设下的特殊形式(毛秀珍等,2018)。

2.3 双因子项目反应模型

1992年,Gibbons和Hedeker将双因子模型引入项目反应理论。之后,Cai,Yang和Hansen等(2011)详细描述了双因子Logistic模型、双因子多级计分模型及其参数估计方法。以三参数Logistic模型为例,其对应的双因子Logistic模型的概率密度函数为

(5)

其中,p(uij=1|θ0i,θsj)表示被试i在项目j上的正确作答概率;θi=(θ0i,θsi)是被试i的能力向量参数;a0j,asj分别是项目j在一般因子和特殊因子上的斜率参数,代表了项目j在相应维度上的区分度;cj是下渐近线参数,反映了项目j内容的模糊程度;dj=-(a0jbj+asbj)是项目j的截距参数,与项目的难度参数bj负相关。多级计分的双因子项目反应模型的密度函数也可以由双因子Logistic模型的密度函数推导得到。

3 研究生招生考试“大综合”试卷质量分析

以2022年全国硕士研究生招生考试《心理学专业基础(312)》为例,采用双因子项目反应模型对试卷质量进行分析。在被试作答数据中,随机抽取22953份样本,剔除小题数据缺失的827份样本,实际研究可用作答样本为22126份。数据分析均采用SPSS 21.0以及R软件中的mirt包(沈励,万雅琦,2022)。

3.1 试卷结构

全国硕士研究生招生考试《心理学专业基础(312)》科目主要涉及心理学导论(简称“普心”)、发展与教育心理学(简称“发教”)、实验心理学(简称“实验”)、心理统计与测量(简称“统测”)四个学科基础课程的内容。试卷结构见表1。

表1 试卷结构

各维度得分的相关系数如表2所示。可以看出,试卷所包含的四个维度的考核内容相关系数均在0.8左右,属于高相关,可以采用双因子项目反应模型来分析被试的作答反应。

表2 各维度原始得分相关矩阵

3.2 模型拟合

针对样本数据,采用单维项目反应模型、多维项目反应模型以及双因子项目反应模型对数据进行了拟合检验,拟合结果如表3所示。

表3 三种模型的拟合指标比较

其中,模型拟合评价指标AIC是Akaike信息准则,BIC是贝叶斯信息准则,SABIC是样本校正的BIC,HQ为Hannan-Quinn准则,这四个指数的值越小,表示模型对数据的拟合越好;对数似然函数logLik的绝对值越小,模型对数据的拟合也越好(潜变量建模与Mplus应用·进阶篇,王孟成,毕向阳,2018)。

从模型拟合结果来看,多维项目反应模型的拟合结果是最差的,其次是单维项目反应模型,拟合表现最好的是双因子项目反应模型。采用R软件mirt包中的anova函数对单维项目反应模型和双因子项目反应模型进行比较后发现,双因子项目反应模型的拟合显著优于单维项目反应模型,详见表4。

表4 单维与双因子项目反应模型比较

综上,选用双因子项目反应模型来分析作答数据是合适的。

3.3 项目参数估计

本套试卷共有83道试题:选择题75道,单项选择题每题2分、多项选择题每题3分;简答题5道,每题10分;综合题3道,每题30分。二级计分题(选择题)采用双因子双参数Logistic模型;多级计分题(简答题和综合题)采用双因子等级反应模型,其中简答题每2分合并为一个等级,共5个等级难度,(分数(0,2]合并为一个等级,此等级所估难度为难度1;分数(2,4]合并为一个等级,此等级所估难度为难度2;以此类推);综合题每3分合并为一个等级,共10个等级难度(分数(0,3]合并为一个等级,此等级所估难度为难度1;分数(4,6]合并为一个等级,此等级所估难度为难度2;以此类推)。

表5 部分二级计分题区分度及难度参数

表6 部分多级计分题区分度及截距参数

经转换计算,表6中所涉及试题的难度参数如下:第76题的难度参数MDIFF76=(0.47,0.80,0.96,0.96,0.75),第78题的难度参数MDIFF78=(1.09,1.75,2.09,1.38,-0.77),第79题的难度参数MDIFF79=(2.30,4.94,6.37,6.34,3.39),第83题的难度参数MDIFF83=(0.20,0.35,0.16,-0.32,-0.61,-0.77,-1.02,-1.12,-1.62,-1.85)。

项目反应理论认为,项目的难度参数应在[-3,3]之间,项目的区分度参数应在[0,3]之间(罗照盛,2012)。难度参数的数值越高代表试题难度越大。从难度参数来看,整套试卷中绝大多数试题难度合理,难度参数在[-3,3]范围内,但极少数试题难度偏高,如第67题。结合区分度来看,第67题在主测维度“发教”上区分度过低,可能是由于其难度过高(4.48)导致的,即便在维度“发教”上能力高的被试在该题上正确作答的概率也很小,而其他被试却依然有一定概率通过猜测答对这道选择题。MDIFF值也可以用来分析多级计分题等级划分的合理性。比如第79题的难度MDIFF79=(2.30,4.94,6.37,6.34,3.39),前三个等级的设置有一定的递增梯度,比较合理,但是后面两个等级的难度相关参数递减,等级设置不够合理,还需改进。

MDISC是一个总的概念,可以通过每一个ai值来细致分析每个项目在各维度上的区分度。数据显示,二级计分题在一般因子上具有较好的区分度(表中a1),但是具体到特殊因子上,不同试题的区分度表现存在差别。其中,在“发教”维度共有4道试题的特殊因子区分度(表中a3)为负数,说明这些试题测试该维度的能力时,能力高的被试反而正确作答率低,但是这几道题在一般因子上的区分度表现却很好。多级计分题在一般因子上的整体表现也优于特殊因子。其中,多级计分题在“普心”和“实验”两个维度上的区分度(表中a2、a4)表现一般;在“发教”和 “统测”两个维度上的区分度(表中a3、a5)表现良好。

3.4 被试能力参数估计

采用双因子项目反应模型对被试能力参数进行估计,基于不同因子能力绘制密度曲线图如图1所示。

图1 能力密度曲线

在双因子模型中,G因子即一般因子,代表了心理学一般素养,它蕴含在考核的各部分知识内容中。被试在心理学一般素养的能力分布广,测验信度的大部分方差均由心理学一般能力所解释,从数据分析结果可以看出,测验项目一般因子的区分度(表中a1)比特殊因子的区分度(表中a2～ a5)更好。从图1中四个特殊因子的能力分布图来看,“实验”和“统测”维度上的能力分布比“普心”和“发教”维度上的能力分布更高狭,且能力均值更高,说明“实验”和“统测”更能考查出被试的高阶思维能力。

总的来说,此次试卷的命制达到了“大综合”考试形式的目的,即对学科综合素质的考查。

4 结论与思考

4.1 结论

针对2022年全国硕士研究生招生考试《心理学专业基础(312)》科目,采用双因子项目反应模型对试卷进行了质量分析,在多个维度上分析了被试的作答表现,并绘制了被试在各维度的能力密度曲线图,充分解读和分析这些测评信息,可以为提高试题质量提供有针对性的启发。主要结论如下。

(1)整套试卷命制符合“大综合”科目试卷的命制要求,基本达到了考试大纲中所设定的考核要求,实现了考查学科综合素质的目的。

(2)从项目特征参数来看,心理学一般因子作为主要的考查内容,具有较好的区分度;而特殊因子(课程因子)的表现存在差异。二级计分题的特殊因子“发教”、多级计分题的特殊因子“普心”和“实验”,在其主测维度上的测量精度有待提高。

(3)从能力密度曲线来看,相较“普心”和“发教”两个因子,“实验”和“统测”两个因子对被试高阶思维能力的考核更加有效,选拔性功能更强。

4.2 思考

双因子项目反应模型符合研究生招生考试中“大综合”试卷的结构特征。用双因子项目反应模型来处理被试在项目上的原始反应数据,比起传统的线性双因子模型的间接处理,保留了更多的被试作答信息。相较单维项目反应理论而言,双因子项目反应模型对“大综合”试卷的分析更加精细,它对每个项目都做了的细致的分析,对试卷总体和涉及的基础课程维度也进行了分析,能够看到被试能力在各个维度上的具体表现,从而能够全方位了解试题的质量情况,其最突出的优点是能够更加精确区分出专业基础“大综合”试卷中的鉴别性维度,有利于后续对考核内容和试卷结构进行针对性调整。

基于以上分析,对研究生招生考试专业基础“大综合”试卷的命制提出以下建议:

(1)明确“门槛性”考核内容和“鉴别性”考核内容。根据被试在特殊因子上的反应,区分出考试的“门槛性”因子和“鉴别性”因子。对于专业必需的“门槛性”知识,不必过分追求项目的难度和区分度,应该更加强调考核知识点的重要性和覆盖度,但是对于“鉴别性”知识则要求尽量提高项目质量,以实现考试的选拔目的。

(2)适当调整“门槛性”项目与“鉴别性”项目的题量和分值。根据双因子项目反应模型的分析结果,适当调整各个维度考核内容的比重,在适度考核专业“门槛性”知识的基础上,尽量提高“鉴别性”项目的比重和质量,以提高人才选拔的有效性。

针对研究生招生考试《心理学专业基础(312)》科目,建议在后续修订考试大纲时,对试卷结构进行如下调整:第一,在心理学导论、发展和教育心理学的维度上,以适度、必需为原则,认真斟酌项目的取舍,在此基础上尽量使项目的特征参数在合理区间范围内。第二,在实验心理学、心理测量与统计两个维度上,适当提高考核内容占比,提高命题质量,加强对被试高阶思维能力的考核。

双因子项目反应理论的引入,拓宽了研究生招生考试质量评价的路径,为研究生招生考试的内容改革提供了更加丰富的分析资料,在提高研究生招生考试的科学性方面具有较广的应用前景。