测验等值：新一轮高考改革的技术问题

2015-01-30 20:39程乾张心

中国考试 2015年4期

程乾张心

1 引言

新一轮考试招生制度综合改革明确要求在高中学业水平考试和外语科目考试中，为学生提供两次考试机会。这可以避免考生因偶然因素导致的考试失误。然而将哪一次考试成绩作为考生的最终成绩是一个必须面临且必须解决的问题。原因在于，即使两次考试考查的是同一种能力结构，也很难确保这两次考试的难度完全相等。若一部分学生只进行了难度相对大的那一次考试，而一部分学生只进行了难度相对小的那一次，显然后者的成绩更有可能比前者高。这样就会产生考试的不公平。因此为了消除这种因两次考试难度差异而造成的不公平，就需要将这两次考试的成绩放在同一个量尺上进行比较。这就是测验等值。

对实现不同测验间的分数可比以及相应方法的需求可以追溯到心理测量的起源。[1]在过去的90多年中，不同测验分数之间可比性的标准化评价已经成为心理测量领域一个重要焦点。[2]如今，实现测验分数间可比的过程被统一称作“测验连接”。[3]作为测验连接分类中条件最严格的一种，测验等值因教育与心理实践的需要（两个平行测验间的分数需要相互转换）得到广泛重视。核等值法、局部观察分数等值法等新的等值方法不断涌现，对现有方法进行持续有效的改进、测验等值专刊的出版，[4][5][6]都体现测验等值研究领域的蓬勃发展。但是，等值的严格条件，也给测验等值的实际应用带来诸多困难，能否严格有效地控制各个环节将直接影响等值的效果。本文拟从6个方面说明测验等值需要注意的一些关键性问题，以期为高考改革面临的技术性问题提供参考和借鉴。

2 测验等值及其相关技术问题

2.1 明确等值定义

测验等值作为测验连接的一种，其定义随着理论和实践研究的深入而发生变化[7][8][9][10][11][12]，有些定义甚至还存在明显的矛盾，这给等值研究带来一定的困难。Kolen和Brennan[13]的等值定义是现在普遍认同的：等值是通过调节测验间的难度差异使得测验分数可以相互转换的统计过程。这种调节是对测验难度差异的调节，而非对测验内容差异进行调节。等值的实现是建立在一系列前提假设上的，只有满足这些前提假设，等值质量才能得到保证。他们总结前人的研究提出了测验等值的5个前提：对称性（Symmetry）、相同细目（Same specification）、公平性（Equity）、观察分数等值性（Observed score equating）和群体不变性（Population invariance）。这5个等值前提是测验等值的基础。在教育测量中，两套试卷只有在满足或者近似满足这5个前提时，才能有效地进行等值。我们也可以依据这5个前提，对两次考试是否适合等值进行预先判断。当然，最终还是需要根据对以上5个前提的实测数据判断等值的有效性。

2.2 选择合适的等值设计

在进行等值前，先要考虑选择什么样的等值设计。等值设计的主要原则是使得所采集的数据能够最有效地提供不同测验形式的差异信息。常见的等值设计主要有平衡单组设计、随机等组设计和锚题非等组设计。

平衡单组设计的优点是最大可能地节约了考生样本，但缺点是很难保证测验安全，测验施测存在顺序效应、考生疲劳效应和学习效应。平衡单组设计的使用可以检测是否存在严重的顺序效应、疲劳效应和学习效应。当这些效应的影响特别大时，可以放弃后测两组数据从而变成随机等组设计。

随机等组设计假设两个考生样本来自同一个总体，因此要尽可能地抽取两个等同的样本。随机等组设计需要的样本量相对较大。

锚题非等组设计需要通过设置锚题来调节两个不同总体之间的差异。由于现实原因，等值经常使用锚题非等组设计。未来高考外语和高中学业水平考试将实行一年两次考试，倘若要对两次考试进行等值，只能使用锚题非等组设计。因为考生能力在两次考试之间有明显的变化，在统计上不能认为这两批考生来自同一个考生总体。但是，锚题非等组设计也是这几种等值设计中最复杂的一种，许多潜在因素（如锚题的编制）可能会严重影响等值的有效性。

此外，在条件允许的情况下，在这些等值设计中还可辅以双链/多链技术，以降低等值误差。[14]总而言之，等值设计的选择包括试卷开发和实施的复杂性、是否满足统计假设等方面的现实考虑。

2.3 是否需要等值

在教育测量中，当我们收集到考试数据时，还应基于数据判断两次考试是否可以等值，这是常被忽略的问题。判断的原则涉及两个方面，一是来自两次考试的数据差异过大而不适合等值；二是来自两次考试数据过于相似而没必要等值。一方面，如果两次考试数据差异过大，很可能是由于两次考试本身就不符合等值前提，导致其数据不能用来等值。另一方面，如果试卷开发、等值设计、数据收集以及质量控制过程都得到了有效保障，得到的数据极有可能十分相似，将这些分数直接进行相互转换就能够满足当前的需求。那么在这种情况下，不使用等值或者使用恒等函数也许是一种更好的选择[15]，使用等值反而极有可能会引入更多的误差。

Hanson[16]基于对数线性模型提出一种确定是否使用等值的方法。如果来自两个测验的分数分布间的差异仅由随机误差造成（没有拒绝零假设），那么基于任何等值方法的结果与恒等函数之间的差异同样也由随机误差造成。这时，等值仅会引入误差，因此使用恒等函数也许是更好的选择。所以，两次考试的分数进行等值之前，必须明确是否有必要等值。如果两次考试及其分数满足等值的条件，那么分数分布间的差异应该不会太大，这时就要确定使用等值还是使用恒等函数。只有当引入的误差比恒等函数小时，才会考虑等值。

2.4 选择合适的等值方法

等值方法多种多样，如何在教育考试中选择合适的等值方法是一个棘手的问题。Kolen和Brennan给出了几种常见等值方法的适用条件和建议。[17]他们认为试题开发、等值设计、数据收集、标准化和质量控制的有效性等都是等值方法能否有效使用的前提。虽然可以分析比较所有这些等值方法的结果，然后选择在当前等值情景中表现最好的等值方法。但是，由于这些等值方法分别有各自的适用条件，因此可以先分析它们的适用条件，排除掉一部分方法选项，进而分析比较剩下的那些方法。

样本量是选择合适等值方法的一个重要因素，其大小直接影响到等值的精度。Kolen和Brennan认为在随机等值设计中，等百分位等值至少需要1 500的样本量，线性等值至少需要400的样本量，平均数等值需要的样本量更少；在锚题非等组设计中需要的样本量不仅要参考随机等值设计，还要结合锚题与测验的相关程度等其他因素。[18]Harris建议三参数IRT等值法需要的样本量参照等百分位等值，基于Rasch模型的IRT等值法需要的样本量参照线性等值。[19]因此，仅就样本量而言，当样本量小于400但不是特别小时，平均数等值法也许是比较好的选择；当样本量大于400小于1 500时，平均数等值、线性等值和基于Rasch模型的IRT等值法也许是比较好的选择；当样本量大于1 500时，样本量则也许不是选择等值方法的重要影响因素。另外，如果进行等值的测验涉及标准设定（即通过等值从一个测验的临界分数确定另一个测验的临界分数），那么在等值时，这两个测验临界分数附近的精确性应该是首先要考虑的问题。相应的，在两测验各自临界分数附近应有足够的被试，才能保证等值精确性。

测验难度差异是影响等值方法选择的另一个重要因素。等值是对测验形式间难度差异的调节。当难度差异较小时，任何等值方法都能取得相对好的效果；若测验难度差异过大，任何等值方法都不会得到有效的结果。[20]在可接受的难度差异范围内，对方法的选择就受到难度差异大小的影响。平均数等值法和线性等值法适用于两测验间难度差异较小时的等值；等百分位等值法和IRT等值法更适用于两测验间难度相对较大时的等值。但Kim等人认为很难确定测验难度差异在什么程度才能保证某种等值方法有效。[21]因此根据难度差异大小选择等值方法应充分参考已有的文献资料和经验，并在条件允许的情况下多进行前期研究。

等值后分数量表的使用范围也是合理选择等值方法时应考虑的因素。如果只使用平均数附近的等值分数，即只要求平均值附近的分数点满足一定等值精度而不考虑其他分数点的等值精度，平均数等值和线性等值就是简单而可靠的方法；如果要使用整个分数量表，那么就应该考虑等百分位等值和IRT等值。

最后，还应考虑统计假设是否成立。比如在锚题非等组设计中，若两批考生能力差异过大、两个测验差异过大或者锚题设置不同于测验，那么该设计的假设就会不成立。这样，该等值设计任何等值方法都不会得到理想结果。同样在锚题非等组设计中，每一种方法都有各自的强假设，如果这些假设没有近似满足，也不能得到理想的等值结果。

2.5 选择合适的等值评价标准

通过以上环节收集到考试数据后，最终目标就是确定最理想的等值结果。为了实现这个目的，需要先尝试多种等值方法，然后依据一些评价标准作出一种最佳选择。然而每一种评价标准都有其优劣与适用条件。Harris和Crouse指出，测验等值中没有一个放之四海而皆准的标准。因此必须选择合适的等值评价标准。[22]

2.5.1 公平性

Lord首先提出“公平性”的概念，但他所提的公平性只有在测验严格平行下才能实现。因此实际应用中并没有使用Lord的概念，而是采用弱公平性。Digivi[23]和Morris[24]分别提出一阶公平性（First-Order Equity，FOE）和二阶公平性（Second-Order Equity,SOE）两种弱公平性概念。在给定真分数的条件下，它们分别要求被试在测验Y的观察分数分布与变换后的测验X观察分数分布的期望（一阶矩）和方差（二阶矩）相同。公平性标准直接对应当前等值情境下哪种等值方法更满足公平性前提。Kim等人，Tong和Kolen以及Lee等人用弱公平性比较了多种条件下不同等值方法的表现；[25][26][27]Andrews用弱公平性评价多维IRT等值结果。[28]

2.5.2 群体不变性

与公平性标准一样，群体不变性也是一种直接对应等值前提的评价标准。例如，如果考生群体分为男女两个子群体后，男女子群体的等值关系与总体的等值关系差异过大，说明这种等值关系是依赖于群体的，此时就因不满足群体不变性前提而不适合等值。Dorans和Holland用差异均方根（RMSD）和差异期望均方根（REMSD）这两个指标来评价线性等值中群体不变性。[29]Von Davier等人和Dorans等人同样用RMSD和REMSD来分析锚题非等组设计中的等值方法的群体不变性。[30][31]当这两个指标过大时，即两测验间的连接关系表现出明显的群体依赖性，那么这种连接关系不能看作是等值关系。

2.5.3 等值误差

等值误差包括系统误差和随机误差，二者之和称为等值总误差。随机误差就是因抽样引起的等值标准误，又称等值标准误；若能直接应用总体数据估计测验间的等值关系，那么所估等值关系就不会存在随机误差，[32]但实际等值中往往因采用抽样数据而肯定存在随机误差。不同等值方法在不同等值情境中的等值标准误不同，因此可以比较各方法间等值标准误大小来选择。

系统误差来源复杂，方法的假设条件不满足，数据采集不规范，施测被试群体的代表性不足，数据处理技术等都可能产生系统误差。不同方法的等值误差不同，显然误差越小的方法等值越精确。计算系统误差和总误差必然涉及等值真值，但等值真值在真实情景中是未知的，一般是通过蒙特卡洛模拟得到，并以某种测量模型（如项目反应理论中的各种模型）定义。在模拟过程中，为使模拟更接近真实数据，常采取的手段是先利用真实作答数据估计出IRT项目参数与能力，然后将这些估计值作为参数真值，再以此为基础模拟出作答数据，最后对模拟出的作答数据使用各种等值方法。用等值误差作为等值评价标准存在的潜在问题主要是模拟与真实情况的一致性。

2.5.4 等值到自身/循环等值

该评价标准是通过将一个测验直接或通过一组测验间接地等值到自己，然后比较直接和间接的分数转换的差异。比如将测验A等值到测验B，测验B等值到测验C，测验C又等值回测验A。通过这种方式，测验A就等值到自身。Brennan和Kolen指出了该评价标准的局限性：（1）估计更少参数的等值方法（如线性等值）将比估计更多参数的等值方法可取（如等百分位等值）；（2）在锚题非等组设计中，用循环等值得到的结果取决于循环开始时选择的测验。[33]比如将测验A通过测验B和测验C等值到自身与将测验C通过测验A和测验B等值到自身会得到不同的结果。因此使用这个评价标准时应该注意这些局限。但是用该标准确实有助于识别产生较差等值结果的方法。因为，若将测验等值到自身时，某种方法都得到不好的结果，那么这种方法在将测验等值到另一个测验也不会得到很好的结果。

2.5.5 大样本

如果能够基于被试总体数据进行等值，那么就可以将其作为等值的评价标准。一些研究者[34][35]使用了非常大的被试样本，并把这个样本当作被试总体。然后在这个大样本抽取一些小样本，并将其等值结果与大样本等值结果比较。大样本评价标准的局限是很少能够获得大量的被试样本。

正如前面提到的，任何等值标准都有其优劣。在测验等值时，应尽量使用多种评价标准。最理想的结果是这些评价标准都指向一致的等值方法。但是，当这些评价标准指向不同的等值方法时，就必须仔细分析导致这一问题的原因，并根据等值的实际用途、客观事实及主观经验进行弥补和选择。

2.6 等值过程的质量控制

测验等值由许多环节组成，每一个环节间都相互联系。只有将每个环节都控制得当，才能获得有效的等值结果。[36]质量控制对测验等值是否充分至关重要，但是也相当繁杂和耗费时间。[37]可以从以下几个方面对测验等值质量进行控制：检查是否按平行测验原则编制测验；检查锚题设置是否有效；检查测验是否按照标准化流程实施；检查需要等值的两份测验是否有统一的评分标准；检查是否按标准化流程阅卷；检查用于等值的样本是否有代表性；检查等值设计是否可行；检查是否正确应用等值方法；检查等值结果与以往研究和实践是否一致；如果涉及临界分数的等值，还应检查等值结果是否与预期一致。

3 结语

测验等值作为心理测量领域的重要组成部分，其理论和实践在国外都有比较深入的研究。相比之下，国内有关测验等值的研究显得有些滞后，且大多从理论出发，实际应用则少之又少。随着我国考试招生制度改革的深入，高中学业水平考试和高考外语正在探索为考生提供两次考试，实现两次考试分数间的相互转换是一个必须解决的问题。测验等值理论与技术为该问题的解决提供了明确方向，也必将在考试中得到实际应用。在当前对等值有较高需求的大环境下，需要更多测验等值的应用研究，以逐步解决等值实践中的难题。

[1] Holland,P.W.,&Dorans,N.J.Linking and equating[M]//R.L.Brennan.Educational measurement(4th ed.).Westport,CT:Praeger Publishers，2006.

[2] Davier,A.A.Von.Statistical Models for Test Equating,Scaling,and Linking[M].New York:Springer-Verlag,2011.

[3] 程乾.“测验连接”概念框架演变述评[J].考试研究,2013（2）：72-79.

[4] Dorans,N.J.Assessing the population sensitivity of equating functions[J].Journal of Educational Measurement,2004,41（1）：1-2.

[5] Pommerich,M.,&Dorans,N.J.Linking Scores via Concordance:Introduction to the Special Issue[J].Applied Psychological Measurement，2004，28（4）：216-218.

[6] Davier,A.A.Von,&Liu,M.Population invariance[J].Applied Psychological Measurement，2008，32（9）.

[7] Angoff,W.H.Scales,norms,and equivalent scores[M]//R.L.Thorndike.Educational measurement（2nd ed.）.Washington,DC:American Council on Education，1971.

[8] Dorans,N.J.,Moses,T.P.,&Eignor,D.R.Equating Test Scores:Toward Best Practices[M]//Davier,A.A.Von.Statistical Models for Test Equating,Scaling,and Linking.New York:Springer-Verlag,2011.

[9] Feuer,M.J.,Holland,P.W.,Green,B.F.,Berdahl,J.L.,&Hemphill,F.C.Uncommon Measures:Equivalence and Linkage among Educational Tests[M].Washington,D.C:National Academy Press,1999.

[10] Flanagan,J.L.Units,scores,and norms[M]//E.F.Lindquist.Educational measurement.Washington,D.C:American Council on Education,1951.

[11] Lord,F.M.Applications of item response theory to practical testing problems[M].Hillsdale,NJ:Lawrence Erlbaurn Associates,Inc,1980.

[12] Mislevy,R.J.Linking educational assessments:Concepts,issues,methods,and prospects[M].Princeton,NJ:ETS Policy Information Center,1992.

[13][15][17][18] Kolen,M.J.,&Brennan,R.L.Test Equating,Scaling,andLinking:MethodsandPractices(3rded.)[M].NewYork:Springer-Verlag,2014.

[14] 戴海琦.等值误差理论与我国高考等值误差控制[J].江西师范大学学报（哲学社会科学版）,1999,32(1)：29-35.

[16] Hanson,B.Testing for differences in test score distributions using log-linear models[C]//Paper presented at the Annual Meeting of the National Council on Measurement in Education.San Fraincisco,1992.

[19] Harris,D.C.Practical issues in equating[C]//Paper presented at the annual meeting of the American Educational Research Association.Atlanta,1993.

[20] Kolen,M.J.,&Brennan,R.L.Test Equating,Scaling,and Linking:Methods and Practices(2nd ed.)[M].New York:Springer-Verlag,2004.

[21][25] Kim,D.I.,Brennan,R.,&Kolen,M.A Comparison of IRT Equating and Beta 4 Equating[J].Journal of Educational Measurement,2005,42(1):77-99.

[22] Harris,D.J.,&Crouse,J.D.A Study of Criteria Used in Equating[J].Applied Measurement in Education,1993,6(3):195-240.

[23] Divgi,D.R.Two procedures for scaling and equating test with item response theory[C]//Paper presented at the annual meeting of the American Educational Research Association.Los Angeles,1981.

[24] Morris,C.N.On the foundations of test equating[M]//P.W.Holland,&D.B.Rubin.Test equating.New York:Academic Press,1982.

[26] Tong,Y.,&Kolen,M.J.Assessing Equating Results on Different EquatingCriteria[J].AppliedPsychologicalMeasurement,2005,29(6):418-432.

[27] Lee,E.,Lee,W.C.,&Brennan,R.L.Assessing Equating Results Based on First-order and Second-order Equity[R].Iowa City:Center for Advanced Studies in Measurement and Assessment,2010.

[28] Andrews,B.J.Assessing first-and second-order equity for the common-item nonequivalent groups design using multidimensional IRT[R].Iowa City，2011.

[29] Dorans,N.J.,&Holland,P.W.Population Invariance and the Equatability of Tests:Basic Theory and the Linear Case[J].Journal of Educational Measurement,2000,37(4):281-306.

[30] Davier,A.A.Von,Holland,P.W.,&Thayer,D.T.The Chain and Post-Stratification Methods for Observed-Score Equating:Their Relationship to Population Invariance[J].Journal of Educational Measurement,2004,41(1):15-32.

[31] Dorans,N.J.,Jinghua Liu,&Hammond,S.Anchor Test Type and Population Invariance:An Exploration across Subpopulations and Test Administrations[J].Applied Psychological Measurement,2008,32(1):81-97.

[32] 漆书青,戴海琦,丁树良.现代教育与心理测量学原理[M].北京:高等教育出版社,2002.

[33][37] Brennan,R.L.,&Kolen,M.J.Some Practical Issues in Equating[J].Applied Psychological Measurement,1987,11(3):279-290.

[34] Hanson,B.A.,et al.A Comparison of Presmoothing and Postsmoothing Methods in Equipercentile Equating[R].ACT Research Report Series,Iowa City,1994.

[35] Livingston,S.A.,et al.What Combination of Sampling and Equating Methods Works Best?[J].Applied Measurement in Education Revised,1990,3(1):73-95.

[36] Allalouf,A.Quality Control Procedures in the Scoring,Equating,and Reporting of Test Scores[J].Educational Measurement:Issues and Practice,2007，26(1):36-46.