高质量的探查工具是开展科学学业质量监测的关键

2018-02-22 06:16周丐晓刘恩山

生物学通报 2018年3期

周丐晓刘恩山黄瑄

（1 温州大学生命与环境科学学院浙江温州 325035 2 北京师范大学生命科学学院北京 100875）

当前世界各国均从国家战略的高度，将教育质量提升作为国家发展的重要目标和推动力。作为教育质量的核心指标，学生的学业质量的监测和评估，可为教育改革和决策提供重要参考。越来越多的国家将开展学生学业质量监测，作为教育质量提升的重要途径，为政府教育决策、国家教育管理和学校教育诊断和改进提供实证支持。通常学业质量监测包括框架设计、工具研发、试点实验、正式测试、结果反馈等若干环节，其中最为关键的是开发高信效度的测评工具，在此基础之上获得的诊断信息才有参考价值。而当前关于学业质量测评工具的开发仍存在诸多困难，如何科学评价监测工具的质量是其中亟待攻克的重点难关，理解开展学业质量测评研究的重要意义、学业质量监测工具开发中存在的挑战，以及如何评价监测工具的质量，将有效提高学业质量监测工具的信效度，为进一步提高学业质量监测结果的科学性及有效性奠定良好基础。

1 开展学业质量监测可为教育质量提升提供实证依据

当前建设和完善教育质量监测评估体系已成为国际教育改革的一大趋势，开展学业质量测评研究是完善教育质量监测评估体系的有效措施。学业质量测评研究可为国家或区域教育质量的提升和改进提供客观的坐标定位和有效的参考依据，学业质量的监测结果可在一定程度上反映当地教育质量的水平，客观评估当前教育发展的优势和不足，为下一步进行教育改进和提升提供有效的反馈建议和努力方向。

1.1 完善教育质量监测评估体系已成为教育改革的迫切需求和重点议题长期以来，由于缺乏客观准确衡量学校教育质量的标准和数据支持，我国以升学率和考试成绩片面评价教育质量的做法屡见不鲜，这已成为制约教育质量评价发展的一大瓶颈，也影响了学校教育质量的提高和改进。为此，建立和完善国家义务教育质量监测评估体系，有效诊断和客观评价我国教育质量现状，为教育部门科学决策和有效管理提供依据被提到了议事日程。2010年我国颁布了《国家中长期教育改革和发展规划纲要（2010—2020年）》，明确指出“要建立教育质量监测、评估体系，整合国家教育质量监测评估机构及资源，完善监测评估体系，定期发布监测评估报告”［1］。开展教育质量监测研究，对教育质量进行科学、全面、有效的评价，为教育改革和发展提供咨询和论证，提高重大教育决策的科学性和有效性，已成为实现我国基础教育科学发展、内涵发展的重大举措和战略任务。

1.2 开展学业质量测评研究是完善教育质量监测评估体系的有效途径学生学业质量的水平是衡量一个国家教育质量的重要标准之一，同时也是教育改革的核心议题，开展学业质量测评研究已成为世界各国提升教育质量的重要措施。纵观当前国际教育改革发展趋势，为提升和改进国家和地区的教育质量，众多教育发达国家和组织，尝试通过开展学生学业质量测评项目获悉学生的学业现状和影响因素，影响较为广泛的包括PISA、TIMSS 和NAEP 等，以国际或区域教育发展状况为标准坐标尺，对比分析本国的优势和不足，从而为教育质量提升和政府教育决策提供论据和支持。我国也认识到开展学业质量测评工作的迫切性和重要性，教育部在2014年的工作要点中明确指出“开展义务教育阶段学生学业质量监测，研究制定中小学各学科学业质量标准”。为落实这一工作，教育部随后制定了《国家义务教育质量监测方案》，从2015年起在全国开展义务教育质量监测工作［2］。

2 监测工具质量分析中存在的问题及挑战

开展学业质量监测的研究是改进和提升教育质量的重要措施，其中客观且准确诊断教育质量现状，才可为教育质量的改进提升提供有效的靶向和指导。这一目标的实现有赖于研发科学有效的测试工具，测试工具的质量直接影响诊断的结果及其教育决策价值。但由于我国教育测量理论和技术的相关研究仍处于起步阶段，当前在工具质量分析的过程中存在诸多问题和挑战，主要表现在以下3 个方面。

2.1 统计学指标的滥用和不恰解读，数据分析缺乏连贯一致的顶层设计在实际分析中有一误区，研究者容易盲目追逐统计指标的新意和数量，认为用尽可能多的较为高级的数据统计指标，便可为质量分析提供更为科学的论证和论据。然而统计学指标的应用一般需考虑测验的具体情境，根据测试的要求选择适宜的指标，才可获得有价值的测试信息和对数据的正确解读。例如在SPSS中做因子分析时，需先做KMO 检验和Bartlett 球度检验，通过对原有变量间相关性的检验，判断变量是否适合做因子分析，只有二者均符合要求时，因子分析的统计学指标才具有参考价值。

除了统计学指标的滥用和不恰解读，另一常见问题是研究者倾向于碎片化的数据分析，数据分析方案缺乏连贯一致的顶层设计。连贯一致的顶层设计要求统筹考虑工具分析的各要素和测验情境，工具质量的分析需要系统性而非碎片化的指标解读。碎片化的分析犹如管中窥豹，不能得其全貌，常导致分析指标间功能重叠、缺乏逻辑上的连贯一致，难以获得全面有效的质量分析信息。工具的质量分析实质为一个论证分析过程，是对工具合适性和科学性的逻辑分析和实证分析，对质量分析方案进行顶层设计有助于优化分析方案，从而提高质量分析的效率和科学性。

2.2 测量理论的单一化，难以整合各种理论的优势进行工具的分析在测量理论的发展过程中，经典测验理论（classic test theory，CTT）和项目反应理论（item response theory，IRT）在心理学与教育测量方面发挥了重要作用。当前在学科测试工具质量评估方面，国际主流方向是结合项目反应理论（IRT）和经典测试理论（CTT）综合分析试题和问卷数据，从而提高工具的科学性和有效性。

然而在实际分析中，我国研究者往往仍选择CTT 作为工具质量分析的优先选择，测量理论的单一化使得研究者难以整合各种理论的优势进行工具的分析。究其原因在于CTT 所涉及的数学模型相对简单，参数和估算方法易于理解和掌握，对研究者统计学原理知识的掌握程度要求不高。但是CTT 有其理论和方法体系的弱点，例如：项目难度与被试能力互相依赖，各参数受样本质量的影响；不区分问题重要性，项目均是平行的无重要性的差别；统计量（难度、区分度、误差等）是笼统的全组被试的平均值，因此CTT 的信度仅能代表平均测量精确度，信度较低等。项目反应理论克服了CTT 的缺点，相比CTT 易受样本影响的特点，IRT 中所用的项目参数（例如题目难度、区分度等）是一种不受样本影响的指标，被试能力与难度参数相互独立，这些参数的获得不会因被试样本的变化而变化，同时对被试能力的估计不会因为试题的不同而不同［3］。其次，它将定序测量转化为等距测量，将项目难度与被试放在同一量尺上进行测量，便于比较操作。最后，基于IRT 的测量能将误差具体到个人，更为精确也更能反映客观的被试情况。因此，充分利用CTT 和IRT 的优势共同分析工具质量，优劣互补协同并进，可极大提高工具质量分析的科学性和有效性。

2.3 效度的程式化验证，缺乏实际情境的考量相比信度的检验，工具效度的评定更为灵活多变，长期以来一直是教育测评领域的一大难题，研究者对效度的检验偏于程式化和单一化，以经验和主观因素判定工具的效度，忽略样本、工具和测试本身的属性，单纯从内容效度的角度进行专家评估以解释工具的效度，缺乏实际情境的考量。

效度是指根据制定用途支持分数解释的那些事实和理论的有效程度［4］。效度检验强调从多种渠道获取效度证据，例如基于内容、反应过程、内部结构、与其他变量之间关系、测验结果等的证据，以验证测验目的（理论框架）与从测验分数或其他评估中获得的推论之间的一致程度。因此效度的检验较为灵活，没有程式化的模式。把握效度验证的核心在于用逻辑或实证的方法证明假设，通常可从理论框架是否能解释评价者在工具上的作答表现，根据理论框架推演有关测验成绩的假设与作答成绩的一致程度等方面进行实证检验。好的效度论证应考虑实际测验情境，整合多种论据构建对测试目的达成度的良好论证，而非程式化的效度指标报告。

3 把握学业质量监测工具分析的3 个核心要素

工具分析是以教育测量理论为基础，获得试题及整个测验的难度、区分度等一系列客观定量指标，然后再结合命题目的、框架、蓝图、内容效度等资料，实现对于测验及其题目进行定量与定性分析的系统过程［5］。根据测验目的及检验指标对工具中的试题进行筛选是设计良好工具的重要保障，这一过程的实现主要依赖于以下3 个核心要素：①对测量学指标和方法的深入理解；②测量理论的综合运用；③各个指标的综合参考。

3.1 深入理解测量学指标和方法，形成结构良好的顶层设计方案对测量学指标和方法的深入理解是灵活运用各种统计指标和方法的前提。每种测量学指标和方法有其特殊的内涵、使用条件及情境、样本要求，例如基于CTT 的量表分析与样本之间有一定的依赖性。实际选择哪种指标和统计方法需参考多方面的信息，例如每个变量的类型，连续变量、双歧变量或顺序变量；潜在的分布性质，正态分布还是非正态分布；变量分布特征，线性的还是非线性的；样本的小大等。而且多数指标和统计方法有特定的适用条件，如若依据试题信息函数验证试题质量，首先要确定题目特征曲线能与试题相拟合，若拟合度差，则会产生误导作用［6］。测量方法和指标的选择决定了工具质量分析的有效性和科学性。

深入理解测量学指标和方法的关键在于把握工具质量检验的核心本质，其实质在于把握3 个关键要素：信度、效度和客观度。信度的本质在于了解测试结果的一致性和稳定性；而效度则是为了探查测试的正确性和有效性；客观性是为了确定测试工具对不同群体有无偏见。工具质量的检验参数也可根据这3 个关键要素进行分类，如表1所示，试题信息量分析、信度分析、误差、评分者一致性分析本质上都是为了提高工具的信度，题总相关、效度分析、拟合度分析、怀特图、因子载荷和项目特征曲线则是效度检验的证据，项目功能检验则为工具客观度的检验提供了参考。在此基础上形成结构良好的顶层设计方案可化繁为简、精简指标，有效提高分析的效率和科学性。

表1 工具质量检验核心要素的指标分类

3.2 测量理论的综合运用，达到优劣互补的良好效果经典测量理论和项目反应理论是当前测验理论的两大流派，经典测量理论操作方便、便于理解，但存在样本依赖、误差较大等问题，项目反应理论下的指标更为精确、参数之间相互独立，但不易理解且操作更为复杂、对样本和测试条件要求较为苛刻，因此两者各具优势，可为互补。在工具质量的检验中可综合应用2 种理论，筛选题目提供更多、更为全面的信息。此外，在分析中还可根据具体测试类型及测试特点偏重参考某一测量理论分析结果，例如在做试题质量分析时，CTT 和IRT 参数均能提供较多的有效信息，但若要做跨年度的测试结果分析，则建议重点选用IRT 理论做试题分析，辅助参考CTT 理论的项目分析参数，因为建立在CTT 理论上的数据指标与样本是相互依赖的，由此测试的结果缺乏稳定性，不利于开展跨年度结果比较的深入研究，而基于IRT 理论分析的量表可通过设置链接题对跨年度的数据进行追踪研究。此外，在做问卷质量分析时，基于IRT 理论的数据分析在效度的验证方面可提供更多的方法和参数，为问卷的信效度提供更多客观有效的信息，因此，问卷分析可更多参考IRT 参数以提高问卷质量。

3.3 各个指标的综合参考，充分考虑测验本身的特征和情境在工具质量的检验中，需注意综合参考各个指标。通常工具质量检验的指标如表2所示，参考时应根据测试目的、试题类型、样本情况等选取分析指标及决定指标参照的优先次序，例如在选择信度指标时，若涉及主观题的等级评分情况，则需考虑评分者一致性信度，若只有客观题则无需参考评分者的一致性。此外，某些指标的取值范围可有一定的浮动，例如项目拟合度（MNSQ）的取值范围与测试的要求有很大关系，若是高利害测试，取值范围较为严格，一般要求在0.7～1.3 之间，若非高利害测试，在0.5～1.5 之间也为可接受水平，工具开发者需根据被试情况及测试要求等实际情况选取适当的取值范围。另一方面，数据的解读也需参考具体的测试背景，例如很多指标与样本量有关，拟合度检验中近似误差均方根（RMESA）的大小就与样本量有关，当抽样较大时RMESA 值可能会偏高，因此，当数据结果不够理想可结合样本情况做具体分析，指标的解读不能教条地看数据，还需综合各个指标才能判断测试结果的信效度。

表2 工具质量检验的常用指标

4 结语

在对工具质量的检验分析时，深入理解各种测量学指标和方法，是灵活运用各种统计指标和方法的前提，在此基础之上需综合运用CTT 和IRT 测量理论，根据实际情况灵活选取分析指标，采用多种测量学指标和数据分析方法，以全面考察工具的质量，确保工具的科学性和有效性，才能为教育研究与实践提供客观准确的数据结果，进一步提高教育研究与实践的质量。与此同时，还需指出的是统计指标是试题修改的辅助工具，研究者除了综合参考各种统计指标外，试题的修改及删除与否还需参考试题设计的理论框架和测试蓝图等，结合测试目的才能最终确定试题的修改方向。工具质量评估的过程是一个不断寻找证据支持论证工具信效度和客观性的过程，除了侧重量化分析的测量学指标的运用，还需特别注意参照工具开发的测试目的及理论框架，这些均能为工具质量评估提供重要的证据支持，因此，要充分重视并综合运用这些信息，促进高质量工具的开发。