提高大规模教育测评效果的途径之一:简化测评工具

2014-08-08 17:52谢敏刘娟

心理技术与应用 2014年2期

关键词：敏感度

谢敏++++刘娟

摘要：在大规模教育测评中，经常会遇到测评内容的全面性与测评时间过长影响学生测评结果之间的矛盾，本文尝试从简化工具入手，选择有代表性的、敏感度高的题目来达到测评目标。

关键词：大规模教育测评；工具简化；敏感度

一、问题提出

在大规模的教育测评中，经常会遇到以下问题，导致测评效果受到严重影响。

1.为全面考察学生、教师和学校发展状况，在大规模教育测评中，往往要求同时测评较多的内容，以全方位对区域整体教育质量状况进行评估。例如，对学生的评估中经常少不了对学业成就的测评、对社会性发展（含情绪情感、行为、自我、价值观等）的考察、对家庭环境的了解等，这些内容都需要由学生来进行作答，这样每个学生的测评内容就会很多。

2.测评内容多也就意味着一个学生要完成测评的时间长。尤其是在社会性发展方面，涉及到情绪情感、亲社会行为、不良行为、自我、价值观等方方面面的内容，且多是量表类的题目，考察学生在各方面的表现和感受。虽然对某个方面来说题量并不多，但将方方面面的内容放在一起的时候，题量就大了。为满足区域测评需求，基本上社会性发展问卷的测试时间都在60~80分钟，包括几百道题，而且各个题目之间没有太多的起伏，均要求学生根据真实情况作答，这对于学生来说是个不小的负担。不少的学生坚持不下来，大部分学生在二十分钟之后就会感到疲劳和不耐烦，开始随意答、绕花答、不看题目统一选一个选项，甚至干脆不作答。例如，我们在两个区进行测评都发现，测评二十分钟后，已有近20%的学生开始乱答。导致大家辛苦收集上来的数据实际上是不真实、不可靠的，提供不了准确的信息。

3.测评内容多却不意味着每一个结果都能充分展开分析，造成资源浪费。最终报告使用数据时，是有侧重的，并不是每一个变量都展开来进行深入分析，有的变量只作为关联变量使用，但测评的时候却有几十道题，这样不仅花费了大量时间作答，造成学生疲劳，影响作答效果，还浪费了很多成本，如题本印刷、运输、数据录入和清理等，消耗了大量人力、金钱和时间。

鉴于上述问题，为了在保证测评内容的全面性，达到测评目标的同时，提高测评效果，节约成本，我们在努力思考有什么办法可以很好地解决这个问题。

二、解决办法

上述情况若是从成本各环节再节约，从作答环节再激发学生作答热情，效果都会是有限的。工具作为整个测评过程中的核心内容，应从其本身入手解决这个问题。我们有如下思考：一方面，在确定测评目标和测评内容时，应考虑细致，明确哪些因素是要重点分析的，哪些因素是要做关联分析的，做到每个因素都有“用武之地”，而不一味地贪多求全。另一方面，对于经常作为关联变量使用的和可作为关联变量使用的工具进行简化，可分为两种情况：

一是挑选敏感度高的题目，作为在某方面的典型表现进行分析。这一分析至少包含下面几项内容：题总相关、因子载荷、选项分析、专家判断或典型被试判断题目对主题内涵的代表性。

1.首先要保证题目所代表的行为表现或感受能较好地、直观地反映该方面的内涵。常用的方法是专家判断（专家团队最好能包含领域专家、教育学专家、测量学专家等）或是典型被试口头报告作答思考过程，可以用评分或评定等级的方式，把需要简化的各题目对主题内涵的代表性进行排序。

2.选项分布应较为合适。计算各题各选项的人数百分比，看是否有人数分布很偏的情况，选项分布可以说明这道题所代表的行为表现或感受在学生中是否常见。若人数分布集中在某1~2个选项上，则说明在这道题上获得的信息是很少的，对于评价来说就失去意义了。

3.区分度应较高。对于分布偏正态的内容可使用鉴别力指数D值来计算区分度，选择D值至少在0.3以上的题目，对于分布偏态的内容可使用题总相关来作为区分度指标，选择r值至少在0.6以上的题目。

4.因子载荷应较高。通过Mplus等软件进行验证性因素分析，根据拟合指数等各项指标的结果，选择因子载荷至少在0.5以上的题目。因子载荷值从测量学的角度说明了该题对整个维度（主题内涵）的反映程度。

二是制订简版工具（Smith等，2000；Taylor等，2002）。制订简版工具的要求非常严格，在上述分析的基础之上，还需要至少包含以下内容：简版与完整版之间的相关程度及简版与剩余题目之间的相关程度（如相关不高需重新挑题）、简版量表的内部一致性、简版量表的题总相关、挑选效标资料分析简版量表的区分效度和同时效度（在条件允许的情况下可分析重测信度）。只有当上述指标达到统计学要求时方能建立简版工具，简版工具与完整版工具的理论假设、维度结构等需保持一致，仅在题量上进行了缩减。

制订简版工具需要有更专业、更复杂的工作，这一工作尚未完成。作为尝试，本文要重点讲述的是第一种简化测评工具的方法和结果。

三、分析过程

1.修订内容

考虑到“中国6~15岁儿童青少年心理发育特征调查”项目中有全国代表性的样本且项目成果要进行推广，以及近几年来一线测评工作需求，本次进行简化的内容选择“中国6~15岁儿童青少年心理发育特征调查”项目的社会性题本，涵盖五个方面，分别是情绪、行为、自我、价值观和社会信念，各方面主要包含的内容如下：

模块

测评内容

情绪

生活满意度、孤独感、焦虑

行为

亲社会行为、攻击行为、校园被欺负行为、网络成瘾倾向

自我

自我认识、自尊、自信、自制力

价值观

金钱观、环境保护、国家认同、权力观、学习观、集体主义

社会信念

公正世界信念、积极社会信念

2.数据来源

数据主要来源于两方面：一是“中国6~15岁儿童青少年心理发育特征调查”项目的4~9年级学生的全国代表性数据库，二是北京师范大学脑与认知科学研究院心理与学习评价中心近两年来的几个区域测评数据。考虑到数据的全国代表性、区域数据不完全包括上述五方面的内容且不包括所有4~9年级，两方面的数据以“中国6~15岁儿童青少年心理发育特征调查”项目为主，心理与学习评价中心的数据结果作为辅助和验证。

3.分析方法

首先，通过查阅五个方面最近几年的最新研究成果，明确“中国6~15岁儿童青少年心理发育特征调查”项目社会性题本在这七个方面的内容仍较为前沿。

其次，重点进行了数据分析。分成三个阶段进行：

第一阶段是进行年级差异的分析，考虑到样本量较大，确定差异是否显著是以效应值>0.2为标准的，有差异的年级分开计算，没有差异的年级合并计算。

第二阶段是对上述五个方面的内容进行选项分析、区分度分析、题总相关分析、一致性分析和验证性因素分析，根据各题的内容和统计结果挑选内容合适、敏感度高的

题目。

第三阶段是对挑选出来的题目进行统计计算，包括一致性分析、对原工具的解释率、与原工具的年级发展趋势的一致程度等。

4.挑选结果

以焦虑量表和孤独感量表为例。

焦虑量表有28道题，包含生理焦虑、对人不安/恐惧、担忧/过度敏感三个维度，经过第二阶段统计计算后，发现在生理焦虑和对人不安/恐惧两个维度上区分度较高且因子载荷较高的题目是：“我总是感到不舒服。”“就算与别人在一起，我仍感到孤独。”“别的孩子比我幸福。”“我很难把心思放在功课上。”我们认为，这四道题目所代表的行为表现和感受不能很好地说明是否焦虑，因为还存在其他可能引发这四种表现的因素，而且，纵观这两个维度上的所有题，均有这方面的情况。因此，我们把挑题的重点放在担忧/过度敏感维度上，在这个维度上，挑选出来较为合适的有五道题：“我很多时候都在担心。”“我感到紧张。”“我害怕很多事情。”“我时常担心糟糕的事情会落到我头上。”“我担心将来会发生什么。”区域数据也支持这一选择。这五道题的一致性系数为0.693，对原量表的解释率为67%。在四个区域的初二年级学生数据中，这五道题的一致性系数在0.76~0.84之间，对原量表的解释率在71.2%~79.9%之间。这五道题的年级发展趋势与原量表的对比如下，挑选后的五道题计算得到的年级发展趋势更具合理性。

孤独感量表有16道题，为单维度。经过统计计算和内容选择，挑选出了六道题：“没有人跟我玩。”“没有人跟我一块说话。”“我很难交朋友。”“在我需要帮助时，我找不到人来帮我。”“我感到寂寞。”“我觉得孤单。”区域数据也支持这一选择。这六道题的一致性系数为0.839，对原量表的解释率为83.6%。三个区域的初二年级学生数据中，这六道题的一致性系数在0.84~0.93之间，对原量表的解释率在82.5%~83.9%之间。这六道题的年级发展趋势与原量表的对比如下：

在所有5个方面19项内容中，挑题后的一致性系数在0.54~0.84之间，对原工具的解释率在53%~94%之间，总体较好。挑题前这五个方面的总题量为215道，挑题后是70~75道，这些题对各项内容的内涵有较好的反映，且区分度、因子载荷均较高。若同时进行测试，测试时间将大大节省。

在这19项内容中，校园欺负行为、自制力、公正世界信念在小学和初中有不同的表现，分为小学和初中两个版本；自尊、自信、国家认同和环境保护在4~5年级、6~9年级的表现有所不同，分为4~5年级、6~9年级两个版本。

四、结论与讨论

可见，经过挑选之后的题目对原工具仍有较好的代表性，可以满足测评所需，对提高大规模教育测评的效果有较好的促进作用。第一，节省了测评时间，减少了被试疲劳和不耐烦情绪，提高了获得真实、客观数据的可能性；第二，节约了成本，题本印刷、数据录入等成本都会因题量的减少而降低；第三，提高了结果报告的时效性，因各题的测量目标明确且敏感度高，数据清理、数据分析等过程的时长减少且正确率提高，节省了中间过程的时间，也就为出具结果报告节省了时间，测评结果能更快地得到反馈，这就提高了结果报告的时效性，这对教育一线开展工作来说是非常重要的。

后续我们拟根据本次挑题的结果再次分析各项工具制订简版工具的可能性，并通过一系列的统计计算和专家论证工作，制订可能的简版工具。

不同的工具形式、工具内容可以有不同的处理方法，本文是其中的一种尝试。挑题之后并不代表原工具就可以不用了，使用哪个版本的工具需要根据测评目的来定，当我们要重点分析该方面的表现时，我们需要使用完整工具，当我们只是将该方面作为关联变量或简单的现状调查时，可使用简化的工具。

注：本文得到“中国6~15岁儿童青少年心理发育特征调查”项目办公室支持。本文得到成都市锦江区“建立教育质量评价监测体系，促进区域教育质量全面提升”项目、“沈阳市教育质量监测与评估”项目和杭州市上城区“基于学生发展的区域教育质量提升”项目的数据支持。

［1］Joanne Taylor, Frank P Deane. Development of a short form of the test anxiety inventory［J］. The Journal of General Psychology, 2002, 129(2),127-136.

［2］Jeffery M Stanton, Evan F Sinar, William K Balzer, Patricia C Smith. Issues and strategies for reducing the length of self-report scales［J］. Personnel Psychology, 2002,55,167-194.

栏目编辑 / 任玉丹.终校 / 黄才玲