儿童认知能力测评综述

2013-04-11 19:15张梦雅

山西师大学报（社会科学版） 2013年4期

张梦雅

认知领域包括感觉、知觉、记忆、思维、语言、想象和执行功能等等。心理学家还得出高层次认知功能(如整合，综合，规划和组织)和最基础的“低层次”认知功能(如不同含义的程序信息)之间的区别。这些认知领域不是相互排斥的(记忆通常以语言的形式存储下来，推理可能会涉及视觉上的刺激)但是它们往往会通过使用不同的测试进行评估，所以便于分别将它们进行标注。还有一些心理变化过程像注意力的规则和目标的方向，这些是跨其他认知领域产生作用。

儿童天生具有智力方面的潜能，这需要一定的刺激环境才能完全体现出来。然而，儿童的认知能力可能需要特别不同的评估方法，特别是如果他们还处于未获得语言能力时期。成人和儿童认知结构之间的差别之一是人们认为构成认知根本原因的神经系统变化过程只适用于成人。虽然有关婴儿阶段这种表现程度存在多数分歧，但人们普遍的共识是，在其继续发展时，认知表现越来越模式化。认知范畴，就像大脑的各个区域，遵循着它们自己的发展轨迹。

一、受试语的选择

国外测试中可用的语言，多数为英语，因为研究人员不可能只将测试的一种源语言翻译成另一种语言，然后认定它们意思相等。即使一个简单的工作，比如就记忆中呈现的一列单一的词进行翻译可能会产生重大的差异，因为这些词在通常使用中意思都是不同的，并且它们的语义在整个语言中都是关联的。这种效应就是接受翻译工作的个人在实践中正在接受一种不同的测试。这会使其与以“母语”进行测试的其他研究做比较，可能会导致误导性的结果。用英式英语代替美式英语——将"biscuit"代替为"cookie"或将"flat"代替为"apartment"——在试验中不会产生差异。然而，两种语言和文化的差异越大，使用中就越要谨慎。当测试是非语言性质的就容易了，但是，即使那样，也可能得不到相同的测试结果。比如视觉素材会描述各种在不同的文化背景下不被了解的目的。试验者应该对关于结果测定方面的测试素材可能出现的影响时刻保持谨慎。关键是所有参与者都接受相同的测试。尽管如此，研究者必须注意到这种通过转换改变各种方法的可能性会影响测试的有效性。测试人员通常囊括欧洲的语言，从心里测量学的角度讲，这些语言中有恰当的译文。由于西班牙人口的规模，许多美式英语的测试中有西班牙译文。

二、影响测试的因素

测试是否标准是一个重要的考虑因素。标准化的测试具有反映特定人群指数的标准，因为测试的目的就是要获取这个标准;通常将一个组的平均表现能力指定10人或100人为一个指数，但不总是这样。特定人群指数越大越具有代表性;具有源自各个小组标准的测试在反映相关组中个人表现方面可能不可信。标准化测试的使用使我们可以就有关特定人群方面评估个别儿童的表现。

学龄儿童方面的各种测试通常既有以书面的形式也有以计算机呈现的形式进行。先前测试方法的变化很大，而且不依靠昂贵的设备或运用计算机进行测试，因此它们通常不稳定。两种测试类型就实验者来说是不同的，从完全自动化的测试再到每一个题目由研究人员呈现出的测试。后一种类型测试必须逐项实施，但是某些测试能够成组考虑。计算机形式通常对可能获取的可变因素的测量方法是更客观更合理的，如反应时间，但是它不适用于测试行为的详细观察。

决定测试选择的主要因素是参与测试者的年龄，测试测量的结果和实施测试的语言。实践中，测试选择同样常常受测试时间有效性的限制。

三、认知测试

1.记忆力。记忆力是指人记录，储存，保留，再记忆的过程，它是一个复杂的系统，由许多可能彼此不相关的要素构成。因此，综合评估记忆需要一系列的分测试。比如，我们可能使用语言素材来测定记忆力，使演示呈多样化以便既有视觉方面的刺激因素也有听觉方面的刺激因素，测试不同的再记忆模式比如回忆或识别，以及使素材的首次演示和随后的回忆之间的间隔呈多样化。

第一，多要素测试。综合记忆的成套测试不适用五岁以下的儿童。5岁及以上儿童有三种广泛使用的成套测试测定记忆功能:儿童记忆量表(CMS)，记忆和学习测试(TOMAL)以及记忆和学习的广泛评估(WRAML－2)。CMS分别在短期和长期延迟状况下采用了视觉的和语言的素材。评估了回忆，识别和记忆并阐述了学习和注意特征。为获取更全面的评估，对六个分测试的核心进行辅助分测试，以产生一系列的综合指数(例如，语言的即时反应，语言的延时，注意力或专注度)，及一个普遍的记忆指数。有许多表格测定了记忆不同方面之间的分离性在统计方面是否有其意义，比如，注意因素与记忆自身相比。CMS的一个有用的特性是它将记忆指数与韦氏量表的结果挂钩，以便我们可以了解记忆功能与智商期望值是否相一致。

与上述结构和目的方面所不同的是弗米德(Rivermead)行为记忆测验(RBMT－Ⅱ;RBMT－Ⅲ)，其用来评估与日常情景相关的记忆能力。它在生态学方面最有效，包括测定面容和对象识别的各分测试，有关将来各种行为的“预期的”记忆，一个路线和一个事件的回忆，两者都具有即时和延时的情况，还包括测定时间和地点的熟悉情况等各种内容。为了灵活实施，这个测试提供了两个方法:提供一个简单的方法来评估日常记忆问题广度的甄选指数，与给出一个更敏感测评方法的评分。所包含测试的这四种相似类型，可以准确测定出反复测试的变化量。针对11至15岁青少年的测试版本也可用来针对成人。儿童测试版本(RBMT－C)针对的是5－10岁的儿童。

第二，单要素测试。3岁以下3岁以下儿童的记忆很少采用对年龄较大的儿童进行的测评方式，对他们的测评方式常常用作其他目的。比如，Bus(小汽车)的故事告诉孩子一个故事，同时让他看一系列配有的图片然后让其再用图片作为提示讲述这个故事;该方法曾作为语言测试使用，虽然其明显具有一个大规模的记忆要素。视觉识别记忆的测试，比如上文提到的费根测试是作为整体认知能力的测评方法。像BSID和WPPSI的测试包含了测评记忆的一些内容。

5岁以上奥斯特里特测试 (RCFT)采用复杂的视觉素材来测定视觉空间能力和视觉空间记忆。它既适用于6岁的儿童也适用于成人。虽然该测试有各种研究版本和多种评分体系，但目前其可作为具有合理规范的商业测试。将该数字在首次出现时抄下来，然后要求孩子凭即时记忆和30分钟的延时记忆重新写出。这里同样还有一个识别测验，试验中孩子通过在正确和错误内容之间的选择，选择出之前已经看到的内容。RCFT测评了视觉空间建构能力(复制试验)和视觉空间记忆(即时和延时记忆，识别)。奥斯特里特复杂图形(DSS－ROCF)适用于年龄在5－14岁的儿童。它特别关注在发育环境中对表现行为的评估，并强调儿童绘画的定性方面诸如组织和风格。测定儿童表现的成熟度是某些研究的兴趣所在。

2.语言。在语言智商(VIQ)的评估中，语言和文字的处理过程起了关键性作用。然而，这些测试不是在评估语言自身而是反映了文字认识和文字推理。比如，让儿童依据智商词汇测试定义一个词，他可能会使用不通顺的语言但其中包含了正确信息的内容。由于文化差异的敏感性，最好采用适用于某个特定国家的测试。方言和语言专家应该能够为选择适合当地的素材提出建议。

第一，多要素测试。3岁以下麦克阿瑟－贝茨沟通发展量表是反应由父母完成的语言理解和表达的清单;他们获得的评分与语言专家使用的各种评估有高度关联性。沟通发展量表(CDI):词汇和手势(婴儿形式)、沟通发展量表(CDI):词汇和句子(幼童形式)分别对8到30个月的婴幼儿使用。CDI－Ⅲ向上延伸，适用评估30－37个月的儿童的语言技能。通常情况下，展示词汇清单，家长暗示儿童理解并能够表达的内容。对于年龄较大的儿童，存在有关手势的使用，文字的结合，儿童语言中的一定程度的语法复杂性的疑问，有关语义，语用和理解的疑问。

NEPSY语言范畴包括评估3－4岁儿童接受并表达语言的四个分测试。

3岁以上语言基本要素的临床评价(CELF第4版)是专用来测评多种语言成分的测试实例，它包括核心和补充的分测试。四个核心分测试就语言结构，语言内容，记忆以及理论记忆提供了一个总的语言指数和综合指数。辅助的测试测评了构成儿童语言的技能和行为:语音意识，快速自动命名，数字广度，序列，词语相关性和记忆。

第二，单要素测试。3岁以上使用最广泛的评估语言的单一测试是美国皮博迪图片词汇测验(Peabody Picture Vocabulary Test);其在英国的名称叫做the British Picture Vocabulary Scale(BPVS－Ⅱ)。这是语言接收的一种快捷的测评方法，它测评儿童的词汇量。出示图片，一页四张，儿童必须指出一张配以口头词汇的图片;不需要儿童读出，写出或说出。刺激内容从具体到抽象。它不测评语言的表达，而是常常用来评估整体的词汇能力(分测试和综合智商之间的高度相关性是词汇)。

The Test for Reception Of Grammar(TROG－2)考查对20个英语语法概念的理解，它使用一张有多项选择模式的图片，每个四次。儿童指出由测试者配有口语短语或句子的图片，像BPVS－Ⅱ，因此这是语言接受的一种测评方法，但其复杂程度比起单个词汇认知大多了。

用来测评语言表达的最常用的方法是实施举例测试，采用单一的测试。给孩子展示一连串的实物图片，通常顺序错乱，接着孩子要正确的标出该物体。这一领域里除了the Word Finding Vocabulary Test典型之外，没有一个测试有优势。对于3－8岁的儿童来说，最复杂的语言表达通常是由the Bus Story Test评估的。正如上述所说，告诉孩子一个故事同时使其看搭配的图片，然后让他复述这个故事。在复述中连续表达的年龄层次能够通过信息内容，句子长度和语法的使用判定。查阅诸如Taskmaster的教育资料可找到许多语言测试。

3.注意力。“注意力”一词是指选择并关注展示在面前的刺激物的特定能力，包括内在和外在两种能力。像其他认知领域一样，注意力是复杂现行的研究，它表明该领域中的不同功能由不同的神经系统组织所支持。通常，注意力的相关要素是集中、保持、转移或类似概念，但使用不同名称，如察觉、警觉和定位。这些测试应该测评听觉感知特性和视觉感知特性两个层次的注意力。

第一，多要素测试。目前没有针对6岁以下儿童使用的注意力成套测试。6岁以上Everyday Attention for Children的测试(TEA－Ch)测评的范围主要是注意力和接受力，包含九个分测试。它们测评的是儿童有选择的参与的能力，保持注意力的能力，不同事物之间注意力分配的能力，改变注意力的能力，和约束语言和动作反应的能力。测试中要同时使用听觉和视觉刺激物。TEA－Ch适宜6－16岁的儿童，对男孩和女孩有各自的使用规则。

第二，单要素测试。4岁以上 Conners＇Continuous Performance Test(CPTⅡ，版本5)是注意力测试，其广泛用在对6岁及以上儿童的ADHD研究和临床测评中，易于操作。从对计算机屏幕上的目标文字的反应就可能提供某方面能力不足的相关信息。比如，某种反应模式显示注意力不集中或莽撞的类型，而其他的则可能表明行为问题或难以保持警觉。该测试仅通过计算机实行。对于4到5岁的儿童来说，Kiddie version(K－CPT)使用同样基本范例，但配以的是实物图片而非词语。7分钟就可实施完毕。同样由计算机实施的相似测试是Test of Variables of Attentin，其针对的是4到80岁的人群，一般他有大量的实施规则，还有临床测验，特定人群。该测试的一个优势是它有两个版本，一个视觉的和另一个听觉的;其实施所花费的时间更长(25到30分钟)，但提供的信息会更多。注意力方面的非语言测试通常可以用于任何国家。

4.执行能力。执行能力在认知行为中的重要性早已为人们所知。人们会将其作为与儿童独立的，有目标的行为能力相关的最佳认知技能。具有良好执行能力的儿童会展示智力的灵活性，能够形成并保持自己的一套习惯，规划并自我监督，能够抑制莽撞的行为反应，还展示出抽象推理，概念形成和规范学习的能力。虽然有某些实验性程序用来衡量幼儿解决问题的能力，但我们认为全面的执行能力仅在童年后期发展，并会随着额叶髓鞘发展持续到青少年期。可以使用两个量表评估2－18岁的孩子在学校和家中各种执行功能。The Behavioral Rating of Executive Function－Preschool(BRIEF－P)针对的是2－5岁11个月的幼儿，BRIEF针对的是5－18岁的儿童。父母，老师甚至保姆都可以根据孩子的年龄完成这些量表。

第一，多要素测试。7岁及以上 The Behavioral Assessment of the Dysexecutive Syndrome in Children(BADS－C)最近成为一套评定年龄在7－16岁儿童的执行能力的测试。

其分测试评估下列功能:非灵活性和持续重复某一行为;新奇问题的解决;冲动性;计划能力;使用反馈信息的能力并相应的克制自我的行为。

对于分测试和各种素材，大部分儿童都感到新颖并且有趣。6个分测试中的每一个测试都能得出了一个年龄范围的指数，综合后形成一个总的范围指数，再从差到优将综合指数分成六个等级。还有一份含有20项内容的调查表:Dysexecutive Questionnaire for Children(DEX－C)，由父母或者常和该儿童接触的老师来完成。这些分测试可以独立完成，该测试的优势在于对不同功能的评估和分析。

第二，单个要素测试。衡量执行能力(其中一个方面)最普遍的方式之一就是采用一种词汇熟练度测试。在该测试中，要求在较短时间内(30－60分钟)说出尽可能多的不同的词汇，当然要遵循特定的规则。通常，要求儿童说出始于某首字母的词汇，不能重复。我们将其作为执行能力的一种测试，因为它涵盖许多不同的认知过程，而这些过程在执行功能障碍中被混淆了。比如，儿童必须使用一种策略从词汇本身找出内容，同时不能做出不相关的回答，或使用除该策略以外的词汇或者重复一种活动来破坏规则。有许多测试词汇熟练度的版本——NEPSY中的一个分测试是一个非常有用的版本:3至12岁的儿童适宜在语义环境下进行测试，而音系条件仅用于7岁及以上的儿童。

The Children＇s Color Trails Test(CCTT)适宜年龄在 8 到16岁的孩子，其测评的是持续性的注意力，顺序的安排，和执行能力的其他方面。儿童必须通过在它们的特殊顺序之间划线将纸张上零散的刺激物联系起来。其在任何语言环境中都适用，因为该刺激物是非文字的并且可以利用视觉指导，而且操作时间很短(5－7分钟)。

对于之前讨论的各种原因，认知功能各项测试不可能是100%的可靠。同时，影响作用大小的问题还与有关研究的策划的样本量的决策有关。虽然目前常见做法是执行统计功效运算的方法来评估以表明统计显著效果的最低样本量，但如果获得统计学意义是唯一标准，这会造成大量样本的过度使用。最小样本足以测出实际使用中的意义差异。

西方国家对儿童认知能力的测评比较成熟和系统化，本文介绍了各种各样的测试，采用认知测试的各层次评估的方法，会有助于我国研究人员为其研究选择合理的测试。

［1］Armitage P，Berry G，Matthews JNS.Statistical Methods in Medical Research.Oxford，2002.

［2］Kallus KW，Darlow BA，Mogridge N.Attention，psychomotor functions and age.Eur J Nutr，2005，44.

［3］Kressley RA，Knopf M.A comparison of between－ and within－subjects imitation designs.Infant Behaves 2006，29.

［4］Lezak MD，Howieson DB，Loring DW，Hannay HJ，Fischer JS.Neuros－psychological Assessment.New York/Oxford，2004.

［5］Nettlebeck T.Correlation between inspection time and psychometric abilities:apersonal interpretation.Intelligence 2001，29.

［6］Toga AW，Thompson PM，Wowell ER.Mapping brain maturation.Trends Neurosci，2006，29.