标准参照评估的行动实践
——以香港中文大学通识教育基础课程为案例

2021-09-18 10:26王永雄彭金满
复旦教育论坛 2021年4期
关键词:通识量表评估

廖 梁,王永雄,彭金满

(香港中文大学大学通识教育部,香港特别行政区新界沙田)

一、引言

如何评定学生学业表现是高等教育质量评估的重要组成部分。西方国家高校通常实行标准参照评估,教师进行作业评定时需依据评分量表,校方则根据评分量表中标准的描述对评分结果进行检视以确保评估质量。在我国香港地区,2015年之前各高校实行常模参照评估,2015年之后则改为标准参照评估。香港质素保证局指出,标准参照评估是学习成果取向(outcome-based approach)的一部分[1],它为检视学生学业表现提供证据,从而能更好地实现高等教育评估的质量监督[2]。在我国,大学生学业评估并不纯然依照常模参照或是标准参照的做法:有些学校教师评分权较大,学校干涉较少;有些学校则会偏向常模参照,对某几个分数区间(如高分区)的百分比做出一定限制。但总体而言,标准参照评估在我国内地高校实施较少。本文旨在通过介绍标准参照评估的理念,透视其对促进教与学的作用,并以香港中文大学通识教育基础课程实施标准参照评估的经验为案例,剖析这种评估方式在设计、实施和改进方面的具体问题、困难和可能的解决方法,以期与同行一起讨论如何在院系开展和实施这项评估。

二、标准参照评估概念溯源

标准参照评估最早由格拉泽(R.Glaser)于1963年提出。针对当时学业评估主要采取常模参照的方式,即根据在正态分布中的相对位置确定学业成绩高低,格拉泽指出这种评估方式并不能清楚反映学生获得了哪些能力的发展[3]。格拉泽师从行为主义大师斯金纳(B.F.Skinner),倡导程序性教学(programmed instruction),其核心理念是根据学生的学习状况调整教学[4]。格拉泽指出,学生掌握哪些知识和技能是构成有效教学的必要条件[3]。与常模参照评估并存的另一种评估方式是标准参照评估。它将学生的学业成就具体化为行为表现,以此作为教学目标和评估标准,目的在于了解学生的学习状况。同时期布鲁姆(B.S.Bloom)也提出与程序性教学理念相似的掌握式学习(mastery learning),强调评估结果反馈对于学习的重要作用[5]。标准参照评估的提出是基于提升学生学习效果之背景,教育者意识到依靠教学单方面的改进并不足以促进学生学习,还需要借助评估为教学提供有意义的反馈。评估并不是与教学活动相割裂的独立实践,而是教与学的一部分,评估的最终目的不在于给学生一个等级或者分数,而是让他们清楚自己的能力表现,进而建立起对学习过程的元认知(meta-cognition)和自我调节(self-regulating)[6]。

标准参照评估从20世纪70年代开始在美国受到关注和热议,一开始的焦点放在基础教育领域,由于其评估目标清晰外显化更能满足专业教育的需求,到了20世纪80年代这种评估模式便在西方高校流行并逐渐普及[7]。20世纪70-80年代它以行为主义为理论基础,通过捕捉和描述学生外显化的行为表现并以此作为评估标准。到了20世纪90年代,这种以行为表现为基准衡量学生学习成果的评估方式受到挑战,例如:评估标准是否能完整描述学生学习成果[8]?评估标准是否能被教师准确理解和使用[9]?这些质疑归根结底是对以实证主义为逻辑的评估取向的否定,这种评估取向以目标-结果为本,忽视了评估本身以及评估过程的复杂性[8,10-11]。因此,20世纪90年代的标准参照评估在理念上发生一定的改变,从只关注评估结果转向了对评估过程的关注。虽然仍然根据标准来判定学生学业表现,但此时则重新审视了评估标准的权威性,不一味强调评估标准的准确使用,而是关注教师在使用标准过程中的默会知识(tacit knowledge),及其对评估结果的影响[11-12]。另外一个强调重点则是鼓励学生参与评估,而不是仅仅将评估视为考核学生的手段[13-14]。鼓励学生参与评估的关键在于教师向学生阐释评估标准的内涵,并就如何达至评估标准的要求与学生一起沟通交流。除成绩结果外,教师还需基于评估标准向学生提供学业表现的质化评语[8],此外也应鼓励学生适时开展自评(self-assessment)和同侪评估(peer assessment)[13]。

标准参照评估于20世纪90年代初引进国内,除了概念的介绍,讨论主要集中于测试中的技术设置问题,例如选题的效度、难度、区分度、分界线设置、选择合适标准等[15-18]。也有学者讨论了高考中常模参照与标准参照的双重特征,以便将两者更好地结合起来[19]。需注意的是,技术讨论大多只适合于单项或者多项选择题这类考核题型,而大学生学业考核任务则更多是写作、项目、实物、模型展示等开放形式,这就需要将关注点放在评估标准的选择和设定、如何依据评估标准评分、如何基于评估标准为学生提供反馈这些问题上。

三、标准参照评估实施的行动研究

(一)研究设计

1.研究背景

香港中文大学自2018年秋季学期开始,全校各院系全部实施标准参照评估。在此之前,香港中文大学采取常模参照评估方式,学校对学业成绩等级(A等、B等、C等……))的比例做出了一定的规定,例如拿到A等级的学生一般不应超过该班级学生人数的30%,这种评估方式又被称为根据分数分布曲线而评分[20-21]。从政策上对等级人数进行限制可以防止教师任意评高分的情况,但由于成绩评定是与其他同学对照的结果,学生成绩有时并不反映其真实学业表现[22]。

常模参照评估的另一个隐忧是评估标准的缺失和边缘化。采取常模参照评估通常无须出示评估标准,尽管一部分教师会在评估过程中列出评估标准,但在实际评分中,教师通过“比较原则”和“等级约束”便可评分,学校根据“等级约束”监督评分结果,无任何一方需要对评估结果是否真正反映评估标准追加问责。如果使用标准参照评估,一方面问责学业评估质量的“证据”将清晰公示,另一方面也可实现以评促学——明晰的评估标准有助于学生对自我学习能力做出评估,评估反馈则能帮助学生检视自身学习程度。从理念而言,标准参照评估不失为一种较理想的实现教评相互促进的方式。然而在现实中,由一种固定的评估方式转向一种全新的评估方式并非易事。对于如何设计和实施这种新评估,大学缺乏具体的指导。香港中文大学鼓励各院系根据学科自身特征,自行探索和确立适合课程要求的标准参照评估,但这无疑增加了一种不确定性——院系缺乏实施新评估的经验,教师则对评估结果是否“合理”表示担心。

2.案例选择

本文选择香港中文大学通识基础课程的评估实践为研究案例,是基于以下考虑:从标准参照评估本身的特征来看,由于这种评估方式是在每门课程的要求和内容基础上发展出评估标准,评估的“学科特质”决定评估标准的研发主要从学系层面开展。香港中文大学通识教育部承担全校本科生两门必修通识教育基础课程①——“与人文对话”和“与自然对话”的教学工作,目前拥有全职教师28名,从教学规模而言与学系相当。相对于专业学系更广泛复杂的课程设置,这两门基础课程无论从课程设计、教学目标还是学业考核形式上均很相似——它们都以研习中外经典为主旨,教学方式以小组讨论为主、教师授课为辅,对学生学业的考核则强调写作能力和课堂讨论。课程有三种考核任务:写作,包括反思日记和学期论文;课堂讨论,包括小组讨论和个人论述;课堂小测。其中,写作所占比重最大,“与人文对话”写作考核占总成绩的60%,“与自然对话”则为50%。选择这两门课程的评估实践为研究对象,有利于深入了解一种新的评估方式需经过怎样的设计、实施,最后得以真正落实。与此同时,两门课程所涉及的教师较多,这可以更全面反映不同教师在评估实施过程中的观点、决策以及与标准参照评估的互动。

3.研究问题

任何一个新的教育政策或者教学理念,将其精神充分付诸实践并非简单自发的过程。首先,政策制定和政策实施属于不同利益相关者,从政策理念到行动实施中间存在“真空地带”[23];其次,教师面临从已经习惯的评估方式转变到一种全新的评估方式,要教师改变评估习惯,这同样充满挑战[24]。研究通过对标准参照评估实施过程的考察,以教师共同体研究、学习、实践新评估的整个行动过程为研究对象,探究令标准参照评估得以落实的程序和条件,以填补从评估理念到评估实践中的“真空地带”。具体的研究问题包括:

(1)标准参照评估的实施包括哪些步骤,每个步骤的准备和结果如何?

(2)这些步骤如何互动以促进标准参照评估更好地在实践中落实?

4.研究方法

由于研究以一项新评估的实施全过程为研究对象,研究结论基于特定的实践活动,故采取行动研究的方法。笔者作为通识教育部标准参照评估开发设计小组的成员,参与了标准参照评估从设计、实施到反思与再规划的全部环节。研究将采取自我审视、观察、实证和反思的方法,探究整个实施过程中研究者自身和教师的行动以及互动内容。根据勒温(K.Lewin)提出的“螺旋式”行动研究程序[25-26],研究将实施过程分为计划、行动、对行动进行实证调查、反思与再计划这样四个步骤,具体而言包括:标准参照评估设计,新评估的“落地”,对评估实施效果收集实证资料,对评估结果的集体讨论和再规划。根据行动研究“从实践中产生理论”以及“通过慎思的行动对理论加以解释和补充”的特点[27-28],研究对每一个步骤的具体内容、背后理据、行动结果进行梳理,以找出行动对实施的作用,同时对行动结果进行反思,以探究落实标准参照评估的条件。

(二)标准参照评估的设计与实施过程

1.标准参照评估设计

评估设计由工作小组完成,小组成员由通识基础课程署理主任和副主任、四名通识教育基础课程教师和一名研究员组成。工作小组通过文献调研明白,要实施标准参照评估,首先需要向教师提供评分量表(grading rubric)。因此,设计和编写评分量表成为该步骤的重心。而编写评分量表,关键则是确立并描述评估标准。评估标准的确立需基于一定的教育价值理念[29]。工作小组在标准选择时采取学习成果取向,以预期学习成果③作为产生评估标准的来源。工作小组将学习成果覆盖的内容转化为具体的能力要求,再结合不同考核任务的特征和目标,衡量每项考核需要覆盖哪些能力要求。以“与自然对话”写作考核为例,学习成果包括五大能力要求,其中理解能力、评估能力、知识应用能力和个人反思能力均可以通过写作加以考核,因此纳入写作考核的评估指标。又根据写作注重语言和修辞的特征,写作考核就形成了两个大的评估指标:高阶思维能力、语言表达和文体风格,其中高阶思维能力发展出理解、评估与整合、知识应用、有效结论、个人见解与反思这五个子指标。

确立了评估指标之后,另一个核心任务便是对各等级的具体特征做标准描述。无论是文献调研还是具体的设计实践,均发现等级标准描述的“尺度”是最难以把握的。描述过于笼统,容易忽略学生的某些能力表现;过于烦琐,则容易令评分变得机械化。正如萨德勒(D.R.Sadler)所言,“有些评估标准根本无法表达,所有试图对其作出解释的语言怎么组织都显得不够准确,而有些则只可意会”[30]170。如何呈现出既相对全面、准确,又比较简洁、易做判断的标准描述则成为编写评分量表最具挑战性的任务。工作小组在编写标准描述的时候,遵循的原则有二:一是评估指标反映了什么能力?这些能力在具体情境中的表现包括哪些?二是在不同等级描述时,从学生展现这些能力的频率和程度上加以区分。以下摘选高阶思维中两条子指标以及语言表达其中一条子指标的描述加以说明(见表1)。

表1 通识教育基础课程“与自然对话”写作能力评分量表(摘选)

标准描述完成之后,接下来是对各指标权重进行赋值以及确定各等级分数区间。关于标准参照评估中的等级分数设定,20世纪70年代曾经展开过较多理论上的讨论[31-32],但在实际的做法中,通常沿用“传统惯例”,很少从理论层面解释分数区间的确定过程。有学者指出在确定指标权重和等级分数方面,很多时候是一种缺乏统计理论支持的“主观行为”[33-34]。在确定等级分数区间过程中,工作小组历经了几次修改,最后决定沿用香港中文大学常模参照时期的分数分布指引②。权重赋予同样难以找到充足的理论解释。比如,何为“最佳权重”就值得商榷:是指权重的分配使得最终的分数分布最接近正态分布,还是指它最能够反映学生真实水平?最后工作小组采取的是借助教师的专业经验来确定指标权重。例如,“与人文对话”写作评分量表,高阶思维能力指标占写作成绩的70%,语言与文体占30%;“与自然对话”的比例则分别为75%和25%。

2.评估理念的落地

评估理念的落地是指教师学习和了解标准参照评估的理念和要求。这一过程对于教师如何将新的评估要求内化并转化为相应的评估行为十分关键。诸多研究显示采取由上至下的政策传导方式,忽视与实践者的沟通,将导致政策实施的失败[35-37]。因此在这一步骤中,工作小组采取了对话沟通的方式,邀请所有教师参加关于标准参照评估的讨论。会议由一名工作小组成员主持和汇报,所有小组成员均参与提问环节,另有一名工作小组成员担当观察员,观察和记录教师之间的互动以及现场问题。

讨论的第一个重点是标准参照评估背后的理念,目的在于让教师了解评估标准确立的原则、评估标准与课程目标的关系,以及通过制定恰当的评估标准从而实现课程、教学、评估三者的整合和统一。第二个重点是评分量表的使用。这部分的互动比较活跃,反映出相较于评估的概念和理念,教师更为关心如何在实践中运用它。互动的问题集中在对等级描述的把握以及如何评分两个方面。

3.实证资料收集与评分量表的完善

通过会议观察研究者发现,教师对于标准参照评估以及评分量表的使用有自己个人的看法,这些看法无法通过会议互动洞悉详尽,要深入了解教师是否内化了标准参照的理念,又会如何在实践中运用,则有必要收集教师的个人意见。个人意见分为三个部分:会议提问、会后在公众平台的交流以及教师自愿参与的个人访谈。其中,访谈是了解教师内化、理解和应用标准参照评估的主要资料来源,会议提问以及会后交流则作为辅助资料。

研究分别对7名教师进行了时长约为1.5小时的访谈。访谈结果与会议观察达到了某种一致:教师对标准参照评估的理念均有一定的把握,此部分未显示出大的差异;但对于评分量表的理解、阐释和运用,则体现出较大的个体差异。不同教师对每个等级标准含义的把握不同,对评估标准中能力表现的阐释也各异:有的教师在评分时只会使用一部分自己认为比较重要的评估标准,或者对各条标准的重要程度做排序,以确定评分的松紧程度;也有的教师指出反思日记和学期论文在考核要求上不尽相同,使用同样标准的评分量表并不恰当。有的教师会与学生共同讨论评分量表的内容以及评分细则,并会将评分量表中的表现反馈给学生;而有的教师则表示无需将评分量表反馈给学生或者就评分量表与学生共同讨论。在如何评分方面,教师受到了评分习惯的影响,例如,沿用旧的量表进行评分,不自觉受到“等级约束”和“分数分布”等常模评分习惯的影响,采取自己熟悉的分数区间。

访谈中所发现的问题有些在实施中及时进行了调整,例如:修改了量表中的用词,使之表述更为准确;和教师一道讨论了是否需为反思日记和学期论文准备不同的评估量表。另外一些问题则难以即时做出调整,例如教师对标准的自我阐释、教师对不同评估标准重要程度的认知以及评分习惯,这些属于教师的默会知识[13],它体现个人特质[38-39]。这些问题本身也是标准参照评估中的困境——一方面很难对教师的个人评分做强制性的规定,另一方面这种个人判断又常常造成即使面对相同的评估标准,评估结果也会存在差异[40-41],差异过大则影响评估信度[42-43]。

4.对评估结果的集体讨论和再规划

实施行动的最后一步是基于前述实施行动进行集体讨论。在前三步行动实践中,实施评估的主要问题是:标准参照的初衷在于通过设立外在标准以约束评分的“任意性”,但由于教师在评分过程中不仅只是参照外部评估标准,也会依据内在的默会知识作出判断,教师在多大程度上运用评估标准是未知的。因此在这一环节,我们将焦点放在面对同样的评估标准,教师之间是否存在判断差异,以及差异存在的原因。参加讨论的教师需要共同评定四篇范文,结果显示有一篇文章的评分差距在两个等级(A-至B),有两篇文章的评分相差三个等级(B-至C-、A至B),有一篇文章的评分相差五个等级(A-至C-)。评分结果与布劳森的一项研究结果相似[40],该研究揭示评分结果存在较大差异。通过集体讨论和教师发言,研究发现造成差异的部分原因是有些教师对于评估标准的使用并不充分,即他们在实际评分中并不会采取逐条比对标准的方式做出判断,往往是因为某一条标准的异常表现而给出高分或者低分。

评分结果差异揭示了教师评分的复杂性,这种复杂性在于评分是基于教师的自身经验、资历、学科背景、教学价值观、对学生的看法等各种背景下所作出的判断,这些默会知识的存在导致不同教师对评估标准有不同的使用[30,40]。教师对评分结果的差异则看法不一:有的教师认为存在差异很正常,应该保留教师的评分自主权;有的教师则认为如果评分差异过大,意味着评估标准并没有发挥其应有的作用。如何看待评分过程中的判断差异以及结果差异,成为实施行动中产生的新问题。

四、标准参照评估实施行动反思及模型

(一)对整个实施行动的反思

1.设计阶段的审视与反思

如何设计新评估并令其顺利开展可以从两个方面进行反思:一是由谁来设计?通识教育部的做法是选择部分教师以及研究员构成工作小组,这样做的益处是保证了设计阶段的效率。然而工作小组毕竟不能代表所有教师的意见,实证分析结果则揭示教师对于“外在”的评估标准存在自我阐释甚至理解偏差,造成偏差的原因之一便是未能保证每一位教师均参与评估标准的选择和建构。这主要源于对时间成本的考虑,但如果在时间允许的情况下,让每一位教师均参与评估标准的选择和厘定,将能更好地调动教师的参与积极性,教师对评分量表的质疑和理解偏差也将大大减少。

第二个方面是关于编写评分量表,如何体现标准参照评估精神的关键在于评估指标的选择,难点则是对评估标准的具体描述。评估指标选择并没有既定的标准,但从标准参照理念出发,评估指标应与课程目标、教学内容一致,即课程目标、教学内容以及评估要求应达到相互印证。指标选择的另一个要点则是可评估性,通识教育部的实践经验是从预期学习成果(也可理解为课程目标)中找出相应的认知能力作为评估指标,之所以强调认知能力正在于它的可评估性。此外,各等级的分数区间目前是采取依据经验确定的方法,对此感兴趣的研究者如能结合统计理论以确定分数区间,将令评分量表的分数设定更具说服力。

2.对实施过程的观察与反思

纵观此次行动实施过程,在步骤2(评分前的集体会议讨论)中,工作小组的焦点之一是评分量表的使用。但从会议观察和实证分析来看,单向地由工作小组讲授评分量表并不能令每位教师均领会评估标准的内涵,在实际评分中教师往往还是基于其默会知识引导下的内在标准,对各项指标作出评分判断。因此在步骤2得到的反思是:除了对评估的理论和使用进行讲解之外,还需要加入具体的案例以及评分演练,通过集体公开的讨论,能够令教师意识到自我阐释与他者阐释的不同,从而在评估标准的诠释和运用上,不仅仅只是基于个人理解,也能够考虑到其他人的看法,以减少对评估标准的理解差异。

在步骤4即评分后的集体讨论中,一个新产生的问题是关于评分差异。如何看待评分差异标志着是否对标准参照评估有深刻的认识。评分差异并不能简单理解为错误地使用了评估标准,并得出评分不可信这样的结论。关键是要看到差异背后不同的判断依据以及这些依据是否基于评估标准[44-45]。有些评分差异是由于教师之间使用评估标准的做法不一致,例如教师过分重视单一标准从而造成评分差异;有些差异则是因为个人对评估标准的阐释不同。不同原因导致的评分差异需用不同的方法加以解决。

由于评分差异具有一定的普遍性[46-47],总结讨论的焦点应放在如何看待评分差异上。回顾步骤4的做法,一个反思是:讨论在比较分数差异方面消耗了一定时间,以致后续让教师阐释评分理据的时间较少,使得教师对彼此的评分理据并未完全清晰呈现。这为下一次设计集体讨论带来的启示是:应最大限度令每位教师阐释评判理据,并实现有效交流。如果教师能够彼此清楚打分依据,并在交流的过程中产生兼容包并的态度,不仅能更清晰地理解评估标准的要求,也能更开放地看待评分不一致,接受自己或者他人分数分布的不合理,真正意义上拥抱标准参照评估。

总体而言,在评估实施的初期阶段,很容易发生偏离评估目的的各种行为,例如对评估标准各自阐释、沿用常模参照评估的评分习惯等。如果教师不能正确而恰当地使用评估标准,所强调的评分有所依据将只是空头支票。标准参照评估真正得以落实的关键在于教师对标准参照评估的内涵和使用有深刻清晰的认识。只有教师建立了对新评估的认同感,才会在实践中充分发挥出这种评估的内在功能,例如注重与学生就评估标准进行沟通。要让教师对评估建立认同并对评估使用有深刻认识,需要充分调动教师的参与积极性,在教师之间形成实践共同体,以便对标准参照评估的理念和使用进行集体讨论;同时组织教师共同检视评分结果,通过共同评分去寻找评估过程中的差异,求同存异,让每一位教师对评估标准的诠释、使用均是集体“共识”之后的决策。

(二)标准参照评估实施模型

本文通过行动研究,将标准参照评估的实施过程分为计划、行动、实证、总结四个部分。这四个部分相互联系和促进,共同保证了评估理念的落实。基于此本文提出标准参照评估的实施模型(见图1)。在该模型中,计划阶段的主要任务为开发评分量表。该阶段需最大限度调动教师参与度,尽可能让更多教师参与评估标准的选择、确立和开发。行动阶段指教师就标准参照评估的内涵以及评分量表使用开展学习和讨论。该阶段不能采取技术理性式的单向宣讲方式[10],而需要为评估理念的落地提供“支架”,即通过集体讨论、对话沟通、案例演练的方式让教师建立对评估的认同感和深度认识。实证阶段是对设计和行动阶段可能产生的问题进行探究。该阶段的实证数据为了解评估是否真正落实提供了丰富的有深度的资料,是研究实施效果不可或缺的。总结阶段是对实施行动的检视,检视内容基于前三步行动实践的问题和结果。该阶段需要教师共同解决评估实施中所面临的深层次问题。研究显示标准参照评估的一个实施难点在于如何协调不同教师对评估标准的理解和使用差异。研究建议定期举办评分研讨会,以对话沟通的方式让教师建立对评估标准的共同理解[48]。其目的不是在于统一评估标准,而是将评估标准的不同阐释公开化、透明化,让教师在实践共同体中以学习和反思的方式慎思不同阐释的合理性[49-50]。教师对评估标准做到既胸有定见又和而不同,便能最大限度减少非关因素对评分的干扰,而这样的评分结果也必然是公平而令人信服的。

图1 标准参照评估实施模型

注释

①香港中文大学本科生通识教育有三大部分:一是通识教育基础课程,其概念与核心课程类似,属于全校必修课程,由通识教育部教师负责授课;二是四类通识教育课程,其概念与分布课程类似,由各院系教师开设,学生从四类通识教育课程中各选择一至两门课程学习;三是书院通识,主要是各书院根据其历史和教育理念设计并开设课程,强调学生在实践中学习。

②香港中文大学常模参照时期的分数分布指引:在一般情况下,撇除不及格的学生后,成绩最好的30%获A等(包括A、A-),其次的50%获B等(包括B+、B、B-),最后的20%获C等(包括C+、C、C-、D+、D,为方便讨论统称为C)。

③关于香港中文大学通识基础课程预期学习成果的网络链接如下:与人文对话https://www.oge.cuhk.edu.hk/index.php/tc/2011-06-22-08-12-12/ugfh-1001;与自然对话https://www.oge.cuhk.edu.hk/in dex.php/tc/2011-06-22-08-12-12/ugfn-1001。

猜你喜欢
通识量表评估
第四代评估理论对我国学科评估的启示
胸痹气虚证疗效评价量表探讨
通识少年小课堂 无线电寻宝之旅
通识少年“种”石油
通识少年小课堂 血液之旅
通识少年·拿破仑
三种抑郁量表应用于精神分裂症后抑郁的分析
慢性葡萄膜炎患者生存质量量表的验证
初中生积极心理品质量表的编制
评估依据