职业教育学习评价元评估标准:国际与本土的尺度整合

2020-02-17 11:49李鹏
职业技术教育 2020年1期
关键词:学习评价评价标准职业教育

摘 要 评估标准建构是实施元评估的重要基础。为建构职业教育学习评价元评估的标准体系,整合国际通行的实用性、可行性、合理性和准确性尺度和中国学习评价的公平性尺度,综合运用问卷法、访谈法和元分析法,对149名职业教育学生进行了实证调查。研究发现:国际通用的教育元评估标准与中国学习评价的公平性尺度具有内在一致性;职业教育学习评价元评估体系是以“过程-结构”为基础,在过程上包括了评估过程的评价设计、评价实施和评价结果三个环节,在结构上包含了不同环节的不同标准。实证分析发现,基于国际标准与本土尺度整合的职业教育学习评价元评估常模具有良好的测量学特征,可以用于学习评价的元评估。

关键词 职业教育;学习评价;元评估;评价标准

中图分类号 G719.2 文献标识码 A 文章编号 1008-3219(2020)01-0006-07

一、问题提出

学习评价改革是办好类型特色职业教育的重要问题之一。2018年全国教育大会指出,“扭转不科学的教育评价导向,坚决克服唯分数、唯升学、唯文凭、唯论文、唯帽子的顽瘴痼疾,从根本上解决教育评价指挥棒问题。”[1]对于职业教育学习评价来说,最重要的尺度就是评价过程的公平,以及评价结果能够促进学生的发展[2]。然而,如何判断职业教育学习评价是公平的、促进发展的?这就是对学习评价的评估,即元评估(meta-evaluation)。元评估是对评价的评价(the evaluation of evaluation),是人类的一种“自我参照”,通过对评价的再评价,在“指挥棒”和“参照系”[3]中引导初始评价朝着科学评价的方向发展。因此,对学习评价进行元评估有利于保障职业教育学习评价的科学性,维护职业教育学习评价的过程公平,实现“以评价促进发展”的目标。但是,实践证明,实施职业教育学习评价的元评估,建构标准体系是其基础性工作。从国内外的实践经验来看,制定学习评价元评估评价标准的方法有多种,不同的方法有不同的依据、价值选择与方法论,也有不同的实施程序[4]。尽管职业教育学习元评估标准的编制程序各有不同,但元评估的标准却是相同的。理想的元评估标准体系必须具备满足以下条件:有具体的、完整的评价观测点;有细致的、准确的评价尺度;有良好的信度和效度;有合理的、权变的权重指标;有公正的、清晰的结果等级[5]。因此,参照教育元评估标准的理想表征,本研究整合国际通行的实用性、可行性、合理性和准确性元评估尺度和中国学习评价的公平性标准,运用元分析、访谈法等多种研究方法开发编制职业教育学习评价元评估标准。

二、研究设计

评价标准的开发需要有先进而科学的理论基础、丰富和详实的数据支撑以及必要的数理统计分析。在特定的研究目标指引下,依托合理的研究假设,运用多重研究方法论证指标体系的来源、结构与合理性。基于此,职业教育学习评价元评估标准的开发设计思路如下。

(一)研究目標

学习元评估是多功能性的评价,常见的功能有:通过信息收集、价值判断为政策制定、课程设计以及学生学习提供支持;通过文本资料分析助推教育政策制定与改革;通过获取、描述、分析初始评价信息的全过程,指导评价活动改进[6]。元评估也是价值判断和事实判断,要实现元评估的功能属性,需要一定的参照标准。因此,本研究的目标是建构职业教育学习评价元评估的评价标准。具体而言,结合国内外现有的学习元评估标准体系与职业教育学习评价的自身规律,分析并建构有信度、有效度的职业教育学习评价元评估标准。

(二)研究假设

国际上通行的元评估标准是美国教育评价标准联合委员会(JCSEE)开发的实用性、可行性、合理性和准确性四个指标尺度[7]。国内学习元评估的标准主要有高考公平指数[8]和义务教育督导评估公平指数[9]。尽管东西方学习元评估的标准尺度在形式上略有差异,但在本质上有着良好的内部一致性,见图1。

西方学习元评估的实用性、可行性、合理性、准确性标准与我国学习元评估的公平指数在本质上是一致的。经济视角的公平是最终的效益分配与共享,这是实用性标准;法律视角的公平是评价程序的公正和参与,这是可行性标准;伦理学视角的公平强调评价制度的无伤害和道德性,这是合理性标准;技术哲学视角的公平衡量评价制度的科学与效率,这是准确性标准。因此,职业教育学习评价的元评估既可以从实用性、可行性、合理性、准确性四个维度衡量,也可以从评价制度的公平性去衡量。基于此,本研究把中西方学习元评估标准进行整合,建立新的元评估体系。

(三)研究方法

在整个职业教育学习评价制度元评估的过程中,为准确探究职业教育学习评价制度运行的现状,保障研究结果的信度与效度,本文综合采用了问卷调查法、内容分析法、德尔菲法和层次分析法等方法。

1.元分析法

借助国内外学习评价相关文献和元评估文献,分析职业教育学习评价的过程结构,整理国内外现存的学习评价元评估标准体系,建构中西整合的职业教育学习评价元评估标准框架。

2.访谈法

职业教育学习评价元评估还通过访谈方法收集学习评价实施的相关质性资料,以此为基础,分析职业教育学习评价元评估的具体评估要点和观测点。

3.德尔菲法

职业教育学习评价元评估标准还要基于专家的经验判断,确定评估维度以及评估体系的信度效度。同时,还要根据专家经验区分各维度之间的权重维度。

三、研究过程与结果

职业教育学习评价元评估标准的设计与开发有三个核心工作:一是选择合理的指标观测点,二是建构不同指标之间的稳定性结构,三是测度整个体系结构的质量水平。在国内尺度与国际标准相整合的理念下,职业教育学习评价元评估标准的开发过程与结果如下。

(一)元评估观测点的选择

元评估的根本是基于信息收集与分析做出事实判断与价值判断,所以评价的关键还是收集什么样的信息。建构职业教育学习评价元评估的评价标准,首先必须确立元评估信息收集的内容标准,明确元评估标准的内容观测点。职业教育学习评价元评估标准的观测点来自两个方面:一是从国内外经典元评估模型中汲取精华;二是实践观察,用实践经验进一步补充完善观测体系。

1.文献中的元评估观测点

斯塔弗尔比姆(Stufflebeam, D.L.)主张考究评价主体是否得当、评价对象是否准确、评价过程是否科学合理、评价目的是否达到[10]。斯凯瑞文(Scriven, M.)认为完整的元评估主要包括:检查或重新实施数据收集,重新检测信度效度,评价原来的设计,检查数据分析方法与过程,分析原来的结论[11]。柯恩博科(Keun-bok, K.)和陈谷(Chan-goo, Y.)从元评估的评价范式、评价资源、评价过程、评价绩效、评价结果的应用建构了三阶元评估内容框架[12]。阿勒武(Aleu, F.G)和凯瑟利(Keathley, H.)则设计了元评估的“环境—资源—过程—绩效—应用”内容框架[13]。在研究JCSEE和AEA元评估制度基础上,借鉴国内《学习元评估检核表》[14]的学习元评估问卷项目,整合形成国内外经典的元评估内容框架,见表1。

从归纳结果来看,斯塔弗尔比姆、斯凯瑞文、柯恩博科、陈谷的元评估模型所关注的评价内容观测点主要为评价目标5次、评价标准5次、评价工具4次、评价主体5次、评价程序3次、评价组织2次、评价技术4次、评价监控2次、结果形式1次、结果质量4次、结果应用3次。实际上,评价环境、评价资源、评价方案等内容之间相互联系、相互包含,几乎所有的元评估模型都要对初始评价的评价目标、评价方案、评价工具、评价主体、评价程序、评价组织、评价技术、评价监控、结果形式等实施再评价。

2.实践中的元评估观测点

2016年3月至6月,研究者作为北碚X职业教育学校《学前教育研究方法》代课教师,通过学生访谈和作业问答掌握学生们对职业教育学习评价的认知,通过开放式问答表收集了第一批资料。同时,研究者于2016年6月,在Y校对部分学生和教师进行了相同的开放式访谈,收集了第二批初始资料。整理所有初始探索的访谈对象,基本情况见表2。

通过对两所学校的多次实地访谈和调研分析发现,学生与教师对职业教育学习评价的评价目的、评价方式、评价标准、评价频次、评价过程、评价结果形式、评价结果应用等非常关心。对两期访谈的文档进行编码整理,最终得到实践中的学习元评估观测点,见表3。

3.职业教育学习评价元评估观测点

以斯塔弗尔比姆的评价过程分析为理论支点,结合元分析的结果和实地访谈中所形成的问题项目,进一步归纳编码职业教育学习评价的元评估主要内容,可以把评价目标、评价方案、评价工具等12个内容观测点聚类为评价设计、评价实施和评价结果三个二阶维度,见图2。

职业教育学习评价元评估内容的二阶模型,在设计的元评估环节,主要评价初始评价的目标定位、评价方式选择与设计、评价工具或评价标准开发;在评价实施环节,主要评价主体的参与、程序的推进、技术支撑和评价调控措施;在评价结果环节,主要评价结果的表达、结果的质量、结果的反馈以及结果的应用。

(二)元评估尺度标准设计

尺度标准是元评估对评价内容、评价对象的信息作出价值判断的依据,不同的制度往往会得出不同的结论,评价尺度一般具有哲学意义上的普遍性与稳定性,而且必须有客观的公信力。因此,职业教育学习评价元评估尺度必须从经典文献与成熟体系中寻找答案。

1.国际标准的元评估尺度

目前,国际上比较通用的学习元评估标准尺度是1981年美国教育评价标准联合委员会(JCSEE)开发的元评估标准尺度,见表4。

JCSEE从实用性、可行性、合理性和准确性四个一级维度,对元评估的标准进行了系统性规定。也巴亓(Yarbrough, D.B.)和苏拉哈(Shulha, L.M.)等人基于JCSEE的元评估标准开发了五个维度的元评估标准尺度,分别是效用性标准(performance standard)、可行性標准(feasibility criterion)、适切性标准(practical standard)、精确性标准(accuracy standard)以及问责标准(accountability standards)[15]。此外,比较通用的标准还有美国评价协会(American Evaluation Association, AEA)开发的55条元评估标准[16],这套标准尺度按照元评估的流程来设计的不同阶段的不同标准将元评估分为“规划与协商—结构与设计—数据搜集与准备—资料分析与解释—沟通与公布—结果运用”六大模块流程,并在不同阶段设置相应的评价标准。

2.国际元评估标准的启示

从国际通用的元评估标准可以看出:第一,元评估最核心的标准是可实用性、可行性、合理性和准确性四个基础性标准[17];第二,不同评价环节的元评估标准可能会有所不同,因此可以借鉴AEA的元评估标准尺度,在不同阶段设置相应的评价标准;第三,评价标准不宜过于细化,因为过分精致化的元评估标准往往会淡化对现实评价活动的意义作更深层次的思考,阻碍了对评价本身的“价值”作“元”层次的不断追问[18]。因此,职业教育学习评价的元评估标准建构必须以此为基准。首先,要在根本上实现评价效用“保障公平、促进发展”的目标。其次,以公平与发展的基本尺度为基准,整合JCSEE的实用性、可行性、合理性以及准确性标准和AEA等其他评价指标体系的尺度标准。最后,所有职业教育学习评价元评估的尺度标准根据不同环节设定相应的评价标准。

3.职业教育学习评价元评估的标准尺度

通过对国际学习元评估标准的梳理与反思,结合Stufflebeam学习元评估的过程分析和AEA分流程设计标准的原则,建构职业教育学习评价元评估的标准尺度体系框架,见图3。

职业教育学习评价元评估的标准体系框架以“公平和发展”为基准,将元评估标准分解为实用性、可行性、合理性以及准确性四个二阶维度。但是,四个二阶维度并不是按照JCSEE评价标准体系进行组合,而是根据元评估的具体流程,可以分为评价设计的元评估标准、评价实施的元评估标准和评价结果的元评估标准。

(三)元评估标准体系的质量分析

元评估标准体系在本质上就是元评估的评分问卷。元评估标准体系的内容观测就是评分问卷的具体项目,项目关系之和就是维度。因此,元评估标准体系的质量分析就是职业教育学习评价元评估初始评分问卷的质量分析。

1.初始问卷:元评估标准体系成型

首先,维度与内容设计。职业教育学习评价元评估的初始评分问卷设计整合了学习元评估的评价内容与评价标准,其中,基本维度的设计主要依据初始评价的各个环节,分为评价设计元评估、评价实施元评估和评价结果元评估三个二阶维度,然后根据评价内容观测点分配到三阶维度。

其次,项目评分标准选择。根据“不同评价环节采用不同评价指标”[19]的原则,集合初始评价目标定位、评价方式选择、评价工具、评价标准、评价主体、评价程序、技术支撑、评价调控措施、评价结果表达、结果质量、结果的应用选择对应评价标准。

最后,项目评分等级。评价体系的最后一级指标确定后,还必须确定评价的等级数量和标度[20]。职业教育学习评价元评估部分的所有问题都采用封闭式作答,每个项目的评分用李克特量表(Likert scale)的五级评分模式,其中,5分为最高分,代表“非常好”,依次为4分(比较好)、3分(一般)、2分(比较差)和1分(非常差)。因此,整合初始框架与初始项目,得到初始问卷结构,见表5。

2.问卷预测:元评估标准体系调试

初始问卷编成之后,研究者征集了2位教育学专家、2位教育评价专家、2位教育统计与测评博士研究生和1位一线教师的意见,根据7人对问卷的审读和修改意见,对初始问卷的项目进行了第一轮删减和优化。根据专家意见,删掉意思重复、意见集中的项目25、30、32、47,对表达模糊、不易理解的28、49进行了重新陈述,形成了初始问卷。

3.元评估标准体系的质量:信度与效度分析

评价的实质就是评价主体把评价对象的价值结构映射成一种数学结构[21],因此,倘若评价工具质量不好,可能会影响主体判断的准确性,所以必须验证并保证评价工具的质量。

首先,采用随机抽样的方法,在X、Y、Z三所学校学生中实施预调研,发放学生问卷156份,回收问卷154份,有效问卷149份,有效回收率为95.51%。对问卷进行信度分析,结果见表6。

问卷的各个因子和总问卷的信度都在0.681~0.819之间,最低水平的评价过程维度信度为0.681。根据问卷设计的质量水平,问卷信度的最低水平维度也达到了“尚可”的标准,其余因子和总问卷都在“佳”和“甚佳”之间。尽管没有因子达到“非常理想”的信度,但是,问卷的内部一致性水平都在“尚可”之上,因此,职业教育学习评价元评估标准体系具有良好的内在信度。

在信度分析的基础上,对职业教育学习评价元评估标准问卷进行效度检验。由于职业教育学习评价元评估标准的结构维度是“强理论驱动”的结构模型,因此,探索性因素分析的“强数据驱动”模型可以省略。直接对信度检验之后的问卷进行效度分析:首先,《学习元评估调查问卷》的项目源于成熟文献和访谈观察整理后的结果,并请了教育评价专家和一线教师对问卷的项目进行了评判,均认为本问卷基本能够代表要测量的问题,量表内容效度良好。其次,《学习元评估调查问卷》由3个因子构成,各因子之间的区分度与调查点明晰,基于“学习评价设计——学习评价实施——学习评价结果”的二阶三因子模式的验证性因子分析,得到结果见图4。职业教育学习评价元评估标准模型的χ2=116.037,χ2/df=1.253,显著性概率值p=0.06>0.05,接受虚无假设,因此理论模型与数据之间具有较好的拟合度。在重要參考的绝对拟合指数中,RMSEA=0.052<0.08,AGFI=0.963>0.9,检验结果都达到了较好及其以上水准;在增值适配度指数中,CFI、NFI、IFI、TLI、RFI等判断结果都为好。所以,问卷的结构效度可以接受。

四、讨论与结论

公平与发展是我国自科举制度以来就在坚持的评价尺度,但是西方国家却在教育评价中有着更细致的操作性原则。整合中西方教育评价的基本尺度,开发中国职业教育学习评价元评估的标准体系,通过文献分析、访谈编码和实证验证,得到以下结论:

(一)职业教育学习评价元评估坚持实用性、可行性、合理性、准确性与公平尺度

文献元分析发现,国际通用的教育元评估标准包括了实用性、可行性、合理性和准确性等四个尺度,而我国最关心的是学习评价过程的公平与否。但是,在本质上,国际通用的实用性、可行性、合理性和准确性标准与我国学习评价的公平性尺度具有内在一致性。从经济学、法学、伦理学和技术哲学来看,职业教育学习评价元评估的国际标准与我国坚持的公平尺度在价值取向、分配原则、道德正义和主观感受方面都具有一致性,因此,职业教育学习评价元评估需要坚持实用性、可行性、合理性、准确性与公平尺度。

(二)职业教育学习评价元评估标准体系以评价的“过程—结构”为框架基础

职业教育学习评价是复杂的、多样的。但是根据斯塔弗尔比姆的评价过程分析理论,结合文献回顾的学习评价元评估观测点和质性访谈的观测点可以发现,职业教育学习评价元评估体系是以“过程-结构”为基础,在过程上包括了评估过程的评价设计、评价实施和评价结果三个环节。在结构上包含了不同环节的不同标准,而根据“不同评价环节采用不同评价指标”的原则,集合初始评价观测点包含了目标定位、评价方式选择、评价工具、评价标准、评价主体、评价程序、技术支撑、评价调控措施、评价结果表达、结果质量、结果应用等不同标准,但是,“过程—结构”框架的职业教育学习评价元评估标准在观测点上是我国尺度与西方尺度相整合的结果。

(三)整合性职业教育学习评价元评估标准体系具有良好的测量学性能和推广可能

根据五级量表的质量分析结果发现,国际标准和本土尺度相整合的职业教育学习评价元评估标准体系具有较好的测量学性能。首先,前测数据显示,整合性职业教育学习评价元评估标准体系在评价设计维度的α系数为0.819,分半系数为0.817;评价过程维度的α系数为0.745,分半系数为0.681;评价结果维度的α系数为768,分半系数为0.724。其次,信度检测发现,整合性职业教育学习评价元评估标准体系内容效度良好。最后,《学习元评估调查问卷》由3个因子构成,各因子之间的区分度与调查点明晰,问卷的结构效度可以接受。因此,基于国际标准与本土尺度的整合性职业教育学习评价元评估标准具有良好的测量学特征,可以用于学习评价的元评估。

参 考 文 献

[1]习近平.坚持中国特色社会主义教育发展道路 培养德智体美劳全面发展的社会主义建设者和接班人[EB/OL].(2018-09-10)[2018-09-15].http://politics.people.com.cn/n1/2018/0910/c1024-30284579.html.

[2]李鹏.职业教育学习评价效用的制度分析[D].重庆:西南大学,2018:132.

[3]Swaffield, S.Assessment: Servant or Dictator?[J].Forum, 2003, 45(2): 222-7.

[4]Stufflebeam, D.L.Meta-evaluation[J].Journal of Multidisciplinary Evaluation, 2011, 7(2): 99-158.

[5]Nyirenda, S.Assessing Highly Accomplished Teaching: Developing a Meta-evaluation Criteria Framework for Performance-assessment Systems for National Certification of Teachers[J].Journal of Personnel Evaluation in Education, 1994, 8(3): 313-327.

[6]Stufflebeam, D.L.The Meta-evaluation Imperative[J].American Journal of Evaluation, 2001, 22(2): 183-209.

[7]Stufflebeam, D.L.Standards for Evaluations of Educational Programs, Projects, and Materials[M].New York, NY: McGraw-Hill Book Co., 1981: 186.

[8]张和生,余军民,郑岱.高考公平指数的建构与测评——以湖南省为例[J].北京大学教育评论,2013(1):29-42.

[9]李鹏,朱德全.公平与发展:中国义务教育督导绩效的实证研究[J].教育学报,2016(2):49-57.

[10]Stufflebeam, D.L.The Meta-evaluation[J].American Journal of Evaluation, 2001, 22(2): 66-69.

[11]Scriven, M.Meta-evaluation Revisited[J].Journal of Multi Disciplinary Evaluation, 2009, 6(11): iii-viii.

[12]Keun-bok, K.& Chan-goo, Y.A Design of the Meta-evaluation Model[R].Montréal: Canadian Evaluation Society, 2000-05-16.

[13]Aleu, F.G.& Keathley, H.Design and Application of a Meta-evaluation Framework[M].Iie Conference & Expo, 2015: 2640-2651.

[14]嚴芳.教育元评估的理论与实践研究[D].上海:华东师范大学,2010:120-123.

[15]Yarbrough, D.B.& Shulha, L.M., et al.The Program Evaluation Standards: A Guide for Evaluators and Evaluation Users(3rd Ed.)[EB/OL].[2013-10-29].http://www.eval.org/p/cm/ld/fid=103.

[16][19]Wingate, L.A.The Program Evaluation Standards Applied for Meta-evaluation Purposes: Investigating Interrater Reliability and Implications for Use[R].Proquest Llc, 2009: 181.

[17]Speer, S.Peer Evaluation and Its Blurred Boundaries: Results from a Meta-evaluation in Initial Vocational Education and Training[J].Evaluation, 2010, 16(4): 413-430.

[18]阎光才.教育评价的正当性与批判性评价[J].北京师范大学学报:社会科学版,2003(2):124-131.

[20]张宏,林先成,李世强.荒漠化评价指标体系的等级系统研究[J].四川师范大学学报:自然科学版,2005(3):358-361.

[21]钱存阳,李丹青,潘岚.课堂教学质量评价元评估中的效度和信度分析[J].中国计量学院学报,2004(2):164-167.

猜你喜欢
学习评价评价标准职业教育
基于学习效果最优化的民办高校教学改革措施刍议
浅析信息技术课堂教学中的学习评价
小学英语教学的普遍现状及对策
浅谈广告摄影的创意与发展
泛在学习中学习评价网络效用模型的构建与实践
高职软件技术实训考核评价标准构建
“动能教育”模式下的工匠人才培养路径研究
论七年一贯制体系下本科学科建设中职业教育的重要性
中职院校PhotoShop课程教学浅谈
建筑工程绿色施工指标体系评价标准的研究