大规模考试网上评卷中趋中评分的成因探析

2017-01-28 04:26范鹏

中国轻工教育 2017年5期

关键词：评卷评分标准主观题

范鹏

（天津市教育招生考试院，天津 300387）

大规模考试网上评卷中趋中评分的成因探析

范鹏

（天津市教育招生考试院，天津 300387）

趋中评分是一种不明显的评分误差，在主观题评卷中普遍存在，在施行网上评卷后，这种趋势更加明显，找到趋中评分的成因是解决主观题评卷中人为误差的关键。本文分析了趋中评分的几点成因并提出了解决思路。

趋中评分；网上评卷；误差

考试作为选拔和评价的重要手段，已经有上千年的历史。作为考试结果量化的手段，评卷成了重中之重。而只要有评卷就会有误差的存在。在多年来的纸笔评卷模式中，尽管人们使用了众多手段来规避，但评卷误差依然存在。一般来说，评卷误差多出现在主观性较强的题目中，是指评卷教师由于掌握评分标准的不同而产生的差异，这种差异既有与自身前后评卷的不一致，也有与其他评卷教师的不一致。这种差异导致了考生答题的结果与其应得的真实分数有差距，也就是说评卷的结果没有完全真实的反应考生的真实水平。

一、什么是趋中评分

在主观题评卷中，经常会发现这样一种趋势，就是分数的分布往往会呈现出趋于集中的表现形式。随着网络技术和快速成像扫描技术的发展，越来越多的考试都开始采用网上评卷的方式。网上评卷较之传统的纸笔评卷有节省人力物力、评卷效率高、评卷质量好以及便于统计分析等优势。在一些大规模考试中，如高考、中考、大学英语四六级考试等，网上评卷这种形式已经占据了主导地位。在施行网上评卷后，统计分析更加便利，我们发现这种情况并没有因为评卷模式的改变而发生改变，相反有愈演愈烈的趋势。

这种趋势我们称之为趋中评分，就是评出的分数高度集中在中部偏上的狭小区间内，在这个区间内，评分摆动幅度过小，这是一种评卷员评分的集体性误差。趋中评分在主观题评卷中普通存在，用比较通俗的话来说就是“打中间分”。个体评卷教师习惯在平均分、基准分上下给分，既不给太高的分，也不给低分。这样做不能客观的反应出学生的真实水平，“打中间分”是产生评分误差的重要原因之一。以高考作文评卷为例，高考评卷是一种典型的大规模考试的主观题评卷，作文成绩作为一个分值较大、独立性较强的主观题，其成绩应符合正态分布的要求。但实际工作中我们发现，二类文和三类文的数量占了总数的80%以上，比正常情况超出了十几个百分点。这就说明，高考作文阅卷存在趋中评分现象。人们经常说，高考作文拉不开分数，就是这种现象的体现。

二、产生趋中评分的原因

经过研究，我们认为是由以下几个方面的原因造成的。

1.集中评卷的要求

一般来说，大规模考试的评卷多采用集中评卷的方式。一方面为了评卷过程保密，另一方面也为了更好的控制评卷进度，提高效率。从管理的角度来说是好事，但有限的时间内完成大量工作，每个评卷教师工作强度都很高，工作压力很大。再加之管理者的工作态度，对评卷教师的管理和约束，评卷教师的疲劳、精力分配等因素，一定程度上造成了评卷教师不自觉的忽略了评分的控制要求，导致出现趋中评分。一些老评卷教师对于评卷流程更加熟悉，到了评卷中后期，精神疲劳，责任心下降，比新评卷教师更容易产生趋中评分。

2.评分机制缺陷

目前施行的网上阅卷模式，大多使用多评/仲裁的体系，这种体系主要的缺陷体现在以下两点。

（1）专家组作用发挥有限

专家组的评分具有一定的权威性，可以指导普通评卷教师的评卷，对整体阅卷水平具有控制作用，能够避免出现整体偏差，意义十分重大。但就目前评卷实际来看，专家组的作用除正式评卷开始前对试评卷进行研究制定评分细则外，多数为处理一些异常试卷，如0分卷、满分卷、多评差异较大的试卷等，以及一些日常监控和管理工作。目前专家组更多的是通过抽样的方式来对个别评卷教师进行管理，无法对整体评卷控制发挥作用，导致趋中评分的评分随着评卷工作每日推进逐渐增多。

（2）多评机制的缺陷

现在的主观题评卷多采取三评的评卷方式，如果打分与其他两个评卷教师的评分差距过大，会使自己所评的试卷成为无效卷。在网上评卷中，考评评卷教师的主要指标就是评卷量和有效卷率。而无效卷数量被认为是衡量一个评卷教师评分水平的一个重要指标，无效卷数量多被认为是评分标准没有掌握好，评分水平低。于是，在既要保质又要保量这个大前提下，打中间分则能做到在保证评卷速度的前提下，还不会出现无效卷，不会增加整个组的三评率，进而增加工作量。基于以上两个原因，原来不想打中间分的评卷教师也会被迫去打中间分。例如当双评差值设置为7分的时候，若一个评卷教师打了60分，而第二个评卷教师打了46分，第三个评卷教师打了48分，那么按照现行的评分规则，第一个评分成为无效分，该题的最后得分是取46分和48分的平均值47分；而如果第一个评卷教师打49分，第二个和第三个评卷教师仍然打46分和48分，那么该题的最后得分应是49分和48分的平均值48.5分，比打60分时所得的47分多出1.5分。想打高分，最后却得了低分；而想打低分，最后却得了高分。为了使自己的意见得到一定程度的认可，也给考生一个相对公正的评价，敢打高分或低分的评卷教师在其他人开始打中间分时，也不得不放弃了自己的判断，改打中间分。

3.评卷教师个人素质

评卷教师的个人素质包括责任心和个人习惯两个方面。

评卷是由评卷教师来完成的，是一项对人员素质要求很强的工作。不仅要求评卷教师具有较高的专业素质，也要求其有较好的工作态度。首先就是要端正态度，树立很强的责任心，否则会出现严重的评分误差。一旦工作态度出现问题，随意打分，评分结果必然受到影响。

这些年社会上也有一些关于高考、中考评卷的报道，其中比较尖锐的就是关于评卷教师的给分速度，批评一些评卷教师评卷过快，评阅作文题目时90秒评一篇，引起社会一片指责。其实，一些大规模考试的评卷过程中，类似现象屡见不鲜，也确实存在部分评卷教师阅读不够仔细，草草打分，遮盖了考生的“闪光点”或因考生卷面整洁、字迹工整就给了高分，还有的是为了完成任务，盲目提高评卷速度，保险起见就开始打中间分。做一个好的评卷教师，既要正确理解评分标准，又要把握好评分尺度。现在大多主观题评分都是用评分量表，如果对量表的理解有偏差，不能把握好不同分级之间的差异，也容易造成趋中评分。

就大规模考试的阅卷来说，为了减少趋中评分的评分误差，不仅要改变、端正个别评卷员的态度和责任心，还要提高整个评卷员群体的业务水平，避免出现趋中评分。

此外，评卷教师的个人习惯也会导致趋中评分的增高。在日常的考试测试中，教师在评卷时一般不习惯打不及格分，而是大多在百分制的70分左右，这是有一定的合理性的。而到了大规模的考试评卷过程中，还是以作文为例，满分60分，大多数老师都是一线的高中教师，这种习惯已经形成了强大的心里干扰因素，他们习惯性的就会打42分（70%）左右，这也无形中增加了趋中评分出现的几率。

4.评分标准的局限

仍以大规模考试的作文为例，近几年所使用的评分标准都是描述式评定标准量表。这种量表是把学生的作文与规定的评分标准相对照，从而评定学生的成绩，作用相当有限，并有以下缺点。

（1）评分标准比较抽象

评分的细目分项越多，越不利于评卷员掌握，出错的可能性越大；评分项目多，在分项评分时，会降低评分速度；评分项目少，则其概括性越强，抽象性也就越强。评卷员对评分标准中同一等级内容与标准的理解肯定有所不同，在不能平衡时，就会选择打中间分来保持评分的稳定性。

（2）评分标准自身缺陷

评分标准中的写作测评因素基本上包含和体现了写作能力因素，体现着人们对不同类型、不同阶段写作侧重点的认识。参照量表的要求，找到水平近似的样篇，上下略作浮动来评定考生的成绩，这样的评分本身就存在一定的模糊性，考生的答题与量表的样本之间难以十分精确的比较。此外，对于描述量表的语言理解因人而异，在不同的评卷教师头脑中的印象不尽相同，也会造成一定的模糊和偏差。再者，评卷教师对于量表的记忆是流动的，随着时间的流逝，标准也可能有细微的偏差。

三、解决思路

根据以上分析，我们针对性的提出一些解决思路。

1.引入专家卷和专家评分曲线

产生趋中评分的一个重要原因就是专家组作用的缺失。因此，在正式评卷开始前，专家组先对预先按照一定规则抽样的部分试卷进行试评讨论。由这些经验丰富的命题和评卷专家挑选出的能够代表每个分数等级的典型试卷。每天的评卷过程中，通过评卷系统将这些试卷随机分发给普通评卷教师，针对返回的评分数据与专家评分进行对比，进而判定评卷员是否存在趋中评分。这种方法简单、直观，但由于不是全程的、实时的整体检查，因此可能会出现漏判的情况。因此，可以引入专家评分曲线。让专家组每天也进行一定数量常规评卷，根据评卷结果和专家卷的结果生成专家曲线，监控评卷员个体、组、全体与该曲线的趋势的差别，一旦发现问题，及时纠正。

2.加强培训与试评力度

培训和试评对于评卷工作至关重要，专家组应该在这个阶段对评卷教师做足够的指导和提醒。主要包括评分细则的理解、试题的学习以及评卷操作等，为正式评卷做充分的准备。在培训和试评阶段，要为评卷教师详细说明不同分数等级之间的区别，挑选不同类型的具有代表性的专家卷供评分教师仔细研究、反复揣摩，体会评分量表和评分标准，尤其是高分段、中间分数段和低分段的差异。专家组可以拿出一部分专家卷来让评分员试打分，只有与专家评分差值较小的评分员才能通过试评。这样既可以知道评卷教师是否理解了试题、是否准确的把握了评分标准，也能提前了解到哪些评卷教师对标准掌握有差异，进而继续关注指导。如果有评卷教师始终不能通过试评，专家组应对其进行调整，以免后期正式评卷产生不良后果。

3.使用技术手段

在正式评卷开始前，对主观性较强的题目设置“最低浏览时间”，如规定每篇作文的评卷时间不得低于120秒，以此来限制那些不认真阅读，草率打分的评卷教师，从而提升阅卷质量。此外，专家组可以采用定时抽检结合和个人复评相结合的方法进行监控，收集分析评卷教师的评分与自身、与专家卷之间的差异，差异过大时，说明该评卷教师评分波动过大，需要及时停止评卷并进行纠正。由于趋中评分多出现在评卷的后半程，因此对评卷中后期应重点监控。

4.改变评分机制

改变以往过多关注无效卷的方式，更多的监控评卷教师评分与专家卷之间的差异。优化薪酬方式，按数量计酬确实有利于提高评卷员的积极性，提高评卷效率，但也更容易滋生趋中评分。

主观性试题的趋中评分由来已久，在纸笔评卷中已初现端倪，施行网上评卷后，尤其在大规模的考试评卷中，这种现象愈发显著。是得益于统计测量手段的进步，这种现象更加直观了？还是网上评卷的模式更刺激和助长的它的发展？这其中的关键还是在于参与评卷的人。不论是专家还是普通评卷教师，都是参与的个体。强化专家组的作用，增强对评卷教师的培训，规范评卷教师的行为，每个个体做好自己的本职工作，才能逐渐减少和规避趋中评分这个整体、系统的误差。

[1]陈志国，芮南.高考作文网上阅卷双评过程中的质量监控[J].中学语文教学，2009（6）.

[2]赵海燕，芮南.双评作文题网上阅卷评卷教师评卷水平评价维度的确定[J].中国考试，2009（2）.

[3]张昌应.高考网上评卷误差控制的方法与实施[J].高教探索，2003（3）.

[4]高丙成，秦旭芳.成人高考网上阅卷的评分者差异研究[J].乌鲁木齐职业大学学报，2007（4）.

[5]娄庆华.高考作文评分“趋中倾向”探因[J].教学与管理，2008（3）.

（责任编辑：姚歆烨）

Analysis of Reasons for Centralized Rating in Net-based Scoring of Large-scale Examination

FAN Peng
（Tianjin Municipal Educational Admission and Examination Authority,Tianjin 300387,China）

Centralized rating does not lead to obvious errors,which exists widely in subjective question scoring.In the implementation of net-based scoring,this trend is more obvious.Finding the reasons for centralized rating is the key to solve the problems in subjective question scoring.This paper analyzed the reason for central rating,and put forward some solutions.

Centralized rating;net-based scoring;error

G647

范鹏（1982—），男，助理研究员，研究方向：教育管理。