高考试题难度预估的校准与改进研究

2020-01-15 05:40任子朝

数学教育学报 2019年6期

任子朝，佟威，赵轩

高考试题难度预估的校准与改进研究

任子朝，佟威，赵轩

（教育部考试中心，北京 100084）

在对2017年高考试题难度预估结果分析的基础上，对2018年试题难度预估结果进行了更加深入的分析．在2018年预估以前，向命题人员详细讲解2017年试题难度预估分析的结果，将教师的预估结果和实考数据进行对比，结合试题，分析产生误差的原因，并对每个人进行了针对性的预估注意事项提示．2018年实考后，将命题人员预估数据与实测数据进行比较，结果发现，命题人员预估的误差值有所降低，预估的精度显著提高，命题组集体的平均预估值优于个人预估值．因此，为提高试题难度预估的精度，要加强对命题人员的培训、反馈，对每个人给予有针对性的指导，对于高考出现的新题型要慎重评估，集体讨论，得出结论．同时要加强对中学教学情况和学生学习情况的调研，了解学生的真实水平、作答特点、作答习惯以及熟悉的试题类型．

高考；预估难度；实测难度；统计分析

1 问题提出

在“高考试题难度预估研究”[1]的文章中，研究者以2017年高考数学试题难度预估数据和实考的统计数据为基础，讨论了高考试题难度预估的策略、对预估数据进行统计分析的方法及对预估值的合理利用．2018年研究者继续进行高考试题难度预估的研究工作，以期总结更精确的难度预估方法，得到更准确的预估结论．

2018年高考命题前，研究者向命题人员分析了2017年试题难度预估的结果，将教师的预估结果和实考数据进行对比，结合试题，分析产生误差的原因．将命题人员分为难度预估偏高、比较准确和预估数值不够稳定3组，并对每个人进行了有针对性的预估注意事项提示．考后应用上文中的方法，对照2018年实测统计结果，对命题人员的试题难度预估数据进行了统计分析．将两年的预估结果进行对比分析，得到一些有意义的结论和启示．

2 数据分析

2018年全国高考数学科使用3个卷种，即全国高考Ⅰ、Ⅱ、Ⅲ卷，因为数学科又分为文科试卷和理科试卷，所以一共有6份试卷．命题教师进行难度预估时，是针对使用该卷的省份的全体考生的平均水平预估该卷各个试题的实测难度，评估时一方面需要考虑试题本身的难度，另一方面需要考虑考生的水平．例如对Ⅰ卷文科试卷，需要考虑的是使用该卷的湖北、湖南、江西、安徽等省份考生的水平较高，另一方面就是文科考生的平均水平又低于理科考生，命题教师需要综合各种考量，给出对每个试题的难度预估值．每个教师都对6套试卷的138个试题进行了难度预估．

难度预估研究的设计方案和统计方法与文[1]相同，教师给出每个试题的难度预估值后，一是把所有教师在每个试题的预估值进行平均，得出该题全体教师预估的平均难度；二是把每个教师在一份试卷预估的每个试题难度按分值进行加权平均，得出该教师对该份试卷的预估难度．因保密原因，隐去每个教师的姓名，只以编号代替．这里增加了对教师的个体分析、对预估偏差较大试题的分析．两年的预估结果对比表明，教师的预估精度有所提高．

2.1 预估精度有所改进

在2017年的6套全国卷中，13位教师预估偏高的试题总计有1 008个，偏低的有786个，偏高与偏低试题数量的比值为1:0.78．从图1可以看出，2018年14位教师预估偏高的试题总计有909个，偏低有1 023个，偏高与偏低试题数量的比值为1:1.13．估值偏高与偏低的试题数量比值更加接近1:1，与2017年的预估结果相比，总体预估值偏高的现象有所改善．

注：图中正值表示专家预估值大于或等于实测值（通过率）的个数，负值表示专家预估值小于实测值（通过率）的个数．

图2中柱体表示命题专家平均每道试题预估得分率大于实测得分率的值．由于是计算误差值的代数和，所以存在误差值正负相抵的情况．

2017年专家估计与实测难度平均误差最高为0.056，最低为0.002，而且全部偏高．2018年专家预估与实测难度平均误差最高为0.03，最低为-0.04，见图2．教师预估数值有高有低，偏高与偏低的教师数量持平，说明教师的预估分布更加全面，有高有低的结果使全体教师平均后的评估结果更准确，更接近实测数值．

图2 2018年专家预估与实测难度平均差异对比

再从教师预估与实测难度平均绝对值进行分析，2017年的最大值和最小值分别为0.142和0.115，2018年的最大值和最小值分别为0.133和0.095，见图3，说明评估的绝对精度有所提高．

图3 2018年专家预估与实测难度平均绝对差对比

图3中柱体表示命题专家每道试题预估得分率与实测得分率之差的绝对值的平均数．由于是计算误差值的绝对值的和，所以不存在误差值正负相抵的情况．绝对值差可以用来量化描述命题专家预估得分率与实测得分率的接近程度，即预估的稳定程度．

从表1每个命题教师预估值与实测值的相关性分析可以得出两个结论．一是全体教师在每题的预估值的平均值与实测数据的相关系数高于每个教师的相关系数，说明集中群体的智慧评估的效果更好．比较2017年和2018年两年的统计数据，回归系数由1.144 7降低到1.070 3，更接近于1；截距由-0.106 1缩小到-0.037 4，相关系数由0.864提高到0.870 8，说明命题人员的评估值与实测值更加接近，预估结果有所改进．

2017年的²=0.745 9，从图4可以看出，2018年的²=0.758 3，数值有所提高，说明预估的解释度有所提高．

2017年命题人员对6套试卷难度的预估全部偏高，从0.01到0.06．从表2可以看出，2018年试卷的评估值有高有低，分布全面．

表1 2018年每个命题教师预估值与实测值的相关性分析

图4 2018年教师预估平均值与实测难度散点图

表2 教师整卷难度预估均值与整卷实测难度对比

图5把6套试卷的所有题目进行编号并按照实测值从低到高排列；将每道试题对应的教师平均预估难度画成曲线图．从宏观来看，预估难度围绕实测难度上下波动，虽然个别试题偏差较大，但总体走向一致，说明命题教师对试题的难易认知清晰，能够总体把握．从微观来看，在曲线的前半段，预估值比实测值偏高，在曲线的后半段，预估值偏低．教师对实测中较难试题的难度预估值偏容易，对实测中比较容易试题的难度预估值偏难，难度适中的试题难度估计较为准确．说明教师在进行难度估计时，具有趋中的心态，对较难或较易的试题不敢给出更低或更高的数值，对太易或太难的题出于对试题质量评价的担心，不会给出得分过高或过低的评价．对阅卷环节的具体评分标准不甚了解，对评分过程对试题难度的影响还缺乏实证的资料和研究，例如有两个省份，全卷平均分相差20分左右，但最后一个大题的得分率相差无几，即两省的平均水平存在差距，但高水平的考生差距很小．对评卷教师评分质量控制的一些要求，如分数分布、分数方差等，也可能造成评分趋中的情况．这一点与2017年相似，没有大的改观．

图5 2018年教师平均预估难度与实测难度关系

2.2 典型试题预估结果分析

从图5中可以看出，个别试题预估难度与实测难度差异较大，误差分为偏高和偏低两种情况．将2017年和2018年试题难度预估与实测难度差距较大的试题列成表3和表4．每年分别选取了预估偏高和偏低偏差最大的两个题，表中差距的正值表示预估难度值高于实测难度值，负值表示预估难度值低于实测难度值．

表3 2017年试题难度预估与实测难度差距较大的试题

表4 2018年试题难度预估与实测难度差距较大的试题

通过对表3、表4的分析可以看到，难度预估差异较大试题的特点是：预估平均值偏高的试题都是题型比较新颖的试题，考生不熟悉题目的表述、解题的方法和答题的要求．预估平均值偏低的试题都是比较常规的试题，包括思考的深度要求不高，思维量不大，以常规计算为主的试题．下面以Ⅱ卷理科第2题和Ⅲ卷理科第18题为例进行分析．

例1（2018年Ⅱ卷理科第2题）

A．9 B．8 C．5 D．4

该题主要考查集合的概念和集合的表示方法，考查对圆的方程及其几何意义的理解．要求考生找出图中圆内格点的数量[2]．教师预估的平均值为0.862 1，实测值为0.472．

阅卷了解到的情况表明，考生对二元数组表示的集合元素理解有误，认为是两个元素．其次从表5可以看出，选项C和D的干扰性最大，选择的考生都达到20%左右，说明考生对格点的概念还没有完全理解和掌握，只认为坐标轴上的点才是满足条件的点，而(-1, 1)，(1, 1)，(0, 0)，(-1, -1)，(1, -1)等也是不等式的解．

表5 选项统计

例2（2018年Ⅲ卷理科第18题）

某工厂为提高生产效率，开展技术创新活动，提出了完成某项生产任务的两种新的生产方式．为比较两种生产方式的效率，选取40名工人，将他们随机分成两组，每组20人．第一组工人用第一种生产方式，第二组工人用第二种生产方式．根据工人完成生产任务的工作时间（单位：min）绘制了如下茎叶图：

（1）根据茎叶图判断哪种生产方式的效率更高？并说明理由；

（2）求40名工人完成生产任务所需时间的中位数，并将完成生产任务所需时间超过和不超过的工人数填入下面的列联表；

超过m不超过m 第一种生产方式第二种生产方式

（3）根据（2）中的列联表，能否有99%的把握认为两种生产方式的效率有差异？

该题考查考生对茎叶图和独立性检验原理的理解与应用能力以及数据分析处理能力．教师预估的平均值为0.506 8，实测值为0.744．

该题第一问是开放性问题，参考答案给出了4个理由，考生只要答出其中的一个就可以得分．第二问是求出40名工作完成生产认为所需时间的中位数，并填写列联表．第三问是分析两种生产方式是否有差异[2]．总体来说该题给出的条件具体、明确，设问直接，只需要按照公式进行计算，不需要进行更加深入的思考．所以该题得10分的考生达到12%，得满分12分的考生达到28.8%．教师在评估的时候认为该题叙述较长，其中的数值较多，第三步还要进行一些计算，所以将该题评估为中等难度．从图6可以看出，数学试卷总分在40分左右的考生，其在该题的得分率达到0.5以上．

图6 2018年III卷理科第18题难度分布

该题预估偏低还有一个原因，就是自从新课标中统计与概率内容增加后，由于是新增加的内容，教师缺乏教学经验，相关的教学参考资料也不够充分，所以考试的结果一直不很理想，历年的统计与概率试题得分都偏低．受此影响，2018年命题教师对该题的预估值偏低．经过十多年的教学实践，教师积累了较多的教学经验，教学参考资料也在逐步丰富，所以教学效果有所改善，试题的得分率有所提高．

2.3 典型教师预估结果分析

比较两年的预估结果，T3（T12[1]）（表示T3是文[1]中的T12教师，下同）老师是典型的两年预估都偏高的教师，T12（T6[1]）和T7（T11[1]）两位老师是先高后低的情况，T2（T2[1]）、T11（T3[1]）和T10（T10[1]）3位教师预测准确度两年很高，两年预估都偏低的老师不存在．

因为没有两年都估计偏低的教师，因此将教师分为难度预估偏高、比较准确和预估值不够稳定3组进行深入分析．可以发现重点高校的教师或科研水平比较高的教师一般预估值都高于实测值，原因应该是其所教授的学生水平比较高或自己的思路比较灵活，这部分教师以自己的学生做参照或者以自己的水平做参照，认为一般的试题甚至较难的试题学生都应该会做，所以预估结果偏高．一般高校的教师或主要从事教学工作的教师预估比较准确，因为他们所教的学生接近全国的平均水平，以这些学生为基准，预估的结果比较准确．预估值不够稳定的教师一般是参加高考命题时间较短的教师，他们对学生的水平还没有形成比较清晰、稳定的认识，没有参照和依据的标准，所以一般预估的值比较低，而且估计的不够准确、不够稳定．

3 思考与讨论

（1）每年在难度预估以前，要将前一年教师预估结果与实测数据进行对比分析，并且根据每个人的不同的预估模式，进行有针对性地分析和提示，提出改进建议．这样可以增强教师对学生的水平、作答习惯和所熟悉的题型的认识，进行主动的自我调控，有助于提高预估的准确性．

（2）多年参加命题工作的教师预估的难度比较准确，说明命题经验在预估难度时发挥了重要的作用．为使这些经验能够传承，在整个命题组发挥作用，在每年的命题前布置命题任务和命题要求时，可以邀请这些教师介绍和交流自己的经验，互相借鉴，形成规律性的认识．

（3）要进一步加强对新教师的培训，不但是命题工作经验，而且包括难度预估的经验传授，这将有助于提高新教师对试题难度预估的精度．

（4）一些新题型学生不够熟悉，所以作答分数都低于预估分数．因此对高考命题时出现的新题型首先要加强试测，取得第一手资料，根据试测结果对全体考生进行数据模拟分析，得出新题型对难度的影响．在实际考试中使用新题型时，要加强研究，反复探讨，根据试测的数据和模拟结果，集体预估校准，以便得到比较准确的估计．

（5）努力克服预估过程的趋中现象．在向教师分析前一年的预估结果时，要特别指出对难题预估偏高、对易题预估偏低的现象，要指导教师，对照往年的难题和易题，摒除趋中心理，真实预估难题和易题的作答难度，给出合理的估计．

（6）教师预估后的命题组集体平均值优于个人的预估值，因此在每次预估以后，将命题组的集体预估值进行平均后反馈给教师，要求教师据此再进行预估，这样第二次的预估值将更为准确．

（7）加强对中学教学情况和学生学习情况的调研，了解学生的真实水平、作答特点和作答习惯以及熟悉的题型．这样能更好地预估试题难度，进而有针对性地调控试题难度，达到试题水平和考生水平的恰当契合．

（8）加强对于实测数据的统计分析与研究．实测难度受到题目难度、题型、考生群体水平、阅卷情况等多因素影响，可利用经典测量理论、多元概化理论等测量方式，进一步研究难度与各个影响因素间的相互关系，并将研究结果反馈于教师，使其在预估难度的过程中发挥校正作用．

（9）对于各类题型的考生分数分布进行深度挖掘，总结阅卷教师在不同题型、不同难度试题上的评分方式与习惯．并针对具体情况在难度预估的过程中对结果进行修正与微调．

[1] 任子朝，佟威，赵轩，等．高考试题难度预估研究[J]．数学教育学报，2018，27（5）：13-16．

[2] 教育部考试中心．高考理科试题分析（语文、数学、英语分册）2019年版[M]．北京：高等教育出版社，2018：164-165，232-235．

Research on Calibration and Improvement of Difficulty Estimate of College Entrance Examination Questions

REN Zi-zhao, TONG Wei, ZHAO Xuan

(National Education Examinations Authority, Beijing 100084, China)

Based on the analysis of the difficulty estimate results of the 2017 College Entrance Examination, this paper makes a more in-depth analysis of the difficulty estimate results of the 2018 College Entrance Examination. Before the prediction of 2018, explain the results of the difficulty estamate and analysis of 2017 test questions to the examiners in detail. Compare the predicted results of teachers with the actual test data. Combine the test questions, analyze the reasons for the errors, and give some suggestions for each person. After the actual test in 2018, we compare the predicted data with the measured data. The results show that the errors of the predicted data of the examiners are reduced, the accuracy of the predicted data is improved significantly, and the average predicted value of the examiner group is better than that of the individual. Therefore, in order to improve the accuracy of the difficulty prediction of the test questions, we should strengthen the training and feedback of the examiners, give targeted guidance to everyone, and carefully evaluate the new types of questions in the college entrance examination, discuss them collectively and draw conclusions. At the same time, we should strengthen the investigation of middle school teaching and students’ learning to understand the students' real level, answering characteristics, answering habits and familiar test types.

college entrance examination; estimated difficulty; measured difficulty; statistical analysis

2019-10-10

国家教育考试科研规划2017年度课题——新高考不分文理科后的数学命题研究（GJK2017005）

任子朝（1961—），男，北京人，研究员，主要从事数学教育、教育测量研究．

G632.479

1004-9894（2019）06-0001-04

任子朝，佟威，赵轩．高考试题难度预估的校准与改进研究[J]．数学教育学报，2019，28（6）：1-4．

[责任编校：周学智、张楠]