基于剔除抄袭因素和学生能力因素的题目难度预测研究
——以《电磁场与电磁波》习题为例

2019-12-31 03:07王春莹朱笑莹

中国教育信息化 2019年23期

王诗，吴瑶，王春莹，朱笑莹

（辽宁工程技术大学电子与信息工程学院，辽宁葫芦岛 125100）

一、引言

在高等院校的教学中，习题布置是帮助学生巩固课堂教授的知识点、考察学生对知识点的掌握程度的重要手段，是一种被广泛使用的教学评价方法。针对学生不同的学习阶段和不同的教学目的，教师需要在不同情况下布置难度不同的习题以满足教学期望。因此，对题目难度进行量化分级对于教育的改革发展有着重要帮助。合理把握题目难度可以帮助教师有针对性地命题，使题目难度达到预设效果，使教师能够更好地规范其对概念、方法及其关系的教学，帮助教师更加科学地在教学的不同阶段进行相应难度题目的布置，从而提高教学质量。同时，难度量化分级可以使学生对题目的难易程度有更为直观的判断，根据所做题目的难度，更客观地了解自身学习水平。《电磁场与电磁波》是一门内容概念抽象、公式繁多、课程体系严谨且对电子与通信技术学科极为重要的科目[1]。所以对《电磁场与电磁波》这门科目进行难度量化分级有着重要意义。

经典测量理论（Classic Test Theory，CTT）采用通过率法表示题目难度；项目反应理论（Item Response Theory，IRT）用项目特征曲线的拐点位置反映该题的难度。CTT或IRT 框架下的难度参数，都需要通过实际测试考生获得，这种预测方式的实施具有一定的局限性[2]。这种局限性主要体现在获取大规模样本存在极大的操作难度。因此早期的难度预估主要依赖专家主观经验直接判断题目难度，这种方法是比较传统并广泛使用的一种难度预估方法。近年来，随着信息技术的普及和深入，数据分析在教育领域的应用也越来越普遍，测试样本收集导致的局限性不再明显，通过被测样本数据进行难度量化分级在现实情景中应用的可操作性逐步提升。

然而，实践中对于题目难度的预估往往不能尽如人意，其根本原因在于各因素对难度的影响是十分复杂的。2006 年，LEONG See Cheng 总结了四个影响试卷难度的因素：内容方面，主要指知识量；材料方面，指词汇和信息呈现方式等难度；被试者因素，主要指被试者的心理和生理等素质；命题者的决策，指命题者对考试所期望的难易程度[3]。王希年提出难度设计与预测应结合题目本质难度与考生状况进行，题目的得分率与其难度因素和考生学业水平二元相关[4]。通过文献分析得知，考虑抄袭因素和学生能力对难度分级影响的研究相对较少，但抄袭因素和学生能力是难度分级研究中不可忽视的影响因素，故本研究为难度量化分级提供了更为完善的理论依据，做出了如下贡献：

（1）在教学实践中，布置习题作业后收到的结果，受多方面因素影响，使得习题的情况往往无法客观准确地反映教学效果的好坏。这些因素包括：①习题相对固定，难以避免抄袭；②频繁更新习题，质量难保证；③使用多样化的题组，难度难以统一把握。针对上述问题，笔者设计开发了自定义习题系统，可以定制题干相同但题目内具体数值不相同的多套习题。

（2）通过正确率客观量化题目难度，排除人为量化题目难度时专家经验、情感等个人主观因素的影响，客观量化题目难度。同时剔除了抄袭因素对实验数据的影响，通过对实验数据进行卡方检验，得到抄袭因素对正确率影响的理性判断。

（3）探究学生能力因素对习题对错的影响，作者根据《电磁场与电磁波》科目特征，对相关科目进行相关性检验，得到针对《电磁场与电磁波》可以代表学生能力因素的科目。

（4）综合考虑抄袭因素对实验数据正确率的影响和学生能力因素对题目对错的影响，通过对各影响因素和题目对错进行回归性分析，成功建立《电磁场与电磁波》题目难度预测模型。

通过剔除抄袭因素，使被测样本数据的代表性得到保障。同时，考虑学生能力对难度分级的影响，使难度预测模型更为完善。本文希望通过以对《电磁场与电磁波》科目难度预测模型的建立为例，给出剔除抄袭因素并考虑学生能力对难度分级影响的更为完善的建模方法。

二、通过正确率反映题目难度

1.题目难度的概念

《教育测量与评价》一书中将题目的难度定义为被测试者完成题目（项目）时所遇到的困难程度[5]。难度具有双重特性：一是客观性，难度由其本身的复杂程度所决定；二是相对性，难度除了与测试内容本身的难易程度有关外，还与被测者的知识经验和测验的编制技术有关。

2.难度的表示方式

反映题目难度的指标称为题目的难度系数，也简称为题目难度。问题解决者在解决问题的过程中所花费的时间越长、正确率越低，说明问题越难，反之，则说明问题相对容易[6]。在经典测量理论中，通常以通过率作为难度指标，表示为:

P 表示难度系数，N 为全体被测人数，R 为答对或通过该项目的人数。难度系数可以理解为“正确率”。故本文中对难度的定义如下：正确率数值越大，可以认为题目总体越容易，反之，正确率数值越小，则表示题目难度越大。

三、自定义习题生成系统

自定义习题系统是利用python 语言生成所需的LaTeX 源码，进而利用LaTeX 组卷排版生成可定制组数且各组题型相同、题目中数值不同的n 组试卷，其中n为定制组数。该系统可以实现多种功能：①同时定制题干相同但题目内具体数值不相同的多套习题；②自动生成规范示意图；③自动计算参考答案；④自动排版。通过该套系统，在避免学生作业抄袭的同时，也大幅提高了教师的命题效率，并形成标准化的批阅流程和客观评价指标。

四、研究方法和步骤

笔者使用正确率描述题目难度，相关科目成绩描述学生能力，假设通过难度和学生能力可以判断学生能否做对相关习题。

在研究开始，笔者通过开发的自定义习题系统定制题干相同但题目内具体数值不相同的多套习题，将该套习题和传统习题分发给知识水平相近的两组学生完成，得到作业评估数据的对错结果。

图1 自定义习题系统生成的三道习题

如图1 所示，通过自定义习题系统生成三道习题A1、A2、A3，三道习题题型、题干相同，但题目内具体数值不相同。

本次课程中，一共进行了两次关于剔除抄袭因素影响的实验。试验中学生分组按照教授该课程教师的不同进行分组，每组学生该课程的授课教师相同。

（1）第一次实验，一组学生使用传统的习题布置方式；另一组学生使用定制化习题系统批量生成习题方式。

（2）第二次实验，一组学生（第一次试验使用定制化习题系统批量生成习题方式）使用传统的习题布置方式；另一组（第一次试验使用传统的习题布置方式）学生使用定制化习题系统批量生成习题方式。

下文将做“题干相同但题目内数值不同”题目的学生组称为甲组、做传统题目的学生组称为乙组。

1.抄袭因素的统计检验与排除

本文将以量化分析和统计检验的研究方法，分析甲组数据和乙组数据的统计特征，检验抄袭因素是否真正对习题正确率产生显著影响，如果有影响，在接下来的难度估计模型建模中，只使用剔除抄袭因素影响的数据。徐敏在论文中调查了学生独立完成作业的情况，并结合习题正确率，指出当存在抄袭情况时，习题正确率会提高[7]。本文以量化分析和统计检验的研究方法，分析甲组数据和乙组数据的统计特征，检验抄袭因素是否真正对习题正确率产生显著影响。在检验开始，笔者首先提出以下假设：①如果存在抄袭，会使得正确率与不存在抄袭不同；②甲组习题每题的数值不同，笔者因此假设甲组不存在抄袭；③如果甲组和乙组经检验来自于不同总体，且乙组正确率较甲组高，认为乙组存在抄袭行为。

确立了统计检验的前提条件后，笔者对两组样本进行卡方检验，判断两组样本是否来自同一总体，操作过程如下：①确立卡方检验的检验水准和检验假设；②对检验统计量和概率值进行求解，并将概率值和检验水准进行比较，从而对两组样本是否来自同一总体做出判断。具体实现的理论和方法如下：

（1）建立检验假设，确立检验水准

本文中，运用卡方检验的检验方法，分析两组样本数据的关联性，判断两组样本数据是否来自同一整体。检验开始，首先要确立检验假设和检验水准。

以四格表资料为例，见表1，该表统计了某道题的对错情况，判断甲组和乙组的正确率是否有差异。其中a、b、c、d 是两个样本率比较的基本数据，R1、R2、C1、C2是R 行、C 列边缘合计数据。

提出假设H0和H1，并确定检验水准为α。令两组总体的正确率分别为π1和π2，假设两组的总体正确率相同，检验两组样本率是否由于抽样误差引起的检验水准为0.05。其统计学符号表示为：

H0：π1=π2（甲组和乙组总体正确率相等）

H1:π1≠π2（甲组和乙组总体正确率不等）

α=0.05

表1 卡方检验数据四格表

如果假设H0成立，则两组总体正确率相等；如果假设H1成立，则两组总体正确率不等。

（2）计算检验统计量和概率

假设和检验水准确立后，需要对具体的检验统计量和概率P 值进行求解。通过四格表数据计算得出γ2的大小，结合自由度ν，从而确定概率P。最后将概率P 值和检验水准α 进行比较，从而对总体做出判断。

对于四格表资料，计算统计量χ2的四格表专用公式为：

四格表的自由度为：ν=（R-1）（C-1）=（2-1）（2-1）=1，式中R 为行数，C 为列数。

根据χ2，在ν=1 的卡方分布曲线下找到比χ2更极端的尾部面积，即为P 值。在四格表的χ2检验中，其自由度为1，常用的χ2界值是

将概率P 值与α 进行比较，P≤α 则拒绝H0，得出两样本来自不同总体的结论；P＞α，则不拒绝H0，认为两样本来自同一整体。

2.难度预测模型的建立

选取典型的《电磁场与电磁波》习题作为相关性分析的对象，将电子与通信技术学科学生部分科目的成绩与《电磁场与电磁波》习题的答题情况进行量化分析，得到与习题之间的联系有统计学意义的科目。最后对这些数据进行logistics 回归分析，得到相应的回归系数，从而建立《电磁场与电磁波》习题难度估计模型。本文通过二项分类logistic 回归算法，用logistic 函数预测一个样本属于正样本的概率值，从而建立难度预测模型。模型建立的过程如下：①作者首先通过单变量分析从众多变量中筛掉一些可能无意义的变量，再将剩余变量构建logistic 回归模型。②模型建立后，作者通过似然比检验的算法，对回归模型进行全局性检验，从而判断整个模型的拟合情况。③最后根据logistic 回归参数估计方法，用最大似然估计方法去求模型具体的参数数值，从而建立难度估计模型。具体实现的理论与方法如下：

（1）单变量分析

考虑到《电磁场与电磁波》科目的内容和特点，笔者选取了一些科目的成绩作为能够代表学生能力量化指标的样本数据。在进行logistic 回归前，由于变量较多，笔者先通过单变量分析（卡方检验）考虑所有自变量和应变量之间的关系，筛掉一些可能无意义的变量。为了避免遗漏某些重要科目，在分析时，作者将P 值放宽，定为0.1。卡方检验中，采用有与无一个自变量的-2LL 改变量作为卡方统计量，具体操作步骤与上文抄袭因素的统计检验相同。

（2）回归模型的全局性检验

回归模型建立后，需要对整个模型的拟合情况做出判断。以单变量分析筛选后的各科成绩及《电磁场与电磁波》习题难度作为自变量，《电磁场与电磁波》习题对错作为应变量。在logistic 回归模型拟合中，可采用似然比检验进行全局性假设检验。

设由m 个观察值X1，X2，…，Xm组成的随机样本来自密度函数为F（X，βj）的总体，其中βj为未知参数。要检验的假设为：

H1:各βj（j=1，2，…m）不全为0；

检验水准为α。

求解似然比统计检验量的具体步骤如下：①先拟合不包含待检验因素的Logistic 模型，求对数似然函数值lnL0；②再拟合包含待检验因素的Logistic 模型，求新的对数似然函数值lnL1；③最后比较两个对数似然函数值的差异，若两个模型分别包含1 个自变量和P 个自变量，则似然比统计检验量G 可表示为:

该统计量服从卡方分布，其自由度为自变量个数的改变量。

似然比统计量取值在0～1 之间，取值大小表示模型的拟合效果，其值越小，越接近于0，说明模型拟合效果越好。

（3）求解回归系数，建立难度预测模型

本研究中，应变量Y 为《电磁场与电磁波》习题对错，其分布符合二项分布，对记为1，错记为0。自变量分别为《电磁场与电磁波》习题难度和学生能力。

根据logistic 回归参数估计方法，用最大似然估计方法去求模型的参数，估计出在其它自变量固定不变的情况下，每个自变量对题目结果取1 或0 的概率的数值影响大小。得出自变量所对应的回归系数，最终建立出相应的难度预测模型为：

五、研究结果与分析

1.剔除抄袭因素

（1）正确率差异分析

经过实验取得的部分习题正确率如表2 所示，从中可以发现以下现象：①正确率高（高于80%）的习题中，两组样本数据正确率差异并不明显。②正确率适中或偏低（低于80%）的习题中，两组样本数据正确率存在明显差异。

根据上述现象，我们做出以下判断：①对于正确率高（高于80%）的习题，学生发生习题抄袭行为的概率小。②对于正确率适中或偏低（低于80%）的习题，学生发生习题抄袭行为的概率更大。

（2）卡方检验数据分析

以《电磁场与电磁波》某一习题数据为例，对统计数据进行卡方检验，判断两组样本是否来自同一整体。得到表3 和表4：①由表3 可知报告记录缺失值情况，本例中180 个数据皆为有效值，无缺失值。②由表4 可知，χ2=35.434，P=0.000；似然卡方比值为35.731，P＜0.05，在0.05 检验水准下拒绝H0，说明两组数据样本来自不同的总体，甲组和乙组的正确率差异具有统计学意义。

对于正确率适中或偏低（低于80%）的习题，使用相同数据的题目，正确率会高于使用不同数据的题目。正确率高的数据样本来自乙组，正确率低的数据样本来自甲组。

由上述分析可得，在0.05 的检验水准下，甲组和乙组经检验来自于不同总体，且乙组正确率较甲组高，故认为乙组存在抄袭行为。

表2 部分习题正确率

表3 案例处理结果

表4 卡方检验结果

2.学生能力因素的分析结果

在将每个变量放入难度估计模型前，采用单变量检验的方法，检验上述各科目与《电磁场与电磁波》习题对错之间有无联系。将典型习题对错结果作为应变量，各科目成绩作为自变量，通过多次的关联性分析，得出《高等数学下》与《大学物理下》两门课程与《电磁场与电磁波》关联性强的结论。

经过整理得出，在检验水准α=0.10 下，《电磁场与电磁波》部分典型题目与《高等数学下》和《大学物理下》两门课程的关联性情况如表5 所示。

表5 典型习题对错关联性分析结果

由该结果可初步认为，在0.10 的检验水准下，变量《高等数学下》成绩、《大学物理下》成绩与应变量之间的联系具有统计学意义。

3.难度估计模型建立

（1）在表6 中，Model 一行可以看到logistic 回归模型中所有参数是否均为0 的似然比检验结果。P＜0.1 表示本次拟合的模型中，至少有一个变量的OR 值有统计学意义，即模型总体有意义。故《高等数学下》成绩、《大学物理下》成绩、题目难度对学生能否做对《电磁场与电磁波》习题有显著影响。

（2）在模型拟合优度检验中，P=0.444，P 值不小于检验水准，即P＞0.1，故我们认为当前数据中的信息已经被充分提取，模型拟合优度较高。

（3）由表7 可知，由3 个自变量获得了logistic 回归概率预测模型，且这3 个变量都有统计学意义。令《高等数学下》成绩为A、《大学物理下》成绩为B、习题难度为C。A、B、C 所对应的回归系数分别为：0.020、0.014、4.584。结合上文公式和数据可建立预测模型为：

表6 模型系数的综合检验

表7 参数估计值

六、结论

本文运用量化分析和统计检验的研究方法以及对比测试的研究方法，对《电磁场与电磁波》习题难度估计模型的建立进行了较为深入的研究，现将本文研究结论总结如下：

通过正确率客观量化题目难度，排除人为量化题目难度时专家经验、情感等个人主观因素的影响，客观量化题目难度。通过开发的自定义习题生成系统布置《电磁场与电磁波》课程习题，可以排除抄袭因素对难度的影响，使得对题目难度的研究更为客观。

对于《电磁场与电磁波》这门理论性、系统性强的课程，可以通过《高等数学下》和《大学物理下》的成绩代表学生的能力。《电磁场与电磁波》课程涉及大量数学计算，并与《大学物理》中“电磁学”知识紧密联系，因此，理论分析和具体事例都说明本文提出的学生能力代表方式具有可取之处。

最后，通过排除抄袭因素实验数据的正确率、被试者《高等数学下》和《大学物理下》成绩得出《电磁场与电磁波》课程难度估计模型。该模型可以运用在高等院校电子与通信技术学科、物理学学科、数学相关科目的习题布置中，帮助教师针对不同的教学目的布置难度适宜的习题。

受条件和时间所限，本研究存在以下可以提高之处：研究中涉及很多变量，虽然考虑到了对无关变量的控制，但在实际操作中无法完全控制无关变量的影响。同时，受数据数量获取的限制，虽然数据基本符合研究对样本的要求，但如果能够增加样本的数量，则可以使本文的研究质量得到进一步提高。

基于剔除抄袭因素和学生能力因素的题目难度预测研究——以《电磁场与电磁波》习题为例