智能化考试系统组卷评估研究*

2016-06-22 01:57杜向然吴树锦王文清

天津职业院校联合学报 2016年5期

关键词：机器学习

杜向然，吴树锦，王文清

(天津海运职业学院，天津　300350)

智能化考试系统组卷评估研究*

杜向然，吴树锦，王文清

(天津海运职业学院，天津300350)

摘要：组卷功能是计算机考试系统的核心功能之一。它是以组卷评估函数为导向，通过组卷算法从试题库中抽取出满足用户要求的试题。组卷评估函数的好坏直接决定了系统组卷质量的优劣。目前，虽然市场上的考试系统很多，但是组卷质量问题和试题库的后期更新和维护仍是制约着系统进一步发展的主要障碍之一。本文提出了组卷评估函数智能化的方法，它不仅可以节省大量的人力和物力，更重要的是它可以在没有教育专家干预的情况下，通过“自身”学习不断完善评估函数的准确性。

关键词：考试系统；组卷模型；机器学习；评估函数

一、引言

计算机考试系统是计算机辅助教学的重要部分之一，它的出现不仅有效地提高了出卷的效率和考试的公平性，而且避免了传统考试所花费巨大的人力和物力。一套完整的考试系统主要包括五个部分：试题库模块、试卷库模块、组卷模块、考试模块和试卷分析模块，其中最重要的部分，也是最体现考试系统智能的部分是组卷模块。组卷模块的主要功能是通过组卷算法从试题库中，以评估函数为导向快速和准确地抽取出满足用户要求的试题集，它是决定试卷合理与否的关键部分。

计算机考试系统的智能化不仅可以使考试系统可以根据考生的实际情况动态地调整考试内容和考试难度，而且系统可以通过分析考试结果不断调整试题中的相应参数，从而实现系统的“自身”完善。目前，智能考试系统的主要集中于组卷算法的研究，如：2009年王凤蕊实现了基于差分差分进化算法的智能组卷系统；2014年南京航空航天大学的王友仁和他的研究团队提出用免疫遗传算法实现智能组卷；2011年袁桂霞提出用遗传算法对多目标的组卷问题实现求解等。考试系统评估函数智能化的研究，目前还处于起步阶段。

计算机考试系统评估函数是通过试题和考试的相关参数对试卷进行评估。如果评估函数不准确很可能导致组卷算法抽取不出理想的试卷，从而使考试结果不能反映出考生的真实水平。传统考试系统中试卷参数都是由教育专家给出的，如果没有一个强大的教育团队支持的话，考试系统是很难准确地评估每张试卷的，而且这种方式产生的试卷很容易受到人为主观意识的影响。考试系统的评估函数的智能化可以减少系统开发对于教育专家的依赖，从而节省系统开发的高额费用，降低系统的维护和更新成本。

本文提出用粒子群算法和遗传算法对评估函数进行优化。借助于机器学习的算法，考试系统在没有人为干预的情况下不断完善试题库中每道试题的属性，以使评估函数可以更好地引导组卷算法抽取出合理的试卷。

二、组卷评估

组卷是多目标、多约束的优化问题，它的数学描述：假设在试题库有n个候选试题Q1,Q2, …Qn，组卷要求从试题库中找出满足m个约束条件C1C2…Cm，使得目标函数的值最大。

组卷问题的(数学)模型的建立涉及到试卷的目标(评价)函数，试题的相关属性、属性的约束条件或范围和变量说明等等。

(一)组卷目标

组卷目标是从试题库中抽取出满足约束条件的试题集。这些约束条件是由出卷人(教师或专家)指定的，如试题类型、难度系数、考点、答题时间、分值等。组卷目标(T)包括信度(R)、效度(V)、试题难度(Dif)和试题区分度(Dis)，公式表示如下：

T=w1R+w2V+w3Dif+w4Dis

(1)

其中wi是权重参数，它表示每个分量的重要程度。

信度主要考察试卷能够在多大程度上真实地反映出应试者能力，也可以理解为试卷的可信程度。信度的测试最常见的是重新测试法。重新测试法是指在不同的时间和不同的地点对同一批测试者进行多次测试，测试结果之间的比值是试卷的信度。比值在0.9到1之间，表示试卷信度在合理范围内，否则认为试卷信度不合理。

试卷效度是判断试卷内容符合教学大纲要求的程度，它的计算公式如公式(2)所示。

(2)

其中vij和xij分别表示题库中第i种题型的第j道题是否满足教学大纲要求和是否包含在试卷中，TN表示试卷中的题量。

试卷效度的取值范围是0到1之间，当效度值趋向0时，表示试卷符合教学大纲的程度较低；当效度值趋向1时，试卷符合教学大纲内容的程度较高。效度取值是由出题人给出的，合理的取值范围是在0.8到0.95之间。

试卷难度表示试题的难易程度，它常常用试题的难度系数与试题分数之积表示。常见的试题难度分为易、较易、中等、较难和难5个等级，相关的系数分别用d1、d2、d3、d4和d5表示。试卷难度可以表示为试题难度之和与试卷总分数之商，其计算公式如(3)所示。

(3)

试卷区分度是试卷区分应试者实际能力的程度，它是试卷中包含的所有试题的区分度之和。试卷区分度和试卷难度之间没有直接关系，它是评价试卷合理性的重要指标之一。试题区分度的计算方法是该试题高分数平均值与低分数段平均值之差，它的初始值是由专家给出的。试卷区分度是试卷中所有试题的区分度之和，计算公式如下。

(4)

其中fij表示第i种题型的第j道试题的区分度。一般情况下，区分度分成三个等级，区分等级为k的试题在试卷中的百分比FPk可以通过下式计算出。

(5)

(二)组卷约束条件

组卷约束条件是决策变量的取值范围，它是组卷质量的重要保证。常见的约束条件包括：题量、总分数、章节(项目)、考试时间、知识点和能力层次等等。这些条件的具体要求如下：

1.题量分布。题量(TN)的计算公式如公式(6)所示，其中TN表示题量。

(6)

变量xij表示第i种题型的第j道题是否被选中，当xij=1时，表示该题被选中；当xij=0时，表示该题未被选中。

2.总分数的分布。试卷总分数(TS)的计算公式用公式(7)表示：

(7)

(8)

6.知识点分布是根据教学大纲的内容划分的。对于一份合理的试卷，知识点的覆盖面不仅要广，而且要详略得当。知识点的具体比例是由出题人员给出。题库中的知识点由矩阵K表示，其中kij表示第i章第j题属于的知识点数。如kij=1表示第i章第j题属于第一个知识点。公式(8)表示试卷中第e个知识点Ke的值。

(9)

7.能力层次分布是把教学内容按照不同的能力要求划分成不同的层次，常见的层次划分是：了解、(熟悉)理解、掌握和灵活运用四个层次。矩阵P表示不同章节不同试题的能力层次，Pij取值范围是从1到4的整数，分别表示了解、(熟悉)理解、掌握和灵活运用。

不同能力层次的试题在试卷中的比例是由出题人给定的，计算公式如(9)所示。

(10)

8.曝光度约束

试题曝光度是指试题使用的次数，它是衡量试题有效性和保密性的重要指标。试题的曝光度越小证明该试题越少被使用，这样的试题更能考察出学生的真实水平。试卷的曝光度是试题曝光度之和，常用公式(13)表示。

(11)

其中eij第i种题型的第j道试题的曝光度。

9.约束条件中的试卷难度和试卷区分度与目标函数中的概念和数学表示相同，限定条件也是有出题人或教育专家给定的。

三、智能优化算法

考试系统的试卷评估模块的需要在(上面提到)9个因素的限定下，通过目标函数对试卷的优劣进行评价。评估系统中涉及到大量的参数，这些参数的初始化一般都是由教育专家凭借自身经验给出的，而且它们往往是静态的，一旦设定就不会改变。智能化的评估模块可以借助人工智能的优化算法，通过系统本身的不断学习，自动地调整相应的参数。粒子群算法和遗传算法是优化算法中的佼佼者，它们已经被成功地应用到很多实际领域中。

(一)粒子群算法

粒子群算法是高效的优化算法之一，它模拟鸟群的捕食活动实现目标优化。粒子群算法的研究工作起步较晚，但其凭借自身的特点，它已经成功地应用到很多实际项目中，成为优化问题的研究新热点。

粒子群算法优化时，每个粒子代表一组需要优化的参数，由多个粒子组成的粒子群表示优化问题的解空间集合。粒子群算法的最终目的是在解空间中找到适应度最高的粒子，将其作为优化问题的最优解。粒子群中的每个粒子包括两部分信息：位置信息和优化速度信息。位置信息由n维向量表示，它表示需要优化的参数。

对于考试系统而言，位置信息表示组卷约束条件的参数。每个粒子的速度与相应的位置信息相对应，它用于调节每个粒子的优化速度，避免相应属性陷入局部极值。粒子群位置信息和速度信息的更新是通过下列公式实现的。

S(t+1)=w·S(t)+C1·rand·(LBest-S(t))+C2·rand·(GLBest-S(t))

(12)

L(t+1)=L(t)+S(t+1)

(13)

其中S(t+1)和L(t+1)分别表示第t+1代的粒子位置信息速度信息。LBest是每个粒子全局极值，它是粒子在更新过程中遇到的位置信息最优值。GLBest代表粒子群中最优粒子位置信息。参数C1、C2和rand控制优化的速度和方向，这些参数一般都是靠试验给出答案。

(二)遗传算法

遗传算法是一种学习算法，它模拟人类的进化过程，通过选择、交叉和变异等操作在假设空间中寻找最优解。算法中每个染色体代表一组需要优化的参数，常用N维向量表示。多个染色体构成群体。染色体常用二进制的编码方式表示。每一代进化完成时，适应度较高的染色体会被直接进入到下一代，而适应度较低的染色体会被淘汰掉。遗传算法还会通过遗传算子决定进行交叉和变异的染色体，从而产生下一代的染色体。图1给出了遗传算法的标准优化过程。

图1　遗传算法流程图

遗传算法优化组卷评估函数时，每个染色体表示一组组卷约束条件的参数。每个染色体的适应度通过组卷目标函数计算。优化过程中需要的遗传算子则需要通过实验得出。如果现有的遗传算子的无法满足组卷评估的要求，则可以根据组卷的特点对遗传算子进行改进。种群中交叉和变异的概率也是需要通过实验得出的。

除了遗传算法和粒子群算法的以外，还有很多有效的优化算法，如蚁群算法、鱼群算法等。至于哪个算法能更加贴近考试系统的特点，需要进一步的研究给出答案。

四、总结

考试系统评估模块的智能化不仅可以摆脱系统维护对教育专家的依赖，而且可以使考试系统在没有人为干预的情况下，通过对考试结果的分析实现系统进化。本文从理论上提出用粒子群算法和遗传算法等优化算法实现考试系统评估函数智能化的方法，详细地给出了组卷评估函数所需要考虑的各项限定因素和组卷目标函数。该方法的建立为考试系统的智能化指明了方向，对系统智能化的实现起到指导和促进作用。目前，考试系统评估模块的智能化研究还处于探索阶段，至于哪个优化算法可以更好的提高评估函数的精度还需要进一步研究。

参考文献：

[1]杜向然，吴树锦，王文清.计算机组卷算法分析[J].天津职业学院联合学报，2015，(05).

[2]应继儒,胡立新,龙毅等.试题库随机选题数学模型的构建及实现[J].计算机应用,2000,(01).

[3]王凤蕊,王文宏,潘全科.基于差分进化算法的智能组卷研究[J].计算机工程与设计,2009,(08).

[4]王友仁,张砦,崔江,姚睿,储剑波.智能组卷系统的建模与算法研究[J].系统工程理论与实践，2014，(09).

[5]袁桂霞.自动组卷的建模和仿真研究[J].计算机仿真，2011，(11).

[6]王萌,唐培和,李春贵.基于改进遗传算法的智能组卷研究[J].计算机应用与软件,2008,(02).

[7]张志尧,陈欣,张彤.评估考试质量的数学模型[J].天津医科大学学报,2001,(02).

[8]王亚敏，冀俊忠.基于粒子群优化的考试时间安排问题的求解算法[J].计算机应用，2009,(06).

[9]袁桂霞.自动组卷的建模和仿真研究[J].计算机仿真,2011，(11).

[10]朱明,王俊普.一种智能组卷方法的研究与实现[J].微小型计算机开发与应用，1997，(05).

[11]罗毅.基于知识点-难度比例的组卷算法研究[J].武汉理工大学学报，2009，(10).

Research on Test Paper Organizing Evaluation of Intelligent Examination System

DU Xiang-ran, WU Shu-jin, WANG Wen-qing

(TianjinMaritimeCollege,Tianjin, 300350)

Abstract:Test paper organizing function is one of core functions of computer-based examination system. With test paper organizing evaluation function as orientation, and through test paper organizing algorithm, it is to extract the question items meeting the user requirements from the question bank. The test paper organizing function directly determines the test paper organizing quality of system. Currently, although there are many examination systems in the market, the test paper quality problem and the later upgrading and maintenance of question bank are still the main barriers which restrict the further development of systems. This paper presents the method to intelligentize the test paper organizing evaluation function. It can save lots of manpower and material resources, and more importantly, it is able to continuously perfect the accuracy of evaluation function through “self” learning without the interference of education specialists.

Key words:examination system; test paper organizing model; machine learning; evaluation function

收稿日期：2015-10-30

作者简介：杜向然(1982-)，男，天津人，天津海运职业学院信息工程系讲师，硕士研究生，主要研究方向是人工智能、机器学习与机器博弈。

中图分类号：TP391

文献标识码：A

文章编号：1673-582X(2016)05-0059-06

*天津海运职业学院教育教学改革研究项目《基于J2EE体系结构的智能组卷系统的设计与实现》，项目编号201305。