远程教育系统设计中的自动组卷算法研究

2010-10-20 07:27张德洪

赤峰学院学报·自然科学版 2010年12期

关键词：适应度交叉题型

张德洪

（集美大学教师教育学院，福建厦门 361021）

远程教育系统设计中的自动组卷算法研究

张德洪

（集美大学教师教育学院，福建厦门 361021）

由于计算机网络技术和多媒体技术的不断发展，远程教育已成为改革传统教育模式的动力和有效的手段，一个强大的力量.在本文中，研究了自动组卷算法在远程教育系统中的应用，分析一部分组卷策略，并提出了在组卷中应用遗传算法，测试结果表明，遗传算法的组卷速度较快.

远程学习；自动组卷；系统设计

远程教育系统突破了传统的学校教育模式的在时间和空间上的限制，它和课堂教育，广播教育，电视教育一起形成了多元化的教育制度，一个人用计算机便可以和网络连接，可以随时随地开展学习和培训.相对于其他教育模式，远程教育有着传统教育部可替代的优点，它在时间和空间上不受限制，可以资源共享，系统的开放性，促进协作等.

1 组卷策略分析

1.1 组卷的约束条件

一般情况下，教师在自动组卷时，针对试卷的质量会提出很多方面的要求，这便是试卷的约束条件.根据实际情况，组卷的具体要求可以分为以下几个方面：①章节.它指的是在试卷中各个章节所占分数的比例.②题型，它指的是在试卷中要包含各种类型的试题.③题量.它指的是在试卷中题目数量的多少.具体到每个类型的题目，指的是这类题型中包含的题目数量.④难易程度.它指的是试题的难易程度，问题分为简单，容易，中等，困难，很难5个等级.⑤区分度.试题在考生之间的区分程度，分为差，中，优三个等级.⑥认识程度.学生对试题要求掌握的知识点的掌握程度，掌握程度可以划分为了解，理解，掌握和熟练四个等级.⑦答复时间.它指的是学生要多少时间答完试卷.⑧分数.它主要指的是试卷的分数.具体到每个类型题目，指的是每个题型所占的分数.⑨曝光度.它指的是试题的平均曝光度.试题考过的次数越多那么曝光度就越大.在组卷时要抽取较小曝光度的试题.

1.2 组卷的试卷模型

基于对约束条件的分析，在组卷过程中建立与控制指标相呼应的状态空间S,试题的控制指标构成S的每行，同时还要进行编码，并且每列是题库中的指标的所有取值.在建立题库时，每到试题都输入了相应的属性指标，①问题编号，②试题类型，③所属章节，④难度，⑤区分度，⑥认知程度，⑦估算答题时间，⑧分数，⑨曝光度，⑩试卷的内容，11标准答案，12考试要求，13出题人，14出题时间，15关键字，16关键字的分值比例.依据组卷的约束条件还要考虑八维向量 (a 1,a 2,a 3,a 4,a 5,a 6,a 7,a 8)，和试题属性指标②，③，④，⑤，⑥，⑦，⑧相对应.为了减少组卷算法的复杂性和提高效率，简化处理八维向量.在组卷时按照题型将试题分类，同一题型中的试题可以不必考虑试题的题型，在组卷开始时就可以满足题量和题型所占的分数.最后试卷减掉两个维度变量，形成一个六维空间 (al,a 2,a 3,a 4,a 5,a 6).由最初的确定一份试卷转变成要确定一个n*k(这里k=6)的矩阵.这里n是试卷中的题目数量，K表示控制指标的数量.asw(s=l...n,w=1...6)表示第s道试题的w项指标.

2 遗传算法在文件审查

2.1 问题解的编码解释

采用遗传算法解决问题，首要是把问题的解空间映射为一组代码串.题库中的试题数量决定基本遗传算法的编码长度.假如题库内共有n道题，问题解可以用一个n位的二进制串来表示，具体形式是F 1，F 2...Fn.如果相应位是1这表明试题被选中，如果是0则表明试题没有被选中.这种编码的优点是简单，一但题库内的试题数量多，编码太长，操作就会不方便.在这里使用实数编码的方法，获得的可行解是试卷.一个试卷映射到一个染色体，构成试卷的试题可以映射成基因，试题题号可以直接表示基因的值，此代码可以表示成:(G1G 2,G 3,...,Gn),其中Gi(i=1,...,n),是试题的总量.在编码时要把相同题型的题目放在一起，还必须在每条染色体上的章节编码也不能相同.根据选定章节和考试题目的数量，初始种群可以使用andom（）函数随机生成.

2.2 计算群体中每个个体的适应度

在遗传算法中，要区分群体中个体的优劣可以使用适应度的大小来实现.一般来说，越大的适用度那么个体越好，越小的适应值的个体越差.首先，根据G 1,G 2,...,Gn的值，就可知道试卷中含有的试题题号，之后再组卷参数矩阵S中写入试题的属性.每个个体的适应度可以调用适应度函数来实施，在实际的应用中，我们使用下面的方法把目标函数f转换成适应度函数F'.

指数比列可以优良的个体有更多的复制机会，它还可以控制复制的数量，避免它过快的控制全部群体，增加了个体之间的竞争，因此对上面的适应度函数F'可以采用指数比例变化成适应度函数F=exp(-βF')，p取值为 -0.03.

2.3 组卷中的遗传算子

在遗传算法中，个体交叉后产生的子代代替了两个父代个体，导致父代信息迅速丢失，交叉生成新的个体不一定比父代个体好，它是不利于算法快速收敛.此外，由于初始种群形成之时，题型和分数都满足了要求条件，为了不破坏这些约束条件，我们改进了选择，交叉，变异的操作方式.①交叉操作在同种题型中进行，变异操作也在同种题型内部进行，各个题型实行独立的交叉和变异.②实行最优保存策略.交叉变异操作之后，将新生成的个体的适应度和上一代个体的适应度进行比较，如果适应度下降，那么上一代中的最佳个体要取代新一代的最差个体.此时，不变的是种群中个体的数量.这一战略可以确保最佳的个体不会被交叉变异破坏.

2.4 组卷中的控制参数

交叉操作和变异操作不会发生在所有的个体上，而是通过Pc和Pm的值来确定交叉操作和变异操作.Pc和Pm的选择会给算法的收敛性带来直接的影响，Pc和Pm越大，该算法的生成新个体的能力就越强，个体之间的适应度就更不稳定，生成新的超平面的能力就越强;若Pc和Pm越小，该算法促使个体的收敛能力就会越强，个体的平均适应度也会相对稳定，有可能成熟过早.为此我们利用自适应的理论，在运行过程中，调整Pc和Pm，使它们作为个体的适应值增加而变小，个体的适应值下降而增大.改进之后的染色体的交叉和变异在同一题型中实行单点交叉变异，这也就是说所有题型在各自独立的编码组内实行交叉和变异，在第三和第六列之间随机选取交叉点和变异点的位置，以便能够不改变所属章节和题型属性.任意选取两个染色体的交叉计算概率，并生成一个0勺随机数，比较随机数和交叉概率来确定是否实行交叉操作.如果随机数低于交叉概率，那么实行交叉，产生两个新个体.在实行变异操作时，要计算变异概率Pm比较随机数和Pm，如果小于Pm，则进行变异操作.

2.5 确定终止条件是否满足

由于遗传算法是不会自动终止的，所以没有办法知道是否已收敛到极点值.为此在产生性一代个体时都要计算每个个体的适应度.要满足两个终止条件，一是适应度值，二是是否达到已设定的次数.如果某个个体达到了适应度的要求和迭代次数，那么就可以终止循环.

3 组卷测试

为了验证采用遗传算法来自动组卷的的可行性和有效性，《计算机基础》作为实例，对编制程序实行组卷实验.在600道试题保存在题库内，单选题和多选题各200道，问答题100道，以便作出合理的试题分布的，存在各种属性值.遗传算法参数：Max Generation=300,PoSize=50,Pc 1=0.9,Pc 2=0.6,Pm 1=0.1,Pm 2=0.001，要求允许误差士3分.考试时间120分钟，满分100分.在较为复杂的组卷条件下，均出现了组卷效率低，增加使用的时间.总体而言，遗传算法的组卷有较高的成功率，而随机抽取的组卷成功率显着下降，遗传算法组卷速度较快.

〔1〕谢平.基于框架模式的试题库智能组卷系统[J].华东交通大学学报，1998，15(4)：58-63.

〔2〕刘军辉，景宁，陆勤，陈宏盛.基于Internet/Intranet的多媒体远程教学系统的设计与实现[J].微型电脑应用，2001，17(4):10-13.

TP 319

1673-260X（2010）12-0045-02