远程教育系统设计中的自动组卷算法研究

2010-10-20 07:27张德洪
赤峰学院学报·自然科学版 2010年12期
关键词:适应度交叉题型

张德洪

(集美大学 教师教育学院,福建 厦门 361021)

远程教育系统设计中的自动组卷算法研究

张德洪

(集美大学 教师教育学院,福建 厦门 361021)

由于计算机网络技术和多媒体技术的不断发展,远程教育已成为改革传统教育模式的动力和有效的手段,一个强大的力量.在本文中,研究了自动组卷算法在远程教育系统中的应用,分析一部分组卷策略,并提出了在组卷中应用遗传算法,测试结果表明,遗传算法的组卷速度较快.

远程学习;自动组卷;系统设计

远程教育系统突破了传统的学校教育模式的在时间和空间上的限制,它和课堂教育,广播教育,电视教育一起形成了多元化的教育制度,一个人用计算机便可以和网络连接,可以随时随地开展学习和培训.相对于其他教育模式,远程教育有着传统教育部可替代的优点,它在时间和空间上不受限制,可以资源共享,系统的开放性,促进协作等.

1 组卷策略分析

1.1 组卷的约束条件

一般情况下,教师在自动组卷时,针对试卷的质量会提出很多方面的要求,这便是试卷的约束条件.根据实际情况,组卷的具体要求可以分为以下几个方面:①章节.它指的是在试卷中各个章节所占分数的比例.②题型,它指的是在试卷中要包含各种类型的试题.③题量.它指的是在试卷中题目数量的多少.具体到每个类型的题目,指的是这类题型中包含的题目数量.④难易程度.它指的是试题的难易程度,问题分为简单,容易,中等,困难,很难5个等级.⑤区分度.试题在考生之间的区分程度,分为差,中,优三个等级.⑥认识程度.学生对试题要求掌握的知识点的掌握程度,掌握程度可以划分为了解,理解,掌握和熟练四个等级.⑦答复时间.它指的是学生要多少时间答完试卷.⑧分数.它主要指的是试卷的分数.具体到每个类型题目,指的是每个题型所占的分数.⑨曝光度.它指的是试题的平均曝光度.试题考过的次数越多那么曝光度就越大.在组卷时要抽取较小曝光度的试题.

1.2 组卷的试卷模型

基于对约束条件的分析,在组卷过程中建立与控制指标相呼应的状态空间S,试题的控制指标构成S的每行,同时还要进行编码,并且每列是题库中的指标的所有取值.在建立题库时,每到试题都输入了相应的属性指标,①问题编号,②试题类型,③所属章节,④难度,⑤区分度,⑥认知程度,⑦估算答题时间,⑧分数,⑨曝光度,⑩试卷的内容,11标准答案,12考试要求,13出题人,14出题时间,15关键字,16关键字的分值比例.依据组卷的约束条件还要考虑八维向量 (a 1,a 2,a 3,a 4,a 5,a 6,a 7,a 8),和试题属性指标②,③,④,⑤,⑥,⑦,⑧相对应.为了减少组卷算法的复杂性和提高效率,简化处理八维向量.在组卷时按照题型将试题分类,同一题型中的试题可以不必考虑试题的题型,在组卷开始时就可以满足题量和题型所占的分数.最后试卷减掉两个维度变量,形成一个六维空间 (al,a 2,a 3,a 4,a 5,a 6).由最初的确定一份试卷转变成要确定一个n*k(这里k=6)的矩阵.这里n是试卷中的题目数量,K表示控制指标的数量.asw(s=l...n,w=1...6)表示第s道试题的w项指标.

2 遗传算法在文件审查

2.1 问题解的编码解释

采用遗传算法解决问题,首要是把问题的解空间映射为一组代码串.题库中的试题数量决定基本遗传算法的编码长度.假如题库内共有n道题,问题解可以用一个n位的二进制串来表示,具体形式是F 1,F 2...Fn.如果相应位是1这表明试题被选中,如果是0则表明试题没有被选中.这种编码的优点是简单,一但题库内的试题数量多,编码太长,操作就会不方便.在这里使用实数编码的方法,获得的可行解是试卷.一个试卷映射到一个染色体,构成试卷的试题可以映射成基因,试题题号可以直接表示基因的值,此代码可以表示成:(G1G 2,G 3,...,Gn),其中Gi(i=1,...,n),是试题的总量.在编码时要把相同题型的题目放在一起,还必须在每条染色体上的章节编码也不能相同.根据选定章节和考试题目的数量,初始种群可以使用andom()函数随机生成.

2.2 计算群体中每个个体的适应度

在遗传算法中,要区分群体中个体的优劣可以使用适应度的大小来实现.一般来说,越大的适用度那么个体越好,越小的适应值的个体越差.首先,根据G 1,G 2,...,Gn的值,就可知道试卷中含有的试题题号,之后再组卷参数矩阵S中写入试题的属性.每个个体的适应度可以调用适应度函数来实施,在实际的应用中,我们使用下面的方法把目标函数f转换成适应度函数F'.

指数比列可以优良的个体有更多的复制机会,它还可以控制复制的数量,避免它过快的控制全部群体,增加了个体之间的竞争,因此对上面的适应度函数F'可以采用指数比例变化成适应度函数F=exp(-βF'),p取值为 -0.03.

2.3 组卷中的遗传算子

在遗传算法中,个体交叉后产生的子代代替了两个父代个体,导致父代信息迅速丢失,交叉生成新的个体不一定比父代个体好,它是不利于算法快速收敛.此外,由于初始种群形成之时,题型和分数都满足了要求条件,为了不破坏这些约束条件,我们改进了选择,交叉,变异的操作方式.①交叉操作在同种题型中进行,变异操作也在同种题型内部进行,各个题型实行独立的交叉和变异.②实行最优保存策略.交叉变异操作之后,将新生成的个体的适应度和上一代个体的适应度进行比较,如果适应度下降,那么上一代中的最佳个体要取代新一代的最差个体.此时,不变的是种群中个体的数量.这一战略可以确保最佳的个体不会被交叉变异破坏.

2.4 组卷中的控制参数

交叉操作和变异操作不会发生在所有的个体上,而是通过Pc和Pm的值来确定交叉操作和变异操作.Pc和Pm的选择会给算法的收敛性带来直接的影响,Pc和Pm越大,该算法的生成新个体的能力就越强,个体之间的适应度就更不稳定,生成新的超平面的能力就越强;若Pc和Pm越小,该算法促使个体的收敛能力就会越强,个体的平均适应度也会相对稳定,有可能成熟过早.为此我们利用自适应的理论,在运行过程中,调整Pc和Pm,使它们作为个体的适应值增加而变小,个体的适应值下降而增大.改进之后的染色体的交叉和变异在同一题型中实行单点交叉变异,这也就是说所有题型在各自独立的编码组内实行交叉和变异,在第三和第六列之间随机选取交叉点和变异点的位置,以便能够不改变所属章节和题型属性.任意选取两个染色体的交叉计算概率,并生成一个0勺随机数,比较随机数和交叉概率来确定是否实行交叉操作.如果随机数低于交叉概率,那么实行交叉,产生两个新个体.在实行变异操作时,要计算变异概率Pm比较随机数和Pm,如果小于Pm,则进行变异操作.

2.5 确定终止条件是否满足

由于遗传算法是不会自动终止的,所以没有办法知道是否已收敛到极点值.为此在产生性一代个体时都要计算每个个体的适应度.要满足两个终止条件,一是适应度值,二是是否达到已设定的次数.如果某个个体达到了适应度的要求和迭代次数,那么就可以终止循环.

3 组卷测试

为了验证采用遗传算法来自动组卷的的可行性和有效性,《计算机基础》作为实例,对编制程序实行组卷实验.在600道试题保存在题库内,单选题和多选题各200道,问答题100道,以便作出合理的试题分布的,存在各种属性值.遗传算法参数:Max Generation=300,PoSize=50,Pc 1=0.9,Pc 2=0.6,Pm 1=0.1,Pm 2=0.001,要求允许误差士3分.考试时间120分钟,满分100分.在较为复杂的组卷条件下,均出现了组卷效率低,增加使用的时间.总体而言,遗传算法的组卷有较高的成功率,而随机抽取的组卷成功率显着下降,遗传算法组卷速度较快.

〔1〕谢平.基于框架模式的试题库智能组卷系统[J].华东交通大学学报,1998,15(4):58-63.

〔2〕刘军辉,景宁,陆勤,陈宏盛.基于Internet/Intranet的多媒体远程教学系统的设计与实现[J].微型电脑应用,2001,17(4):10-13.

TP 319

A

1673-260X(2010)12-0045-02

猜你喜欢
适应度交叉题型
改进的自适应复制、交叉和突变遗传算法
离散型随机变量常考题型及解法
巧妙构造函数 破解三类题型
“六法”巧解分式方程
一种基于改进适应度的多机器人协作策略
一次函数中的常见题型
随机抽样题型“晒一晒”
连数
连一连
基于空调导风板成型工艺的Kriging模型适应度研究