基于协同过滤算法的试题智能推荐测评研究

2022-12-12 02:10王子岚

曲靖师范学院学报 2022年6期

胡伟，王子岚

(黄山职业技术学院工业与财贸系，安徽黄山 245000)

0 引言

云计算、大数据等新一代信息技术的突飞猛进使得智慧校园与数字校园开始快速发展，将信息技术和课堂教学进行相互融合是教育发展改革的必然趋势[1]. 在进行线下学习时，刷题是学生巩固知识点和查漏补缺的常用手段，学生通过大量刷题的方式加深对知识的记忆程度和理解.随着智慧学习技术的普及，将在线教育和学生刷题相结合的研究日益增加，针对学生刷题学习的新型在线教育软件不断涌现，但是许多智能学习软件在进行试题推荐时，容易出现推荐偏差的问题，不利于学生提升学习与刷题效率[2]. 有学者为了提升试题推荐的效率，提出利用协同过滤和认知判断设计试题推荐，结果表明，在两种方法影响下，试题推荐测评显示其效率得到显著提升[3]. 熊慧君等人也提出利用二次协同过滤来实现个性化试题推荐，并经过实验得知研究提出的试题推荐测评方案更具个性化和准确性[4]. 从大量研究中可以得知，为了改善试题推荐性能，大量研究将协同过滤算法应用于试题推荐中，但是仍然可以看出部分研究仅是利用协同过滤算法来实现试题推荐的个性化，并未对其进行测评.鉴于此，研究对传统的协同过滤算法进行改进，利用改进协同过滤算法构建试题智能推荐测评模型，期望提升学生试题的智能推荐效果，并根据学生作答情况进行智能评测，减少教师的重复评卷工作量，使得教师能够把时间更多地用在教学备课中，促进教育教学质量的提升.

1 改进协同过滤算法实现试题智能推荐测评

1.1 试题生成和智能组卷的算法原理

教育信息化的发展使得市面上出现了各种类型的教育学习软件，但许多教育软件都存在一定的不足之处，比如交互性不够、产品良莠不齐以及不同应用之间的集成度过低等问题[5-6].为了提升教育学习软件的实用性，从试题的角度出发，对试题的生成和智能组卷进行研究，实现试题智能推荐与自动评测.智能推荐模型利用推荐算法为学生提供个性化的试题生成与推荐服务，而试题的自动生成主要依靠的是庞大的数据库，通过设定试题类型的方式从数据库中选择和淘汰试题. 由于数据库的试题数据体量庞大，在抽取试题时模型会自动将试题库分为多个子试题库，从子试题库抽取试题.通过提取试题知识点特征的方式，对数据库中的试题进行分类，并结合推荐算法进行过滤，在集合中对过滤后的试题进行整合，以便于后期调用. 用户在进行试题测试时，模型会根据作答情况改变协同过滤推荐算法中的平衡因素，从而改变从数据库中抽取试题的题型，实现用户试题的个性化智能推荐.

智能组卷是以满足教师的出题目的为首要目标，教师可以根据出题意图设置题目难度、数量、分数等要素. 在学生开始答题时，模型从试题集合中抽取试题，然后按照难度大小排序等规则对试题进行智能组卷.用m×n的矩阵来表示组成的一份试卷，具体表示如式(1)所示.

(1)

其中，Sg表示目标矩阵，矩阵行向量表示试题选择所要确定的属性项，n则表示试题所设置的属性项数，包括分数、题型、难度、知识点等属性，矩阵列向量表示试卷试题数，m为设置的试题题数，amn表示第m题的第n个属性.

1.2 推荐系统中改进协同过滤算法实现

虽然协同过滤算法是推荐系统的常用算法，但是仍然存在一定的局限性，其中数据系数问题、冷启动问题和可扩展性问题较为突出，这些问题导致普通的协同过滤算法在进行相似性计算时，缺少客观准确的评价数据，难以快速为用户和项目匹配到相似项，并且庞大的矩阵计算大大降低了推荐算法的推荐效率[7-9]. 因此，为了提升学生试题的推荐准确度，研究从试题推荐的自身特性出发，对基于用户的协同过滤推荐算法进行改进优化，根据用户对项目采取的行为来获取用户的兴趣爱好，从而实现个性化推荐服务. 智能推荐模型利用学生平时答题行为的相似性来互相推荐试题，帮助学生通过练习系统推荐的试题巩固学习内容，提升学生的学习效率. 研究首先对传统协同过滤推荐算法的相似度计算进行改进，在传统的Pearson相关系数计算方式的基础上，对学生之间相似度计算方法进行改进优化.Pearson相关系数公式通过评分值和用户评分均值的差值，来缓解评分标准中存在的差异问题. Pearson相关系数的表达式如式(2)所示.

sim(ux,uy)=

(2)

Pearson相关系数是协方差和标准差的比值，式(2)中，n′表示公共评分项目，r是评分值，ux和uy表示用户和项目.

对学生而言，学生对于推荐试题的需求是不断变化的，而内部信息对推荐结果质量的影响最大，除去一些相对稳定的信息之外，如何把握其他部分不断变化的信息很重要[10]. 所以在推荐时应当优先考虑最新的信息，在计算时赋予新信息更高的权重，通过时间权重对学生历史数据进行加权改进，具体时间加权方法如图1所示.

图1 时间权重示意图

从图1可以看出，学生历史数据为0到1天时，权重值为1，参考价值最大；当时间间隔在五天之内时，权重值高于0.6，处于完全可参考的范围内；时间间隔处于5到10天时，权重值处于0.3到0.6之间，参考价值一般；当时间间隔在10天到20天之间时，权重值为0.1到0.3之间，可酌情考虑是否作为参考因素；时间间隔大于20天后，参考价值就极低了，学生的历史数据可以忽略不计.

分析时间权重示意图，给出时间权重的计算方法如式(3)所示

(3)

其中，ω表示最终结果反映出的学生内部信息的能力，Δtj是当前时间和学生答题时间的时间差，0≤Δtj≤T，T表示有效时间，L表示学生在有效时间内进行答题的总时长，α表示时间权重变化指数，其取值影响学生作答记录反映其内部信息能力随着时间变化的速率，α值越大，作答记录反应学生内部信息的能力下降速率越大，最终改进之后的公式如式(4)所示.

sim(ux,uy)=

(4)

式(4)在原始的Pearson相关系数中引入了时间差Δtj和有效时间T作为平衡因子，答题时间超出有效时间T，参考价值较低，对学生相似度的计算造成的误差较大，Δtj的大小代表相似学生和目标学生共同错题的时间早晚，学生中时间对题目的掌握程度的变化尚未可知，所以其影响较小，α表示时间权重变化指数.改进之后的算法具体计算模式如图2所示，改进算法根据时间的推移，将历史用户信息分为过时用户信息和有效用户信息两个样本，只针对有效时间内的数据进行相似度计算，有效地避免了无效样本对相似度计算带来的无效化负面影响.

图2 改进算法推荐方式

对评分预测推荐算法进行改进，传统的评分预测推荐算法所采用的是TOP-N算法，TOP-N是对目标用户形成TOP-N形式的推荐集，通过统计用户所要了解的知识点，取排在前N的试题形成推荐集[11]. 为了使结果更精确，在此基础上加入平衡项如式(5).

(5)

1.3 学生成绩智能测评算法设计

教师对学生知识点掌握程度的了解对教学尤为重要，学生通过智能推荐的试题进行答题练习之后，教师可以使用智能组卷进行线上考试来测试学生对知识点的掌握程度和运用能力，通过对考试结果的智能评测，帮助教师了解学生的学习进度和对知识点的掌握程度[12].智能评测分析主要从三个方面着手，分别是成绩分析、得分分析和学生问题分析.成绩分析是对学生考试的各科成绩进行统计和分析，按照成绩结果进行数据整理、数据分析并生成报告单.针对数据源的不同，统计分析又分为单班级成绩分析和多班级成绩分析.单班级测评分析所需要的数据源只有一个表，而多班级测评分析则需要多个数据源.整理完的成绩数据就需要继续统计，根据教师设定好的及格线和优秀线，报告单统计时就按照分数高低以及所划分的各项指标线一一表示出来.得分分析的目的是在总成绩的基础上对各个试题的得分情况进行详细分析，通过整合所有学生在每一道题上面的得分情况来计算得分率，进行得分对比分析.得分率计算方法如式(6)所示.

(6)

其中n表示样本中学生人数，xn表示第n个学生在某道试题上的得分，Z表示该试题的总分数.

学生问题分析是分析学生的测评分数与试卷的答题情况，能够准确地获得学生对于试题知识点的认知水平.学生作答结果转化公式如式(7)所示.

(7)

公式(7)表示，将某次选择题的答案规定为A，若回答结果为A，则赋予1值，若不为A，则赋予0值.对于主观题而言，A就规定为答对60%以上，作答结果为A，赋予1值;作答结果不为A，也就是所写答案的正确率低于60%，赋予0值.根据这一项规定设计将学生答题情况最终结果用0或1表示，借此也能计算出答题学生对每道题目知识点的掌握率.得到结果为1的学生对所学知识点已经基本掌握;结果为0的学生就会被判定为不熟悉该知识点，推荐算法就会在学生做题过程中尽可能多的推荐该知识点所代表的试题，直到最终结果为1.

2 改进算法和智能测评结果分析

2.1 协同过滤推荐算法测试结果分析

实验首先收集了某中学各年级所有学生的作答记录，经过数据整理之后，选取了20名目标用户对其进行推荐，从推荐结果的命中率来判断推荐算法的优劣性.改进协同过滤推荐算法和传统协同过滤推荐算法的命中率对比结果如图3所示.

图3 改进算法对命中率的影响

根据图3中内容可知，传统协同过滤算法命中率最高值为51%，低于20%的用户有19个，平均命中率为10.2%；改进协同过滤算法命中率的最大值为89%，命中率低于20%的有16个，平均命中率为15.6%.改进协同过滤算法比传统协同过滤算法的命中率提高了5.4%，说明改进推荐算法相较于传推荐算法在准确度方面得到了提高.

2.2 学生成绩智能测评结果分析

在学生样本中随机抽取部分学生作为测评对象，组成临时班级，然后为每位学生分别编号，学生成绩分析结果如图4所示.

图4 学生成绩结果

图4中数据显示，样本中最高分为98分，最低分为62分，及格率100%，平均分为81.2.其中达到90分以上(包含90分)的人数有6个， 80～<90分之间的人数有6个， 70～<80分之间的人数有5个，60～<70分之间的人数有3个，达优人数共有12人，达优率达到了60%.

将样本中学生平均分为四组，进行各试题得分情况对比分析，每个小组得分率的具体对比分析情况如图5所示.

从图5中看出第四组整体得分率较高，所有试题中得分率最高的是第五题和第九题，所有组的得分率都在80%以上，而第三题得分率较低，有三个组都只有60%，只有第四组的得分率达到了80%，第二组在第七题的得分率仅有20%，也就是只有1人答对，第三组在第八题的得分率也只有20%.

最后，通过学生各试题的得分情况分析学生存在的问题，分析结果如图6所示.

图5 各组得分率

图6 学生问题分析结果

从图6(a)中可以看出，学生学习问题评测结果中，学习不足的人数只有1人，占总人数的5%，需要加强辅导；学习不稳定的人数占15%，有3人，需要加强沟通；学习较稳定的人数占总人数的35%，有7人；偶尔粗心人数占总人数的20%，有4人，需要时刻提醒学生注意细致问题；学习好且稳定的人数占总人数的15%，有3人；得分高但错题简单，粗心丢分的人数占总人数的10%，有2人.从图6(b)中可以看出，对10道试题难度进行评测，试题难度较大的题目有1题，难度处于适宜度的有4题，有3题较为简单，还有2题知识点杂糅，容易混淆.以上结果表明，线上考试能够清晰地对学生答题结果所表现出来的问题进行归纳总结，还能分析考试题目难度大小，有利于后续进行试题智能推荐.

3 结语

随着计算机和移动设备的发展，在线学习已经成为一种趋势，在这样的大环境中，学生线上学习时的试题智能推荐就显得极为重要.本文对传统协同过滤算法中的相似度计算和评分预测算法进行改进，得到更加灵活和精确的新型协同过滤推荐算法.通过改进协同过滤推荐算法与传统协同过滤推荐算法的比较，验证改进算法的优越性，实验结果表明改进算法的命中率较传统协同过滤算法的命中率提高了5.4%，推荐效果更加明显.针对学生答题情况的评测，改进算法对学生的总成绩和单题得分情况都进行了分析总结，并根据学生失分所存在的问题做了评测分析，为教师进一步的教学提供方案.本次研究在相似度算法改进时，只考虑了有效时间作为影响因素，未来可以对如何平衡其他因素进行进一步研究.