基于综合加权融合算法的学习评价方法及其证实

2020-11-24 06:56李亚平吴新胜王媛媛

辽东学院学报(自然科学版) 2020年4期

唐立，李亚平，吴新胜，王媛媛*

(1. 安徽经济管理学院信息工程系，合肥 230031;2.安徽经济管理学院教务处,合肥 230031；3.合肥工业大学管理学院，合肥 230009)

学生学习评价是描述一个学生在一种教学模式过程中的学习效率和状况，是衡量教学质量评价的重要指标之一。随着信息技术的发展，各种模式的教学方法不断涌现，例如有种类繁多的线上教学、多媒体课堂教学、课外的各种辅助教学等。这些教学不仅给学习者提供了便利，还丰富的教学模式，使得每个学生可以根据自己的喜好选择多样的教学模式来学习。因此评价一个学生的学习状况，不能仅限于一种教学模式的评价体系中，需要综合多种教学模式进行评价。线上教学、课堂教学、课外辅助教学不同教学的学习评价结果存在一定的差异，如何将这些不同教学数据源的数据进行融合是一个挑战。

融合多源教学数据的学习评价可以解决单源教学数据导致的学习评价的信息缺失问题，促使学习评价更科学、更全面和更准确。目前关于多源数据融合在教学上的研究也越来越多，如曾勋勋等[1]把教学相关的视频、音频、图像等多源数据，结合人工智能技术和层次分析法,构建教学质量评价指标。又如宋丹[2]等把已授专业课、单元测试、移动端教学数据和虚拟仿真实验数据等多个数据进行平均数值化融合，对相关课程成绩进行预测和课程预警。主流的多源数据融合主要的方法有：卡尔曼滤波法[3]、贝叶斯估计法[4]、平均加权法[5]、D-S(Dempster-Shafer)证据推理法[6]、神经网络[7]等方法。由此，研究多种教学方式下数据融合，可以打破不同教学系统之间的信息壁垒，找到多源数据新关系，建立新模式，保障教学大数据分析的全面性、准确性。

根据上面的研究发现，多源数据融合在教学上的研究主要体现在数据层的融合，鲜有在数据特征层的融合。相对于数据层融合来说，特征层融合对多源教学数据的学习评价具有更高层的判定和决议[8]。同时也发现仅仅靠均值多源数据来计算课程成绩，不能体现多源数据融合计算与单源数据计算的区别。因此，本文选取线上教学、课堂教学、课外辅助教学不同教学模式的数据来源，借鉴加权平均融合法，综合关系权重与寻优权重提出学生学习评价的多源数据融合方法。并利用课后练习、学习用时和综合成绩3方面进行验证研究，以期为学习综合评价影响力提供参考借鉴。

1 融合多源教学数据的学习评价的系统结构

融合多源教学数据的学习评价结构如图1所示。首先收集线上教学、多媒体课堂教学、课后辅导教学3种教学的数据。然后根据学生的学习评价和知识掌握程度[9-10]提取特征，分别是：STG：学习时长；LPR：储备知识的学习课后练习成绩；PEG：综合的考试成绩。再然后综合运用关系权重与寻优权重来融合多源数据的方法，最后依据融合结果进行分析最后输出判断与决策。

2 基于学习评价的多源数据融合方法

鉴于多源教学数据之间有一定的相似度和相关性，我们在聚类分析前提下，综合关系权重与寻优权重来融合多源数据，其方法步骤如下：步骤1：用Spearman计算和分析每种数据源之间的关系；步骤2：赋予高相似度的数据源较高的权重，设定它的关系权重值。其目的是检验每种教学数据源的学习评价结果质量；步骤3：计算各数据源与最优解之间的相似度，从而计算出每种数据源的寻优权重值；步骤4：根据步骤2中的关系权重值与步骤3中的寻优权重值的乘积之和，算出综合权重；步骤5：综合权重和每种数据源的学习评价值乘积之和就是多源数据融合的学习评价值。

2.1 Spearman相关性计算

计算2个长度为N的向量分别为X=(x1,x2,…,xn)和Y=(y1,y2,…，yn)的相关性。将2个向量中的xi和yi素转为各自列向量中的排名，记为R(xi)和R(yi)，根据公式(1)计算其差异C，并使之相加。

(1)

根据公式(2)计算出2个列向量之间的相关性Rs。

(2)

2.2 关系权重计算

关系权重就是计算每种教学数据源之间的关系，相似度高的数据源被赋予高权重，首Spearman计算和分析每种数据源之间的关系基础上，利用数理公式(3)来分析不同数据源之间的权重，其公式(3)如下.

(3)

2.3 寻优权重

寻优权重是指每种教学数据源与最优解之间的相似度，若相似度大，那么该种教学数据源被赋予较大的权重。那么X=(x1,x2,…，xj)为其中一种教学数据源中的j种样本学习评价计量集，Y=(y1,y2,…，yj)则为多种教学数据源中j种样本种最优的结果集。相似度距离计算运用以下公式(4)。

(4)

式(4)中：根据情况运用不同的距离计算方式，当p=1为曼哈顿距离，p=2欧几里得距离运算；di表示第i种教学数据源与最优解的差异距离；xj为第i种教学数据源中的第j种学习评价计算值；yi为第i种教学数据源中第j种最优计算值。

相似度计算τi的公式如下：

(5)

寻优权重公式

(6)

2.4 综合权重和多源数据融合的学习评价

综合权重就是关系权重与寻优权乘积之和，其公式如下：

(7)

多源教学数据融合的学习评价结果是每种数据源中学习评价结果与相应的权重值的乘积之和的结果，其公式如下：

(8)

式(8)中：m为数据源总和；αs是数据融合前，第S种数据源中的学习评价结果；θi为多源教学数据融合后的第i位学生的学习评价结果[11]。

3 基于学习评价的多源数据融合方法实证研究

本文研究以安徽经济管理学院信息工程系180504班级的42位学生为研究对象，在2019年9月到2019年12月的期间，同一门课程同时对他们展开课堂、线上、课外辅导3种模式的教学测试。收集数据，根据学习评价和知识掌握程度提取特征有STG：学习时长；LPR：储备知识的学习课后练习成绩；PEG：综合的考试成绩。我们采用STG、LPR、PEG的计量来证实研究，比较多源数据与单一数据的学习评价特征的关系，同时也将比较多源融合与多源均值计算的区别分析，以此来探析多源教学数据融合方法的应用情况。

3.1 多源教学数据融合学习评分的相关计算

表1 多源教学数据融合学习评分的相关计算结果

根据以上权重值来计算多源数据融合的学习评价，并从STG、LPR、PEG3个方面的计量做后面的分析。

3.2 多源数据融合与单一数据源LPR的比较

课堂教学、线上教学、课外辅助教学的每种教学LPR差异很大，从图2可以显示。但是多源数据融合的LPR相对来说比较适中，有效地综合各种教学数据源的优劣，缩小同一个学生在不同教学方式下的学习差异性，对一个学生的学习评价更客观更综合性。从图2也可以进一步看出课堂教学的LPR更接近多源融合的LPR值，而课外辅助教学的LPR普遍要高于多源融合的LPR值。

综合上述可以发现，与单一数据源的LPR相比，多源数据融合的LPR缩小了不同教学数据间的差异，多源数据融合的LPR能较好地综合各种教学数据源之间的优缺点，区分不出各种教学数据源的重要性。相对来说比较综合全面地去评价一个学生的学习状况。

3.3 多源数据融合与单一数据源STG的比较

为了可以看出STG与学习成绩的关系，我们把学生按综合成绩降序排序，运用公式(1)～(2)算出综合成绩与STG的Spearman相关性如表2所示，同时计算的多源数据融合STG与单一数据源STG进行比较。如图3所示。

表2 多源数据融合与单一数据源的STG相关系数

表2可以看出课堂STG相关系数很小，课外辅导教学的相关性比较大。结合综合成绩与STG的相关系数，多源数据融合STG的计算如图3所示，单一数据源STG差异性比较明显，对最后的学习评价测评干扰也比较大，多源数据融合STG后有效排除课堂用时和线上挂机学习干扰。

3.4 多源数据融合与多源数据均值的PEG比较

多源数据均值的PEG就是对多源数据中的PEG进行算术平均求值。通过比较分析多源数据融合的PEG与多源数据的均值PEG的差异与相似性。如图4所示。

先利用Spearman相似度计算，得出值为0.937，这说明多源数据融合的PEG与多源数据的均值PEG确实有高度相关性。按照综合成绩名次排序，通过计算结果得到图4，从中可以看出他们有差异。首先，多源数据的均值PEG值绝大多数小于多源数据融合PEG，其次，多源数据的均值PEG值波动性比多源数据融合的PEG的要大，说明多源数据的均值PEG区别不同数据源的之间的差异性，而多源数据融合的PEG能比较好的吻合成绩走私，这说明多源数据融合的PEG能很好地反映不同数据源的PEG重要性差别。所以多源数据均值只是盲目地平均各数据源的值，而多源数据融合则能智能地区别各数据源的重要性。

4 总结

本研究针对多源教学数据特点，提出一种综合关系权重与寻优权重提出学生学习评价的多源数据融合方法。并以安徽经济管理学院的42名学生为对象，做了多源数据融合学习评价的计算分析，从STG：学习时长；LPR：储备知识的学习课后练习成绩；PEG：综合的考试成绩3个特征来验证多源数据融合与单一数据的比较分析。同时也对多源数据融合的PEG与多源数据均值的PEG进行比较分析，得出以下结论：

(1)单一数据源的STG、LPR、PEG差异较大，多源数据融合可以有效缩小不同数据源间的差异，综合不同数据源的优缺点。这对于多源数据融合的学习评价来说，更全面地考虑一个学生学习状况提供有力的依据。

(2)结合相关系数的多源数据融合STG与单一数据STG相比，更容易识别干扰。这对于多源数据融合的学习评价来说，更精确了。

(3)多源数据融合绝不是简单的多源数据均值计算，他们固然有很高的相关性，但是依然存在差距，多源数据融合能较好的区别各数据源的重要性。

需要指出的是，一方面，本研究选取的学生不一定具有代表性，不能普遍反映当前大学生的学习兴趣和动向。数据仅仅证明所提的方法可操作性和可行性。另一方面，本研究只是运用了综合权值的数据融合方法，没有与卡尔曼滤波法、贝叶斯估计法、平均加权法、D-S(Dempster-Shafer)证据推理法、神经网络等方法进行对比，也不明确其他融合方法是否有效于多源教学数据，这将是我们进行后续研究的课题之一。