K均值聚类在成绩分析中的应用

2019-11-27 09:21高若兰
大经贸 2019年9期
关键词:个数专业课总分

高若兰

一、引 言

学生分类是教师教学过程中要了解的重要问题,同时也是实现个性化教学的重要基础。教师在充分掌握了学生的分类情况下,可以为不同类型的学生提供更具针对性的教学策略,极大地发挥教师和学生的主观能动性。

将学生的各门课程成绩直接相加得到总分,根据总分进行排名分类是目前较为普遍的做法。但是这样的做法过于简单,没有考虑课程的难易程度。因此,我们将提出一种基于K均值聚类的学生成绩分析方法。K均值聚类方法是非常经典的无监督分类方法,不需要任何的先验知识。K均值聚类方法以各类样本的中心为聚类中心不断进行迭代更新,直至达到迭代终止条件,但是需要先选择聚类的个数。因此,如何选择合适的聚类个数也是热点问题。利用matlab将数据符合的最佳聚类个数确定出来,然后基于K均值聚类的方法对规范化后的数据进行分类处理。最后,根据分类结果对学生成绩进行分析。

二、K均值聚类

相近的样本数据组成不同的类别,以得到紧凑而且独立的类别作为最终目标。具体的步骤如下:

如果,则将分为第L类。

接着,根据 n 个样本的分类结果重新计算 k 个聚类中心,可以利用如下公式:。其中,Nj 是第 Cj 类中所包含的样本数。

不断地重复这一过程,直到达到某种收敛标准即停止.一般可以用迭代次数来作为迭代终止条件,也可以用誤差平方和不再发生明显变换作为迭代终止条件.误差平方和计算公式如下:

k 均值聚类算法的主要特点就是每一次迭代过程都需要对所有的样本数据点重新计算其与聚类中心之间的距离,并由此重新分配所属类别,然后更新聚类中心,进入下一次的迭代.如果在迭代过程中,所有数据点的类别数没有发生变化,而且聚类中心也没有发生变化,算法及完成.K 均值算法较大的局限性就是需要预先估计聚类个数,只有在聚类个数已知的前提下,算法才能继续进行.

三、成绩分析结果

数据准备

数据来自于本校研一某专业27名学生的录取成绩,包括四门课程——政治、英语、数学、专业课,其中政治、英语满分100分,数学、专业课满分150分,用EXCEL表格计算学生的直接总分,并排名次,得到数据表1.

数据分析

首先,用matlab进行最佳聚类个数的选择,得出该班27名学生比较适合分为4类。接着,利用K均值聚类方法对27名学生进行分类。

K均值聚类对27名学生的分类结果

从上图中可以看出,总分排名第一名学生被分为第一类;总分排名第2名至第5名学生被分为第二类;总分排名第6名至第15名学生绝大多数都被分到第3类,但有五名学生例外,排名第7名到第10名学生,被分到了第四类;总分排名第16到27名学生绝大多数都被分到第四类,但有5名学生例外,排名17、19、21、23、27学生,被分到第三类。结合表一,可以得出:如果按照总分排名,第7到10名学生分数高于第11、12、14、15名学生,但是成绩归一化之后其数学和专业课有明显的偏科现象,因此,K均值聚类的结果更加倾向于将其分为第四类,其他几名学生也有类似的偏科现象。

四、总结

应用K均值聚类的原理,将27名学生的考试成绩进行了分类分析。分类结果可以方便教师对学生的考试情况进行快速有效地尽心分析,从而更加有针对性的指导。

猜你喜欢
个数专业课总分
怎样数出小正方体的个数
等腰三角形个数探索
“导入课”在高校专业课实施“课程思政”的实践与思考
怎样数出小木块的个数
第59届IMO团体总分前十名的代表队及总分
怎样数出小正方体的个数
服务学习在高职社会工作专业课内实践教学中的探索
研究生专业课学分制教学改革探讨
关于大学专业课排座位的思考