基于数据挖掘聚类算法的学生成绩分析

2019-05-24 14:12张贵元

电脑知识与技术 2019年9期

摘要：在目前学校传统的教学模式中，针对学生各科成绩进行深层次的分析应用的不多，传统的成绩分析也有一定的局限性，分析结果缺少创新点，本文介绍了利用Microsoft聚类算法，将学生英语一级成绩数据进行预处理和集成，利用Microsoft SQL Server BI平台进行聚类，对学生成绩数据进行挖据分析。通过试验结果分析，打破原有成绩分析得局限，使现有数据体现更好的价值，从而辅助教学管理者做出相应决策，更好地提高教学质量。

关键词：数据挖掘；Microsoft聚类算法；成绩分析

中图分类号：TP393 文献标识码：A

文章编号：1009-3044（2019）09-0001-02

1 引言

以前我们日常教学中各种科目的成绩数据没有得到利用，没有将数据潜在的特征挖掘出来，在信息化大数据时代，数据挖掘能把这些数据，经过筛选和预处理，使用算法进行分析根据数据分析，找出相关联的特征，将有相近特征的数据进行分类，通过研究各类的特征，有助于发掘出潜在规律，对教学和老师具有指导作用。本文利用聚类分析方法能从数据中找出相关的特征或模式，可以帮助学校针对不同学生的学习状况，制定针对性的教学策略，辅助学校进行教学管理。

2 Microsoft 聚类分析算法

数据挖掘中聚类是对数据信息分组，把相似属性的数据信息放在一个类别里。

Microsoft SQL Server BI数据挖掘智能平台中，应用聚类分析算法有两种选择，这两种算法的选择可以通过CLUSTERING_METHOD参数设置来完成，一种是EM算法。另外一个算法就是K-means算法。

Microsoft聚类分析算法支持多种处理优化方法，通过设置 CLUSTER_COUNT 参数的值可以确定聚类的数目，也就是分类的数量。这个数量确定了聚类结果的精确性，其默认值是10，在这次实验中，采用默认值聚类分析后数据相似性很大，类比之间差异度就减弱了，因此默认值10的实验结果参考价值不大。经过反复论证，结合学校专业特征和学生特征，尝试参数值为7，聚类结果发现类3和类1专业基本一致，类2和类5中的专业基本一致，这样特征类似不具备分析价值，缺少差异性。设置CLUSTER_COUNT 参数为3，进行聚类分析，发现会计和计算机这两个专业的学生一般都是分开进行教学的，而聚类要求同一个簇当中的对象必须要具有足够的相似性，所以这个聚类太过笼统，需要重新进行分类。通过实验对比，对最后的聚类结果数据统计对比分析，结合多年的学生管理的工作经验判断，当类的初始值为5时效果比较理想，所以本文设定类的初始值为5。

3 聚类算法在学生成绩分析中的应用

3.1 数据采集转化

本文研究的是英语一级考试成绩和学生其他因素之间的关联关系。因此，把英语一级成绩当成研究指标，为了让实验结果完整和精确，试验数据抽取了我们学校五个专业不同层次的学生三年在校的各科成绩，经过预处理保留有效信息1354条。针对预处理后的学生原始成绩数据，结合试验需求，对原始的数据进行集成和转化，转化为专业课平均成绩、公共课平均成绩、英语平均成绩、英语一级成绩、英语一级考试学期、专业类别等试验所用的数据信息。

3.2 构建英语一级合格客体的聚类分析模型

将预处理后一级通过的815个信息利用SQL Server BI数据挖掘向导创建和使用聚类分析，通过挖掘模型查看器，可以看到该分类下，各个属性和属性值的发生概率，以此来观察分类的特征情况，对英语一级合格群体聚类后的分类特征图如下：

3.2.1 类1特征如图1所示。

对类1特征图进行分析，软件与信息服务专业学生在高一的第二学期或者高二第一学期通过英语一级较为普遍，从特征图明显看出该部分学生的入学成绩、公共基础课、专业课程的成绩都比较高。而数控专业学生在高二的两个学期通过英语一级考试的群体有明显的特征就是学生的公共课成绩和英和英语课程平时期末的平均成绩属于中等水平，并且群体比例和他们专业三二分段班级人数数量接近。

特征图中看到媒体传播专业学生的英语一级成绩普遍较低，大部分是在高二开始才能通过，大部分是在高二第二学期通过，这部分学生的英语平均成绩大部分处于60分上下这个阶段，专业课、公共基础课以及入学成绩也是中等水平，该专业能在高二第一学期通过英语一级的学生，他们的专业课程和公共课成绩整体水平较高。

3.2.2类3特征如图2所示。

从类3特征图分析，汽修专业学生在高二第二学期和高三第一学期通过英语一级的这部分学生，他们的各科成绩都是普遍较低，能在高二第一学期就通过英语一级的学生，他们的专业课程反而是比较好。这就说明这部分学生学习能力较强，学科成绩均衡。

综上所述，观察合格群体分类特征图，分类特征比较明显，主要分析学生英语一级的通过学期和专业两个变量属性值，媒体传播、汽修、数控三个专业通过学期在3.0-5.0这一个范围的概率较大，软件与信息服务和会计显示的通过学期在2.0-3.0这个范围概率较大。

对合格各类分析类簇内的共性和类簇之间的差异性，比较每一类各变量的值，横向角度找出英语一级成绩和其他变量的关联关系。发现通过学期的值越小，入学成绩和公共课程成绩越高，跟专业课程关联度不大，反而汽修、数控专业部分学生入学成绩和公共课成绩不高，但是专业课成绩较高。

4 结果分析及建议

依据聚类结果的分析，具体建议如下：

1）我们学校软件与信息服务专业、数控专业的部分班级是“三二分段”中高职连贯培养，该部分学生入学整体分数较高，因此，教务科可以对“三二分段”中高职连贯培养班级入学成绩在中等以上学生可以鼓励他们在高一第二学期报考英语一级考试，对于入学成绩在合格或者以下的学生建议他们在高二第一学期报考英语一级考试，以此提高英语一级通过率。

2）针对汽修、数控、媒体传播和会计专业学生，入学成绩和英语平均成绩低于合格水平的，学校在第一学期开始，针对数控和汽修专业非“三二分段”中高职连贯培养班级可以增加英语课时量，利用课余时间安排英语选修课程班，集中培训，强化知识，在第三学期报考，提高通过率，减少他们报考次数。

3）媒体传播专业和会計专业由于学生女生较多，他们入学成绩中等，有一定基础，安排教学能力较好的教师，并且在第二学期可以适当增加英语课时量，在报考前进行筛选，提高英语学习能力保证一级通过率。

4）针对“三二分段”中高职连贯培养班级中入学成绩和公共课程以及专业课程比较优秀的学生，第二学期通过英语一级后，鼓励他们在第三学期报考二级，并且引导他们参与竞赛活动，扩展知识的深度和广度，取得更大进步。

5 结语

综上所述，SQL Server BI数据挖掘向导下的聚类分析，通过实验结合实际，设定参数为5类，提高聚类的精确性。依据聚类结果分析，结合学生的实际专业情况和对英语不同的掌握情况，选择不同的方式方法来对其英语能力进行提高。聚类分析的结果不仅让学生自身了解到自己在班级或年级中的位置，而且能总结出某类学生在共性上的不足之处，进而教育者采取相应的教育手段，可以很好地做到注重学生的个性化教育和辅导，因教学需求而动态调整课程，以此提升学生成绩和教学质量，让更多的学生通过英语一级考证。

参考文献：

[1] 李杰.数据挖掘技术在学生成绩分析中的应用研究[D].西安：西安石油大学，2010.

[2] 周涛.数据挖掘中聚类算法研究进展[J].计算机工程与应用，2012，48（12）：100-110.

[3] 陶彬贤.聚类算法分析及其在学生成绩分析中的应用[D].安徽师范大学，2011.

[4] 张贵元.数据挖掘技术在中职学生成绩分析中的应用研究[D]. 广东技术师范学院，2018.

【通联编辑：光文玲】