基于SOM 的高职学生综合素质评价数据聚类研究

2022-03-12 13:30曦,李
中国管理信息化 2022年3期
关键词:数据挖掘神经元聚类

赵 曦,李 颖

(广东科学技术职业学院,广东 珠海 519090)

0 引言

高职院校学生综合素质培养对培养学生的创造性思维、社会实践能力、健全人格等有重要作用,能促进学生在知识结构、能力结构方面更加全面,培养学生的探索精神。对高校培养德才兼备、全面发展的中国特色社会主义合格的建设者和可靠的接班人具有重要意义。如何科学系统地评价大学生的综合素质,是现代大学教育的一个重要研究课题。目前国内学制研究主要集中在高职院校学生综合素质评价体系的构建原则、构建策略、构建理论等方面。

高职院校综合素质评价体系仍存在缺少实证研究、指标僵化、数据处理手段单一等问题。其主要原因是大学生的综合素质评价过程较为复杂、评价维度过大、指标难以均衡。因此,利用数据挖掘算法,从大量的样本数据中找出隐藏的规律,对高职学生综合素质进行科学、有效、系统的评价具有重要的意义。国内学者和专家已经利用数据挖掘技术对高职综合素质评价数据进行研究,也取得了很多成果。一些学者结合学生的大数据,按照质量评价体系对高职学生的综合素质评价进行了研究,阐述了大数据在学生综合素质评价中的应用价值和创新,构建了优化的评价模型。

应用数据挖掘技术可以分析出数据中潜在有用的信息,一般可以分为描述性和预测性两大类。描述性数据挖掘的目的是以简明、通用的方式提炼和总结大量复杂数据,以便快速掌握数据的主要特征和信息;预测性数据挖掘强调推理,基于已知信息推断未知或基于过去推断未来。描述性数据挖掘技术包括聚类、摘要、主题发现、关键字提取和描述性统计等。预测性数据挖掘技术包括分类技术、回归技术和关联分析技术等。数据挖掘算法主要包括神经网络、决策树、遗传算法、蚁群算法、粒子群算法、粗糙集、关联规则等。

本文使用神经网络算法进行描述类数据挖掘。

1 神经网络

神经网络通过类似人脑等生物神经元的方式运行,数据和信息被分布在神经网络的各个神经元上,每个神经元都有相应的连接权值。由于人工神经网络不用先确定输入层、输出层之间的数学映射关系,仅通过多样本的训练,即可在给定输入值时得到最接近期望输出值的结果,近几年来,在模式识别、系统辨识、推荐系统、分类回归、图像与自然语言处理等应用方面也获得了极大发展。通过神经网络的处理,存储数据和信息都是分布式的,每一个神经元上都存有数据信息的一部分。所以,虽然根据某个单一权值并不能得到完整的存储数据和信息,但是通过整个神经网络,可以通过多个神经元节点相关联的联想记忆获得存储的完整信息。神经网络对缺损的不完全数据可以进行很好的处理,并且容错性良好,同时还有自适应能力强、适合并行计算的优点。

神经网络可以用来分类和聚类,Werbos 提出通过反向传播算法解决多层网络权值学习的问题,可以把带有标签的输入向量按照所定义的合适方式进行分类,属于有监督学习。而由Teuvo Kohonen 在1981年提出自组织神经网络(SOM,Self Organizing Feature Map)也是人工神经网络的一种,该算法是一种无监督学习网络,具有自组织映射功能,输入层不需要标签信息。它把系统划分为若干子系统,每一个子系统对外界输入都有不同的响应。Kohonen 认为,当一个神经网络接收外界输入时,将会自动地分为不同的对应区域,每一个区域对外界输入模式都存在着不一样的响应特征。

2 SOM 算法

SOM 模型的基本思想是当从外界接收复杂的输入模式时,在输出层中将形成不同的反应区域和不同的响应特征,所以不同位置的神经元具有不同的功能划分。因此,SOM 模型可以传递高维输出数据映射到低维输出空间,同时保留在高维空间的拓扑结构。

以输出层为二维矩阵的网格为例,SOM 的输出层由一系列组织在二维平面上的有序节点构成,输入节点与输出节点通过权重向量连接。算法学习过程中,找到与输入节点距离最短的输出层单元节点作为获胜单元,对其进行更新。同时,将获胜单元邻近区域的节点权值更新,使输出节点保持输入向量的拓扑特征。高维空间中的相似输入样本经过算法映射到输出层中的相邻神经元。

SOM 算法(如图1 所示)步骤如下:

图1 SOM 算法框架示意图

(1)初始化,用较小的随机数设定输出层各权值向量的初始值W。

(2)输入样本向量x=(x,x,…,x)。

(3)计算欧氏距离,寻找获胜神经元,输出神经元相互竞争激活的机会,每次只有一个被激活。被激活的神经元就叫作获胜神经元。由于存在这种竞争,神经元被迫自我组织,形成自组织映射(SOM)。

欧氏距离计算公式如下:

其中w为输出层第(i,j)个神经元对应的权值,这样计算的欧氏距离取最小值,即可得出相似性最强的优胜神经元,记为j。

(4)通过邻域半径函数Uj(t)确定优胜邻域包含的节点,一般通过高斯函数或者其他函数来设置优胜邻域,来确定对其近邻节点的影响强弱。

(5)更新优胜邻域节点的权值。

公式如下:

(6)从第2 步开始重复,直到满足迭代次数,或者学习率降到给定值。

3 基于SOM 的高职综合素质评价数据聚类

学校和二级学院一般将综合素质评价作为标准来进行评奖评优、就业推荐等,至于评价结果,通常的方法是根据加权分配后的计算结果进行排名,或者使用“优”“好”“合格”和“不合格”的等级作为定性结果。高职院校综合素质评价中最常见的方案是将评价指标和结果视为简单的加权线性关系,例如,学年的综合评价=学业成绩×60%+综合素质成绩×40%。至于综合素质成绩,则通过把每个学生的综合素质评价得分按照一定的标准进行分类,例如分类为思想政治实践、职业技能与职业素养、审美与人文素养、公益与志愿服务、品格与身心健康、创新创业实战、劳动实践等,然后主观地确定每项分类的权重,计算每项分类的得分,最后对这些具体指标得分进行加权计算。

职业教育以提高学生技术技能水平以及就业和创业能力为核心要素和关键环节。基于上述线性关系简单加权算出学生综合评价分数,通过排名或者给出不同的等级进行评价,难以达到职业教育的目的。事实上,综合素质的评价内容和评价结果之间存在非常复杂的非线性关系。因此,可采用数据挖掘算法,在各种评价数据中寻找联系,减弱排名对学生综合素质评价的影响,使学生综合素质评价更加科学有效,为评价者提供决策支持。本文提出用SOM 对综合素质的各项评价得分进行聚类,为下一步分类和评价提供重要参考。试验步骤如下:

(1)取样本个数为300,依据样本个数,用试凑法测试,设置输出层的最佳维度为10,然后进行权值初始化,用(0,1)之间的随机数设定输出层权重。

本文设定了六个一级指标,从综合素质评价系统中提取包括思想政治、身心健康、创新创业、技术技能、志愿服务、人文艺术六个维度,选300 个2018 级计算机工程技术学院学生数据作为样本,如表1 所示。

表1 输入数据样本

(2)设定输入向量。依据上文,输入参数为array([[1.,6.,8.,2.,7.,10.],[1.,7.,3.,0.,2.,6.],[4.,9.,4.,1.,2.5,4.],...,[ 2.,5.,2.,0.,3.5.,3.]])。

(3)初始学习率设置为0.5,设置优胜领域的函数包括冒泡函数、高斯函数、墨西哥草帽函数等。

(4)以迭代次数作为算法结束条件。依据算法,输出层为一个10*10 的二维的向量矩阵,其中每一个向量对应一个权值,都和输入层的维度相同,即六维。通过这个输出层,可以得到每一个向量捕获的样本,再结合输出层向量之间的距离,可以得到样本的一个聚类。因此,算法完成后,得到最终的输出矩阵保留了原来输入层的拓扑结构。

最后通过输出层的距离矩阵,用热图(heatmap)来展现数据的差异性,通过热图可视化,直观了解数据的分布情况和差异情况。本文尝试使用冒泡函数、高斯函数、墨西哥草帽函数(“bubble”,“gaussian”,“mexican_hat”)三种函数作为设置优胜邻域半径函数,分别按照迭代次数50 次和200 次作为算法终止条件,得到聚类结果如图2、图3 所示,试验表明,通过墨西哥草帽函数迭代200 次具有相对较好的收敛性。

图2 用“bubble”“gaussian”“mexican_hat”作为邻域半径函数进行聚类(迭代50 次)

图3 用“bubble”“gaussian”“mexican_hat”作为邻域半径函数进行聚类(迭代200 次)

对于收敛性最好的聚类结果,通过统计输出层每个神经元被激活的次数,可以得到一个合理有效的分类,此结果为一个10*10 的二维矩阵:[[0.,0.,0.,0.,0.,0.,0.,0.,0.,0.],...,[ 0.,0.,37.,26.,29.,0.,0.,0.,0.,0.],[0.,1.,34.,28.,27.,0.,0.,0.,0.,0.],[0.,0.,45.,56.,14.,0.,0.,0.,0.,0.],...,[ 0.,0.,0.,0.,0.,0.,0.,0.,0.,0.]]。因此可以将数据分为9 类,在此基础上再进行进一步的分析与比较,更加科学、客观、合理地进行高职院校学生的综合素质评价。

4 结论

SOM 是一种无监督学习网络,通过自组织映射,把系统划分为若干子系统,每一个子系统对外界输入有不同的响应,SOM 算法将完全保留输入层的拓扑结构。本文选取了六个维度的300 份高职院校学生综合素质各类评分数据作为样本,利用SOM 进行聚类分析,通过试验,发现收敛性比较好的优胜领域的函数设置,在此基础上完成聚类,为进一步研究科学、合理的评价和分类方式提供了依据。

猜你喜欢
数据挖掘神经元聚类
《从光子到神经元》书评
探讨人工智能与数据挖掘发展趋势
跃动的神经元——波兰Brain Embassy联合办公
基于DBSACN聚类算法的XML文档聚类
基于并行计算的大数据挖掘在电网中的应用
基于高斯混合聚类的阵列干涉SAR三维成像
一种基于Hadoop的大数据挖掘云服务及应用
基于二次型单神经元PID的MPPT控制
毫米波导引头预定回路改进单神经元控制
一种层次初始的聚类个数自适应的聚类方法研究