基于MATLAB的就业数据的聚类分析

2016-07-15 09:03邹全常程威贾月月
考试周刊 2016年53期
关键词:聚类分析

邹全+常程威+贾月月

摘 要: 根据2010年到2013年我院校大学生就业情况,对大学生的就业数据进行分析。数据分析有很多方法,本文主要采用谱系聚类、K均值聚类、模糊C均值聚类三种聚类方法,并得出了结论。

关键词: MATLAB 聚类分析 就业数据

随着中国高校教育的发展,大学生人数急剧增加,就业问题日益突出,大学生就业难的问题已成为社会热点、难点。根据2010年到2013年近四年我院校大学生就业情况,对大学生的就业数据进行聚类分析。根据就业数据可以对学生选择就读的专业及学校本科办学提供一定的参考价值。

聚类分析是多元统计分析的一种,也是非监督模式识别的重要分支,在模式分类、图像处理和模糊规则处理等众多领域获得最广泛应用。它把一个没有类别标记的样本集按某种准则划分为若干个子集(类),使相似样本尽可能归为一类,而将不相似样本尽量划分到不同类中。

收集和整理2010年到2013年这四年我院校的就业数据,对就业数据中的就业率、考研升学率和男女生首次平均月收入进行MATLAB编程,得出散点图,并进行分析。对就业数据中毕业生的就业流向分别采用谱系聚类、K均值聚类和模糊C均值聚类三种聚类分析方法进行分析。如表1。

1.谱系聚类算法的步骤

谱系聚类首先将每个样品看成一类,然后把最相似的样品聚为一小类,再将已聚类的小类按各类之间的相似性进行再聚类,随着相似度减弱,最后将一切子类都聚为一大类,从而得到一个按相似度大小聚集起来的谱系图[1]。

利用谱系聚类算法对表1的就业流向数据进行聚类分析。将数据分成3类,从程序输出的结果得出结论,共可分成3类,常州单独为一类,南京、苏州、无锡为一类,剩下的镇江、扬州、南通之类的归为一类。也就是说,很多外地毕业生就在常州发展,很大一部分毕业生去南京、苏州、无锡工作,还有一小部分毕业生去了镇江、扬州、南通,还有省外等地。

2.K均值聚类算法的步骤

谱系聚类法是先将每一个样品看成一类,通过比较距离的大小逐步扩充类,因此,对于给定的数据,谱系聚类一定能将样品合并成为一类,分类结果唯一,但谱系聚类有一个缺点,就是样品一旦被分到某一类中就不能改变了,且当样品容量较大时,计算量相应变大。克服这一缺点的办法就是K均值聚类法,又称之为快速聚类法或动态聚类法。

利用K均值聚类算法对表1的就业流向数据进行聚类分析。

从图1可知,将地区分成3类。□为一类,分别表示常州、苏州、南京、无锡;一类,分别表示省外、镇江、扬州;○为一类,表示剩下的几个地区,如盐城、南通、泰州、宿迁等。换句话说,大部分毕业生选择在苏南地区工作,一部分毕业生选择去省外,如上海和镇江、扬州工作,只有少数一部分人选择去淮安、宿迁、盐城等地工作。

3.模糊C均值聚类算法的步骤

模糊聚类得到了样本属于各个类别的不确定性程度,表达了样本类属的中介性,即建立起了样本对类别的不确定性描述,能更客观地反映现实世界,从而成为聚类分析研究的主流[2]。

采用模糊C均值聚类算法对表1的就业流向数据进行分析。从输出聚类的结果来看,常州、南京、苏州、无锡这四个城市为一类,表示很大一部分毕业生愿意在这几个城市发展;镇江、扬州、省外三地为一类,表示有一部分毕业生选择在这些地方发展;剩下的如南通、盐城、泰州等七个城市为一类,说明少部分人愿意去这些城市工作发展。

4.三种聚类算法对就业流向的分析结论

从三种聚类算法的结果可以看出,谱系聚类算法与K均值聚类算法和模糊C均值聚类两种算法的聚类结果不同。通过比较可以看出,谱系聚类算法的结论不是很理想。K均值聚类算法得出的散点图更直观地表现了数据的聚类,所以K均值聚类算法更好一些。

通过对就业流向的聚类分析,可以看出极大一部分毕业生选择在江苏经济发达地区工作,如苏州、南京、无锡、常州这些城市,其中由于我院校在常州,因此很大一部分毕业生愿意留在这个生活了四年的地方工作。毕竟在大城市的选择和发展机会都比较多。还有一部分毕业生选择在镇江、扬州和省外如上海等地工作。只有少数一部分人愿意去如泰州、盐城、宿迁等地工作。

参考文献:

[1]吴志远,王远干.大学生身体数据的FCM算法聚类及MATLAB实现[J].科技通报,2013.

[2]周红进,王秀森.基于MATLAB的海量数据处理方法[J].计算机与数字工程,2012.

猜你喜欢
聚类分析
基于谱聚类算法的音频聚类研究
基于Weka的江苏13个地级市温度聚类分析
我国中部地区农村居民消费行为阶段特征分析
基于聚类分析的无须人工干预的中文碎纸片自动拼接
浅析聚类分析在郫县烟草卷烟营销方面的应用
农村居民家庭人均生活消费支出分析
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
“县级供电企业生产经营统计一套”表辅助决策模式研究