基于密度最大值的K—means初始聚类中心点算法改进

2018-01-11 14:01刘闯陈桂芬

数字技术与应用 2017年11期

刘闯+陈桂芬

摘要：聚类分析是机器学习中重要的方法，传统的K-means算法对于聚类的初始中心点的选择具有随机性，这就造成不同的选择产生不同的聚类结果。针对这一问题，提出一种基于密度最大值的优化初始聚类中心选取算法。试验结果显示，改进后的算法与传统算法相比具有较高的稳定性和可靠性。

关键词：聚类；稳定性；局部密度；可靠性

中图分类号：TP393 文献标识码：A 文章编号：1007-9416（2017）11-0118-02

1 引言

聚类算法是数据挖掘中一种重要的算法，K-means聚类算法思路简单，聚类快速。但是，其缺点也是十分明显，易受噪声影响，容易陷入局部最优解。为解决传统K-means聚类算法问题，很多学者从不同角度提出改进算法。文献[1]根据密度和平均距离完成聚类中心的优化，文献[2]选择相互距离最远的K个处于高密度区域的点作为中心。文献[3]选择平均密度优化初始聚类中心。综合各个改进思想，提出基于密度最大值初始聚類中心的K-means算法。

4 仿真实验分析

为验证改进算法的有效性，采用国际上的专门用来测试机器学习算法的UCI数据集中Iris、Wine、Soybean这三组数据进行测试。Iris数据有950条数据，每个数据对象有4个属性，分三类；Wine数据750条数据，每个数据13属性，分三类；Soybean数据500条，每个数据对象35个属性，分7类。测试实验结果如表1，表2所示。

由表1，表2实验对比结果可知改进后算法在迭代次数，平方误差，测试时间，准确率等方面对比传统K-means算法，由表可知，改进后算法准确率明显高于其他两种算法。

5 结语

对于提出基于密度最大值初始化聚类中心的K-means算法，通过实验对比表明，算法迭代次数和聚类所需时间减小，准确率提高。

参考文献

[1]王浩，黄越.基于距离测度学习的AP聚类图像标注[J].计算机工程与应用，2016：43-46.

[2]孙士保，秦克云.改进的k-平均聚类算法研究[J].计算机工程，2014：57-62.

[3]邢长征.基于平均密度优化初始聚类中心的K-means算法[J].计算机应用工程，2014：56-59.

[4]Han Jiawei.Data mining：concepts and techniques[M].San Francisco：Morgan Kaufmann Publishers，2014：32-35.

Abstract：Clustering analysis is an important method in machine learning. The traditional K-means clustering algorithm has randomness to the initial central point of clustering， which leads to different choices to produce different clustering results. In response to this problem， an optimal initial clustering center selection algorithm based on maximum density is proposed. Compared with the standard data UCI， the experiment shows that the improved algorithm has higher stability and reliability than the traditional algorithm.

Key Words：Clustering；stability；local density；reliabilityendprint