基于核函数的聚类算法的研究

2018-09-13 11:22:00 电脑知识与技术2018年17期

贺艳芳

摘要:核函数聚类通过Mercer核把原来非线性数据空间映射到特征空间,在经典的聚类算法的基础上得到全新的聚类目标函数。传统的核聚类算法收敛速度较慢容易陷入局部最优解。同时离群点是远离其他数据点的数据,但可能包含重要的信息。针对这些问题,本文对已有的核聚类算法模型和应用进行了详细的阐述。

关键词:聚类;核函数;离群点

中图分类号:TP181 文献标识码:A 文章编号:1009-3044(2018)17-0005-03

Abstract: The kernel function clustering maps the original nonlinear data space into the feature space through the Mercer kernel, and obtains a new clustering target function on the basis of the classical clustering algorithm. The traditional kernel clustering algorithm is slow in convergence and easy to fall into the local optimal solution. At the same time, outliers are data that is far away from other data points, but may contain important information. Aiming at these problems, the existing models and applications of kernel clustering algorithm are elaborated in detail.

Key words: clustering; kernel function ; outlier

聚类分析在数据挖掘中占有重要地位,它将具有相同特征的对象放在同一个簇中,而不同的聚类在不同的簇中。现有的聚类分析方法有:基于密度的方法[1]、基于模型的方法[2]、基于划分的方法[3]和基于网络的方法[4]等。较经典的算法是模糊C-均值算法[5],该算法主要对样本特征进行聚类,聚类结果依赖样本点的分布情况,当各类样本线性不可分时,这种算法的聚类效果较差。核聚类算法[6]是将核函数引入聚类之中,通过将输入空间的数据的非线性映射到高维空间,在高维空间进行线性聚类。这样通过映射的数据增加了数据的差异性,扩大了数据的线性可分。

核方法主要用的核函数,将原始数据由非线性划分映射到特征空间,在特征空间进行聚类,这样能处理非线性数据。核函数比经典聚类算法性能更优,收敛速度更快。早期核函数主要用于SVM方法[7],核函数分为核Fisher判别分析[8]、核C-均值聚类[9]、核模糊c-均值聚类[10]。本文以核函数方法为基础,介绍核函数的经典算法和核函数在各种算法中的应用。

1相关研究

1.1核函数

2总结

本文对核聚类算法的模型、算法和应用进行了详细的分析,发现在模糊聚类算法中加入PSO算法可以有效的避免聚类分析对数据结构的依赖性,增加算法的收敛性和解决算法易陷入局部最优现象。为每个特征空间加动态权值,能借助权值发现样本集中的离群点。离群模糊聚类算法不仅能发现离群点,又能取得良好的聚类效果。

参考文献:

[1] 蔡伟鸿, 刘震. 基于密度聚类算法的入侵检测研究[J]. 计算机工程与应用, 2005, 41(21):149-151.

[2] 宋浩远. 基于模型的聚类方法研究[J]. 重庆科技学院学报:自然科学版, 2008, 10(3):71-73.

[3] 贾瑷玮. 基于划分的聚类算法研究综述[J]. 电子设计工程, 2014(23):38-41.

[4] 张伟莉, 倪志伟, 赖建章. 一种新的基于网格的聚类算法[J]. 计算机应用研究, 2008, 25(5):1337-1339.

[5] 高新波, 李潔, 姬红兵. 基于加权模糊c均值聚类与统计检验指导的多阈值图像自动分割算法[J]. 电子学报, 2004, 32(4):661-664.

[6] 张莉, 周伟达, 焦李成. 核聚类算法[J]. 计算机学报, 2002, 25(6):587-590.

[7] 李蓉, 叶世伟, 史忠植. SVM-KNN分类器——一种提高SVM分类精度的新方法[J]. 电子学报, 2002, 30(5):745-748.

[8] 李映, 焦李成. 基于核Fisher判别分析的目标识别[J]. 西安电子科技大学学报(自然科学版), 2003, 30(2):179-182.

[9] 单凯晶, 肖怀铁, 朱俊. 基于模糊核C-均值聚类分析的HRRP识别[J]. 电光与控制, 2010, 17(5):42-45.

[10] 康家银, 纪志成, 龚成龙. 一种核模糊C均值聚类算法及其应用[J]. 仪器仪表学报, 2010, 31(7):1657-1663.

[11] 徐海霞, 刘国海, 周大为,等. 基于改进核模糊聚类算法的软测量建模研究[J]. 仪器仪表学报, 2009, 30(10):2226-2231.

[12] 沈红斌, 王士同, 吴小俊. 离群模糊核聚类算法[J]. 软件学报, 2004, 15(7):1021-1029.

电脑知识与技术 2018年17期

电脑知识与技术的其它文章
基于应用型高校的大数据实验室建设研究
浅谈高校耗材仓库管理系统及应用