集成多策略改进FCM算法的旋转机械故障数据聚类分析研究

2019-11-27 03:21邓林峰张爱华赵荣珍

振动工程学报 2019年5期

邓林峰张爱华赵荣珍

摘要：针对旋转机械故障数据聚类分析中的初始聚类中心不确定和孤立点敏感问题，提出了一种集成多策略改进的模糊C均值（FCM）聚类方法。首先以故障数据集的决策属性为等价关系对数据集进行划分，得到若干个由等价关系导出的等价类;然后以每个等价类为可行域，采用均值漂移方法搜索故障数据类中心;最后以搜索到的类中心为FCM算法的初始聚类中心，通过核技术计算故障数据样本与相应类中心在高维特征空间中的欧氏距离，从而实现数据样本相似性的有效度量，并完成故障数据的模糊聚类。通过标准数据集和旋转机械故障数据集对方法的性能进行了验证及比较分析。结果显示，改进FCM算法的聚类性能相比传统FCM算法的聚类性能得到了明显提升，在收敛速度和聚类准确性两个性能指标上，改进的FCM算法比FCM算法具有显著优势。

关键词：故障诊断; 旋转机械; 聚类分析; 模糊C均值; 聚类性能

中图分类号： TH165+.3; TP391.4 文献标志码： A 文章编号： 1004-4523（2019）05-0918-09

DOI：10.16385/j.cnki.issn.1004-4523.2019.05.020

引言

故障诊断技术为保障旋转机械安全可靠运行发挥着极其重要的作用[1]。然而由于旋转机械故障振动信号具有明显的非平稳特性，且易受到噪声干扰，使得部分故障样本的特征值将发生偏移，从而脱离实际故障的特征分布区间，甚至与其他故障的特征数据交叠在一起，形成分布状态十分复杂的故障数据，导致分析诊断故障的难度急剧增大[2]。

为了获取准确的故障特征信息，各种数据挖掘技术被应用于故障数据的处理[3-5]。聚类分析是进行数据挖掘的主要方法之一[5]，作为一种优良的聚类算法，模糊C均值（Fuzzy C-means， FCM）聚类算法受到旋转机械故障数据分析研究的广泛关注。Rodríguez Ramos等[6]将基于密度的模糊C均值聚类与核模糊C均值聚类算法相结合，对搅拌反应器故障进行分类识别。郑直等[7]提出一种EEMD形态谱和核模糊C均值聚类集成的故障诊断新方法，实现了滚动轴承故障的有效诊断。李怀俊等[8]研究了基于核特征模糊聚类及模糊关联熵的故障识别方法，可显著提高故障数据的聚类效果，并识别齿轮故障。田再克等[9]提出了一种基于改进多重分形去趋势波动分析和半监督马氏距离模糊C均值的液压泵退化状态识别方法，并利用液压泵实测数据验证了方法的有效性。

上述研究使FCM聚类算法与故障诊断技术有了很好的结合，可有效识别故障状态。但经研究发现，该算法依然存在初始聚类中心不确定和孤立点敏感的缺陷[10]，这将导致FCM聚类算法在处理复杂数据时容易出现收敛速度慢、准确性偏低的问题，从而影响故障诊断效率和精度。近年来，虽然针对FCM算法的上述缺陷开展了一些研究工作[5， 10]，但算法性能的提升还存在一定空间，有待进一步对其改进以满足应用需求。

基于以上分析，本文提出了一种集成多策略改进的FCM（Improved FCM， IFCM）聚类算法。该算法采用建立聚类中心的可行域和均值漂移方法解决故障数据集初始聚类中心不确定问题，并通过核方法计算故障数据样本在高维特征空间中的距离，以减小孤立样本对聚类准确性的影响。最后利用UCI标准数据集和转子-轴承系统故障数据集对所提出的改进FCM算法的有效性进行验证，通过与FCM算法进行对比分析，进一步说明改进算法具有更好的聚类性能。

1 模糊C均值聚类算法

模糊C均值聚类算法的出发点是基于对目标函数的优化，通过迭代算法寻找一组中心矢量，使各样本到其距离平方和达到最小，即通过对平方误差函数求极值来确定最佳模糊分类矩阵和聚类中心[11]。该算法的基本流程描述如下：

在运行聚类算法时，可行域设置的越小，相应的计算复杂度就越低，但过小的可行域可能并不包含真实的聚类中心，将使搜索过程失效;反之，可行域设置的越大，搜索范围也相应增大，从而增加了计算复杂度。由于一个FCM聚类模型可以看成由若干个相互独立的噪声聚类问题的子模型构成，且每个子模型与一个单独的类别相对应，因此对包含C个类别的数据集进行FCM聚类就可以转化为求解这C个独立优化子问题各自的解[12]。也就是说，这C个子问题与C个类之间具有一一对应关系。

另一方面，以数据集的决策属性（数据类别）作为数据集X上的一个等价关系（表示为D）可形成对X的一个划分，并得到X上一个由等价关系D导出的等价类集合XD，且每个等价类与数据集的一个类别相对应。因此，若数据集X由包含C个类别的数据构成，通过数据的決策属性对其进行划分，则可得到相应的C个等价类，而每个等价类就包含了数据集中某一类别的所有元素。

通过比较划分和可行域两个不同概念的定义可以发现，利用决策属性D对数据集X形成的划分将产生一个关于X的子集族，这个子集族必然满足可行域的条件，即XD实际上是数据集X的聚类中心可行域的一种特殊情形。显然，若X包含C个类别，则XD中将具有C个等价类，这些等价类就可作为FCM聚类算法C个独立优化子问题的可行域。

建立了FCM算法优化子问题的可行域之后，在运行FCM算法时，就可设定每个子目标函数在相应的可行域内搜索最优值。由于XD中任意两个等价类的交集为空集，因此以X〖〗D作为可行域能够避免FCM算法产生重合聚类。

2.2 均值漂移算法

均值漂移（Mean-Shift， MS）是一种有效的统计迭代算法，使每一个点都“漂移”到密度函数的局部极大值点，并利用核密度估计来表示特征空间数据的分布情况[13]。MS算法的基本原理如下。

2.3 核方法的样本相似性度量

数据样本之间的相似性度量是进行聚类分析的基础，对于最终聚类结果的形状具有很大影响。在FCM及大多数目前常用的聚类算法中，通常都利用欧氏距离在原始特征空间对样本间的相似性进行度量。但由于原始特征空间数据分布的复杂性，样本的相似性度量会产生较大误差，导致聚类结果的精度偏低。

核方法[14]可以通过某种非线性变换将低维空间中的样本映射到高维空间中，然后在这个高维空间中对样本的相似性进行度量，以提高样本相似性度量的准确度。因此，通过引入核函数将样本映射到高维空间并设计新的相似性度量函数，应该可以实现提升FCM算法聚类性能的目的。

3 改进FCM算法的性能验证及应用

为评价本文提出算法的聚类性能，分别使用标准数据和转子-轴承系统故障实验数据进行聚类分析，并与FCM算法的聚类结果进行比较，以验证本文算法的有效性。在进行聚类分析时，对于标准数据和转子故障实验数据，同一算法均采用相同的参数。其中，FCM算法和改进FCM算法的迭代阈值都设为0.001，模糊聚类指数m都设为2[6， 11];MS算法的迭代阈值ε1设为0.001，核函数G选取高斯核，核半径h取2[13];改进FCM算法的核函数K也采用高斯核，核参数σ取1.34[6];FCM 和改进FCM算法的最大迭代次数都设定为100。

3.1 标准数据

从UCI数据库中选择两个被广泛用于聚类分析的数据集Iris[15]和Soybean[16]，对FCM算法和改进FCM算法的性能进行比较，以验证改进FCM算法的有效性。如上两个数据集的数据特性如表1所示。利用两种聚类算法对这两个数据集分别进行处理，其目标函数的迭代误差如图1所示。

表1中的Iris数据集具有4维特征，包含3个不同类别的数据，每一类数据都有50个样本;Soybean数据集具有35维特征值，包含4个不同类别的数据，其中3个类别每一类都有10个样本，剩下一类有17个样本。为便于描述，Iris的3个类别将采用符号数字1，2，3进行表示;Soybean的4个类别将采用符号数字1，2，3，4进行表示。

从图1可见，对于数据集Iris和Soybean，利用两种聚类算法处理时，对应的目标函数迭代误差存在明显差别。显然，FCM聚类算法的目标函数迭代误差在迭代初始阶段较大，随着迭代次数的增加，迭代误差迅速减小并趋近于零;而改进FCM聚类算法的目标函数迭代误差在迭代初始阶段就很小。这主要是因为改进的FCM聚类算法在进行模糊聚类之前先利用MS算法搜索到了数据集的初始聚类中心，通常情况下，这些初始的聚类中心与最终的聚类中心已非常接近，所以改进的FCM聚类算法只需要很少的迭代次数即可收敛。因此，与FCM聚类算法相比，改进FCM聚类算法的数据处理效率更高，收敛速度更快。

两种算法对两个标准数据集的聚类准确率及运行时间如表2所示;具体的聚类结果如表3所示。

表2显示，利用两种算法分别对Iris和Soybean两个数据集进行聚类分析时，改进FCM算法的聚类准确率都更高。虽然改进的FCM算法比FCM算法的运行时间增长了1倍左右，这主要是由于利用MS算法搜索数据的初始聚类中心，所以增加了算法的运行时间，但都没有超过0.3 s，具有较快的数据处理速度。

从表3可见，与FCM算法相比，改进FCM算法的聚类精度之所以得到提高，主要是其将FCM算法中聚类错误的部分数据样本划分到了正确的类别，从而增加了这些类别的正确样本，与实际样本数更加接近。虽然改进的FCM算法对于Iris数据集第2类数据样本的正确划分减少了2个，但第3类数据样本的正确划分增加了7个，从而使得Iris数据集的总体聚类准确率仍然提高了3.34%;对于Soybean数据集，其第3、第4类数据样本的正确划分数分别增加了1个和3个，从而将改进的FCM算法的聚类准确率提高了8.51%。

3.2 转子-轴承系统故障数据

将本文提出的改进FCM聚类算法应用于图2所示转子-轴承系统故障数据的聚类分析。故障模拟实验设置了质量不平衡、转子不对中、动静碰摩、轴承松动及正常共5种运行状态。采集转子转速为3000 r/min时的振动信号，采样频率设置为5000 Hz，采样点数确定为12500，每一种运行状态都采集100个数据样本。

由文献[17-19]的研究结果可知，均方根、均方根频率、频率标准差可有效刻画不同故障状态，故选取这3个特征用于构造故障数据集。转子实验台上共设置了12个振动传感器，即采集的每一个样本包含着12个通道，而每个通道的信号都能产生上述3个特征，因此可构成36维特征的故障数据集，如表4所示。

表4所示的故障特征数据由12个通道的振动信號计算得到，每一行代表着一个振动数据样本，也就是说，每一个数据样本都包含着转子系统在某种运行状态下12个不同测点位置上的振动特性。显然，每3个特征来自一个信号通道，任何两个通道的特征类型都是相同的，但是由于测点不同，即使同一特征也具有不同的特征值，因此这些特征包含着能够相互补充的故障状态信息。

表4虽然只给出了全部故障数据的一小部分，但是从表中数据仍然可以发现，对于相同的故障特征，转子系统不同测点处的特征值存在明显差别。这说明转子系统不同测振点的振动状况是不一样的，利用多个传感器组成多通道的数据采集阵列可最大程度上获取转子系统的完整状态信息。

利用FCM算法和改进FCM算法对转子故障数据集分别进行处理，其目标函数的迭代误差如图3所示。

从图3可见，当迭代次数到达26时，两种聚类算法目标函数的迭代误差都趋于零。但是，很明显，FCM算法目标函数的初始迭代误差较大，而改进的FCM算法目标函数的迭代误差在迭代初期就很小，其收敛速度明显更快，说明MS算法搜索的初始聚类中心已经非常接近故障数据集的真实聚类中心，从而可以有效加快改进FCM算法的收敛速度。两种算法对转子故障数据集的聚类准确率及运行时间如表5所示;具体的聚类结果如表6所示。

Li Huaijun， Xie Xiaopeng. Gear fault pattern recognition based on kernel feature fuzzy clustering and fuzzy association entropy[J]. Chinese Journal of Scientific Instrument， 2015， 36（4）： 848-855.

[9] 田再克，李洪儒，孙健，等. 基于改进MF-DFA和SSM-FCM的液压泵退化状态识别方法[J]. 仪器仪表学报， 2016， 37（8）： 1851-1860.

Tian Zaike， Li Hongru， Sun Jian， et al. Degradation state identification method of hydraulic pump based on improved MF-DFA and SSM-FCM[J]. Chinese Journal of Scientific Instrument， 2016， 37（8）： 1851-1860.

[10] 陈海鹏，申铉京，龙建武，等. 自动确定聚类个数的模糊聚类算法[J]. 电子学报， 2017， 45（3）：687-694.

Chen Haipeng， Shen Xuanjing， Long Jianwu， et al. Fuzzy clustering algorithm for automatic identification of clusters[J]. Acta Electronica Sinica， 2017， 45（3）： 687-694.

[11] 董晓峰. 基于RCM分析的智能化汽轮机组故障诊断系统研究[D]. 北京：华北电力大学， 2012.

Dong Xiaofeng. Study on intelligent fault diagnosis system for turbogenerator based on RCM analysis[D]. Beijing： North China Electric Power University， 2012.

[12] 胡雅婷. 可能性聚类方法研究及应用[D]. 长春：吉林大学， 2012.

Hu Yating. Research and application of possibilistic clustering method[D]. Changchun： Jilin University， 2012.

[13] 宋新，羅军，王鲁平，等. 基于Mean Shift聚类的边缘检测方法[J]. 弹箭与制导学报， 2007， 27（1）： 366-368.

Song Xin， Luo Jun， Wang Luping， et al. Edge detection method based on Mean Shift clustering method[J]. Journal of Projectiles， Rockets， Missiles and Guidance， 2007， 27（1）： 366-368.

[14] 康家银，纪志成，龚成龙. 一种核模糊C均值聚类算法及其应用[J]. 仪器仪表学报， 2010， 31（7）： 1657-1663.

Kang Jiayin， Ji Zhicheng， Gong Chenglong. Kernelized fuzzy C-means clustering algorithm and its application[J]. Chinese Journal of Scientific Instrument， 2010， 31（7）： 1657-1663.

[15] Fisher R A. Iris Data Set[DB/OL]. http：//archive.ics.uci.edu/ml/datasets/Iris， 1988-07-01.

[16] Michalski R S. Soybean （Small） Data Set[DB/OL]. http：//archive.ics.uci.edu/ml/datasets/Soybean+（Small）， 1987-01-01.

[17] Lei Yaguo， He Zhengjia， Zi Yanyang. A new approach to intelligent fault diagnosis of rotating machinery[J]. Expert Systems with Applications， 2008， 35（4）： 1593-1600.

[18] 张恒，赵荣珍. 故障特征选择与特征信息融合的加权KPCA方法研究[J]. 振动与冲击， 2014， 33（9）： 89-93.

Zhang Heng， Zhao Rongzhen. Weighted KPCA based on fault feature selection and feature information fusion[J]. Journal of Vibration and Shock， 2014， 33（9）： 89-93.

[19] 程晓涵，汪爱明，花如祥，等. 24种特征指标对轴承状态识别的性能研究[J]. 振动、测试与诊断， 2016， 36（2）： 351-358.

Chen Xiaohan， Wang Aiming， Hua Ruxiang， et al. Studying on property of 24 characteristic indexes to bearing state recognition[J]. Journal of Vibration， Measurement & Diagnosis， 2016， 36（2）： 351-358.

Abstract： To solve the problems that initial clustering centers are uncertain and outliers are sensitive in the clustering analysis of rotating machine fault data， an improved fuzzy C-means （FCM） clustering algorithm based on integrated multi-strategy is proposed in this paper. Firstly， the fault data set is divided through the decision attribute of itself， and several equivalence classes derived from the equivalence relation are obtained. Then， each equivalence class is regarded as the feasible domain， and mean shift method is used to search the class center in the feasible domain. Finally， treating the searched class center as the initial clustering center of the clustering algorithm， the similarity between the fault data sample and the corresponding cluster center is measured via the kernel method in the high-dimensional feature space to achieve fuzzy clustering of fault data set. The performance of the proposed method is verified and compared via standard data sets and rotating machinery fault data sets. The results show that the clustering performance of the proposed method is significantly improved compared with the FCM algorithm and the proposed method has significant advantages over the FCM algorithm in terms of convergence speed and clustering accuracy.

Key words： fault diagnosis; rotating machinery; clustering analysis; fuzzy C-means; clustering performance

作者簡介：邓林峰（1984-），男，副教授。电话： 15193117545; E-mail： denglinfeng2002@163.com