基于独立特征选择与流形学习的故障诊断

2018-09-03 03:02房立清齐子元
振动与冲击 2018年16期
关键词:约简特征选择降维

杜 伟, 房立清, 齐子元

(陆军工程大学 火炮工程系,石家庄 050003)

机器设备故障诊断的实质是对设备的工作状态进行准确辨别。振动信号作为机械故障信息的重要载体,对其进行特征提取是机械故障诊断中的关键问题。随着非线性分析方法的出现,从各个角度描述信号本质属性的参数被广泛应用到机械设备故障诊断中。然而,从多角度提取故障特征往往会导致特征集包含非敏感特征和维数过高,影响故障诊断的效率和精度。因此,需要对高维特征集进行有效的维数约简。

流形学习是Tenenbaum等[1]提出的一种维数约简算法,能够充分挖掘高维特征集的本质结构。许多学者应用非线性流形学习算法对故障特征进行维数约简,在机械设备故障诊断中作了许多探索和研究。陈鹏飞等[2]将等距映射与局部线性嵌入算法相结合,通过对转子系统高维故障特征集进行降维,提高了故障诊断的精度;张前图等[3]通过提取时域信号在极坐标空间下的参数组建高维特征集,并利用线性局部切空间排列(LLTSA)算法进行维数约简,使滚动轴承故障信号的低维特征可分性更高。然而,非线性流形学习算法仍然无法消除非敏感特征的影响,因此需要在维数约简前进行敏感特征选择。

基于Fisher准则函数的线性判别分析(Linear Discriminant Analysis,LDA)[4]是一种有效的线性特征提取方法,其物理意义是将样本在最优投影轴上投影后的类间散度与类内散度之比作为可分性判据。为了克服LDA在特征线性不可分的情况下评价能力差的缺点,许多学者引入核映射的思想,将样本通过核函数映射到高维空间,在新的空间中进行线性判别分析,如Mika等[5]提出了核Fisher判别分析(Kernel Fisher Discriminant Analysis,KFDA)方法;Wang等[6]提出核散布矩阵的可分性判据;王广斌等[7]在核空间中重新定义类内散度和类间散度,构建核局部Fisher判别函数。然而,这类共享特征选择(Sequence Feature Series,SFS)[8]方法通过计算所有类别样本集间距离的平均值得到可分性判据,容易受到边缘类的影响[9],造成除边缘类之外其他类别的较大重叠,而根据两类之间的Fisher准则值对可分性进行衡量则不会受边缘类的影响。

基于以上分析,本文提出基于独立特征选择与线性局部切空间排列相结合(IFS-LLTSA)的故障诊断方法。结合局部特征尺度分解(Local Characteristic-scale Decomposition,LCD)[10]的多尺度分析能力,从多个角度提取振动信号的故障特征,采用一种改进的核Fisher特征选择方法为每两类故障状态优选出独立的敏感特征集,而后通过LLTSA算法得到维数低、聚类性好的融合特征,用“一对一”法[11]训练多个二类分类支持向量机,并采用“最大票数赢”[12]的决策策略构造多分类器判断故障类型。通过液压泵故障诊断实例验证了本文所提方法的有效性。

1 独立特征选择

1.1 核Fisher判别分析

核Fisher判别分析(KFDA)方法是在线性判别分析方法的基础上提出的一种非线性判别方法。首先通过非线性映射将原始输入空间X中的所有样本映射到高维特征空间中,然后在该高维特征空间中进行线性可分性分析,找出使类内离散度小且类间离散度大的最优投影方向,其中,非线性映射通过核函数运算来实现。

假设给定样本集共包含D维特征,C个类别, 在第d维特征的样本集中, 属于c1类的样本x1={x1,x2,…,xn1}, 属于c2类的样本x2={x1,x2,…,xn2}, 且n1+n2=n, 非线性映射φ将输入空间映射到高维特征空间F, 即φ:R→F,x→φ(x)。 假设c1类和c2类的先验概率相等且所有样本都是去均值的,则两类样本在特征空间中的均值向量为

(1)

(2)

(3)

则寻找最佳的投影方向wopt, 即最大化目标函数

(4)

(5)

(6)

(7)

式中: 核函数选择高斯径向基核函数k(xi,xj)=exp(-g‖xi-xj‖2), 核参数g设置为0.5。 计算两类样本投影的类间散度与类内散度的比值, 作为第d维特征的核Fisher准则值

(8)

通过计算不同类类间散度平均值和类内散度平均值的比值, 可以得到第d维特征对所有类的核Fisher准则值Jw,据此可为所有类选择出一组共享的特征子集。然而,这类共享特征选择(SFS)方法过分强调那些与其他类之间具有较大距离的类别(边缘类)。因此,考虑为每两类独立选择最优特征子集。

1.2 改进的核Fisher特征选择方法

在使用可分性判据选取特征时,通常先将判据值归一化处理,然后优选出判据值大于0.5的特征作为敏感特征[14],然而判据值小于0.5的特征也包含一定的信息量,直接舍去会损失这部分信息。据此,本文采用一种改进的核Fisher特征选择方法选取敏感特征:

(1) 由1.1计算每两类样本第d维特征的核Fisher准则值Jd, 将经过归一化处理的Jd输入式(9), 并将输出值小于0的全部取0, 大于1的全部取1, 使得0≤ξd≤1, 并以此作为该特征的敏感度值ξd。

(9)

式中:ξd与Jd的关系曲线如图1所示。 当输入Jd由0.5变化到0时, 输出曲线在直线y=x下方, 且输出值ξd与y=x偏差逐渐增大, 直至输出值小于0时则ξd直接取为0; 当Jd由0.5逐渐增大到1时, 输出曲线在直线y=x之上, 此时ξd-Jd的差值逐渐变大, 且当ξd>1时直接取为1。 分析式(9)和图1可知,如果某一特征的核Fisher准则值大于0.5,则输入式(9)后,其输出值会在一定程度内增大该特征的敏感程度,从而使该特征起更重要的作用。同理,如果核Fisher准则值小于0.5,其输出值将会减小该特征的敏感程度,从而降低甚至消除该特征的作用。

图1 式(9)的关系曲线Fig.1 Relation curve of formula (9)

(2) 特征加权。

为了充分体现不同敏感程度的特征在故障诊断中的作用,本文将特征敏感度值ξd作为权值为特征进行加权,并将权值不为0的特征组成敏感特征集。在使用LLTSA算法提取敏感特征集的局部流形结构时,特征方差的大小能够反映特征包含信息量的多少,而给特征加权能使其方差相对于其他敏感程度低的特征而言增大,使局部低维坐标偏向于更敏感的特征,从而使其在故障诊断中起更加重要的作用。

2 线性局部切空间排列算法

LLTSA是一种非线性维数约简方法,通过构建样本点邻域的低维切空间并进行全局排列,得到样本点的低维全局坐标。即寻找一个转换矩阵A, 将RD空间中具有N个点的含噪数据集XORG(故障样本集)映射为Rd空间数据集Y=[y1,…,yN], 即

Y=ATXORGHN(d

(10)

式中:HN=I-eeT/N为中心矩阵;I为单位矩阵;e为k维全1向量。Y为XORG潜在的d维非线性流形。 包含以下3个步骤[15]:

(1) 构建邻域。

采用K-近邻法(KNN)得到每个数据样本点xi(i=1,…,N)的邻域Xi=[xi1,…,xik],k为邻近点个数。

(2) 获取局部信息。

寻找一组正交基, 提取Xi的局部低维坐标Θi, 正交基的求取过程相当于在Xi上进行主成分分析(PCA)。

(3) 局部切空间全局排列。

局部切空间全局排列的目的是重构数据集的本征结构, 使得将所有样本点xi的局部切空间映射到全局低维坐标的误差之和最小,即如下目标函数

(11)

XHNBNNXTα=λXHNXTα

(12)

3 基于IFS-LLTSA的故障诊断方法

为了更加准确、有效地进行故障诊断,需要从不同角度提取原始振动信号特征。因此,本文结合LCD的多尺度分析能力,从以下几个方面进行特征提取:①提取原始信号的波形因子、均值、均方根、偏斜度、峭度、裕度共6个时域指标;②提取原始信号频谱均值、频谱标准差、中心频率、频谱均方根共4个频域指标;③对原始信号进行局部特征尺度分解, 提取前m个内禀尺度分量(ISC)的模糊熵和将ISC分量组成m维矩阵进行奇异值分解所得的奇异值, 以及前m个ISC分量的能量信息。该故障诊断方法的主要流程如图2所示,具体步骤如下:

图2 基于IFS-LLTSA的故障诊断流程Fig.2 Flow chart of fault diagnosis based on IFS-LLTSA

(1) 对C个类别的原始信号进行LCD分解, 确定m值,并对训练样本和测试样本进行特征提取,得到高维混合特征集。

(2) 通过改进的核Fisher特征选择方法为每两类状态进行独立特征选择, 得到Di维敏感特征集, 并输入LLTSA进行维数约简, 得到映射矩阵Ai和di维融合特征, 其中1≤di

(3) 基于各自训练样本的融合特征训练C(C-1)/2个二类分类SVM,并组合所有二类分类SVM构成多分类故障诊断模型。

(4) 根据训练样本的敏感特征集,为每个测试样本提取出同样的特征,并通过映射矩阵Ai对测试样本进行特征融合,将结果输入多分类故障诊断模型,确定故障类型。

4 实验验证

4.1 故障数据获取

实测振动信号来自液压泵实验平台,液压泵型号SY-10MCY14-1EL,为斜盘式轴向柱塞泵,柱塞数为7,额定转速为1 500 r/min,在泵端盖处安装压电式加速度传感器采集振动信号,传感器安装位置如图3所示。

根据液压泵常见故障模式,分别选用单柱塞松靴故障(S1)、双柱塞松靴故障(S2)、滑靴磨损故障(H)和正常(N)的液压泵运行状态进行实验,主溢流阀压力为10 MPa,采样频率为20 kHz。按时间顺序以2 048个采样值为一组数据样本,分别测取4种运行状态数据各40组,液压泵4种状态的振动信号如图4所示。从图中可以看出,仅凭时域波形无法准确判断液压泵运行状态,需要进一步分析识别。

图3 传感器安装位置Fig.3 Installation location of sensor

图4 液压泵4种状态时域波形Fig.4 Time domain waveform of hydraulic pump in four states

4.2 实验结果与分析

对信号进行LCD分解,多数数据样本被分解为10个ISC分量和1个残余分量,因此,可确定m=10。图5为双柱塞松靴故障振动信号中一组样本数据的分解结果。

图5 双松靴故障振动信号LCD分解结果Fig.5 LCD results of double loose slipper fault vibration signal

按照基于IFS-LLTSA的故障诊断方法中(1)步骤所述,对数据样本中的每一组数据提取高维混合特征集,可得到4个40×40维的特征矩阵。随机抽取每种状态的20组数据作为训练样本,其余20组作为测试样本。用改进的核Fisher特征选择方法对训练样本进行特征选择,如图6所示,可得到6组(i.e.4(4-1)/2=6)每两类状态之间每个特征的敏感度值,图中编号1~40依次对应6个时域指标、4个频域指标和LCD分量的模糊熵、奇异值以及能量值各10个。

图6 特征敏感度值Fig.6 sensitive values of every feature

对比各二类特征的敏感度值可以看出,某个特征可能对某两类的区分能力较大,却无法区分所有类。时域指标对单柱塞松靴故障(S1)和双柱塞松靴故障(S2)具有一定的区分能力,而对双柱塞松靴故障(S2)和滑靴磨损故障(H)几乎没有区分能力;LCD分量的模糊熵对单柱塞松靴故障(S1)和滑靴磨损故障(H)的敏感度值较高,而对双柱塞松靴故障(S2)和正常状态(N)几乎不敏感;大部分LCD分量的奇异值对S2-N都具有一定的敏感程度,而仅有少数LCD分量的奇异值对S1-H具有较为明显的敏感度。从图6中可以看出,将特征的敏感度值作为权值为特征进行加权,筛选出的敏感特征可以由原来的40维降到19维~26维之间。

将敏感特征集输入LLTSA中进行维数约简,以S1-H状态敏感特征的降维结果为例进行分析,作为比较,选用原始混合特征集、SFS方法得到的准则值Jw大于0.5的特征集也进行LLTSA降维。各方法中最优目标维数d(范围[3,19])和邻域参数k(范围[3,20])通过多次试验确定。图7所示为3种方法得到的融合特征集前3个矢量的三维空间分布图。

图7 3种方法维数约简结果对比Fig.7 Comparison of dimension reduction results of three algorithms

图7(a)为原始混合特征集的降维结果,由于原始混合特征集包含较多的非敏感特征,使得敏感特征的区分能力不能得到充分的体现,因此降维效果较差,两类故障状态出现了较为严重的混叠。图7(b)为SFS方法得到的特征集进行降维的结果,由于仅选取了具有较高敏感度值的特征,降维后两类故障状态基本能够分离,然而准则值Jw评估的是每个特征对所有类的分类性能,选取出的特征对S1-H的分类并不是最优,因此降维后依然存在一定的混叠。图7(c)为IFS方法的敏感特征集进行降维的结果,由于对特征进行加权后,在排除非敏感特征干扰的同时,使得敏感特征的方差相对于其他敏感程度低的特征增大,因此融合特征具有很好的聚类性。通过多次实验可知,对6种组合的二类IFS特征集进行降维均可得到较好的降维效果。

将IFS-LLTSA方法得到的融合特征输入6个二类分类SVM进行训练,并组合所有二类分类SVM构造多分类故障诊断模型。对每个测试样本提取出同样的特征,并通过映射矩阵得到融合特征,将结果输入多分类故障诊断模型,确定故障类型。作为比较,采用SVM对原始混合特征集(None)、经SFS筛选的特征集(SFS)、经LLTSA降维的原始混合特征集(None-LLTSA)以及经LLTSA降维的SFS特征集(SFS-LLTSA)也进行分类识别。实验中SVM的核函数选用非线性映射能力较强的径向基核函数[16],设置惩罚参数C=1, 核函数参数g=1。 识别结果如表1所示。

分析表1可知,由于从多域提取的特征集中包含较多的非敏感特征,因此未经特征选择的原始混合特征集识别率较低,而经SFS筛选的特征集仅包含具有较高敏感度值的特征,排除了大量的非敏感特征,因而能够使识别率有一定的提高;经LLTSA降维得到的融合特征能够反映样本数据的非线性流形本质结构,因此降维后的识别率均有较大提高,但共享特征选择方法是为所有类选择出相同的特征,对于某个二类分类SVM而言可能并不是最优;由于文中提出的独立特征选择方法为每两类故障状态独立选择最优特征子集,通过对特征进行加权,使敏感特征在故障诊断中起更加重要的作用,同时降低甚至消除了较低敏感度特征的作用,使LLTSA降维得到的融合特征具有更好的辨识能力,所以达到了最高的平均识别准确率。

表1 支持向量机识别结果

表1中训练时间为特征维数约简和构造多分类故障诊断模型所用的时间,通过比较可知,LLTSA降维算法减缓了训练效率,而由于IFS方法选择出的特征维数多于SFS方法, 使得IFS方法的训练时间略长于SFS方法,但在故障诊断的实际应用中,诊断模型是提前训练完成的,所以不会影响故障诊断的效率。

5 结 论

(1) 为有效利用振动信号进行故障诊断,提出基于独立特征选择与流形学习的故障诊断方法。利用LCD的多尺度分析性能,从多域提取原始信号的特征,并将独立特征选择与流形学习算法相结合,然后将融合特征输入SVM进行故障诊断。实验结果表明LCD能提取出反映机械设备状态的有效特征,也验证了本文所提故障诊断方法的有效性。

(2) 独立特征选择充分考虑了每个特征对区分二类状态的作用,有效地排除原始混合特征集中的非敏感特征,使LLTSA降维得到的融合特征具有更高的区分度,对于多类故障诊断问题,采用独立特征选择比采用共享特征选择能得到更高精度的故障诊断模型,具备一定优势。

猜你喜欢
约简特征选择降维
混动成为降维打击的实力 东风风神皓极
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
降维打击
近似边界精度信息熵的属性约简
广义分布保持属性约简研究
基于最大信息系数和近似马尔科夫毯的特征选择方法
Kmeans 应用与特征选择
一种改进的稀疏保持投影算法在高光谱数据降维中的应用
基于特征选择聚类方法的稀疏TSK模糊系统
时频表示特征约简的旋转机械故障特征提取方法