轴承故障高敏感特征提取与随机森林智能识别

2022-09-22 14:38
机械设计与制造 2022年9期
关键词:特征参数分形决策树

李 冬

(无锡工艺职业技术学院,江苏 宜兴 214200)

1 引言

滚动轴承的内圈、外圈、滚动体等关键部件故障时会严重影响生产精度和生产效率,甚至引发安全事故[1]。对轴承工作状态进行监测,及时发现轴承故障并进行有效定位,对轴承日常维护、提高生产质量、效益和生产安全具有重要意义。轴承故障诊断是通过采集轴承的振动信号或声发射信号等,从信号中提取敏感轴承不同状态的特征量,通过智能分类器实现故障识别。

由此可知,故障诊断主要包括特征提取和模式识别两个方面,当前存在的特征参数包括时域参数、频域参数、时频域参数、非线性参数等,时频域参数提取方法包括经验模态分解[2]、小波分解[3]等,非线性参数包括分形维数[4]、排列熵、样本熵[5]等。

智能模式识别方法包括人工神经网络、支持向量机、马尔科夫模型、专家系统等方法[6-7],文献[8]使用磷虾算法优化支持向量机参数,实现了轴承故障状态识别;文献[9]使用改进鱼群算法优化神经网络用于轴承故障诊断,不仅提高了神经网络收敛速度,而且提高了识别精度。当前轴承故障诊断系统在实际生产中尚未广泛应用,主要因为故障识别系统研究还不够成熟,轴承故障状态的智能识别系统仍是当前研究热点。以滚动轴承故障的智能识别系统为研究对象,包括故障特征提取和模式识别两个方面的内容。使用多重分形理论提取了故障特征参数,应用K均值聚类法对特征参数进行了优选。改进了随机森林算法,并将其应用于轴承故障的模式识别,达到了提高轴承故障识别正确率的目的。

2 故障特征提取

2.1 多重分形去趋势波动分析

轴承在正常状态下与故障状态下振动信号的随机性、非线性程度不同,多重分形理论可以精细刻画非线性现象[10],因此使用多重分形参数提取轴承故障特征。多重分形去趋势波动分析多重分形理论与去趋势波动分析相结合的方法,其具体分析过程为:

(1)计算序列轮廓。记具有多重分形特征的非平稳时间序列为,k=1,2,…,N,则此序列的轮廓序列{yi} 定义为:

(2)轮廓序列划分。按照不重叠划分方式将轮廓序列{yi} 划分为长度为s的Ns个等长序列,此时,多数情况下s无法被N整除,此时若舍弃末端数据则会造成信息遗漏,为了解决这个问题,从序列最后一位开始以同样形式向前分组,此时得到2Ns组子序列。

(3)使用最小二乘法对子序列yv(j),v=1,2,…,2Ns进行多项式拟合,并计算拟合误差,为:

式中:ai—多项式系数;p—多项式阶数。

(4)计算误差序列{F(v,s)}v=1,2 …,2Ns的q阶趋势波动函数为:

式中:q—波动函数阶数,可以取任意非零实数。当q=0计算方法为:

(5)计算不同尺度值下的q阶波动函数,如果初始数据序列k=1,2,…,N存在自相似性,则趋势波动函数Fq(s)与尺度s间成幂律关系,即Fq(s)∼sh(q),式中:h(q)—Hurst指数,若h(q)为q的函数则初始数据序列为多重分形序列,若h(q)为常数则初始数据序列为单重分形序列。

多重分形谱标度指数τ(q)与Hurst指数h(q)存在以下关系:τ(q)=qh(q)-1。根据勒让德变换可得多重分形谱f(α)、奇异指数α为:

其中,奇异指数α反应多重分形序列在某局部概率分布上的不均匀程度,多重分形谱f(α)是α的分维函数,对于多重分形序列来讲,f(α)是α的单峰函数。

2.2 备选特征参数

多重分形谱曲线为例对参数αmax、αmin、α0和Δα进行说明,如图1所示。

图1 多重分形谱曲线Fig.1 Multifractal Spectral Curve

αmax、αmin分别为奇异指数的最大值和最小值,分别代表了小波动特征和大波动特征的奇异程度;Δα=αmax-αmin为奇异指数的跨度,此参数代表了信号的波动程度,其值越大代表信号波动越大;α0为多重分形取最大值时的奇异值,代表信号的随机性,其值越大表示信号随机性越大。因为此4个参数能够表征信号的随机性和波动性,所以选择此4个参数为备选对象组成特征向量。

2.3 特征参数组合与测试

以美国凯斯西储大学的轴承公开数据为例,对2.2节给出的4个备选特征参数进行组合和挑选。选择SKF6205型轴承试验数据,内圈、外圈和滚动体的点蚀故障直径为0.1778mm。选取正常状态、内圈故障、外圈故障、滚动体故障等4种状态下各10组样本,共40组样本数据,每个样本包含1200个数据。

首先计算Hurst指数曲线,验证轴承振动信号序列是否多重分形特性。经验证,在4种工作状态下Hurst指数h(q)均随q单调递减,即h(q)为q的函数而非常数,说明轴承振动信号具有多重分形特性。计算4种状态下的多重分形曲线结果,如图2所示。

图2 轴承四种状态下的多重分形曲线Fig.2 Multifractal Curve Under 4 States of Bearing

因为每种状态下具有10组样本,因此每种状态下计算了10组曲线,从图中可以看出,同种工作状态下的多重分形曲线几乎重合,在一定程度上说明了多重分形谱的稳定性或聚合性极好。另外,不同工作状态下的多重分形参数αmax、αmin、α0和Δα具有明显区别,但是不同参数含有的故障信息不同,也可以说不同参数对故障的敏感性不同,因此需要进行筛选。

从4个多重分形参数中选取2个作为特征参数,也就是4选2的组合问题,包括以下6 种组合方法从40组样本数据种分别提取4个多重分形参数,每种工作状态下得到10组多重分形参数,按照6种组合方法依次使用K均值聚类,由于篇幅限制,在此仅给出两种组合方法的聚类结果,如图3所示。

图3 不同参数组合的聚类效果Fig.3 Clustering Effect of Different Parameters Combination

从图3中可以明显看出第二种组合方案的类内聚集度明显差于第一种组合方案。对于6种组合方案,按照聚类结果,以类间距离和类内聚集度为指标选取最优组合方法作为特征向量。评价函数为:

式中:f—评价函数;dij—类i中心点与类j中心点之间的距离,且i,j=1,2,3,4、i≠j,类间距离最小值越大表示类与类之间的区分度越大;σk—类k内所有点与中心点距离之和,其值越小表示类内聚集度越高。

因此选择评价函数最大的参数组合方法作为特征参数,经计算,最终选择的特征参数组合为说明此两个参数包含更多的故障信息,或者说此两个参数对故障具有高度敏感性。

3 随机森林智能识别方法

随机森林是由多棵决策树分类器构成的组合分类器,解决了单个分类器分类效果有限、分类精度不高的问题,类似于由“独裁判断”向“民主投票”的权力进化。

3.1 基本随机森林算法

随机森林算法主要包括决策树的构建、集成学习、投票决策等三个步骤。决策树是随机森林的基分类器,发挥民主投票作用;集成学习对决策树的训练样本抽样方法进行规定;投票决策是对基分类器投票结果的融合方法。

(1)构建决策树。决策树的构建使用递归方法,根据特征评估标准,从根节点开始依次向下生成子节点,直至生成所有的叶子节点。特征评估标准包括基于信息增益的ID3算法、基于基尼指数的CART算法、基于信息增益比的C4.5算法,鉴于CART算法对于离散数据和连续数据都能够处理,且对孤立点和空缺点不敏感,使用鉴于CART算法作为特征评估标准。决策树构建时节点分裂方法和特征参数的随机选取方法可参考文献[11],这里不再详细介绍。

(2)集成学习。集成学习算法主要包括Bagging 方法和Boosting方法两类,Bagging方法是一种有放回的样本数据随机抽取方法,Boosting方法是一种有权重抽样方法,由于Bagging方法是独立随机抽样,抽样过程具有完全的独立性,可以有效减少训练后决策树间的相关程度,进而减小泛化误差,因此选用Bagging方法进行抽样。

Bagging抽样方法的具体执行方法为:记原始训练样本数量为N,决策树数量为L,使用Bootstrap抽样每次从原始训练样本中抽取n个训练样本,作为一个训练集;而后将此n个训练样本放回原始训练样本中进行下次抽取,共执行L次得到L个训练集,将此L个训练集分配给L个决策树用于训练。

(3)投票决策。随机森林决策过程为:对于给定的待分类样本x,记第l个决策树的输出为fl(x)=i,i=1,2,…,c,c为类别数量,l=1,2,…,L为决策树编号。取决策树输出的众数作为随机森林的输出结果,即:

式中:fRF(x)—随机森林输出;I()—满足括号内等式的样本数量。

3.2 改进随机森林算法

提出了舍弃策略和话语权策略对随机森林算法进行改进,下面进行具体说明。

(1)舍弃策略。给出舍弃策略之前首先介绍随机森林的泛化误差PE*,泛化误差度量了随机森林对给定样本的分类错误率,且有:

由式(8)可以看出,要想减小随机森林泛化误差,需减小决策树间的相关度,同时提高决策树的分类精度。在前文集成学习方法中使用Bagging方法就是为了减小决策树间的相关度,达到减小泛化误差的效果。从提高决策树平均分类精度的角度出发,这里提出了舍弃策略。

舍弃策略的思路为:将训练样本分为两组,一组称为训练样本组,另一组称为预测试样本组。使用训练样本组对决策树进行训练,而后使用预测试样本组测试决策树的分类正确率,对决策树按照分类正确率排序,保留分类正确率为前80%的决策树,而抛弃分类正确率为后20%的决策树,从而提高决策树的平均分类精度,减小随机森林的泛化误差。决策树的分类正确率计算方法为:

式中:Rlcorrect—决策树l的分类正确率;Xlcorrect—决策树l的分类正确样本数;X—预测试样本数量。

(2)话语权策略。传统的分类方法,如神经网络系统、马尔科夫模型等,使用一个分类器对样本进行分类,此种方式类似于“独裁话语权”;而随机森林算法依赖投票决定分类结果,且每个人1 票,具有同等话语权,此种方式类似于“完全民主话语权”。“独裁话语权”明显更加容易出错;“完全民主话语权”使用绝对的、完全的民主方式,而忽略个体之间的差异,优秀决策树与较差决策树话语权一致,这明显是不合理的,且从人类文明发展趋势看,“建立在话语权基础上的民主”更加高效。基于这一思想,提出了话语权策略,使优秀决策树具有更大的发言权或决定权,而较差决策树恰好相反。

决策树的分类正确率能够很好地反应决策树优劣性,因此依赖分类正确率构造决策树话语权,决策树l的话语权wl=Rlcorrect,而后对所有决策树话语权进行归一化处理,即:

对于决策树l,当其输出为i时,其话语权为wl′,计算所有输出为i的话语权之和,则具有相同输出的决策树话语权之和最大者,对应的决策结果即为随机森林决策结果。

3.3 改进随机森林算法流程

根据传统随机森林算法原理和改进策略,制定改进随机森林算法流程为:

(1)初始化算法参数,包括决策树数量L、训练样本集数量和预测试样本集数量等;(2)使用Bagging方法从原始训练样本中抽取L个训练集,将每个训练集分为训练样本集和预测试样本集;(3)使用训练样本集对L个决策树进行构建和训练;(4)使用预测试样本集测试L个决策树的分类正确率,并进行排序,使用舍弃策略淘汰后20%决策树;(5)按照分类正确率为决策树赋归一化话语权,此时随机森林构建完毕;(6)输入待分类样本,计算同一输出的话语权之和,将话语权之和最大者对应的决策结果作为随机森林分类结果。结束。

4 实验验证

研究的核心内容包括特征提取和故障智能识别两个方面的内容,特征提取方法在前文中已经使用K均值聚类进行验证,结论是由组成的特征向量具有最好的聚类效果。在本节只对改进随机森林算法的故障识别效果进行验证。

4.1 实验说明及过程

以美国凯斯西储大学的轴承实验公开数据作为数据来源,选择SKF6205型轴承试验数据,使用电火花加工技术在内圈、外圈和滚动体上加工出点蚀故障,障碍点直径为0.1778mm,数据采样频率为48kHz。实验中正常状态、内圈故障、外圈故障、滚动体故障等4种状态下各包含200个样本,共800个样本,每个样本包含2400个数据。

(1)训练过程说明。设置随机森林中初始决策树数量为200,随机森林的训练样本抽取方法为:从每种工作状态下使用Bagging方法各抽取50组样本共200组样本,提取每组样本数据的特征参数,共得到200组特征参数,每种工作状态下前30组样本共120组用于训练决策树,后80组作为预测试样本组。使用预测试结果正确率对决策树进行排序,保留前80%的决策树,即正确率靠前的160个决策树。而后按照预测结果正确率为每个决策树赋予归一化话语权。

(2)测试过程说明。从每种工作状态下使用Bagging方法各抽取20组样本共80组样本,作为测试样本。提取每组样本数据的特征参数,共得到80组特征参数,而后计算具有相同输出决策树的话语权之和,话语权之和最大者对应的类别为随机森林输出类别。

4.2 实验结果与分析

为了形成对比,分别使用传统随机森林算法与改进随机森林算法对80组测试样本进行分类结果,如图4所示。从图4 中可以看出,改进随机森林算法通过对故障特征参数进行故障识别,识别正确率为100%,为出现误判现象;使用传统随机森林算法进行故障状态识别,错误率为6/80=7.5%,识别正确率为92.5%。以同样方式重复测试过程20 次,得到改进随机森林算法故障识别正确率均值为100%,未出现任何错误;传统随机森林算法故障识别正确率均值为93.1%。这是因为改进随机森林算法引入了舍弃策略和话语权策略,舍弃策略淘汰了正确率靠后的决策树,提高了决策树平均识别精度,减小了随机森林泛化误差;话语权策略放弃了“完全民主式权利分配”,使用了加权方法使优秀决策树具有更大话语权,最终提高了模式识别正确率。

图4 两种随机森林算法的故障识别结果Fig.4 Fault Diagnosis Result of Two Random Forest Algorithms

5 结论

主要研究了轴承故障诊断问题的特征提取和模式识别两个方面的内容,使用多重分形理论提取了故障特征参数,改进了随机森林算法并应用于轴承故障识别,经实验验证,得到了以下结论:(1)多重分形参数可以敏感轴承故障特性,不同参数组合的敏感性不同,经分析,αmax、αmin、α0和Δα等4个参数的两两组合中,组合的敏感性最高;(2)在改进随机森林算法中,通过分配不同话语权使优异者更加具有发言权。使用美国凯斯西储大学轴承数据进行验证,传统森林算法正确率为93.1%,而改进森林算法正确率为100%。说明改进随机森林算法的模式识别精度更高,也可以理解为“话语权式的权力分配”优于“完全民主的权力分配”。

猜你喜欢
特征参数分形决策树
柞蚕茧系统分形研究
基于决策树和神经网络的高血压病危险因素研究
冕洞特征参数与地磁暴强度及发生时间统计
融合LPCC和MFCC的支持向量机OSAHS鼾声识别
感受分形
基于交通特征参数预测的高速公路新型车检器布设方案研究
分形之美
决策树和随机森林方法在管理决策中的应用
分形空间上广义凸函数的新Simpson型不等式及应用
决策树多元分类模型预测森林植被覆盖