基于小波包变换与随机森林的滚动轴承故障特征分析方法

2020-10-21 07:52范春旸吴守鹏刘晓文
机械设计与制造 2020年10期
关键词:波包特征选择决策树

范春旸,吴守鹏,刘晓文,俞 啸,3

(1.中国矿业大学物联网(感知矿山)研究中心,江苏 徐州 221008;2.中国矿业大学信息与控制工程学院,江苏 徐州 221008;3.徐州医科大学医学信息学院,江苏 徐州 221009)

1 引言

滚动轴承作为旋转机械设备的关键部件,一旦发生故障,会严重影响设备的安全稳定运行,并造成难以估计的损失,因此准确识别滚动轴承的故障状态具有重要意义[1]。识别滚动轴承故障状态的有效方法之一是振动信号分析,振动信号分析作为识别滚动轴承故障状态的有效方法,通常采取时频分析法对非平稳信号进行分析,采用的小波包变换(Wavelet Packet Transform,WPT)是在经典时频分析方法小波变换的基础上进行了优化[2],弥补了小波变换的分辨率随信号频率升高而降低的不足,能够根据被分析信号的特征自适应的选择最优基函数。文献[3]将WPT 与STFT 结合起来用于滚动轴承故障诊断。文献[4]将WPT 和支持向量机用于检测轴承故障,故障种类有轴的不平衡、失调、碰摩以及碰摩和不平衡组合故障等。文献[5]在齿轮箱故障诊断研究中,利用WPT 处理声发射信号和振动信号,将声信号特征与振动信号特征进行深层融合,实验证明两者的融合有助于提高齿轮箱故障诊断能力。

通过振动信号的分析得到与的故障特征相关的原始特征集包含大量冗余特征,而不同特征对故障状态的重要程度也不相同。针对这一问题,提出一种基于平均精确率减少的特征选择方法(Features Selection Base on Mean Decrease Accuracy,FSMDA),对原始特征集中的统计特征重要度进行量化分析标记并标记量化分析,从而达到选择重要特征进行分类的目的。

在故障模式识别方面,相较于传统的支持向量机SVM、KNN等分类器,采用的随机森林(Random Forests,RF)[6]是一种基于Bagging 的集成学习方法,在决策树的基础上引入随机性,改善了决策树容易出现过拟合现象的问题并具有强抗噪声能力。文献[7]提出一种基于随机森林利的异步电机的转子断条故障诊断方法,提高了故障识别的准确率;文献[8]提出一种基于改进随机森林的故障诊断方法,该方法通过改进决策树的bagging 方式,弥补了传统机器学习的不足;文献[9]提出一种将核主成分分析与随机森林相结合的变压器故障诊断方法,在核空间用随机森林方法训练得到分类器群。

2 基于小波包变换的振动信号分析

传统的振动信号处理方法一般采用短时傅里叶变换(STFT)[10],小波变换[11]针对STFT 在非平稳信号上表现较差的问题进行了改善,克服了滑动窗函数不随频率变化等缺点,但由于小波变换对高频信号不进行任何分解,所以导致其频率分辨率随频率升高而降低[12]。针对这一问题,采用更精细的小波包变换对振动信号进行分析,提高了信号的时频分辨率[2]。小波包变换流程图,如图1所示。

图1 WPT 流程图Fig.1 Flow Chart of the Wavelet Packet Transform

3 随机森林

随机森林(Random Forest)由Leo Breiman 和Adele Cutler 于1995 年提出,是一种以决策树作为基学习器[13]的集成学习算法,在决策树的基础上进一步引入了随机属性选择,是Bagging 集成方法的扩展[14]。决策树在分类时考虑了所有的特征属性,并从中选取出一个最优属性,为了尽可能的正确分类训练样本,多次划分结点会出现“过拟合”的情况。而且在构建决策树时,由于构建过程属于一个递归过程,需要设置停止条件,否则构建过程将不会停止。因此,虽然决策树是目前广泛应用的一种简单且快速的非参数分类方法,但在面临大量复杂数据时,决策树不能有效的提升分类的性能,需要进一步改进。与决策树算法不同的是,随机森林由多个经Bagging 集成学习训练得到的决策树共同组成,待分类的样本结果由各个决策树的输出投票决定,因此随机森林不容易产生“过拟合”的现象,并且有很强抗噪声干扰能力[15]。对于大量复杂数据,随机森林有着比单个分类器更高效准确的分类结果,可以有效的提升学习系统的泛化能力。

随机森林将随机性引入决策树算法,假定一数据集为D={Xi,Yi},Xi∈Rk,Yi∈{1,2,…,C},随机的建立一个由多个决策树{g(D,θm),m=1,2,…,M}组成的森林,各个决策树之间没有关联,当新的输入样本传入时,利用森林中的每一个决策树对其进行分类判断,并将投票数多的类别作为该输入的分类[16]。随机森林算法流程如下:

(1)从训练样本集中有放回的随机采样抽取N 个样本,并作为随机森林中单棵决策树的训练子集,每个训练子集约为原始训练集的三分之二[17],随机的有放回采样虽然存在一定的重复率,但可以避免决策树陷入局部最优的情况。

图2 RF 流程图Fig.2 Flow Chart of Random Forest

(2)定义训练样本的输入特征个数为M,m 远小于M,当每颗决策树的每个节点上进行分裂时,从M 个输入特征里随机选择m 个输入特征,然后从这m 个输入特征里选择一个最好的进行分裂。m 在构建决策树的过程中不会改变。

4 基于平均精确率减少的特征选择方法

特征选择作为故障识别中重要的一环,能够删除冗余特征,获得尽可能小的特征子集,达到特征降维的目的。为了有效的选取对故障信号较为敏感的特征进行故障识别,提出一种基于平均精确率减少的特征选择方法(Features Selection base on Mean decrease accuracy,FSMDA),直接度量每个特征对模型精确率的影响。主要思路是对每个特征的特征值加入干扰噪声,并且度量特征值变动对模型的精确率的影响。很明显,对于不重要的变量来说,其对模型的准确率影响不会太大,但是对于重要的变量来说,加入噪声就会大幅度降低模型的精确率[18-19]。

设在原始数据集中,有M 种轴承故障类型,每种故障类型有N 种振动信号样本,每种振动信号样本有K 种统计特征。经过WPT 分解获得故障训练数据样本的原始特征集[CS1,CS2,…,CSk],其中CSk为所有样本的第k 种特征集合,可表示为:

FSMDA 方法的步骤如下:

(1)利用训练样本数据的第1 个统计特征CS1训练SVM 分类器,得到SVM 分类器模型M_SVM1;

(2)利用训练得到模型M_SVM1,对CS1进行测试,得到训练样本数据的第1 个特征的故障状态识别准确率SVM_acc1;

(3)再对CS1加入高斯白噪声进行干扰,重复步骤(2),得到干扰后训练样本数据的故障状态识别准确率的差值记为Sel_acc1;

(3)分别对[CS1,CS2,…,CSK]中K 种统计特征重复(1)、(2)、(3)步操作,得到训练样本数据的第K 种特征的识别准确率差值序列Sel_acc={Sel_acc1,Sel_acc2,…,Sel_accK};

(4)这里认为Sel_accK的值越大,特征对于振动信号故障识别的重要度越高,对识别准确率序列Sel_acc 进行由大到小排序,得到排序后的序列Sel_acc,作为优先被选为重要特征的顺序。

5 故障特征分析流程

基于小波包分解(WPT)与随机森林(RF)的滚动轴承故障特征分析模型WPT-FSMDA-RF 的诊断流程,如图3 所示。具体步骤描述如下。

(1)信号采集与特征提取。对每一个振动信号样本进行四层WPT 分解,获取16 个终端节点和相应的小波包系数,对树结构第四层中的每个节点系数进行单支小波包重构,可获得16 个单支重构信号,再求得16 个重构信号的HES,分别计算16 个单支重构信号及其HES,共32 个序列的11 种统计特征,如表1 所示。可以得到一个诊断信号样本的352 个统计特征,构成初始特征集。

(2)特征选择。对训练集数据样本的原始特征集进行FSMDA 方法处理得到Sel_acc,为训练集样本和测试集样本的敏感特征样本选择提供依据。

(3)模式识别。利用FSMDA 选取训练集样本敏感特征,完成RF 分类模型的训练,利用训练后的RF 模型和测试集样本的敏感特征完成对测试集样本故障特征的分析。

图3 WPT-FSMDA-RF 模型的诊断流程图Fig.3 Diagnostic Flowchart of the WPT-FSMDA-RF Model

表1 信号11 种统计特征(x 为长度为n 的序列)Tab.1 11 Statistical Features of Signal

6 实验分析

6.1 实验数据介绍

以美国凯斯西储大学的滚动轴承数据中心的轴承振动数据为实验数据进行分析,该试验台由一个2hp 的三相感应电动机轴承和一个用于产生额定负载的测力计组成,其驱动端与风扇端各有一轴承,型号为SKF-6205-2RS,在驱动端放置振动传感器采集振动信号进行分析。在该数据中,轴承故障类型分为滚动体故障、内圈故障和外圈故障,故障尺寸分有0.007 英寸、0.014 英寸、0.021 英寸和0.028 英寸,电机运行负载为(0~3)hp。具体实验数据,如表2 所示。其中滚动体和内圈故障度均为4,外圈故障度为3,包含了正常情况在内的12 种故障模式。从每种故障模式中提取60 个信号样本,其中每个样本包含2000 个连续的数据点。设计了同工况以及变工况下的两个案例进行对比,Case1 为同工况对比实验,Case1 的训练集与测试集选取2hp 负载下的数据;Case2 变工况对比实验,Case2 选取2hp 负载下的数据作为训练集,3hp 负载下的数据作为测试集。

表2 实验数据说明Tab.2 Experimental Data Description

6.2 实验分析

(1)利用小波包变换对训练集振动信号样本进行分析,并利用所提出的特征选择方法FSMDA 对样本的352 个统计特征进行重要度排序,得到的Sel_acc 序列,如图4 所示。

图4 统计特征重要度序列Fig.4 Importance Sequence of Statistical Feature

(2)分别对WPT-FSMDA-SVM、WPT- LDA-SVM、WPT-FSMDA-RF 三种故障模型开展实验,WPT-FSMDA-SVM 模型是将原始信号经过小波包分解,再利用FSMDA 方法进行特征选择后投入SVM模型进行训练,再利用训练的得到的模型直接对测试集进行识别。故障特征识别准确率随sfn 的变化,如图5 所示。sfn 为FSMDA 方法选取的特征数量,同工况下Case1 的最高识别准确率可达到96.87%,变工况下Case2 的最高识别准确率可达到91.45%。WPT-FSMDA-LDA-SVM 模型将原始特征集经过FSMDA 方法进行特征选择后,利用LDA 方法进行降维处理,再对SVM 分类器进行训练。在特征子集维数随sfn 变化时,不同LDA 维数下的识别准确率变化情况,如图6、图7 所示。在同工况下Case1 的识别准确率随sfn 的增大而下降,但在sfn 的取值范围为(0~200)时保持95%以上,变工况下Case2 的识别准确率整体趋势与Case1 一致,但维持在95%以上的sfn 取值范围却缩小到(30~88)。

表3 WPT-FSMDA-SVM 模型的识别准确率Tab.3 Recognition Accuracy of WPT-FSMDA-SVM Model

表4 WPT-FSMDA-LDA-SVM 模型的识别准确率Tab.4 Recognition Accuracy of WPTFSMDA-LDA-SVM Model

表5 WPT-FSMDA-RF 模型的识别准确率Tab.5 Recognition Accuracy of WPT-FSMDA-RF Model

WPT-FSMDA-RF 模型为将原始特征集经过FSMDA 方法进行特征选择后,投入随机森林模型进行训练,在对测试集进行故障识别。故障特征识别准确率随sfn 变化的情况,如图8 所示。可以看出同工况下Case1 的识别准确率保持较高水平,当sfn 取值范围为(10~350)时,识别准确率接近100%,变工况下Case2 的识别准确率与WPT- FSMDA-SVM、WPT-FSMDA-LDA-SVM 模型相比也有大幅度提高,最高可达到99.79%。

图5 WPT-FSMDA-SVM 模型的识别准确率Fig.5 Recognition Accuracy of WPT-FSMDA-SVM Model

图6 WPT-FSMDA-LDA-SVM 模型的Case1在不同LDA 维数下的识别准确率Fig.6 Recognition Accuracy of WPT-FSMDA-LDA-SVM Model(Case1) Under Different LDA Dimensions

图7 WPT-FSMDA-LDA-SVM 模型的Case2在不同LDA 维数下的识别准确率Fig.7 Recognition Accuracy of WPT-FSMDA-LDA-SVM Model(Case2) Under Different LDA Dimensions

图8 WPT-FSMDA-LDA-RF 模型的识别准确率Fig.8 Recognition Accuracy of WPT-FSMDA-LDA-RF Model

7 结论

在小波包变换的基础上,提出一种标记故障特征重要度的方法FSMDA,并结合随机森林方法建立WPT-FSMDA-RF 模型,实现滚动轴承故障特征分析。试验分析结果可以得出:

(1)提出的FSMDA 特征选择方法能够从原始统计特征集中标记重要度较高的特征分量,为后续故障状态识别提供依据;

(2)相较于传统的支持向量机SVM,随机森林的适应能力更强,基于RF 的滚动轴承故障诊断模型相较于SVM 结合特征降维方法LDA 有着显著优势;

(3)利用建立的WPT-FSMDA-RF 故障诊断模型,通过FSMDA 确定重要度特征,在一定数量下能够获得较高的滚动轴承故障状态识别准确率,适用于滚动轴承的故障诊断系统的研究。

猜你喜欢
波包特征选择决策树
基于支持向量机和小波包变换的EOG信号睡眠分期
原子双阱势中电子波包的非绝热操控
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
Kmeans 应用与特征选择
基于决策树的出租车乘客出行目的识别
联合互信息水下目标特征选择算法
基于特征选择聚类方法的稀疏TSK模糊系统
基于小波包变换的乐音时—频综合分析程序的开发
基于肺癌CT的决策树模型在肺癌诊断中的应用