基于GAPSO-SVM的多级齿轮箱故障诊断新方法

2022-03-27 13:39杨秀芳何亚鹏徐雨达
西安理工大学学报 2022年4期
关键词:齿轮箱适应度齿轮

杨秀芳, 何亚鹏, 徐雨达, 邵 伟

(西安理工大学 机械与精密仪器工程学院, 陕西 西安 710048)

机器学习近年来得到飞速发展。支持向量机(support vector machine,SVM)是AT&Bell实验室的Vapnik提出的针对分类和回归问题的经典机器学习模型,它建立在统计学习理论的VC维理论和结构风险最小原理(structural risk minimization principle,SRM)基础上。神经网络模型是基于经验风险最小原理(empirical risk minimization principle,ERM),这会导致神经网络学习的过拟合问题,其原因一是要求训练样本数趋于无穷大,而实际样本是不充分的,二是学习机器设计不合理,在没有足够样本的情况下,经验风险最小并不能满足期望风险最小的要求。支持向量机SVM基于最大间隔超平面、凸二次规划、Mercer核、稀疏解和松弛变量等理论,具有良好的泛化能力,能够解决小样本、非线性和高维模式识别问题,在包括生物信息学、语音识别和大气污染预警等领域获得成功应用[1-5]。

在机械状态监测和智能故障诊断方面,由于受到有效样本数量的限制,SVM获得广泛应用。王一鹏等[6]基于小波包混合特征和非线性SVM对数控机床的轴承进行故障诊断,取得了比线性SVM更好的结果,瞿益丹[7]对轴承振动信号进行了Hilbert-Huang变换,提取信号能量特征训练SVM模型,用训练的SVM故障分类识别器对故障信号进行了分类。楼军伟等[8]对振动信号进行集成经验模态分解(ensemble empirical mode decomposition,EEMD),提取EEMD信号熵构建训练样本和识别样本故障特征集,训练SVM滚动轴承智能故障诊断分类识别器,结果表明该方法在小样本的情况下能准确识别轴承故障,当样本数增加时识别准确性也会提高。周建民等[9]在SVM参数选择方面,采用遗传算法(genetic algorithm,GA)对SVM的惩罚因子C和核函数参数g进行优化,寻找SVM的最优模型,用美国辛辛那提大学智能维护系统中心轴承疲劳寿命试验台数据训练模型,结果表明GA-SVM模型对故障诊断达到满意结果。时培明等[10]在风机齿轮箱轴承故障诊断的研究中,也用GA算法优化了SVM模型参数,结果表明,提高了风电机组轴承故障的识别准确率。时培明等[11]在对多级齿轮传动系统试验台的故障诊断中,通过深度学习特征的提取、训练PSO-SVM智能诊断模型,结果表明,该模型实现了中速轴大齿轮不同故障类型的识别。韩松等[12]在滚动轴承故障诊断中,用主成分分析(principal component analysis,PCA)方法对8维的原始变量进行降维处理,用降维后的变量建立SVM分类模型,结果表明,建立的PCA-SVM模型分类效果会更好。黄静等[13]在滚动轴承故障分类中,将振动信号转化为时域和频域组成的特征集,利用粒子群算法生成SVM的惩罚因子C和核函数参数g,训练SVM,通过交叉验证获取最优适应度对应的C和g,实验结果表明,识别样本的正确率有明显提高。以上的SVM优化算法,在故障诊断和故障识别中都优于基本的SVM,但PSO优化算法存在陷入局部优的风险,GA优化算法存在寻优时间长的缺陷。

本文以多级齿轮箱故障实验台为研究对象,利用SVM做分类器,引入了基因粒子群算法(genetic algorithm-particle swarm optimization,GAPSO),对SVM参数进行优化,提出了一种基于小波包分解能量特征提取和基因粒子群支持向量机(GAPSO-SVM)状态识别相结合的智能诊断模型,实现了更优更高精度的多级齿轮箱故障类型识别。

1 理论分析

1.1 小波包能量特征提取

齿轮箱振动信号中包含着丰富的工况信息。当齿轮箱运行时,如果工况发生变化,在时域信号中,表现出幅值大小发生变化、幅值的概率分布发生变化,在频域中,不同频率的能量分布也会发生相应的变化,同时时频能量也会发生变化。考虑到齿轮箱振动信号具有随机性和非平稳性,在对测量信号进行特征提取时,首选统计特征。本文采用小波包分解算法将信号分解在不同的频段,提取分解信号的能量谱,构建故障统计特征集。

小波包分解的Mallat算法为:

(1)

小波包分解信号的能量谱为:

(2)

1.2 PSO和GA基本原理

齿轮箱振动信号中包含着丰富的状态信息。PSO的思想源于对鸟群捕食行为的研究,鸟在捕食过程中,如果一个鸟捕获到当前最佳食物,其他鸟会向最佳食物方向飞,通过这种方式达到群体最优目的,这是一种群体智能的优化方法。如果将种群中每个个体看成一个D维空间的粒子(或几何点),每个粒子根据个体和群体的最佳适应度调整自己的行进速度和位置。第i个个体表示为xi=(xi1,xi2,…,xiD), 其经历的最佳的适应值记为pbesti=(pi1,pi2,…,piD),群体经历过的最好适应值记为gbest=(g1,g2,…,gD)。个体i的速度为vi=(vi1,vi2,…,viD),在迭代过程中,个体i的第d个维度粒子的更新速度和更新位置用式(3)和式(4)[13]计算。

(3)

(4)

式中:ω称为惯性权重;d= 1,2…,D;如果种群的规模为N,则i= 1,2…,N;k为当前迭代进化代数;vid为粒子速度;c1和c2为学习步长;r1和r2为两个随机函数,取值在(0,1)。在迭代过程中粒子的位置和速度限制在某一范围内,即在迭代过程中,xid、vid的值不能超出边界值,超出边界这个粒子速度和位置就用边界值代替。

本文用到PSO算法和GA算法寻找SVM中的最优超参数C、g,即式(3)、式(4)中的几何点x是两维的,它就是C和g,d= 1,2,表示两维。若种群的规模是20,也就是每一代有20个C和g,即i= 1,2…20。

GA模拟了自然界中生物的遗传机理和进化机制,它是一种全局的自适应搜索算法,具有内在的全局自适应特点[10],不需要确定的法则。GA基本思想和算法如下。

1) 设置GA种群规模、交叉概率和变异概率。

2) 设置种群中个体的取值范围,用随机函数生成个体值。

3) 计算个体适应度,模拟轮盘赌法则选择下一代的个体。个体能否遗传到下一代,或者说保留下来,取决于该个体的适应度值,适应度越大,该个体遗传到下一代的几率就越大。

4) 基因交叉。对选择出的个体进行两两配对,交叉算法为:

(5)

5) 基因变异。设定基因变异范围[Amin,Amax],根据变异概率判断是否进行变异操作。变异概率通常选取在0.000 1~0.1,变异算法为:

(6)

式中:rand是随机数,其值在(0,1);random表示0或1。从式(6)中可以看出,变异后的个体值仍在[Amin,Amax]。

1.3 GAPSO算法

PSO算法搜索速度快,但对处理多峰搜索任务时易陷入局部最优从而过早收敛。GA具有全局搜索能力,但相比PSO算法收敛速度慢。所以GAPSO对粒子群更新方面,同时采用PSO算法和GA更新粒子群,GA的选择操作、交叉操作和变异操作,增加种群中个体的离散性和多样性,避免搜索过程陷入局部最优,PSO算法加快收敛速度。另外,在GA更新种群时,采用了最优个体保存策略,先对个体的适应度值进行由大到小的降级排序,适应度靠前的数个个体,不参加交叉、变异操作,直接遗传到子代,子代种群是由父代适应度靠前的个体以及进行了交叉和变异的个体组成。GAPSO算法流程见图1。

图1 GAPSO算法流程Fig.1 GAPSO algorithm flow

1.4 SVM参数优化

1.4.1SVM原理

SVM学习策略是使不同类别之间距离最大化原则,它的基本思想是通过核函数,对训练样本进行升维处理,即将样本从低维空间映射到一个高维特征空间。这种映射一般是非线性的,以便在高维空间构造出最优分类超平面,实现样本的有效分类[9-14]。

(7)

应用拉格朗日乘子法可求解出式(7)中的w、b。其中:

(8)

(9)

式中αi是拉格朗日乘子,且αi≥0。

从而可得到最优超平面决策函数为:

(10)

本文以二级减速齿轮箱故障模拟实验平台为研究对象,对获取的振动信号进行了3层小波包分解,获得8个频段的时频能量谱,该能量谱值就是式(7)~(10)中的x,如果样本数是279,那么公式中的i,j=1,2…279,yi是样本的标签。本实验台可以模拟齿轮的三种状态——正常齿轮、点蚀齿轮和断齿齿轮,yi只有三个值1,2,3。

对于低维不可分问题,SVM引入了核函数K(xi,xj)代替式(10)中的(xi·xj),见式(11),这样解决了线性不可分的问题,这也称为SVM的核变换。核函数的性质是影响SVM分类性能的关键因素[15]。在SVM实际应用中,选择适合样本数据的核函数是目前研究的一个热点,优良的核函数能够增强SVM决策函数的可解释性与鲁棒性[16-17]。高斯核函数是SVM最常用的非线性映射函数,经验证高斯核函数在处理线性不可分问题方面表现良好,其表达式见式(12)。

(11)

(12)

核函数的引入,使得实际运算在低维空间进行,这样以最少的运算量获得最优超平面决策函数,这也是SVM有别于其他机器学习的最突出特点。

最优超平面w·x+b=0能将两类样本完全分开,这样要求很严格,但并不是最佳,如当个别样本受到噪声干扰时,这样确定的决策平面并不是最佳的,为了放宽条件,引入松弛因子ξi和惩罚因子C。新的目标函数:

(13)

同样,用拉格朗日乘子法求解式(13)的变量w、b、和ξi。

高斯核函数超参数g的取值大小对决策超平面的影响表现为g越小,低维空间拟合的决策超平面越复杂,越容易出现过拟合,这种分类模型的泛化能力差。反之分类结果粗糙,表现为欠拟合现象。式(13)中惩罚因子C的取值会对SVM的经验风险与结构风险有影响。一般情况下,C越大,结构风险越大,经验风险越小,SVM模型表现出过拟合现象。反之,结构风险越小,经验风险越大。所以,高斯核函数参数g和惩罚因子C的取值对支持向量机的分类结果有重要影响。优化SVM参数就是对惩罚因子C和高斯核函数参数g的优化。

1.4.2GAPSO优化SVM

本文提出利用GAPSO优化SVM的参数C和g。GAPSO算法基本步骤为: ①目标函数的确定。本文目标函数为SVM的预测输出与样本的真实标记之间的差异,差异越小,SVM模型越好; ②确定种群规模(本文为20)及粒子个体维度(SVM要优化的参数是C、g,所以是两维); ③确定种群个体每个维度范围(即上下限)、循环次数、个体交叉概率以及变异概率; ④用种群的每个个体C和g训练SVM模型,计算每个个体适应度。适应度是衡量种群中个体优劣的标准,适应度越大个体越优。本文的适应度采用SVM的交叉验证准确率; ⑤根据适应度大小分别确定PSO种群最优个体和GA种群的最优个体,进而得到GAPSO 本次迭代的最优个体并更新全局最优个体,保存它们,以便遗传给下一代; ⑥判断全局最优个体的适应度是否满足条件或判断迭代次数是否达到终止条件,如果满足条件输出全局最优个体C和g,否则继续更新种群的个体; ⑦用PSO算法对种群个体进行速度更新和位置更新,产生子代种群,用GA算法对种群个体进行选择操作、交叉和变异操作,产生子代种群个体; ⑧返回到步骤④,直到满足终止条件,得到全局最优的惩罚系数C和高斯核函数参数g的值,输出最优C和g; ⑨结束寻优过程。

用GAPSO优化SVM参数C和g流程见图2。

图2 GAPSO优化SVM参数流程Fig.2 GAPSO optimizing SVM parameter flow

2 实验验证

2.1GAPSO-SVM用于多级齿轮箱故障诊断2.1.1数据来源及预处理

本文数据来自西安交通大学智能仪器与监测诊断研究所的变转速变载荷的多级齿轮箱故障模拟实验平台,见图3。加速度传感器为PCB公司的M601A01型一体化加速度传感器,其灵敏度为100 mV/g,量程为±50g,频率响应范围为0.27~10 kHz,实验信号采集用北京优采的UA306采集器,采集器通过率250kHz。实验台中齿轮箱内齿轮均为圆柱齿轮,其中输入轴上的齿数为26;中间轴上与输入轴齿轮啮合的齿轮齿数为64,中间轴上三联齿轮齿数均为40,它们分别是正常齿轮、点蚀故障齿轮和断齿故障齿轮;输出轴齿数为85。实验中齿轮箱输入轴的转速为900 r/min,实验中分别对齿轮正常、齿轮点蚀和齿轮断齿三种状态的振动信号进行了采集,采样频率为16kHz,每次采样时长为4s。不同故障下振动波形见图4。

图3 齿轮箱故障模拟实验平台Fig.3 Gearbox fault simulation experiment platform

图4 测量信号Fig.4 Measuring signal

2.1.2基于GAPSO-SVM故障诊断流程

基于GAPSO-SVM的多级齿轮箱故障诊断流程见图5。先对采集到的振动数据进行预处理,得到归一化的特征向量数据集,并将特征向量数据集划分为训练数据集和测试数据集。设置GAPSO参数如种群大小、迭代次数、交叉概率、变异概率、惩罚因子C和高斯核参数g的取值范围,并确定适应度函数。利用GAPSO算法确定C、g最优解。利用最优C、g和训练数据集生成多级齿箱故障诊断的SVM模型。最后用该模型对测试数据进行故障识别,输出测试结果分类的准确率,完成故障诊断。

图5 GAPSO-SVM多级齿轮箱故障诊断流程Fig.5 GAPSO-SVM Multi-stage gearbox fault diagnosis process

2.2 试验结果分析

实验中,齿轮正常、齿轮点蚀和齿轮断齿的样本各93个,共有样本279个,每个样本有2 048个测量数据。提取各样本的小波包分解能量谱特征,并对其进行归一化处理,构建特征向量数据集,数据集大小为279行9列的矩阵,279表示样本数,9包括8个特征值和1个标签值。划分数据集为训练数据集和测试数据集,训练数据集有210个样本、测试数据集有69个样本。设置 GAPSO-SVM参数搜索范围C[0.1,100],g[0.01,100],种群规模为 20,迭代次数为 100,杂交概率为 0.75(交叉概率通常情况下取 0.4~0.99。),变异概率取 0.05(变异概率通常情况下选取 0.000 1~0.1),最佳适应度采用 SVM 最大交叉验证正确率。图6是GAPSO-SVM参数寻优过程中,最佳适应度和平均适应度变化曲线,这次寻优的最佳参数组合为bestC=8.509 2, bestg=0.694 7,其中最佳适应度在最初几代时陷入局部最优,但在接近迭代次数21 次时跳出局部最优寻找到全局最优,准确率也达到 98.57%。

图6 GAPSO-SVM寻优过程中适应度变化曲线Fig.6 GAPSO-SVM fitness change curve in the process of optimization

用最佳参数组合训练的GAPSO-SVM模型对测试集的69组样本进行故障识别分类,结果见图7。由图7可以看到,第43个样本识别分类错误,故障识别分类准确率达到了98.55%。

图7 GAPSO-SVM模型故障诊断结果Fig.7 GAPSO-SVM model fault diagnosis result

为了验证GAPSO-SVM模型优势,本文用相同的训练数据集和测试集分别训练和测试了SVM模型(c=1,g=1)和PSO-SVM模型,测试结果如表1所示。由表1可知,不同惩罚因子C和高斯核参数g影响SVM的适应度曲线和分类准确率。GAPSO-SVM模型故障分类准确率最高,识别准确率达到98.55%,SVM最差为94.2%。在GAPSO-SVM和PSO-SVM寻优过程中,最佳适应度变化曲线见图8,可以看出PSO-SVM在迭代到35次时即陷入局部最优,而GAPSO-SVM则在迭代次数不超过21次时找到全局最优。

表1 不同SVM模型分类准确率对比Tab.1 Comparison of classification accuracy by different SVM models

图8 两种SVM参数寻优算法的适应度变化曲线Fig.8 Fitness curve for two SVM parameter optimization algorithms

3 结 论

1) 结合PSO收敛速度快、GA全局搜索的能力,引入GAPSO对SVM核参数g、惩罚因子C进行优化,建立GAPSO-SVM模型,能有效提升多级齿轮箱故障识别分类的准确率,提高故障识别能力。

2) 用小波包分解算法对齿轮箱振动信号进行分解,提取不同频段信号的能量谱构成特征集训练SVM,SVM模型识别率高,这表明振动信号不同频段信号的能量谱能够表征多级齿轮箱的特征,能量谱是有效的特征参数。

3) 提升SVM模型故障分类准确率的主要因素包括SVM的核函数参数、惩罚因子的选取和有效特征参数的选取。

猜你喜欢
齿轮箱适应度齿轮
改进的自适应复制、交叉和突变遗传算法
风电齿轮箱轴承用钢100CrMnSi6-4的开发
东升齿轮
你找到齿轮了吗?
异性齿轮大赏
一种基于改进适应度的多机器人协作策略
齿轮传动
提高齿轮箱式换档机构可靠性的改进设计
基于空调导风板成型工艺的Kriging模型适应度研究
杭州前进齿轮箱集团股份有限公司