基于自适应带宽核密度估计的载荷外推方法研究

2021-02-01 12:02牛文铁才福友付景静
农业机械学报 2021年1期
关键词:概率密度幅值均值

牛文铁 才福友 付景静

(天津大学机构理论与装备设计教育部重点实验室, 天津 300350)

0 引言

载荷谱[1-2]是进行零部件疲劳寿命预测和优化设计的重要依据。目前,载荷谱已经在航天、汽车、高铁等领域得到了广泛研究与应用[3-5]。而我国大型玉米收获机关键零部件载荷谱的编制方法研究尚处于起步阶段,与国外发达国家相比还有较大的差距。国产玉米收获机故障频发,稳定性较差,其主要原因是设计水平不高,在研发设计初期大多以仿制和借鉴为主,很多零部件的结构设计并没有足够的载荷谱数据作为支撑。玉米收获机的车架是整车的核心承载部件,承受着割台、驾驶室、发动机、粮仓等传递的力和力矩,在实际工作过程中,经常会出现车架裂痕、甚至断裂的现象,严重影响了玉米收获机的整车性能。因此,采用合理的载荷外推方法进行多种工况下玉米收获机车架的载荷谱编制,对于玉米收获机车架的结构优化和整车性能提高具有重要意义。

在实际载荷测试试验中,由于时间、天气、试验场地和成本等多种原因,只能进行一定时间内载荷时间历程的测量,实测载荷仅反映试验期间的载荷时间历程,不能反映全寿命周期下的载荷分布,因此需要对有限的载荷时间历程进行合理有效的载荷外推[6]。载荷外推是影响载荷谱编制准确性的关键环节。JOHANNESSON[7]提出了基于POT参数模型的时域外推方法,通过设置峰值的阈值,估计峰值的分布函数,在最大限度保留原始载荷时间序列的基础上,重构得到外推后的载荷时间历程。杨子涵等[8]对时域外推过程中的阈值选取方法进行了改进,提出了一种时域外推过程中阈值选取的量化方法,解决了时域外推过程中阈值选取主观性较强的问题。张英爽等[9]将经过雨流计数法统计后的载荷循环均值和载荷循环幅值的分布分别用正态分布和威布尔分布进行参数拟合,并以此进行载荷外推。翟新婷等[10]、GENG等[11]以混合分布函数作为函数拟合模型进行参数估计,该方法的拟合效果优于单分布的参数估计。但是,参数外推方法是用纯粹的分布函数来描述载荷的分布规律,对于复杂、随机性较大的载荷,则会产生较大的误差,大大降低了外推载荷谱与实际载荷谱的等效性。随着研究的不断深入,基于核密度估计法的非参数估计方法被应用于载荷外推中,该方法既可很好地保留载荷数据本身的分布规律,又能实现对任意载荷分布的拟合。李凡松等[12]采用基于自适应带宽的核密度估计方法进行载荷外推,每一个数据点都有其自身对应的带宽,该方法相较于固定带宽的核密度估计方法具有更好的拟合效果。

本文针对核密度估计载荷非参数外推方法中带宽的选择问题,结合改进的四叉树分割算法,对核密度估计的带宽计算进行优化,提出一种改进的自适应带宽核密度估计的载荷外推方法。以玉米收获机车架为研究对象,通过与传统的基于核密度估计的固定带宽外推方法和自适应带宽外推方法进行比较,验证该自适应带宽核密度估计的载荷外推方法的准确性和合理性。

1 核密度估计

核密度估计是由ROSENBLATT[13]和PARZEN[14]提出的一种由实测分布函数未知的随机变量来估计其概率密度函数的非参数估计方法。该方法不需要知道数据的先验分布,也不必对数据进行任何的假设,只需要确定输入的数据变量、核函数以及带宽就可以估计输入数据的概率密度函数。目前,核密度估计已经在电力、医疗、地理等领域得到了非常广泛的应用[15-18]。玉米收获机工作时由于其结构复杂,工况多样,导致负载波动大,实测载荷信号具有很强的分散性和随机性,相较于一般的参数估计法来说,核密度估计能更好地描述载荷数据的分布规律,从而使得载荷外推更加准确。

基于雨流计数矩阵的载荷外推是关于载荷循环均值和幅值的二维问题,二维核密度估计表达式为

(1)

其中

(2)

式中n——输入数据点的个数

hx、hy——核密度估计载荷循环幅值、均值的带宽

xi、yi——输入的第i个载荷循环幅值、均值

K(·)——核函数

只要选取的核函数和带宽合适,就可以无限制地去逼近任何随机变量真实的概率密度函数。大量研究表明,当输入的样本数据量足够大时,核函数的具体形式对概率密度估计的准确性产生的影响相对较小[19],本文选择光滑且连续、明显单峰分布的高斯核函数。二维高斯核函数表达式为

(3)

与核函数相比,带宽h的选择对核密度估计的准确性影响更大[20]。带宽h决定了(x,y)的光滑程度,若h较大,则有较多的数据点影响此处的概率密度计算,(x,y)曲线在此处较光滑,但是其与实际概率密度曲线的偏差较大;若h较小,则有较少的数据点影响此处的概率密度计算,(x,y)曲线在此处较陡峭,但是其与实际概率密度曲线的偏差较小。因此,为了更加准确地进行核密度估计,带宽h的选择尤为重要。为了定量化实现最优带宽计算,提出了平均积分平方误差(MISE),MISE表达式为

(4)

f(x)——实测数据真实的概率密度

E(·)——求均值函数

拇指法则是目前应用最多的固定最优带宽的计算法则,拇指法则的最优带宽计算公式为

(5)

式中d——核密度估计的维数,取2

σ——输入二维数据样本的标准差

此外,还可用无偏交叉验证(Unbiased cross validation)[21]、插入法(Plug-in)[22]等进行最优带宽的计算。上述方法计算的最优带宽是固定的,即每一个数据都有着同样的带宽,不能自动调节和变化,然而,在核密度估计的实际应用中,由于数据的随机性较强,分布不均匀,通过固定带宽核密度估计计算得到的概率密度可能与实际的分布相差较大,所以,希望带宽能够随数据的变化而变化,在数据密集的地方取得小一些,在数据稀疏的地方取得大一些。因此,自适应带宽核密度估计[23-24]得到了广泛的应用,该方法的具体计算公式为

(x,y)=

(6)

其中

λi=(g-1(xi,yi))-α

(7)

(8)

式中λi——带宽的自适应修订系数

α——敏感性参数,取0~1

一般情况下当α取0.5时,核密度估计的拟合效果较好[25],相对于固定带宽的核密度估计来说,自适应带宽在一定程度上提高了核密度估计的准确性,但由于数据集中的每一个数据都会影响彼此的带宽,当输入数据集较大时,会大大降低核密度估计的计算效率。当一定数量的数据聚集在一个很小的区域时,此区域内带宽的差异对核密度估计的影响十分有限,因此可以根据数据的聚集程度将同一区域内所有数据的带宽设置成相同的,就可以避免对这些点进行不必要的详细的带宽计算,在保证一定核密度估计准确性的前提下,提高了计算效率,所以针对核密度估计最优带宽的选择问题,为了更好兼顾核密度估计的计算效率与准确性,本文在上述方法的基础上进行改进,提出了一种新的自适应带宽计算方法。

2 基于四叉树算法的自适应带宽核密度估计载荷外推

基于四叉树算法的自适应带宽核密度估计载荷外推主要由3个步骤组成,包括:核密度估计的数据输入、基于四叉树算法的数据区域分割以及基于四叉树算法的自适应带宽核密度估计。具体的载荷外推流程图如图1所示。

2.1 核密度估计的数据输入

雨流计数法得到的应变与材料的应力-应变迟滞回线具有很好的一致性,并且考虑了载荷循环幅值和均值2个变量,符合疲劳载荷本身固有的特性,能够满足疲劳寿命预估以及载荷谱编制的条件,是目前应用最为广泛的实测载荷时间历程的计数统计方法。首先将已经预处理的实测载荷利用该方法进行计数统计处理,得到载荷循环均幅值矩阵M(Mm、Ma),其中Mm表示载荷循环均值,Ma表示载荷循环幅值;在实际工作中,小幅值载荷循环的数量比大幅值载荷循环大,但是其造成的疲劳损伤非常小[26],所以可以将小于最大载荷循环幅值10%的载荷循环只进行简单的线性比例外推,这很大程度上减少了核密度估计的数据输入量,从而降低核密度估计的计算量,提高了计算效率。已经过滤掉小幅值载荷循环的载荷循环均幅值矩阵记为Mn(Mmn、Man),并以此作为核密度估计的数据输入。

2.2 基于四叉树算法的数据区域分割

四叉树算法[27]是一种经典的空间分割与索引技术,目前在图像分割与空间索引领域已经得到了广泛的应用[28-29]。该算法可以通过对数据空间进行递归四等分割将数据区域分割成密度不等的块,数据越密集的地方,块的数量越多,块相对较小;而数据越稀疏的地方,块的数量越少,块相对较大,分割出的块的数量与大小从一定程度上反映出数据的密集程度。数据密集的地方采用较小的带宽,能够更好地反映出该区域分布的细节,与实际分布更加接近,拟合效果较好。根据四叉树分割算法分割出不同的数据块,计算各自的局部最优带宽,达到自适应带宽核密度估计的目的。将一个区域进行四叉树分割的流程如图2所示。

通过对区域不断执行上述四叉树分割流程,直到所有区域都不满足区域分割的条件,最后可以将原始数据区域分割成大小不尽相同的数据块。判断数据区域是否需要分割的阈值,数据区域内数据点个数的最大值Nmax和数据区域最小宽度Lmin对分割完成后数据块的大小和数量有着重要的影响,不同Nmax对概率密度函数的影响如图3所示。

由图3可知,Nmax较大时,图3b不能很好地反映出该区域内数据点分布的细节信息;Nmax较小时,图3c反映的细节信息和图3a没有明显的差别,但是Nmax越小,四叉树分割的层次就越深,计算量越大。

Δan=(maxMan-minMan)/64

(9)

Δmn=(maxMmn-minMmn)/64

(10)

式中Δan——载荷循环幅值每一级的长度

Δmn——载荷循环均值每一级的长度

因此定义四叉树分割数据块的最小宽度Lmin=min(Δan,Δmn),这既能提高四叉树分割的计算效率,也能最小限度影响核密度估计的准确性。

2.3 基于四叉树算法的自适应带宽核密度估计

不同数据块内数据点的带宽因为数据的差别而有所不同,但同一数据块内数据点的带宽是相同的。当一个数据块内的数据点密集程度比较高,彼此相差不大时,每一个数据点贡献的核密度估计分量的差别很微小,数据落入此数据块不同位置的概率近似相同。因此,为了进一步提高自适应核密度的计算效率,在数据密集程度比较高的块,不需要每一个数据点都进行核密度估计的计算,只需要将该数据区域数据点的平均值作为核密度估计的数据输入,再乘以该区域数据点的个数即可。在此将表示数据块内数据点密集程度的参数定义为

(11)

其中

Lside=min(Δan,Δmn)/2

(12)

H=max(hx,hy)

(13)

当γ>1时,表示该数据块内的数据点密集程度高,可以对此数据块内的核密度估计计算进行优化。依此改进的自适应核密度估计公式为

(x,y)=

(14)

式中N——优化前载荷数据点总个数

N0——优化后载荷数据点总个数

当γ>1时,n(xi,yi)表示此数据块内数据点的个数,xi、yi分别表示此数据块内数据点的载荷循环幅值以及载荷循环均值的平均值;当γ<1时,n(xi,yi)等于1,xi、yi分别表示此数据块内每一个数据点的载荷循环幅值以及载荷循环均值。

通过上述方法进行自适应带宽核密度估计后,再结合Monte Carlo模拟算法进行载荷外推。

3 实例验证

3.1 试验方案

玉米收获机在实际工作中,工况较多且复杂多变,由于地形、车辆载重以及操作行为不规范等原因,车架时常会出现裂纹,大大降低了车架的疲劳强度,影响整车性能,受到很大冲击时,甚至会出现车架整根断裂的问题,严重影响了粮食收获。由于试验环境较恶劣,并且测试部位空间有限,需要选用安装方便并且固定牢靠的传感器。因此本试验采用中航工业公司BE350-4AA型应变片进行数据测取,并通过有线连接的方式与HBM公司的SoMat eDAQ型数据采集仪连接。该数据采集仪具有极佳的密封性能和抗震性能,能有效应对水溅、扬尘、颠簸等测试环境,有线连接的方式能够确保信号传输的稳定性,通过数采的计算机终端软件将采样频率设置为500 Hz。应变片的安装如图5所示,现场试验如图6所示,数据采集系统组成如图7所示。

砂石路面工况下行驶较为平稳,载荷变化相对较小,大幅值载荷循环较少,载荷循环的分布相对集中;田间收获工况下载荷容易受田间地面的软硬程度以及粮仓的使用率等因素的影响,载荷的随机性较高,平稳性较差,大幅值载荷循环相对多一些,载荷循环的分布也更为分散。根据通过四叉树分割算法得到的数据块的大小以及密集程度,能够很好地反映出这两种工况下数据的密集程度以及分布情况,并且这两种工况占玉米收获机实际工作工况中很大的比重,具有一定的代表性,为了降低结论的偶然性,本文采用2种工况下各3组样本进行对比验证,经过预处理的试验数据如图8所示。

3.2 结果验证

通过雨流计数法对上述已经完成预处理的车架实测原始载荷进行统计计数处理,得到的部分载荷循环均幅值频次分布图如图9所示。

由图9可知,幅值较小的载荷循环占比较大,将小于最大幅值10%的载荷循环过滤掉,过滤完成的数据作为固定带宽和自适应带宽核密度估计的数据输入,本文方法的核密度估计的数据输入在过滤的基础上还需要通过改进的四叉树算法进行优化。首先将已经筛选好的载荷循环均幅值矩阵中的数据点绘制成如图10所示的散点图,并在此散点图上利用改进的四叉树算法进行数据区域的分割操作,数据区域信息如表1所示。

表1 数据区域信息Tab.1 Information of data area

经过基于四叉树算法的数据区域分割的计算,数据区域被分割成大小不相同的数据块,每个数据块都有各自的带宽,利用式(14)对数据块的自适应带宽核密度估计进行优化,在之前滤除小幅值载荷循环的基础上又大幅减少了核密度估计的输入,进一步提高了核密度估计的计算效率。

为了验证本文提出的基于四叉树算法的自适应带宽核密度估计的载荷外推方法的准确性与合理性,与传统的基于核密度估计的固定带宽载荷外推和自适应带宽载荷外推以及实测原始载荷进行对比论证。

由3种带宽选择方法计算得到的载荷循环均幅值概率密度分布如图11所示。将图11与图10进行对比,可以看出传统的固定带宽与自适应带宽核密度估计的曲线较为平滑,而本文提出的自适应带宽核密度估计的曲线较为曲折,能够很好地反映图10数据的密集程度,并且数据密集点的分布情况划分更加具体,细节信息表达更为清楚,能很好地拟合真实概率密度。为了进一步评价概率密度函数的拟合程度,将固定带宽、自适应带宽以及本文提出的自适应带宽核密度估计的概率密度函数的结果分别结合Monte Carlo模拟算法进行载荷外推。将实测原始载荷数据和上述3种方法进行载荷外推后得到的载荷循环均幅值分别进行分级统计处理,并计算实测原始数据与3种带宽选择外推方法的均方根误差(RMSE),计算结果如表2所示。

表2 载荷循环均幅值的均方根误差Tab.2 RMSE of load cycle mean and range με

由表2可知,相较于传统的固定带宽和自适应带宽核密度估计,本文提出的自适应带宽核密度估计载荷外推方法的均方根误差RMSE最小,表明通过本文方法计算得到的概率密度更加接近于真实的概率密度。

将实测原始载荷数据和上述3种方法进行载荷外推后得到的载荷循环均值和幅值数据分别进行分级统计处理,结果如图12所示。为进一步分析频次分布的相关性和拟合程度,计算实测原始数据与3种带宽选择外推方法的相关系数(R)以及均方根误差(RMSE),结果如表3、4所示。

表3 载荷循环均值的相关系数及均方根误差Tab.3 R and RMSE of load cycle mean

表4 载荷循环幅值的相关系数及均方根误差Tab.4 R and RMSE of load cycle range

由表3、4可知,相较于传统的固定带宽和自适应带宽核密度估计,本文提出的自适应带宽核密度估计载荷外推与实测原始载荷均值和幅值的相关系数R最大,均方根误差最小,表明通过本文提出的自适应带宽核密度估计进行载荷外推得到的载荷循环均值和幅值分布与实测原始载荷的载荷循环均值和幅值分布具有很强的相似性,分布拟合效果好,更加接近实测原始载荷的真实分布规律。

载荷循环幅值累积频次曲线为后续程序载荷谱的编制提供数据支撑,影响程序载荷谱编制的准确性。将实测原始数据与传统的固定带宽载荷外推、自适应带宽载荷外推以及本文提出的自适应带宽载荷外推的载荷循环幅值累积频次曲线进行对比验证,如图13所示。由图13可以看出,通过本文提出的带宽选择方法进行载荷外推得到的曲线与实测原始载荷曲线更为接近,拟合效果更好。为了更加直观进行对比,更好评价载荷循环幅值累积频次曲线的拟合效果,采用决定系数R2作为曲线拟合的检验指标,计算结果如表5所示。

表5 载荷循环幅值累积频次曲线的决定系数Tab.5 Coefficient of determination of load cycle range cumulative frequency curve

由表5可知,本文提出的自适应带宽核密度估计外推方法的R2更加接近于1,这表明,与另外两种方法相比,本文提出的方法与实测原始载荷的载荷循环幅值累积频次曲线的拟合度更高,更为相似,能够为程序载荷谱编制提供更加接近实际的数据支撑。

4 结论

(1)提出了一种基于四叉树算法的自适应带宽核密度估计载荷外推方法,该方法利用四叉树分割算法将载荷循环数据区域进行分割,以分割完成后的数据块为依据计算带宽,并根据数据块的密集程度对核密度估计的数据输入进行优化。

(2)以玉米收获机车架为研究对象,在砂石路面工况和田间收获工况下,采用本文提出的方法大幅降低了核密度估计的数据输入,极大提高了核密度估计的计算效率。

(3)将固定带宽、自适应带宽与本文提出的基于四叉树算法的自适应带宽核密度估计载荷外推方法进行了对比验证。结果表明,通过本文提出的载荷外推方法计算得到的载荷循环均值和幅值分布的相关系数均更加接近于1,均方根误差更小;载荷循环幅值累积频次曲线的决定系数均大于0.99。与传统的固定带宽以及自适应带宽的核密度估计方法相比,本文提出的方法具有更高的准确性,载荷外推结果更接近实际载荷的分布情况,能够为载荷谱的编制、零部件结构优化提供参考。

猜你喜欢
概率密度幅值均值
室温下7050铝合金循环变形研究
连续型随机变量函数的概率密度公式
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
男性卫生洁具冲水时间最优化讨论
浅谈均值不等式的应用
可靠性步进电机细分驱动技术研究
均值不等式的小应用
巧用图形求解连续型随机变量函数的概率密度
平地机作业负载谱分析