基于分位数特征提取的时间序列模式分类

2015-02-20 08:15管河山唐德文
计算机工程 2015年3期
关键词:离心机位数特征提取

管河山,王 谦,唐德文

(南华大学a.经济管理学院;b.机械工程学院,湖南衡阳421001)

基于分位数特征提取的时间序列模式分类

管河山a,王 谦a,唐德文b

(南华大学a.经济管理学院;b.机械工程学院,湖南衡阳421001)

高速运行的离心机设备,其振动状态检测数据通常呈现出明显的非线性、正态分布和大样本的特征,数据波动的随机性使得其趋势特征难以捕捉。为此,提出一种新的时间序列模式分类方法。采集离心机设备运行状态的振动信号时间序列进行分析,根据对称原理提取序列数据的分位数,构建特征向量,采用欧氏距离函数构建相似性度量,建立模式分类的判定依据,使用k-means分类算法实现状态模式的自动分类。仿真结果表明,该方法能有效区分离心机设备运行中空载和负载的模式状态,且比传统的小波分析模式分类方法更加准确。

分位数;时间序列;模式分类;离心机;振动信号;小波

1 概述

序列模式分类的理论研究和实际应用比较广泛[1-2]。特别地,时间序列模式分类技术在设备运行状态检测及故障诊断中得到了广泛的应用。比如,文献[3]从时间序列AR模型入手,建立了旋转机械的信息距离判别函数,并将其应用在旋转机械故障诊断专家系统的模式识别规则库中,可进行故障监测和诊断;文献[4]采用模糊理论和PrefixSpan算法,得到了按次序排列且有时间间隔的异常参数点对设备故障影响的规则,为企业设备运行的故障监控提供了理论依据;文献[5]按照时间序列方式提取系统故障信息,提出了一种异常检测算法,并对微机监测系统2组道岔动作电流进行仿真和实证;文献[6]根据微机电系统(Microelectro Mechanical System,MEMS)陀螺仪测量数据的自相关函数和偏相关函数特征初步确定自回归移动平均模型(Autoregressive Integrated Moving Average Model, ARIMA),再引入赤池信息量准则(Akaike Information Criterion,AIC)确定最优模型,并采用最小二乘估计法对模型参数进行估计,以此自回归移动平均模型作为检测、识别出车载MEMS陀螺仪的

异常测量数据的标准。上述研究极大地丰富了时间序列模式分类的理论研究和实践应用。

考虑到不同设备运行状态的实际情况,其状态特征的识别方法是有所差异的,这也是设备运行状态监测及故障诊断技术多样化的原因之一。小波分析能有效地从信号中提取信息,通过伸缩和平移等运算功能对函数或信号进行多尺度细化分析,解决了Fourier变换不能解决的许多困难问题,基于小波分析的模式识别方法得到了极为广泛的研究和应用[7-9]。

通常情况下,高速运行离心机设备的振动信号数据呈现出明显的非线性、正态分布和大样本的特征,实现该类设备的在线监控需要借助快速的时间序列模式识别技术。为此,本文提出一种基于分位数特征提取的时间序列模式分类方法。对高速运行的离心机设备状态监测展开分析,通过仿真实验采集相关振动信号时间序列数据,提取序列数据的分位数,构建特征向量,采用聚类方法实现模式的自动分类,并从分类准确率角度与小波分析方法进行实验效果的对比。

2 本文方法

2.1 时间序列数据分段

高速运行的离心机设备故障监测和诊断是需要一定采样时间的。对这类高速运行的设备采集振动信号时间序列数据进行分析,通常单位采样时间(如1 s)的数据样本点个数较多(本文每秒钟采集的振动信号数据样本超过40 000)。然而设备状态监测要求有一定的时效性,为了更快速地识别设备运行状态,采样时间长度通常较短。所以,在此将所采集到的振动信号时间序列数据进行分段分析,分段的依据是根据模式识别的时效性来决定。如实时监测要求采样时间长度为0.01 s,0.1 s或1 s等,则可以将1 s内采集到的时间序列数据分别分成100段、10段和1段。给定离心机设备运行状态的振动信号时间序列数据{Xt,t=1,2,…,T},T为单位时间内采样的样本总量。简单起见,假定模式识别的时效性要求最小采样时间长度为T0,将时间序列Xt等分为k(k为正整数)个子序列,则T=k×T0。

当然,也可以根据模式识别的时效性要求直接确定采样时间长度,并采集相应的样本数据进行模式识别分析。本文之所以进行分段,是为了验证模式识别方法在单个模式和多个模式组合2种情形下的识别性能。如实验每秒钟采集的振动信号数据为40 000个样本点,模式识别时效性要求为0.1 s,则可以直接采集4 000个样本构建单个模式,然后进行模式识别分析;然而,设备运行状态是连续的,人为参与设备运行状态监测是需要一个时间的,为此,进行必要的模式组合分析也可以为人为决策提供参考价值;如继续采集下一个0.1 s内的4 000样本点,结合前0.1 s的4 000样本点,构建一个模式组合,然后进行识别分析。

综上所述,假定所采集到的时间序列数据{Xt,t=1,2,…,T},根据时效性要求将其分成k个子序列,对每个子序列提取相应的特征构建特征向量,则整个时间序列{Xt}的特征提取将得到一个特征模式矩阵。

2.2时间序列的分位数特征提取

分位数,亦称分位点,是指将一个随机变量的概率分布范围分为等份的数值点。在不考虑信号时间序列数据的时间维度(横向)的特征时,分位数能有效地刻画信号时间序列数据波动(纵向)的特征。随着离心机的高速运行工作,其重心偏移通常是随机的,所以,其振动信号数据没有明显的周期性。此时,分位数特征提取比较适合此类信号数据的处理。

对分段后的每个子序列,采用分位数来刻画其数据分布特征。提取的分位数个数越多,则对子序列统计分布特点的刻画越精细,然而这将增加模式识别的计算量;而且,设备运行状态所采集到的高频数据呈现明显的非线性和随机性,采取少量分位数更有利于刻画运行状态的主要特征。

本文采取对称原理开展分位数特征提取,即要求所提取的分位数关于中位数对称,具体做法如下:首先采用了常用的3个四分位数,其次引进常用的置信概率值95%和5%、90%和10%来确定4个分位数,最后结合极大点和极小点来确定2个分位数,共计9个分位数[10],按从大到小的顺序排列,即极大值、95%分位数、90%分位数、75%分位数、50%分位数、25%分位数、10%分位数、5%分位数和极小值。此时,每个子序列将对应一个9维的特征模式向量。则对整个时间序列{Xt,t=1,2,…,T}而言,共计有k个9维特征模式向量,将其排列成矩阵的形式,将得到一个特征模式矩阵F,如下:

其中,分段参数k=1时,将得到一个特征模式向量。

特征提取流程所得到的结果如图1所示。其中,图1(a)采样时间长度为4 s;图1(b)分段参数k=10;图1(c)分段参数k=10。将该特征模式矩阵在三维空间直观展示,如图1(b)所示;并将其进行平滑,如图1(c)所示;图形是按照分位数取值大小呈现递增的趋势(自右向左)。

图1 时间序列分段分位数特征的提取示意图

经过时间序列的分位数特征提取,可以实现设备运行状态检测所采集到的信号数据压缩,提取设备运行状态检测的主要特征,以便进行下一步的模式分类研究。

2.3 时间序列模式的无监督分类

采集离心机运行状态的振动信号时间序列数据,包括正常运行数据(空载)和异常运行数据(偏载)。采用Matlab软件提取时间序列数据分段分位数特征,每个音频数据都对应1个特征模式矩阵。然后采用时间序列无监督分类的方法进行设备监测数据的模式分类。

聚类(Cluster)分析是研究分类问题的一种统计分析方法;它是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量(或矩阵);聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。本文采用欧氏距离函数来度量2个特征模式矩阵X和Y之间的相似程度,如下:

继而采用k-means算法进行时间序列聚类,考虑到设备状态的正常(空载)和异常(偏载)2种模式,本文研究将所采集到的数据样本分为2个类,即输入参数k=2。将数据样本划分为2个类,确保同一类中的样本对象相似度较高,不同类中的样本相似度较小,达到各类本身尽可能的紧凑、各类之间尽可能的分开的目的。

k-means聚类算法如下:

输入时间序列

输出分类结果

Step1选取参数k的值。

Step2初始化k个聚类中心点(可采用随机方式)。

Step3将N个样本按照最近原则,进行归类。

Step4重新估计k个聚类中心点。

Step5如果N的样本的归类结果不再改变,则完整,否则返回Step3。

2.4 模式分类结果评价

假定事先知道状态模式分类的标准,则分类结果可以采用客观方法进行评价,如采用指标Sim(G,A)来分析结果[11]。假定状态模式分类的标准为向量G={G1,G2,…,Gm},而采用某种方法得到的模式分类结果为向量A={A1,A2,…,Am},可根据下式计算客观评价的准确率指标:

其中,指标Sim(G,A)取值范围为(0,1),取值越大,表明模式分类结果越接近真实情况,分类效果越好。

假定事先不知道状态模式分类的标准,则分类结果可以采用主观方法进行判定;如将分类后的2组时间序列数据的折线图分别绘出,并进行直观判定分析[12]。

3 仿真实验和分析

3.1 沉降式离心机的运行状态模式

沉降式离心机系统是乏燃料后处理中的关键设备,可以处理核动力堆中含有一定数量的不溶物。沉降式离心机包括机架、上轴组件、转鼓等部件。电动机转动带动上轴组件,带动与其相连的转鼓,加入转鼓中的悬浮液在离心力作用下形成环状液层,其中的固体颗粒沉降到转鼓壁上,形成沉渣;澄清的液体经转鼓清液口或吸液管排出。沉降式离心机设备故障模式主要包括以下情况:(1)转鼓的脆性破坏、裂纹,故障原因为转鼓所用材料晶粒粗大,组织不均匀;(2)沉降式离心机在空载和加水实验中出现振

动、杂音、振幅偏大现象,故障原因为系统动力不平衡;(3)离心机机架松动,造成离心机系统运行震动加剧,故障原因为高速旋转造成整个机架筋板疲劳破坏。

考虑到目前能在乏燃料辐射环境下长期工作的传感器没有成熟产品,本文对沉降式离心机机采取模拟仿真的方式进行实验;针对沉降式离心机系统动力不平衡造成的振动和振幅偏大现象进行监测和分析,模拟其在空载运行和偏载运行2种状态,采集相应的振动信号时间序列数据进行分析。

3.2 数据特征分析

采集沉降式离心机设备运行过程中的振动数据。实验方案如下:第1步,对沉降式离心机采用空载实验;第2步,对对沉降式离心机内壁附加铁块进行实验,模拟系统动力不平衡时(偏载)的运行状态。实验过程中通过调频调速器施加转速(调频调速器频率越高,则离心机转速越快),利用YD9200振动速度传感器采集相应的振动信号数据。传感器采样频率约44 100次/s,考虑到运行状态检测的时效性需求,实验采样时间长度定为3 s,实验数据呈现出明显的大样本性质。

对所采集到的设备振动信号时间序列数据进行正态分布检验,设定显著性水平值为0.05,采用SAS(Statistics Analysis System)系统软件中的KOLMOGOROV统计量进行分析,检验结果如表1所示,大部分样本都服从正态分布;只有调频调速器调频调速器频率为50 Hz时,负载实验中部分样本数据呈现非正态分布情形;实样总体样本数为325个,服从正态分布的样本数为313个,占样本总量的96.3%。绘制出振动信号时间序列数据图形,如图1(a)所示,设备运行状态检测数据呈现比较明显的随机噪声特征。

表1 正态分布实验结果

3.3 模式分类

小波分析由于其优越的性能使得其在模式分类得到了广泛应用,在此采取小波分析来进行实验对比分析。考虑到模式识别的时效性要求,对所采集到的振动信号时间序列数据截取其第一秒数据,此时时间序列样本的数据个数为T=44 100。

首先,采用Matlab/Wavread函数进行读取所采集到的振动信号时间序列数据,并采用Daubechies正交小波提取时间序列数据的特征,得到相应的特征向量;然后按照图1的流程,采用分位数特征提取方式进行处理,得到特征矩阵向量;最后采用基于kmeans算法的聚类方法进行无监督分类,计算分类的准确率,如表2~表4所示。

表2 模式分类的实验结果(k=1,T0=44 100)

表3 模式分类的实验结果(k=1,T0=4 410)

表4 模式分类的实验结果(k=10,T0=4 410)

3个表包含了3种情况的实验结果:(1)振动信号时间序列数据长度为4 410时,分段参数k=1,即采用单个模式进行分析,如表2所示;(2)振动信号时间序列数据长度为44 100时,分段参数k=1,即采用单个模式进行分析,如表3所示;(3)振动信号时间序列数据长度为44 100时,分段参数k=10,即采用多个模式进行组合分析,如表4所示。实验结

果都表明:(1)3种实验结果都表明,基于分位数特征提取的模式分类技术的准确率都明显高于小波分析;(2)当调频调速器取值为1.73 Hz时,基于分位数特征提取的模式分类技术的准确率偏低,但其他6种情形下的分类准确率都超过90%,部分转速时分类准确率达到100%。这表明基于时间序列分位数特征提取的模式分类方法能对沉降式离心机故障模式进行较好地分类。

4 结束语

本文提出一种基于分位数特征提取的时间序列模式分类方法。针对高速运行离心机设备的状态监测进行研究,采用分位数特征提取方法建立时间序列的模式特征矩阵,借助k-means算法实现模式的自动分类。仿真结果表明,该方法能有效区分设备运行状态模式。今后将继续采集不同负载情况下(负载重量不同)的振动数据,对本文的模式分类技术做进一步分析。同时,在此基础上建立设备运行状态的故障诊断技术,形成一套完备的设备运行状态监控方法。

致谢:感谢南华大学核设施退役与处置研究所为本文研究提供了离心机设备运行状态的模拟实验环境。

[1]李正欣,张凤鸣,李克武.基于DTW的多元时间序列模式匹配方法[J].模式识别与人工智能,2011,24(3): 425-430.

[2]张 勇.时间序列模式匹配技术研究[D].武汉:华中科技大学,2012.

[3]韩秋实,许宝杰,王红军,等.旋转机械故障诊断监测专家系统中的时间序列模式识别技术研究[J].机械工程学报,2002,38(3):104-107.

[4]闫 伟,张 浩,陆剑峰.基于设备故障监控的时间序列模式研究应用[J].计算机应用,2005,25(7): 1587-1590.

[5]亢子云.一种基于时间序列的故障诊断算法[J].数字技术与应用,2011,(2):89-90.

[6]陈 伟,李 旭,张为公.基于时间序列分析的车载MEMS陀螺仪异常测量数据的辨识与修正[J].东南大学学报,2013,29(2):170-174.

[7]吴文兵,黄宜坚,陈文芗.复双谱耦合性质在故障诊断中的应用[J].北京工业大学学报,2012,38(9): 1287-1292.

[8]胥永刚,孟志鹏,赵国亮.基于双树复小波包变换能量泄漏特性分析的齿轮故障诊断[J].农业工程学报, 2014,30(2):72-77.

[9]傅勤毅,熊施园.基于小波分析的齿轮箱故障诊断[J].铁道科学与工程学报,2013,10(1):112-116.

[10]管河山,姜青山.基于点分布特征的多元时间序列模式匹配方法[J].软件学报,2009,20(1):67-79.

[11]Gavrilov M,Anguelov D,Indyk P,et al.Mining the Stock Market:Which Measure is Best[C]//Proceedings of KDD’00.Boston,USA:[s.n.],2000:487-496.

[12]Keogh E,Kasetty S.On the Need for Time Series Data MiningBenchmarks:ASurveyandEmpirical Demonstration[J].DataMiningandKnowledge Discovery,2002,7(4):349-371.

编辑 刘 冰

Time Sequence Pattern Classification Based on Quantile Feature Extraction

GUAN Heshana,WANG Qiana,TANG Dewenb
(a.School of Economics Management;b.School of Mechanical Engineering, University of South China,Hengyang 421001,China)

The vibration state detection data from the centrifuge equipment in high-speed operation usually presents obvious nonlinearity,normal distribution and the characteristics of large sample,and random fluctuations in the data make it difficult to capture the trend characteristics.In this paper,time sequence theory is used to analyze the vibration signal data gathered from the running centrifuge equipment.It uses the quantile of the sequence data to build the feature vector according to the symmetrical principle,and introduces the Euclidean distance function to construct similarity measure,and then sets up the decision basis for pattern classification,realizes the pattern classification employing the k-means classification algorithm.Simulation results show that this method can effectively distinguish the partial load state and noload state of the centrifuge equipment,which is more accurate than that of wavelet analysis method.

quantile;time sequence;pattern classification;centrifugal machine;vibration signal;wavelet

管河山,王 谦,唐德文.基于分位数特征提取的时间序列模式分类[J].计算机工程,2015,41(3):167-171.

英文引用格式:Guan Heshan,Wang Qian,Tang Dewen.Time Sequence Pattern Classification Based on Quantile Feature Extraction[J].Computer Engineering,2015,41(3):167-171.

1000-3428(2015)03-0167-05

:A

:TP391.4

10.3969/j.issn.1000-3428.2015.03.032

湖南省博士后基金资助项目(2012RS4026);南华大学校博士启动基金资助项目(2009XQD03)。

管河山(1981-),男,副教授、博士,主研方向:数据挖掘,模式识别;王 谦,硕士研究生;唐德文,副教授、博士。

2014-03-26

:2014-05-27E-mail:guanheshan@aliyun.com

猜你喜欢
离心机位数特征提取
五次完全幂的少位数三进制展开
LP60型双级活塞推料离心机的研制与应用
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
离心机转速及相对离心力的正确表示
ZPJ-40型高速转盘离心机减振技术
土工离心机研制概述
基于MED和循环域解调的多故障特征提取
遥感卫星CCD相机量化位数的选择
“判断整数的位数”的算法分析