基于RTC方法的EWMA控制图研究

2014-07-18 11:59周彩云何曙光
组合机床与自动化加工技术 2014年1期
关键词:链长正态分布失控

周彩云,何曙光

(天津大学 管理与经济学部,天津 300072)



基于RTC方法的EWMA控制图研究

周彩云,何曙光

(天津大学 管理与经济学部,天津 300072)

在现代生产制造系统中,快速检测制造过程产品质量特性的偏移,对于确保过程稳定运行具有重要作用。基于实时对比(Real Time Contrasts, RTC)方法,以随机森林作为分类器,分别构造了多元过程监控的休哈特(Shewhart)类控制图和指数加权移动平均(Exponentially Weighted Moving Average, EWMA)控制图。最后通过仿真实验,对10维和100维多元正态分布过程和2维的非正态过程监控的平均运行链长(Average Run Length, ARL)进行了比较分析,结果表明,基于RTC方法的EWMA控制图在监控高维复杂数据偏移上具有一定的优势。

多元过程控制;实时对比;随机森林;平均运行链长;EWMA控制图

0 引言

统计过程控制是用来检测正常生产过程中产品质量特性的异常波动,从而对生产过程的异常趋势进行预警。随着现代制造系统的不断发展特别是自动化传感设备在制造过程中的广泛使用,研究人员在制造过程中可以实时采集到大量质量数据。此外,数据的维度随着制造系统复杂度的增加而不断增加,数据往往不再服从简单分布并且具有分类型数据和数值型数据混合等特征,从而对传统的多元统计过程控制技术提出了新的要求[8]。

在多元控制领域,Hotelling[1]的T2控制图,Lowry等[2]的MEWMA控制图,Crosier[3]的MCUSUM控制图等传统的多元控制方法均已被用来检测多元过程变化。作为休哈特类型的控制图,T2控制图仅使用当前样本的信息对过程进行监控,因而对中小偏移的检测并不敏感。针对这一问题,Crosier[3]提出了多元累积和控制图(MCUSUM),Lowery等[2]提出了多元指数加权移动平均控制图(MEWMA)。此外,T2控制图假设变量服从多元正态分布,然而在复杂制造过程中,质量数据往往并不服从正态分布,甚至分布很难验证。为解决这一问题,Hwang等[4]提出了人工对比方法,将监控问题转换成有监督的学习问题。在人工对比方法的基础上,Hu和Runger等[6]用时间加权信息来控制人工对比方法产生的监控统计量,提高了人工对比方法的性能;Li等[7]用人工对比方法考虑了变点问题。

随着数据维度的增加,比如过程维度p高达100时,T2统计量的监控效率会大大降低。Deng等[8]提出了实时对比(RTC)方法,它不仅可以检测高维度复杂数据的偏移,同时对多元正态分布和非正态分布数据的偏移都适用。在Deng的文章中,Deng等[8]采用的休哈特(Shewhart)控制图存在对小变异不敏感的情况。基于此,本文采用RTC方法,并运用EWMA控制图对RTC统计量进行监控, 将RTC方法和EWMA控制图的优势结合起来,以提高过程监控的效果。

仿真实验在matlab2010环境下进行,研究了对10维和100维的多元正态分布数据以及2维的非正态数据的平均运行链长(Average Run Length, ARL),并对EWMA控制图和Shewhart控制图监控RTC统计量的仿真结果进行了比较。

1 基于RTC方法的监控模型

假设有一个受控参考数据集S0=R1,R2,...,RN1(参考数据通常在正常生产条件下搜集得到),样本个数为N1,参考数据集的分布f0(R)未知。生产过程中单个观测值可以不断地被获取,在每一时刻t,从系统获得一个p维的观测结果值。这些实时获取的数据流被定义为S1=Xi|i=1,2,...,t,其中t代表当前时间点,Xi代表当前的观测值。

将参考数据集S0和滑窗中的实时数据集XW(t)标记上不同的类标签。S0的类别标记为1,XW(t)的类别标记为0。定义一个变量y来表示数据集的类别标签,记

此时,问题被转化成有监督的学习问题。

选取一个合适的监督学习工具对两类数据集进行训练,根据监督工具输出的结果得到参考数据集和实时数据流的类别概率估计值。

本文定义以下步骤来利用RTC方法得到监控模型的监控统计量,即类别概率估计值:

1)将收集到的正常状态下的参考数据集S0与滑窗中的实时观测数据流XW(t)结合在一起,得到矩阵X={R1,R2,...,RN1,Xi,Xi+1,...,Xw+i-1},其中i=1,2,...,n-w+1;

2)将参考数据集S0类别标记为0,滑窗中的实时数据流XW(t)的每个观测值类别均标记为1;

3)用监督学习工具对数据样本进行训练,此处选用随机森林(randomforest)作为监督学习工具;

4)将滑窗中的数据集输入训练过的决策树(DecisionTree,DT)模型中

5)获取滑窗中实时数据流XW(t)的每个观测值被归为类别1的概率,这个概率值被定义为p(Xk|t),其中k=i,i+1,...,i+w-1;

RTC方法获取监控统计量的流程图如图1所示。

图1 RTC方法获取监控统计量

此处分类工具选取的是随机森林(randomforest),randomforest利用Breiman的随机森林算法(基于Breiman和Cutler的初始Fortran代码)来进行分类和回归[9]。随机森林是由多个决策树构成的集成分类器,以此来提高单个决策树的分类性能。它通过对大量的分类树的计算得到分类结果。在输入向量中对一个新对象分类,将输入向量放到每个树下。每棵树将给出其分类信息,所有的树对其分类信息进行打分。随机森林将在所有树中搜寻得分最高的打分结果。相对于人工神经网络(ANN)和支持向量机(SVMs)来说,随机森林自身具有以下优点:

1)可以有效的处理大量数据;

2)在不去除变量的情况下,处理数以千计的输入变量;

3)给出变量在分类中的重要值估计;

4)在森林建立过程中生成一个内部无偏的总体误差估计;

5)对于样本量不等的数据集,可以平衡误差[10]。

此外,它拥有的特征选择算法不仅可以降低模型复杂度,还可以提高模型的解释能力。

2 仿真实验

ARL0代表过程受控时的平均运行链长,即当过程受控时,控制图检测到一个失控信号所需要的观测值的平均个数。ARL1代表过程失控时的平均运行链长,即当偏移产生时,控制图检测到一个失控信号所需要的观测值的平均个数。通常情况下,给定过程受控状态的平均运行链长ARL0,调整受控状态下的控制线(controllimit,CL),接着根据受控状态调整得到的控制线模拟失控状态的平均运行链长ARL1;模拟得到的失控平均链长(ARL1)越小,代表控制图的检测效果越好。

使用蒙特卡洛方法模拟10维和100维的受控数据各100个,受控数据服从f0(X)分布,均值向量为零向量,协方差矩阵为单位协方差矩阵,将这些数据集作为各自的参考数据集S0。然后分别模拟10维和100维的受控数据100个,失控数据100个,数据均服从多元正态分布。受控数据均值向量为零向量,失控数据的均值偏移设定为前五个变量均值各偏移1。变量间协方差矩阵均为单位协方差矩阵。

偏移的大小由下面的公式得出:

其中μ1和μ2分别是偏移前后的均值向量,∑是单位协方差矩阵。

利用EWMA控制图监控时,时间加权信息被考虑进来。

Ζi=λpi+(1-λ)Ζi-1

其中Z0=0,λ是平滑系数,pi是t时刻计算得到的RTC统计量:

同理,每当Zi≥CL0时,得到一个运行链长RLk,计算使ARL接近200的控制线CL。

模拟失控数据时,由于滑窗内需要十个数据,而我们每次观测得到的数据是单个观测值,所以t=1时刻,滑窗中前九个数据仍为受控数据。第十个数据开始为失控观测数据,以后每一时刻观测得到的失控数据依次移入滑窗中。根据受控状态下的控制线CL,计算失控状态下平均运行链长。

对于非正态分布数据偏移的监控情况,本文参考Deng和Runger[8]的文章中提到的2维非正态分布关系,即X2=X12+ε,其中X1服从[-2,2]的均匀分布,ε服从标准正态分布。参考数据为100个,偏移设定为从联合分布偏移到多元正态分布。仿真模拟过程与多元正态过程类似,观测数据仍用滑窗处理。受控状态下,ARL0仍设定为200。最后,将基于RTC方法的EWMA控制图模拟的失控平均运行链长ARL1与Shewhart类控制图以及Deng和Runger[8]的文章中运用MEWMA控制图监控的失控平均链长对比。Deng和Runger[8]的文章中提到,MEWMA控制图监控2维非正态分布数据的受控平均链长接近200时,失控平均链长大于200。

表1为基于RTC方法的EWMA控制图和Shewhart控制图监控10维和100维正态分布数据偏移状态下平均运行链长(ARL1)以及传统的多元控制图的监控结果。

表1 10维和100维多元正态分布数据ARL0和ARL1模拟结果

表2为基于RTC方法的EWMA控制图和Shewhart监控2维非正态分布数据偏移状态下平均运行链长结果。

表2 2维非正态分布数据(X2=X12+ε)ARL0和ARL1模拟结果

由表2结果可知,基于RTC方法的EWMA控制图监控效果优于Shewhart类控制图;且EWMA控制图的平滑系数λ=0.7时,2维非正态分布数据失控平均链长最小。这一结果也远小于运用MEWMA控制图监控2维非正态分布数据的失控平均链长。

3 结论

RTC方法是一种有效的监控高维复杂系统的方法;EWMA控制图对制造过程中质量特性小偏移敏感。本文将二者的优势结合起来,基于RTC方法构建EWMA控制图和Shewhart控制图。通过仿真实验,模拟了10维和100维多元正态分布数据和2维非正态分布(X2=X12+ε)数据的偏移情况。仿真实验结果表明,RTC方法结合EWMA控制图在监控高维复杂数据偏移上具有一定优势。

[1]Hotelling,H.Multivariatequalitycontrol-illustratedbytheairtestingofsamplebombsights.InTechniquesofStatisticalAnalysis, 1947:111-184.

[2]Lowry,C,Woodall,W,Champ,C.andRigdon,S.,Amultivariateexponentiallyweightedmovingaveragechart.Technometrics, 1992, 34: 46-53.

[3]Crosier,R.B.Multivariategeneralizationsofcumulativesumqualitycontrolschemes.Technometrics, 1988, 30(3): 291-303.

[4]Hwang,W.,Runger,G.,andTuv,E.Multivariatestatisticalprocesscontrolwithartificialcontrasts.IIETransactions, 2007, 39(6): 659-669.

[5]Hu,J., Runger, G., and Tuv, E. Tuned artificial contrasts to detect signals. International Journal of Production Research, 2007, 45(23): 5527-5534.

[6]Hu, J., Runger, G. Time-based detection of changes to multivariate patterns. Annals of Operations Research, 2010, 174(1): 67-81.

[7]Li, F., Runger, G.C., and Tuv, E. Supervised learning for change-point detection. International Journal of Production Research, 2006, 44(14): 2853-2868.

[8]Deng H., Runger G., and Tuv, E. System monitoring with real-time contrasts. Journal of Quality Technology, 2012, 44(1): 9-27.

[9]Breiman L, Friedman J, Olshen R, Stone C. Classification and Regression Trees.1984.

[10]Breiman L. Random forests, Machine Learning, 2001, 45(1): 5-32.

[11]Breiman L. Bagging Predictors. Machine Learning, 1996, 26(2): 123-140.

[12]张祥敢,刘长安,方文涛.基于改进BP神经网络的控制图模式识别系统[J].组合机床与自动化加工技术,2011(9): 43-46.

[13]郭红旗,王春峰.统计过程控制在制造数据质量中的应用[J].组合机床与自动化加工技术,2007(10): 103-105.

(编辑 李秀敏)

Research on EWMA Control Chart with RTC Method

ZHOU Cai-yun,HE Shu-guang

(School of Management and Economics,Tianjin University,Tianjin 300072,China)

Detection of product quality characteristic changes is significant to ensure the stable operation of multivariate process in modern manufacturing industries. This paper uses RTC method and applies random forest as classifying tool to construct Shewhart-type control chart and EWMA control chart of multivariate process monitoring respectively. Then, numerical examples are used to calculate and analyze ARLs of 10&100 dimensional normal data and 2 dimensional non-normal data. Results show that the method of EWMA control chart combining RTC statistic is effective and better than other methods in monitoring high dimensional complex data.

multivariate statistical process control, real time contrasts, random forest, average run length, EWMA control chart

1001-2265(2014)01-0057-04

10.13462/j.cnki.mmtamt.2014.01.016

收稿日期:2013-05-13;修回日期:2013-06-15

周彩云(1988—),女,湖北襄阳人,天津大学硕士研究生,研究方向为质量管理,(E-mail)zhoucaiyun2007@126.com;通讯作者:何曙光(1975—),男,内蒙古人,天津大学教授,博士,研究方向为质量工程,(E-mail)huguanghe@tju.edu.cn。

TH165;TG65

A

猜你喜欢
链长正态分布失控
以国家需要为己任,改革赋能向强而行
——中核工程创新驱动改革,奋力打造核工程产业链“链长”
一场吵架是如何失控的
关于n维正态分布线性函数服从正态分布的证明*
中泰纺织集团:做最强“链长”,引领新疆纺织迈向新高度
定身法失控
生活常态模式
偏对称正态分布的若干性质
碳链长度及不饱合度对脂肪酸低场核磁弛豫特性的影响
休哈特控制图的改进
正态分布及其应用