基于无维修使用期的计算机可靠性分析与评估*

2016-07-12 08:23曹国震
火力与指挥控制 2016年5期

曹国震

(西安航空学院,西安 710077)



基于无维修使用期的计算机可靠性分析与评估*

曹国震

(西安航空学院,西安710077)

摘要:针对当前MTBF在计算机中可靠性设计分析和验证方法的不足,基于无维修使用期这一新型指标,构建了计算机新型可靠性分析和评估方法。首先,基于MFOP提出了高可靠计算机的故障模式影响分析方法,在故障模式影响分析中引入了通用和专用设计两个模块,并对故障率重新定义。其次,针对MFOP指标,提出了基于步降应力加速试验的非参数可靠性评估方法。最后,通过试验仿真对试验评估方法进行了验证,仿真结果表明该试验方法准确高效,能满足可靠性评估的需求。

关键词:无维修使用,故障模式影响分析,步降加速应力寿命试验,可靠性评估

0 引言

随着计算机技术的发展和用户体验要求的提高,可靠性作为计算机通用质量特性的重要方面,越来越受到研制方和客户的重视。可靠性是计算机设计的一个重要范畴,一般认为计算机的可靠性指标用MTBF(平均故障间隔时间)来定义,目前MTBF也是计算机类电子产品可靠性设计和验证的主要指标。但基于MTBF的可靠性理论认为产品存在的主要问题是随机故障,这意味着在设计过程中对故障与产品设计缺陷难以建立强相关关系,也不利于产品设计过程中设计缺陷的有力剔除;在验证过程认为计算机的可靠性服从指数分布,故障的发生具有随机性且不可避免,因此,可能只关注计算机在运行状态下和规定的时间和使用内的故障数,若故障数未超出范围,就判定计算机可靠性达标,这可能导致设计和制造原因引起的故障不会被追溯到根源。显然,在航空航天等需要高可靠计算机的领域,基于MTBF的可靠性设计分析和验证方式并非完善,可靠性指标构建存在进一步拓展的潜力。

针对传统可靠性指标提出的质疑,20世纪末在国际上开始使用无维修使用期(MFOP)取代原先的MTBF作为新型可靠性指标。MFOP是装备能够完成规定任务的使用周期。在该周期内,除少量必要的计划维修,无需任何多余的维修活动,也没有因系统故障或性能降级导致对用户的使用限制,将装备的维修需求保持在最低限度。无维修使用期指标包括两个参数:

①MFOP:表征产品可接受无维修的时间周期;

②无维修使用度:表征该周期内免维修的概率。

即装备在该MFOP这个周期内能够以某一较高的概率免除维修工作,以满足装备在该周期内的使用可用度。若将MFOP指标应用于高可靠计算机,理论上依然能达到提升计算机该周期内使用可用度的目的,但计算机MFOP的设计分析与验证等方法与传统方法有所区别:一方面计算机类电子产品必然要尽可能克服随机故障的发生,并构建故障发生时的使用补救措施;另一方面,在验证工作中,同样面临失效判据和试验方法的优选问题。因此,本文基于高可靠计算机的MFOP展开两方面的研究工作,包括基于MFOP开发的新型FMEA设计分析方法和基于步降应力加速试验的MFOP评估方法两方面,以解决上述两方面的需求。

1 基于MFOP的高可靠计算机FMEA

故障模式影响分析(Failure Mode and Effects Analysis,简记为FMEA),是分析计算机系统中每一部件所有可能产生的故障模式及其对计算机系统造成的可能影响,并按每一个故障模式的严重程度,检测难易程度以及发生频度予以分类的一种归纳分析方法。其目的在于容易、低成本地对产品或过程进行修改,从而减轻事后修改的危机,找到能够避免或减少这些潜在失效发生的措施。现用的FMEA一般包括设计FMEA和制造FMEA。其中设计FMEA又分为功能FMEA、硬件FMEA和软件FMEA等。但这些传统的FMEA方法并非完全适用于高可靠计算机的MFOP设计。传统的FMEA的部件失效率一般定义为常数且是基本失效率,这与MFOP并不一致;另外传统FMEA的失效补偿措施和MFOP的设计思路并不完全相通。鉴于此,针对MFOP设计过程,设计FMEA工作流程如表1所示。

以上表格包括13个步骤,其中

①“分析对象”代表着计算机FMEA的分析对象:一般的分析对象包括主板、内存、电源、计算机整机等;

表1 基于MFOP的FMEA

②“代码”表示了相应分析对象的故障模式的标识,代码应覆盖到分析对象所有的故障模式;

③“部件的功能标识”代表这一部件所实现的某一功能。如硬盘的功能,存储数据和读取数据可以用两个功能标识;

④“功能”代表该功能标识下部件的具体功能说明;

⑤“故障模式”指该故障发生的形式;

⑥“故障率”指该故障发生的概率,值得注意的是该故障率指的是任务故障率而非基本故障率;

⑦“任务阶段工作”指该部件在计算机运行过程的工作阶段。如CPU显然是全程工作;而光驱则只在需要读取光盘时工作;

⑧“故障影响”表征的是该故障对分析对象和上次的影响形式。例如,USB接口故障导致功能降级,而CPU损毁则会导致计算机完全无法使用;

⑨“故障检测方式”指该故障发生后,使用什么方式进行检测;

⑩“通用设计改进措施”指为提升可靠性采取的通用设计措施,例如来料的选控、降额使用、PCB的布局设计、散热设计、耐环境设计、参数容差等;

⑪“专用设计改进措施”指为提升MFOP采取的专用设计措施,例如采用状态监控,故障诊断和故障预测设计、引入余度和容错设计、可重构性设计、故障软化设计、可接受的任务降级设计。这些都是计算机出现故障后,避免维修或降低维修要求的专用设计措施。

⑫“故障率”指在使用通用和专用设计措施后该故障模式的MFOP周期任务故障率。

⑬“严酷度等级”指故障模式的影响程度,对严酷度等级高的,若故障率没达到相应要求,则在“备注”中应明确进一步的设计更改措施或要求。

上述13个步骤就是基于MFOP的FMEA的一般设计分析流程。相比于传统的FMEA,该方法引入了基于MFOP的专用设计更改方式和任务故障率,能够对产品的MFOP进行专项分析和设计更改,具有较强的针对性。

进一步通过可靠性模型以及模型中每个模块的MFOP周期任务故障率,通过可靠性模型计算就得到该计算机的无维修使用度,即完成了MFOP的定量预计工作。

2 高可靠计算机MFOP的加速评估方法

与传统的故障判别准则不同,在MFOP可靠性验证试验中,计算机故障只要不影响功能和性能,或者功能和性能只是导致了试验前约定的可允许的功能或性能降级,没达到必须采用维修措施的地步,则不记为失效且不进行维修,如计算机的电源故障,如果有备份电源可使用则不进行维修,且认为尚未达到MFOP。

在进行计算机可靠性验证时,传统方法是采用试验室模拟使用环境下的周期性观测,通过GJB899A等标准拟定的试验方案判定计算机的MTBF是否达到了设计要求。既然MTBF的验证试验默认了计算机的故障发生的随机性和平稳性,这种试验方案多采用多台计算机的累计运行时间代替一台计算机的运行时间以节省试验时间。而MFOP指标不认可计算机故障发生的随机性,则计算机的试验时间显然不能用多台计算机累计代替单台计算机的运行时间,这样高可靠计算机用模拟使用环境试验必然会产生漫长的试验周期和昂贵的试验费用。因此,利用加速试验代替模拟使用环境试验是必然的选择。而常用的加速试验分为恒定应力加速试验、步变应力加速试验。从充分利用试验设备和节省试验成本角度考虑,步变应力试验是优选。而根据文献[1-2],步降应力试验的试验效率要高于步进应力试验,因此,本文采用步降试验方案。

对各型计算机来说,MFOP既不认可故障发生的随机性,内部每个失效原因并不完全一致,则无法找出通用的失效统计规律,即无法对所有计算机找到一个完全准确的寿命分布类,因此,对试验方案的统计评估只能采取非参数统计方法。

在进行试验前加速系数往往是不明确的,通过多加速步降应力条件下样机的失效数据的非参数统计,对样机的MFOP进行保守估计,具体方法如下。

预设加速应力为S1,S2,…,Sk,而使用环境应力为S0,其中,S1>S2>…>Sk>S0,在加速应力s1下投入n台样机进行可靠性测试,当有r1台样机达到无维修使用期时,将应力水平降低至s2进行可靠性测试,当有r2台样机达到无维修使用期时,将加速应力水平降至s3,依次进行,直到应力Sk时,所有样机达到无维修使用期。依此试验方案,得到每个应力下的失效数r1,r2,…,rk,其中,每个应力结束后的失效总和为ni,每台样机的失效时间ti,1,,ti,2,…,ti,ri,i=1,2,…,k。试验过程如图1所示。

图1 步降应力试验

下面通过非参数统计方法进行可靠性预测。

直接选择MFOP的算术平均值MFOP为计算机的寿命因子,寿命因子与试验应力的关系通常采用以下模型:

其中a和b是待估参数,根据加速模型,加速因子

而计算机样机在应力Si下达到MFOP的数量为ni,根据经验分布的定义,可以有以下的近似估计方程:

以上非线性方程可由数值计算方法进行求解。

之所以要对参数b进行多次求解,是为了规避由于分布类不同造成的风险,进而用多个解的算术平均值作为最终估计值,即

根据式(1),每个加速应力下MFOP达到时间在常应力S0下的MFOP,即:

因此,MFOP在常应力S0下的最终估计值为

而无维修使用度即为折算为常应力下失效时间小于规定MFOP的样品量与参试样品总量之比。

3 试验仿真及分析

某型车载计算机在定型阶段要开展MFOP的验证试验。根据设计指标要求,要求MFOP≥40 000 h,无维修使用度为95%。现对该车载计算机进行验证试验仿真与分析。由于对样机的加速系数并不了解,但已知该计算机在工作环境(温控室)的工作环境温度为298 K(25℃)。根据计算机类产品的失效与工作环境温度的关系可得加速模型为阿仑尼斯模型:

lnMFOPs=a+b/(K0S)

其中K0=0.861 3×10-4ev/℃为波尔兹曼常数。因此,预设加速应力条件为温度,6个温度加速应力条件343 K,338 K、333 K、328 K,323 K、318 K。在343 K下放置15台样机进行步降应力加速试验,每5台样机达到MFOP,则P降低一级应力,直至318 K时所有样机进入MFOP时结束试验。试验过程中按第2节的方法进行试验数据采集。预设产品的加速模型参数

a=-17,b=0.72

而每台样机的MFOP的变化范围为每个应力水平下的算数平均值的均匀分布(对于样机MFOP的其余情况的,可按相应分布进行仿真处理,此处只为仿真过程方便将MFOP数据简化为均匀分布)。在以上情形下,用蒙特卡罗模拟方法进行500次步降应力加速仿真试验。根据仿真试验失效数据按第1节的算法计算a和b的算术平均值及偏差。仿真试验结果表1所示。

表1 a、b和MFOP的估计(15台样机)

由仿真结果可见该计算机MFOP的统计值在55 815±10 031,能满足MFOP不低于40 000的指标要求,但同时看15台样机的MFOP验证试验风险过高,统计精度仅仅20%左右。因此,再应用30台(60台)样机进行逢5台(10台)达MFOP步降一级应力的试验仿真,同样按照上述仿真方法进行500次蒙特卡罗仿真试验并进行数据的统计分析。计算结果如表2和表3所示。

表2 a、b和MFOP的估计(30台样机)

表3 a、b和MFOP的估计(60台样机)

由上述表格可见随着参试样机的增多,试验统计越来越精确,当样机量达到60台时,该试验的统计偏差不高于10%的范围,已经具备一定的统计有效性。在进行具体的工程验证试验时,可参照本仿真方法,在试验前根据加速模型、试验应力环境等因素进行预仿真,以确定最佳的试验应力和试验样机量,以满足试验数据的统计精度为前提设计步降应力验证试验方案。另一方面,3种试验方案下无维修使用度差异不大,也进一步验证了本评估方法的有效性。

同时,计算以上1 500次步降应力加速仿真试验的试验结束时间的均值为t¯1,r1=8 143.2 h。进一步在常应力298 K下,对15台、30台、60台MFOP= 63 026的计算机样机分别进行500次全数失效仿真试验。统计得试验结束时间平均值为78 635 h。可见加速仿真试验时间约为常应力全数仿真试验时间的1/10。这说明步降应力加速试验方案不但能预测出样机的MFOP,且高效经济,适合技术和市场更新迅速的计算机行业的可靠性验证。

4 结论

在对计算机可靠性设计分析及验证现状综合分析的基础上,针对传统的基于MTBF的高可靠计算机设计和验证方法的缺陷,本文提出了基于MFOP的高可靠计算机设计分析及评估的理念。进而研究了MFOP在高可靠计算机研制过程中的故障模式影响分析(FMEA)和指标验证方法。基于MFOP的FMEA方法在传统的FMEA基础上,引入了为提升MFOP的设计改进相关专用方法。而在评估方法上,提出了基于步降应力加速试验的非参数统计方法,并以蒙特卡罗仿真试验说明了该试验和评估方法的有效性和先进性。

参考文献:

[1]张春华,陈循,温熙林.步降应力加速寿命试验(上篇)——方法篇[J].兵工学报,2005,26(5):661-665.

[2]张春华,陈循,温熙林.步降应力加速寿命试验(下篇——统计分析篇[J].兵工学报,2005,26(5):666-669.

[3]谭伟,师义民,孙玉东.步降应力加速寿命试验的可靠性仿真[J].计算机仿真,2011,28(12):80-83.

[4]姜同敏.可靠性与寿命试验[M].北京:国防工业出版社,2012.

[5]高宪军,李德鑫.基于MFOP的军机维护方案研究[J].航空计算技术,2008,38(4),29-31.

[6]吴海桥,刘毅等.航空维修的新概念:无维修使用期[J].航空维修,2004,49(1):19-20.

[7]茆诗松,王玲玲.加速寿命试验[M].北京:科学出版社,1997.

[8]曹晋华,程侃.可靠性数学引论[M].北京:高等教育出版社,2006.

Reliability Analysis and Assessment of Computer Based on MFOP

CAO Guo-zhen (Xi’an Aviation Academy,Xi'an 710077,China)

Abstract:For the deficiencies of MTBF in high reliability computer design analysis and verification process,the paper put forward the idea of high reliability computer analysis and assessment methods based on MFOP.Firstly,a new FMEA method based on MFOP of high reliability computer is proposed,the general and special design modules are used in this FMEA,and the failure rate is redefined. secondly,a non -parametric statistical validation method for high reliability computer is proposed based on step -down stress accelerate test. Finally,the method is validated through test simulation,the simulation result shows that the test method is accurate and efficient,able to meet the demand of the reliability assessment.

Key words:MFOP,FMEA,step-down accelerate test,reliability assessment

中图分类号:TP302.1;TB114.3

文献标识码:A

文章编号:1002-0640(2016)05-0112-04

收稿日期:2015-04-28修回日期:2015-05-28

*基金项目:国家青年科学基金资助项目(61201321)

作者简介:曹国震(1980-),男,陕西榆林人,硕士,讲师。研究方向:计算机应用技术、信息安全。