基于Z语言和贝叶斯网络的存储系统可靠性评估方法

2022-04-25 11:50王颖颖孙逸帆
计算机测量与控制 2022年4期
关键词:存储系统概率可靠性

王颖颖,庄 毅,孙逸帆

(南京航空航天大学大学 计算机科学与技术学院,南京 211106)

0 引言

存储系统是计算机中外存与CPU进行数据交换过程中的必不可少的部分之一。其主要作用是暂时存放在程序运行过程中由CPU产生的运算数据,以及其他与硬盘等外部存储器交换而产生的数据。由于物理结构原因,存储系统只能将数据保持很短的时间。为了保持数据,存储系统使用电容存储,所以必须隔一段时间刷新一次,如果存储单元没有被刷新,存储的信息就会丢失。关机也会导致丢失数据。

传统的可靠性评估技术主要是可靠性框图、故障树、事件树等。可靠性框图[1]通过使用可用于分析系统故障概率的图形来表示系统及其组件,每个图形根据它们对系统的影响进行链接,从而实现对系统的可靠性分析。故障树分析方法[2-3]是通过描述部件与部件之间、部件与系统之间的逻辑关系来进行可靠性分析的,其逻辑关系主要是通过逻辑门来表达。事件树分析方法[4]是将系统的失效与导致失效发生的各种原因之间的逻辑关系用一种树形图的方式表示,通过对事件树的定性与定量分析,找出事故发生的主要原因。后来,Markov理论[4,6]、GSPN[7-8]等方法被用来研究动态特征。

虽然传统方法已经取得了不少成果,但是随着硬件结构的日益复杂,传统方法也越来越难以描述可靠性的动态特征,也难以反映可靠性与时间的相关性。

本文的主要贡献如下:该方法将存储系统简化为两级,分为功能单元和存储系统整体两部分:1)在针对功能单元进行可靠性评估时,本文建立了一种基于Z语言的可靠性模型。该模型能够很好的描述存储系统功能单元的硬件结构及其组成对功能单元可靠性的影响;2)本文提出了一种基于CTMC的可靠性评估方法对功能单元的可靠性进行评估,该方法充分考虑可靠性与时间的相关性,能够更准确的评估和分析功能单元的可靠性;3)针对存储系统整体的可靠性评估,本文通过建立功能单元失效率与存储系统整体失效率之间的贝叶斯网络,依据CTMC计算得到各功能单元的失效率利用标准贝叶斯推理计算存储系统整体的可靠性;4)通过贝叶斯网络的双向推理特性得到存储系统整体的可靠度,同时识别出薄弱的功能单元,对存储系统的可靠性评估有一定的参考作用。

1 相关工作

可靠性描述的是系统可以持续提供正确服务数据的能力。因此,可靠性一直是存储系统相关研究的重点关注领域之一。对于存储系统的可靠性研究,国内外学者针对不同类型的存储系统的可靠性[9-15]都做出了许多努力。文献[16]在对分布式存储器进行可靠性分析时考虑顺序事件的时间相关性,提出了一种基于多值决策图的方法来定量评估,而且该方法适用于故障、盗窃或损坏的随机时间遵循任意分布的系统;Ma[17]等人为了更好地发掘NANA flash存储系统中块的耐用性提高提出了一种基于过程变化感知的方法Block Hammer,该方法考虑了过程变化和块相似,可以主动预测发生故障的块,大大提升了NANA flash的可靠性;黄敏[18]为解决MLC NAND flash存储系统的错误率高的问题,提出了两种非对称访问的方法;为解决系统使用寿命较低的问题,提出了一种非并行调度策略及混合并行访问策略;Wang[19]等人针对基于分块散布的多副本系统的可靠性提出了一个可靠性的分析模型,通过合并副本的丢失概率来研究其可靠性水平。

此外,也有很多研究工作是通过建模的方式来研究存储系统的可靠性。D.Fitch[20]等人提出了一个使用分层着色Petri网的形式化模型,引入了新的机制来提高系统的可靠性;李静[21]等人基于蒙特卡洛仿真算法对主动容错副本存储系统的可靠性进行了分析,采用韦布分布函数模拟系统中设备故障和故障修复的时间分布,定量评价了各种事件对存储器可靠性的影响。文献[22]将SMART属性值视为时间序列数据,使用隐马尔可夫模型(HMM, hidden Markov model)和隐半马尔可夫模型(HSMM, hidden semi-Markov model)来预测磁盘的故障,结果表明在Hughes数据集上获得了0误报率和52%的准确率;Tan[23]等人则是提出了一种基于树扩张的朴素贝叶斯方法来提高硬盘的故障预测准确率,结果表明当误报率为30%时,其检测率可达到80%,而当误报率为0%时,其检测率只有20%~30%。

近年来,随着机器学习技术的发展,已有不少国内外学者将其引入存储系统可靠性分析中。文献[24]针对存储系统中的扇区错误,通过分类和回归树(CART, regression tree)、随机森林、支持向量机、神经网络和逻辑回归技术进行分析,结果表明随机森林可以准确预测硬盘驱动器中的扇区错误;文献[25]通过使用机器学习技术对分布式存储系统中的磁盘故障进行检测,但该方法的不足之处在于对于不同型号磁盘的故障检测的正确率是不同的;庞帅[26]等人提出了一种联合贝叶斯网络模型来预测其剩余寿命,该模型结合了人工神经网络、进化神经网络、支持向量机和决策树4个分类器的预测结果来共同完成;Xu[27]等人基于硬盘SMART属性的时序性特征通过采用递归神经网络(RNN, recurrent neural network)来建立硬盘的故障预测模型,使得故障预测的准确率有了很大的提高。

综上所述:对可靠性的研究一直是国内外研究者的热点问题,无论是基于模型的方法还是基于机器学习技术的方法都在可靠性的研究领域取得了不少研究成果。但目前的研究中仍然存在难以动态地描述系统的可靠性特征,也难以反映其可靠性与时间的关系等问题,针对此问题,本文提出了一个基于Z语言和贝叶斯网络的可靠性模型,其中Z语言可以对存储系统中的可靠性属性进行建模,并具有强大的数据约束能力和可扩展能力;贝叶斯网络可以清晰地描述系统的多状态关系,使系统可靠性的评估计算更加简单。

2 存储系统结构分析

为了准确地对存储系统(MS, memory system)的可靠性进行建模,本文将MS划分为不同的功能单元(MFU, functional unit of memory),包括存储模块、数据寄存器、地址寄存器和内存控制器共4个功能单元。其中,存储模块(SM, storage module)是内存中负责存储数据的模块,当存储模块发生翻转导致软错误的时候,数据发生变化,引发内存故障;数据寄存器(MER, memory data register)是计算机控制单元中的寄存器,寄存了将要写入到计算机主存储器的数据,或由计算机主存储器读取后的数据。当数据寄存器发生翻转导致软错误时,其中所转存的数据改变,造成存储系统故障;地址寄存器(MAR, memory address register)是用来保存当前CPU所访问的内存单元的地址。因此,如果地址寄存器发生单位翻转时,会使访问的内存地址发生改变,引发数据错读,造成存储系统故障;内存控制器 (MC, memory controller)主要是用来控制内存工作,并控制内存与CPU之间进行数据交换。当内存控制器发生软错误时,也会引发存储系统故障。

其次,不同的功能单元也是由不同的组件构成,以存储模块为例,存储模块又可以分为存储体(BA, bank)、地址译码器(AD, address decoder)、行缓冲区(RB, row buffer)三个组件。存储体是由若干个存储单元组成,当存储数据库中的存储单元发生翻转时,所存数据发生改变,造成存储模块故障。地址译码器又分为行译码器和列译码器,行译码器负责输出行地址选择信号,列译码器负责输出列地址选择信号;当地址译码器输出信号错误时,将访问错误的内存地址。行缓冲区主要负责将读出的行内容暂存,等待列位址送到后输出正确的位元,以及判断存储的内容是0还是1。当行缓冲区里的存储单元发生翻转时,也将造成存储模块故障。

因此,从底层硬件和MFU出发对存储系统进行可靠性评估,能够从本质上对存储系统进行可靠性建模与分析。

根据对MS体系结构的分析和抽象,本文可以得到一个简单的MS抽象模型,如图1所示。

图1 存储系统抽象结构图

针对该抽象结构,本文给出了MFU以及MS的形式化定义如定义1和定义2所示。

定义1:以MS的存储单元SU为例,其形式化定义可以用式(1)所示的一个三元组表示,其中每个元素表示组成该MFU的一个组件。

SU={BA,AD,RB}

(1)

其中:BA表示组成SU的存储体,AD表示组成SU中的地址译码器,RB表示组成SU的行缓冲器。

定义2:MS可用如式(2)所示的三元组表示。其中,MFUs表示构成MS的功能单元的集合,BUS表示各个功能单元的连接总线。

MS={MFUs,BUS}

(2)

从式(2)可以得到,存储系统主要是由不同的功能单元MFU共同构成的,而且也可以把总线看成是一个特殊的功能单元。所以,针对存储系统可靠性的研究就可以从包含的功能单元出发,而且研究其功能单元的可靠性能够从本质上对存储系统进行可靠性分析。

3 存储系统可靠性分析方法

3.1 存储系统可靠性建模与评估框架

本文设计的存储系统可靠性建模与评估框架设计所如图2示。该框架主要分为3个阶段:初始化阶段、MFU可靠性评估阶段以及整体可靠性评估阶段。

图2 存储系统可靠性建模与评估框架

初始化阶段:初始化阶段主要是在进行可靠性分析之前对存储系统的硬件组成进行分析,并根据不同的功能把存储系统划分为不同的功能单元。

MFU可靠性评估阶段:该阶段是在划分的功能单元的基础上,分别对划分的每个功能单元进行可靠性评估。提取不同功能单元中与可靠性相关的约束,基于Z语言建立功能单元的可靠性模型。在可靠性模型的基础上,基于相应的转换规则确定评估模型中的状态空间、转移概率等相关参数,通过计算得到各功能单元的可靠度。

整体可靠性评估阶段:该阶段是在得到各个功能单元的可靠度的基础上,对存储系统整体进行可靠性评估。基于贝叶斯网络建立描述功能单元与系统整体失效率之间的可靠性模型。基于贝叶斯网络对系统进行可靠性计算,并推理出系统的可靠性关键模块。

3.2 功能单元的可靠性评估

功能单元的可靠性评估过程主要分两步,首先需要建立功能单元的可靠性模型,其次根据相应的转换规则将建立的可靠性模型转换成相应的评估模型,最后基于建立的评估模对功能单元的可靠性进行可靠性评估。

3.2.1 功能单元可靠性模型Z-FURM

Z语言是一种形式规格说明语言,在精确描述系统状态与操作方面具有很大的优势[26]。此外,Z语言还具有支持可扩展、建模形式呈现模块化等优点。并且,随着Z语言的日益被重视,使得Z语言将拥有更加广泛的适用范围和更强、更规范的描述能力。因此,这也是本文采用该语言作为建模语言的原因。

功能单元可靠性模型(Z-FURM, functional unit reliability model based on Z language)是通过使用Z语言将构成功能单元的元器件的可靠性元素与功能单元的可靠性相关联,将这两个层级融合到一起,使得功能单元的可靠性模型更清晰和简洁,能够更准确对可靠性进行描述。其中,单个功能单元的可靠性模型Z-FURM的定义如定义3所示。定义3详细描述了构成功能单可靠性模型的要素。具体定义如下:

定义3:Z-FURM模型可以表示为一个如式(3)所示的三元组:

Z-FURM=(FRate,States,STR)

(3)

式(3)中,FRate(failure rate)表示MFU的失效率,States表示MFU的状态空间,包含系统中功能单元的所有可能状态;STR(state transfer relationship)表示功能单元的所有状态之间存在的所有状态转移关系。本文将无法使用软件方法恢复的状态称之为失效状态Failure State。失效状态可以通过系统重启等方式恢复。

1)失效率(FRate):

一个MFU通常也是由不同的模块构成,以存储单元MEM为例。根据定义3可知,SU是由存储体BA、地址译码器AD和行缓冲器RB组成。假设组成SU中的任意一个组件发生故障都会引起SU功能的失效,这些组件的失效率分别为λΒΑ、λAD、λRB,则该功能单元的失效率λSU可表示为式(4):

λSU=1-(1-λBA)*(1-λAD)*(1-λRB)

(4)

Z语言描述存储单元MEM的失效率如下:

FRate

SU_FRate=1-(1-BA_FRate)*(1-AD_FRate)*(1-RB_FRate)

其中:BA_FRate、AD_FRate、RB_FRate分别表示λΒΑ、λAD、λRB,SU_FRate则表示功能单元SU的失效率,且MS中存在多个MFU,所以可以通过在名称中加入用以区别。

3)状态空间States:

在系统运行过程中,功能单元可能包含的状态有正常状态(NS, normal state),故障状态(ES, error state),失效状态(FS, failure state),故障检测状态(DS, detected state)和恢复状态(RS, recovery state)等等。正常状态是指功能单元正常运行,通常被定义为开始时的状态。故障状态表示功能单元在某一时刻发生故障时所处的状态,是一种瞬间状态;故障检测状态是在故障发生后由系统自主发起的一种对故障进行检测的状态,通常也是一种瞬间状态。由以上所提及的功能单元的状态可得功能单元的一种状态转移关系如图3(a)所示。由于瞬间状态是一种转瞬即逝的短暂状态,因此在对可靠性进行分析和评估时,通常不把这些瞬间状态考虑在内,因此将瞬间状态剔除后可得图3(b)所示的关系图。在图中,圆圈即表示功能单元当前所处的状态,连接圆圈的弧线即表示两个状态之间的转移关系,发出箭头的圆圈表示转移关系中的源状态,箭头指向的一方表示转移关系中的目标状态;连接线上的参数表示状态转移概率,其图中各参数代表的含义如表1所示。

图3 MFU状态转移图

表1 MFU状态转移参数及其含义

通过上述的状态转移关系图即可得到每个功能单元的状态空间,因此可以采用以下方式对功能单元的状态空间进行定义:

State

isInitial∈{0,1}

isArrive∈{0,1}

其中:isInitial和isArrive分别表示是否是初始状态和是否是当前状态。

4)状态转移关系STR:

同样,通过图 3构成的状态转移关系图也可以得到状态空间内所有状态彼此之间的转移关系。每一段状态转移关系中都需要包含3个要素,分别是源状态(SS, source state)、目标状态(TS, target state)以及转移概率参数(TR, transfer rates)。其中,SS和TS必须是每个MFU状态空间中具有的,TR则是对应于每个转移关系中存在的转移参数。具体Z语言模式定义如下:

STR

SS:State

TS:State

Conditions:seq Predicate

3.2.2 功能单元可靠性评估模型FU-REM

在功能单元的可靠性模型Z-FURM中,根据其描述可知每个功能单元的可靠性都与时间相关联,而且功能单元在不同时刻时所处的状态也都只与该时刻的前一时刻功能单元所处的状态相关,与其它时刻的状态无关,因此本文采用基于CTMC的方法建立功能单元的可靠性评估模型(FU-REM, function unit reliability evaluate model based on CTMC)。本文建立的FU-REM可靠性评估模型定义如式(6)所示:

FU-REM=(S,Sin,T,t)

(6)

其中:S表示评估模型的状态空间,包含每个功能单元MFU中所有可能状态的集合;Sin∈S表示在进行可靠性评估时功能单元所处的初始状态;T=[aij]是状态转移概率矩阵,aij表示一个功能单元MFU从状态si∈T转移到状态sj∈T的概率;t表示评估可靠性时的某一时刻。

当使用可靠性评估模型FU-REM对功能模块进行评估之前,需要先把Z-FURM模型中的建模元素转换成FU-REM模型中的元素,然后再进行相应的可靠性评估。在进行模型转换过程中,因为需要将两个模型中的元素进行等价转换,因此需要构建相应的映射规则。本文定义的两种模型间的映射转换规则如表2所示。

表2 Z-FURM与FU-REM之间的元素映射规则

由于指数模型对功能单元失效率的真实曲线的拟合程度相较于其它模型更好,因此本文采用指数模型描述功能单元失效率与时间之间的关系。其表达式如式(7)所示:

λMFU(t)=exp(λMFU*t)

(7)

在式(7)中,λMFU(t)表示在t时刻功能单元的失效率,λMFU表示当t=0时MFU的失效率。

根据FU-REM模型中的状态转移方程可得到如式(8)所示的关于MFU的状态概率方程:

P(t′)=P(t)*T

(8)

式(8)中,P(t)=(PN(t),PR(t),PF(t))表示t时刻时MFU的状态概率向量,PN(t)表示t时刻时MFU的状态为正常时的概率,PR(t)表示t时刻时MFU的状态为恢复时的概率,PF(t)表示t时刻时MFU的状态为失效时的概率。同理,P(t′)=(PN(t′),PR(t′),PF(t′))表示t′时刻MFU的状态概率向量,t′为t的下一时刻,T表示状态转移概率矩阵,是由图2(b)得到的一个3×3的矩阵,其具体表示形式如式(9)所示。其中,行表示的是状态转移关系中的源状态,列表示状态转移关系中的目标状态,矩阵中的参数代表的是由源状态向目标状态转移的概率参数,其含义如式(9)所示:

(9)

所以,联立式(7)~(9)可得MFU的状态概率方程,如式(10)所示:

(10)

通过对式(10)中方程的求解,即可得到功能模块在t时刻时所处状态的概率分布。因此,功能模块在t时刻时可靠度的计算方式如式(11)所示:

RMFU(t)=1-PF(t)

(11)

3.3 整体可靠性分析与评估模型

基于上述方法可以得到存储系统中每个功能单元的失效率以及可靠度,但由于存储系统中功能单元较多,其状态转移关系更加复杂,在使用CTMC对其进行可靠性评估时计算量较大,所以在对存储系统整体进行可靠性评估时,本文建立从功能单元到存储系统整体的两层贝叶斯网络为系统整体的可靠性模型(MSR-BN, memory system reliability model on Bayesian network),以贝叶斯推理方式对存储系统的可靠性进行评估。

本节以两状态节点描述存储系统和功能单元的不同状态,其两个状态分别为故障状态和正常状态,用1和0表示,且存储系统中各个功能单元之间相互独立。

3.3.1 MSR-BN模型的构建

存储系统可靠性模型如式(12)所示:

MSR-BN=(G,P)

(12)

其中:G=(I,E),I表示构成MSR-BN模型中的节点,即各功能模块的失效变量;E表示有向边的集合;P表示非根节点的条件概率表,表示节点间的关联强度。所以,构建MSR-BN的具体步骤如下:

1)确定模型中的节点;要构建MSR-BN模型首先应确定整个系统中可以设立的变量个数,在上节中MFU的失效率与其组件之间的关系已经根据FU-REM模型进行评估,所以这里只考虑MS与MFU之间的可靠性关系,不考虑MS与MFU组件状态的关系。因此,MSR-BN中的节点即为存储系统整体MS和存储系统的4个功能单元,存储单元SU、数据寄存器MER、地址寄存器MAR和内存控制器MC。此外,由第3节可知,每个功能单元的失效率都可由FU-REM模型计算得到。

2)确定模型中各节点的连接关系;在确定完变量后,需要分析变量之间的相互关系。本文假定一个功能单元失效就会引起存储系统整体发生失效。所以其MSR-BN中的叶子节点为存储系统失效,MSR-BN中的根节点为4个功能单元失效,然后根据各节点的依赖关系将各个节点用有向边进行连接,从而就可以得到存储系统的MSR-BN模型。

3)确定模型中节点的条件概率表;在建立的MSR-BN模型中,本文通过条件概率来描述变量之间的相互关系。通过分析模型中各个节点之间相互的逻辑关系,为每个节点编写各自的条件概率表,然后基于条件概率表来计算节点的条件概率。

由于各功能单元与存储系统为串联,所以当功能单元中的任意一个发生失效时,系统整体也会发生失效。因此,可根据经验得到系统的条件概率表。

3.3.2 系统整体可靠性评估

系统整体可靠度是指系统处于正常运行状态的可能性大小,是一个在0和1之间的概率值。当可靠度为1时,说明系统处于完全失效状态;当可靠度值为0时,说明系统处于可靠状态或是正常状态。

基于贝叶斯网络的可靠性计算应首先要生成各节点的先验概率和条件概率,其步骤如下:

1)根据MSR-BN中的节点所对应的功能单元的失效概率,可以直接得到各根节点(xi)的先验概率,即各功能模块的失效率。计算公式如式(13)所示:

P(xi=1)=λi,i∈{SU,MER,MAR,MC}

(13)

其中:λi即为第3节通过FU-REM模型计算得到的各功能单元的失效率;

2)确定非根节点的条件概率。该模型只有两层,所以非根节点即为叶子节点。因此,非根节点的条件概率即存储系统的失效概率。根据联合概率公式,基于条件独立性原则,存储系统的失效概率的计算公式如式(14)所示:

P(MS=1)=P(MS=1|xSU,xMER,xMAR,xMC)=

(14)

在式(14)中,P(MS=1)即为存储系统失效概率;λi表示各功能单元的失效率,即第3节求得的PF(t)。

3)计算存储系统可靠度。针对MSR-BN模型,可靠度的计算公式如式(15)所示:

RMS=1-P(MS=1)

(15)

由于各个MFU的失效率是依据FU-REM模型得到的,因此MS的可靠度是一个随时间不停变化的值。

3.4 关键模块识别

关键模块是指存储系统中的可靠性关键模块。通过识别该模块能够分析出系统中的薄弱地方,对提高系统的可靠性有着积极的作用。

本文在MS的故障条件下,通过计算得到任意一个功能单元的后验故障概率,然后计算底事件的重要度,最后按照计算出的底事件的重要度进行排序,从而识别出可靠性关键模块。本文主要从两个方面来衡量底事件的重要度。

3.4.1 概率重要度IPr

概率重要度IPr是指当且仅当该功能单元处于失效状态时,系统发生失效的概率。它反映的是当功能单元的状态发生改变时,对系统状态变化的影响程度。

IPr(xi)=P(MS=1|xi=1)-P(MS=1|xi=0)

i∈{SU,MAR,MER,MC}

(16)

3.4.2 关键重要度ICr

关键重要度ICr是指功能单元发生失效的概率变化对系统发生失效的概率变化的影响,是判断功能单元是否为可靠性关键模块的关键性指标。

ICr(xi)=

(17)

式(16)和式(17)中,xi=1表示模块i处于失效状态,xi=0表示模块i处于正常状态,MS=1表示存储系统处于失效状态。其中,概率重要度和关键重要度均靠前的MFU被定义为可靠性关键模块。

4 模型应用实例

为了验证本文提出方法的有效性,本文选取文献[29]中的实例进行分析和对比。

4.1 实例描述

某一型号的弹载固态存储器,其主要组成有机械壳类和存储记录电路,且此固态存储器可靠性研究重点在于存储记录电路。该弹载固态存储器的内部存储记录电路主要由模拟采编模块1、模拟采编模块2、数字采编模块、电源调节模块以及存储控制模块5个部分组成。从底层元器件出发对存储记录电路进行剖析,电路各模块是由电阻与电容、连接导线、集成电路、接插件、印制板与焊点、半导体分立器件等组成。集成电路又包括模拟电路、模拟开关、A/D变换器、数字电路、Flash存储。半导体分立器件又包括二极管和光耦。存储记录电路如图4所示。

图4 存储记录电路框图

根据文献可以得到该固态存储器的存储电路不同的可靠性功能单元,其可靠性如图5所示。

图5 可靠性框图

4.2 功能单元可靠性评估

本文以存储电路的电阻与电容(RC, resistance and capacitance)单元为例,建立单个功能单元的可靠性评估模型。

1)失效率FRate:

根据文献可知,与RC单元失效率相关的元器件的失效概率表3所示。

表3 RC单元中元器件失效率

所以,由式(4)可知RC的失效率为:

λRC=1-(1-λResistance)*(1-λCapacitance)=

1-(1-9.22×10-5)*(1-4.24×10-5)=1.35×10-4

RC功能单元的失效率RC_FRate的Z模式可声明为:

RC_FRate

Resistance_FRate=9.22×10-5

Capacitance_FRate=4.24×10-5

MFU_FRate=1.35×10-4

2)状态空间States:

下面分别以RC功能单元的正常状态NS和失效状态FS为例,演示状态空间的建模过程。

NSState

isInitial=1

isArrive=1

FSState

isInitial=0

isArrive=0

3)状态转移关系STR:

以NS状态和FS状态之间的转移关系为例进行演示说明。

RC_NStoFSSTR

SS:State

TS:State

SS=NSState

TS=FSState

TRate=RCFRate.MFU_FRate

图2中各项状态转移概率设置为表4中所列数据,其中剩余的状态转移关系以同样的方式进行定义。

表4 RC单元各项状态转移参数设置

根据3.2小节建立的Z-FURM模型,结合表2所设计的Z-FURM与FU-REM的建模要素映射转换规则,可以为RC功能单元建立评估模型FU-REMRC=(S,Sin,T,t)。其中,S={NS,RS,FS};Sin=NS;转移矩阵:

将PF_RC(0)=[1,0,0,0]与转移矩阵T代入式(10)可得RC功能单元处于失效状态的概率PF_RC(t)与时间t的函数关系为式(18):

PF_RC(t)=0.001 33×exp(1.35×10-4*t)

(18)

利用Matlab画出式(18)在时间范围为[0,50 000]之间的概率变化曲线,如图6中实线所示。

图6 RC单元处于失效状态时的概率曲线

从图6中可以看出,当时间t接近5×104h时RC模块的处于失效状态的概率接近1,这也与硬件的客观老化、淘这相符合。图 6中的虚线则是RC单元的可靠性随时间变化的曲线。

4.3 系统可靠性评估及关键模块识别

4.3.1 系统可靠性评估

由分析可知,该存储器电路的贝叶斯网络中共有7个变量,分别是存储器电路失效、电阻电容失效、导线故障、集成电路失效、接插件故障、印制板和焊点失效以及分离器失效。

由文献[27]可知,该存储器电路为串联结构,其中一个功能单元失效都会引起存储器电路整体失效,所以可得其贝叶斯网络模型如图 7所示。其根节点的先验概率即各功能单元的失效率可依据上述方法求得,表 5中列出了当时间t=1 000 h时,存储器电路中所有MFU的失效率。

图7 存储电路的MSR-BN模型

表5 存储电路各MFU在t=1 000 h时的失效率

所以,存储电路发生失效的概率为:P(T=1)=0.99×10-2;存储电路正常工作的概率即可靠度为:R=1-(P(T=1)=0.990 1。

4.3.2 关键模块识别

由式(16)可得每个功能单元的概率重要度如表 6所示。

表6 各个功能单元的概率重要度

由式(17)可得每个功能单元的关键重要度如表 7所示。

表7 各个功能单元的关键重要度

为了更好地对结果进行分析,本文把每个模块的概率重要度和关键重要度画成折线图的形式来展示,如图8所示。

图8 概率重要度和关键重要度折线图

从表6、表7和图8可知,当系统失效时,计算的概率重要度和关键重要度中,C3、C1、C6对应的功能单元的重要度更加靠前。其中,节点C3即集成电路失效排在第一,这说明集成电路失效对该存储器电路影响较大,而这也与实际情况相符,因此该存储电路中的可靠性关键模块为C3。从文献[27]中,也可以得到集成电路为存储电路中的可靠性关键模块,以此说明了该方法的有效性和正确性。

通过实例分析与计算可知,存储系统基于本文建立的可靠性评估模型可量化计算其可靠性。同时,根据贝叶斯网络双向推理的优势,可以得到其可靠性关键模块。在使用期间,对关键模块进行维护与保养,可以有效地提高存储系统的可靠性。

5 结束语

针对传统的存储系统可靠性评估方法难以动态地描述其可靠性特征,也难以反映其与时间关系的问题,本文提出了一种结合Z语言和贝叶斯网络的评估方法。该方法既具有Z语言的数据约束能力以及可扩展性,又可以通过贝叶斯网络的双向推理特性得到系统的可靠度以及可靠性关键模块。最后通过一个实例,验证了本文模型的正确性、评估方法和关键模块识别方法的有效性。

猜你喜欢
存储系统概率可靠性
某重卡线束磨损失效分析与可靠性提升
概率与统计(1)
概率与统计(2)
高密度存储服务器可靠性设计与实现①
高密度存储服务器可靠性设计与实现
可靠性增长试验与相关概念的关系及作用研究
天河超算存储系统在美创佳绩
面向4K/8K的到来 存储该怎么办?
概率与统计解答题集锦