基于时间触发通信的机载网络可靠性

2020-05-23 10:06朱纪洪杨佳利
计算机工程与设计 2020年5期
关键词:余度故障率板卡

马 跃,朱纪洪,杨佳利

(清华大学 计算机科学与技术系,北京 100084)

0 引 言

随着航空电子技术的不断发展,航空电子系统架构经历了从早期的联合式向综合模块化(integrated modular avio-nics,IMA)以及最新的分布式综合模块化(distributed integrated modular avionics,DIMA)发展的过程[1]。DIMA在IMA的基础上,将综合模块分布式放置,具有分布计算、可扩充、便于维修等诸多优点,同时降低了系统重量、体积和复杂性,是未来航空电子系统架构的发展方向。

分布式架构对机载网络的带宽、实时性和可靠性提出了更高要求,以1553B总线为代表的传统机载网络存在通信速率低、过度依赖总线控制器和故障隔离困难等问题,难以满足DIMA的发展需求。奥地利的Kopetz教授根据时间触发机制,提出时间触发协议(time-triggered protocol,TTP),后推广至交换式网络中,提出了时间触发以太网(time-triggered Ethernet,TTE)技术。TTE具有确定性、高可靠、低延迟等特点,能够满足分布式航空电子系统高速率、高可靠和故障隔离的要求,适应未来DIMA的发展需求[2]。

航空电子系统通信网络的可靠性不仅关乎各种飞行控制指令的完成,更关系到飞行器本身的安全。本文分析了TTE在航电系统应用的可靠性问题,并探讨通过余度设计增强系统可靠性。贝叶斯网络是一种概率图型模型,在不确定知识表达和推理领域有着广泛应用,本文将使用贝叶斯网络模型分析TTE网络的可靠性。

1 机载通信网络特性和需求

相比于普通以太网,机载网络有拓扑和规模固定、通信任务周期性强、通信任务需求明确等特性,而航空电子系统架构的发展也对机载组网提出了更高的要求。本章对机载网络的两种通信机制:事件触发机制和时间触发机制进行了对比,总结了两种机制在机载网络通信的优缺点,分析了未来DIMA架构通信网络的发展方向。

1.1 机载网络通信系统技术特性

根据航空电子设备的工作特点和需求,机载网络通信系统主要有以下技术特性。

1.1.1 网络拓扑和规模固定

飞行器一旦研制成型后,其电子设备的数量和位置相对固定,通信网络的拓扑结构一般不会改变,无需考虑设备接入带来的网络规模变化问题。

1.1.2 通信任务周期性强

飞行器的航空电子设备主要包括核心处理机、信息采集系统、远程通信系统和发动机及作动系统等,各系统之间的工作有明确的逻辑顺序。由于飞行器大多采用周期性采样与控制方式,所以电子设备各系统之间的通信任务也存在明显的周期性,且通信周期基本固定不变。

1.1.3 通信任务需求明确

为保证飞行任务的安全可靠,飞行器设计时要对通信任务需求进行分析计算。一般情况下,飞行过程中各子系统的通信任务需求不会发生变化,不会出现临时增加通信任务的情况。

1.2 DIMA系统的组网需求

机载网络作为航空电子系统的互连通道,对整个系统的性能有着重要影响。DIMA对机载网络提出了更高的要求,主要体现在带宽、实时性和可靠性等方面。

1.2.1 带宽

机载网络的带宽需求取决于航空电子各子系统的集成综合程度。早期的联合式架构中,各子系统独立完成信息处理,子系统之间的交互性较弱,对带宽要求比较低。在DIMA系统中,数据计算任务分布在各个子系统,需要通过机载网络共享中间计算结果,使得网络的带宽需求大大增加。

1.2.2 实时性

实时性表征了系统在规定的时间间隔内完成预定目标的能力,一般用任务的最坏响应时间与截止期限对比。航空电子系统是安全关键实时系统,作为系统的信息互连通道,机载网络必须保证数据的传输满足实时性要求。

1.2.3 可靠性

可靠性的定义请参见文献[3],其主要表征了产品在规定的时间和条件下,完成规定功能的能力。

系统可靠性指标是对系统可靠性要求的定量规定,可靠性的规定有4种基本方法:平均寿命、任务可靠度、成功概率和故障率。平均寿命指不可修复产品发生失效情况前工作时间的平均值或可修复产品两次相邻故障间工作时间的平均值;任务可靠度指在规定任务时间内的正常工作概率,反映了产品在规定任务时间内完成要求功能的能力;成功概率适用于规定一次使用装置的可靠性(与时间无关);故障率指规定时间内的故障率,适用于长寿命或故障率很小的产品的可靠性。航空电子系统通信网络可靠性可使用故障率作为指标度量。

飞行器对航空电子系统的可靠性和容错能力要求极高,机载网络作为航空电子系统重要组成部分,其可靠性对飞行器的可靠性有着重要影响。网络可靠性主要包括路径连通可靠性和信息流通可靠性[4],前者主要依赖于硬件基本可靠性,而后者关注网络服务的可靠性。TTE通信是由通信任务调度表驱动,可以避免网络流量拥堵并具有确定的延迟[5],在信息流通可靠性方面有着天然的优势。

1.3 消息触发机制

传统的机载通信网络,如1553B总线、CAN总线、AFDX等,均采用事件触发机制的通信方式,即当通信节点有通信需求时,尽快将消息发送至通信链路中。事件触发机制有灵活性高、按需分配、节省链路资源等优势。但当链路负担过重时,事件触发机制的通信性能严重下降。此外,高灵活性通常意味着不确定性,由此会带来故障检测和隔离的难度增加。

时间触发机制指在统一的时间基准下,根据一个预先安排的时间调度表进行数据传输和交换[6],可以避免事件触发机制中潜在的消息冲突问题,不会出现因为排队而导致的不确定性问题,显著提高网络资源利用率。此外,时间触发机制的确定性也增强了故障检测和隔离的能力。总体来看,时间触发机制具有实时性高、可靠性强和可预测等优势,但上述优势是以牺牲灵活性为代价的,因此在机载网络中,需要综合考虑灵活性、确定性和可靠性等因素。

事件触发机制与时间触发机制的对比见表1。结合机载网络通信系统的技术特性,可采用时间触发机制来保证系统的实时性、确定性和可靠性,为DIMA架构的发展提供支撑。

2 TTE在航空电子系统中的应用

美国汽车工程师学会(society of automotive engineers,SAE)于2011年发布了SAE AS6802时间触发以太网标准,AS6802在标准以太网基础上规定可用于时间触发通信的同步协议,具有确定性、高可靠性和高带宽利用率等特点,可有效满足航空电子安全关键系统的应用需求。

表1 事件触发机制与时间触发机制对比

2.1 TTE的研究现状

近年来,TTE技术已经得到许多制造企业的重视,国外航空航天、车载控制、工程机械等领域已出现TTE产品的应用。NASA将TTE作为部分航天系统主干网,成功应用到其猎户座多用途载人飞船中。欧洲宇航局也计划在其重型运载火箭中应用TTE网络构建实时信息系统。

2.2 TTE在航空电子系统应用的优势

航空电子系统的高度综合化,对航空电子网络的性能提出了更高的要求。航空电子网络负责航空电子系统各子系统之间的相互通信,必须具有可靠性、实时性和开放性等特性,这些需求与TTE的特性完全契合,主要体现在以下几方面。

2.2.1 系统集成和扩展

TTE可以在保证TT消息最高优先级的基础上兼容ET消息,实现相对灵活的信息处理方式[7]。TTE集群内的所有终端和交换机具有相同的同步优先级,不同集群可独立运作,多个集群可以进一步构成更大的集群网络,方便系统扩展。

2.2.2 消息传递确定性

TTE内各通信节点在全局统一时间基准下,通过离线调度表,使TT消息具有完全的时间确定性。TTE的最小化延迟和消息传输可确定性,可以满足系统的传输确定性要求[8]。同时,得益于完全的确定性,相比传统以太网,TTE可以提高网络带宽资源利用率。

2.2.3 容错策略和故障隔离

TTE的通信具有良好的可预测性,便于系统快速发现故障问题,减少故障判定时间[9]。TTE的容错策略可以使系统所有正确节点对哪些是错误节点达成一致,对故障节点进行隔离,消除误差传播[10],尽量避免由于单个节点的失效导致系统失效的情况,方便系统重新配置和恢复。

3 可靠性分析

航空电子系统的可靠性要求极高,要求一定时间范围内系统的失效概率低至可以忽略的程度[11]。本章将探讨航空电子系统通信网络可靠性研究方法,重点分析贝叶斯网络在可靠性分析中的应用。

3.1 可靠性分析方法

可靠性分析方法的研究经过了多年的发展,总体来说,主要有数学模型法、上下限法、蒙特卡洛法等,其中,数学模型法根据系统各个部件的可靠概率,通过概率模型,应用状态枚举、容斥原理、图形拓扑等方法,计算系统的可靠性概率。故障树分析(fault tree analysis,FTA)方法是数学模型法的一种,它以系统最不期望发生的事件(称顶事件)作为分析的目标,根据系统内可能发生的部件失效与顶事件之间的逻辑关系,用倒立树状因果关系图形表示出来。

FTA在可靠性分析方面有着诸多优势,如结构清晰、使用灵活等,但也存在着一些缺陷和不足,一是FTA只能解决二态性器件组成系统的可靠性问题;二是FTA只能解决器件之间的静态逻辑组合关系,无法解决动态系统的各部件间的顺序逻辑关系构成的故障分析问题。贝叶斯网络具备了描述事件多态性和动态性逻辑关系的能力[12],因此,基于贝叶斯网络的故障树模型,可较好地解决上述问题。

3.2 贝叶斯网络

贝叶斯网络是一个由节点和连接节点的有向边组成的有向无环图,图中的节点代表随机变量,边代表随机变量之间的相互依赖关系[13]。每个节点都附有各自的概率分布,其中根节点所附的是先验分布,非根节点X所附的是X的条件概率分布Pr{X|pa(X)},其中pa(X)为X的所有父节点的集合。

有向图蕴含了条件独立性假设,贝叶斯网络中所有变量 {X1,X2,…,Xn} 的联合概率分布表示为

(1)

贝叶斯网络的显式表示及其蕴含的条件独立假设降低了模型概率的复杂度,为概率推理提供了很大的方便。同时,利用贝叶斯网络还能得到更加丰富的信息,比如当故障发生时,可推测导致故障发生的最有可能的原因。

3.3 故障树转化为贝叶斯网络

从故障树和贝叶斯网络的原理来看,贝叶斯网络中的节点一一对应于故障树中的事件,因此可以根据故障树中事件的逻辑关系,建立贝叶斯网络的依赖关系。以故障树中的逻辑与门为例,说明故障树向贝叶斯网络转化的方法。与门表示当两个底事件都发生时,顶事件才发生的情况,顶事件T与底事件A、B间的概率关系为

Pr(T=1|A=1,B=1)=1,Pr(T=1|else)=0.

(2)

其转化关系如图1所示。

图1 逻辑与门转化为贝叶斯网

类似的,还可以将或门、非门、k/n门等故障树中的逻辑门转化为贝叶斯网的依赖关系,从而将故障树转化为贝叶斯网络。

4 TTE网络可靠性分析

本章,我们利用贝叶斯网络对机载TTE网络的几种拓扑结构进行可靠性分析,并基于分析结果,总结TTE网络的拓扑选择和余度设计原则。

4.1 前提和假设

对TTE网络拓扑结构的可靠性分析,假设如下:

(1)系统中的链路、通信板卡和交换机等部件有正常工作和故障两种状态,且不同部件的状态相互独立;

(2)系统可靠性指全端可靠性[14],即系统中所有通信板卡之间保持连通的概率;

(3)在双余度及多余度通信网络中,信息流不能跨越通信板卡传播,即在与通信板卡连接的两条或多条链路中,信息不能从一条链路到达板卡内节点N1后,经板卡内另一节点N2,流通至与N2相连的另一条链路。

4.2 多种拓扑结构的可靠性分析

TTE网络的信息交换可以采用多种拓扑结构,如环形拓扑、网状拓扑、星型拓扑等,如图2所示。我们以6个节点的网络系统为例,说明各拓扑结构的可靠性。

图2 3种拓扑结构

取系统各部件的基本失效率见表2。

表2 系统各部件失效率

以环形拓扑的可靠性分析为例,说明由故障树向贝叶斯网的转化方法,转化过程如图3和图4所示。

图3 环形拓扑故障树

图4 环形拓扑故障贝叶斯网

考虑系统的全端可靠性,则环形拓扑中任一通信板卡的失效或大于1条链路的失效都会导致系统故障,则系统故障事件T的发生依赖于所有通信板卡、链路的失效情况,转化到贝叶斯网络中,可认为T=1代表系统正常,T=0代表系统故障,A、L依此类比,则对事件T,其概率分布为

Pr(T=1|A=1,L=1)=1
Pr(T=1|esle)=0

(3)

对事件A,其概率分布为

Pr(A=1|Ai=1,i=1,2,3,…,6)=1
Pr(A=1|esle)=0

(4)

对事件L,其概率分布为

Pr(L=1|sum(Li)>4,i=1,2,3,…,6)=1
Pr(L=1|esle)=0

(5)

使用Matlab的BNT(Bayes net toolbox),可以根据贝叶斯网络的依赖关系,建立概率图模型,输入先验概率后,得到所求事件的后验概率。通过计算得到单余度下环形拓扑系统故障率5.9998215×10-5/h。

使用类似方法,可分别求得其它两种拓扑结构的系统可靠性。其中,对网状拓扑而言,其链路数量较多,不易得到一个状态意义明确的故障树,因此可以通过计算各个链路状态下网络连通性的方法,得到其贝叶斯依赖关系,这也是贝叶斯网相较于故障树的优势所在。最终得到单余度下,3种拓扑结构的故障率见表3。

表3 3种拓扑结构单余度故障率 ×10-5/h

航空电子系统对可靠性要求极高,表3中的故障率显然不能满足应用需求。因此,我们考虑通过增加冗余部件的方法提高系统可靠性。表4和表5显示了在双余度和三余度情况下,3种拓扑结构的故障率情况。

表4 3种拓扑结构双余度故障率 ×10-9/h

表5 3种拓扑结构三余度故障率 ×10-13/h

为了更好地对比不同拓扑结构的可靠性,我们绘制了3种拓扑结构在不同余度情况下故障率的柱状对比图,如图5所示。

图5 不同余度下3种拓扑结构的故障率对比

4.3 可靠性分析总结

在单余度情况下,网状拓扑结构系统故障率最低,星型拓扑结构系统故障率最高,其原因是相对于环形拓扑和网状拓扑,星型拓扑结构的交换机带来的失效率增加了系统的故障率。

当系统设置为双余度、三余度时,所有拓扑结构的故障率均会下降,而星型拓扑系统故障率下降幅度要远大于其它两种拓扑结构,成为可靠性最高的拓扑结构。其原因在于,对于环形拓扑和网状拓扑而言,信息流不能跨越通信板卡传输,增加余度只是增加了冗余备份的系统,因此n余度系统故障率为单余度系统故障率的n次方。例如,对图6所示的双余度环形拓扑而言,假设所有节点都处于正常工作状态,部分链路故障,从图的连通性上看,板卡A可通过链路L1和L2与板卡C进行通信,但实际情况下,由于信息流不能跨板卡B流通,所以这种情况下认为系统是故障的。对星型拓扑而言,增加余度时,各个交换机之间可以互连互通,相当于增加了不同板卡间的通信路径,因此n余度系统故障率比单余度系统故障率的n次方更小,因此在增加余度时,星型拓扑结构故障率下降得更快。

图6 双余度环形拓扑结构故障

相比于环形拓扑,网状拓扑由于增加了通信板卡间的连接路径,因此网状拓扑的可靠性要高于环形拓扑,但经比较,其性能提高比较有限,如单余度下,网状拓扑系统失效率为5.9998200×10-5/h,环形拓扑系统失效率为5.9998215×10-5/h。

综上,从系统可靠性的角度分析,对于重要性较高的核心节点,可使用多余度的星型拓扑结构。对于重要性相对较低的节点,环形拓扑和网状拓扑组网方式简单,而网状拓扑需增加大量的通信链路且可靠性提升有限,可考虑使用环形拓扑结构。

5 结束语

本文基于DIMA对通信网络的需求,分析了TTE的特点、结构,指出TTE的高带宽、强实时、高可靠等特性,可为未来分布式航空电子系统架构提供通信服务支撑。使用贝叶斯网络,对TTE的几种拓扑结构进行了可靠性分析,结果表明,星型拓扑结构在多余度时具有最高的可靠性,适合重要节点,环形拓扑结构在某些需求场景下,也有其应用价值。在机载网络的具体应用中,需要根据不同任务场景,选择合适的拓扑结构,可以更好满足航空电子系统的需求。

此外,相比于传统的故障树分析,贝叶斯网络具有更完备的状态表达能力。在网络系统可靠性分析方面,贝叶斯网络可以通过连通性分析得到网络系统的可靠性结果,而故障树则很难通过割集分析或路集分析得到一个显式的结果,体现了贝叶斯网络在网络可靠性分析领域的强大能力和应用前景。

猜你喜欢
余度故障率板卡
通过控制策略的改进降低广五直线电机的故障率
余度计算机在无人机系统中的应用研究
车载控制器CVRE板卡显红故障分析及处理
高空长航时无人机飞控机容错技术研究
新型操舵控制系统余度管理技术
探索零故障率的LED智能显示终端
浅析如何提高TEG发电机运行效率以降低设备故障率
基于组态王软件和泓格PIO-D64 板卡的流水灯控制
一种基于光纤数据传输的多板卡软件程序烧写技术
混合余度传感器系统的可靠性建模与分析