一种新型飞行器管理计算机的设计和实现

2016-10-28 03:14解文涛
计算机测量与控制 2016年7期
关键词:余度总线处理器

解文涛,王 锐

(中国航空计算技术研究所,西安 710119)

一种新型飞行器管理计算机的设计和实现

解文涛,王 锐

(中国航空计算技术研究所,西安 710119)

围绕新一代先进航空飞行器,对高度综合化飞行器管理计算机的需求,国内外争相开展新型容错计算机的相关技术研究;ARINC659背板总线因其强实时性、高带宽、抗干扰和容错能力强而著称,现已成为航空电子设备标准背板总线,也已成为模块化、综合化架构航电系统的关键技术;因此,基于ARINC659总线容错计算机的研制已逐渐成为高可靠航空电子系统研究的热点和重点;提出了基于ARINC659总线的新型容错计算机构架设计方案、余度管理以及故障实时诊断与隔离等关键技术。

容错计算机;飞行控制;余度管理

0 引言

在航空领域,容错计算机最主要的应用背景是飞行控制系统,无论是在商用飞机还是军用飞机上都得到了广泛的应用[1]。多余度就是一种能够提高飞机安全、可靠性的技术,其引入后可对系统的各个部件进行故障监控,当某个部件发生故障,系统可以进行故障隔离并重构剩余完好资源继续承担功能任务。但是,冗余技术的实施需要成倍的硬件资源[2],随着元器件数量的激增维修难度和费用会大大提高。为了解决这一问题,传统的飞控系统必须向飞机管理系统发展[3],使多种功能综合起来,并置于整个系统的管理之下以节约硬件资源,提高系统可靠性。

未来新型航空飞行器的飞行器管理系统的综合化水平将进一步提高,这对计算机系统的性能、可靠性、故障检测隔离能力、容错能力、可扩展性、灵活性提出更高要求,下一代航空电子体系结构不是基于传统的拜占庭余度结构[4],而是基于监控对实现的故障静默策略,每个组件都必须有自检测机制,即当内部故障发生时保持故障静默,作为背板总线的ARINC 659总线也具有这种故障静默功能。因此,基于ARINC 659总线的容错计算机可以提供的可靠性、完整性和余度等级是相当高的[5],它已用于商用飞机的安全关键系统中。另外,ARINC 659总线在机架式综合化系统结构中有着很大的优势,它将在航空电子系统中继续推广,并在新一代飞行器系统等高安全领域中有广阔的发展前景。

1 ARINC 659总线概述

背板总线是飞管计算机系统中的关键组件之一,用于节点内各部件之间的通信传输。综合化功能的实现要求背板总线安全可靠,并具有完整性特点及容错能力。ARINC 659总线的时间确定性和空间确定性为实现系统健壮分区提供了基本保证。ARINC 659总线的空间确定性保证了已分配的程序/数据存储空间、寄存器、专用I/O的完整性;时间确定性保证了在正确的时间去访问已分配的处理和通信带宽;物理完全隔离的“自检测对”(self-checking pairs)和专有的纠错编码技术提高了故障检测覆盖率,具有高度的完整性。双-双配置的4路冗余总线可以容忍一路总线故障或者某些模式下的两路总线故障,主/后备通信机制还支持系统级4余度容错配置[6]。ARINC 659总线采用的硬件机制很好地满足了航空电子综合化的要求[7]。

ARINC 659总线接口和总线连接方式如图1,总线上的每个节点内的接口采用双余度接口配置,包含总线网络接口单元(BIU)、数据存储器(IMM)、命令表存储器、脉冲时钟和脉冲收发器。

图1 ARINC 659总线连接示意图

2 飞管计算机架构设计

系统为了降低成本以及体积重量[8],目前流行的方式是将VMS定义为三余度综合化系统。相对四余度FBW而言,系统的变化不仅是减少了一个余度,而且融合了推力控制、机电管理等功能。这样设计的原因是信号源以及伺服回路采用了智能化设计,计算机通过总线就可以进行采集以及控制,信息高度融合,因此使得建立一个综合化硬件平台实现系统大综合成为可能。但是系统的可靠性以及安全性需要保证,要实现两次故障工作的任务安全等级,计算机必须采用3×2的系统构型,这也是应对大型软件运行故障概率增大的一个措施。三余度的表决监控策略可以定位并隔离故障,为了实现两次故障工作的需求,节点机内的必须配置两个可以工作的通道,这就使得系统在三余度多数表决策略的基础上又具备了一个两余度热备份构型,也可以定义为监控对构型。这样的构型方式在民机上也频繁使用,并且建立在硬件非相似的基础上。AIRBUS公司的A330/340系列的余度飞行控制计算机由5个计算机组成:3个余度组成的主计算机PRIM (Primary Computers)和两个余度组成的次计算机SEC (Secondary Computers),主计算机和次计算机采用不同的硬件和软件实现[9]。任何时候只有一个“HOT”计算机和一个“STANDBY”计算机。

基于以上原因本文提出了一种增强型的3×2架构容错计算机的系统架构,包括3个节点计算机,节点计算机内部的功能模块通过ARINC659总线互连,节点计算机之间采用同步工作方式,系统任务分配在各个节点计算机上执行,节点内的核心处理模块通过CCDL进行信息交换,系统通过容错高速串行网络管理系统各部件之间的信息交换。节点机内的一次故障,不会导致该节点机的失效。每个节点机的配置形式见图2所示,包含两个核心处理模块CPM、一个专用接口模块IOM、一个电源模块PSM和一个总线处理模块NSM组成,其中CPM1为命令支路、CPM2为监控支路,节点机内设有同步电路、CCDL电路,通道故障逻辑电路和电源监控电路,这些资源电路是余度系统运行的基本配置,电源模块按照双余度供电的方式设计,总线上各核心处理模块、接口模块和总线处理模块之间的数据交叉传输采用ARINC 659背板总线,接入总线的所有模块之间的数据传输可通过总线命令表进行灵活的配置,也可根据系统的容错要求对节点进行备份配置。在每个核心处理器模块上,运行着不同安全级别的系统功能,高可靠强实时机载操作系统保证了不同软件功能块之间的时间隔离和空间隔离,使任意软件任务的故障,不会影响到其它的任务。

图2 VMC设计方案

为了构建更健壮的节点机硬件,借鉴民机非相似设计理念,本文提出采用局部非相似设计的思路,即使用多种不同的处理器芯片。系统的核心由三对处理器组成,每对处理器与其它对有通讯联络,如图3所示框图中的200、201、202代表三台节点家计算机,210、214、218为核心处理模块CPM(Core Processing Modules),230、234、238为命令通路(Command Lane),232、236、240为监控通路(Monitor Lane)。

图3 系统构型示意图

节点计算机采用相似性设计,但是系统构型中选择的处理器不尽相同,在每个节点计算机的核心处理由CPM(210、214、218)实现,CPM由两个通路组成,一个为命令通路,一个为监控通路,为了进一步提高系统的健壮性以及可靠性,命令通路与监控通路选择不同的处理器,μA、μB、μC为3种处理器,210中的命令通路230选用μA处理器,监控通道232选用μB,214中的命令通路234选用μB处理器,监控通道236选用μC,218中的命令通路238选用μC处理器,监控通道240选用μA,按照以上方法实现了计算机内的处理器的不同,又实现了计算机间处理器对的不同组合,系统健壮性的提升是无用质疑的,处理器的选用上设计使用相同类型不同型号的处理器,例如POWERPC750、POWERPC755、POWERPC7410,这3种芯片的管脚完全兼容但核心电压不同、处理速度也不同(可调为一样),这就使的在一种电路设计的基础上进行微小的调整就可以形成3种不同的核心处理器模块,按照以上的配置方式可以获得部分非相似余度设计的优势,同时成本在同构型设计的基础上增加不多。

处理器有时会因为设计或工艺等存在缺陷出现共性故障,这种故障会导致所有装有此种处理器的模块出现共性故障,上述设计思路可以保证发生共性故障时系统不会崩溃,例如图3所示,当μA处理器发生此类故障时,节点机FCC1中的命令通路和FCC3中的监控通路失效,进而致使FCC1和FCC3节点机故障,但是节点机FCC2的运行将不受影响。

3 系统容错机制设计

飞行器管理计算机系统构型中的三余度节点机,接收控制命令或任务指令,控制作动器或其它设备。节点和节点内的模块形成系统级余度容错和故障保护。3×2余度的VMC分别置于3个LRC内,以防止一次性的损毁和故障蔓延。每个节点计算机作为一个完整的控制核心,可以独立完成系统的飞行控制[10],正常时节点内部的核心处理模块形成一个自检对,共同完成对一套系统总线的管理。3个节点机的内部之间具有通讯,每一个节点机都具有独立完成系统任务处理的能力,每个节点机实际上是由两个通道组成,一个是命令通路,一个是监控通路;命令通路保证分配计算机的功能实现,监控通路保证命令通路工作的正确性,每个节点机的运行是建立在各自命令通路和监控通路的比较监控的基础上,每个节点机是相对独立的不同的计算机,节点机工作时,命令通道和监控通道同时从STANDBY状态到ACTIVE状态。当一个核心处理模块故障时,通过CCDL完成对故障模块的隔离和判断,使故障抑制在模块内部,正常处理模块通过CCDL进行认定,继续节点的工作,不会导致节点的丧失。

ARINC 659容错串行背板总线的使用保证节点内的容错通讯。采用容错串行背板总线完成节点内模块之间信息共享,背板总线是由双总线对组成的双/双配置,因此它的容错特性比传统的双余度好,而复杂性小于传统的四余度。串行背板总线包含两级保护机制:第一级保护是故障纠正与指示,单个差错可以通过非故障信号对的组合而被纠正。如果同时发生2个差错,则被接收数据被标记为错误。第二级保护机制是发送故障检测与停止,每一个正在发送的节点模块检测它实际放到总线上去的内容,如果检测到一个不能纠正的差错,发送就被终止。

表决界面和表决节点[11]是决定多数表决系统容错能力的重要因素。表决面的设置主要采用多数表决分级监控的机制,确定故障发生源,抑制故障的蔓延,消除故障的影响,进而提高系统任务可靠性和安全性。表决节点是在多数表决面中,依据表决面内产生的特征信息,生成对应的表决节点数据。表决节点数据的多少对系统运行效率、资源开销和输出响应时间会产生比较大的影响。VMC的表决界面设置为两级,信息输入界面和计算机指令输出界面。信息输入界面的作用是判定VMC输入信息的有效性;计算机指令输出界面的作用是判定VMC处理结果的有效性。两个表决界面内的表决设定在一个表决节点实现。即该表决节点实现本周期传感器输入信号和上周期飞控计算机输出指令表决。

系统监控对容错:针对VMC余度通道内的自监控的需求,由VMC各通道内的命令通路和监控通路实施互比监控机制。这种监控机制针对系统实时处理需求,通过对系统处理过程的状态变化的识别,对命令通路的运行状态实时监控。即通过建立传感器状态监控器,实现对输入信号和数据有效性监控;通过建立软件状态监控器,实现计算机运行过程有效性监控;通过建立周期BIT测试[12],实现计算机资源有效性监控。

故障动态重构,基于对系统各故障状态的分析,通过对非故障资源的有效组织,进而实现系统的动态容错重构。根据当前运行状态的监控,依据通道的多数表决结果,实施动态系统容错结构的重构。通过采用动态重构容错机制,实时确定系统运行故障状态,排除故障源的影响,明确系统有效资源,形成新的面向多数表决的容错结构,保证系统容错能力。

4 系统余度管理

3个节点机相互独立,采用同步工作方式,通过专用CCDL交换节点机间的数据,采用软件方式进行表决。系统工作时3个节点机同时工作,采用节点机间采用三余度多数表决原则,图4为工作方式示意图,每个节点机内部包含一个命令支路,一个监控支路,图中S1、S2、S3代表信号源采集数据,两条处理支路分别对信号源数据进行采集,3个节点机中的命令支路,将采集值进行CCDL实现信号源的数据表决,表决值送入控制律进行计算,最终输出控制指令。监控部分由信号源监控器、计算机监控器、伺服回路监控器组成,其中计算机监控由节点机内的命令和监控支路进行互比实现,监控结果在下一拍影响表决。

图4 余度工作模型

在工作方式一中,系统采用节点机内先表决,节点机间后表决的方式,首先对节点机内的两个处理器的采集值取均值C1、C2、C3,然后进行交叉表决形成表决值,经过控制律计算形成控制指令,在智能接口模块中进行输出指令表决。

在工作方式二中,系统采用节点机间先表决,节点机内后表决的方式,每个节点机内CPU1进行交叉互比,取中间值作为表决值C1,所有CPU2进行多数表决形成表决值C2,节点机内的两个处理器取均值,形成输入最终表决值参加控制律计算,控制指令在智能接口模块中进行输出指令表决。

监控管理对系统输入、输出、工作状态以及主要资源均进行监控,监控管理的主要职责是监控的合理配置和调度。运行状态监控是分解系统运行状态,并对各状态进行监控的一种有效方法。建立系统有效状态字,建立资源运行状态字,建立硬件模块有效状态字。

容错机制如下:

1)单通道内部任何模块(包括2个核心处理模块)发生任何故障,会导致本通道的失效。

2)系统采用3×2余度工作模式,即:无故障时,系统采用多数表决方式工作;单节点机故障时,系统降级为双余度节点机工作模式;两个节点机接连故障时,系统进入单节点机监控支路对(命令支路与监控支路)的工作模式;3个节点机均故障时,系统进入单模块安全保护工作模式。

3)系统能容忍2次连续发生的恶意故障的影响。

5 系统构架的可靠性分析

为了对上述容错计算机构架的可靠性进行定量分析,采用了基于模型的分析手段,为此建立了基于simics的容错计算机数字模型,通过数字模型的分析以及硬件的假设条件,实现对系统构架地可靠性能力的描述。

“3×2”余度系统容错策略模型如图5所示,容错机制如下:

1)单通道内部任何模块(包括2个CPU模块)发生任何故障,会导致本通道的失效。

2)系统采用3×2余度工作模式,即:无故障时,系统采用多数表决方式工作;单通道故障,系统采用双通道互监控工作模式;两通道故障,系统转入单通道工作模式。

图5 系统容错策略模型

系统的失效率F计算公式如下:

(1)

“3×2”余度容错系统中,出现第1次故障时可以通过自监测对或表决策略隔离通道,可以认为第1次故障的测试覆盖率C=1。若再次出现故障,则通过自监测对互比隔离通道。若再次出现故障,仅剩的一个通道将无法实施表决,只能依靠机内自测试来隔离故障通道。若单机的故障覆盖C=0,“3×2”余度系统仅具有FO/FO/容错等级,如果单通道C=1时,三余度系可实现FO/FO/FO的容错等级。“3×2”余度构型可靠性模型如图6所示。表1为系统构型的可靠性计算结果。

图6 “3×2”余度构型可靠性模型

属性“3×2”余度任务时间2小时失效率λCPM60.3285/106小时;失效率λIOM24.011/106小时;失效率ΛNSM22.2455失效数/106小时;失效率λPSM28.946失效数/106小时;容错策略第1次故障表决检测和隔离第2次故障2次互比较检测、自测试隔离第3次故障互比较检测、自测试隔离,系统重构容错模式FO/FO/FSλT195.86cT98.614%c1100%c299.981%c398.614%F7.78027E-11

“3×2”余度构型既可实现很高的故障检测率,占用较少的硬件资源可以实现极高的任务可靠性,双处理器的构型降低了软件的复杂度,并在计算吞吐量也有较大的优势,在安全性方面能满足两次故障工作(FO/FO/FS)的要求。

6 测试与验证

为了进一步验证该构型飞管计算机的容错能力,建立了一个集开发、系统仿真、测试及综合为一体的容错计算机综合测试、验证及演示平台(以下简称为平台)。平台支持余度容错计算机的设计与分析、软件开发、系统综合和测试、以及演示验证的功能,实现对容错计算机系统的研究,包括软/硬件测试方法、故障检测方法、故障隔离方法、故障恢复方法等方面的研究。同时,可对容错计算机系统提出定量的分析,包括在采用不同的处理器系列、不同的余度结构的容错计算机下,系统的可靠性分析、可用性分析、维护性分析。

测试验证环境采用模拟飞行控制与管理系统(VCMS),包括:飞行仿真环境、视景演示环境、故障注入与监控环境、调试环境四部分组成。

飞行仿真环境:对飞机空气动力学特性进行仿真;解算飞机的非线性全量运动方程;仿真飞机从起飞到着陆的飞行全过程运动参数;为飞行控制与管理计算机提供主要飞行参数及大气数据模拟;仿真飞机舵机控制系统响应飞行控制命令,通过模型解算出飞机运动响应,并反馈到飞控软件构成闭环控制回路;接收故障注入信息发送给目标机。

视景演示环境:建立三维地景模型数据库、三维飞机实体模型数据库和平显模型库,接收飞行参数并进行必要的坐标转换,从而实时生成并驱动左、中、右3个通道的三维场景画面,同时对气象、特效等进行模拟。

故障注入与监控环境:包括对飞机飞行姿态的监控、目标机运行状态监控和故障告警,另外实现对容错关键技术的故障注入,通过故障注入监控目标机对故障的处理与重构;

调试环境:包括检测台和调试开发平台两部分,实现对节点机操作系统的配置和应用软件、飞行控制软件的开发,以及对ARINC 659总线的检测,结合检测台实现对目标机硬件环境的检测。

原型系统包含3台容错节点计算机、系统总线仿真卡、电缆等。

在上述测试验证平台下,完成了对ARINC659总线关键技术的测试和验证。对三节点飞管功能的测试,验证了三节点系统架构满足飞机的飞行控制与管理基本功能,对接口故障、处理器故障的容错功能测试,证明系统具备至少2次故障工作的能力,对故障静默等能力的测试,证明系统可用性等性能指标满足要求,解决了当系统发生故障时,在系统现有资源状况下,在保证系统关键任务的条件下,系统功能的缓慢降级,达到系统当前资源与系统工作模式的最佳匹配,从提高重构决策速度及提高关键数据管理水平两方面着手提高故障恢复速度及完整。

7 结论

新型基于ARINC 659总线的容错计算机的设计有别于传统容错计算机基于通道的容错方式,采用了多数表决分级监控的监控对容错架构,提出的局部非相似容错设计思路,进一步提升了系统的任务可靠性,可满足我国新一代航空飞行器对飞行器管理计算平台的需求,对于提升我国航空电子设备水平,打破国外封锁和技术垄断具有非常重要的意义。

[1] 牛文生.机载计算机技术[M].北京:航空工业出版社,2013.

[2] 罗志强.航空电子综合化系统[M].北京:北京航空航天大学出版社,1990.

[3] Moir I, Seabridde A. Military Avionics Systems[M]. UK: John Wiley and Sons Ltd,2006.

[4] 沈功璋,高金源,张 津.飞机综合控制与飞行管理[M].北京:北京航空航天大学出版社,2008.

[5] 石改辉,张 原.下一代航空数据网络体系结构研究[J].电子工程,2006(4).

[6] ARINC 659背板数据总线规范(ARINC -659-1993)[Z]. 美国航空电子工程师协会, 1993.

[7] 张喜民,魏 婷. ARINC 659 背板数据总线应用研究[J]. 航空计算技术, 2011,41(5):105-109.

[8] 王树义,南建国,赵松云.综合化航电核心处理系统容错设计[J]. 计算机测量与控制, 2012,20(8):2248-2250.

[9] B Triquet, “Mixed Criticality in Avionics, Memorandum”[Z]. Airbus, RefX42ME1201821, 2012.

[10] 周耀荣.用于综合化模块化航电系统的高安全性虚拟分布式计算机系统[R]. 中国航空工业第631研究所,2008.

[11] Distler T, Kapitza R. Increasing performance in Byzantine fault-tolerant systems with on-demand replica consistency[A].In Proceedings of the 6th EuroSys Conference[C]. 2011.

[12] 徐拾义.可信计算系统设计和分析[M].北京:清华大学出版社, 2006.

Design and Implementation of a New Vehicle Management Computer

Xie Wentao,Wang Rui

(Aeronautical Computing Technique Research Institute, Xi’an 710119,China)

For integrated requirement of the vehicle management computer about new generation fighter plane, at home and abroad, the researching of technology for the Innovative fault-tolerant computers system is developing.The ARINC659 backplane bus is famous as a key shared resource in the integrated avionics system, and it has remarkable advantages such as real time, throughput, immunity and tolerance from various upsets in a harsh environment. It is slated to become the standard backplane bus for commercial avionics, and the backplane bus is one of the key technologies in integrated modular avionics system. Lately years, consequently the research of fault tolerant computers based on ARINC659 is key point and hot point in the high dependable avionics system. The paper indicates the new fault tolerant computer architecture based on ARINC659, redundant management, fault diagnosis and seclusion.

integration; fault tolerance; redundancy management; backplane bus; ARINC659

2016-01-08;

2016-02-15。

解文涛(1977-),男,陕西西安人,高级工程师,主要从事计算机应用方向的研究。

1671-4598(2016)07-0190-05

:10.16526/j.cnki.11-4762/tp

TP391 文献标识码:A

猜你喜欢
余度总线处理器
余度计算机在无人机系统中的应用研究
基于PCI Express总线的xHC与FPGA的直接通信
机载飞控1553B总线转以太网总线设计
高空长航时无人机飞控机容错技术研究
新型操舵控制系统余度管理技术
混合余度传感器系统的可靠性建模与分析
CAN总线并发通信时下位机应用软件设计
Imagination的ClearCallTM VoIP应用现可支持Cavium的OCTEON® Ⅲ多核处理器
多通道ARINC429总线检查仪
ADI推出新一代SigmaDSP处理器