信息处理平台中资源监控管理的设计与实现

2022-06-23 11:00朱晓波芶冬荣杜欣军
计算机工程与设计 2022年6期
关键词:机箱监控节点

朱晓波,芶冬荣,杜欣军

(1.中国电子科技集团公司第三十二研究所 通用产品部,上海 201808;2.中国电子科技集团公司第三十二研究所 计算平台部,上海 201808)

0 引 言

为实现信息处理平台不间断工作,并为不同平台提供统一的监控管理环境,其资源监控管理系统需掌握各资源的使用状态,并须具有对不同规模信息处理平台的适应性。信息处理平台为了实现不间断的工作,需实时掌握其内部各种软硬件资源的使用和故障状态,及时告知操作员,以便进行任务调度、系统修复,尽可能减少资源故障对任务的影响。不同平台因任务不同,其计算、存储、显控等需求各异,有时需多个机箱共同完成信息处理,因此该资源监控管理系统须具有较好的可扩展性。

现有文献基于已有硬件,针对不同环境下的资源监控管理软件进行了分析与设计。有的通过动态采样、分布式集群监控,降低数据监控中心负荷、满足系统扩展性要求[1,2];有的针对异构资源监控、访问入口进行设计,进一步完成性能瓶颈探测、异常或故障探测与报警[3,4];也有基于内存、CPU和硬盘等资源使用情况,为资源的调度和分配提供决策的[5];还有通过SNMP协议提高横向扩展能力的[6,7];也有基于标准测试集对不受控系统进行资源状态分析与故障管理的[8,9]。上述文献都是基于现有硬件,设计软件实现资源监控的,而无法按需对硬件信息进行采集、对模块厂家进行追踪。

本文通过系统架构和底层软硬件设计,通过温度、电压、电流、资源状态及故障等信息检测,完成涉及特定供货商产品的信息采集,并实现了各模块的热插拔、远程加载、上下电等功能,满足现阶段信息处理平台的资源监控要求,并为基于历史信息进行故障预测、提高装备可用性提供支撑。

1 信息处理平台的构成

信息处理平台采用开放式系统结构,硬件采用基于OpenVPX的开放式国际标准,软件采用层次化设计。系统根据不同功能封装了高内聚、低耦合的模块,且不同层次/模块间使用标准化接口,硬件易扩展,软件可裁剪、可移植。其体系结构如图1所示。

图1 信息处理平台体系结构

其中,硬件基础设施包含各类计算、显控、存储、交换等模块,为上层软件运行、功能执行提供支撑;基础软件层包含国产操作系统、BSP与驱动,并集成国产数据库和数字地图,为上层软件的运行、存储、网络及设备管理、数据存取和场景显示等提供支撑;应用运行支撑环境包括通信中间件、运算函数库、构件化管理框架,为应用提供构件/任务间通信与访问、硬件资源高效调用、应用部署与启停等功能;应用集成开发环境为平台上的多种应用开发提供便利。

资源监控与管理,对软硬件资源的使用及故障状态进行监控,以便结合任务特点,统一调度与分配资源,提高系统运行效率,并为故障预测提供支撑。

2 资源监控管理关键技术分析

资源监控管理是为了让用户掌握整个设备的资源使用状态,并根据该状态实时调整系统运行策略,以达到保护系统、提高任务执行效率,并记录各厂商产品的长期工作质量特性的目的,可从以下几个方面予以分析。

(1)保护系统免于遭受安全性事件

安全性事件主要包括过压、过流、过温等,通过对安全性事件的实时监控,可将上述异常事件导致的损失降到最低,从而提高产品质量。

过压是由于外部供电波动或电源转换电路老化/损伤,导致供电电路输出电压高于正常电压。大多数集成电路可正常工作的电压范围是VCC*(1±5%), 某些器件可达到±10%;一般超过+10%将导致器件损坏,低于-10%将导致器件不能正常工作。过压检测的目的是实时断开后续电路,以避免所供电器件的损毁,阻止造成更大范围的损失;同时记录过压情况,为后续设备维护保障提供支持,并可长期跟踪产品,以提高产品质量。

过流是由于电路长期工作导致阻抗变低、部分器件击穿,以及工艺性缺陷导致短路等因素,使得供电电流大幅上升。电流大幅上升,意味着电路工作不正常,并可导致热量集聚,从而导致损害范围扩大。过流检测的目的是实时断开供电电源,避免用电电路损毁,并阻止造成更大损失;同时记录过流情况,为维护保障、提高产品质量提供支持。

过温是由于热耗大于散热能力使得热量聚集,使系统温度升高。高温将导致器件性能下降,并增大设备烧毁的风险。过温检测的目的是通过提高风扇转速,加强散热能力,降低设备烧毁的风险,并提高设备的可靠性;同时记录过温情况,为维护保障、提高产品质量提供支持。

(2)基于资源使用状态提高任务执行效率

通过掌握任务执行中各种资源的使用情况,提高任务执行及资源使用的效率。资源监控向用户提供计算、存储、通信等资源的故障及使用情况,结合新任务对上述资源的需求,实现任务的合理分配,提高系统的任务吞吐率;如多个节点资源占用率都较低,可合并任务到一个或几个节点,进一步关闭其它节点,从而降低能耗、提高系统可靠性;对于出现故障的资源,提醒用户谨慎使用或替换新模块。

(3)记录各供货商产品的质量特性

通过记录设备运行中的过压、过流、过温,以及各种资源故障及使用情况,可以分析设备的性能衰变,从而可通过长期记录分析供货商产品的质量特性,以便提高产品质量、选择更优异的产品。

(4)为系统管理提供支持

为正常实现系统功能,还需为人工介入后的系统管理提供支持,包括BIT故障检测、风扇转速信息采集与控制、故障报警、上/下电控制与管理、热插拔支持、复位、看门狗监控和日志管理等。

3 资源监控管理设计

3.1 架构设计

资源监控管理是对信息处理平台中的软硬资源进行有效的监控与管理,获取资源的故障和使用情况,并呈现给用户、记录日志,进一步完成资源高效调度与故障预测,为实现系统高性能、高可用提供支持。资源监控管理采用分层架构和监控管理代理方式,实现从处理器到应用的全覆盖监控管理,其技术架构如图2所示。

图2 资源监控管理的技术架构

最底层为监控管理对象,主要包括系统中的机箱(含电源)、计算/显控/存储、网络交换等硬件设备,以及操作系统、数据库、应用运行支撑环境和应用软件等软件资源。硬件设备须为资源监控管理提供必要的底层硬件支持;软件资源须为资源监控实现提供必要的接口调用。

监控管理器实现整机及各模块的监控信息采集及管理命令执行,由Agent、模块监控软件、机箱监控软件3部分组成。

监控管理服务基于监控管理器所采集的资源监控信息,为上层提供相应服务,具体包括资源监控、系统管理。

监控管理门户是资源监控的辅助管理界面,以Web方式向用户展示监控管理器、监控管理服务为用户提供的各类信息与服务。

基于上述资源监控情况,结合任务需求,可实现资源管理与任务调度、配置管理、故障预测及应用管理,为实现高可用系统提供支持。

3.2 硬件模块的资源监控设计

平台中各模块采用OpenVPX架构,符合相应结构、散热等设计要求,其资源监控管理主要是通过模块级BMC、系统级ShMC予以实现。其中BMC负责模块级监控管理,接收指令并执行相应操作(收集状态、实现上/下电、复位等控制),并向ShMC上报;ShMC负责调度各BMC并收集反馈信息,实现全平台的状态监控、故障检测、系统管理与恢复等。该方案中ShMC,通过交换模块上的BMC运行ShMC软件实现。

资源监控硬件设计具有以下特征:①为提高系统可靠性,硬件模块间通过两条I2C总线(intelligent platform management BUS,IPMB)互联,两条总线互为备份,数据协议符合IPMI(intelligent platform management interface)规范;②为提高系统可靠性,采用双交换架构,通过主从管理策略确定哪个交换为主控模块;③根据机箱内温度及其分布,由主交换模块控制机箱内各风扇转速;④为提高资源监控的信息容量和传输距离,系统为汇总后信息提供了千兆网传输通道,交换ShMC通过板内的千兆网连接千兆交换网络,以便向上位机、机箱间提供监控信息。

从资源监控角度,结合各模块主要功能单元来看,硬件可分为电源、计算/存储/显控、交换3种模块,不同种类模块资源监控设计存在一定差异,下面分别进行说明。

3.2.1 电源模块

该模块资源监控主要由各类电源转换电路、BMC等电路组成,如图3所示。

图3 电源模块资源监控框架

该模块资源监控主要包括以下功能:

(1)各级电压、电流信号的采集。采集输入的电压、电流、实时感知输入电压、系统功率的变化;采集12 V、48 V、3.3 V等输出电压,实时获知内部所使用电压的变化。

(2)BMC电路。该电路是电源模块的智能管理单元,具有以下功能:①获取机箱号、槽位号,为系统定位该模块;②实时钟和看门狗电路,用于产生本地时钟,并支持故障下的模块重启;③存储器,用于存储模块名称/型号/生产日期/序列号、供货商名称,以及软件代码及版本号、出厂设置等信息,并具备日志功能;④提供对外I2C接口,用于接受外部指令,上报本板监控、故障及报警信息,按需实现各档电压上/下电、恢复出厂设置、固件更新等功能;⑤上下电控制,BMC按需输出上下电控制信号,实现对某一路输出电压的上下电。

(3)温度采集。为准确获取板卡热特性,在进风口、出风口、模块中部放置温度传感器,监控板卡基本温度;为实现对主要芯片(220 V~12 V、220 V~48 V、48 V~3.3 V)的温度检测,可通过器件本身的温度接口或器件附近的传感器获取。

(4)复位。电源模块BMC可接收外部复位信号,复位该模块BMC电路。

3.2.2 计算/显控/存储模块

该类模块资源监控主要由CPU/DSP/CPU及外围电路、BMC电路等组成,如图4所示。

该类模块资源监控设计主要包括:

(1)各级电压电流信号采集、BMC电路和温度采集。该部分与电源模块相应部分设计思路基本相同,差异体现在:①输入电压、电流采集,主要针对12 V、3.3 V;内部电压监控主要针对本板CPU/DSP/GPU/存储体等供电电压;②主要芯片的温度监控,主要针对CPU/DSP/GPU/存储体等器件。

(2)复位。该模块可接收外部复位信号,完成整板电路的复位;也可由BMC接收外部复位指令,完成CPU/DSP/GPU等主电路复位。

图4 计算/显控/存储模块资源监控框架

(3)CPU及外围电路。从资源监控角度,其功能如下:①实时钟与看门狗,用于产生CPU的本地时钟,并支持故障下的CPU自重启;②上下电控制,BMC通过I2C接收外部上下电控制指令,通过输出上下电控制信号,控制主电路的供电DC/DC电路,实现上下电控制;③NCSI功能[10]。该模式下CPU与千兆网卡关系不变,而BMC利用千兆网卡的物理层,实现对外的千兆网互联,以便进行调试或数据传输;④BIT,CPU/DSP/GPU及外围电路本身可进行处理器、存储器、各类接口的故障检测及使用状态监测,其结果可通过千兆网对外输出,也可通过内部UART传递给BMC。

(4)CPU与BMC的信息交互。该模块CPU/DSP/GPU部分的BIT及各类资源的状态监控结果,可通过内部UART传递给BMC,从而传递给用户界面;BMC检测到的温度、电压、电流、功耗等信息,以及系统所需的控制信息(如远程启动地址、BIT信息收集等命令),也通过UART传递给CPU。

(5)指令接收与信息上报。板级BMC接收ShMC发出的指令,按照指令执行相应操作,并将结果及本地上报信息通过I2C接口上报给ShMC。

3.2.3 交换模块

该模块资源监控主要由CPU及外围、交换、ShMC/BMC等组成,如图5所示。其中ShMC/BMC为其智能管理单元,作为BMC,完成本板温度/电压/电流等信息采集,以及资源监控命令的接收、执行和结果返回等功能;作为ShMC,负责整个机箱的资源监控信息收集、用户命令的解析/下发/执行、机箱管理等功能。

图5 交换模块资源监控框架

该类模块资源监控设计主要包括:

(1)各级电压电流信号采集、BMC电路和温度采集。该部分与计算/显控/存储模块相应部分设计思路基本相同。具体差异体现在:①内部电压监控主要是监控本板CPU、交换芯片所用电压;②主要芯片的温度监控,主要监控CPU、交换芯片等器件。

(2)CPU及外围电路。该部分的实时钟与看门狗、BIT工作模式与计算/显控/存储模块相应部分的设计思路基本相同,具体差异体现为:复位与上下电控制信号中,对本板主电路的复位、上下电控制与计算/显控/存储模块相应设计思路基本相同;但交换模块的ShMC/BMC作为机箱ShMC时,需解析上位机输入的复位指令,输出复位信号实现对某模块的整板复位,而如复位是针对某计算/显控/存储模块的主电路,则将该复位指令转发给相应模块BMC,由其输出信号复位相应主电路;解析上位机输入的上下电指令,并传递给相应模块BMC,由其对相应主电路进行上下电控制。

(3)上位机与ShMC/BMC间的信息传输。通过ShMC/BMC对外提供的百兆网、与千兆网交换间的千兆网,ShMC可向上位机(外部控制设备或显控模块)提供整机监控信息,也可接收上位机指令;

(4)CPU与交换单元[11]的互连。CPU通过PCIe/RIO与交换单元互联,完成上电配置,并获取各网络端口的状态(Link、故障等),为计算/显控/存储模块的冗余备份、故障检测与系统恢复提供支持;

(5)心跳线。系统包含两个交换模块,心跳线用于告知另一交换模块自身的状态;模块正常时输出周期性的心跳线,模块异常时心跳线将会停止,另一模块据此判断对方的状态;通过心跳线,系统启动相应仲裁流程,确定系统主交换模块。主交换模块控制系统的I2C总线,实现机箱管理、风扇控制等功能。

(6)CPU与BMC间的信息交互。与3.2.2节中相应内容相同。

(7)指令接收与信息上报。该模块ShMC接收用户界面通过以太网发出的管理指令,按指令执行相应操作(包括向功能模块发送相应指令),并将上报信息、执行结果,通过以太网发送给用户界面。

3.3 资源监控管理软件设计

按图2的资源监控管理软件分层设计思想,下边对每个软件进行设计。

3.3.1 监控管理器设计

监控管理器由Agent、模块监控软件、机箱监控软件3部分组成。Agent驻留于计算/显控/存储模块上,实现模块内部资源监控与管理,并在模块内部的CPU、BMC间传输信息。板级监控软件运行于计算/显控/存储/电源模块的BMC上,实现单模块硬件监控,对外提供IPMB接口;机箱监控软件运行于交换模块的ShMC上,除实现本模块硬件监控外,还承担平台监控管理功能。操作系统、数据库等软件通过自身监控接口上报其运行状态,此处不详述。

(1)Agent设计

Agent包括运行在CPU、BMC上的两部分:CPU上软件,主要监控CPU及其外围资源状态,通过BIT可获取CPU、内存、硬盘及各类接口的故障信息,通过API可获取上述资源的占用率,以便为资源高效调度提供支撑;BMC上软件,解析IPMI接口数据,按要求对该模块CPU电路进行上下电、复位,以及iKVM等管控功能。此外,还实现CPU、BMC间的命令与状态信息交互。

(2)模块监控软件

模块监控软件主要监控模块资源状态、按要求完成模块管理,主要包括:

1)健康信息监控。通过传感器采集模块的温度、电压、电流,通过CPU进行BIT、调用相应接口,获取CPU、内存、硬盘、网络及各类接口的故障及使用情况,并进行上报。此外,还可通过IPMI获取带外硬件状态(如模块的版本、状态等),收集带内软件状态(如软件的版本、资源使用率等)。

2)命令接收执行与信息上报。模块监控软件接收并解析机箱监控软件发来的命令,完成相关命令(上下电、复位等等)执行;模块监控软件按照命令要求,按需将模块信息上报至机箱监控软件;上报信息除健康信息、执行结果外,还包括产品名称、制造商、生产日期、模块类型及序列号、软件版本等FRU信息。

3)日志记录。对健康监控、网络等信息进行记录,成为模块日志。

4)热插拔管理。提供统一的模块热插拔管理流程,根据接收到的命令,使模块处在相应状态(具体包括未安装、未激活、激活请求、激活中、已激活、去活请求、去活中、命令丢失等8种)。

(3)机箱监控软件

机箱监控软件运行于交换模块ShMC上,实时监控整机的健康状态,并接受用户监控指令,负责监控命令的接收、分析、执行、分发与信息反馈、收集等,主要包括:

1)健康信息监控。实时获取机箱中所有模块的温度、电压、功耗等传感器信息,以及各模块的CPU、内存、硬盘、网络及接口的工作状态(包括故障、资源使用率等),并实时获取本交换模块传感器信息、资源工作状态信息,汇总后按要求向上位机汇报。

2)机箱风扇监控。根据机箱内各模块的温度及其分布、变化,控制风扇转速,并采集结果。

3)FRU信息收集。获取机箱内各模块的名称、制造商、生产日期、序列号、软件名称及版本等FRU信息,并通过IPMI向上位机上报。

4)远程操作。按要求管理机箱内所有模块的远程操作(包括各模块的上/下电、复位,以及iKVM、远程启动与软件加载等)。

5)日志信息。记录并管理机箱内所有模块日志信息(包括温度、电压、电流、资源健康状态及使用信息、风扇状态信息等等),并按需上报。

6)热插拔。监测机箱内所有模块热插拔状态信息,管理机箱内所有模块的热插拔操作,并通过IPMI向上位机上报机箱内所有模块的热插拔状态信息。

3.3.2 监控管理服务

监控管理服务基于监控管理器提供的资源监控功能,向上层提供资源监控服务,包括资源监控、系统管理两部分。

(1)资源监控

资源监控基于所收集的信息,建立日志数据库;对超出阈值的事件进行告警;并通过B/S、API两种模式,为用户提供资源监控界面或用户调用接口。

1)日志管理

对所获得的日志信息,按照时间、事件、模块、参数等关键字建立索引,形成日志数据库,便于用户查询和统计。

2)事件告警

当异常事件(如模块温度/电压/电流过高、出现故障、载荷过大等)发生时进行告警,并给出事件基本信息。

3)控制与信息服务

该软件接收上位机发来的软硬件管理的IPMI命令,调用底层资源完成命令执行;向上位机周期发送整机软硬件实时状态信息(包括传感器信息、以及CPU、内存、硬盘、网络等的状态信息和使用情况)。

该服务为上位机或第三方软件提供B/S、API两种访问模式。在B/S模式中,实现了Sever端功能,允许Web浏览器访问相关服务,并接收相应命令;在API模式中,向有定制需求的用户提供底层API调用接口,用户可按需设计自己的界面。

(2)系统管理

系统管理为用户提供对底层软硬件的配置和维护,并实现ShMC主从管理。

1)系统配置

系统配置包括时间、网络、用户等配置。时间配置是配置当前系统时间、时区及更改时区;网络配置是按机柜、机箱和槽位信息,配置模块的IP地址、ID号;用户配置维护用户管理列表(用户ID、名称和权限),提供增、删、改等操作。

2)系统维护

提供BMC重启、BMC固件更新、恢复出厂设置等功能,并为远程启动与软件加载提供支持。

3)ShMC主从管理

为提高系统可靠性,同一机箱设计了2个ShMC,为实现系统有序工作,需通过主从仲裁、心跳监测手段确定哪一个为主节点:①主从仲裁。上电时默认槽位号较小模块上的为主ShMC,另一个为备用ShMC;主ShMC发送命令给槽位号较大的交换模块上的ShMC,如对方节点为非激活状态,则设本节点为主ShMC,另一个为备用;如对方节点已激活,则将本节点设置为备用ShMC。主从ShMC周期性发送心跳信号给对方;②心跳监测。备用ShMC周期地监测主ShMC心跳是否失效,如失效则将本节点设置为主ShMC。

3.3.3 监控管理门户

监控管理门户通过Web方式,向用户提供各类信息与服务。具体包括各类软硬件资源状态视图、网络拓扑,提供异常事件告警等功能;其管理页面提供系统配置、故障管理、应用管理、日志操作等操作界面;并提供访问控制功能,包括操作员身份认证、用户/角色管理、权限判断等。监控管理门户运行于上位机,主要为用户观察系统、访问控制提供便利,具体包括以下功能。

(1)实时状态展示

监控管理门户提供各模块实时状态展示页面,系统将自动发现、监测各模块节点,根据机柜号、机箱号、槽位号自动排布,向用户展示各模块运行的实时状态(包括模块类型、是否在位、正常运行/异常),并按路由关系建立各节点的网络拓扑。

(2)节点导航

提供文件系统、进程、性能监控、属性、BMC、远程登录、开关机等功能。在文件系统功能中,可对节点上文件进行创建、读写、删除等操作;在进程功能中,可展示节点上所有进程的状态及资源占用率;性能监控将节点资源(CPU、内存、磁盘、网络等)使用情况进行展示。属性提供节点的操作系统及其版本、IP地址和用户等信息。BMC提供节点的温度/电压/电流等传感器、网络端口、硬件版本等信息。远程登录为用户远程登录被监控节点提供支持。通过开关机实现单节点的上下电操作。

(3)应用管理

提供相关应用的管理操作,包括任务部署、文件上下载。任务部署对监控节点进行远程任务部署;文件上下载可将浏览器所在计算机上的文件传输到目标节点上,也可将目标节点上的文件下载到浏览器所在计算机。

(4)访问控制功能,包含用户管理、用户认证以及权限管理。用户管理实现用户信息的增加、删除、查询、修改;用户认证通过用户名、密码确认用户身份的合法性;权限管理根据用户属性提供不同的操作权限。

(5)远程控制

可通过以太网对各模块进行远程控制,监控模块工作状态,并提供人机交互界面。

(6)日志操作

提供日志查询界面,供管理员进行集群系统日志和用户日志的查询,并可将日志信息保存为文本文件。

4 系统实现效果

通过上述架构、硬件和软件等多层级设计及其有机结合,最终形成了对信息处理平台的监控能力。以下对其主要部分进行简要说明。

4.1 设备及节点基本视图

通过该视图可显示机箱及设备状态、节点基本信息,提供基本参数供用户使用。

机箱及设备状态如图6(a)所示,描述了系统中的机箱情况(3号机柜、7号机箱,共14个槽位)、在位模块(软件指示灯纯白为不在位)、模块类型(如交换、计算、显控、存储、电源等)、模块状态(软件指示灯斜线为正常、网点状为故障)。

节点基本信息如图6(b)、图6(c)所示。其中图6(b)显示了模块BMC上的信息,包括槽位号、主要芯片温度、板卡平均温度、功耗等;图6(c)描述了该节点上的操作系统类型及其版本、IP地址、协议类型和Agent代理ID号等。

图6 设备及节点基本视图

4.2 节点资源使用视图

节点资源主要是指用于处理的CPU及其外部资源,图7描述了CPU、RAM(内存)、DISK(硬盘)、网络等资源的使用率。其中CPU使用率,采用动态曲线描述一段时间内CPU使用率及其变动情况;RAM使用率,采用动态柱状图方式,描述其使用及变动情况;硬盘使用率变化比较缓慢,采用饼图方式进行显示;网络使用率采用动态曲线方式,描述其使用及变动情况。

图7 节点资源使用情况

通过资源监控设计,该信息处理平台可为用户提供设备及节点的基本信息、节点资源使用信息,方便用户及时监控设备状态、发现故障,掌握其变化规律,以便采取相应措施。通过各模块的热插拔、远程加载、上/下电、复位和看门狗等管理功能,结合模块的替换和重启等措施,减少了平台故障时间,提高了可用性。

5 结束语

该方案实现了各类故障与资源使用率的监控,并可跟踪各供应商产品的质量特性,满足了某信息处理平台的资源监控需要,并在某型雷达中得到了应用。随着信息处理平台规模越来越大,通过机箱间千兆网互联,可实现多机箱、甚至多机柜的资源监控,方便地支持了雷达后端系统的横向扩展;并可根据所记录的状态及故障历史,为故障预测提供支撑。为了向用户提供更好的技术服务,后续将在故障预测方面开展相关研究。

猜你喜欢
机箱监控节点
Formation of advanced glycation end products in raw and subsequently boiled broiler muscle: biological variation and effects of postmortem ageing and storage
CM节点控制在船舶上的应用
The Great Barrier Reef shows coral comeback
概念格的一种并行构造算法
结合概率路由的机会网络自私节点检测算法
你被监控了吗?
小而美——航嘉MVP MINI Ⅱ机箱
科学训练监控新趋势——适时监控
提高体育教师教学监控力的有效途径
大学MM你爱谁迷你机箱Party Show