高性能集群系统运维浅析

2018-08-18 08:23赵亮
数字技术与应用 2018年4期
关键词:集群运维

赵亮

摘要:网络的飞速发展,气象数值预报高分辨率循环同化系统对服务器提出了更高的要求,使用Linux操作系统构建高性能集群系统,用较低的价格实现高伸缩、高可用的计算服务,以弥补单台服务器无法达到的性能。本文以实际生产运行中的一则故障为例,剖析了系统运维中的一些方法。

关键词:数值预报;集群;运维

中图分类号:TP38 文献标识码:A 文章编号:1007-9416(2018)04-0190-01

1 集群的概念

集群是指一组协同工作的服务集合,可以提供比单台服务更稳定、高效、具有扩展性的服务平台。整体来看,集群是一个独立的服务实体,而实际上,在集群内部,有多个服务实体在协同完成一系列复杂工作。集群一般由两个或两个以上的服务器搭建而成,每台服务器称为一个集群节点。当一个节点出现故障时,集群的另一节点可以自动接管故障节点的资源,从而保证服务持续、不间断运行[1]。

综上,搭建一套集群系统需要N(N>=2)台服务器,同时还需要IB线缆、集群软件、共享存储设备(磁盘阵列)等,如下图1所示。

2 故障实例

某日,GRIDVIEW集群综合管理系统显示Node52节点异常,按照处理流程,使用Blade Full View Management System对告警节点进行“硬重启”操作。在等待数分钟后,节点依然显示告警,重复上述操作故障依旧。我们使用SKMV OVER IP系统登录告警节点查看,发现该节点无法进入Linux系统,服务器硬盘有报错,使用fsck命令校正文件系统依然无效,因此决定更换Node52服务器硬盘。但更换新硬盘后需要重新安装该节点的Linux操作系统以及各种集群服务,操作较为繁琐且冗余,我们可以使用拷贝安装的方式来进行修复工作。取出Node52的受损硬盘,将新硬盘插入Node51节点的空余硬盘插槽中,重启Node51节点,随即进入Node51的单用户模式。

我们来简单介绍一下单用户模式。单用户模式指有且只有一个用户可以访问某个资源的状态。单用户模式是系统最原始的状态,一切网络服务均未启动,文件系统也没有mount,僅基础的系统module被加载,再由kernel启动进入命令行状态。我们把此状态称为单用户模式。那Linux的单用户模式又是如何进入呢?我们在系统启动时,按下键盘上的“e”,即进入以下这个页面Linux系统启动页图2所示。

选择kernel /vmlinuz-2.6.32-358.el6.i686(即第二项)这一行,按下“e”建,在行尾输入:空格single,并回车确定。按下键盘的"b",即重新引导系统。然后就进入了单用户模式,在此模式下使用命令进行硬盘拷贝:dd if="/dev/sda" of="/dev/sdb",待命令执行完毕后使用init 0关闭Node51服务器。将拷贝后的新硬盘插回Node52节点中,随即启动Node 52,修改其IP地址、主机名,待修改完成后重新开启Node51服务器,使用GRIDVIEW监控系统显示所有节点均正常运行,至此服务器节点故障得以修复。

3 分析与总结

高性能计算集群的原理是将计算任务分配到集群的不同计算节点从而可以提高计算能力,所以其主要应用在科学计算领域,比如民航气象数值预报系统。目前比较流行的HPC采用Linux操作系统和一些免费软件来实现并行运算。这样的集群配置通常被业界称为Beowulf集群。这类集群通常会运行特定的程序以发挥HPC集群的并行能力。这类程序一般会应用特定的运行库, 如专为科学计算而设计的MPI库。HPC集群非常适合于在科学计算中各计算节点之间发生大量数据通讯及数据交换的计算作业,而一个节点的中间结果可能影响到其它节点计算的结果。

在上述故障中,当高可用性计算集群中有某个节点(Node 52)失效的情况下,这个节点上的任务会自动转移到其他正常的节点上。在此案例故障修复过程中,我们将集群中的某节点(Node 51)进行离线维护后再上线,这个过程并不影响整个集群的运行,在最大程度上保证了系统运行稳定。

参考文献

[1]郑纬民.石威.等译.高性能集群计算:结构与系统(第一卷)[M].北京:电子工业出版社,2001.

猜你喜欢
集群运维
大型国有企业环保设施第三方运维的探索与实践
海上小型无人机集群的反制装备需求与应对之策研究
运维技术研发决策中ITSS运维成熟度模型应用初探
一种无人机集群发射回收装置的控制系统设计
谈电力运维安全隐患排查治理
Python与Spark集群在收费数据分析中的应用
对构建智慧产业集群的几点思考
基于ITIL的运维管理创新实践浅析
中华医学会医学期刊集群化发展的模式分析