浅谈大数据时代下分布式集群运维和故障处理策略

2019-09-10 07:22周佳琪

科学导报·科学工程与电力 2019年36期

周佳琪

【摘要】随着社会的不断发展以及科学技术水平的不断发展，信息化技术不断提升，大数据、云计算技术越来越普及，分布式集群在当今信息系统中的利用越来越多。在分布式集群的运维过程中，由于相关人员的专业素质以及技术水平参差不齐，导致分布式集群在运维的过程中会产生一定的问题，影响运维效率。本文在此基础上就分布式集群运维和故障处理策略进行了简要的分析。

【关键词】大数据，分布式集群;计算机硬件;运维;故障处理

1引言

随着社会进步和信息技术的发展，数据量越来越大，普通的信息系统已经不能满足需要，分布式集群越来越普遍。因此，必须掌握分布式集群故障诊断和排除能力，做好分布式集群日常维护，为信息系统创造高效安全的运行环境。分布式集群故障主要有硬件故障和软件故障等，遇到这些故障时要按照从外到内、由简单到复杂的原则进行诊断，不同故障采取不同的处理方法，本文主要讨论硬件设备故障。

2计算机硬件常见故障

2.1自动重启

计算机自动重启是非常常见的一种故障，但是这种故障却会带来很多困扰，大数据时代对于分布式集群故障的产生与维护都是利弊均有的，一方面，硬件设备越多，硬件发生故障的概率越大，另一方面，由于分布式集群一般采用高可用的不是方式，硬件设备的故障一般不会影响信息系统的正常运行。下面对硬件服务器故障进行具体分析：（1）内存问题：服务器的内存一般为ROM和RAM，当内存条上某些细小芯片不完全损坏的时候，服务器运维监控软件可能检测不到。大数据时代数据量剧增，在虚拟化服务器物理内存本就不足的情况下，很容易导致在主板过热现象，而导致内存损坏，以及大量虚拟机卡顿或设备重启。在集群长期运行的情况下，若接触不良，内存条插槽有灰尘进入，都会导致虚拟化服务器的功能不完整。（2）CPU问题：CPU作为服务器的核心部件，在大数据时代CPU的作用更加重要，数据的计算离不开它，当CPU电路部分功能被损坏时，虽然集群的高可用功能可以保障整个信息系统不会出问题，但是当服务器访问频繁，业务量较多的时候，一台服务器的CPU发生故障会导致集群其他设备的业务压力更大。又或者因为业务高峰期，服务器过热，机房内温控系统发生故障时，出于自我保护的原因，CPU因温度过高而使服务器关机保护。（3）主板问题以及其他问题：在日常运维中，分布式集群在工作时因主板的问题导致关机的情况也并不少见，当服务器主板使用时间过长，或集群运行环境不符合要求，会使主板加速老化，从而致使主板不能够正常运行，发生意外重启。另有系统盘故障、网络故障、恶意入侵、运行环境意外事件导致服务器故障，发生重启。

2.2蓝屏故障或显示故障

与个人计算机蓝屏问题类似，集群运行中蓝屏也是经常困扰运维人员的故障，这是显示器一般会显示一些代码，例如：0X0000007B，0X00000050，0X0000007E和0X0000008E，这些代码都是对用户的提示，比如出现0X0000007B就可能是硬盘导致的计算机蓝屏，硬盘可能由于设置问题或者遭受病毒侵入而导致硬盘引导分区错误，出现这种问题后如果能判断出是病毒原因导致的蓝屏，就可以在开启时按F8键（不同品牌的操作请参照用户手册），引入配置恢复的界面，如果配置无法正常恢复就可以选择重装系统的方式来解决。出现0X0000007E和0X0000008E可能是由于CPU的损坏导致的蓝屏。出现0X00000050可能是内存芯片的问题。

2.3宕机

第一，服务器散热性能不佳。集群运行会产生热量，运行时间越长散发热量越多，一旦各个部分安装的风扇出现问题，某部分有大量灰尘，运行环境通风效果差，硬件就会出现问题，频繁死機无法避免。第二，CPU超分提高了设备的利用率，具有优势，运行效率显著提升，但会造成一些新问题。比如，运行速度快，硬盘读取速度慢，内存亦是如此，三者步调不一致，导致CPU性能不稳定性极高，易发生死机。用户只需重新分配CPU，调回设置之前，就能解决死机问题。第三，硬盘使用时间太长逐渐老化，操作不当引起硬盘坏道，在运行过程中极易死机。通常做法是软件修复或者是直接更换老旧硬件。第四，软硬件互不兼容。软件和硬件相互匹配才能保证计算机正常运行。

3大数据时代下计算机硬件故障处理手段

3.1拔插检测

拔插检测对于IO设备和主板故障十分有效，并且操作简便。首先对可能故障的板卡进行估计，然后将计算机关机并打开机箱，拔出故障板卡，重新打开计算机，如果在拔出板卡之后，服务器可以正常运行，那么就可以确定拔出的板卡或IO总线上出现了问题。

3.2直接探测法

直接探测有手摸、耳听、眼看和鼻嗅四种方法，注意要在安全的前提下进行。手摸主要是对活动芯片进行按压探测，来观察芯片是否存在接触不良或松动的情况，同时，通过触摸设备，根据设备外壳的温度来判断设备是否在正常运行。耳听主要是在服务器启动和运转时，服务器内部是否存在异常的声音，一般服务器在启动时都会对主板进行检测，如果检测中出现问题，就会发出警报，同样，在运行期间，风扇和硬盘都会一直在运行，如果出现异常声音，要及时进行检查。眼看主要是巡检时，察看设备故障指示灯，通过这些异常的提示内容及时发现服务器故障;在服务器关机时可以观察元器件是否存在烧毁等较为明显的故障。鼻嗅是指在集群运行期间有无类似烧焦的气味，这可能使地方发生短路故障，应迅速采取措施。

4分布式集群设备故障维护

4.1电源维护

服务器通过电源获得电能，这些电能可以维持服务器的正常运行，每一台服务器都拥有一个独立的电源插头，服务器常年24小时开机不断电会导致发热进而出现故障，或者造成线路过热等一系列的问题。所以在选择机房运行环境时，一定要按照国家相关标准参看关键技术参数，这样可以减少一些安全隐患，除此之外，还需要定期对电源进行巡检，如果清洁不到位的话，那么灰尘就会堆积在电源盒里面，这样不仅会减少电源的使用寿命，甚至还会造成电源老化，从而产生安全隐患。

4.2CPU和内存维护

CPU是服务器的控制与运算核心，是服务器的大脑，对它的维护至关重要，因此要做到：合理分配CPU资源、避免业务较多的虚拟机部署在用一台物理机上。主板是构成复杂电子系统的主电路板，是服务器的神经，其上布置有大量的电路、电阻、电容及扩展槽等，还提供了一系列连接处理器、显卡、声卡、硬盘、对外设备等的结合点，对其各部分的维护都非常重要。因此要做到：避免频繁开关机，一次开、关机间隔应在30秒之上;开关机应当依循先关闭软件、后关闭操作系统的顺序;非专业人员不应随意打开机箱，要避免未关机时搬动主机、插拔主板元件，并使其接触良好;避免静电导致电路短路或主板损坏;做好主板、风扇的定期除尘;避免杂物遗留在主机内，主板线路远离热风扇，主板信号线远离电源线等。

4.3硬盘维护

服务器如果出现了比较明显的振动，那么计算机的硬盘就会被损坏，因为硬盘非常的脆弱，在服务器硬件中，硬盘更容易被损坏。所以应尽量避免服务器的移动，移动时应做好防护措施，并做好数据备份。而且硬盘中存储着很多文件，如果硬盘存储太多文件的话，服务器的I/O速度就会受到影响。

5结束语

总而言之，在集群的运维过程中，要做到及时巡检，及时发现故障并诊断故障发生的原因，只有了解了原因，才能对其中的硬件进行良好的维护，不仅可以提高集群的运行稳定性，还能在很大程度上保障快速故障恢复。用户掌握故障发生的原因，也能减少用户的无用功，避免浪费过多的资源。

参考文献：

[1]王艳.关于计算机硬件维护原则及方法的具体分析[J].信息技术与信息化，2018，12：94-96.

（作者单位：内蒙古自治区大数据发展管理局）