大数据背景下机房管理与运维工作优化策略研究

2021-04-14 20:51
卷宗 2021年12期
关键词:机房运维故障

沈 晶

(苏州科技大学,江苏 苏州 215009)

1 引言

随着社会经济技术发展进步,对计算机机房的管理与维护提出了更改的要求,虽然机房运维能力有所提升,但与预期管理效果还有一定差距。

2 机房常见故障分析

1)断网。机房内部设施结构复杂,受信号影响,一旦出现断网很难查明原因,需要采用技术手段进行勘察,因此造成长时间断网现象。2)网速慢。由于网络运行速度是由计算机结构以及机房外部环境因素导致,上班时间出现网速慢势必影响工作效率,甚至对一些以计算机为主营业务的部门造成一定经济损失,因此,要加强网络信息化建设,优化网络环境,确保网络运行速度的稳定性。3)服务意外退出。在计算机运行过程中,服务器不明原因退出现象会给用户信息数据造成丢失,增加了工作量,为了避免服务意外退出现象,应做好服务器的日常运维工作。4)软、硬件故障。机房的任何故障都是紧密相连的,因为机房内部主体之间在网络、数据线、软件等因素的作用下是互相关联的,其中某一环节出现故障,都会影响计算机的正常运行。当故障发生,应对计算机机房所有软、硬件全面排查,精准找出引起故障的主要原因,并加以解决。工作过程中,由于机房内部构造复杂,涉及的设备较多,因此给故障排查带来一定难度。同时,由于相关设备分属不同运维部门,在排除故障过程中,由于沟通不到位,造成延误的现象,影响工作效率。

3 机房故障原因与运维问题分析

1)运维体系不完善。决策层在购置机房设备时忽略了日常运维的作用,因此,在机房建立之后,运维投入的资金较少,满足不了日常运维需求。运维制度不健全,运维设备没有明确责任人,造成互相推诿,机房各系统、设备间、线路等问题频发,得不到及时、有效维护。2)运维技术落后。由于缺乏对运维资金的投入,运维人员得不到深入学习,造成运维技术落后,当出现设备故障、断网等问题发生,不能快速找准问题,影响运维效率,影响企业工作效率。大多数企业运用大数据技术手段,如果机房运维技术落后,大数据运营和很难发挥实效,机房管理和运维水平很难得到改善。3)基础运维不规范。由于机房机器设备特点,对周围环境的气温和空气相对湿度有较高的要求,如果没有注意环境因素,导致湿度过大,会造成机器设备渗入水分子,在导电的作用下会形成漏电。为了确保机房正常运行,延长设备使用年限,应控制好机房温度,一般在15℃-25℃之间,相对湿度在40%-60%之间。除了硬件的运维外,还要注重软件的定期升级,如果没有对软件采取升级及防护工作,会形成计算机运行能力下降,卡顿或者数据丢失等,甚至是网络病毒侵袭,因此,计算机房的内部与外部环境直接影响计算机的运行效率。4)运维人员能力素质有待提升。机房的运维人员对相关运维知识掌握不全,缺乏实际操作经验,造成运维过程中失误,延误了维修时间,在不了解技术的情况下擅自操作会造成设备硬件损毁,软件运行瘫痪,数据信息被盗等情况发生,严重影响企业工作效率。

4 大数据背景下机房智慧运维系统设计与应用

1)系统构成。大数据的智慧运维系统是由设备的基础层、平台运营层以及计算机的应用层三方面组成。运维的基础层主要是对机房运维基础中加装温度、空气相对湿度、水浸传感器,这些可有效掌控机房环境信息,同时加装摄像头装置,可以远程监控机房一切设备运行情况。平台层是在大数据技术手段运行下的智慧运维平台,通过人工智能操作、数据采用人计算、数据采集与模块整合四个部分组成,在平台上就可以获取传感器数据,并智能分析运算,通过采集的数据进行整合分析,达到精准了解机房所有设备运行水平。而具体应用层就是将应用大数据技术的智能系统投入到机房进行管理。2)系统功能。如果没有大数据做技术支持,传统机房运维形式落后,智能化程度满足不了快节奏的工作生活,潜在软件风险以及故障处理能力不够,只能等到故障已经发生或者硬件设备损毁才能发现,缺乏相应的数据支持,对故障缺乏预见性,运维精准性不够。大数据技术作用下的智慧运维系统可以高效运维机房软硬件设备,减低运维成本,提高运维效率,提高风险防范能力。大数据智能运维系统可以提高储备容量,对运维相关数据实行智能采集,同时软件系统自动分析,让运维方式更加精准和有效。3)平台特性。大数据技术为基础的运维平台其更加智能化,提高机房数据驱动扩展能力。在运维平台可在大数据技术的支持下完成建模,通过这种方式更加全面了解机房内部以及外部环境,平台可以享受技术学习的服务,帮助机房构建更加优质的环境,提高机房的运维质量。首先,平台弹性延展,可适应各种运维方式。平台可以根据实际需求组装模块,不断为运维工作提供微服务,对外开放接口,按照工作需求可支持不同应用,科学采集数据,可实现智能预警。加强访问权限及密码设置,提高运维内部环境安全系数,保证运维工作的精细化管理。

5 机房管理与运维的优化策略研究

首先要做好机房的日常运维基础工作,提高监控力度,增加检查频次。并对监控及巡查记录进行登记,发现异常情况立即采取相应措施,确保设备故障第一时间发现,第一时间解决,提高维保工作效率。同时,做好机房的防水、防火等措施,确保机房温度与湿度控制在合理范围区间,保障机房设备设施安全,提高使用年限。其次,要健全运维机制,为了有效提高机房管理和运维水平,应采用科学技术手段进一步规范维保制度,明确职责,根据实际工作标准定制运维工作内容和运维标准,规避人为失误造成的设备损失。提高运维人员的责任意识,提高运维工作质量。同时,要建立机房档案,根据机房设备的运维记录,做好日常运维信息的录入工作,在人员更换的情况下,也能充分掌握设备运行情况,为运维提供更加明确的解决方案。为了提高运维水平,可采取软件运维一体化措施,由于计算机网络开放性的特点,在不当操作下很容易受到病毒以及黑客的侵袭,造成数据丢失,影响网络环境的构建,软件运维要根据当前发展形势,借助现代化技术手段有效防控网络风险,加大对各类网络风险的识别,并采取科学有效的防范措施,减少病毒以及黑客的攻击。运维人员要加强对机房内部以及外部环境分析,充分了解潜在的风险,并制定安全管控方案,熟悉服务器的升级系统利用,加强防火墙设置,对防控病毒软件定期升级,软件病毒定期查杀等,规避机器设备产生故障的所有诱因,提高机房的网络安全。数据在长期运行后会产生垃圾数据,运维人员要不断更新数据库参数,不断优化数据库运行状态,对系统安全日志及时检查,确保及时发现问题并做好排除处理。

6 结束语

大数据推动了各行业的发展速度和发展水平,机房管理与运维工作在大数据技术的作用下,颠覆了传统的运维模式,现代化技术手段提高了智能化运维系统管控水平,使机房管理工作更加现代化、智能化发展,提高了机房运维工作效率。

猜你喜欢
机房运维故障
运维技术研发决策中ITSS运维成熟度模型应用初探
奔驰R320车ABS、ESP故障灯异常点亮
基于ITIL的运维管理创新实践浅析
N通信公司机房节能技改实践
新型有线电视机房UPS系统的配置
大功率发射机房冷却送风改造
江淮车故障3例
谈有线电视前端机房的防雷接地