规范IT运维管理 打造安全稳定信息平台

2015-04-07 16:43余志诚
设备管理与维修 2015年2期
关键词:运维流程人员

余志诚

(海南核电有限公司 海口)

IT运维管理,是指单位 IT部门采用相关的方法、手段、技术、制度、流程和文档等,对IT运行环境(如硬软件环境、网络环境等)、IT业务系统和 IT运维人员进行的综合管理。IT运维既是一种管理,也是一种服务。随着海南核电信息化建设的不断深入和完善,计算机硬软件系统的运行维护已经成为IT部门普遍关注的问题。海南核电由成立初期的5台服务器,8台交换机,只有5、6种应用到如今的60余台服务器、近80余台网络交换机、4台安全设备应用,IT运维工作已经成为企业重点工作之一。同时,随着IT人员的不断增加,如何将零散的、救火式的IT运维工作,利用现有资源,变成流程化、有序、有案可查、知识积累的运维方式,作为海南核电IT部门一个重点课题进行研究与讨论,并加以实施到日常工作中去。

一、现有模式及存在缺陷

海南核电成立初期,由于IT基础设施规模较小、应用不多、IT人员缺乏,IT部门作为一个技术支持部门,常常扮演"救火队"的角色,运维人员的工作非常被动。例如,随着IT规模的不断扩大,运维人员的多数时间和精力都是在处理着重复性问题,无法专注于其核心业务的开展。不仅IT运维效率低下,而且工作质量不高。

(1)缺乏记录,报告难以汇总与查询。运维人员大多未养成记录习惯,每天、每周和每月汇总报告时,对自己的工作量、所维护系统的整体情况,均不能清晰地表达。

(2)工作职责不明确。运维人员对所辖的维护职责并不十分清楚,只知道大概应该做什么,但是具体到某个事情时,到底该由谁负责,怎么负责却没有明细的定位。

(3)缺乏运维知识管理。因为缺乏有效的知识积累和共享,造成操作维护效率低下。不仅使类似的故障和问题仍然在不断发生,也因某些掌握关键信息和技能人员的调动,而使日常维护工作陷入瘫痪。

(4)工作绩效难以量化考核。由于缺乏对运维人员工作绩效的考核依据,无法对他们到底做了哪些事情,工作质量如何,都无从考证。

(5)无序的“救火式”IT管理维护模式,使运维人员几乎很少能准时下班,多在处理突发性技术故障问题。不仅很难有效地进行服务管理,也无法保证IT服务的有效性和一致性,使IT管理处于无序状态。

二、原因分析

IT运维和IT开发人员,在对信息系统进行管理时,若抱着各自负责的心态,在系统较少或人员较少的情况下,或可十分快速地去完成工作。但也存有诸多隐患,例如,一旦系统增多或人员增多时,若仍然各自负责,就会因系统操作未通知他人,致使其他系统停运;或因随意的操作导致机房跳线凌乱,设备配置凌乱;或因文件存放的散乱,而在清理系统时误删除,造成系统数据不可恢复的丢失;或因系统配置操作记录缺失,造成系统二次配置时错误,甚至无法挽回;或因系统备份文件未标记,造成恢复系统时,无法找到合适的备份等。

“救火式”IT运维工作的产生原因,大多为:系统部署时,缺少建设规划,使得分配系统使用的资源较为随意,后期难以收回;系统交付时,缺少配置文档,使得运维人员按自己的理解去管理系统,而不能结合系统的实际;系统运维时,缺少运维规划,使得不能很好的去定制系统的运维计划,致使往往是IT运维人员晚于用户发现故障;系统故障时,缺少配置环境参考,不能分析故障原因,或知其原因,不敢下手;系统变更时,缺少变更规划,对其他系统的运行带来不良影响;由于预警机制的不完善,对于问题永远都处于后知后觉的状况,从而导致一系列的恶性连锁反应的发生。为此,应着手梳理好以下工作:

(1)系统建设环节。由IT运维人员按IT项目负责人的需求,去分析系统所需的资源,并在建设环节全程跟踪,以指导项目负责人去合适地利用资源。

(2)建设移交至运维。由项目管理人员将建设完成的IT系统,移交至运维工作人员,运维工作人员根据项目管理人员对系统的备份要求、管理要求,制定备份计划和管理计划,并将系统各类资源收录在案。

(3)运维管理环节。运维人员将系统纳入每日的巡检工作之中,检查系统的可用性,分析系统的错误日志;若系统发生变更,则记录变更内容,并更新系统当前的最新配置文案。通过化整为零的方式,梳理出了IT运维工作的各个环节,并细化出相关的工作事项。

三、分析设计和工作流程再造

在谈到IT运维/服务管理时,不得不提到ITIL,即IT基础架构库(Information Technology Infrastructure Library,ITIL,信息技术基础架构库),因为IT服务管理是ITIL框架的核心,是一套协同流程。 IT服务管理包含了网络管理、系统管理、开发管理、资产管理、问题管理、配置管理、发布管理、事件管理、变更管理等诸多管理活动和工作流程。

ITIL强调以客户为中心,向客户提供高质量、低成本的服务,重视服务质量QoS,通过对服务质量、服务可用性、可靠性和服务成本等方面进行评估来实现IT服务管理。它同时强调“流程Process”的思想,即建立一套规章制度来实施对服务的有序化管理。海南核电的IT运维工作主要表现在以下2处。

1.无流程变为有流程

在梳理出运维主要工作以后,不仅对每项工作进行了流程再造和设计,也对流程上的每个节点进行了分析,对应之角色。制定的2个工作流程是新建系统流程和变更流程。

①新建系统流程。主要通过分析项目负责人所提出的应用系统平台运行环境需求,并结合海南核电信息系统环境所能提供的资源,在系统搭建前期递交新建系统的部署方案,通过逐一审批,以认可此方案的资源分配是合理的,对已有系统的影响是有益的,而后方可执行部署。在部署完成后,通过新增系统表单,将新增系统的各项资源反馈给运维工作人员,从而实现“建设移交至运维”的过程,并将新增系统合理的内容纳入运维工作中。

②变更流程。着力点是明确变更的原因,并写出变更的操作预案,能有预见性地了解变更所能够造成的影响,通过审批,以确认变更操作是合理、无害的,而后方可执行。并将变更事项记录在案,以确保文案的最新性。

2.无工具变为有工具

在建立了工作程序,制定了运维流程后,如何将流程执行起来,则是首要的问题。IT运维工作人员利用简单的办法,如利用邮件,实现IT运维流程的编审批过程;利用处室存储平台,实现IT技术支持文档(ITSD)和运维流程文件产物的存放查询。主要体现在以下方面:

(1)IT运维工作人员将明确的关键字,写在邮件的主题开头,从第一封邮件的开始,至最后一封的结束,保存了运维编审批的操作过程。这些关键字是请审批、请批准、批准执行、请审核、请更新ITSD、完成,以及驳回。

利用这些关键字,所形成的运维编审批流转邮件,在过程邮件及最终邮件,都能够展现流程的执行过程,确保了流程的完整性。

(2)IT技术支持文件是运维工作中信息系统的基础数据来源,对其更新管理是十分重要的。IT运维工作人员,经过多次分析和改进,将IT技术支持文件由原先的各自保留,变成统一存放和维护,并将重复、凌乱的文件进行整合,将缺失的数据重新收录和规整,按类化分,从而形成可维护和有效利用的支持文件平台。

四、结束语

目前的运维方式,由于现有资源的局限性,可能仍处于被动运维方式中,还应不断地探索适合自身特点的运维模式与分工。同时,运维人员不能仅停留在设备层面的维护,应加强在业务操作中的可塑性、替代性、理解性,使之能够更加清晰公司的IT业务模型,更有针对性的开展相应的工作。要在专注技术发展、技术参数等信息的同时,及时了解相关IT业务、应用的具体操作模式、部署、操作细节,以便能为业务提供合理的解决方案与意见,且应避免运维人员与IT开发人员断层式沟通,及时为应用业务提供合理的IT建议。随着IT建设的全面铺开,对IT运维人员的技术要求以及系统的安全可靠等要求也越来越高,因此,只有将IT运维管理的重要性深入到人们的工作意识之中,IT运维模式才会越来越优化和越来越先进。

猜你喜欢
运维流程人员
吃水果有套“清洗流程”
运维技术研发决策中ITSS运维成熟度模型应用初探
让刑满释放人员找到家的感觉
风电运维困局
违反流程 致命误判
杂乱无章的光伏运维 百亿市场如何成长
不得与工会组织任职期内人员解除劳动合同
本刊审稿流程
析OGSA-DAI工作流程
基于ITIL的运维管理创新实践浅析