监控维护 让系统故障率降低30%

2009-05-07 09:22
中国计算机报 2009年7期
关键词:基础架构运维监控

杜 海

承担着全国通信管理业务的政府机构A的主要职责是做通信资源的规划、分配与指配通信通道、维护通信秩序等。经过多年的信息化建设,该机构已经建成了覆盖全国的管理信息系统,系统由国家、31个省(区、市)及派出机构等的计算机网络通过租用电信部门的2M专线等方式三级广域互连而成。按全国进行统计,该机构大概需要管理的设备数量为服务器700余台、路由器400余台、交换机约500余台、存储设备约2套、用户终端5000余台;此外,还需要对系统中大量的数据库系统、邮件系统、业务应用系统实施有效的监控管理。

这样一整套IT服务的基础架构涉及到该政府机构内的许多元素,能否对跨越整个机构的这些IT资源和组件进行有效管理就变得尤为重要。没有有效的信息系统管理手段、系统用户满意度不高、IT管理运维制度存在空白、管理经验不可重用、管理效益不可知等现实问题,制约着该政府机构IT综合治理监控的能力,影响着其自身业务应用的保障和发展。

结合该政府机构的管理现状和管理需求,天元网络建议该机构在全国管理信息系统中建立一个二级架构的网管系统,实现对网络、主机、存储、终端、数据库、邮件等的基础架构监控,建立统一的配置资源管理数据库、统计分析报表和故障分析处理平台,形成一套提供一站式的IT监控、自动化管理方式、面向业务的综合管理的有机工具体系,涵盖和实现针对资产、监控、综合分析方面的应用需求和技术需求。整个系统以两级软件架构的方式部署在国家中心和全国31个省中心及派出机构,实现对全国信息系统的分布式综合监控。

经过历时1年多的建设和近2年的实际应用,天元网络提供的某政府机构IT综合监控系统解决方案,统一和简化了该机构的整体IT管理,为各级用户提供功能丰富全面、具开放性、集成且模块化的IT管理系统。目前,依托IT综合监控系统该机构已经形成了各种周期性、临时性报表和综合性的运维报告,帮助运维人员及时掌握IT环境运行情况,使IT环境整体运行质量和可靠性大幅提升,故障发生率比使用系统前降低30%,平均故障处理时长由原来的1~2天,缩短为3小时。此外,经过2年的监控维护,还积累、丰富了运维知识库,形成了统一经验平台,涵盖网络、主机、终端、应用的实际维护知识经验超过500MB的存储量,提高了整体的运维水平;通过系统提供的链路、设备使用情况分析功能,为资产的扩容、使用提供决策支持。可以说,本系统实现了《北京市电子政务IT运维服务支撑系统系列规范》中规定的资产管理、监控管理和综合分析的技术和应用需求。

猜你喜欢
基础架构运维监控
The Great Barrier Reef shows coral comeback
自由流收费下的联网收费结算中心基础架构设计
运维技术研发决策中ITSS运维成熟度模型应用初探
智慧高速+互联网环境下信息化基础架构浅析
你被监控了吗?
Zabbix在ATS系统集中监控中的应用
基于ITIL的运维管理创新实践浅析
PDCA循环法在多重耐药菌感染监控中的应用