应用系统运行维护平台的应用

2013-03-25 06:39寿
东北电力技术 2013年6期
关键词:分布式运维架构

寿 增

(辽宁省电力有限公司,辽宁 沈阳 110006)

随着智能电网建设的推进及IT技术的广泛应用,辽宁电网公司已经建立了核心业务系统,如ERP、用电信息采集及电网调度技术支持系统等,公司运营离不开这些IT系统,任何1个故障造成的损失、影响都很大,甚至影响整个公司的业务。传统的运行维护管理模式比较被动,只有当系统出问题时,才会引起注意和得到解决[1],这种管理模式已不能适应目前环境下的发展需求。

为了保证应用系统的可用性,不但要保证应用程序本身的正确性和可靠性,同时还要保证从网络到应用程序端的可用性,为此,从运行维护的角度来看,必须从整体的角度规划,对与应用系统相关的IT基础设施、支撑平台进行集中监控,并与应用系统进行关联,一旦出现故障,可迅速定位并解决。同时定义相关的流程以保证某个应用的变更不会对其它应用产生影响,对出现的问题从根源上找原因,并进行解决,从而保证系统的高可用性[2]。

1 关键技术

1.1 实时监测和原始数据存储

对于大型企业海量业务运维监测数据、原始定位和取证数据,系统采用对等分布式海量数据存储技术,来解决海量数据的存储及查询问题。

随着数据业务几何数级的提升,现有的软件系统结构及单机多处理器的硬件结构不能满足快速增长的数据流量及流向分析需求,本项目根据目前业务数据流量、流向及统计分析的需求,即要求海量数据存储及高并发快速访问,提出自有特色的对等分布式海量数据存储技术,其特点是充分利用现有硬件资源,结合网络技术、Raid5数据存储技术将海量数据以冗余条带的方式对等分布各分布式计算节点,同时使用快速主内存分布式哈希技术编目各节点数据分区的数据位置,可实现大容量数据分区存储、高并发数据访问及数据寻址。

系统采用DHT技术保障了对等分布式并行数据库处理中的快速数据及节点信息同步,采用HDFS(High Performance Distributed File System)作为DHT数据的备份机制,防止节点异常关机造成的信息数据不同步。

在对等分布式环境中,主节点与各节点间的数据节点信息存储及信息同步依靠的高性能分布是利用哈希表技术实现的,具有快速及高可靠性数据及信息同步的特点,为了实现高性能并行快速的同步数据节点数据及信息,本项目采用改进的分布式哈希表并行寻址技术,采用并行Bloom及内存动态分区技术实现节点数据分区及信息编码快速寻址。

1.2 统一数据模型

系统的UDM体系奠定了统一的网络和应用性能管理解决方案的基础。UDM具有可整合性能数据结构、适用于任何网络拓扑结构、可识别所有应用的特点。UDM把从各种不同的数据源 (如SNMP、MIBII、NetFlow、NetStream 和 sFlow、Net-Flow探针、业务路径探针、性能探针等)采集到的数据进行整合、关联,并用统一平台的软件加以管理,从而能够在前后一致的环境中采集、传送性能信息。

另外,UDM技术可将这些集中整合的数据提供给诸如网络模拟、网络IDS和计费等应用系统,从而完善这些应用系统的功能。UDM为各类用户提供了符合需要的、实时的和历史的网络信息数据,极大提高了企业组织和运作的效率。借助于UDM,企业无需购置新的工具或进行系统升级,就可轻松方便地增加新的网络拓扑结构或采用新的网络技术,从而减少企业网络基础设施的总成本。

2 系统的设计

2.1 系统架构

系统的解决方案主要由系统数据管理及分析服务器、性能探针、xFlow转换器和BigStream设备组成,见图1。

可见系统解决方案可收集网络中的多种数据源,包括探针、网络设备的 NetFlow、NetStream、sFlow数据、RMON信息、MIB信息、SNMP信息。多种数据汇总到系统数据管理及分析服务器,实现对网络最全面、最有效的性能管理。

2.2 功能架构

业务性能监控系统集成了网络流量分析、深度流探测、业务拨测及路径性能探测、专家系统管理、长期流量分析报告等功能,同时能通过标准的SNMP、RMON2,与其它的网络管理系统相集成,共同构成整体网络管理系统[3]。

图1 系统架构

业务性能监控系统包括数据源及管理软件2个组成部分。系统的数据结构采用标准化的RMON格式的SNMPMIB2格式,具有很高的互通性,可以接受不同网络设备,如交换机、路由器、防火墙、负载均衡器等的SNMPMIB2及内置型RMONMIB网管数据信息,除此也可收集Cisco的NetFlow、华为的NetStream和Foundry的sFlow等流数据信息,同时也包括了专用的硬件探针设备,见图2。

2.3 系统部署

系统在结构设计上允许集中式和分布式数据采集与计算,根据管理需求可选择集中式或分布式部署。集中式部署允许数据的采集与计算在网络的同一位置,通过单一平台进行配置和管理。分布式部署允许数据的采集端分布在网络的不同位置,最后通过统一的平台进行配置和管理,方便用户配置操作。

分布式数据获取有如下优点。

a. 分布式管理数据采集贴近管理对象,对管理效率与功能的提升有极大意义。

b. 分布式数据采集有效支持了多种不同的数据采集方式,将数据采集与数据处理有效分离。

c. 支持安全管理模式,考虑到数据安全,某些管理数据不允许远程跨网段传输。

3 系统的实现

3.1 业务运维监控

系统着眼于从IT整体架构到整体业务的综合服务品质,引入服务水平协议 (SLA)机制和业务视图,将各层次元素的管理贯穿和统一起来,被动性局部维护改为主动性宏观管理,重视预警机制和智能分析,致力于提高企业整体运营品质,提高资源的利用率。

图2 功能架构

系统对于业务管理,可概括为5个方面:业务架构、业务运行、业务使用、事件原因分析、基于业务统计与分析。通过业务架构和业务运行图形化展现,对业务实现了可视化管理,对必要的业务元素进行监控,保障了业务的正常使用,通过服务水平管理衡量IT服务对业务部门支持的质量[4]。

3.2 业务运行质量监控

系统的网络流量分析功能以流设备 (支持并开启Flow信息采集的路由器或交换机)、流接口(开启Flow信息采集的接口)为分析对象,对网络流量、流速、数据包数、会话数等指标进行汇总分析和趋势分析,帮助运维人员了解网络系统运行状况和变化趋势;通过会话信息查询、会话明细查询功能,帮助运维人员分析、定位问题;对网络流量提供基于流量、协议、应用服务、数据包大小、主机、会话、QoS等多个维度的分析,帮助运维管理人员多角度了解网络运行状况,及时发现潜在问题。

3.3 业务运行性能分析

系统建立业务实时使用管理,监测管理业务的使用状况、用户的分布情况,剥离不同业务的实时流量情况。脱离业务使用情况谈业务保障是没有意义的,对业务来说,最终使用对象是人,业务系统是否健康,业务量是否饱满,如何看待各类系统运行参数,这些都是和在线使用情况直接相关的,业务性能分析不能脱离业务负荷这个前提。

系统提供核心业务在线用户分析,结合IP地址管理规划,对业务在线情况、使用情况进行分析[5]。系统的业务在线用户分析依托强大的网络管理能力直接从网络交换层汲取数据进行实时分析,将分析结果按IP地址管理规划进行分类统计,系统能自动分析出不同用户所属的不同区域,管理人员能够清楚了解该业务当前使用者从哪里登录、这些用户属于哪些业务区域、这些用户是否在工作、这些流量的变化趋势是什么,直接可以得出某区域、某网段甚至某个人的实时业务访问情况,根据这些能分析出业务系统的效能,为业务系统分析提供数据参考。

3.4 业务流量管理

业务流量管理可为数据中心提供网络流量信息统计和分析功能,能够让客户及时了解各种网络应用占用的网络带宽,各种业务消耗的网络资源和网络应用中TopN流量的源主机,可帮助网络管理员及时发现网络瓶颈,防范网络病毒的攻击,并提供丰富的网络流量分析报表,帮助客户在网络规划、网络监控、网络优化、故障诊断等方面做出客观准确的决策。

3.5 告警管理

告警管理是实现对被管对象和本系统所产生的告警进行集中管理的模块,告警主要包括设备产生的原始告警、本系统产生的衍生告警两大类。其中,设备产生的告警是不同厂家自行定义的,网管系统需要对其进行归一化。本系统产生的衍生告警是指通过本系统的分析、判断,由系统自身产生的告警,一般包括业务性能告警、配置告警、相关性告警等。

告警处理中,首先是告警的采集,即将告警信息收集到系统,然后是对海量的告警进行处理以抽取出最需要关注的告警呈现给用户,同时告诉用户该告警影响哪些业务,目前有效告警的抽取采用相关性分析及根据告警分析来进行[6]。

4 结束语

应用系统运行维护平台采用开放的SOA架构,并提出“智能融合、业务协同、架构开放”全新的管理理念,为用户提供业务资源、业务用户和业务应用的统一融合管理,实现业务应用的端到端管理。同时以全开放的、组件化的架构原型,向平台及其承载业务提供分布式、分级式交互管理特性,提供最可靠的、可扩展的、高性能的业务管理平台。平台提供了从基础架构、业务应用系统、业务性能、业务质量 (流量分析)、业务运营异常行为乃至业务服务运维流程管理等方面的丰富功能,实现物理和逻辑资源自动化、业务性能可视化、服务运维规范化[7]。

系统在辽宁电网实施后,运维管理水平得到了很大的提高,整个IT环境故障的解决时间大大缩短,并且由于管理水平的提高,设备的非计划停机时间也大大缩短,可在故障发生前提前预警,通过手机短信、Email、语音等多种手段通知管理人员,为故障处理赢得时间,缩短网络服务意外中断时间,提高网络运行率。

[1] 龙 泉.云南电网IT运行维护管理系统设计与实现 [J].云南电力技术,2006,34(5):76-77.

[2] 邵 勇.用ITIL来指导IT系统的运行维护[J].网络与信息,2007,21(10):78-79.

[3] 张文艳.电力企业如何做好信息安全工作[J].东北电力技术,2010,31(11):50-52.

[4] 顾 菲,麻铁铮.浅析基于ITIL的中小IT企业IT系统运行维护[J].科技创新导报,2008,22(8):33.

[5] 陈世春,许 婷.省级集中营销业务应用系统的运行维护管理[J].电力需求侧管理,2011,13(5):50-52.

[6] 郭 巍.建立合理的非IT运营部门运维管理体系[J].中国高新技术企业,2008,15(20):24-26.

[7] 张智军.GIS设备的运行维护 [J].东北电力技术,2009,30(7):24-26.

猜你喜欢
分布式运维架构
基于FPGA的RNN硬件加速架构
功能架构在电子电气架构开发中的应用和实践
基于云服务的图书馆IT架构
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
分布式光伏热钱汹涌
杂乱无章的光伏运维 百亿市场如何成长
分布式光伏:爆发还是徘徊
WebGIS架构下的地理信息系统构建研究
基于ITIL的运维管理创新实践浅析