铁通省级IP城域网网管建设及关键问题研究

2012-07-30 07:01
铁道通信信号 2012年11期
关键词:铁通城域网网管

陈 炼

陈 炼:中国铁通集团广东分公司 工程师 510080 广州

1 IP城域网网管问题

铁通省级IP城域网的管理范围,一般包括集团骨干网络节点、省干网络、省网NDC数据中心以及下辖若干个地市城域网,管理设备数千台,约百万数量级的宽带接入用户,覆盖了路由器、BRAS、交换机、DSLAM、OLT、ONU等设备类型,涉及到思科、华为、中兴、烽火、港湾等厂商的数十种型号。网内大量的设备对日常运营维护管理能力提出了较高的要求。就管理手段而言,部分设备厂家提供了专业网管 (EMS),但缺乏统一高效的监控和管理手段,直接影响了铁通省级IP城域网的维护水平和运行质量,具体问题如下。

1.故障诊断时间长。网管人员需要同时监控多个网管的告警信息。当网络出现故障时,维护人员需要在多个网管系统之间切换,甚至可能还要登录到网元设备上判断故障点,故障排查时间长。

2.数据格式不统一。各个厂家专业网管提供的数据格式和内容不同,侧重点也不同,有的侧重于设备配置和告警监控,有的侧重于网元设备资源和性能管理。

3.缺少面向全网的历史统计性数据。各厂家的专业网管往往在设备配置管理方面非常完备,但缺少对整个网络的历史统计,不能给运维人员提供前瞻性建议。

随着宽带接入市场的蓬勃发展,用户对网络服务质量的要求不断提高,急需一套完整的IP城域网网络管理系统,以实现网络资源管理、故障监控、性能监测与统计分析等功能。为此,广东铁通进行了互联网省级综合网管建设工程。

2 综合网管建设

根据广东铁通的网络及业务需求,采用省集中方式统一规划建设IP城域网网络管理平台,实现面向全省IP城域网网络的监控和管理。目前已实现对城域网核心层、汇聚层和接入层设备的监控和管理。

2.1 功能要求

根据铁通IP城域网日常管理工作内容,将系统功能要求分为告警与性能监控、资源与拓扑管理、安全管理、报表管理等四大部分。

1.告警与性能监控。为了统一监控网络的运行质量,IP城域网网管需要对设备的告警信息进行采集、预处理,需要支持确认、恢复、升级、重定义、查询统计等功能,监控被管设备的性能信息,包括网元设备的CPU利用率、内存利用率、硬盘利用率、环境参数等,并对性能数据支持门限告警、查询统计等功能。流量是IP网络维护的重要指标,采集设备端口的流量数据得到带宽利用率,以图形化的方式进行展示和监控。

2.资源与拓扑管理。了解IP网络的资源状态,支持对被管设备的资源与拓扑管理,包括资源和设备配置信息采集、维护、查询统计等功能,以及对被管设备之间的拓扑连接关系进行发现、浏览、增删和查改等操作。

3.安全管理。根据铁通IP城域网的维护体系组织情况,支持对网络设备的分权、分域管理,即要求系统能够根据用户名及其相关联的角色,对用户的操作进行功能范围和区域范围控制,同时记录操作日志以备日后审计。

4.报表管理。被管理网络的各项统计信息需要通过报表进行统计呈现,支持常见告警、性能、资源等方面的统计报表,同时支持特殊管理需求的自定义报表。

2.2 系统设计

IP城域网综合网管系统采用分布式、模块化、组件化设计,符合NGOSS构架,充分保证系统的开放、灵活、先进性。广东铁通IP城域网网管分为数据采集层、数据汇聚层、业务处理层和UI呈现层等4层。

1.数据采集层。完成接口协议转换,根据设备的接口类型,将不同设备的数据和消息转换为统一的内部格式,传到数据汇聚层进行处理。该层支持基于SNMP、TL1、Telnet、SYSLOG等网管协议的数据采集。

2.数据汇聚层。采用统一的管理对象模型来描述网络中的管理对象和事件消息。统一的管理对象模型能够实现跨厂家、跨设备类型的统一描述,使复杂的异构网络以统一的面貌呈现给网管操作者。

3.业务处理层。该层基于统一的管理对象模型,实现了多种网络管理业务,包括资源管理、拓扑管理、性能管理、报表、安全管理等业务,并为UI呈现层提供远程业务调用接口,实现了业务逻辑集中处理。

4.UI呈现层。采用Java Swing技术,生成IP城域网网管的数据呈现和操作的界面。

2.3 关键技术

2.3.1 告警采集、预处理与呈现

告警管理是IP城域网综合网管的重要功能,通过对网内多种异构设备的告警采集、预处理和统一呈现,维护人员可以在单独界面上,以统一的方式监控网内所有设备的告警。IP城域网综合网管实现了基于SNMP TRAP、TL1、SYSLOG等多种接口协议的告警采集。SNMP TRAP主要用于对路由器、交换机等设备的告警采集,通过配置设备,将 SNMP TRAP的目标地址设置为网管告警采集机,即可接收设备的告警;TL1协议是基于文本格式的网管接口协议,在IP综合网管中主要用于面向xPON设备专业网管(EMS)的信息采集;SYSLOG协议主要用于对防火墙等设备的告警采集。

为了实现告警的统一预处理与呈现,IP城域网网管中提出了告警服务器的概念 (Alarm Server)。Alarm Server负责管理全局告警列表,主要功能包括:告警消息同资源信息的关联、告警预处理、更新告警全局列表、向客户端发送告警消息等。多个告警采集机将收到的告警信息格式化之后,发至预先设定的Alarm Server,由Alarm Server进行相关处理之后,再发送到各个订阅了告警消息的客户端呈现。

系统采用上述的告警处理结构,统一了告警处理流程,便于后续添加新的告警源;增加告警相关新功能时只要修改Alarm Server即可,方便升级与部署;Alarm Server可以部署在多台专用服务器上,实现了处理能力的线性扩展。

2.3.2 高效的性能指标采集

IP城域网综合网管的重要功能是设备性能监控和性能分析,要求网管实现大规模的性能指标采集,这也是综合网管同设备厂家专业网管的重要区别之一。通常专业网管在性能指标方面只实现少量指标的测试功能,无法提供大规模、长时间、细粒度的性能指标采集。为了实现在较短的采集周期内(通常是5 min),对大量的性能指标 (数十万数量级)进行大规模采集,必须仔细考虑性能指标的采集、入库的速度。

性能采集模块的基本设计思路是建立性能采集任务表,由调度程序对任务表进行周期性扫描,获得采集任务的基本信息。任务调度程序在相应的时间点启动采集进程,进行指标采集和入库。在广东铁通IP网管性能采集模块的设计上,考虑了下面几点。

1.数据库连接池。主要用于解决数据入库的性能瓶颈。采集机在拿到数据之后,需要将数据写入数据库进行后续分析,通常需要:①打开数据库连接,②写入数据,③关闭数据库连接3个步骤。实际测试发现,在每次写入的性能数据规模较小(数十个字节)情况下,步骤①③占用了大量的时间。解决这一问题有2个方案:第一,增加步骤②中的数据写入的规模,使步骤①③在入库过程中占用时间比例缩小;第二,建立数据库连接池,在每个采集机为性能采集保持若干个数据库连接,省去步骤①③。通过分析发现,在现有的性能数据入库场景中,多次小规模写入和一次大规模写入的单条性能数据平均时间开销是类似的,并且增加数据缓存后会较大地增加设计复杂度。所以,采用了方案二建立数据库连接池,其规模需要通过试验确定。

2.多线程并发处理。SNMP采集的基本过程如图1所示。其中,较大的时间开销是设备响应时间,即从SNMP管理程序发出请求消息,到收到响应消息之间占用的时间。考虑利用多线程技术,在同一个采集进程中同时发起对若干个设备多个性能指标的采集。由于线程间的调度会占用一部分处理器开销,过大的并发线程数量可能会导致整体效率下降,所以并不是并发线程的数量越大,采集的效率就会越高。由于网络因素和网络设备SNMP代理程序的性能情况并不确定,性能采集程序的最佳并发线程个数需要通过试验来确定。

图1 SNMP采集过程

3 总结

广东铁通IP城域网综合网管的建设,将归属广东铁通的铁通集团骨干网广东节点、省干网络、省网NDC数据中心,以及下辖地市城域网全部纳入了统一管理。通过在网络运维中使用该网管,网络管理人员可以快速、准确、完整地了解网络运行的状态和相关信息,对整个网络进行及时的监测、调整和优化,实现了提高网络的运营效率、宽带服务品质,降低网络管理成本,提高网络维护效率,保证广东铁通IP城域网能够提供稳定、高效的互联网接入服务。

[1] TMF 053 v4.0.The NGOSS Technology Neutral Architecture(TNA)[S].2004.

[2] J.Case,et al,RFC 1157.A Simple Network Management Protocol(SNMP) [M].1990.

[3] Telcordia,GR-831-CORE,Operations Application Messages-Language For Operations Application Messages[M],1996.

猜你喜欢
铁通城域网网管
IP城域网/智能城域网BGP收敛震荡的分析方法
铁通固话PSTN与移动IMS网络快速融合解决方案
面向FTTH业务的IP城域网优化改造设计
给水网管的优化布置研究
IP城域网建设中技术及应用情况分析
中移铁通正式揭牌成立
MSTP 技术推动城域网优化建设研究
北京市中小学网管教师培训需求研究
“五制配套”加强网管
简谈泰安铁通计费数据采集机的使用及维护