基于故障隐患深度挖掘的IP化网络优化

2013-10-30 03:53李松坡
科技致富向导 2013年17期

李松坡

【摘 要】在多业务融合和高带宽需求的驱动下,通信网络向IP化演进已经成为业界共识。但这同时也给网络的运营和维护提出了新的要求,随着IP化进程的不断推进,各专业之间的界面越来越模糊,此前各专业独立的网络优化概念也需要转变,需要专业之间的联动来进行全局性的优化,以达到提高网络质量的目的。本文提出了基于故障隐患深度挖掘的IP化网络优化方案。

【关键词】故障隐患;深度挖掘;IP化网络优化

1.项目背景

目前核心网IP化进程已达到85%的情况下,如何降低网络故障率,故障发生后如何快速的定位故障,提高定位准确性成为网络维护工作面临的一个巨大的挑战。为了实现这一目标,从故障隐患点深度挖掘出发,逐一梳理IP化网络的故障隐患,对故障隐患进行重点优化和监控。

重点期望解决的问题有:

(1)网络结构清晰化,对不同厂家的设备,网络架构进行统一分析,通过网络结构的优化,降低维护复杂性。

(2)故障隐患深度挖掘,通过对网络架构的分析,分析引起系统故障的隐患所在,进行重点优化和监控,降低网络故障率,并保障故障发生时能及时监控。

(3)故障定位时效及准确性,发生故障后,通过重点排查故障隐患点,提高故障定位时效性和准确性,保障故障处理能力。

2.项目内容

2.1网络架构优化

对于软交换IP化网络,要提高网络稳定性,需从网络架构层面具有容灾机制。以MSCServer为例,一般采用1+1主备方式即一套工作在主用状态,另一套工作在备用状态。1+1互为备份方式即两套MSCServer同时工作在主用状态,互为备份。N+1方式进行容灾即N套MSCServer工作在主用状态,共享一套备份MSCServer。

三种容灾方式架构不同,针对不同的组网需求,应综合考虑网络结构,网络功能,倒换需求及可靠性等因素选用最适合的实现方案。软交换站点采用了N+1备份方式。N+1备份方式,网络结构清晰,建网和运营成本少。N为同时处于运行状态下的激活的MSC server,1为备份的MSC server,在正常操作状态下,备份的MSC server在网络上是不可见的,但同时对N个激活的MSC server进行配置数据的同步,当有某一个MSC server出现故障或判定与平面内MGW的Mc接口失去通信时,则由备份的MSC server进行业务接管。

2.2故障隐患分析

2.2.1 MC接口故障隐患

Mc接口一般通过二层交换机进行收敛,再接入到CE路由器或者直接接入到CE路由器。MSCServer和媒体网关处理H.248的呼叫控制板卡均有两个物理接口,其中两个物理接口绑定为一个IP地址。对于MC接口如果发生故障,一般包括如下几种情况:

(1)当处理板主用端口和二层交换机之间的链路出现故障,则倒换到备用端口,倒换时间必须优化,符合业务需求,在300ms以内。

(2)当主用二层交换机出现故障,由于二层的心跳信号不通,则处理板进行主用到备用端口的倒换,倒换时间必须优化,符合业务需求,在300ms以内。

(3)当主用CE路由器出现故障,则处理板的端口不需要倒换,但主用二层交换机会通过备用二层交换机和备用的CE路由器通信。依赖于VRRP的倒换速度,倒换时间小于1s。

(4)当AR或AR-CE间链路出现故障,CE上OSPF路由丢失,依据OSPF路由重新收敛,CE1将改道CE2走备份链路,倒换时间依赖于路由的收敛速度。

2.2.2 Nc接口故障隐患

Nc接口可以承载BSSAP,ISUP,TUP,MAP,RANAP等信令,媒体网关利用信令板卡支持Mc-Sigtran接口。媒体网关侧的Sigtran接口,每个物理端口可以绑定一个或多个IP地址,每对物理端口进行主备路径的保护,机制采用SCTP的偶联多归属机制,即采用心跳信号的检测机制,其保护机制同MSCServer侧的Nc接口的保护机制。对于MC接口如果发生故障,一般包括如下几种情况:

(1)当主用链路出现物理故障,则立即倒换到备用路径,切换时间决定于SCTP的参数设定。

(2)当主用CE路由器出现故障,依赖于SCTP的多归属特性,则从主用路径倒换到备用路径。切换时间决定于SCTP的参数设定。

(3)当AR出现故障,则通过AR和L3Switch之间的路由收敛进行保护,端口不用切换。

2.2.3 Nb接口故障隐患

Nb接口一般为千兆电口或光口,配置主备用板卡,主用板卡的端口为主用链路,备用板卡为备用链路,主备板卡共用IP地址,即每对主备链路共用IP地址。每对链路可以同一网段内的不同的IP地址也可以用不同VLAN划分开。Nb接口通过定时发送APR检测CE路由器是否正常,当出现故障之后,进行主备板卡的倒换保护。对于Nb接口如果发生故障,一般包括如下几种情况:

(1)当主用链路出现故障,Nb接口产生告警并进行主备板卡倒换,倒换时间小于100ms。

(2)当CE路由器出现故障,依赖ARP的检测机制,主用倒换到备用链路,倒换时间小于500ms。

(3)当AR出现故障,主备不发生倒换,切换时间依赖于路由的收敛时间。

2.2.4隐患点分析

通过对软交换站点接入IP承载网的网络重要故障点的分析,共挖掘总结出以下重点故障隐患点。

AR路由器故障,根据站点接入方案,CE路由器与AR路由器之间采用的是ospf多实例,一台AR出现故障时,需要依赖于路由收敛。重点优化路由收敛时间,减小对业务的影响。

AR-CE链路故障,同样需要进行路由收敛。重点优化路由收敛时间,减小对业务的影响。

CE路由器故障,通常采用VRRP组网或主备组网,由于VRRP的天然缺陷,优化建议不采用。

3.实用效果

3.1梳理网络架构,有力支撑网络规划优化

不同厂家的系统设计思路不同,网络架构各异,给网络规划、建设、维护工作增加了一定难度。通过各专业联合分析,总结出软交换站点接入IP承载网时的最优统一架构,并且对厂家提出的各项网络解决方案中,对此问题进行了重点沟通,希翼在后续网络建设和优化中,朝目标网络架构演进,提高网络性能稳定性,降低故障隐患点,简化维护难度。

3.2故障隐患深度挖掘,明晰网络优化重点

通过对软交换站点架构分析,对网络中存在的各故障隐患点进行深度挖掘,并对隐患点可能引起的故障影响进行了评估。同时,通过故障点的逐一分析,也明确了IP化网络的优化方向,通过对此类重要故障隐患点的重点优化,将提高IP化网络的稳定性,对承载的业务提供更高可靠性支撑。

3.3丰富故障排查手段,提高故障响应速度

IP化网络故障隐患点的分析、优化给网络维护提供了依据,同时,维护人员针对故障隐患点制定了相应的故障处理方法,提前制定最优化的故障处理手段。当故障发生时,依据制定的故障处理方法,可以提高故障定位成功率和处理速度,改善用户感知。

4.总体效益与推广

实施后,经过统计,IP化网络故障定位准确工单占IP化网络故障工单总数的99.3%,比实施前提高了近10%。由于故障定位准率率大大提高,故障得到及时有效地处理,月平均故障历时减少32.9-27.8=5.1小时,影响通信平均用户数由1324人下降为1118。

项目实施后,故障专业定位准确率大大提高,降低了因故障专业定位不准而影响的故障处理时长,提高了网络服务质量,在客户中进一步树立了优质服务的良好形象,提高了用户满意度,加强了竞争实力,取得了良好的社会效益。