抓出交换机系统Bug

2016-11-26 06:42
网络安全和信息化 2016年8期
关键词:波形图网管镜像

引言:镜像技术是一门很底层的技术,一般用于实时网络流量监控,是在芯片处进行处理和实现的。在使用镜像技术后,交换机会将进出交换机端口的数据流量直接由芯片直接镜像,并将数据流量直接由交换机端口输出,并不会交给交换机系统处理后再由交换机端口输出。将镜像流量与交换机系统处理后的流量进行对比,就可以发现交换机系统存在的Bug。本文就向大家介绍通过镜像抓包,抓出交换机系统Bug的操作过程。

故障现象

笔者接到一个朋友求助,所在公司新建网络使用华为S5700-28CEI-24S交 换机(该交换机于2012年2月生产)作为对上连通交换机。在进行系统和业务试运行时,发现交换机的上联端口存在数据间歇性爆发现象。

从网管系统上看到该端口每隔7秒左右转发一次大流量数据,然后接着7秒左右数据收发正常,这个现象一直循环重复出现,在网管系统中的流量波形图如图1所示。此外,在网络中发现大量的广播数据包。更为严重的是,这种现象在持续了近2个小时后,交换机会自动重启,交换机重新启动后又出现上述现象。又过了2小时,交换机又自动重启,严重影响系统正常运行。登录该交换机,使用display cpu-usage命令,发现交换机CPU使用率超过了72%。

图1 网管系统流量波形图

故障分析

根据故障原因,笔者分析了造成该故障的可能原因。一是试运行的应用系统本身原因。应用系统本身存在设计问题时,数据存在间歇性地发送大量数据设计,从而导致交换机流量异常和重启。二是病毒导致。网络中存在木马病毒,会周期性地触发用于木马病毒传播的流量。三是网络中存在广播风暴。可能因为病毒或存在环路,网络中存在大量的广播包,造成网络阻塞。四是交换机ISO存在Bug。当ISO存在Bug时,会对部分数据进行缓存,到了临界点时,再一次性进行短时间内的瞬时转发,当交换机无法处理大量的数据时,就会造成死机和重启。

故障排查

1.对应用系统服务器进行了流量监控统计。在应用系统服务器出入接口进行了流量统计,发现服务器进出流量波形图基本处于平滑,每秒进出服务器的数据相差不大,不存在流量突变情况,排除了应用系统设计不足故障。

2.对网络中所有的用户终端进行了木马病毒查杀。使用了最新的杀毒软件对所有的用户终端查杀了木马病毒,虽存在有病毒,但并未发现会造成异常流量和广播风暴的木马病毒。

3.检查了网络链路。通过使用交换机环路检测命令和对所有的链路节点进行检查,没有发现存在物理网络环路。

4.抓包验证。采用了全镜像、输入流量、输出流量三种抓包方式进行流量统计。对上联端口的进出流量进行了全镜像抓包。在抓了3分钟30秒后,发现流量传输波形比较平滑,没有出现转发的中断和流量突发(如图2)。

对上联端口的接收流量进行了全镜像抓包,并进行分析,抓包后的接收流量波形图如图3所示。可以看到,接收的流量波形图是基本平滑的,其波峰不存在较大异变。

对上联端口的发送流量进行了全镜像抓包,并进行分析,抓包后的发送流量波形图如图4所示。可以看到,发送的流量波形图存在较大异变,但其异变周期为10秒左右,而非7秒。通过抓包发现,在发送的流量中出现一些流量的峰值,但其异变峰值平均只有173Kbps,而在网管系统中出现的峰值平均值却高达400kbps,看来发送的流量不是造成故障的主要原因,应该属于正常现象。

图2 交换机全镜像流量波形图

图3 交换机端口接收镜像流量波形图

图4 交换机端口发送镜像流量波形图

通过抓包,发现网络中存在大量的广播包,流量中的单播数据很少,跟日常的流量相比显得怪异,流量的转发大部分都为广播包。后经过询问得知,网管控制系统在设计的时候就采用的是全网广播的形式进行数据的交互,因此产生大量的广播包也属正常。

此外,通过抓包还发现,无论采用哪种抓包方式,都可以看到流量是平滑的,没有出现过流量的波动较大情况,也没有出现流量转发中断的情况,这与网管软件和交换机端口看到的流量统计情况完全不一样。出现这种情况,基本可以判断,这种现象应该是交换机系统存在Bug。

故障排除

升级交换机系统。登录华为官网,发现华为S5700系统交换机存在系统Bug,在Bug描述中,老版本系统在处理全网广播的数据的时候会出现Bug,在网络流量统计时存在一个计数Bug,即端口的统计数据包不是实时统计,而是过几秒统计一次,而网管系统读取的是交换机的端口信息,这样就出现了每隔几秒一次的波形图。

在网站上下载了最新的交换机系统文件,对该交换机的系统进行了升级,升级完成后,又通过抓包了解到数据的转发是正常的,是平滑的,没有出现网管系统中的波形图,网管系统中的流量波形图也正常,交换机端口的流量统计也正常,故障排除。

经验总结

交换机镜像技术本身是一门很底层的技术,是在芯片级别实现的,也就是说使用该技术时,进出端口的数据流量会在进出系统处理之前就会对流量进行镜像。

因此,通过镜像我们可以看到流量在进出该端口的底层数据上是平滑的,而通过网管系统和交换机统计的流量不完全一致时,基本可以确定是交换机系统存在Bug。

猜你喜欢
波形图网管镜像
由波形图领悟声音特性
浅析CH-γ方程中解的求法
镜像
镜像
浅谈轨道动态检测资料在线路维修中的应用
给水网管的优化布置研究
轨道几何动态检测项目及病害成因分析
卫星通信系统中网管信令传输优化及仿真
昭通市全覆盖数字电视直放站综合网管系统建设技术方案
镜像