网络为何抖动大

2016-11-26 05:19
网络安全和信息化 2016年5期
关键词:网管脚本报文

引言:Ping这个命令对于网络运维人员再熟悉不过了,它主要用于检查网络是否连通,可以很好地帮助我们分析和判定网络故障。在日常网络维护过程中,Ping延迟大甚至丢包的现象最让我们为之头痛。本文运用抓包工具和Ping命令,准确地揪出故障元凶——ONU自动配置脚本。

故障现象

近日,有同事反映,配置OLT设备时输入命令不流畅,有卡顿的现象。得知这一故障现象后我们立即展开排查。

故障分析

使用Ping命令对OLT设备进行测试,发现数据抖动很大,具体Ping测试结果如图1所示。

通过图1可以看到,Ping该OLT的延迟时间长,而且报文的抖动也比较大。这种延迟长抖动大的问题就会导致远程配置设备卡顿和操作不流畅。

图1 Ping测试结果

为了尽快排除故障,我们对其他的OLT设备也进行了同样的Ping测试,结果都是一样。其实172.16.90.130这是一个设备的管理地址,那么互联网业务是不是也和设备管理业务一样呢?搭建测试环境使用PC机对BRAS进行Ping测试,结果是互联网业务没有发现延迟和抖动大的现象。现在基本可以断定只是网管业务受到影响,

我们的网络拓扑结构十分简单,故障OLT直连BRAS设备,设备的网管是通过BRAS另外一个端口连接网管交换机来实现的。为了尽快锁定故障,我们决定使用抓包工具来分析问题。在对设备进行抓包前,首先需要配置镜像端口和源端口,这次出现故障的OLT管理VLAN是VLAN90,所以有针对性地对该VLAN进行分析。OLT设备的镜像配置命令如下:

通过上面的配置定义8/5为监视端口,被监视端口即源端口是8/1,端口8/1上联 BRAS,端口 8/5连接抓包电脑。

故障解决

通过报文的查看可以发现一些异常的报文信息,即有一些固定的IP地址给该OLT发送特定报文。在OLT上使用命令show process cpu和show cpuutilization查看设备进程占用和OLT的CPU利用率时,发现CPU利用率有时比较高。同时发现2个IP地址固定向该OLT发送报文,其中一个地址即该设备的管理服务器,还有一个地址10.66.66.16,该地址每隔一秒就会向OLT发送数据,频率十分高。

通过对该设备MAC地址的追踪确定了该服务器的用途,该服务器用于配置ONU,其系统在运行一个自动配置ONU的脚本,它的工作原理是及时发现ONU上线,主动配置设备。为了做到及时发现新上线ONU,该脚本会持续不断地向设置好的OLT发送命令。

发现问题后,我们果断地将该脚本关闭,这时发现设备的CPU利用率立马得到了下降,随后也关闭了设备网管服务器的部分服务进程,故障OLT的CPU利用率从刚才的80%下降到了20%,回到了正常的范围内。这个时候再次对OLT进行Ping测试,网络恢复正常,设备的Ping延迟普遍在1ms左右,同时远程配置该设备也十分流畅,故障得到解决。

故障总结

上面我们从得知故障现象到使用Ping命令对设备测试时发现延迟长、包抖动大。找到问题的诱因后,运用抓包软件和show命令将故障原因准确定位。故障原因是自动配置ONU的脚本频繁的向OLT发送查询命令,OLT的CPU利用率过高,从而导致设备网管数据无法处理。在采取关闭自动配置脚本的措施后,设备CPU利用率回归理性值,故障也随之恢复。

通过该故障的排查,为方便后期ONU设备的配置,我们降低了脚本对OLT执行命令的频率,从而有效地减轻了设备CPU的利用率,这样做的好处是在保证设备工作正常的同时,还能继续发挥自动配置ONU的作用,达到了一举两得的好效果。

猜你喜欢
网管脚本报文
酒驾
基于J1939 协议多包报文的时序研究及应用
安奇奇与小cool 龙(第二回)
CTCS-2级报文数据管理需求分析和实现
浅析反驳类报文要点
给水网管的优化布置研究
快乐假期
卫星通信系统中网管信令传输优化及仿真
小编的新年愿望
ATS与列车通信报文分析