巧破网络风暴

2017-11-08 10:39
网络安全和信息化 2017年12期
关键词:提示信息网线网关

故障现象

单位同事因为工作原因,每个年度都会互相搬迁一次办公室位置。正常情况下,同事办公室的更换,无非就是缺一条网线或者网线不够长之类的小问题。

但是,今年在换办公室期间的某天中午,突然出现网络瘫痪,具体表现为:办公VLAN内的客户端与二级交换机和核心交换机的网关无法通讯,大部分其他的VLAN也同时断线,如机房的VLAN下客户机Ping二级交换机和核心交换机,都是time out。仅有一个所有物理端口都在核心交换机上的VLAN未受影响,该VLAN是给服务器用的。

在这种情况下,只有连接在核心交换机上的那些服务器网络是通的,其他的二级交换机以及客户端都无法通信了,基本上宣告整个网络瘫痪。

故障分析

1.利用“文”的技术检测

初看整个网络瘫痪,似乎无从着手,冷静下来一想,既然网络都是汇聚到核心交换机而且直连到核心交换机的服务器是通信正常的,那就可以从核心交换机s8610入手。于是,通过服务器上的telnet程序进入核心交换机,利用Ping命令测试它与二级交换机以及各VLAN网关的通信情况,发现核心交换机与二级交换机都不通,与VLAN网关通信很差。

这 时,在telnet终 端上不断跳出类似NFPP_ARP_GRARD DOS-DETECTED 以及DOS-ATTACKED的提示信息,所有的提示信息都指向核心交换机上的一个光纤端口,而这条光纤连接的是某一幢办公楼的二级交换机。通过核心交换机由于网络问题已经没法与这幢办公楼的二级交换机通信,当然也无法用telnet登录了。

确定了可能出问题的二级交换机位置后,赶赴该楼的分机房实地查看,那里二级交换机有5个,接入方式是4台二级交换机接入到一台s5750交换机,然后由s5750交换机通过光纤连接核心交换机。于是,在现场直接用锐捷的通信线通过Console口连接该楼的二级汇聚用的交换机s5750,这时要用到Windows的超级终端,Windows 7系统里没有的话,可以到网上下载一个用。选择比特率9600,进入交换机后,切换到Config模式还没用命令查看,就已经跳出提示信息(如图1)。根据提示信息,gi0/4端口有问题,查看物理连接后,发现该端口直连着一台二级交换机,这时,范围已经缩小到具体的一台二级交换机。

通过Console口进入有问题的二级交换机后,用enable命令提升权限,然后用命令show interface count summary看到各端口的数据统计信息(如图2),发现端口7和10的多播和广播数据特别巨大,而且多播数据是广播数据的很多倍,基本可以确定是这两个端口的广播风暴导致自己所在的VLAN网络瘫痪。而且因为数据过大,导致核心交换机拥堵,影响其他VLAN的通信。

2.利用“武”的物理断线

在利用技术手段检测的同时,同步使用物理断线的方式来判断分析的正确性并及时缓解网络拥堵问题。首先在检测出可能出问题的核心交换机上的光纤端口后,先把该端口的光纤拔掉,一来可以快速验证核心交换机和其他二级交换机的通信状况是否好转,二来可以缓解网络拥堵的问题,断开一路,先让其他的网络畅通。

图1 二级汇聚交换机中的警告信息

图2 二级交换机的端口数据信息

在找到二级交换机上可能有问题的端口的时候,也是先把这两个端口连接的网线拔掉,然后在这台二级交换机上接一台笔记本,设置成与它同一网段,测试通信是否正常。这样就可以及时验证分析的正确性。

解决问题

通过上述分析,已经确定问题出在某个二级交换机上的两个端口,在拔掉这两个端口网线的前提下,将核心交换机上分析时拔掉的光纤接上。这时,通过telnet登录核心交换机,测试它与各VLAN网关的通信,都正常了。

至此,大部分二级交换机与核心交换机的通信都恢复了,但是发现一个机房的二级交换机与核心交换机上的VLAN网关不通,但核心交换机已经没有拥堵,Ping各VLAN网关都是通的。后来,通过重启机房二级交换机,一切恢复正常。

通过查端口分配表以及实地查看,最后发现出问题的二级交换机上的两个端口处于同一个办公室的墙上相邻位置,那个办公室的老师在接电脑的过程中,没注意,把一条网线的两头分别插入了墙上的两个口,导致网络广播风暴,引起网络瘫痪。

经验总结

网络瘫痪是网管工作中经常会遇到的问题,有多种的可能性,经过这次事件,对于解决这类问题,有以下感悟。

1.抓住切入点

在网络瘫痪的时候,作为管理人员应该沉着冷静,找准切入点,一般可以从核心上查起,逐层深入。用好交换机提供的命令,如查看端口的数据包统计信息等。必要时,用简单的插拔线路的方式来验证自己的判断,这里没有用命令的方式来开关端口,一来插拔比较方便,二来当问题解决后直接插上网线或光纤即可,不用再次登录交换机操作。

2.可以重启试试

当问题已经排除,而网络依旧有问题的时候,尤其是二级交换机经过网络拥堵后(已经解决了引起拥堵的问题)一直网络不通,可以尝试重新启动。

3.注重平时的规范管理

网络问题大部分是人为原因造成的,要注重使用人员的安全培训,包括不乱接线路、不私接路由器、注意电脑病毒防护、系统补丁安装等。

4.采用合适的网管软件

如果资金允许的话,还是应该配专业的网管软件,这样在软件系统里就可以发现问题所在,并及时处理,省去了一层层去排查的时间。

猜你喜欢
提示信息网线网关
元征X-431 PRO 3S+实测:2018年吉普自由光保养归零
信号系统网关设备的优化
元征X-431实测篇2015款路虎揽胜刹车片更换过程
加强配网线损管理 提高企业经济效益
社会版(二)
LTE Small Cell网关及虚拟网关技术研究
应对气候变化需要打通“网关”
号码提示信息的呈现方法对手机操作的影响
转喻有无信息提示的眼动实验对比研究*
一种实时高效的伺服控制网关设计