网络测试与故障查找

2009-09-27 06:10李清霞
中国教育技术装备 2009年21期
关键词:故障排查

李清霞

摘要 随着Internet技术和网络业务的飞速发展,用户对网络的应用需求空前增长,为了持续保障网络高效的运行状态,需要经常对网络的重要指标进行提取与分析,不断改善和提高网络的性能。网络测试的目标是及时发现网络瓶颈和潜在隐患,为优化网络配置和有效地进行网络性能管理提供可靠的数据支撑,对网络的服务质量指标进行量化、比较和验证。着重探讨网络测试的对象、方法以及如何利用网络测试技术查找局域网故障。

关键词 网络性能;网络测试技术;故障排查

中图分类号:TP393.06 文献标识码:B 文章编号:1671-489X(2009)21-0102-03

Network Testing and Troubleshooting//Li Qingxia

Abstract With the rapid development of Internet technology and network services, there is an unprecedented increase in the demand of the application of the network by its users. In order to constantly protect the efficient operation of the network, it needs frequent extraction and analysis of the important indicators of network to continuously perfect and improve its performance. The purpose of network testing is to detect its bottlenecks and potential problems, in order to optimize the network configuration and effective network performance management data to provide a reliable support and to quantify the quality of service indicators, to compare them and to verify them. This article focuses on the subject of network testing, as well as its methods and how to use its technology to locate the failures of local area network.

Key words network performance; network testing technology; troubleshooting

Authors address Guangdong University of Technology, Guangzhou, 510095, China

1 网络测试的对象

1.1 网络连接性网络连接性也称可用性、连通性或者可达性,指网络连接设备与介质之间的物理或逻辑连接状况。网络连接的优劣直接影响网络链路的性能和网络的运行状态,而且大多数的网络链路故障都与网络连接性有关。因此,网络连接性是网络测试的主要对象之一。

1.2 网络延迟网络延迟是指数据包经过一个或多个网段所经历的时间,即数据包从发送至收到应答所需的时间段。网络延迟由固定延迟和可变延迟2部分组成,固定延迟基本不变,由传播延迟和传输延迟构成;可变延迟由中间路由器处理延迟和排队等待延迟2部分构成。若网络延迟过大,则网络运行速度缓慢、通信阻塞甚至出现瘫痪现象[1,2]。

1.3 网络丢包率网络丢包率是指在一定范围内数据包丢失部分与所传数据包总数的比值。诸多因素会导致数据包在网络上传输时被丢弃,例如数据包的大小不规范或数据发送时链路的拥塞状况等。网络丢包率高将直接影响网络应用的正常使用,虽然网络传输没有中断,但由于丢包率过高,还是不能完成用户数据访问[1,3]。

1.4 网络带宽网络带宽是指在单位时间内网络节点传输的实际数据量,一般分为瓶颈带宽和可用带宽。瓶颈带宽是传输通路中没有其他背景流量时,网络能够提供的最大的吞吐量。可用带宽是在网络路径存在背景流量的情况下,能够提供的最大吞吐量。瓶颈带宽反映路径的静态特征,可用带宽反映在某时间段链路的实际通信能力。网络对带宽要求很高,例如当带宽资源只剩下节点传输速率的1/3时,丢包率就会升高,同时也会引起网络延迟问题。

1.5 网络流量网络流量分为包吞吐量和字节吞吐量2种,包吞吐量的定义是数据包的数量除以时间间隔,字节吞吐量的定义是数据包中总字节数除以时间间隔。随着网络流量的不断增长以及网络应用的日趋纷繁复杂化,网络带宽不断减少,而盲目增加设备带宽使网络建设成本增高,又不能根本解决问题。只有对网络流量进行捕捉、分析、监视和控制,才能找到网络性能的瓶颈,优化网络配置,满足不同的网络应用需求[1,3,4]。

2 网络测试的方法

2.1 主动测试主动测试是在选定的测试点上利用测试工具,有目的地主动产生测试流量注入网络,并根据测试数据流的传送情况来分析网络的性能。主动测试的优点是对测试过程的可控性比较高,灵活、机动,易于进行端到端的性能测试;缺点是注入的测试流量会改变网络本身的运行情况,使得测试的结果与实际情况存在一定的偏差,而且测试流量还会增加网络负担。主动测试的应用十分广泛,目前大多数测试系统都涉及主动测试[1,3,5]。

要对一个网络进行主动测试,需要创建一个测试系统,包括4个部分:测试节点(探针)、中心服务器、中心数据库和分析服务器。由中心服务器对测试节点进行控制,由测试节点执行测试任务,测试数据由中心数据库保存,数据分析则由分析服务器完成。

2.2 被动测试被动测试是指在链路或设备(如路由器、交换机等)上利用测试设备对网络进行监测,而不需要产生多余流量的测试方法。被动测试的优点在于理论上它不产生多余流量,不会增加网络负担;其缺点在于基本上是对单个设备的监测,很难对网络端到端的性能进行分析,并且实时采集的数据量可能过大,另外还存在用户数据泄漏等安全性和隐私问题。被动测试非常适合网络流量测试。

2.3 主动测试与被动测试相结合主动测试与被动测试各有其优、缺点,而且对于不同的性能参数来说,主动测试和被动测试也都有其各自的用途。因此,将主动测试与被动测试相结合将会给网络测试带来新的发展[3,4]。

3 网络测试的工具

3.1 线缆测试仪1)NS-468网线测试仪,用于测试RJ11、RJ45线缆,采用自动扫描的方式测试网络电缆是否接通,跳线是否正确。2)Lantek6线缆测试仪,可测试带宽达350 MHz,超过6类/ISO E级标准的线缆,嵌入式TDR功能并实现铜缆与光纤故障定位。3)FLUK DSP-4000线缆分析仪,快速准确地测试频率可达350 MHz的高性能超5类、6类及光纤链路;支持近端串绕和回波损耗等测试标准;能识别和定位被测链路中的开路、短路和连接异常等问题;可监测以太网的流量及脉冲噪声[3,5]。

3.2 网络分析仪

1)Etherscope网络通:分析网络流量;搜索设备、网络、VLAN、接入点、移动用户;测量互联网性能;搜索VLAN,查看端口状态、连接的主机和流量趋势;搜索网络并通过IP子网、NetBIOS域名和IPX网络分类查看设备;查看交换机详细信息和端口流量统计信息。

2)OptiView网络综合协议分析仪。①可完成电缆测试、网络流量测试、网络设备搜寻等功能;可对信息包进行捕捉、解码以及滤波;可直接对交换机或路由器进行设置;可作为网络的数据采集仪器和远程遥控测试仪。②实时远程监测和故障诊断可以延伸至整个网络。通过Java远程用户接口,可以直接从PC机上监测远程的网络,甚至解决那些非常棘手的间歇性故障。③能够生成有关IP地址列表、NetBIOS设备列表、以太网利用率、碰撞和错误的测试报告;可远程设置分析仪并通过网络启动分析仪开始测试;可迅速生成测试报告且连续地监测网段的变化和问题[2,4,5]。

3.3 测试软件

1)QCHECK软件,主要功能是向TCP、UDP、IPX、SPX网络发送数据流,从而测试网络的吞吐率、回应时间等。测试项目有TCP响应时间、TCP传输率、UDP串流传输率,还有CPU占用率及丢包率等。

2)网络带宽测试与监控软件BWMeter 3.0:测量和显示网络的所有流量;自定义网络带宽可视化风格;能显示所有的端口和网络适配器;能显示所有的网络跟踪;可统计每天、每周、每月、每年的网络带宽情况;具有自动报警功能;可生成基于端口和网卡的统计报表。

3)Sniffer Pro 4.6抓包软件,主要用于分析网络的流量,找出网络中潜在的问题。例如网络的某一段运行迟滞,报文发送缓慢,但又不知道问题出在什么地方,就可以用Sniffer来作出精确的问题判断。软件主要功能有:显示网络中所有机器的信息和交换机、路由器等网络设备;显示客户机发送和接收的数据包数量,据此查看网络中的数据流量大小;显示请求响应时间,查看客户机访问网站的详细情况;网络工作不正常时,会自动记录到警报日志中。

4)NetIQ Chariot v5.4软件,可对网络设备进行强度测试和对网络应用软件进行性能的评估,可以对网络进行优化或对网络变化产生的影响做出预测。软件主要功能有:通过模拟各种真实的网络应用流量来测试网络和网络设备;通过模仿各种应用程序所发出的网络数据交换,对各种网络进行评估;通过附带的各种测试脚本,可以测试网络的数据流量、响应时间以及数据吞吐量;能够在中央控制室对远程网络进行点到点、点到多点、多点到多点甚至是组播的性能测试;能提供多达1万个并发连接,在一个千兆链路上产生高达950兆左右的流量,模拟真实环境对设备及网络进行全面的测量;可以很好地对网络或网络设备进行各种应力或极限测试[2,4,5]。

4 网络测试辅助故障查找

网络故障多种多样,必须根据具体的故障现象,合理选择软硬件工具来辅助查找故障,尽快解决问题。以下讨论如何利用网络测试技术查找网络故障。

4.1 故障查找流程图(图1)

4.2 案例剖析某子公司局域网的远程用户经常间歇性地不能访问集团公司的OA远程服务器,故障表现为登录失败。依照图1故障查找流程,具体的诊断步骤如下。

1)正确描述故障现象。根据多次和反复的现场观察,例如反复检查用户本机的IP设置等,证实该故障表现是属于访问失败类型、时有时无的非永久性网络故障。故障的性质既可能是操作系统也可能是物理故障,甚至是软硬件故障兼而有之。

2)大致判断故障区域。远程服务器访问失败的故障区域,一般情况下覆盖内网(局域网)属下的有关子网和网络的干路,同时也包括外网接入系统,故障牵涉的范围比较广。因此,排查的区域应该考虑用户所在的子网、用户的主机、相关的传输介质、在各层对应的交换机和路由器、被访问的远程服务器、宽带共享接入系统等。

3)选择工具隔离测试。根据故障所在区域和牵涉的有关对象,配备好网络综合分析测试仪、网络通和线缆测试仪等测试工具,然后实施区域隔离,即在路由器的所有端口上只保留故障子网的接入,其他端口的子网接入全部临时断开。隔离完成之后在远程OA服务器一侧接入网络通,故障子网所在的接入层交换机一侧接入网络综合协议分析仪,测试整段数据链路的传输状况[5,6]。

4)按OSI结构分层排查。测试结果是整段链路虽有数据包通过但流量时大时小甚至完全阻断,显然,该远程网络节点的数据传输不正常。如何深入排查呢?按照先近端(公司本部)、后远端(集团公司)的排查原则,基于OSI七层结构从物理层向上依次查起。采用网络综合分析测试仪和线缆测试仪对各层的交换机和传输介质进行分段测试,得出各层交换机的性能和故障用户所在工作区的线缆状况是正常的,但发现接入层到汇聚层之间的干路线缆传输衰减比较严重,并有时通时断的现象;再用网络综合分析测试仪检查该链路的数据传输速率,却只有7.5 Mbps[2,3,5]。

5)根据测试确认故障部位。通过综合分析线缆测试的数据结果,判断该段干路线缆可能会有问题。实地跟踪检查该线段沿途经过的路线及其健康状况,发现在4楼转弯暗角位置,线缆不知何时受过严重碰撞,已处于临界断裂状态,故障部位找到。修复之后再重新测试整段链路的传输特性,各项指标均达到要求。

在实战中,往往一次的测试可能只找到一个故障点,并不能最终解决问题,因为许多故障现象很可能是由N个故障点形成的,因此故障的排查是一个重复进行的过程。例如本案中线缆问题处理好之后,故障现象却依然存在,说明还有其他故障点尚未找出来,必须重复上述排查步骤。继续用网络综合分析测试仪检查路由器的性能状态和路由器的IP设置,没有问题;再到远端(集团公司)逐一排查线缆、路由器和OA服务器等有关软硬件因素,也没有问题。排查陷入僵局,唯有再重复一次。回到子公司故障子网的接入层任选另一台工作站,并配置远程用户的IP参数,正确输入远程用户指定的账号和密码后,登录访问一切正常!证实故障点显然在原有远程用户所在的主机[2,6]。

重新认真地检查该主机的各项IP设置并没有任何问题,只是发现它添加了无限制的共享打印服务;再逐一打开同一子网其他工作站的IP设置,发现都安装了网络打印机,而且DNS设置均指向远程用户所在的主机。卸除共享打印服务之后,故障自行消失。

6)故障产生的原因分析。第一个故障点产生的原因是线缆受损后似断非断,形成物理上间歇性的接触不良,影响数据传输的稳定性和带宽。其病源是综合布线施工不规范,因为网络干路属于综合布线垂直子系统,按规定必须敷设在大楼暗藏的竖井内而不能明敷,否则有线路故障时会影响其干路属下的整片用户群。第二个故障点产生的原因是在远程工作站中添加共享打印服务,等于将自己的工作属性改为打印服务器。由于子网内部打印任务比较繁忙,而工作站本身的系统资源又很有限,不能满足多任务的工作方式,所以势必造成自己访问远程OA服务器时不稳定,诸如上述间歇性访问失败的故障现象。故障病源是远程用户擅自将本机添加为打印服务器,类似这种人为的因素而导致网络运行不稳定,是防不胜防的[2,6]。

5 小结

对于网络故障的排查和分析,可以借助专用的网络测试工具和设备,无论采用的是硬件还是软件的方案,都对网络故障查找有一定的帮助。在网络测试中,依据故障现象来决定采取何种测试解决方案,需要长期的经验积累及对相关测试工具的熟悉和了解。

参考文献

[1]赵庆斌,马素霞.网络测试深入解析[M].北京:清华大学出版社,2003

[2]夏俊杰,周雪峥.网络故障诊断与测试[M].北京:人民邮电出版社,2002

[3]曹庆华.网络测试与故障诊断实验教程[M].北京:清华大学出版社,2006

[4]王群,李馥娟.局域网优化与测试DIY[M].北京:人民邮电出版社,2001

[5]刘晓辉,王淑江.网络管理必备工具软件精解[M].北京:人民邮电出版社,2006

[6]杨军.局域网典型故障排除实战[M].北京:电子工业出版社,2007

猜你喜欢
故障排查
北京市海淀区新型自动气象站故障排查分析
智能电表故障排查及其处理方法
电力通讯线路设备检测方法及故障排查
浅议电子线路故障排查基本“三法”
沙溪口水电厂直流系统接地故障排查
区管FA16日常维护与典型案例分析
SDH告警产生原理分析与故障排查
电力类高职电气二次回路技术课程常用故障排查方法的探讨
电容器跳闸故障原因排查及防范
酒精喷灯常见故障的排查与维修