首页 - 信息中心 - 办公文教及光仪

如何进行网络故障诊断和排除

网络故障诊断,从故障现象出发,以网络诊断工具为手段获取诊断信息,确定网络故障点,查找问题的根源,排除故障,恢复网络正常运行。

网络中可能出现的故障多种多样,往往解决一个复杂的网络故障需要广泛的网络知识与丰富的工作经验。这也是为什么一个成熟的网络管理机构制订有一整套完备的故障管理日志记录机制,同时人们也率先把专家系统和人工智能技术引进到网络故障管理中来的原因。另一方面,由于网络故障的多样性和复杂性,网络故障分类方法也不尽相同。我们可以根据网络故障的性质把故障分为物理故障与逻辑故障,也可以根据网络故障的对象把故障分为线路故障、路由器故障和主机故障。

网络诊断可以使用多种工具:路由器诊断命令,网络管理工具和包括局域网或广域网分析仪在内的其它故障诊断工具。查看路由表,是开始查找网络故障的好办法。ICMP的ping、trace命令和Cisco的show命令、debug命令是获取故障诊断有 用信息的网络工具。如何监视网络在正常条件下的运行细节和出现故障的情况,监视哪些内容呢?利用show interface命令可以非常容易地获得待检查的每个接口的信息。show buffer命令提供定期显示缓冲区大小、用途及使用状况。show proc命令和 show proc mem命令可用于跟踪处理器和内存的使用情况。可以定期收集这些数据,在故障出现时用于诊断参考。

网络故障根据故、障的不同对象也可划分为:线路故障、路由器故障和主机故障。

1.线路故障

线路故障最常见的情况就是线路不通,诊断这种故障可用ping检查线路远端的路由器端口是否还能响应,或检测该线路上的流量是否还存在。一旦发现远端路由器端口不通,或该线路没有流量,则该线路可能出现了故障。这时有几种处理方法。首先是ping线路两端路由器端口,检查两端的端口是否关闭了。如果其中一端端口没有响应则可能是路由器端口故障。如果是近端端口关闭,则可检查端口插头是否松动,路由器端口是否处于down的状态;如果是远端端口关闭,则要通知线路对方进行检查。进行这些故障处理之后,线路往往就通畅了。如果线路仍然不通,一种可能就得通知线路的提供商检查线路本身的情况,看是否线路中间被切断,等等;另一种可能就是路由器配置出错,比如路由循环了。就是远端端口路由又指向了线路的近端,这样线路远端连接的网络用户就不通了,这种故障可以用traceroute来诊断。解决路由循环的方法就是重新配置路由器端口的静态路由或动态路由。

2.路由器故障

事实上,线路故障中很多情况都涉及到路由器,因此也可以把一些线路故障归结为路由器故障。但线路涉及到两端的路由器,因此在考虑线路故障是要涉及到多个路由器。厢有些路由器故障仅仅涉及到它本身,这些故障比较典型的就是路由器CPU温度过高、CPU利用率过高和路由器内存余量太小。其中最危险的是路由器CPU温度过高,因为这可能导致路由器烧毁。而路由器CPU利用率过高和路由器内存余量太小都将直接影响到网络服务的质量,比如路由器上丢包率就会随内存余量的下降而上升。检测这种类型的故障,需要利用MIB变量浏览器这种工具,从路由器MIB变量中读出有关的数据,通常情况下网络管理系统有专门的管理进程不断地检测路由器的关键数据,并及时给出报警。而解决这种故障,只有对路由器进行升级、扩内存等,或者重新规划网络的拓扑结构。另一种路由器故障就是自身的配置错误。比如配置的协议类型不对,配置的端口不对等。这种故障比较少见,但没有什么特别的发现方法,排除故障就与网络管理人员的经验有关了。

3.主机故障

主机故障常见的现象就是主机的配置不当。(一般有技术规范的IDC公司提供的服务器租用和服务器 托管主机或虚拟主机,出现配置不当的情况比较少。)比如,主机配置的IP地址与其他主机冲突,或IP地址根本就不在子网范围内,这将导致该主机不能连通。还有一些服务的设置故障。比如企业邮局服务器设置不当导致不能收发E-Mail,或者域名服务器设置不当将导致不能解析域名。主机故障的另一种可能是主机安全故障。比如,主机没有控制其上的finger,rpc,rlogin等多余服务。而恶意攻击者可以通过这些多余进程的正常服务或bug攻击该主机,甚至得到该主机的超级用户权限等。另外,还有一些主机的其他故障,比如不当共享本机硬盘等,将导致恶意攻击者非法利用该主机的资源。发现主机故障是一件困难的事情,特别是别人恶意的攻击。一般可以通过监视主机的流量、或扫描主机端口和服务来防止可能的漏洞。当发现主机受到攻击之后,应立即分析可能的漏洞,并加以预防,同时通知网络管理人员注意。

按照网络故障不同性质而划分的物理故障与逻辑故障。

1.物理故障

物理故障,是指设备或线路损坏、插头松动、线路受到严重电磁干扰等情况。比如说,网络中某条线路突然中断,这时网络管理人员从监控界面上发现该线路流量突然掉下来或系统弹出报警界面,这时首先用ping检查线路在网络管理中心这端的端口是否连通,如果不连通,则检查端口插头是否松动,如果松动则插紧,再用ping检查,如果连通如故障解决。这时须把故障的特征及其解决步骤详细记录下来。也有可能是线路远离网络管理中心的那端插头松动,则需要通知对方进行解决。另一种常见的物理故障就是网络插头误接。这种情况经常是没有搞清网络插头规范或没有弄清网络拓扑规划的情况下导致的。比如说网络插头都有一些规范,只有搞清网线中每根线的颜色和意义,才能做出符合规范的插头,否则就会导致网络连接出错。另一种情况,比如两个路由器直接连接,这时应该让一台路由器的出口连接另一路由器的入口,而这台路由器的入口连接另一路由器的出口才行,这时制作的网线就应该满足这一特性,否则也会导致网络误解。不过像这种网络连接故障显得很隐蔽,要诊断这种故障没有什么特别好的工具,只有依靠经验丰富的网络管理人员了。

2. 逻辑故障

逻辑故障中的一种常见情况就是配置错误,就是指因为网络设备的配置原因而导致的网络异常或故障。配置错误可能是路由器端口参数设定有误,或路由器路由配置错误以致于路由循环或找不到远端地址,或者是网络掩码设置错误等。比如,同样是网络中某条线路故障,发现该线路没有流量,但又可以Ping通线路两端的端口,这时很可能就是路由配置错误导致循环了。诊断该故障可以用traceroute工具,可以发现在traceroute的结果中某一段之后,两个IP地址循环出现。这时,一般就是线路远端把端口路由又指向了线路的近端,导致IP包在该线路上来回反复传递。这时需要更改远端路由器端口配置,把路由设置为正确配置,就能恢复线路了。当然处理该故障的所有动作都要记录在日志中。逻辑故障中另一类故障就是一些重要进程或端口关闭,以及系统的负载过高。比如,路由器的SNMP进程意外关闭或死掉,这时网络管理系统将不能从路由器中采集到任何数据,因此网络管理系统失去了对该路由器的控制。还有,也是线路中断,没有流量,这时用ping发现线路近端的端口ping不通,这时检查发现该端口处于down的状态,就是说该端口已经给关闭了,因此导致故障。这时只需重新启动该端口,就可以恢复线路的连通了。另一种常见情况是路由器的负载过高,表现为路由器CPU温度太高、CPU利用率太高,以及内存余量太小等,虽然这种故障不能直接影响网络的连通,但却影响到网络提供服务的质量,而且也容易导致硬件设备的损害。

网络管理的工具

目前网络管理的工具很多,但很多网络管理工具都集成到网络管理系统中,单独的网络管理工具不多。但仍然存在一些简单、实用的网络管理工具,这些工具包括:连通性测试程序(ping)、路由跟踪程序(traceroute)和MIB变量浏览器。

1.连通性测试程序

连通性测试程序就是ping,是一种员常见的网络工具。用这种工具可以测试端到端的连通性,即检查源端到目的端网络是否通畅。ping的原理很简单,就是从源端向目的端发出一定数量的网络包,然后从目的端返回这些包的响应,如果在一定的时间内收到响应,则程序返回从包发出到收到的时间间隔,这样根据时间间隔就可以统计网络的延迟。如果网络包的响应在一定时间间隔内没有收到,则程序认为包丢失,返回请求超时的结果。这样如果让ping一次发一定数量的包,然后检查收到相应的包的数量,则可统计出端到端网络的丢包率,而丢包率是检验网络质量的重要参数。

在广域网中,线路一般是网络的重要对象,因此监测线路的通断,统计线路的延迟与丢包率是发现网络故障、检查网络质量的重要手段。而网络中线路两端一般是路由器的两个端口,所以通常的监测手段就是登录到线路一端的路由器端口上ping线路另一端路由器的端口地址,从而掌握该线路的通断情况和网络延迟等参数。同时,由于登录是可以远程进行的,所以即使网络管理者在北京,如果他有足够的权限,他甚至能监测广州到上海线路的情况。

ping这种工具有一个局限性,它一般一次只能检测一端到另二端的连通性,而不能一次检测一端到多端的连通性。因此ping有一种衍生工具就是fping,fping与ping基本类似,唯一的差别就是fping一次可以ping多个IP地址,比如C类的整个网段地址等。网络管理员经常发现有人依次扫描本网的大量IP地址,其实就是fping做到的。

2,路由跟踪程序

路由跟踪程序就是traceroute,在WIN95中是tracert命令。由于ping工具存在一些固有的缺陷,比如从网络的一台主机ping另一台主机,我们可以知道端到端之间的通断和延迟,但这个端到端之间可能有多条网络线路组成,中间经过多个路由器。用ping检查端到端的连通情况,如果不通则无法知道是网络中哪一条线路不通,即使端到端通畅也无法了解线路中四条线路延迟大,哪条线路质量不好,因此这就需要traceroute工具了。traceroute在某种方面与ping类似,它也是向目的端发出一些网络包,返回这些包的响应结果,如果有响应也返回响应的延迟。但traceroute与ping的员大区别在于traceroute是把端到端的线路按线路所经过的路由器分成多段,然后以每段返回响应与延迟。如果端到端不通,则用该工具可以检查到哪个路由器之前都能正常鸡应,到哪个路由器就不能响应了,这样就很容易知道如果线路出现故障,则故障源可能出在哪里。另一方面,如果在线路中某个路由器的路由配置不当,导致路由循环,用traceroute工具可以方便地发现问题。即traceroute一端到另一端时,发现到某一路由器之后,出现的下一个路由器正是上一个路由器,结果出现循环,两个路由器返回的结果中间来回交替出现,这时往往是那个路由器的路由配置指向了前一个路由器导致路由循环了。

3.MIB变量浏览器

MIB变量浏览器是另一种重要的网络管理工具。在SNMP中,MIB变量包含了路由器的几乎所有重要参数,对路由器进行管理很大程度上是利用MIB变量来实现的。比如,路由器的路由表、路由器的端口流量数据、路由器中的计费数据、路由器CPU的温度、负载以及路由器的内存余量等,所有这些数据都是从路由器的MIB变量中采集到的。虽然对MIB变量的定时采集与分析大部分都是程序进行的,但一种图形界面下的MIB变量浏览器也是需要的。一般MIB变量浏览器,都按照MIB变量的树形命名结构进行设计, 这样就可以自顶向下,根据所要浏览的MIB变量的类别逐步找到该变量,而无需记住该变量复杂的名字。网络管理人员可以利用MIB变量韧览器取出路由器当前的配置信息、 性能参数以及统计数据等,对网络情况进行监视。


相关文章链接:

 

信息中心

最新文章

快速搜索站内文章