网络层故障诊断与排除.ppt
《网络层故障诊断与排除.ppt》由会员分享,可在线阅读,更多相关《网络层故障诊断与排除.ppt(57页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、4.4路由器故障诊断与排除4.4.1网络层路由器故障诊断概述路由器故障诊断是从故障现象出发,以路由器网络诊断工具为手段获取诊断信息,确定网络故障点,查找问题的根源,排除故障,恢复网络正常运行。1.网络层路由器故障概述网络层路由器故障通常有2种:网络协议配置错误;路由器端口故障。协议配置错误是路由器产生故障最常见的问题,协议配置错误就是指路由器的设置不当而导致的网络不能正常运行。典型的路由器配置文件可以分为:管理员部分(路由器名称、口令、服务、日志);端口部分(地址、封装、带宽、度量值开销、认证);路由协议部分(IGRP/EIGRP、OSPF、RIP、BGP);流量管理部分(访问控制列表、团体)
2、;路由映射;接入部分(主控台、远程登录、拨号)等.配置错误是非常复杂的问题,故障来源于多方面,如线路两端路由器的参数不匹配、参数错误、路由掩码设置错误等。2.路由器故障诊断可以使用的工具路由器故障诊断可以使用多种工具:路由器诊断命令;网络管理工具;局域网或广域网分析仪在内的其它故障诊断工具。ICMP的ping、trace命令和Cisco的show命令、debug命令是获取故障诊断有用信息的网络工具。3.排除网络层故障的基本方法和诊断步骤排除网络层故障的基本方法是:沿着从源到目标的路径,查看路由器路由表(静态路由、动态路由),同时检查路由器接口的IP地址。排除路由器故障的步骤是:(1)首先确定故
3、障的具体现象,分析造成这种故障现象的原因的类型。(2)收集需要的用于帮助隔离可能故障原因的信息。(3)根据收集到的情况考虑可能的故障原因,排除某些故障原因。(4)根据最后的可能故障原因,建立一个诊断计划。(5)执行诊断计划,认真做好每一步测试和观察,每改变一个参数都要确认其结果。路由器硬件故障排除流程连续循环启动并伴随错误消息物理移除所有网络模块并打开路由器电源路由器是否仍然循环重新启动故障原因可能是网络模块或机箱中的插槽。每次安装一个网络模块,并在每次安装后重新启动路由器路由器是否仍然循环重新启动尝试将网络模块换到其他插槽,用于确定故障发生在网络模块还是插槽自身路由器是否仍然循环重新启动更换
4、机箱更换该网络模块更换路由器内存问题仍然出现时替换机箱尝试下一个网络模块直至找到发生故障模块4.4.2路由器常见的故障现象1.故障现象:配置的两台路由器间不能用RIP互通如果配置的两台路由器间不能用RIP互通,在物理连接没有问题的时候,就要考虑是否是下面的原因。(1)在Quidway系列路由器之间不通可能是RIP没有启动,也可能相应的网段没有使能。这里需要注意的是,在用使用network命令时要按地址类别配置相应的网段。例如接口地址137.11.1.1,由于137.11.1.1是B类地址,如果设置network137.0.0.0,报文将不会被对端接受,此时配置成network137.11.0.
5、0就可以正确接收了。(2)接口上把RIP给关掉了这时要查看一下配置信息,看看接口上是不是设置了undoripwork、undoripinput或undoripoutput命令。(3)子网掩码不匹配在RIP1这样的有类别路由协议中,主网中的每一路由器和主机都应有相同的子网掩码。如果子网掩码长度不匹配,信息包就不能正确路由。2.故障现象:不同厂商路由器设备的RIP兼容问题先按照上面的(1)进行相应检查。然后考虑是不是版本设置不同。Quidway系列路由器默认情况下,RIP可以接收RIP1和RIP2广播报文,但是只能发送RIP1报文。如果Quidway系列路由器之间互通时,一个配置为RIP1,一个配
6、置为RIP2,是可以正确地收发报文的。但是如果Quidway系列路由器和其他厂商路由器互通时,Quidway系列路由器配置了RIP2,而其他厂商路由器还是RIP1,就有可能出现问题。3.故障现象:RIP1与RIP2的区别可能引发的故障RIP1与RIP2的区别可能引发的故障,要考虑是否是下面的原因:(1)配置验证没有起作用由于RIP1不支持验证,如果在启动RIP后就配置验证,实际上是不起作用的(默认条件下是RIP1),只有在两端的接口上配了ripversion2后验证才能生效。(2)子网掩码没有配上在取消自动聚合的情况下,如果发送的报文中有一条B类地址的路由,但是配了24位掩码,结果发现对端路由
7、表上出现的是16位掩码。如137.11.1.0/24,得到137.11.0.0/16,就是由于没有配ipripversion2。因为RIP1不支持子网掩码,只能按地址类别聚合发路由,137.11.1.0是B类地址就会按类聚合为137.11.0.0发出去,RIP2支持子网掩码,这样配置的子网掩码就能发过去了。相关的问题还有对于两条在同一主网中的路由,如10.1.0.0和10.110.0.0,在RIP1下不做区别都聚合成10.0.0.0往外发。在RIP2下都配16位掩码就可以区别发出。(3)自动聚合引起的问题RIP1永远使用聚合,且RIP的聚合是按照类进行的,RIP2默认也使用聚合,但是可以在协议
8、模式下取消。需要注意的有两点:取消自动聚合只对RIP2接口有效。自动聚合是为了减少网络中路由量,如果没有特殊原因,一般不要取消。4.故障现象:RIP性能问题RIP性能问题,要考虑下面的原因:(1)仅以hop作为metric的问题RIP仅仅是以跳数作为选择路由的度量值,完全不考虑不同路径带宽的影响。这在某些情况下,会发现报文到达目的地所经过的路由并非最佳路由。例如,从源到目的的报文可能从hop为1的ISDN链路(该链路的真实作用是用于备份)转发,而不走带宽高达10Mbps的两个局域网链路,仅仅是因为其hop值为2。此时的解决办法就是重新设计网络或使用其他具有更大灵活性的路由协议(如OSPF)。(
9、2)广播更新问题RIP默认设置是每隔30秒进行广播交换整个路由表信息,这将大量消耗网络带宽,尤其是在广域网环境中,可能出现严重性能问题。当由于RIP广播而产生网络性能问题时,可以考虑使用neighbor命令配置RIP报文的定点传送。一方面,定点传送可用于在非广播网络(如帧中继网络)支持RIP。另一方面,定点传送用于以太网环境可以显著减少其上的网络流量。(3)慢收敛问题RIP是一个距离矢量协议,同时由于Garbage定时器的设置,可能会产生下面这个现象:有时配置了一个命令却发现没起作用,这可能会使我们认为是配置出错或者其他故障,其实是由于RIP慢收敛的原因需要一段延时,不要着急,先等几分钟,也许
10、什么都没做就可以看到一切都正常了。说明:Garbage时间:当路由被标记为无效之后,此时路由器并不立即删除此路由,而是保持一段时间,只有在经过这段时间之后,路由器才真正将此路由从路由表中彻底删除。这段时间就称为Garbage时间。Garbage时间有助于增加网络的稳定性,但付出的代价是路由再次可用的时间推迟,即收敛更缓慢。5.故障现象:其他相关问题其他相关问题,要考虑下面的原因:(1)帧中继中的水平分割问题在帧中继、X25等NBMA网络上运行的时候,要取消水平分割,在接口模式下配置noipripsplit。如果使用水平分割,使用同一个物理接口下的逻辑接口之间就不能交换路由信息了。(2)验证问题
11、配置验证时,在配置了验证类型,没有配验证字时是不显示验证信息的,这时验证也不起作用。(3)地址借用问题地址借用必须两端同时借用,如果只有一端借用,会由于两端不在同一网段而导致不能互通,如果两端都借用就可以取消对源地址的检查。6.RIP故障的一般处理步骤在网络上测定IP连通性的最常用方法是Ping命令。从源点向目的端发送Ping命令成功,意味着所有物理层、数据链路层、网络层功能均正常运转。而当IP连通失败,我们首先要检查的是源到目标间所有物理连接是否正常,所有接口和线路协议是否运行。当物理层和数据链路层检查无误后,将排错重点转向网络层,假定此网络运行的路由协议为RIP。7.检查路由表项检查从源到
12、目的间的所有路由设备的路由表,看是否丢失路由表项。例如,从源设备Ping目标设备161.7.9.10没有响应,应当使用displayiprouting-Stable命令依次检查从源到目的间所有路由表项为161.7.x.x(x.x根据使用的RIP版本不同可能会有所不同)的项。8.检查设备基本配置当发生路由表项丢失或其他问题时,使用此方法。(1)使用displayrip命令查看RIP的各种参数设置看RIP是否已经启动,相关的接口是否已经使能,network命令设置的网段是否正确。(2)用debugrip系列命令查看RIP的调试信息每隔30秒钟,在所指定运行RIP的接口上,路由器将报告RIP路由更新
13、报文的传输,debug信息显示了发送每个路由更新报文的路由和度量值。通过debug信息可以很明白地看出RIP报文是否被正确地收发。如果发送或接收有问题,也可从debug信息中看到是什么原因导致发送或接收报文失败。9.RIP正常时的异常解决应当考虑是否在接口上配置undoripwork命令,是否验证有问题,是否引入其他路由有问题,是否访问控制列表配置不正确等。查看接口的displaycurrent-configuration信息,可以看到RIP在接口模式下的配置信息是否正确。例如,该接口是否收发RIP报文,接口配置验证了什么和验证是什么类型的,接口向外发送的报文是RIP1还是RIP2,是广播发送
14、还是多播发送,接口在接收和发送路由时是否增加附加的路由权。查看displaycurrent-configuration信息,可以看到RIP在协议模式下的配置信息是否正确。例如,是否引入其他协议的路由,如果引入,是以多大的路由权值引入的,是否对路由进行过滤和按什么规则过滤等。10.OSPF排错步骤由于OSPF协议自身的复杂性,在配置的过程中可能会出现错误。OSPF协议正常运行的标志是:在每一台运行该协议的路由器上,应该得到的路由一条也不少,并且都是最优路径。一般步骤如下:(1)配置故障处理。检查是否已经启动并正确配置了OSPF协议。(2)局部故障处理。检查两台直接相连的路由器之间协议运行是否正常
15、。(3)区域故障处理。检查一下系统设计(主要是指区域的划分)是否正确。(4)其他疑难问题。路由时通时断、路由表中存在路由却无法PING通该地址。需要针对不同的情况具体分析。11.OSPF协议基本配置排错在OSPF协议基本配置排错前,应首先检查基本的协议配置是否正确。(1)是否已经配置了RouterID使用命令routeridRouter-id、Router-id可以配置为与本路由器一个接口的IP地址相同。需要注意的是:不能有任何两台路由器的RouterID是完全相同的。(2)检查OSPF协议是否已成功地被激活使用命令ospfenable启动协议的运行。该命令是协议正常运行的前提。(3)检查需要
16、运行OSPF的接口是否已配置属于特定的区域使用命令ospfenableareaarea_id将接口配置属于特定区域。可通过命令displayospfinterfaceinterfacename来查看该接口是否已经配置成功。(4)检查是否已正确地引入了所需要的外部路由实际运行中可能经常需要引入自治系统外部路由(其他协议如BGP或静态路由)。如果需要,是否已经通过命令import配置了引入。12.如何判断邻居路由的故障在两台路由器上分别执行displayospfpeer命令,查看在相应的接口上是否已发现对端路由器为自己的邻居,并且邻居状态机达到Full状态。需要注意的是:在Broadcast和NB
17、MA类型的网络中,两台接口状态是DROther的路由器之间邻居状态机停留在2-Way状态,这是正常的,但都应该与DR之间达到Full状态。两台路由器之间达到Full需要一定的时间,一般在几秒钟至3分钟之间为正常。如果超过这段时间仍旧没有发现邻居或没有达到Full状态,则可以判断为出现故障。若出现故障可按下列几点来检查。(1)系统规划故障系统规划中的故障主要体现在区域化分中的错误。协议中对区域划分的要求是:如果自治系统被划分成一个以上的区域,则必须有一个区域是骨干区域,并且保证其他区域与骨干区域直接相连或逻辑上相连,且骨干区域自身也必须是连通的。区域划分错误的表现形式是:在一个区域内通常路由都是
18、正常的,但无法得到区域外部的路由。这是从全局规划的角度来看的,如果落实到具体的配置上,可以这样认为:如果在一台路由器上配置了两个以上的区域,则至少应该有一个是骨干区域,或者配置了一条虚连接。(2)其他问题路由表中丢失部分路由可以查询一下是否本路由器配置了路由过滤。可查看是否配置了命令distributelistin(在OSPF协议配置模式下)。如果配置,再查询access-list中的访问规则,是否丢失的路由恰好是访问列表中所过滤的。路由表不稳定,时通时断表现形式为:路由表中的部分或者全部路由表现不稳定,一会儿加上了,一会儿又丢失,且变化很快。这种错误不太好分析,可能由以下几种原因产生:网络中
19、线路质量不好,导致线路时通时断,造成OSPF的路由随之不停地更改。可以通过检查相应的链路层协议是否正常来定位问题的原因。在拨号的情况下,如果是多台路由器同时拨一台路由器,应将所有这些拨号的接口类型改为point-to-multipoint。因为默认的网络类型是point-to-point,如果不加更改,当有多台路由器同时拨入时,接入方会在这些拨入的路由器之间不停地选择其中的一个并建立邻接关系,导致路由不稳定。有可能是自治系统中有两台路由器的RouterID相同。协议中规定,一台路由器的RouterID应该在整个自治系统中唯一。如果有两台路由器的RouterID相同,协议运行就会出现故障。这两台
20、路由器如果是邻居,在相互接收对方的hello报文时会检测到这一错误,导致无法建立邻接关系。如果这两台路由器不是直接相连,而是分别位于自治系统中的两个不同的地方,则表现出的现象是部分路由时断时通。可以通过查看这部分不正常的路由所属的路由器来定位此问题。无法引入自治系统外部路由某台路由器引入了自治系统外部路由后,却无法在其他路由器上发现这些路由。则很可能是由于本路由器处于一个STUB区域之内,因为按照协议规定,STUB区域内不传播Type5类型的LSA。所以这种类型的LSA既不能由区域外传播进来,也同样不能由区域内传播出去。实际上即使是同一个区域内的其他路由器也无法获得这些路由信息。区域间路由聚合
21、的问题通过在ABR上配置路由聚合可以大大减少自治系统中的路由信息,但如果配置不当,也会出现如下问题:某个区域配置了聚合之后,在其他区域中虽然有聚合后的路由,但未聚合前的路由仍旧存在。出现这种现象多半是因为该区域有两个以上的ABR,用户只在其中一台ABR上配置了聚合命令,而没有在其他的ABR上配置相同的命令。配置了路由聚合之后,路由表显示正常,但却无法PING通某些目的地址。13.路由排错路由器是网络互联的设备,所以应用的不正确往往与整个网络相关。在一个最简单的网络环境中,例如,办公室使用一台Quidway1603通过PSTN或ISDN拨号的方式访问Internet,需要正确地安装路由器并连接外
22、部线缆,对路由器进行简单配置,同样需要终端主机正确地指定网关和DNS的地址(利用DHCPSERVER的情况除外)。另外,日益复杂的网络应用环境对网络设备的排错提出了更多的要求。病毒的攻击即使目标不是路由器,也可以导致路由器的CPU占用率过高,从而影响业务处理的性能。所以在故障处理中,不论对于连通性的故障还是性能上的问题,全面系统地了解网络情况是一个重要的要求。14.排除升级故障Quidway系列路由器的版本软件包括BootRom软件和VRP主机软件两类,BootRom是设备的引导软件,该程序保存在设备主板的BootRom芯片中,BootRom设备运行的基本部分如果受到损坏(包括升级BootRo
23、m过程中的损坏),只能更换芯片;VRP是路由器的主机软件,包含了丰富的应用特性,它保存在路由器的FLASH芯片中,也可以保存在路由器支持其他的存储介质上,如硬盘。BootRom和VRP都是可以通过软件加载的方法进行升级的,主要包括串口升级、FTP升级、TFTP升级几种手段。对于各个类型路由器支持的存储设备,以及详细的升级步骤和指导,可参考相关的安装手册和配置指导手册。对于维护工程师来说,在升级前必须注意BootRom与VRP的配套关系。将增强型的路由器(如R2631E)和非增强型路由器(如R2631)的升级软件相混淆是一个易犯的错误。升级版本不配套的故障现象是主机软件异常启动,例如反复重启,要
24、求加载新的软件路由器的物理故障。Quidway系列路由器的安装和使用注意事项应该严格按照安装手册进行。安装前应检查安装场所的温湿度、洁净度、静电、干扰、防雷击等要求是否满足;安装后应检查电源的输入电压幅值、频率、中性点的连接及保护地、接地电阻等是否满足要求;使用过程中的维护如升级BootRom、更换内存条、功能模块接口卡的更换等,要严格按照维护流程操作。具体规范和要求可参照华为Quidway各系列路由器安装手册。15.路由器物理故障的分析定位1)开箱即无法使用因路由器的整机和接口模块在出厂前已做过严格的检验,不会发生有故障的路由器流入市场的现象。所以此时的故障绝大部分是由运输、仓储等环节的环境
25、不满足要求所至,少部分是由插拔模块或电缆不当导致接插件硬性故障引起,极少部分是由版本不配套引起。对于此类问题,处理步骤为:(1)可先对接口卡或主板上的器件进行检查,看有无器件脱落或被压变形,对BootRom或内存条的插座也要重点检查,看有无插针无法弹起。(2)对PCI侧的插针、物理接口(包括电缆)的插针进行检查,看是否有弯针。(3)当没有查到上述硬件故障后,可更换或升级BootRom、内存条或主机驱动程序的版本。2)安装后无法正常使用此阶段的物理层故障可能是由以下几方面因素引起:线路连接问题,如线路阻抗不匹配、线序连接错误、中间传输设备故障。与其他设备配合有问题。接口配置问题。电源或接地不符合
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 故障诊断 排除
限制150内