[精选]网络设备故障排除培训课件32830.pptx
《[精选]网络设备故障排除培训课件32830.pptx》由会员分享,可在线阅读,更多相关《[精选]网络设备故障排除培训课件32830.pptx(79页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、网络设备故障排除华为技术有限公司1版权所有,侵权必究内容提要p网络故障处理技术概述p一般网络故障的解决步骤p中低端路由器产品介绍p路由器常用诊断工具介绍p故障处理常用方法p故障处理对网络维护和管理人员的要求华为技术有限公司2版权所有,侵权必究网络故障处理技术概述当今的网络互连环境是复杂的,而且其复杂性的还在日益增长,主要原因如下:现代的因特网络要求支持更广泛的应用,包括数据、语音、视频及它们的集成传输;新业务发展使网络带宽的需求不断增长,这就要求新技术的不断出现。例如:十兆以太网向百兆、千兆以太网的演进;技术的出现;提供能力等。新技术的应用同时还要兼顾传统的技术。例如,传统的体系结构仍在某些场
2、合使用,作为通过承载的一种技术而被应用。华为技术有限公司3版权所有,侵权必究网络故障处理技术概述p能够正确地维护网络尽量不出现故障,并确保出现故障之后能够迅速、准确地定位问题并排除故障,对网络维护和管理人员来说是个挑战。p这不但要求对网络协议和技术有着深入的理解,更重要的是要建立一个系统化的故障处理思想并合理应用于实际中,以将一个复杂的问题隔离、分解或缩减排错范围,从而及时修复网络故障。华为技术有限公司4版权所有,侵权必究网络故障的一般分类连通性问题硬件、媒介、电源故障配置错误不正确的相互作用性能问题网络拥塞到目的地不是最佳路由供电不足路由环路网络错误华为技术有限公司5版权所有,侵权必究一般网
3、络故障的解决步骤p故障处理系统化是合理地一步一步找出故障原因并解决的总体原则。它的基本思想是系统地将由故障可能的原因所构成的一个大集合缩减(或隔离)成几个小的子集,从而使问题的复杂度迅速下降。华为技术有限公司6版权所有,侵权必究网络故障解决的处理流程 华为技术有限公司7版权所有,侵权必究网络故障解决的处理流程p该处理流程是网络维护人员所能够采用的排错模型中的一种,如果你根据自己的经验和实践总结了另外的排错模型并证明是行之有效的,请继续使用它网络故障解决的处理流程是可以变化的,但故障处理有序化的思维模式是不可变化的。p下面我们以一个故障处理的实例来学习如何应用这些步骤。华为技术有限公司8版权所有
4、,侵权必究故障处理的实例 p该案例组网如上:某校园网的三个局域网,其中10.11.56.0为一个用户网段,10.11.56.118为一个日志服务器;10.15.0.0是一个集中了很多应用服务器的网段。用户网段广播包过多造成该网段的服务器业务传输速度慢网云A:10.11.56.118/24C:10.11.56.120/24B:10.15.254.253/16D:129.9.35.53/16华为技术有限公司9版权所有,侵权必究1.故障现象描述p要想对网络故障做出准确的分析,首先应该了解故障表现出来的各种现象 p用户反映“日志服务器与备份服务器间备份发生问题。”这就是一个不完整不清晰的故障现象描述。
5、因为这个描述没有讲述清楚下列问题:p这个问题是连续出现,还是间断出现的?p是完全不能备份,还是备份的速度慢(即性能下降)?p哪个或哪些局域网服务器受到影响,地址是什么?p正确的故障现象描述是:p在网络的高峰期,日志服务器10.11.56.11到集中备份服务器10.15.254.253之间进行备份时,传输速度很慢,大约是0.6。华为技术有限公司10版权所有,侵权必究2.相关信息收集p搜集有助于查找故障原因的详细信息:p向受影响的用户、网络人员或其他关键人员提出问题;p根据故障描述性质,使用各种工具搜集情况,如网络管理系统、协议分析仪、相关和命令等;p测试性能与网络正常情况下的记录进行比较。p如上
6、述案例,可以向用户提问或自行收集下列相关信息:p网络结构或配置是否最近修改过,即问题出现是否与网络变化有关?p是否有用户访问受影响的服务器时没有问题?p在非高峰期日志服务器和备份服务器间传输速度是多少?p通过该步骤,我们收集到了下面一些相关信息:p最近10.11.56.0网段的客户机不断在增加;p129.9.0.0网段的机器与备份服务器间进行传输时速度正常为7,与日志服务器间进行传输时速度慢,只有0.6;p在非高峰期日志服务器和备份服务器间传输速度正常,大约为6;华为技术有限公司11版权所有,侵权必究3.经验判断和理论分析p利用前两个步骤收集到的数据,并根据自己以往的故障处理经验和所掌握的的知
7、识,确定一个排错范围。通过范围的划分,就只需注意某一故障或与故障情况相关的那一部分产品、介质和主机。p如上述案例,我们现在能够确定是一个网络性能下降问题。那么,是网段10.11.56.0的性能问题?是中间网络的性能问题?还是10.15.0.0网段的性能问题呢?p根据129.9.0.0网段的机器与备份服务器间进行传输时速度正常为7这一事实,我们可以排除掉10.15.0.0网段的性能问题。华为技术有限公司12版权所有,侵权必究4.各种可能原因列表p该步骤列出根据经验判断和理论分析后总结的各种可能原因。p如上述案例,可能原因如下:p网段10.11.56.0的性能问题,其原因可能为:p日志服务器A的性
8、能问题p10.11.56.0网络的网关性能问题p10.11.56.0网络本身的性能问题p中间网络性能问题,主要是到网络10.15.0.0的路由不是最佳路由华为技术有限公司13版权所有,侵权必究5.对每一原因实施排错方案p根据所列出的可能原因制定故障排查计划,分析最有可能的原因,确定一次只对一个变量进行操作,这种方法使你能够重现某一故障的解决办法。如果有多个变量同时被改变,而问题得以解决,那么如何判断哪个变量导致了故障发生呢?华为技术有限公司14版权所有,侵权必究6.观察故障排查结果p当我们对某一原因执行了排错方案后,需要对结果进行分析,判断问题是否解决,是否引入了新的问题。如果问题解决,那么就
9、可以直接进入文档化过程;如果没有解决问题,那么就需要再次循环进行到故障排查过程。华为技术有限公司15版权所有,侵权必究7.循环进行故障排查过程p在进行下一循环之前必须做的事情就是将网络恢复到实施上一方案前的状态。如果保留上一方案对网络的改动,很可能导致新的问题。p循环排错可以有两个切入点:p当针对某一可能原因的排错方案没有达到预期目的,循环进入下一可能原因制定排错方案并实施;p当所有可能原因列表的排错方案均没有达到排错目的,重现进行故障相关信息收集以分析新的可能原因。p如上述案例,我们在列出了可能原因列表后,开始制定方案进行故障处理:华为技术有限公司16版权所有,侵权必究7.循环进行故障排查过
10、程p可能原因1:网络10.11.56.0到网络10.15.0.0的路由不是最佳路由。p制定的方案:在10.11.56.0网段的网关上使用“10.15.245.253”命令,发现探测报文返回时长仅为10,表明该可能原因并不是造成故障的原因。我们进入循环排错过程。华为技术有限公司17版权所有,侵权必究7.循环进行故障排查过程p可能原因2:日志服务器A的性能问题。p制定的方案:测试同一网段的主机C和日志服务器间的传输速度,是6,正常。可见问题与服务器A无关。华为技术有限公司18版权所有,侵权必究7.循环进行故障排查过程p可能原因3:10.11.56.0网络的网关性能问题。p制定的方案:测试主机C和备
11、份服务器B间传输速度是7,正常。排除了网关因素,因为B、C在不同网段上而速度正常。华为技术有限公司19版权所有,侵权必究7.循环进行故障排查过程p可能原因4:10.11.56.0网络本身的性能问题。p制定的方案:在网段10.11.56.0的以太网交换机上使用命令“”,输出如下:p p p6/32 10317812 0 8665p p p6/32 6667987 286652 2474038p(输出的广播:输出的单播比例为1:3,太大了。)p p p 6/32 14094829358 1516443041p在网段10.15.0.0上的以太网交换机上使用命令“”输出如下:p p p6/36 557
12、80287 0 285p p p6/36 27879749 190257 119430p(广播:单播比例1:270,属于正常。)p p p6/36 67172587081 4998816809p由此得知,网段10.11.56.0上广播包和单播包比例为1:3,确实太大了。p再次询问用户该网段主要运行的业务是什么,而得出了故障最终原因如下:10.11.56.0是普通用户网段,由于业务原因每个用户需要发送大量广播包和多播包,随着近期越来越多的用户接入该网络,在这个网段上的服务器需要花费更多的资源来处理越来越多的广播和多播包,因此其服务的传输速度自然减慢。p这是一个网络布局不恰当的问题,需要重新安排服
13、务器的位置,将服务器移动10.15.0.0网段后,故障解决。华为技术有限公司20版权所有,侵权必究8.故障处理过程文档化p当最终排除了网络故障后,流程的最后一步就是对所做的工作进行文字记录。p文档化过程决不是一个可有可无的工作,原因如下:p文档是排错宝贵经验的总结,是“经验判断和理论分析”这一过程中最重要的参考资料;p文档记录了这次排错中网络参数所做的修改,这也是下一次网络故障应收集的相关信息。p文档记录主要包括以下几个方面:p故障现象描述及收集的相关信息p网络拓扑图绘制p网络中使用的设备清单和介质清单p网络中使用的协议清单和应用清单p故障发生的可能原因p对每一可能原因制定的方案和实施结果p本
14、次排错的心得体会p其他:如排错中使用的参考资料列表等华为技术有限公司21版权所有,侵权必究路由器常用诊断工具介绍p命令p命令p命令p命令p命令华为技术有限公司22版权所有,侵权必究命令p命令用于检查网络连接及主机是否可达。p“”这个词源于声纳定位操作,指来自声纳设备的脉冲信号。命令的思想与发出一个短促的雷达波,通过收集回波来判断目标很相似;即源站点向目的站点发出一个 报文,目的站点收到该报文后回一个 报文,这样就验证了两个节点间层的可达性表示了网络层是连通的。p由于和命令不仅是系列路由器平台的常用网络命令,也是平台上常用的网络命令,下面对两种平台下的命令使用均进行介绍。华为技术有限公司23版权
15、所有,侵权必究命令在系列路由器上,命令的格式如下:报文中使用的源地址 报文的个数,缺省值为5;设置报文的超时时间,单位为毫秒,缺省值为2000;设置报文的大小,以字节为单位,缺省值为56。华为技术有限公司24版权所有,侵权必究命令在机上或 为平台的服务器上,命令的格式如下:报文的个数,缺省值为5;持续地 直到人为地中断,暂时中止命令并查看当前的统计结果,而则中断命令的执行。设置报文所携带的数据部分的字节数,设置范围从0至65500。华为技术有限公司25版权所有,侵权必究用命令进行故障处理案例一 连通性问题还是性能问题?p工程师小L,在配置完一台路由器之后执行命令检测链路是否通畅。发现5个报文都
16、没有通,小L断定是连通性问题。p检查双方的配置命令并查看路由表,却一直没有找到错误所在。最后又重复执行了一遍相同的命令,发现这一次5个报文中有1个 通了原来是线路质量不好存在比较严重的丢包现象。华为技术有限公司26版权所有,侵权必究用命令进行故障处理案例一 连通性问题还是性能问题?p工程师小L又配置了一台路由器,然后执行命令访问上某站点的地址,但没有通。有了上次的教训小L,再一次了20个报文,仍旧没有响应。于是这次小L觉得能够断定是连通性故障。p在费劲周折检查了配置链路之后仍没有发现任何可疑之处,最后小L采取逐段检测的方法对链路中的网关进行逐级测试,发现都可以 通,但是响应的时间越来越长,最后
17、一个网关的响应时间在1800左右。会不会是由于超时而导致显示为 不同呢?受此启发,小L将 命令报文的超时时间改为4000,这次成功通了,显示所有的报文响应时间都在2200 左右。华为技术有限公司27版权所有,侵权必究用命令进行故障处理案例一 连通性问题还是性能问题?建议和总结:真的是不通吗?这个问题需要定位清楚,因为连通性问题和性能问题排错的关注点是不一样的问题定位错误必然会导致排错过程的周折。使用一般的命令,缺省是发送5个报文的,超时时长是2000。如果不通情况发生,最好能够再用带参数和的命令再执行一遍,如:20 4000,即连续发送20个报文,每个报文的超时时长为4000,这样一般可以判断
18、出到底是连通性问题还是性能问题。华为技术有限公司28版权所有,侵权必究用命令进行故障处理案例二 使用大包对端进行不一致的故障处理?p某次开局,使用路由器与其他厂商的某路由器互连,并运行协议。数据配置完毕后,一切正常,并在今后相当长的时间内设备运转稳定。但两个月后,用户反馈网络中断。华为技术有限公司29版权所有,侵权必究用命令进行故障处理案例二 使用大包对端进行不一致的故障处理?相关信息显示:登录到两台路由器上,发现双方连接正常,可以相互通对端地址。但协议中断;登录路由器查看邻居状态,发现邻居状态机处于状态。打开相应的开关查看相应的报文信息,发现双方都可以收到报文,但路由器发送报文后,一直没有收
19、到对方回应的报文;登录其他厂商的那台路由器,打开相应的开关,发现对方收到路由器发送的报文后,已发送了相应的报文予以回应。华为技术有限公司30版权所有,侵权必究用命令进行故障处理案例二 使用大包对端进行不一致的故障处理?原因分析:初步断定,路由器没有收到回应报文,但对方确实发出来了。既然可以接收到 报文说明链路是通畅的,而且多播报文的收发也没有问题。那么有可能是对方发送的 报文有错误导致路由器拒收,但查看相应的信息,并没有报告接收到错误的 报文。仔细查看某厂商路由器的调试信息发现这个报文很大有2000 多字节。会不会是由于报文太大导致的问题呢?试着了一个2000字节的报文,结果不通。那么故障原因
20、很可能是由于双方的不一致导致大包不通。华为技术有限公司31版权所有,侵权必究用命令进行故障处理案例二 使用大包对端进行不一致的故障处理?处理过程:检查配置,发现对方路由器的设置为4000多而路由器的设置为1500,于是修改对端路由器的为1500。故障消除。那么为什么工程初期没有问题呢?这是因为前期报文长度小于1500字节,而后来网络扩容导致路由信息过多使 报文的长度超过了1500 字节。华为技术有限公司32版权所有,侵权必究用命令进行故障处理案例二 使用大包对端进行不一致的故障处理?建议和总结:由于 缺省报文是56 个字节,所以显示的 通信息只是表示56字节的报文可以通而并不一定表示其他大小的
21、报文仍旧可以通。所以,应当善于使用的其他参数来进行故障处理。华为技术有限公司33版权所有,侵权必究用命令进行故障处理案例三 A能通B,B就一定能通A吗?p在上配置一条指向2.0.0.0/8的静态路由:p 2.0.0.0 255.0.0.0 1.1.1.1p在 上路由器 的以太网地址2.2.2.2,显示可以正常通;但是在上路由器的以太网地址3.3.3.3,却无法通。E0:3.3.3.3/8E0:2.2.2.2/8S0:1.1.1.1/8S0:1.1.1.2/8RouterARouterB华为技术有限公司34版权所有,侵权必究用命令进行故障处理案例三 A能通B,B就一定能通A吗?原因分析:由于在上
22、没有相应的配置到3.0.0.0/8 路由,所以在上不通的以太网口3.3.3.3。但是为何在A上可以 通2.2.2.2 呢?同样是没有回程路由。打开路由器上的报文调试开关发现,原来从上发出的报文的源地址填写的是1.1.1.1而不是3.3.3.3,由于两台路由器的s0口处于同一网段,所以响应报文可以顺利到达。华为技术有限公司35版权所有,侵权必究用命令进行故障处理案例三 A能通B,B就一定能通A吗?建议和总结:A能够通B则B一定能够通A(不考虑防火墙的因素),这句话的对错取决于A和B到底是指主机还是指路由器。如果是指两台主机,那么这句话就是正确的。如果是指两台路由器那就是错误的,因为路由器通常会有
23、多个地址。现在就有如下问题:当从一台路由器上执行命令它发出的 报文的源地址究竟选择哪一个呢?实际情况是路由器选择发出报文的接口的地址。华为技术有限公司36版权所有,侵权必究 命令p 命令用于测试数据报文从发送主机到目的地所经过的网关,主要用于检查网络连接是否可达,以及分析网络什么地方发生了故障。p利用报文的域在每经过一个路由器的转发后减一,当0时则向源节点报告超时这个的特性。首先发送一个为1的报文,因此第一跳发送回一个错误消息以指明此数据报不能被发送(因为超时),之后再发送一个为2的报文,同样第二跳返回超时,这个过程不断进行,直到到达目的地,此时由于数据报中使用了无效的端口号(缺省为33434
24、)此时目的主机会返回一个的目的地不可达消息,表明该操作结束。记录下每一个 超时消息的源地址,从而提供给用户报文到达目的地所经过的网关地址。华为技术有限公司37版权所有,侵权必究 命令在华为系列路由器上,命令的格式如下:指定一个发送报文的源地址;指定初始报文的大小,缺省值为1;指定最大大小,缺省值为30;目的主机的端口号,缺省值为33434;每次发送的探测报文的个数,缺省值为3;指明报文的超时时间,单位为毫秒,缺省值为5000。华为技术有限公司38版权所有,侵权必究命令在机上或 为平台的服务器上,命令的格式如下:不解析主机名;指定最大大小;设定松散源地址路由列表;用于设置报文的超时时间,单位毫秒
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 精选 网络设备 故障 排除 培训 课件 32830
限制150内