环路故障专题案例.doc





《环路故障专题案例.doc》由会员分享,可在线阅读,更多相关《环路故障专题案例.doc(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流环路故障专题案例【交换机在江湖】环路故障专题(3)扁鹊问道下篇-临床案例 环路故障纷繁错杂,难寻其理。愿广为搜罗现网案例,合览汇编,以求至简至约,开卷了如指掌。1.1.1 对接设备故障1.1.1.1 其他厂商设备上出现华为MAC地址漂移故障案例涉及产品和版本S交换机V200R002及先前版本组网情况如图1-1所示,防火墙设备上连接了三台交换机。图1-1 其他厂商设备上出现华为MAC地址漂移问题案例组网图现象描述防火墙设备上能够看到00e0-fc09-bcf9 MAC地址的漂移,对防火墙的业务转发有影响。原因分析华为自研交换机上只有NDP会用0
2、0e0-fc09-bcf9作为协议报文的源MAC,而NDP是默认使能的,所以在这个场景中会导致防火墙设备报漂移,进而影响防火墙的转发;这个MAC地址发生漂移一般情况下对业务没有影响(如果设备上对MAC漂移配置了动作则除外)。NDP协议报文是BPDU报文,而BPDU报文是不应该学习MAC地址的,交换机最新版本已经不会学习BPDU报文了,防火墙设备也不应该学习该MAC地址。处理步骤执行命令ndp disable,去使能交换机全局NDP功能。总结与建议无。1.1.1.2 ATAE软件问题导致与交换机MSTP对接失败的故障案例涉及产品和版本S交换机所有产品和版本组网情况如图1-2所示,新接入的ATAE
3、机框与Switch-1和Switch-2交换机组成口字型环路。图1-2 ATAE软件问题导致与交换机MSTP对接失败的故障案例组网图现象描述在启用STP后发现环路无法正常收敛:Switch-1、ATAE-SW-8均为根桥,Switch互连端口、ATAE互连端口可正常收敛,而Switch-1、Switch-2与连接的其他ATAE机框STP无法正常收敛。原因分析Switch-1配置为根桥,设备的系统MAC为:4c1f-cc82-d659。新接入的ATAE机框软件版本为V200R013SPC005,该版本存在一个软件问题:对于收到的根桥MAC以59结尾的STP报文不能正常处理。处理步骤1. 检查各端
4、口的STP收敛情况,发现存在两个根桥Switch-1手动配置为STP根桥,ATAE-SW-8也选择为根桥: disply stp brief MSTID Port Role STP State Protection 0 GigabitEthernet0/7 DESI FORWARDING BPDU 0 GigabitEthernet0/15 DESI FORWARDING NONE /ATAE互联 0 GigabitEthernet0/18 DESI FORWARDING NONE /连接Switch-22. 检查ATAE-SW-8 GigabitEthernet0/18端口的STP信息和收发
5、报文情况ATAE-SW-8上没有部署任何业务,GigabitEthernet0/18端口入方向组播报文计数有增加,但display stp信息中端口接收的MSTP报文计数一直为0:Input(total): 818962 packets, 114519592 bytes 757300 broadcasts, 24 multicasts -Port18(GigabitEthernet0/18)FORWARDING- Port Protocol :enabled Port Role :CIST Designated Port Port Priority :128 Port Cost(Dot1T )
6、 :Config=auto / Active=10000 Desg. Bridge/Port :32768.80fb-06ad-6d07 / 128.18 Port Edged :Config=disabled / Active=disabled Point-to-point :Config=auto / Active=true Transit Limit :3 packets/hello-time Protection Type :None Port Stp Mode :Stp Port Protocol Type :Config=auto / Active=legacy PortTimes
7、 :Hello 2s MaxAge 20s FwDly 15s RemHop 20 BPDU Sent :82117 TCN: 0, Config: 3391, RST: 0, MST: 78726 BPDU Received :0 TCN: 0, Config: 0, RST: 0, MST: 0 3. 对ATAE-SW-8 GigabitEthernet0/18配置端口镜像,确认已经收到来自Switch-1的STP报文经ATAE研发确认,出问题的ATAE交换板使用的是V200R013SPC005版本,该版本存在已知软件问题:收到根桥MAC以59结尾的STP报文不能正常处理。V200R013
8、SPC006及以上版本已经解决该问题。将根桥切换到Switch-2后,MSTP收敛正常。 display version VRP (R) Software, Version 3.10, RELEASE 0010 Copyright (c) 2000-2008 HUAWEI TECH CO., LTD. uptime is 0 week,0 day,2 hours,38 minutes OSTA 2.0 V200R013 CN21XCBA switch system OSTA 2.0 V200R013 CN21XCBA switch version: V200R013SPC005 128M by
9、tes SDRAM 16384K bytes Flash Memory Config Register points to FLASH Hardware Version is VER.A Release Logic Version is 0x03 Back Board Hardware Version is VER.A Back Board Logic Version is 0x02 Back Board Type is CN21XCRA升级ATAE交换板软件版本到最新的V200R013SPC007。总结与建议多设备形态的对接问题尽量控制在网络部署阶段。对于与其他设备对接的STP问题,首先排查
10、配置是否存在问题、报文收发是否正常。1.1.1.3 S交换机和CX600路由器端口UP时间不一致导致RRPP临时环路故障案例涉及产品和版本S交换机所有产品和版本组网情况如图1-3 所示,S5700设备上配置RRPP协议,S5700_1和S5700_2分别作为RRPP domain 1和domain 2的主结点,其他中间S5700做为RRPP传输结点,CX600路由器未配置RRPP协议,它们之间通过不同的VPLS VSI透传RRPP协议报文和数据业务。图1-3 交换机和路由器端口UP时间不一致导致RRPP临时环路问题案例组网图现象描述当CX600_1的1号板故障重启后,发现CX600_1设备GE
11、1/1/1端口比S5700_1的GE0/0/1端口UP的时间滞后8s或者最长能达到1分钟,单板恢复后会形成几秒钟的临时环路,可能导致业务异常。原因分析1. CX路由器单板复位重启后,不管两边端口协商模式是强制或自协商,底层端口物理层状态都会先UP。单板在配置恢复过程中,会检查配置恢复有没有结束,如果没有结束的话,就不取物理状态向软件层报UP事件,路由端口UP时间滞后可达到1分多钟。CX路由器端口比交换机端口UP时间有很明显的滞后。2. 由于交换机端口先UP,RRPP协议会在端口UP以后6s放开临时阻塞,而路由器还没有向软件层报UP。等到路由器软件层上报UP时,有的数据VSI已经先透传数据报文。
12、路由器的RRPP VSI可能起来得比较晚,或者起来可能短时间内也不能正常透传。由于CX单板起来比较繁忙,而RRPP协议透传VSI还没有通,这时候就会形成临时环路,根据CX单板业务配置多少及其繁忙程度,可能有时临时环路会达到10s左右。如果中间交换机受到严重冲击,环路恢复可能需要更长的时间。处理步骤CX路由器优化软件版本,加快UP事件的上报。总结与建议无。1.1.2 设备硬件连接问题1.1.2.1 S9300 交换机单板松动导致RRPP未生效故障案例涉及产品和版本框式设备组网情况如图1-4所示,四台S9300组成RRPP环形组网。工程师反馈客户组成RRPP环网后,主节点上的从端口没有被阻塞。图1
13、-4 RRPP环形组网图现象描述一线工程师反馈客户组成RRPP环网后主节点上的从端口没有被阻塞。原因分析设备上主控板上HG口没有转发RRPP报文,原因为单板连接松动。处理步骤1. 组成RRPP环网后主节点上的从端口未被阻塞,初步怀疑是RRPP协议功能下发存在问题。2. 执行命令display diagnostic-information,收集设备信息时,发现HG口未加入相应的控制VLAN。推测可能是当时通道不稳定丢包导致部分设置没有下发成功。3. 对于通道不稳定的情况,进行单板插拔处理,发现问题不再发生,确认为单板连接问题。4. 重新插拔后,报文正常转发,故障解除。总结与建议协议下发失败,流量
14、不通等问题,可以从光纤、光模块故障、单板连接不稳定等方面来进行排查验证,在环境允许的情况下可以进行光模块替换、单板重新插拔等硬件故障处理方法。1.1.2.2 设备连线错误导致环路风暴的故障案例涉及产品和版本S交换机所有产品和版本问题现象描述及组网如图1-5所示,某运营商工程网络部署阶段,未合理规划,连线非常复杂,在连线过程中误连接导致网络业务受影响。图1-5 连线错误导致协议环路失效风暴的故障案例问题根因说明现网中S交换机之间端口连接方式绝大多数使用Access类型,VLAN没有很好规划和隔离,连线非常复杂,非常容易误操作连线,导致环路后冲击上层核心设备。问题判断方法忽略判断方法,主要关注解决
15、或规避方案。解决方案1. 合理规划组网,VLAN合理划分,进行有效隔离,减少不必要的连线,增加风暴抑制功能。2. 复杂组网要经过正规流程评审。3. 网络开局调试阶段,必须shutdown和现网所有连接端口。4. 恢复新建和现网网络连接端口时,至少观察20分钟看端口上是否有异常的广播或组播流量,发现异常要立即shutdown上行端口。5. 若交换机端口灯有高速频繁闪烁或常亮的现象,可能端口上有大量流量转发,检查是否有环路。经验总结无。1.1.3 组网及配置变更1.1.3.1 服务器组网不合理引发交换机MAC地址漂移导致业务中断故障案例涉及产品和版本S交换机所有产品和版本组网情况如图1-6所示,两
16、台服务器的两块网卡捆绑在一起,按照负载分担方式进行报文转发。两块网卡对外体现同一个IP、同一个MAC。图1-6 框式交换机MAC和ARP漂移导致业务中断问题案例组网图现象描述Switch上持续出现MAC漂移告警。Switch下挂服务器的ARP同时学习到交换机不同端口上,造成外网用户访问服务器业务时断时续,业务闪断。原因分析1. 两台Switch连接服务器的端口一直存在物理UP/DOWN的异常情况,并且服务器的MAC地址一直存在漂移现象,此时两台Switch的互连端口以及下行连接服务器的端口上都学习到服务器的MAC地址。2. 当用户通过Switch-1访问服务器时,Switch-1会根据MAC地
17、址表项找寻出接口,由于MAC漂移导致出接口有两个(下行连接服务器的接口GE4/0/9y以及交换机互连端口Eth-Trunk1)。当流量选择通过交换机之前的互连端口往外转发时,将被转发到Switch-2设备。由于Switch-2学习到服务器的MAC也在中间互连端口,根据二层流量避免环路机制,此时会丢弃该报文,导致业务中断。处理步骤1. 服务器采用负载分担捆绑,而对端是两台交换机,组网不对称。建议将服务器运行模式从负载分担修改为主备模式。同时也可以解决MAC漂移的问题。2. 如果有特殊需求必须使用负载分担方式以及跨设备组网,建议采用交换机集群,集群上采用链路负载分担方式。总结与建议组网规划前需要考
18、虑环路风险,并给出规避措施。1.1.3.2 设备误接入网络触发根保护导致业务中断的故障案例涉及产品和版本S交换机所有产品和版本组网情况如图1-7所示,两台S系列交换机与ATAE交换板组成STP环。ATAE交换板的两个slot可以看成两台交换机,内部通过GE0/15连接。Swtich-1配置为根桥,Switch-2配置为副根桥,Switch-1和Switch-2之间创建Eth-Trunk 0。正常时阻塞口在ATAE-slot8 GE0/19端口。两台S交换机部署VRRP功能,并作为ATAE的网关。图1-7 报文触发根保护导致业务中断的故障案例组网图现象描述网络故障时ATAE交换板经交换机的业务中
19、断。现网将Swtich-1下电后暂时业务恢复。原因分析Switch-1连接Switch-2、ATAE交换板的端口均配置根保护,一台优先级更高的O&M交换机错误连入该网络后,触发根保护生效,所有配置根保护的端口都被阻塞,业务中断。处理步骤故障发生时,在两台交换机上查看VRRP状态,发现均为Master,推断VRRP心跳报文转发出现问题。VRRP心跳报文正常是通过两台交换机间的Eth-Trunk转发。如果故障时Eth-Trunk协商失败、STP重新收敛,心跳报文应该可以通过ATAE交换板进行转发。将Switch-1重新上电,但不连接到网路中。检查Switch-1的配置文件,发现Switch-1上所
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 环路 故障 专题 案例

限制150内