《ptn l3网络典型故障分析()培训资料.ppt》由会员分享,可在线阅读,更多相关《ptn l3网络典型故障分析()培训资料.ppt(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、PTN L3网络典型故障分析(2014年)前言 PTN网络,在其核心采用了MPLS-TP技术实现数据包的路由与交换。同时,采用了传统传输SDH的保护倒换等理念。正因为兼有2层交换与3层交换特色,在带来灵活性、高适应性的同时,不可避免增加了其故障处理的难度。本课件,力图通过分析典型的PTN故障案例,协助维护人员对故障处理思路、排查方式进行梳理,达到举一反三,提升经验的目的。由于作者水平所限,课件可能存在一些不完善之处,还请各位同仁们指正。L2转L3节点间同步协议通道故障案例 续2告警及性能初步分析各节点路由检查1、从告警现象看:承载ICB的隧道告警,应该和故障有关联;2、从告警影响看:该隧道do
2、wn掉,影响的是ICB通道,即会影响承载ARP热备和MC-LAG协议的报文传递。3、从收发包分析:PTN1没有收到PTN2的包。说明LTE业务下行在该区域发生了中断。1、上行路由检查:正常情况下,业务路径应该是PTN1PTN2PTN4MME/SGW,各节点优先级,应该是沿此路径方向优先级高,备用保护方向优先级低。当前PTN1的优先级有变化,上行路径为:PTN1-PTN3-PTN5-PTN4-MME/SGW,即PTN3承担了上行业务流量。这与PW发生倒换的事件吻合。2、下行路由检查:正常情况下,业务路径应该是MME/SGW PTN4PTN2PTN1,各节点路由优先级无变化,但当前PTN1已发生P
3、W倒换,选收PTN3方向,即当前PTN2应该以去PTN3方向为高优先级才对。原因分析:当ICB通道故障,MC-LAG协议报文不通,PTN3备节点的MC-LAG协议,导致备升主,且会通过PW备通道通告PTN1节点,触发PTN1节点PW APS倒换,上行流量路径变为PTN1-PTN3-PTN5-PTN4-MME/SGW;下行流量从PTN4到PTN2后,由于MC-LAG双主,PTN2节点不会把下行流量切到DNI PW,而是直接发往PTN1节点,但PTN1节点已经PW APS倒换,只会从与PTN3对接端口接收流量,而与PTN2对接端口不接收流量,故而下行流量中断,出现LTE站点全阻的情况。明细路由成环
4、的案例某承载LTE的PTN网络中,由于建网初期,业务量少,EPC侧提供的地址为包含少量IP地址的明细路由,后随着EPC的扩容、需要扩容业务IP地址路由,增加了相应的网段路由。已有的网段路由包含了原有的明细路由,明细路由为冗余路由,需要进行清除。该操作理论上不影响业务。割接时,发现LTE基站业务出现中断!割接前路由分析:割接前路由分析:红色明细路由掩码比绿色的网段路由长,由于路由优选第一原则为最长掩码匹配。所以业务通过红色路由来进行业务转发。对于掩码相同的红色路由,再进行优先级比较,因为上行EPC优先级较高,所有业务正常向省干转发。明细路由成环的案例 续割接割接过程路由分析程路由分析:据了解,割
5、接时先清除了PTN-1、PTN-2对外部UNI侧冗余路由(图中红点处),此时,由于PTN-1、PTN-2之间,尚存在明细路由,此时两台设备都优选了互指的网络侧保护路由(明细路由),在两个节点间形成路由环路,使基站上行EPC的业务无法正常转发。1.查找与目的IP和掩码完全匹配的条目(长掩码优先)2.如果匹配的有多个路由,需比较优先级,优选优先级高的;3.查找与目的网络号匹配的条目4.如果匹配的有多个路由,需比较优先级,优选优先级高的;5.查找默认路由由于路由调整后才出现故障,所以分析路由变化后,发生匹配不当是故障原因。路由匹配顺序为:典型原因归纳请归纳常见PTN L3业务故障的原因,并描述这两起
6、故障可能的原因:硬件故障节点失效,且保护失败单点故障,且保护失败光路两点中断。单站配置数据/路由错误端到端各节点路由配合错以上的组合目录典型故障案例1 1如何处理PTN L3网络故障2 21基本思路2网内关键检查点34重要手段总结与提高1L2转L3节点间同步协议通道故障案例2明细路由成环的案例3典型原因归纳根据已有信息,确定影响范围和排查方向。排查PTN物理层面故障是否PTN之外的故障引起本网络故障,可查看相关网络告警等。结合工具,进行ping/trace/抓包等辅助分析根据受影响业务,梳相关理业务路径。排查PTN数据设置层面故障基本思路PTN L3PTN L3网络网络故障处理故障处理网内关键
7、检查点类别 检查项目目 重要告警查看条目 硬件单板电源类告警 TP隧道及保护组告警 伪线相关告警 协议类告警 PWE3-CES类告警 以太网端口/聚合端口类告警 CPU/内存类告警 网元断链类告警 性能越限类告警 L3VPN FRR告警 重要性能查看条目 以太网接口相关性能 流量统计情况 光模块相关性能(光功率,激光器偏流,温度等)PWE3-CES类性能(丢弃帧,上下溢事件等)SDH光端口性能 CPU/内存类性能 重要通知事件分析 业务倒换类事件 协议类重要事件省干核心A省干对接B省干核心B城域桥接落地A城域桥接落地B接入设备EPCL2VPNIPL3VPNIPIPL3VPN诱因举例 可能产生的
8、紧急告警以及建议的处理方法网络升级/数据改造1.升级后产生的TMP连通性丢失,可能是涉及到配置丢失引起,应快速通过LB MIP的方式来定位到相关节点;2.升级后无告警,但是业务不通,L3部分需要判断ARP,L3VPN路由配置来判断相关数据是否丢失;L2部分会通过PW流量统计进行快速判断业务是否正常,以及业务转发模式是否匹配;3.升级后无告警,但是业务闪断,判断ARP的情况是否频繁变化;外部物理链路/环境异常1.主要是链路级别带来的隧道类的告警2.温度类的告警人为配置操作若有告警,进入告警的的分析判断流程;并结合操作日志查看若无告警,例如一些删除VRF接口或删除VRF路由的动作,可能无告警,此时
9、要进行路由状态的查看,并尝试恢复出端到端的业务用户流量激增端口的带宽利用率越限设备异常故障优先查看设备硬件类的告警,可通过告警模板筛查出相关硬件类的告警;然后再进入具体业务的故障分析流程网内关键检查点 续1省干对接A省干核心A省干对接B省干核心B城域桥接落地A城域桥接落地B接入设备EPCL2VPNIPL3VPNIPIPL3VPN业务端到端路由查询服务层路径告警,性能梳理连通性检查配置状态检查VPN路由查看倒换状态查看隧道实际路径查看网管操作查看基于路径的物理层,协议状态告警查看基于路径的物理层关联性能查看各层次连通性检查顺序VRF PING等基于业务(PW/PWE3)的性能查看连通性检查结果对
10、应的分析L2L3VPN的典型桥接配置及ARP热备检查L3VPN的典型路由配置及状态检查操作日志查看告警性能中有相关专题1)对应告警,异常性能的可能原因梳理,尽可能基于业务快速分析出根告警2)另外同时要求掌握告警,异常性能有哪些;3)了解基于业务的端到端告警能够关联过滤出哪些告警,性能;哪些需要在总的告警视图中进行进一步的分析查看。1、连通性检查中,对于不可达需要的进一步分析;2、逐段的连通性检测的关联;层层递进;3、多个连通性检测关系间的组合分析,初步得出结论1、对桥接的典型配置状态进行分析2、对L3路由的典型配置检查以及路由状态查看业务路由若无法完成(A-Z不可达),就可以分析相关专题,1)
11、例如Tp隧道 LOC;导致L3VPN路由找不到出接口2)桥接点无法获取基站ARP,从而L2L3无法真实完成业务桥接3)部分VRF静态路由配置缺失,导致没有找到出口路由可一次性分析出问题网内关键检查点 续2重要手段本地网重点使用的VRF PING备注本地网能够执行的VRF ping检测基站网关地址 ping 省干对接 互联地址承载网内部ping基站网关地址 ping EPC地址本地承载网至无线的ping基站网关地址 ping基站地址省干重点使用的VRF PING备注省干能够执行的VRF Ping检测省干核心 ping EPC;承载网至无线的ping省干对接 ping 基站省干对接ping 基站网
12、关承载网内部ping省干核心 ping省干对接 接口地址其它相似类Tunnel/PW LB 基于tunnel所在服务层链路批量TMS PING指定源地址的VRF PINGARP学习查看,LACP状态查看,BFD状态查看基于隧道基于隧道/TMS OAM LM来统计链路层或业务层丢包来统计链路层或业务层丢包利用隧道LB MIP逐段环回来大致判断故障P节点和对应故障线卡;对于A-B能通,B-C能通,A-C不能通的情况进行LB MIP的分析判断;配合业务网进行的ping测、Trace测试、抓包分析等(1)Ping/trace/OAM/链路级端口状态查看sGWL3VPN-N侧城域桥接节点城域落地节点城域
13、桥接落地节点省干对接节点IP-U侧L2VPNL2VPN节点内部故障可能OAM无法感知本桥接/落地点携带是否所有业务中断保证L2VPN PW强制切换绕行此点基于PEER 节点部分业务的上下行切换基于PEER所有业务U侧切换基于PEER N侧所有业务切换L3VPN 上下行VPN-FRR/ECMP切换绕行此点此节点进行IP-FRR触发切换触发对端的IP流量绕行此点本节点OAM去使能触发到达本节点的N侧L2/L3VPN业务绕行此点部分业务中断所有业务中断经过操作保证所有业务绕行此点经过操作保证故障业务绕行此点重要手段 续(2)切换/绕行:以本地网为例常用操作动作隧道强制切换PW 强制切换VPN-FRR,VPN-ECMP强制切换IP-FRR强制切换UNI侧LACP 聚合组端口切换整机OAM去使能主控切换交换板屏蔽复位线卡更换线卡网元数据恢复网元内端口迁移总结与提高诱因排查选择具体业务进行网络内外部定界基于具体业务进行故障快速定位根据定位结果进行处理/应急恢复结束确定故障范围根据故障范围及经验总结对应可能原因进行快速定位采用应急恢复方法结束业务恢复业务未恢复业务恢复进入紧急后方处理流程业务未恢复方法1方法2故障产生思考:对本课件前面列举的两个故障案例,可分别采取什么措施或优化手段来控制风险呢?谢谢您的聆听!您的聆听!再会!再会!
限制150内