PTN产品故障维护指导-20080707-A.ppt
HUAWEI TECHNOLOGIES CO.,LTDHuawei Confidential Security Level:Internal Use OnlyOptiX PTN 产品故障维护指导书2023/4/21HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 前言前言本课程针对PTN产品维护工程师开发。通过介绍一些故障定位的方法帮助故障维护人员分析定位故障。通过一些典型的故障来阐述常用故障定位方法的应用。Page 2HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 学习指南l学习本课程之前,建议先学习PTN产品简单介绍、PTN产品硬件概述、PTN产品软件特性概述、PTN产品开局、调测、PTN业务及组网应用、PTN产品保护特性等课程;l本课程的重点为PTN的日常维护和巡检项目。Page 3HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 课程目标l学习完此课程,您应能:学习完此课程,您应能:p熟悉故障定位的常用方法p能处理一些常见故障Page 4HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 内容介绍l l第第第第1 1章章章章 故障处理前的准备故障处理前的准备故障处理前的准备故障处理前的准备l第第2章章 故障处理基本思路和方法故障处理基本思路和方法l第第3章章 PTN设备数据采集介绍设备数据采集介绍l第第4章章 故障处理案例分析故障处理案例分析Page 5HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 内容介绍l故障处理前的准备故障处理前的准备p掌握专业技能p熟悉工程组网信息p做好故障现场数据的采集与保存Page 6HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 掌握专业技能熟悉IP网络原理知识了解告警信号流及告警产生机理熟悉PTN设备和网管的基本操作熟悉常用仪表的基本操作Page 7HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 熟悉工程组网信息网络拓扑业务配置设备运行状态工程文档Page 8HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 做好故障现场数据的采集与保存网路拓扑网管日志当前和历史告警黑匣子记录Page 9HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential l本节我们主要学习了:本节我们主要学习了:pPTN产品故障定位前的一些准备,为后续的故障分析奠定基础小结Page 10HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 内容介绍l第第1章章 故障处理前的准备故障处理前的准备l l第第第第2 2章章章章 故障处理基本思路和方法故障处理基本思路和方法故障处理基本思路和方法故障处理基本思路和方法l第第3章章 PTN设备数据采集介绍设备数据采集介绍l第第4章章 故障处理案例分析故障处理案例分析Page 11HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 内容介绍l故障处理基本思路和方法故障处理基本思路和方法p告警、性能分析法p环回法p替换法p经验处理法pOAM/PING调试法pTRACEROUTE调试法Page 12HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 告警、性能分析法 通过设备告警指示灯获取告警信息通过设备告警指示灯获取告警信息一、通过机柜顶部的告警指示灯查看告警二、通过单板告警指示灯查看告警设备指示灯仅反映设备当前的运行状态,对于设备曾经出过故障,无法表示设备指示灯状态只能反映设备告警级别,而不能准确告知具体告警缺点缺点适用于设备维护人员配合处理故障时使用Page 13HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 告警、性能分析法通过网管获取告警和性能信息通过网管获取告警和性能信息适用于网管维护人员处理故障使用全面性全面性不仅仅是一个站、一块板的故障信息,而且是全网设备的故障信息详实性详实性能够获取设备当前存在哪些告警、告警发生时间,以及设备的历史告警;能够获取设备性能事件的具体数值 Page 14HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 环回法GEFE内环回内环回外环回外环回外环回外环回PTN网元设备网元设备SDHSDH环回可能导致环回可能导致其它在用业务中断其它在用业务中断|软件环回软件环回/硬件环回硬件环回|内环回内环回/外环回外环回|MAC环回环回/PHY环回环回Page 15HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 环回法uu“环回法环回法环回法环回法”的步骤:的步骤:的步骤:的步骤:1.环回业务通道采样环回业务通道采样2.画业务路径图画业务路径图Page 16HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 环回法内环内环 外环外环 GE PHY 支持支持 R1版本仅版本仅EFG2单板支持单板支持GE MAC 支持支持 支持支持 FE PHY 支持支持 不支持不支持 FE MAC 支持支持 支持支持 SDH 光口光口 支持支持 支持支持 uuPTNPTN产品对软件环回的支持介绍产品对软件环回的支持介绍产品对软件环回的支持介绍产品对软件环回的支持介绍Page 17HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 替换法适用场合适用场合 排除外部设备的问题排除外部设备的问题 故障定位到单站后,排除单站内单板的问题故障定位到单站后,排除单站内单板的问题 替换法就是使用一个工作正常的物件去替换一个替换法就是使用一个工作正常的物件去替换一个被怀疑工作不正常的物件,可替换物件包括线缆、被怀疑工作不正常的物件,可替换物件包括线缆、光纤、法兰盘、电源、单板、设备等。光纤、法兰盘、电源、单板、设备等。Page 18HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 经验处理法适用场合适用场合 仅做为应急处理时使用,临时恢复业务仅做为应急处理时使用,临时恢复业务 复位单板复位单板单站重启单站重启重新下发配置重新下发配置将业务倒换到备用通道将业务倒换到备用通道 该方法不能彻底查清故该方法不能彻底查清故障原因,除非不得已,障原因,除非不得已,建议使用其他方法建议使用其他方法 Page 19HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential OAM/PING调试法适用场合适用场合 排除外部设备的问题排除外部设备的问题OAM或PING用于检测首末节点的网络连接是否可达:链路故障如果可以使用OAM情况下尽量使用OAM进行调试Page 20HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential TRACEROUTE调试法适用场合适用场合将链路故障定位到单站将链路故障定位到单站TRACEROUTE 命令用于测试数据报文从发送主机到目的地所经过的网关,主要用于检查网络连接是否可达,以及分析网络什么地方发生了故障Page 21HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential l本节我们主要学习了:本节我们主要学习了:pPTN产品基本故障定位的各种方法,为后续的网路维护及故障定位奠定了基础小结Page 22HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 内容介绍l第第1章章 故障处理前的准备故障处理前的准备l第第2章章 故障处理基本思路和方法故障处理基本思路和方法l l第第第第3 3章章章章 PTNPTN设备数据采集介绍设备数据采集介绍设备数据采集介绍设备数据采集介绍l第第4章章 故障处理案例分析故障处理案例分析Page 23HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 内容介绍lPTNPTN设备数据采集介绍设备数据采集介绍p数据采集内容p数据采集方法Page 24HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 数据采集内容常见的告警、性能等信息的采集文件采集,一般较少用到日志文件的采集。(PTN记录设备运行情况的黑匣子,可以借此判断设备是否运行正常,常用于故障定位)Page 25HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 数据采集内容SCA、CXP单板:ofs1/log/和ofs2/log/下的全部文件如果需要取备主控,则取/stdby/ofs1/log/和/stdby/ofs2/log/下全部文件如果打开了智能(:cfg-get-itgattrib返回enable),还请取主控板下文件:mfs/log/asonlog.txt和备主控下文件stdby/mfs/log/asonlog.txtEG16、MP1、XCS单板:ofs1/log/下的全部文件PS:在采集数据前,请用Navigator登录到目的网元,下发命令:mon-backup-bb:bid(bid:主控或单板板位号)备份黑匣子;Page 26HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 数据采集方法(Navigator)必须手工输入文件名和路径Page 27HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 数据采集方法(FTP)Page 28HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential l本节我们主要学习了:本节我们主要学习了:pPTN产品发生故障时的故障采集内容及方法,为后续网路上发生故障提供有效的定位手段小结Page 29HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 内容介绍l第第1章章 故障处理前的准备故障处理前的准备l第第2章章 故障处理基本思路和方法故障处理基本思路和方法l第第3章章 PTN设备数据采集介绍设备数据采集介绍l l第第第第4 4章章章章 故障处理案例分析故障处理案例分析故障处理案例分析故障处理案例分析Page 30HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 内容介绍l故障处理案例分析故障处理案例分析p业务连通性测试p业务中断类故障p丢包类故障p故障案例集Page 31HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 业务连通性测试基本概念基本概念pMD(Maintenance Domain):p由单个操作者所控制的一部分网络pMA(Maintenance Association):pMD的一部分,用来实现OAM的一个实例(Instance)OAM功能的实现是基于MA的pMD Level:pMD的等级,用于区分嵌套的MD,以太网OAM为网络分配了8个维护级别(数值越大,优先级越高)n为客户分配了三个级别:7,6,and 5n为服务提供商提供了两个级别:4 and 3n为运营商分配了三个级别:2,1,and 0pMEP(MA End Point)pMA的端点,典型的,两个对等的UNI就是其所属MA的两个MEP。pMEP可以发起连通性检测、环回、链路追踪、性能测量等维护管理动作。pMIP(MA Intermediate Point)pMA中间点,典型的,两个运行商管理域之间的分解点即可作为MIP。pMIP没有发起维护管理动作的能力,但可对环回和链路追踪进行响应。Page 32HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 操作步骤l步骤步骤1:在网元上新建:在网元上新建OAM维护域维护域l在T2000网管上选择功能树-以太网OAM管理-以太网业务OAM管理l点击“新建”,创建一个新的OAM维护域Page 33HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 操作步骤l输入维护域名和维护域等级(取默认值即可)输入维护域名和维护域等级(取默认值即可)Page 34HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 操作步骤步骤步骤2:新建维护联盟,点击:新建维护联盟,点击“新建新建”创建维护联盟创建维护联盟 输入维护域名和维护联盟名,并选择要测试的以太网业务(在已创建的业务列表中选择需要测试的以太网业务)CC Test Transmit Period周期设置为3.3ms即可Page 35HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 操作步骤步骤步骤3:新建:新建MEP维护点,点击维护点,点击“新建新建”创建创建MEP点点 输入维护域和维护联盟名称,选择单板类型、端口和VLAN ID 输入MEP ID(注意:对端MEP ID和本端MEP ID不能相同);若为UNI到NNI,则方向 选择“ingress”,若为UNI到UNI,则方向选择“egress”;激活CC状态Page 36HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 操作步骤步骤步骤4:管理远端:管理远端MEP点,点击点,点击“新建新建”管理远端管理远端MEP点点 输入维护域和维护联盟名称 指定远端MEP ID(注意:远端MEP ID和本端MEP ID不能相同)Page 37HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 操作步骤步骤步骤5:进行业务测试:进行业务测试 输入远端MEP点MAC地址 点击“开始测试”Page 38HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 业务中断类故障l外部原因外部原因p供电电源故障p接地故障p环境异常p光纤、电缆故障l人为原因人为原因p误操作设置了光路的环回p误操作更改、删除配置数据l设备本身故障设备本身故障p单板失效或性能不好可能原因可能原因Page 39HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 丢包类故障l外部原因外部原因光功率问题接地故障环境温度电缆故障设备外部干扰(瞬时大误码)l人为原因人为原因时钟配置错误l设备本身故障设备本身故障单板失效或性能不好可能原因可能原因Page 40HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 故障案例集l如下网路,从如下网路,从RTA网元上业务,从网元上业务,从RTD网元下业务,用户反映该网网元下业务,用户反映该网路部分业务中断路部分业务中断故障现象故障现象RTARTBRTCRTDPage 41HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 故障案例集l1、分析网络拓扑,在这个简单的网络中,根据用户提供的信息分、分析网络拓扑,在这个简单的网络中,根据用户提供的信息分析出如下内容析出如下内容RTA节点是首节点,RTD节点是末节点,其他节点均为Transit节点中断部分的业务在RTD节点上属于同一个光口中断部分的业务在RTA节点也属于同一个光口RTA节点、RTB节点、RTC节点和RTD节点间均通过GE口相连定位步骤定位步骤Page 42HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 故障案例集l2、使用、使用OAM或或PING命令来确认链路是否正常命令来确认链路是否正常使用PING命令后,发现RTA节点至RTD节点的链路不通:确认在这个网络上存在着故障,导致业务不通l3、使用、使用TRANCEROUTE命令来确认所有节点的链路状态命令来确认所有节点的链路状态使用TRANCEROUTE逐个节点进行确认,发现从RTA节点到RTC节点都是正常的,但是到RTD节点的TRANCEROUTE时返回异常:确认RTC节点到RTD节点间存在故障定位步骤定位步骤Page 43HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 故障案例集l4、对、对RTC节点上和节点上和RTD节点相连的节点相连的GE口使用口使用PHY内环命令内环命令设置内环回后发现业务OK:则排除了RTA节点、RTB节点和RTC节点存在问题,确认在RTC到RTD的链路上或者RTD节点本身存在故障l5、对、对RTD节点和节点和RTC节点上相连的节点上相连的GE口使用口使用MAC外环命令外环命令设置外环回后发现业务仍然OK:则排除了RTC和RTD链路上的故障,基本上确认是RTD节点本身的故障定位步骤定位步骤Page 44HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 故障案例集l6、查询网元上相应告警、查询网元上相应告警发现该RTD节点上和RTC节点相连的那块单板上报了hard_bad告警:基本确认由于该单板故障导致业务中断,更换相应单板后业务OK定位步骤定位步骤Page 45HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential 故障案例集l和和RTC节点相连的单板上有节点相连的单板上有hard_bad告警,但是为什么只会导致告警,但是为什么只会导致RTD网元网元上对应单板一个光口的业务中断呢?上对应单板一个光口的业务中断呢?因为该hard_bad告警显示的是芯片故障,而正好是该单板的一片芯片产生了故障,另外一片芯片仍然是正常工作的。同时这块芯片对应的业务正好全部发送到了业务中断的那个光口,而另外一块芯片的业务发往了其他的光口。l什么原因导致该单板什么原因导致该单板hard_bad?同时查询历史告警发现单板上曾经发生过TEMP_OVER告警,温度过高导致损害了一片芯片。后来查询用户手工设置了风扇速度,导致该单板的温度过高时风扇无法进行调速后续思考后续思考Page 46HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential l本节我们主要学习了:本节我们主要学习了:pPTN产品的经典案例分析,为故障定位提供了一个基本的流程小结Page 47HUAWEI TECHNOLOGIES CO.,LTD.Huawei Confidential l本课程我们主要学习了:本课程我们主要学习了:ppPTNPTN产品常用维护手段产品常用维护手段ppPTNPTN产品巡检中关注的内容产品巡检中关注的内容总结Page 48Thank Y