网络设备巡检服务工作规范标准.doc
《网络设备巡检服务工作规范标准.doc》由会员分享,可在线阅读,更多相关《网络设备巡检服务工作规范标准.doc(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、.1/37XXXX 信息中心信息中心网络设备巡检服务工作规网络设备巡检服务工作规(H3CH3C 设备网络)设备网络)V V1.01.0信息中心信息中心.2/37目录目录1 概述 52 巡检工作流程 52.1 巡检前期准备 62.2 数据采集阶段 72.3 数据分析和报告生成阶段 72.4 汇报和满意度调查阶段 73 网络巡检数据采集方法 83.1 手工数据采集方法 83.2 网络管理平台数据收集方法 83.3 巡检工具数据采集方法 84 网络巡检服务基准数据库的建立 95 网络巡检工作容 951 巡检工作的主要容 952 网络巡检工作技术涵盖 116 网络系统巡检基本判断标准 117 设备相关
2、信息收集 137.1 软件版本与硬件信息分析 137.1.1 当前设备硬件信息 14.3/377.1.2 当前设备运行软件信息 157.2 设备板卡硬件配置信息分析 167.3 设备运行状况检查 177.3.1 设备 CPU 工作状态检查 177.3.2 设备 CPU 利用率分析 187.3.3 设备 MEMORY 使用状态检查 197.3.4 设备 MEMORY 利用率分析表 207.4 设备运行状态检查 217.4.1 电源的工作状态 217.4.2 风扇的工作状态 217.4.3 设备工作温度 218 端口的可用性、准确性检查 228.1 端口状态检查 228.1.1 基本网络接口状态分
3、析 278.1.2 接口半/全双工模式和链路类型 278.1.3 接口稳定性统计信息 278.2 端口状态检查表 289 设备端口负载与流量检查 289.1 设备缓存信息检查 2810 网络架构、配置信息分析 2910.1 网络结构检查 2910.1.1 检查容 29.4/3710.1.2 检查方式 2910.2 网络配置信息检查 3210.2.1 检查容 3210.2.2 检查方式 3311LOG 信息检查 3611.1 标准的 LOG 格式 3611.2LOG 日志等级 3611.3 日志信息分析表错误!未定义书签。错误!未定义书签。关于文档关于文档为保障 XX 信息中心网络的平稳运行,将
4、在每月进行网络巡检,并根据巡检结果给出相应的网络系统改进和优化建议。本文档面向 XX 的技术人员和外部支持公司网络工程师,通过参考本文档,共同完成对 XX 信息中心网络运行状况的检查与分析。通过本文档使 XX 技术人员和外部支持公司网络工程师充公了解 XX 信息中心对网络巡检的基本要求,以该规为参考,使得网络系统巡检工作更加标准化、规化。由于网络技术的不断发展和设备的更新换代,本规需要逐步地更新、完善,增加网络设备硬件、软件、固件的新版本和新硬件的容。同时,随着网络健康服务的不断深入,对网络系统检查的深度和围也将发生变化,本规也会逐步地完善。.5/37文档适用对象文档适用对象本文档仅适用参与
5、XX 网络项目相关技术人员和外部支持公司的网络工程师。1 1 概述概述为确保 XX 信息中心网络安全生产,提升网络服务质量,确保设备的正常运行,将每月对 XX 信息中心网络设备进行巡检,巡检围根据巡检工作需要而确定,通过对网络设备的数据采集和分析,能够对 XX 信息中心网络设备的状态具有更加深入地了解。网络巡检是指通过标准的方法和流程定期地对客户一定围的网络进行网元级的系统检查,容包括现场数据采集、分析、客户报告生成等。通过对关键网元设备的关键检查点参数进行数据采集、并将采集到的数据与有关标准进行比较,从而确定关键网元设备所处的运行状态。通过定期网络巡检,可以与时发现网络中可能存在的隐患,并消
6、灭在萌芽状态。2 2 巡检工作流程巡检工作流程网络巡检工作分为前期准备、现场数据采集、数据分析、报告生成和汇报、满意度调查和问题整改追踪等五个阶段。服务流程如下:.6/372.12.1 巡检前期准备巡检前期准备在网络巡检的前期准备阶段,工程师需要在与客户进行充分沟通的情况下,确定要巡检的设备围与巡检重点,形成网络巡检方案书。网络巡检书至少包括:巡检设备围和巡检工作重点 巡检各个工作环节的方式.7/37 数据采集的命令集 协商具体的巡检时间安排 巡检报告输出样表和图形在得到客户认可的情况下,进入下一阶段的工作。2.22.2 数据采集阶段数据采集阶段在网络巡检的数据采集阶段,对于网络数据采集的手段
7、和工具需要得到用户的授权,遵守用户运行管理的相关规定,在指定时间和网络设备围进行数据采集工作。在用户的协助下收集相关网元的技术数据,并记录输出结果。2.32.3 数据分析和报告生成阶段数据分析和报告生成阶段巡检工程师对现场采集到的数据进行分析,形成XX 信息中心 XX 中心网络巡检报告。经过南天公司的网络专家审核通过后,由工程师负责以纸质文档或电子文档的方式提交给客户。2.42.4 汇报和满意度调查阶段汇报和满意度调查阶段通过定期交流的方式,讨论巡检工作中发现的问题与隐患,给出网络运行状况的检查、评估与建议,并进行问题跟踪。同时进行客户满意度调查,以便发现和纠正工作中的问题,改进网络系统巡检工
8、作。.8/373 3 网络巡检数据采集方法网络巡检数据采集方法网络巡检服务的数据采集方法有两种,一是手工命令采集,并配合网管平台进行辅助性数据采集的方法;一是巡检工具数据采集的方法。3.13.1 手工数据采集方法手工数据采集方法手工采集就是登录到网络设备上,通过手工输入命令并记录输出结果的方式进行数据采集。为加强手工数据采集的准确性和合理性,需要对数据进行多次,重复性数据收集。如考量 CPU 的利用率和 MEM 的利用率等信息,可以采用日起、日中、日结等三个阶段,分时段收集并进行汇总比。对于网络设备运行状态、数据流量等信息的趋势性数据采集需要结合一定时间段数据的采集工作,需要利用网络管理系统进
9、行相关数据的采集工作。3.23.2 网络管理平台数据收集方法网络管理平台数据收集方法通过网络管理系统收集相关的数据,可以进行一个阶段的趋势分析,以便更加准确地了解网络系统的整体运行情况,并可以与手工数据采集的结果进行对比,确保数据采集和分析的合理性和可靠性。3.33.3 巡检工具数据采集方法巡检工具数据采集方法通过 H3C 提供的专用巡检工具进行数据采集。该工具集合了常用的设备状态检查的命令,可以自动化收集输出结果,并在后期导出巡检报告。但是需要H3C 提供软件与其授权。在没巡检工具软件的情况下,可以由第一巡检方法来.9/37替代。4 4 网络巡检服务基准数据库的建立网络巡检服务基准数据库的建
10、立由于网络系统的巡检服务是一个长期的、持续性的工作,首先需要对网络系统具有一定的了解,建立一个基本信息库。主要包括:设备清单:设备名称、IP 地址、位置、功用、序列号等 设备模块硬件配置:模块种类、型号等 设备软件版本 设备使用、维修记录 设备性能基准,包括 CPU、Memory 利用率、设备端口流量的初始数据等 设备端口信息:相关计数器初始状态通过第一次巡检完成基本信息库的建立,作为以后巡检工作的数据对比性分析的基础和依据,并保持数据更新,动态调整基本信息库的参考点。5 5 网络巡检工作容网络巡检工作容5 51 1 巡检工作的主要容巡检工作的主要容本项目中,网络巡检工作中涉与的相关容如下:1
11、)设备基本信息收集采集设备的基本信息,包括用户定义的设备名称、设备序列号、设备型.10/37号、运行的软件版本、存大小、CF 卡的大小等2)设备运行状态检查主要采集和分析网络设备的 CPU、Memory 利用率,并在可能是的情况下,观察其变化趋势。3)设备管理运行环境检查主要通过设备的相关命令收集网络设备的运行环境,主要包括机框部各个检测点的温度与其变化,电源工作状态和工作输出电压等相关信息。4)场地环境检查检查设备的运行环境,如机房温度、湿度、设备供电、网络线缆走线等5)网络设备硬件检查检查设备状态、设备连线状态等6)网络设备日志检查使用 display 命令,收集设备运行日志,并做分析7)
12、核心设备的端口可用性、准确性检查使用 display 命令查看设备各端口的工作情况,包括端口的输出、输入错误丢包信息等,buffer 占用情况和缓冲器溢出现象等8)核心设备端口负载与流量检查通过网管与其他手段,对设备端口的带宽占用、负载和流量进行统计分析,便于掌握网络设备与其连接线路的情况。9)网络系统总体性能评估针对巡检的容与分析结果,对网络运行的整体情况做评估。.11/375 52 2 网络巡检工作技术涵盖网络巡检工作技术涵盖网络系统巡检工作主要涵盖以下技术容:项目项目分类分类参数参数数据来源数据来源设备基本信息软件Comware Version命令采集Bootstrap Version命
13、令采集启动与运行Boot-loader命令采集uptime命令采集硬件Device命令采集Flash命令采集NVRAM命令采集Total Memory命令采集SDRAM命令采集设备运行环境环境温度命令采集电源命令采集风扇命令采集性能CPU 利用率Peak Util命令采集AvgUtil命令采集在利用率Peak Used Memory命令采集Avg Used Memory命令采集线路稳定性网络端口In DropsOut Drops命令采集网络事件LOG6 6 网络系统巡检基本判断标准网络系统巡检基本判断标准我们将依照依据华三公司的技术指标和业界遵循的阈值、惯例和相关技术标准,将采集的数据结果与其
14、对照分析,以判断当前网络运转情况是否良好,根据具体发现的问题提出合理改进意见。1)设备运行记录.12/37设备运行时间设备运行时间少于 7 天的(即运行时间过短的设备)需要关注,有可能发生意外重启,同样对于设备启动时间过长的设备建议维护性重启。2)设备报警温度3)电源风扇状态电源电源正常标准Normal(指示灯为绿色)非正常标准Fail(指示灯为红色)风扇风扇正常标准Normal(指示灯为绿色)非正常标准Fail(指示灯为红色)4)CPU 存状态电源(重点关注后两列)电源(重点关注后两列)H3C 建议值巡检建议值变化值关注65%X35%差值大于10%告警75%50%差值大于20%风扇(重点关注
15、后两列)风扇(重点关注后两列)H3C 建议值巡检建议值变化值关注75%X40%差值大于 5%.13/37告警90%50%差值大于10%5)接口丢包错包率(增量)关注0.5%0.5%1%1%告警5%5%5%5%6)接口负载率7)防火墙状态检查项目检查项目正常值正常值运行时间7 DaysCPU 使用率35%存使用率40%Failover 状态Active、Standby会话连接+30%地址转换+30%7 7 设备相关信息收集设备相关信息收集7.17.1 软件版本与硬件信息分析软件版本与硬件信息分析使用命令 display version,查看路由器信息,在巡检过程中用此命令收集来.14/37的数据
16、主要作用是:查看当前设备型号,与当前启动软件版本 查看当前设备已运行时间 查看当前设备引擎存大小 查看当前设备 Flash 大小具体关注方法如下:7.1.17.1.1 当前设备硬件信息当前设备硬件信息设备硬件信息主要包括如下参数:设备硬件信息主要包括如下参数:.15/37H3CH3C S7500S7500 withwith 1 1 MPC8245MPC8245 ProcessorProcessor256M256M bytesbytes SDRAMSDRAM32768K32768K bytesbytes FlashFlash MemoryMemory512K512K bytesbytes NVR
17、AMNVRAM MemoryMemory(如图第(如图第 7-107-10 行)行)当前设备引擎号、在与 Flash 大小H3CH3C S7500S7500 LPULPU withwith 1 1 MPC8241MPC8241 ProcessorProcessor128M128M bytesbytes SDRAMSDRAM0K0K bytesbytes FlashFlash MemoryMemory0K0K bytesbytes NVRAMNVRAM MemoryMemory(如图第(如图第 18-2118-21 行)行)如果设备有冗余引擎,此处显示7.1.27.1.2 当前设备运行软件信息当
18、前设备运行软件信息设备软件信息主要包括如下参数:设备软件信息主要包括如下参数:B BootROMootROM VersionVersion(如图第(如图第 2323 行)行)自启动文件的版本,可用于路由器启动前配置,修改超级管理密码。中低端设备亦称之为 Bootstrap。ComwareComware softwaresoftwareVersionVersion(如图第(如图第 3 3 行)行)系统文件的版本,不同的版本支持的功能不尽一样。一般情况下向下兼容。.16/37前期设备称之为 VRP softwareUptime(Uptime(如图第如图第 6 6 行行)Uptime 列出了该设备已
19、运转的时间,这些信息可以帮助客户判断机器是否发生过意外的重启等7.27.2 设备板卡硬件配置信息分析设备板卡硬件配置信息分析设备板卡硬件数据采集分析的主要任务是通过检查网络设备的板卡和模块配置,对网络设备的负载、容量和扩展能力进行分析。查看基本信息检查的命令主要有:display device display diagnostic 等命令设备硬件统计信息主要包括以下参数:设备硬件统计信息主要包括以下参数:S Slotlot所在位置的槽号S Statustatus显示板卡状态S SftVerftVer显示板卡上软件的版本.17/37设备硬件分析的参考标准设备硬件分析的参考标准StatusStat
20、us:当设备启动正常后,所有板卡状态就为 Normal,如果有双引擎进行冗余状态配置时状态为一个 Master,另一个是 Normal。当板卡有故障时此板卡状态有可能显示 FAULT或显示不出装载的板卡。7.37.3 设备运行状况检查设备运行状况检查运行状况检查包括:CPU 的工作状态存的工作状态Buffer 的情况7.3.17.3.1 设备设备 CPUCPU 工作状态检查工作状态检查使用命令 display cpu 可以检查 cpu 的利用率,可以得到 5 秒、1 分钟和 5分钟的统计结果。容容说明.18/37容容说明CPU busy status交换机 CPU 的占用率状态18%in la
21、st 5 seconds19%in last 1 minute19%in last 5 minutes最近 5 秒 CPU 占用率为 18%最近一分钟 CPU 占用率为19%最近五分钟 CPU 占用率为19%处理器利用率分析的参考建议:处理器利用率分析的参考建议:这个数值在 80%-90%之间时需要引起注意,大于 90%时则影响网络稳定性和设备的正常处理。此数值可通过命令行窗口或网管软件采集连续值得出。当CPU 使用率偏高时排查各个进程 CPU 使用情况。7.3.27.3.2 设备设备 CPUCPU 利用率分析利用率分析通过 display cpu 命令采集相关设备一天当中三次数据,并对数据进
22、行整理分析得到:序号设备名称一天三个时间段 CPU 利用率变化围日起日中日结平均10.00%0.00%0.00%0.00%0.00%23.00%4.00%4.00%3.67%1.00%3注:日起数据为 08:30-09:00 的 5 分钟 CPU 的平均利用率.19/37日起数据为 11:00-12:00 的 5 分钟 CPU 的平均利用率日起数据为 16:30-17:30 的 5 分钟 CPU 的平均利用率7.3.37.3.3 设备设备 MEMORYMEMORY 使用状态检查使用状态检查在任意视图下使用 display memory 或 display memory-usage 命令可采集相
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络设备 巡检 服务 工作 规范 标准
限制150内