《网络故障诊断PPT1.ppt》由会员分享,可在线阅读,更多相关《网络故障诊断PPT1.ppt(130页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、,1.1 OSI参考模型 1.2 系统故障的原因 1.3 系统故障的损失 1.4 系统的高可用性 1.5 企业的网络系统准则 1.6 网络规划和文档编制 1.7 常规网络审计 1.8 网络管理、监视和诊断 1.9 网络仿真 1.10 网络变动管理 1.11 编制网络故障文档 1.12 培训网络支持人员 1.13 小结,第1章 网络可用性与差错管理,1.1 OSI参考模型,在谈到网络时,不能不提开放式系统互联(OSI,Open System Interconnect),也叫OSI参考模型。它是ISO(国际标准化组织)提出的网络互联模型。该体系结构标准定义了网络互联的七层框架,即OSI开放系统互联
2、参考模型,如图1-1所示。在这一框架下详细规定了每一层的功能,以实现开放系统环境中的互联性、互操作性和应用的可移植性。,图 1-1 OSI参考模型,下面对这七层的功能分别进行说明。 (1)物理层。要传递信息就要利用一些物理媒体,如双绞线、同轴电缆等,但具体的物理媒体并不在OSI的7层之内,有人把物理媒体当作第0层。 (2) 数据链路层。数据链路层负责在两个相邻节点间的线路上无差错地传送以帧为单位的数据。,(3) 网络层。在计算机网络中进行通信的两个计算机之间,可能会经过很多个数据链路,也可能还要经过很多通信子网。 (4) 传输层。传输层的任务是根据通信子网的特性最佳地利用网络资源,并以可靠和经
3、济的方式,为两个端系统(也就是源站和目的站)的会话层之间提供建立、维护和取消传输连接的功能,负责可靠地传输数据。在这一层,信息的传送单位是报文。 (5) 会话层。在会话层及以上的高层中,数据传送的单位为报文。,(6) 表示层。表示层主要解决用户信息的语法表示问题。 (7) 应用层。应用层确定进程之间通信的性质以满足用户需要,此外还提供网络与用户应用软件之间的接口服务。 OSI参考模型定制过程中所采用的方法是将整个庞大而复杂的问题划分为若干个容易处理的小问题,这就是分层的体系结构方法,它作为一个框架来协调和组织各层协议的制定。 OSI的服务定义详细说明了各层所提供的服务。,1.2 系统故障的原因
4、,商业领域中日益激烈的竞争压力要求公司必须持续不断地优化各自的内部和外部结构,时常检查经营过程及日常工作的可行性和效率。虽然大多数经营过程都是物理活动与信息流程的结合体,但越来越多的关键性商业应用几乎完全由信息流程构成。现代的信息流程在很大程度上取决于信息技术(IT),即便是持续几小时的网络失效也会给企业带来巨大损失,因此一个具有高性能、高可用性的信息技术系统就逐渐成为成功商业应用的先决条件。对计算机网络实行专业化的运行和管理已经成为几乎所有企业走向成功的决定性策略需求。,目前,网络技术越来越复杂,网络中所使用的软硬件数量也越来越多,使得网络操作和管理也变得越来越困难。现代通信网络要求通信介质
5、、连接器、集线器、交换机、中继器、网卡、操作系统、数据协议、驱动程序以及应用软件在任何情况下都要保持稳定运行。即使网络系统有相对稳定的运行环境,其稳定性也仍然会受到许多不定因素的影响,如操作错误、管理错误、配置变动以及软硬故障等。总之,网络操作系统越复杂,影响其稳定性的因素就越多,也就越难预测其行为。,网络故障常常是由一系列差错引起的,一个事件触发另一个事件,一个差错引发另一个差错,反馈可能会放大也可能会缩小错误事件的影响,因此最终检测到的故障现象的位置可能早已远离最初的故障源,而且故障现象看起来也似乎是由其他差错事件引发的。 从网络故障本身来说,经常会遇到的故障有:物理层故障、数据链路层故障
6、、网络层故障、以太网络故障、广域网络故障、TCP/IP故障、服务器故障、其他业务故障等。,根据统计,网络故障的分布情况由高到低如下: 物理层占35%; 数据链路层占25%; 网络层占12%; 传输层占10%; 会话层占8%; 表示层占7%; 应用层占3%。 引起系统故障的原因有多种,如图1-2所示。,图1-2 系统故障的原因,1. 海量存储问题 数据处理故障的最主要原因是硬盘问题,大约26%以上的系统失效都可以归结到海量存储的介质故障上。虽然高性能海量存储设备的平均无故障时间(MTBF,Mean Time Between Failures)可以达到100小时以上,但如果系统拥有大量硬盘驱动器,
7、就意味着几乎每月都得更换硬盘。一般来说,实际能够达到的MTBF要远低于理论MTBF值。据统计,在理论MTBF(1 000 000小时,相当于114年)时间内,只有大约30%的硬盘可以始终保持正常工作状态。,为了计算给定系统在一定时段内需要更换的硬盘数量,可以用系统中的硬盘数量乘以系统服务时间(以小时为单位),再除以理论MTBF值来得到。例如,如果系统中包含1000个硬盘,每个硬盘的理论MTBF值均为100小时,则在第一个5年(折合43800小时)内出现故障的硬盘数A为,上面的计算方法是基于所有硬盘都具有相同的理论MTBF,且工作条件也都相同的假设之上。但是,测试表明,工作在湿热环境下的海量存储
8、单元的实际MTBF值要大大低于冷却条件良好的工作环境下的MTBF值。此外,频繁的磁盘搜索操作和经常性的磁盘位置变动都会降低海量存储介质的使用寿命。因此,某些硬盘厂商在提供了理论MTBF值和运行MTBF值之外,还提供了另外一个用来表征存储介质无差错运行时间的参数值累积分布函数(CDF,Cumulative Distribution Function)。CDF表示了特定时间段内海量存储介质出现故障的概率,如“5年内的CDF值为4%”表示的是“在第一个5年内海量存储介质出现故障的概率为4%”。,2. 软件问题 软件问题引起的系统失效几乎与硬件问题引起的系统失效一样多。目前广泛应用于企业网中的客户/服
9、务器架构和分布式平台使软件之间的关系变得极为复杂,根本不可能监视所有网络负载和运行状态下的系统行为。在企业内联网和互联网的发展过程中,应用软件的更新周期越来越短,使得软件在发布之前根本就没有足够时间来测试软件的可靠性,因此,只能借助于某些自动测试工具,如Mercury Interactive公司()的LoadRunner、Auto Tester公司()的Auto Tester。,3. 硬件问题 大约有1/4的系统失效都是由硬件故障引起的。此处的计算机硬件包括计算机的所有组件。目前计算机系统的MTBF平均值介于10 00050 000小时之间。系统越复杂,其平均MTBF就越低。例如,一个具有多个
10、处理器和多条网络连接的计算机系统出故障的概率要高于相对较为简单的只有单个处理器的服务器。,4. 网络问题 当我们把与网络操作直接相关的软硬件问题等都归到本类原因时,由网络自身引起的系统失效可以占到系统失效原因的1/3以上。可以按照OSI分层结构来划分这些网络差错。LAN差错中大概有30%都发生在OSI的第一层和第二层上,这类故障原因主要有:线缆、连接器或网卡损坏;集线器、网桥或路由器的模块出现故障;以太网中发生冲突;令牌环网重点环路严重告警进程;校验和出错;包大小不正确等。对这类故障只能靠开发和生产出更高质量的硬件系统,并不断地提高线缆质量来减少故障出现的绝对次数。,5. 网络管理员差错 据统
11、计,网络管理员差错引起的网络失效占所有网络失效事件的5%以上。网络管理员差错可以分为有意差错和无意差错。 有意差错并不是指网络管理员故意制造网络故障,而是指差错是由有意识的行为引起的,如执行某些快捷操作。因为有时候网络管理员认为可以简化某些特定的处理过程,或认为完全没必要遵守那些繁琐的安全操作指南,从而产生直接的或间接的网络差错。有意差错与带有不良企图的故意行为不一样。例如,某个员工为了报复管理人员或公司,或者有意给同事制造麻烦而故意破坏网络的行为就不是有意差错。,1.3 系统故障的损失,为了更准确地计算网络中断带来的损失,首先应区分立即损失和后效损失。每类损失又可以细分为直接损失和间接损失。
12、其中,直接损失包括修复网络故障所需的各类直接开销,而间接损失指员工生产率下降或工程工期推延等引起的损失。,(1) 立即损失,指网络中断后24小时内造成的损失。 直接损失。例如:更换网络组件、增加新的网络组件、租用或购买诊断工具、网络专家的咨询费、软硬件厂商的咨询费、网络支持人员的加班工资等。 间接损失。例如:员工生产率下降、系统停工时间、客户或客户订单丢失以及客户信任度下降等。,(2) 后效损失,指网络中断24小时以后引起的损失。 直接损失。例如,新建或调整网络硬件配置,测试其他网段中相似差错,编制系统故障文档。 间接损失。例如,延误工期,耽搁业务处理,降低客户的忠诚度和满意度。,1.4 系统
13、的高可用性,对稳定的经营活动来说,高可用性是商业数据处理中最基本的要求。除了采用特别的方法来提高系统的可用性之外,目前IT系统的可用性普遍在98%99%之间,相当于年中断时间为50100小时。这样的可用性远远达不到要求,必须采用特别措施将系统的可用性提升到99.9%99.999%(99.999%相当于每年的中断时间只有6.8分钟),从而将中断时间减少到几小时甚至几分钟。,但是,系统可用性的提高是以增加大量的系统投入为代价的(几乎按指数关系递增)。因此在规划高可用性系统之前,要明确究竟需要提供什么级别的业务,从而决定系统可用性的指标。 评价系统的一个重要指标是系统失效引起的平均中断时间。在大多数
14、场合下,持续几秒钟或几分钟的业务中断是可以接受的,但是那些持续几小时的业务中断则大多会造成严重的后果。,构建高可用的网络需要使用高质量的网络组件,因为即使没有采用任何特殊的设备或配置措施,网络组件的质量也是决定系统软硬件可靠性的重要因素,而且网络组件的质量高低也决定了诊断工具、系统和网管应用的性能,以及能达到的系统维护和支撑级别。只要能保证所选网络组件的质量,系统的可用性就一定能大大高于平均值。如果希望进一步提高系统的可用性,就必须采用以下额外的网络组件和技术手段:, 冗余组件; 软硬件交换技术; 详细规划每一次预定的网络中断; 减少系统管理任务; 开发自动差错反应系统; 在安装新的软硬件时进
15、行全面检查; 提高网络管理员对系统故障的反应能力; 备份数据库和应用软件; 集群技术。,如果同时使用冗余组件和软硬件交换技术,则可以使冗余组件在几秒钟之内接管出故障的组件。此外,简化网络与网络管理员之间的交互级别也有助于建立不同差错环境下的确定反应。在理想情况下,某个给定的差错始终只会触发某个预定义的处理过程。图1-3中给出了建立高可用性系统的详细步骤。,图1-3 高可用性系统的建立步骤,1.5 企业的网络系统准则,SLA应针对企业准则中指定的主要服务类型进行逐项定义,精确描述所提供服务的质量等级、相应的价格、用户群体以及生效时间,并明确规定一天多少小时,一周(或一月)多少天提供规定等级的服务
16、,其中包括必要的网络维护时间。SLA还要具体规定用户的数量和位置,以及用户提供的硬件设施等内容。此外,SLA还应描述用户的报障、服务变动请求等流程,以及满足这些用户要求的升级流程和网管响应时间。最后,SLA还应详细定义以下服务质量参数所能达到的指标:, 平均可用性; 最低可用性; 平均响应时间; 最大响应时间; 平均吞吐量。,差错管理属于网络管理的级别,但差错管理的许多方面都与其他的数据处理服务管理密切相关,因此服务管理的各个方面都在差错管理策略中扮演着重要的角色。例如,某个SLA中可能包含所提供服务的最大平均修复时间,为此就会对网络支撑部门的员工和网络设备提出相应的要求。因此,一个完整的差错
17、管理策略至少应包括以下网络管理要素:, 数据处理应用的企业准则; 网络提供的所有服务类型; 为所有服务定义详细的SLA; 系统的网络规划; 所有网络组件的系统记录; 网管工具的使用; 监视和诊断工具的使用; 常规网络审计;, 网络仿真工具的使用; 网络变动管理程序; 故障处理和故障诊断的程序; 网络故障记录; 加强网络支持人员的培训。,每个企业都应该指定明确的有关数据处理系统和网络使用方法的企业准则,这种企业准则不仅可以为数据处理系统提供一个整体框架,而且也是开发综合差错管理策略的良好开端。但是,这类企业准则常常流于形式,使网络支持与维护人员和其他员工在某些网络运行和网络管理的责任问题上存在很
18、大的分歧,致使某些部门或员工经常随意安装网络软硬件设备,而且一般用户看到的仅仅是自己桌面上的PC机,从而误以为可以随意配置自己的机器。,企业准则一般都是对数据网络和计算机系统功能和任务概括性的定义,一般都要描述数据网络和计算机系统所能提供的服务,以及对安全性和网络可用性的各种要求等内容。不过,具体内容还应视不同企业状况和要求而定,但无论如何都需保证其经济和技术上的可行性,而且管理者要切实保证企业准则的贯彻实施。在制定这类企业准则时,需要网络支撑部门与企业管理部门共同参与,达成一致。,1.5.1 企业员工准则 企业员工准则应详细描述所有网络用户及用户组(包括正式员工、临时员工、访客、系统管理员、
19、服务和维护人员以及外聘顾问等)的权利义务。对所有用户组来说,员工准则都应涵盖以下内容:,(1) 访问系统和服务; (2) 限制对系统和服务的使用权,包括禁止以下操作: 侵入其他系统; 泄露密码; 操作其他用户的数据文件; 共享用户账号; 非法拷贝受版权保护的软件;,(3) 建立用户账号的权限; (4) 用户的责任: 保存好用户密码; 定期更改用户密码; 备份用户数据; 对敏感数据保密; 遵守以下员工准则:按照公司规定使用系统资源(数据存储设备和CPU等)和Internet;公司的数据处理服务不得用于私人用途;接受公司对用户账号越权使用的监视。 报告异常操作行为和病毒等。,1.5.2 企业的网络
20、硬件准则 企业网络数据处理系统的硬件准则必须包括以下内容: (1) 每个网络硬件组件(服务器、路由器、终端设备以及配线柜等)的安全守则; (2) 企业总的安全守则(关于防火、防洪告警系统以及空调系统等)。 数据处理系统的所有关键组件(包括软件程序、文件服务器、路由器、网桥、终端等)都应该采取物理防护并安装在空调机房内,这些关键设备的机房应采用个人接入号或带磁条的ID卡等准入手段加以限制。,1.5.3 企业的网络软件准则 控制企业中所有软件应用程序的使用是企业网络管理策略的另一个重要组成部分。在没有网络管理员监控的情况下,用户自行配置个人计算机常常会引起网络差错。此外,未经授权而擅自安装应用程序
21、或游戏软件,可能会使计算机感染病毒或遭到特洛伊木马的入侵。网络管理员必须完整记录所有网络组件和计算机系统的配置情况,其他人员只有经授权之后才能更改系统配置。最后,非常重要的一点就是要经常备份用户数据,包括脱机备份。,1.6 网络规划和文档编制,实现差错管理策略的第二步就是编制全面的网络文档。因为在通常意义上,信息处理系统的软硬件详细档案是实施有效网络管理的必要条件,而对差错管理来说尤为重要。完整的网络文档应包括以下内容: 大厦的楼层平面图,其中要标示出线缆布局、墙插、配线箱、网络组件和系统终端的位置; 功能结构图; 所有网络组件的配置数据; 设备测试结果档案。,其中最费时的工作就是绘制线缆图。
22、如果可能,应使用计算机辅助线缆管理系统,将大厦的楼层平面图(电子版格式)导入该管理系统中。多数计算机辅助线缆管理系统都能够存储每个网络组件的平面图以及相应的细节信息(如线缆测试结果、设备规范或配置数据等)。如果没有这类计算机辅助线缆管理系统,就需要用笔在大厦的楼层平面图上标示出线缆布局和墙插等网络组件,而且线缆和接头的命名要易于理解,便于用户快速向线缆和接头管理人员反映问题的位置。理想情况下,可以生成清楚、专业的标签。如果系统中使用的线缆或接头的引脚布局为非标准布局,则还应该详细列出引脚的定义情况。,在收集到所有线缆路由、墙插和用户终端的信息之后,就可以输入线缆管理系统或标注在楼层平面图上。配
23、线箱一般用一张图单独表示,其中应该有配线箱的结构图和槽位列表。如果网络是总线拓扑(10Base2、10Base5),则应该确保将所有接头都标示在线缆结构图上,需要注意的是,一定不要漏记网络中的无源器件(如中继器),应该将这些无源器件的详细资料记在线缆图上。,网络文档的另一个非常重要的部分就是功能结构图,因为功能结构图给出了所有组件和网段(包括所有终端、中继器、集线器、网桥、路由器、交换机、MAU等)的功能、连接、端口、带宽和冗余情况。网络文档的第三个组成部分是所有网络组件的系统配置和设备指标数据库,第四个组成部分是在网络审计和故障排除中积累的各种测试记录。,在EIA/TIA606规范(即“商业
24、大厦电信基础设施管理标准”)中给出了数据网络文档的标准命名方法,该规范可以从全球工程文档()处获得,它是线缆基础设施的“宝典”,每个计算机辅助线缆管理系统都要遵守该规范。表1-1列出了线缆文档的重要组成部分。,表1-1 线缆文档的重要组成部分,1.7 常规网络审计,1.7.1 物理层审计 在物理层审计过程中,初看起来对整个线缆设施进行全面的检测似乎过于浪费人力和物力。但经过长期的实践证明,这种检测能够非常有效地防止许多网络差错的出现。尽管目前的线缆和连接器的质量与前几年相比已大大改善,但是仍然有许多间歇性的网络差错和故障源难以定位,差错原因最终都归结于线缆和连接器等组件的问题上。,这主要是由于
25、材料老化(像日照、湿气更会加速材料的老化)、机械磨损、质量低劣或材料损坏等原因引起的,而且在大多数情况下,这类差错问题带来的影响是逐步显现的。这类差错导致因校验和出错的数据包比例大大增加,服务响应时间延长,但此时仍能维持基本的通信功能,只是吞吐量在不断降低,差错率也在不断增大,直至网络完全瘫痪。每年一次的线缆网络审计工作可以帮助我们掌握铜缆或光缆段的磨损情况,替换所有达不到最低性能指标的线缆,从而避免出现网络故障。某些线缆测试需要断开LAN或WAN连接,此时冗余网络结构就非常有用。,因为这种网络结构可以在主用连接断开后自动将数据流切换到备用连接上。例如,令牌环和FDDI网络在主环发生故障时可以
26、将数据流切换到次环上,而使用交换机和路由器的网络则可以选用其他端口传送数据。因此,每年一次的线缆设施审计也应该顺带检查这些切换功能是否正常。物理层审计应包括以下三个方面。,1. 局域网中的线缆审计 主要测量以下参数: (1) 铜双绞线:电缆长度、近端串扰(NEXT)、信噪比(SNR)、衰减。 (2) 同轴电缆:电缆长度、接头反射、站点数量。 (3) 光缆:光缆长度、总衰减量、熔接头引起的衰减。 (4) 令牌环、FDDI、带有备份路由的路由器以及带PVC的ATM交换机:备份功能测试。,2. 广域网中的线缆审计 广域网中最重要的物理层测试是信号状态和误码率(BER,Bit-Error-Rate)的
27、测试,第一步就是用协议分析仪对所有数据包进行CRC差错校验;第二步则是使用接口测试仪检查信号电平和信号状态。从测试结果中可以看出是否存在异常情况,如信号电平与标准输出电压不一致,信号失真或者信号抖动等。,如果能够暂时中断网络连接,则还应进行独立的误码率测试(BERT,Bit-Error-Rate Testing)。在测试时,应从被测WAN链路发送多种比特模式的测试信号并经接收端环回,在发送端用BER测试仪测试环回信号的误码率。为了能得到有意义的BERT测试结果,该测试应持续数小时。在测得以下BERT测试参数后就可以大致确定被测WAN链路的质量了: 误码率; 误块数; 无错秒数; 有错秒数。,3
28、. OSI物理层审计的应力测试 许多物理层问题只有在网络负载达到一定程度时才显现出来,这类问题主要包括由电磁干扰(如脉冲拨号、设备上电时的电涌等)、集线器信号弱化或终端电阻引起的故障。因此应该在网络重载条件下进行OSI物理层审计的测试,特别是要注意被测网络拓扑的差错情况。表1-2中列举了OSI物理层审计的建议测试项目及相应的测试技术。,表1-2 OSI物理层审计,1.7.2 数据链路层审计 为了取得有意义的测试结果,对数据链路层运行参数的测试也应持续较长的时间(一般为一天、一周甚至一个月)。而且对骨干层网络、重要网段以及WAN链路进行长期的连续检测也是标准网络管理的一项基本工作。与各类传输技术
29、均相关的数据链路层参数包括容量使用、网络活动统计、连接矩阵以及传输延时。容量使用的测试应持续一个工作周,并找出最大和最小点。容量使用统计数据必须含有网络负载(分别以KB/s和占总容量的百分比来表示)、包大小分布、包数量等内容。这些数据可以提供有关网络运行的一些有用信息。由网络活动统计数据中可以找出网络中最活跃的站点。,表1-3 OSI数据链路层审计,1.7.3 网络层审计 网络层审计的结果可以用来分析不同网络拓扑下用户数据传输协议的性能及效率。进行网络层审计需要两步来完成。 第一步就是要确定网络中所使用的网络层协议及其在整个网络负载、吞吐量中所占的比例,同时还有使用该网络层协议的站点比例。,第
30、二步则是收集所有与网络层协议有关的详细数据,具体收集什么信息应视不同协议的体系结构而定,参见表1-4。例如,对应用广泛的IP协议来说,应收集与IP广播、ICMP重定向、ICMP不可达、低TTL、ARP包、路由包、DNS、低窗口尺寸以及其他相似参数有关的统计信息;对ISDN和ATM来说,还应监测相应的信令协议(如ATM的UNI 3.0、3.1、4.0及ISDN的DSSI)。,表1-4 OSI网络层审计,1.8 网络管理、监视和诊断,1. 网络管理系统 网络管理系统是控制复杂的数据处理基础设施的基础,是一种可以监视和管理网络中所有软硬件及整体网络结构的软件应用程序,它对于差错管理来说也同样是必不可
31、少的。对一个拥有超过1000个用户的网络来说,如果没有网络管理系统的帮助,就根本不可能实现精确的运营成本控制。根椐ISO/IEC 7498-4标准(即“信息处理系统开放系统互连基本参考模型第四部分:管理框架结构”)的定义,一个完整的网络管理系统应包括以下五个部分。,1) 配置管理 配置管理完成对网络中所有硬件系统和应用程序的管理。它包括系统配置和组件管理、分发和授权软件、管理客户机和服务器系统的详细目录等。此外,还要调查所有的网络拓扑并不断加以更新。,2) 性能管理 性能管理主要利用专用的软件代理程序监视系统的软硬件性能。这些软件代理监视被管对象,并将监测结果报告给统一的分析应用程序。可以预先
32、设定一些系统告警事件,当超过预设的域值时就向网管系统发送告警信号。除了监视系统的软件硬件性能之外,性能管理还要监测结果系统的运行效率,包括连续监测网段间和网段内的数据流,并记录每个网段的流量特征(如数据包大小、包差错率、传输延时等)。,3) 安全管理 安全管理包括网络地址的管理和文件域、访问权限以及用户密码的管理等。此外,还必须严密监视系统或网络的关键组件(如服务器、路由器、网关、防火墙等),以防出现未经授权(或不正常)的操作行为。,4) 计费管理 计费管理的目的就是要记录所有用户对系统资源的使用情况并加以分类。这种分类可以基于不同的参数(如文件服务器的硬盘存储空间、访问数据库的时长以及通过网
33、络传送数据的次数和数据量等),以达到合理分摊数据处理系统的开销的目的,从而促使用户经济、合理地使用系统的可用资源。,5) 差错管理 在ISO管理模型中,差错管理的使用最为广泛。因为每一个网络都需要相应的差错管理系统,即使以最基本的形式出现。根椐ISO的定义,最严格意义上的差错管理意味着定义和遵循“检测故障现象、限制差错范围、解决问题、测试解决方案、记录差错现象及相应的解决方法”等的流程。但实际的差错管理从网络文档的编制,到网络的规划等方面,都要比ISO的定义复杂得多,涵盖网络运营的方方面面。,除ISO网络管理模型中规定的网络管理功能之外,近几年来,数据存储管理的重要性也日益增加,花费在其上的时
34、间和金钱也与日俱增,因此,这部分已发展成为独立的网络管理领域。随着企业对存储空间需求的急剧增长,以及对所存储信息的可用性的依赖越来越强,系统备份及其管理已成为数据处理领域中的新挑战。数据备份操作既要能在非工作时间进行(称为冷备份),也要能在工作时间进行(称为热备份)。此外,还需要分别为本地备份操作和远程备份操作定义相应的操作流程。存储管理的任务包括定义备份周期、确定备份所需要的时间以及控制数据的恢复过程。,对所有网络组件及其相应通信链路的管理,都基于运行于被监控的网络组件中的软件代理,以及用于与集中网管站点之间收发信息的通信协议。能够用于这些管理任务的通信协议包括简单网络管理协议(SNMP)和
35、应用较少的公共管理信息协议(CMIP)。大多数现代网络组件都集成了SNMP代理,使用SNMP协议读取设备的运行统计数据,并转载配置参数。 对那些使用专用控制协议的网络组件来说,可以使用代理(Proxy)来完成与SNMP的互译工作。,2. 网络监视和诊断 在排除网络故障和进行网络的差错管理时,需要采用特殊的网络监视和诊断工具。当然,在一个规模很小的网络中,如果仅凭故障现象即可定位故障源,或者运行实时测试、替换网络组件即可防止网络出现差错时,即使在没有任何工具的帮助下,熟练的网络管理员也能解决许多常规性的网络故障。但这仅适用于规模十分有限的小型网络,而且即使修复了故障现象也难以知道网络中还存在什么
36、样的故障隐患。此外,这种基本的解决方法几乎没有预防网络故障的能力。,诊断工具可以分为两大类:战术诊断工具和战略诊断工具。战术诊断工具具有移动性,配置在故障网段中直到问题解决;而战略诊断工具是连续使用的(如监视某个特定网段的运行)诊断工具,主要用于长期的网络研究和趋势分析等场合。也可以编程设定相应的告警事件,在网络运行过程中如果超过了规定的域值就会触发告警。在实际中常常需要综合使用这两类诊断工具,它们可以提供从线缆基础设施到OSI高层通信协议的详细分析结果。一般使用的测试仪器主要有电缆测试仪、万用表、光时域反射仪(OTDR,Opitcal Time-Domain Reflectometer)、协
37、议分析仪、误码测试仪以及系统探针等。,1.9 网 络 仿 真,网络仿真工具是一类可以预测网络条件发生变化时网络行为的应用软件。该类工具可以从现有的网络拓扑规范、目标网络及管理系统中收集到的统计数据出发,借助复杂的算法来预测可能的网络行为。因此,如果准备改变网络配置(如增加服务器、客户机或应用),那么就应该先在这类工具上进行仿真并获取相应的仿真数据,为评估配置变化后的服务等级、中断时间、应用性能等级以及容量使用等提供依据。,1.10 网络变动管理,变动管理包括安装软件、PC机、工作站、网桥、路由器和交换机等行为,还包括相应的管理任务,如培训员工适应新的工作任务,当员工改变工作站时需要重新配置用户
38、接入权限等,在分配IP地址时应相应地改变配线箱的接线板跳线,修改用户访问服务器时的权限并创建(或修改)网关地址。所有的这些任务都必须严格遵照相应的管理流程并记录在案。由于很大一部分网络故障都发生在没能更好地规划和实施网络配置变动上,所以需要详细记录网络中近期发生的全部变动情况,包括每次更改网络设置的日期和时间,为今后的故障定位提供详细的文档资料。,与变动管理一样,网络故障的排除也需要有详细的系统流程。当今的网络越来越复杂,以至于不可能再凭直觉来排除网络故障,因此需要制定详细的处理问题的流程,这样对解决网络中经常出现的故障非常有帮助。,1.11 编制网络故障文档,详细记录网络故障现象及其解决方案
39、的重要性已不言而喻,但是仍有许多企业的网络故障文档不全,甚至完全没有故障文档,没针对网络故障定义相应的响应措施更是司空见惯。标准的故障文档编制流程和系统的故障检测流程可以为网络支持人员提供标准的、有益的记录和检查网络故障的方法,从而有利于判断故障的可能原因并规划测试方案。如果没有严格的处理准则,则很难对网络故障做出有效的应对措施,甚至无法恢复网络。,因此,需要定义一个标准的故障文档表格,让技术人员在网络发生故障时填写,这类故障文档至少要包括发现故障的日期和时间、受故障影响的系统和应用程序的数量和类型、对可能故障原因的建议及测试方案的描述等内容。在网络故障被排除之后,应附上简要的故障排除过程描述
40、并归档。所有网络技术人员都应该认真填写好网络故障文档,这样不仅有利于建立良好的工作方法,而且可以为网络故障解决方案数据库提供有价值的实践资料。,1.12 培训网络支持人员,对所有企业来说,最有价值的资本就是技艺精湛、工作积极的员工,特别是在网络运营和维护越来越复杂的今天更是如此。如今的计算机网络太过复杂,以至于不可能让其“自动”运行(即使使用了当今市场上最为强大的网络管理工具也无法办到)。因此,即使是最专业的诊断系统也不可能完全替代网络专家的知识和技巧,这也是为什么推行高质量的员工培训计划与严格遵守工作流程和使用合适的诊断工具一样,都是全面差错管理不可或缺的重要组成部分。,1.13 小 结,本
41、章首先介绍了OSI参数模型,并在此基础上讨论了可能导致网络故障的原因和损失,之后介绍了一些常用的网络可用性与差错管理方法。通过本章介绍的网络可用性与差错管理方法,可以有效降低网络故障率,并提高网络故障诊断的效率。,2.1 网络故障诊断模型 2.2 诊断问题的方法 2.3 网络故障管理 2.4 准备进行故障排除 2.5 小结,第2章 网络故障诊断方法学,2.1 网络故障诊断模型,网络发生故障所造成的损失可能是灾难性的。一般情况下,生产性网络发生故障的平均损失从几万美元每小时至几百万美元每小时不等。对于越来越多的机构来说,长时期的生产性网络中断可能引起机构的倒闭。,修复发生故障的网络或者遭破坏的网
42、络给网络工程师和网络管理员带来了难以想象的压力。在这种压力下,使用特殊的专门技术和所掌握的技巧迅速恢复网络的功能是非常有价值的。然而,这些专门技术需要深入、详细、广泛地掌握网络知识。 非系统的故障排除方法只会导致在网络故障现象、相互依赖和偶然性的迷宫中浪费时间。相反,系统的故障排除方法经历搜集详细情况、分析可能原因、针对原因采取行动、观测测试结果的过程,这有助于详细地了解网络迷宫。,故障排除模型的总体思想是系统地将由故障可能的原因所构成的一个大集合缩减成一个小的子集,或者直接确定故障起因,然后排除故障并恢复网络的功能。问题解决之后,通过记录该事例所形成的系统故障排除方法有助于汲取、保存、交流排
43、除故障过程中所获得的经验。使用这样的系统故障排除模型能够提高机构的专门技术,减少了解决今后类似问题所花费的时间。提高专门技术和协作的这种转变可以减轻支撑关键的、复杂的网络过程中的工作压力。,现代网络的复杂性和对至关重要的无故障运行时间的需求,增加了解决连通性和性能问题的压力。处理网络互联问题的最好办法是开发一个标准的故障排除方法学。图2-1提出的故障排除模型是这种方法学的一个范例。故障排除时,有序的思路有助于解决所遇到的问题。模型列出了一系列步骤模块。这些步骤模块可以分成几个故障排除阶段:,图2-1 网络故障排除模型,(1) 确保具有明确的、充分的问题描述; (2) 全面搜集相关情况并分析可能
44、的原因; (3) 针对可能性最大的原因制定和实施一个操作计划,然后观察其结果; (4) 如果故障现象没有消除,尝试另一项操作计划(或者搜集额外的情况); (5) 如果故障现象消除了,记录并整理排除故障的方法。 故障排除时应采用一种有序的思维模式。这里所描述的模型采取一种由多个步骤模块构成的方法来解决问题。下面将详细分析每个步骤模块,并通过一个故障排除实例,学习如何应用这些步骤模块。,2.1.1 详细说明故障 分析互联网络故障时,按照一组故障现象及相关原因详细说明故障,以便参照为网络制定的基准指标进行故障描述。做这项工作首先要观察总体故障现象,然后确定可能有哪几类原因会导致这些故障现象。例如,思
45、考图2-2中的网络故障排除情况范例。该网络使用 TCP/IP协议族,而且发生了一个故障。故障现象是主机1和主机2的用户得不到主机A或主机B的任何响应。如何排除这种故障?,图2-2 主机1和主机2得不到主机A或主机B的响应,在方法学中的这一阶段,应观察相关的总体故障现象并确定可能的原因,以便详细地描述故障。尽量判断可能的原因并记录下来。也许会出现许多答案,但是要注意那些被认为是故障的主要起因的答案。 这时,目标就是分析可能的原因。在方法学中随后的步骤是提出问题(即搜集详细情况),如主机3和主机4是否能够得到来自主机A和主机B的响应,主机1能不能与主机2通信,广域网连接是否正常等。,下面是主机1和
46、主机2通信故障可能的原因: 主机1和主机2安装的网卡有故障; 主机1和主机2需要缺省网关,但是没有作配置; 主机l和主机2或路由器X中存在错误配置的子网掩码; 网络R连接了有故障的设备,它在以太网电缆上导致了太多的冲突;, 路由器X或路由器Y访问控制表配置不正确,导致来自受影响主机的数据流被阻塞; 广域网连接发生故障; 路由器没有配置有效的协议映射声明; 主机A和主机B没有作识别主机1和主机2的配置。 也许还有其他原因,但是首先应该注意那些被认为是造成故障现象的主要原因 。,2.1.2 搜集详细情况 故障排除的第二个步骤是搜集有助于查找故障原因的详细情况。 向受到影响的用户、网络管理员、经理和
47、网络所涉及的其他关键人员提出问题,尽量确定是否有人知道做出改动的地方(提出这个问题而得到的回答却是“没有”,这种现象再现了多少次?),完整地记录获得的全部信息。,根据所报告故障现象的性质,从网络管理系统,协议分析仪的踪迹,诸如debug特权可执行命令、show 可执行命令这样的路由器诊断命令的输出,软件发行通知等来搜集情况。可能需要在不连续的时间或相当长的时期内搜集这些信息,如一整夜的数据采集。 记录和坚持拷贝主机、路由器、服务器和任何其他可配置网络设备的配置信息是一个好的做法,能够通过比较配置判断有哪些地方发生了改变。 回到上面的故障示例,在专注于可能原因的过程中需要搜集详细的情况。,分析故
48、障时,假定搜集到了下列情况: 主机3和主机4能够与主机A和主机B通信; 主机1和主机2能够与主机3和主机4通信; 主机1能够与主机2通信; 为了识别与主机1和主机2通信,对主机A和主机B进行了正确的配置。,2.1.3 分析可能原因 利用搜集的数据和所掌握的知识,可以确定一个范围,这有助于查找故障的原因。通过划定范围,只需注意与某一故障或故障情况相关的那一部分产品、介质和主机。 系统的故障排除方法所带来的最大好处之一是减少可能的情况,将不相关的网络细节排除在需要检查的项目范围之外。可以一类一类地排除与系统软件和硬件相关的问题,根据故障范例中所搜集的情况能够排除几种可能的原因。分析前面确定的可能原
49、因,参见图2-3。,图2-3 能够一一排除可能的故障, 主机1和主机2安装的网卡有故障: 可以不考虑这个可能的原因,因为主机l和主机2可以通信。 主机1和主机2需要缺省网关,但是没有作配置: 可以不考虑这个可能的原因,因为主机l和主机2能够与主机3和主机4通信。 主机1和主机2或路由器X中存在错误配置的子网掩码: 可以不考虑这个可能的原因,因为主机l和主机2能够与主机3和主机4通信。, 网络R连接了有故障的设备,它在以太网电缆上导致了太多的冲突: 可以不考虑这个可能的原因,因为主机l和主机2能够与主机3和主机4通信,而且,主机1和主机2也可以通信。 路由器X或路由器Y访问控制表配置不正确,导致来自受影响主机的数据流被阻塞: 这仍然是一种可能的原因,可以根据所搜集的任何情况排除这个原因。 广域网连接发生故障: 可以不考虑这个可能的原因,因为主机3和主机4能够与主机A和主机B通信。, 路由器没有配置有效的协议映射声明: 可以不考虑这个可能的原因,因为主机3和主机4能够与主机A和主机B通信。 主机A和主机B没有做识别主机1和主机2的配置: 可以不考虑这个可能的原因,因为为了识别与主机l和主机2通信,主机A和主机B进行了正确的配置。搜集情况时我们已经检查了这项内容。 故障的范围被缩小为:路由器X或路由器Y中配置的访问控制表可能阻塞了到达/来
限制150内