服务水平管理和服务水平协议SLA.doc





《服务水平管理和服务水平协议SLA.doc》由会员分享,可在线阅读,更多相关《服务水平管理和服务水平协议SLA.doc(55页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、服务水平管理和服务水平协议(SLA)服务水平管理和服务水平协议(SLA)服务水平管理概述网络公司一直以来都通过构建坚实网络基础设施及主动处理每个业务问题来满足不断扩展网络要求。当业务异常中断时,公司将构建新流程、管理功能或基础设施来防止此类故障再次发生。然而,由于快速变更及日益增长可用性要求,我们现在需要改进模式来预先防止意外故障并快速修复网络。许多服务供应商和企业一直都试图更好地定义服务水平以便实现商业目标。关键成功因素SLA关键成功因素用来定义支持成功构建可获得服务水平及维护SLA主要要素。要成为合格关键成功因素,流程或流程步骤必须可以改进SLA质量并从整体上提高网络可用性。关键成功因素还
2、应具备可测量性,以便使企业能够判断:与定义程序相比,它所取得成功程度。性能指标性能指标提供了公司测量关键成功因素机制。您通常需要每月审查一次,以确保服务水平定义或SLA运行良好。网络运行小组及必要工具组可实施以下测量标准。注意:对于没有SLA公司,我们建议您同时实施服务水平定义、服务水平审核及测量标准。性能指标包括: 记录服务水平定义或SLA,包括可用性、性能、主动业务应答时间、排障目标及问题升级等。 月度网络服务水平审核会议,审核对服务水平执行情况并实施改进。 性能指标测量标准,包括可用性、性能、按优先级划分业务应答时间、按优先级划分排障时间以及其他可测量SLA参数。服务水平管理流程面向服务
3、水平管理高级别流程主要包括两组:1.定义网络服务水平 2.创建并维护SLA实施服务水平管理实施服务水平管理包括十六步,分为以下两个主要范畴: 定义网络服务水平步骤1-6 创建并维护SLA 步骤7-16定义网络服务水平网络管理人员需要定义支持、管理并测量网络主要规则。服务水平为所有网络人员提供目标并可用作整体业务质量测量标准。您也可将服务水平定义用作网络资源预算工具以及投资于更高服务质量证据。它们还提供评估供应商及运营商表现方法。如果没有服务水平定义和测量,公司不可能制定明确目标。服务是否满意由用户决定,在应用、服务器/客户机运行或网络支持方面并无明显差距。由于企业对最终结果没有把握,因此很难作
4、预算。最终,网络公司在提高网络及支持模式方面都趋向于选择被动应答,而非主动预防方式。我们建议采取以下步骤来构建并支持服务水平模式: 分析技术目标及限制因素。 确定可用性预算。 创建详细记录关键应用网络特征应用资料库。 定义可用性、性能衡量标准及通用术语。 创建服务水平定义,包括可用性、性能、业务应答时间、排障平均时、故障检测、升级门限及上报途径。 收集测量标准并监控服务水平定义。第1步:分析技术目标及限制因素开始分析技术目标和限制因素最佳方式是集体讨论或研究技术目标与要求。因为这些人都有特定业务目标,所以有时这有助于要求其他IT技术人员参与讨论。技术目标包括可用性级别、吞吐量、抖动、延迟、应答
5、时间、可用性要求、新特性推出、新应用推出、安全性、可管理性及成本等。随后,公司应研究限制因素,以便使用可用资源实现这些目标。您可为每个目标创建带有对限制因素解释工作表。最初看似大多数目标都无法实现。随后划分目标优先级或降低对仍可满足商业要求目标期望值。例如,您制定可用性级别可能是99.999%,或每年5分钟故障停机时间。实现这一目标存在大量限制因素,如硬件单点故障、远程位置中故障硬件平均修复时间(MTTR)、运营商可靠性、预先故障检测、高变更率及当前网络容量限制等。因此,您需要将这个目标调节到更加易于实现级别。下个章节中介绍可用性模式可帮您制定现实目标。您可能也考虑在限制因素相对较少网络领域提
6、供可用性。当网络公司公布业务可用性标准时,公司中各业务部门可能发现无法接受这个级别可用性。这自然而然引发对SLA讨论,或为可满足商业要求模式进行投资/做预算。确定所有限制因素或风险工作包括要实现技术目标。根据实现理想目标最大风险或影响方面划分限制因素优先级。这可帮助公司确定网络改进计划优先顺序,并确定解决限制因素难易程度。限制因素分三类: 网络技术、故障恢复能力和配置 生命周期方案,包括:规划、设计、实施和运行 当前话务负载或应用行为网络技术、故障恢复能力及配置限制因素是指与当前技术、硬件、链路、设计或配置相关任何限制因素或风险。技术限制因素指技术本身造成任何限制。例如,当前没有一种技术允许冗
7、余网络环境中实现少于1秒聚合时间,而这恰恰是维持整个网络上话音连接关键。另一个例子是数据通过地面链路时原始速度,大约是100英里/毫秒。网络硬件故障恢复能力风险调查应集中在硬件拓扑、分级体系、模块化、冗余、MTBF及定义路径这几方面。网络链路限制因素应强调企业网络链路及运行商连接。链路限制因素可能包括链路冗余和多样性、媒介限制、布线基础设施、本地环路连接性以及长距离连接性。设计限制因素与网络物理或逻辑设计相关,包括从为设备可用空间到路由协议实施可扩展性等各个方面。您应在配置、可用性、可扩展性、性能及容量方面考虑所有协议和媒介设计。动态主机配置协议(DHCP)、域名系统(DNS)、防火墙、协议转
8、换及网络地址转换等网络业务限制因素也应列入考虑之列。生命周期方案定义用于实现解决方案统一部署、检测和修复故障、防止容量或性能问题以及配置一致性和模块化网络流程和管理。您需要认真考虑这个领域,因为专业技术和流程通常是导致不可用性最大影响因素。网络生命周期指规划、设计、实施和运行周期。在每个阶段中,您都必须了解性能管理、配置管理、故障管理及安全性等网络管理功能。思科NSA高可用性服务部(HAS)提供网络生命周期评估服务,确定与网络生命周期方案相关当前网络可用性限制因素。当前话务量或应用限制因素只是指当前话务和应用影响。不幸是,许多应用都带有大量需要慎重管理限制因素。当前应用抖动、延迟、吞吐量及带宽
9、要求通常带有许多限制因素。编写应用方式也可能产生一些限制因素。汇编应用资料库可帮您更好地了解这些问题;下文将介绍这一特性。研究当前可用性、话务、容量及性能还可帮助网络管理人员了解当前服务水平目标及风险。这一工作常通过名为网络基准制定流程来完成,该流程可帮您定义规定时段内(通常是一个月)平均网络性能、可用性或容量。这些信息通常用于容量规划和趋势分析,但也可用来了解服务水平问题。下面工作表使用了上述目标/限制因素方法来实现防止安全性攻击或拒绝服务攻击(DoS)目标。您也可使用该工作表来决定可最大限度地减少安全性攻击业务范围。风险或限制因素限制因素类型潜在影响可用DoS检测工具无法检测出全部DoS攻
10、击类型。技术/故障恢复能力高不具备对告警做出相应所需人员和流程。生命周期方案高当前网络接入策略未加执行。生命周期方案一般如果利用带宽拥塞来发动攻击,则当前低带宽互联网连接成为限制因素。网络容量一般帮助防止攻击当前安全性配置不完善。技术/故障恢复能力一般第2步:确定可用性预算可用性预算是期望在定义两点间出现、理论上网络可用性。准确理论信息可在多个方面发挥作用: 公司可将其视为内部可用性目标,并且能够立刻定义偏离并进行补救。 网络规划人员可使用这些信息来确定系统可用性,以确保设计满足商业要求。造成不可用性或故障停机因素包括软硬件故障、电源和环境问题、链路或运营商故障、网络设计、人为错误或缺乏流程等
11、。在评估网络整体可用性预算时,您必须严格评估上述所有参数。如果公司目前正在测量可用性,则可能不需要可用性预算。用可用性测量标准作为基准来评估服务水平定义使用当前服务水平。然而,您可将二者进行对比,以便了解潜在理论可用性与实际测量结果间差距。可用性指产品或业务在需要时投入运行可能性。参见以下定义:a.可用性1- (总连接中断时间) / (总服务连接时间)1- 总和(业务中断期间受影响连接数量 X 业务中断时间) / (运行连接数量X 运行时间)b.不可用性1-由以下因素造成可用性或总连接中断时间:软硬件故障、电源和环境问题、链路和运营商故障、网络设计、用户错误及流程故障等。c.硬件可用性首先需要
12、研究领域是潜在硬件故障及其对不可用性影响。要确定这方面影响,公司应了解所有网络组件MTBF以及MTTR,以确定两点间路径中所有设备潜在硬件问题。如果网络采用模块化和分级体系结构,则几乎任意两点间硬件可用性都是相同。MTBF信息可用于所有思科组件,并且可根据请求、向本地客户经理提供。Cisco NSA HAS项目还使用一种工具来帮助确定硬件可用性及网络路径,即使在系统中存在模块冗余、机底冗余及路径冗余时也可以使用这种工具。硬件可靠性一个主要因素是MTTR。公司应评估它们修复故障硬件速度。如果公司未制定备用方案,只依赖于标准Cisco SMARTnet? 协议,则潜在评估硬件更换时间为24小时。在
13、带有核心冗余但不带有接入。冗余典型LAN环境中,适当可用性是 99.99%,平均修复时间是4-小时。d.软件可用性下一个需要研究领域是软件故障。出于测量目,思科将软件故障定义为由软件错误引发设备冷启动。思科已经开发出许多流程来帮助了解软件可用性;然而,更新版本尚需一段时间进行测量,并且我们认为它可用性不及一般部署软件。IOS 11.2版(18)等一般部署软件经测量,证明具备99.9999%可用性。这个数字是基于修复时间为六分钟(路由器重新装载时间)思科路由器实际冷启动次数来计算。采用不同版本公司,可用性将随着复杂性增加、互操作性增强以及排障时间缩短略有降低。采用最新软件版本公司,不可用性将有所
14、提高。不可用性分配也相当广泛,这意味着客户将感觉到很高不可用性或接近一般部署版本可用性。e.环境和电源可用性您还必须考虑环境和电源可用性问题。环境问题与将设备保持在特定运行温度范围内冷却系统故障相关。当温度大大超过技术指标时,许多思科设备只是停止运转,而不会损害所有硬件。出于可用性预算目,您必须将电源考虑在内,因为它是造成本领域中不可用性主要原因。虽然电源故障是造成网络不可用性重要原因,但对它讨论还是受到限制,这是因为无法进行准确、理论上电源分析。企业必须基于所在地区经验、电源备份功能以及实施流程,对其设备电源可用性大约测量结果进行评估,以确保为所有设备提供具备一致质量电源。基于保守估计,我们
15、可以认为配备了备用发电机、不间断供电电源 (UPS)系统并采用合格电源实施流程企业,可实现高达六个九(99.9999%)可用性,而未配备这些系统企业,其可用性仅为 99.99%,或者说每年有36分钟故障停机时间。当然,您可根据公司观察或实际数据来调整这些数值,使其更真实地反映企业具体情况。f.链路或运营商故障链路和运营商故障是影响WAN环境中可用性主要因素。切记:WAN环境只是同企业网络遭遇同样可用性问题其他网络,包括:软硬件故障、用户错误及电源故障等。许多运营商网络都已经开始对系统进行可用性预算,但获得这些信息并不容易。切记,运营商可用性保证级别很少基于或根本不基于实际可用性预算。这些保证级
16、别有时只是用来提高运营商知名度营销和销售方法。在某些情况下,这些网络还公布看似相互突出可用性统计数据。切记,这些统计数据可能只适用于完全冗余核心网络,而不作为导致不可用性因素(不可用性由本地环路接入引起),本地环路接入才是WAN网络中不可用性主要因素。对WAN环境进行可用性评估应基于实际运营商信息以及WAN连接冗余级别。如果公司拥有多个大楼入口设施, 冗余本地环路供应商、同步光网络 (SONET)本地接入、以及分布在多个地区冗余长途运营商,则WAN可用性将得到明显增强。电话业务是WAN环境中、非冗余网络连接相当准确可用性预算。使用类似于本文所描述可用性预算方法进行测量,电话业务端到端连接可用性
17、预算大约为99.94%。这种方法业已成功应用于数据环境中,结果基本相同,目前正被用作服务供应商有线网络中分组有线规程预算。如果将该数值用于完全冗余系统,则我们可以假定,WAN可用性会接近99.9999%。当然,由于成本及可用性问题,目前很少有哪家公司部署了分布在多个地区且完全冗余WAN系统,所以应使用适当判断方法测定这种功能。LAN环境中不太可能发生链路故障,然而,规划人员可能希望假定连接器断开或松动会引发短时间故障停机。对LAN网络而言,保守可用性估计约为99.9999%,或大约30秒故障停机/年。g.网络设计网络设计是影响可用性另一个主要因素。不可扩展设计、设计错误及网络聚合时间都会对可用
18、性产生负面影响。注意:出于本文目,我们将在下面篇幅中描述不可扩展设计或设计错误。网络设计被限定在可测量数值上(基于网络中导致话务重新路由软硬件故障)。这些数值通常被称作“系统故障切换时间”,并且是系统中自治愈协议功能影响因素。使用与系统计算相同方法便可计算可用性。然而,它只有在网络故障切换时间满足网络应用要求时才有效。如果故障切换时间可以接受,则不把它计算在内。如果故障切换时间不能接受,则计算时必须将其考虑在内,例如:估计或实际故障切换时间为30秒环境中下IP 话音(VoIP)。在这个例子中,用户只是挂断电话,并有可能重新拨叫。用户肯定会将这30秒看作是非可用时段,但在可用性预算时却未加考虑。
19、根据系统故障切换时间来计算不可用性时要着眼于理论软硬件可用性以及冗余路径,因为故障切换将出现在这个领域。您必须了解可能发生故障并导致冗余路径中出现故障切换设备数量,这些设备MTBF以及故障切换时间。一个简单例子就是,冗余相同设备中,每台设备MTBF为35433小时,故障切换时间为30秒。用35,433除以8766(年平均小时数,包括闰年),我们可以看出该设备每四年出现一次故障。如果使用30秒作为故障切换时间,我们便可以假设:由于故障切换,每台设备每年平均停机7.5秒。由于用户可能会跨两条路径,因此需要将此结果乘以2,即:每年15秒。当以秒/每年进行计算时,这个简单系统中由于故障切换引起可用性计
20、算结果为99.99999785%。由于可能出现故障切换网络中冗余设备数量,在其他环境中,这个数字可能还要略高些。h.用户错误和流程用户错误和流程可用性问题是造成企业和运营商网络中不可用性主要原因。约80%不可用性问题是由于无法检测错误、变化故障及性能问题造成。公司在制定可用性预算时,不愿意接受用户错误和流程引发不可用性是其他所有理论上不可用性四倍这一实施,然而,各种证据一致表明,这种情况存在于许多环境中。下面我们将详细阐述不可用性这个方面。由于您无法从理论上计算由用户错误和流程引发不可用性数量,我们建议您在制定企业力求完美可用性预算时不将其考虑在内。但企业必须了解其流程和专业技术水平中现在所面
21、临可用性风险。透彻地了解了这些风险及抑制因素之后,网络规划人员便有可能将这些问题引发一定数量不可用性考虑在内。Cisco NSA HAS项目深入研究了这些问题,并可帮助企业了解由于流程、用户错误或专业技术问题引发不可用性。i.制定最终可用性预算您可将以前定义所有领域可用性相乘来决定整个可用性预算。这种方法通常适用于任意两点间连接相类似同机种环境,如:分级体系模块化LAN环境或分级体系标准WAN环境等。这下面例子中,为分级体系模块化LAN环境确定了可用性预算。该环境为所有网络组件都配备了备用发电机和UPS系统,并对电源进行适当管理。企业未使用VoIP,也不希望将软件故障切换时间考虑在内。估算结果
22、如下: 两个端点间硬件路径可用性= 99.99% 使用GD软件可靠性作为基准软件可用性= 99.9999% 带有备用系统环境和电源可用性= 99.999% 考虑LAN 环境中链路故障可用性= 99.9999% 未将系统故障切换时间计算在内可用性= 100% 认为不存在用户错误和流程缺陷可用性= 100%企业希望达到最终可用性预算是:0.9999 X 0.999999 X0.999999 X 0.999999 = 0.999896,或99.9896%可用性。如果我们将用户或流程错误引发潜在不可用性考虑在内,并假设其引发不可用性是技术因素引发可用性四倍,则最终可用性预算是99.95%。对这个例子分
23、析使我们了解到,LAN可用性在99.95%与99.989%之间。现在,这些数值能够用作网络公司服务水平目标。可以测量系统中可用性并确定上述六个领域分别引发不可用性百分率来计算其他数值。这使公司能够对供应商、运营商、流程和人员进行适当评估。这些数值也可用来设置业务期望值。如果您对99.95%与99.989%之间可用性不满意,可投资更多资源来获得理想可用性级别。网络管理人员了解每个特定可用性级别故障停机时间将大有帮助。计算任何可用性级别年故障停机时间(分钟)公式如下:故障停机(分钟)/年= 525600 (可用性级别 X 5256)如果可用性级别是99.95%,则结果是525600。(99.95
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 服务水平 管理 协议 SLA

限制150内