服务水平管理和服务水平协议2672.docx





《服务水平管理和服务水平协议2672.docx》由会员分享,可在线阅读,更多相关《服务水平管理和服务水平协议2672.docx(51页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、窗体顶端端博客登录录用户名:密码码:窗体底端端服务水平平管理和和服务水水平协议议(SLLA)20077-099-200 088:044:377标签:SLAA推送到到技术圈圈 本文描述述面向高高可用性性网络的的服务水水平管理理和服务务水平协协议(SSLA)。它它包括服服务水平平管理的的成功因因素以及及帮您评评估成功功与否的的性能指指标。本本文以一一个国际际性的网网络详细细描述遵遵从高可可用性业业务工作作组确定定的最佳佳方案指指导原则则的SLLA。作者:汪澍服务水平平管理概概述网络络公司一一直以来来都通过过构建坚坚实的网网络基础础设施及及主动处处理每个个业务问问题来满满足不断断扩展的的网络要要求。
2、当当业务异异常中断断时,公公司将构构建新流流程、管管理功能能或基础础设施来来防止此此类故障障再次发发生。然然而,由由于快速速变更及及日益增增长的可可用性要要求,我我们现在在需要改改进模式式来预先先防止意意外故障障并快速速修复网网络。许许多服务务供应商商和企业业一直都都试图更更好地定定义服务务水平以以便实现现商业目目标。关关键成功功因素SSLA的的关键成成功因素素用来定定义支持持成功构构建可获获得的服服务水平平及维护护SLAA的主要要要素。要要成为合合格的关关键成功功因素,流流程或流流程步骤骤必须可可以改进进SLAA质量并并从整体体上提高高网络的的可用性性。关键键成功因因素还应应具备可可测量性性
3、,以便便使企业业能够判判断:与与定义的的程序相相比,它它所取得得的成功功程度。性能指标性能指标提供了公司测量关键成功因素的机制。您通常需要每月审查一次,以确保服务水平定义或SLA运行良好。网络运行小组及必要的工具组可实施以下测量标准。注意:对于没有SLA的公司,我们建议您同时实施服务水平定义、服务水平审核及测量标准。性能指标包括: 记录的服服务水平平定义或或SLAA,包括括可用性性、性能能、主动动业务应应答时间间、排障障目标及及问题升升级等。 月度网络络服务水水平审核核会议,审审核对服服务水平平的执行行情况并并实施改改进。 性能指标标测量标标准,包包括可用用性、性性能、按按优先级级划分的的业务
4、应应答时间间、按优优先级划划分的排排障时间间以及其其他可测测量的SSLA参参数。服务水平平管理流流程面向向服务水水平管理理的高级级别流程程主要包包括两组组:1.定义网网络服务务水平22.创建建并维护护SLAA实施服服务水平平管理实实施服务务水平管管理包括括十六步步,分为为以下两两个主要要范畴: 定义网络络服务水水平步骤1-6 创建并维维护SLLA 步骤7-16定义网络络服务水水平网络络管理人人员需要要定义支支持、管管理并测测量网络络的主要要规则。服服务水平平为所有有网络人人员提供供目标并并可用作作整体业业务质量量的测量量标准。您您也可将将服务水水平定义义用作网网络资源源预算工工具以及及投资于于
5、更高服服务质量量的证据据。它们们还提供供评估供供应商及及运营商商的表现现的方法法。如果果没有服服务水平平定义和和测量,公公司不可可能制定定明确的的目标。服服务是否否满意由由用户决决定,在在应用、服服务器/客户机机运行或或网络支支持方面面并无明明显差距距。由于于企业对对最终结结果没有有把握,因因此很难难作预算算。最终终,网络络公司在在提高网网络及支支持模式式方面都都趋向于于选择被被动应答答,而非非主动预预防的方方式。我我们建议议采取以以下步骤骤来构建建并支持持服务水水平模式式: 分析技术术目标及及限制因因素。 确定可用用性预算算。 创建详细细记录关关键应用用网络特特征的应应用资料料库。 定义可用
6、用性、性性能衡量量标准及及通用术术语。 创建服务务水平定定义,包包括可用用性、性性能、业业务应答答时间、排排障平均均时、故故障检测测、升级级门限及及上报途途径。 收集测量量标准并并监控服服务水平平定义。第1步:分析技技术目标标及限制制因素开开始分析析技术目目标和限限制因素素的最佳佳方式是是集体讨讨论或研研究技术术目标与与要求。因因为这些些人都有有特定的的业务目目标,所所以有时时这有助助于要求求其他IIT技术术人员参参与讨论论。技术术目标包包括可用用性级别别、吞吐吐量、抖抖动、延延迟、应应答时间间、可用用性要求求、新特特性的推推出、新新应用的的推出、安安全性、可可管理性性及成本本等。随随后,公公
7、司应研研究限制制因素,以以便使用用可用资资源实现现这些目目标。您您可为每每个目标标创建带带有对限限制因素素解释的的工作表表。最初初看似大大多数目目标都无无法实现现。随后后划分目目标的优优先级或或降低对对仍可满满足商业业要求的的目标的的期望值值。例如如,您制制定的可可用性级级别可能能是999.9999%,或或每年55分钟的的故障停停机时间间。实现现这一目目标存在在大量限限制因素素,如硬硬件的单单点故障障、远程程位置中中的故障障硬件的的平均修修复时间间(MTTTR)、运营营商可靠靠性、预预先故障障检测、高高变更率率及当前前网络容容量限制制等。因因此,您您需要将将这个目目标调节节到更加加易于实实现的
8、级级别。下下个章节节中介绍绍的可用用性模式式可帮您您制定现现实的目目标。您您可能也也考虑在在限制因因素相对对较少的的网络领领域提供供可用性性。当网网络公司司公布业业务的可可用性标标准时,公公司中的的各业务务部门可可能发现现无法接接受这个个级别的的可用性性。这自自然而然然引发对对SLAA的讨论论,或为为可满足足商业要要求的模模式进行行投资/做预算算。确定定所有限限制因素素或风险险的工作作包括要要实现技技术目标标。根据据实现理理想目标标的最大大风险或或影响方方面划分分限制因因素的优优先级。这这可帮助助公司确确定网络络改进计计划的优优先顺序序,并确确定解决决限制因因素的难难易程度度。限制制因素分分三
9、类: 网络技术术、故障障恢复能能力和配配置 生命周期期方案,包包括:规规划、设设计、实实施和运运行 当前的话话务负载或或应用行行为网络技术术、故障障恢复能能力及配配置限制制因素是是指与当当前技术术、硬件件、链路路、设计计或配置置相关的的任何限限制因素素或风险险。技术术限制因因素指技技术本身身造成的的任何限限制。例例如,当当前没有有一种技技术允许许冗余网网络环境境中实现现少于11秒的聚聚合时间间,而这这恰恰是是维持整整个网络络上的话话音连接接的关键键。另一一个例子子是数据据通过地地面链路路时的原原始速度度,大约约是1000英里里/毫秒。网网络硬件件故障恢恢复能力力风险调调查应集集中在硬硬件拓扑扑
10、、分级级体系、模模块化、冗冗余、MMTBFF及定义义的路径径这几方方面。网网络链路路限制因因素应强强调企业业网络链链路及运运行商连连接。链链路限制制因素可可能包括括链路冗冗余和多多样性、媒媒介限制制、布线线基础设设施、本本地环路路连接性性以及长长距离连连接性。设设计限制制因素与与网络的的物理或或逻辑设设计相关关,包括括从为设设备可用用空间到到路由协协议实施施的可扩扩展性等等各个方方面。您您应在配配置、可可用性、可可扩展性性、性能能及容量量方面考考虑所有有协议和和媒介设设计。动动态主机机配置协协议(DDHCPP)、域域名系统统(DNNS)、防防火墙、协协议转换换及网络络地址转转换等网网络业务务限
11、制因因素也应应列入考考虑之列列。生命命周期方方案定义义用于实实现解决决方案的的统一部部署、检检测和修修复故障障、防止止容量或或性能问问题以及及配置一一致性和和模块化化的网络络流程和和管理。您您需要认认真考虑虑这个领领域,因因为专业业技术和和流程通通常是导导致不可用性性的最大大影响因因素。网网络生命命周期指指规划、设设计、实实施和运运行周期期。在每每个阶段段中,您您都必须须了解性性能管理理、配置置管理、故故障管理理及安全全性等网网络管理理功能。思思科NSSA高可可用性服服务部(HAS)提供网络生命周期评估服务,确定与网络生命周期方案相关的当前网络可用性限制因素。当前的话务量或应用限制因素只是指当
12、前话务和应用的影响。不幸的是,许多应用都带有大量需要慎重管理的限制因素。当前应用的抖动、延迟、吞吐量及带宽要求通常带有许多限制因素。编写应用的方式也可能产生一些限制因素。汇编应用资料库可帮您更好地了解这些问题;下文将介绍这一特性。研究当前的可用性、话务、容量及性能还可帮助网络管理人员了解当前的服务水平目标及风险。这一工作常通过名为网络基准制定的流程来完成,该流程可帮您定义规定时段内(通常是一个月)的平均网络性能、可用性或容量。这些信息通常用于容量规划和趋势分析,但也可用来了解服务水平问题。下面的工作表使用了上述目标/限制因素方法来实现防止安全性攻击或拒绝服务攻击(DoS)的目标。您也可使用该工
13、作表来决定可最大限度地减少安全性攻击的业务范围。风险或限制因素限制因素类型潜在影响可用的DoS检测工具无法检测出全部DoS攻击类型。技术/故障恢复能力高不具备对告警做出相应所需的人员和流程。生命周期方案高当前网络接入策略未加执行。生命周期方案一般如果利用带宽拥塞来发动攻击,则当前的低带宽互联网连接成为限制因素。网络容量一般帮助防止攻击的当前安全性配置不完善。技术/故障恢复能力一般第2步:确定可可用性预预算可用用性预算算是期望望在定义义的两点点间出现现的、理理论上的的网络可可用性。准准确的理理论信息息可在多多个方面面发挥作作用: 公司可将将其视为为内部可可用性目目标,并并且能够够立刻定定义偏离离
14、并进行行补救。 网络规划划人员可可使用这这些信息息来确定定系统的的可用性性,以确确保设计计满足商商业要求求。造成不可可用性或或故障停停机的因因素包括括软硬件件故障、电电源和环环境问题题、链路路或运营营商故障障、网络络设计、人人为错误误或缺乏乏流程等等。在评评估网络络的整体体可用性性预算时时,您必必须严格格评估上上述的所所有参数数。如果果公司目目前正在在测量可可用性,则则可能不不需要可可用性预预算。用用可用性性测量标标准作为为基准来来评估服服务水平平定义使使用的当当前服务务水平。然然而,您您可将二二者进行行对比,以以便了解解潜在的的理论可可用性与与实际测测量结果果间的差差距。可可用性指指产品或或
15、业务在在需要时时投入运运行的可可能性。参参见以下下定义:a.可用用性11- (总的连连接中断断时间) / (总服服务连接接时间)1- 总总和(业务中中断期间间受影响响的连接接数量 X 业业务中断断时间) / (运运行的连连接数量量X 运行行时间)b.不可用性性1-由以以下因素素造成的的可用性性或总的的连接中中断时间间:软硬硬件故障障、电源源和环境境问题、链链路和运运营商故故障、网网络设计计、用户户错误及及流程故故障等。c.硬件可用性首先需要研究的领域是潜在硬件故障及其对不可用性的影响。要确定这方面的影响,公司应了解所有网络组件的MTBF以及MTTR,以确定两点间的路径中所有设备的潜在硬件问题。
16、如果网络采用模块化和分级体系结构,则几乎任意两点间的硬件可用性都是相同的。MTBF信息可用于所有思科组件,并且可根据请求、向本地客户经理提供。Cisco NSA HAS项目还使用一种工具来帮助确定硬件可用性及网络路径,即使在系统中存在模块冗余、机底冗余及路径冗余时也可以使用这种工具。硬件可靠性的一个主要因素是MTTR。公司应评估它们修复故障硬件的速度。如果公司未制定备用方案,只依赖于标准Cisco SMARTnet? 协议,则潜在的评估硬件更换时间为24小时。在带有核心冗余但不带有接入。冗余的典型LAN环境中,适当的可用性是 99.99%,平均修复时间是4-小时。d.软件可用性下一个需要研究的
17、领域是软件故障。出于测量的目的,思科将软件故障定义为由软件错误引发的设备冷启动。思科已经开发出许多流程来帮助了解软件的可用性;然而,更新的版本尚需一段时间进行测量,并且我们认为它的可用性不及一般的部署软件。IOS 11.2版(18)等一般部署软件经测量,证明具备99.9999%的可用性。这个数字是基于修复时间为六分钟(路由器重新装载的时间)的思科路由器的实际冷启动次数来计算的。采用不同版本的公司,可用性将随着复杂性的增加、互操作性的增强以及排障时间的缩短略有降低。采用最新软件版本的公司,不可用性将有所提高。不可用性的分配也相当广泛,这意味着客户将感觉到很高的不可用性或接近一般部署版本的可用性。
18、e.环境和电源的可用性您还必须考虑环境和电源的可用性问题。环境问题与将设备保持在特定的运行温度范围内的冷却系统的故障相关。当温度大大超过技术指标时,许多思科设备只是停止运转,而不会损害所有硬件。出于可用性预算的目的,您必须将电源考虑在内,因为它是造成本领域中不可用性的主要原因。虽然电源故障是造成网络不可用性的重要原因,但对它的讨论还是受到限制,这是因为无法进行准确的、理论上的电源分析。企业必须基于所在地区的经验、电源备份功能以及实施的流程,对其设备的电源可用性的大约测量结果进行评估,以确保为所有设备提供具备一致质量的电源。基于保守的估计,我们可以认为配备了备用发电机、不间断供电电源 (UPS)
19、系统并采用合格电源实施流程的企业,可实现高达六个九(99.9999%)的可用性,而未配备这些系统的企业,其可用性仅为 99.99%,或者说每年有36分钟的故障停机时间。当然,您可根据公司的观察或实际数据来调整这些数值,使其更真实地反映企业的具体情况。f.链路或运营商故障链路和运营商故障是影响WAN环境中的可用性的主要因素。切记:WAN环境只是同企业网络遭遇同样可用性问题的其他网络,包括:软硬件故障、用户错误及电源故障等。许多运营商网络都已经开始对系统进行可用性预算,但获得这些信息并不容易。切记,运营商的可用性保证级别很少基于或根本不基于实际可用性预算。这些保证级别有时只是用来提高运营商知名度的
20、营销和销售方法。在某些情况下,这些网络还公布看似相互突出的可用性统计数据。切记,这些统计数据可能只适用于完全冗余的核心网络,而不作为导致不可用性的因素(不可用性由本地环路接入引起),本地环路接入才是WAN网络中不可用性的主要因素。对WAN环境进行可用性评估应基于实际的运营商信息以及WAN连接的冗余级别。如果公司拥有多个大楼入口设施,冗余本地环路供应商、同步光网络 (SONET)本地接入、以及分布在多个地区的冗余长途运营商,则WAN的可用性将得到明显增强。电话业务是WAN环境中、非冗余网络连接相当准确的可用性预算。使用类似于本文所描述的可用性预算方法进行测量,电话业务的端到端连接的可用性预算大约
21、为99.94%。这种方法业已成功应用于数据环境中,结果基本相同,目前正被用作服务供应商有线网络中分组有线规程的预算。如果将该数值用于完全冗余的系统,则我们可以假定,WAN可用性会接近99.9999%。当然,由于成本及可用性问题,目前很少有哪家公司部署了分布在多个地区且完全冗余的WAN系统,所以应使用适当的判断方法测定这种功能。LAN环境中不太可能发生链路故障,然而,规划人员可能希望假定连接器断开或松动会引发短时间的故障停机。对LAN网络而言,保守的可用性估计约为99.9999%,或大约30秒故障停机/年。g.网络设计网络设计是影响可用性的另一个主要因素。不可扩展的设计、设计错误及网络聚合时间都
22、会对可用性产生负面影响。注意:出于本文的目的,我们将在下面的篇幅中描述不可扩展的设计或设计错误。网络设计被限定在可测量的数值上(基于网络中导致话务重新路由的软硬件故障)。这些数值通常被称作“系统故障切换时间”,并且是系统中自治愈协议功能的影响因素。使用与系统计算相同的方法便可计算可用性。然而,它只有在网络故障切换时间满足网络应用要求时才有效。如果故障切换时间可以接受,则不把它计算在内。如果故障切换时间不能接受,则计算时必须将其考虑在内,例如:估计或实际的故障切换时间为30秒的环境中下的IP 话音(VoIP)。在这个例子中,用户只是挂断电话,并有可能重新拨叫。用户肯定会将这30秒看作是非可用时段
23、,但在可用性预算时却未加考虑。根据系统故障切换时间来计算不可用性时要着眼于理论的软硬件可用性以及冗余路径,因为故障切换将出现在这个领域。您必须了解可能发生故障并导致冗余路径中出现故障切换的设备数量,这些设备的MTBF以及故障切换时间。一个简单的例子就是,冗余的相同设备中,每台设备的MTBF为35433小时,故障切换时间为30秒。用35,433除以8766(年平均小时数,包括闰年),我们可以看出该设备每四年出现一次故障。如果使用30秒作为故障切换时间,我们便可以假设:由于故障切换,每台设备每年平均停机7.5秒。由于用户可能会跨两条路径,因此需要将此结果乘以2,即:每年15秒。当以秒/每年进行计算
24、时,这个简单系统中由于故障切换引起的可用性的计算结果为99.99999785%。由于可能出现故障切换的网络中的冗余设备数量,在其他环境中,这个数字可能还要略高些。h.用户错误和流程用户错误和流程可用性问题是造成企业和运营商网络中不可用性的主要原因。约80%的不可用性问题是由于无法检测错误、变化故障及性能问题造成的。公司在制定可用性预算时,不愿意接受用户错误和流程引发的不可用性是其他所有理论上的不可用性的四倍这一实施,然而,各种证据一致表明,这种情况存在于许多环境中。下面我们将详细阐述不可用性的这个方面。由于您无法从理论上计算由用户错误和流程引发的不可用性数量,我们建议您在制定企业力求完美的可用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 服务水平 管理 协议 2672

限制150内