F5 电信解决方案知识分享.doc
Good is good, but better carries it.精益求精,善益求善。F5 电信解决方案-电信应用系统的高可用性解决方案F5(中国)有限公司2001年11月目录一.前言3二.电信应用系统概述51.电信综合业务支撑系统概述(以中国移动为例)52.电信综合业务的结构5三.电信综合业务系统现存的问题61.综合业务系统问题综述61)“不平衡”现象62)“峰值”问题63)多米诺”现象64)“N+1”方式65)“扩展”不便66)“免疫力”差77)“容灾”78)应用与网络脱节7四.F5相关技术及产品8五.解决方案131)避免“不平衡”现象132)解决因“峰值堵塞”带来的性能调整“不平衡”143)避免“多米诺”现象144)更好的提供系统容错,提高系统可靠性145)“扩展”灵活156)“免疫力”强157)“容灾”168)网络感知应用,应用控制网络16六.相关技术资料191.BIG-IP提供支持99.999%的正常运行192.利用F5的BIG-IP控制器负载平衡BEAWebLogic集群流量213.利用OracleApplicationServer和BIGIP配置负载平衡22七.成功案例231.日本NTTi-Mode的应用系统F5负载均衡232.中国某某移动通信的负载均衡解决方案26八.公司简介271. 前言在现今的企业中,不论是否提供关键性任务的服务,都需要一个持续运行不断的高可用性网络计算环境以维持不间断的高品质服务。所谓高可用性的环境,也是信息管理人员所必须考虑的四件事:使数据有一个安全的存储和运作方式,即使在设备故障时仍能保持数据的完整一致。2. 使服务器系统持续运行,即使发生故障仍然让服务持续下去。3. 使整个计算环境能更好的管理,如何容错、容灾、集群共享。· 如何使投资有最好的效益,使系统有最佳的扩充能力,有最低的整体拥有成本,也就是在任何情况之下均能确保数据的完整一致,系统持续运行,使服务不间断,同时有最好的投资回报率。高可用性被定义为计算系统的连续运行。根据故障停机的业务影响,应用系统需要不同的可用性水平。要想实现一个应用系统的高可用性,所有组件(包括应用和数据库服务器、存储设备以及端到端网络)都需要提供连续的服务。企业和机构对网络化应用及Internet的日益依赖,加上语音和数据的集成,创造了对高可用性应用的增加需求。任何类型的系统故障停机都可能意味着收入、信誉和客户满意的巨大损失。高度网络可用性的利用,企业实施高可用性网络来:防止财务损失· 防止生产力损失· 改进用户满意度· 改进客户满意/信任· 降低反应性IT支持成本,提高IT生产力· 部署关键任务应用支持新业务实践的好处· 典型的业务要求为了实现高度的网络可用性,需要部署下列组件:可靠的网络设备· H/W和S/W冗余及软件可靠性弹性网络技术· 确保任何设备或链路故障快速恢复的功能性网络设计· 定义良好的网络拓扑和配置,旨在以一种优化和计划良好的方式利用网络弹性功能。最佳实践定义良好的网络部署和维护过程,以及简化这些政策实施所必需的事件和变化管理工具· 全球性支持全球性积极的支持和纠错支持,可以实现抢先的快速反应维护支持· 行业伙伴关系确保端到端应用可用性的技术、支持服务及最佳实践的集成一. 电信应用系统概述电信综合业务支撑系统概述(以中国移动为例)电信综合业务的结构二. 电信综合业务系统现存的问题1. 综合业务系统问题综述1) “不平衡”现象当系统完成“物理集中”后,大量的数据等待前置服务器处理。现有的方式多为采取单台或单组服务器负责处理某一组地区的用户数据。但是,由于地区发展的不平衡,人口密度的差别,业务量的不同,等等这些问题造成了这些负责不同区域的服务器上的数据量大小差别很大。这样,有些服务器上数据量不大,系统资源空闲量很大,“吃不饱”,而同时,有些服务器上数据量很大,系统资源又严重不足,“被撑死”。这就是系统资源利用的“不平衡”现象。2) 为了解决这种现象,往往以增加服务器的方式增加系统资源,但仍无法利用空闲的系统资源,不能有效的解决“不平衡”现象“峰值”问题前置服务器的业务一般多为联机业务。联机业务的处理多存在“波峰”和“波谷”的变化。而且“波峰”时,业务量大小的变化又不规律,这就使前置服务器不得不面对“峰值堵塞”问题。3) 原有解决方法为增加前置服务器或主机数量,提高处理能力。但仍存在性能不平衡问题,且这样做,投资成本大。多米诺”现象单台服务器的设置,不可避免会出现“单点故障”,需要进行服务器“容错”。4) 为实现容错,往往在主服务器旁安置一台或多台备份服务器。但这样做,平时只有一台服务器工作,其它服务器处于空闲状态,无法完全利用所有服务器的处理资源,投资得不到充分利用。且当出现“峰值堵塞”时,所得到的往往是“多米诺”效应,即所有服务器连续被“堵”至“死”。并且,当所有服务器都损坏时,无法动态地、合理地利用其它资源提供服务或备份。“N+1”方式这种方式也是在应对服务器“容错”时,提出的应用方式。“N”,即业务处理集群,“1”,即一台备份机。5) 我们注意到,虽然存在一台备份机,随时准备对业务处理集群中的任意一台服务器进行备份,但是,如果又有服务器或更多服务器(软硬件)出现故障呢?所以“N+1”也不能很好地完成系统“容错”。“扩展”不便随着物理和应用的集中,前置服务器上所要处理的数据量(traffic)增大,客户交易产生的同时连接(concurrentconnection)数量会越来越多。· 若处理资源不够,在未超出系统容量时,往往是客户的请求回应越来越慢,可容纳的同时连接数量逐渐减小,系统性能严重下降。当超出系统容量后,系统“死机”,银行业务中断。为应对日益增多的业务量,系统的扩展性尤为重要。当前所采用的扩展方式多为利用CLUSTER的方式。但这时,需要配置CLUSTER卡和CLUSTER集线器。·这些硬件设备成本高,投资大。·CLUSTER对硬件系统存在限制。·CLUSTER的容量有限。所有这些都会使系统“扩展”不便。6) “免疫力”差由于系统服务器“裸露”于网络连接中,而防火墙的安置又多在网络总入口处,所以服务器很容易受到来自各方面的“恶意性”或“无意”地攻击。7) 为每台或每组服务器单独设置防火墙,又会使系统投资加大,维护量大幅提高。“容灾”8) 随着数据中心的集中,数据中心的冗余或容错显得尤为重要。当建立备份中心或数据中心间形成备份后,在它们之间提供动态的、灵活的容错机制显得尤为突出。应用与网络脱节系统的变化随时随地都会发生,完全靠人工的方式去调整网络与之适应,已经显出了其“非时时地”、“不灵活的”缺陷。如何使应用的变化动态地反映到网络的调整,已经成为现代化应用系统的一个新的课题。F5相关技术及产品5000BIG-IP®5000IP应用交换机BIG-IP智能位于端口密集型硬件平台之上,可为您提供灵活、快速、安全的IP流量管理BIG-IP5000®提供了一体化互联网流量管理(流量管理),在一台设备上提供了如下功能:· 负载平衡· 内容交换· 流量管理· 千兆位以太网交换· SSL加速/互联网加速· 广域负载平衡从而大幅度减少了总保有成本,并为企业和服务提供商降低了管理复杂性。流量管理· 屡获殊荣的BIG-IP软件具备所有先进特性和功能· 为不同服务器平台和应用提供静态和动态负载平衡· 在线/在线控制器特性可支持额外性能、可扩充性和可靠性· 两种会话故障切换方法:从在线到备份或到在线控制器· 多种持续性模式· 简单而先进的业务规则可确保服务质量· 智能内容和应用决定可将内容请求路由到最合适的设备· 独特的OneConnectTM内容交换可将带宽成本和服务器开销降低20%· 支持iControl通过避免应用发生故障,使应用能够直接控制网络流量· 支持屡获殊荣的广域负载平衡· 实时性能监视和统计易于安装和管理最快速、最出色地进行IP流量管理支持高流量随着新企业和服务提供商应用的出现,流量管理产品必须支持大量日益增长的流量。BIG-IP5000便能够满足这一要求。其它任何流量管理解决方案都不能提供如此强大的处理能力来深入检查目前和新型企业应用所需的流量。与分布式体系结构不同,BIG-IP5000能够随时将其全部处理能力应用于任何端口以制定决策。第一个集成SSL安全性的端口密集型流量管理解决方案关键任务应用要求通过互联网技术进行安全交付。BIG-IP5000是第一个集成了SSL加速的端口密集型流量管理设备。这使客户能够有效地管理通过SSL提供的企业应用,并进行先进的智能流量管理检查。从而,提供了更强大的性能,并降低了实施安全应用的成本。而且,还可以通过软件密钥增加额外SSL容量,使客户能够仅在其需要时购买SSL容量。最佳独立设备端口密度BIG-IP5000提供了比其它任何独立流量管理设备更高的端口密度。4GB端口支持冗余链路和全啮合拓扑结构。24个快速以太网端口可同时方便地连接各种不同设备,包括应用服务器、防火墙、高速缓存、web服务器和VPN网关。最强大的处理能力BIG-IP5000经过专门设计,能够将2Ghz的处理能力用来进行全部智能流量处理。它能够深入检查数据包,并将现有和新型流量智能地导向正确的目的地。通过在需要时为流量提供智能和安全性,BIG-IP5000可确保为应用和基础设施提供最高可靠性和性能。集成的SSL大多数行业特别是金融行业都在利用SSL来保护其不断增长的通信和应用的安全。因此,流量管理设备必须要具备这一功能并要能够执行这一任务。在所有主要厂商中,只有F5的BIG-IP5000具有100TPS(每秒处理交易数)SSL容量而且不收取任何额外费用。它还能够轻松升级,以根据需求提供更大容量。最智能、最灵活的流量管理支持99.999%正常运行时间的智能对于通过IP技术可靠地提供企业应用,领先性能和创新是负载平衡和流量管理的关键。随着互联网/内联网商业的使用率不断增长,新型数据和应用使内容管理越来越复杂。而这正是BIG-IP要解决的问题。不只是交换机的智能为了制定智能负载平衡决策和确保最高可用性,BIG-IP5000能够通过F5的开放式iControl接口直接从应用服务器(Windows2000、RealServer、其它SNMP系统)接收信息。此外,它还能够读取请求包头上的详细信息(如请求内容的类型),以将请求路由最符合要求的服务器上。最快的第七层性能BIG-IP提供的第七层的快速功能为网络管理人员提供了一种经济高效的方式,可确保用户在每次通过互联网或企业内联网进行交易时将能获得轻松高效的体验。*参考报告#200204链路集合故障切换BIG-IP支持工业标准802.3ad,以支持链路集合,从而确保获得最大的吞吐量,并使您系统的每个端口都获得出色的可用性。3-DNS广域负载平衡为BIG-IP添加业界最出色的广域负载平衡器,支便将服务器负载平衡和全局负载平衡集中在同一机柜中,从而简化了管理、减少了机架空间的占用率,并且降低了能耗。VLAN和TaggedVLANVLAN(虚拟局域网)允许网络被分为多个独立的局域网来管理。BIG-IP支持大多数现代交换机所使用的熟悉的VLAN体系结构,在改变网络拓扑结构时提供更大的灵活性。BIG-IP5000规范:服务器/节点操作系统兼容性:任何TCP/IP操作系统,包括WindowsNT、Windows95,所有UNIX平台和Mac/OS互联网/企业内联网协议支持:所有TCP服务、UDP和SSL;几乎所有基于IP的协议管理环境支持:DNS代理、SMTP、F-secureSSH、SNMP、动态/静态网络监视、预定批作业处理、系统状态报告和告警事件提示网络管理和监视:基于安全SSL浏览器的接口、利用F-secureSSH监视器进行远程加密登录和文件传输、BIG-IP系统网络监视工具及附加实用软件;SNMP“get”命令与陷阱路由协议:RIP、OSPF、BGP解决方案如前所述电信应用系统出现的问题,经过认真的分析,结合F5在电信业多年的经验,利用F5的流量管理设备提供良好的解决方案。1) 如下图所示,在前置服务器或中间业务科服务器前放置两台BIGIP,利用其流量管理特性解决前面的问题。避免“不平衡”现象如果能够充分利用所有的服务器资源,将所有流量均衡的分配到各个服务器,我们就可以有效地避免“不平衡”现象的发生。· BIGIP是一台对流量和内容进行管理分配的设备。它提供12种灵活的算法将数据流有效地转发到它所连接的服务器群。而面对用户,只是一台虚拟服务器。用户此时只须记住一台服务器,即虚拟服务器。但他们的数据流却被BIGIP灵活地均衡到所有的服务器。这12种算法包括:轮询(RoundRobin):顺序循环将请求一次顺序循环地连接每个服务器。当其中某个服务器发生第二到第7层的故障,BIGIP就把其从顺序循环队列中拿出,不参加下一次的轮询,直到其恢复正常。· 比率(Ratio):给每个服务器分配一个加权值为比例,根椐这个比例,把用户的请求分配到每个服务器。当其中某个服务器发生第二到第7层的故障,BIGIP就把其从服务器队列中拿出,不参加下一次的用户请求的分配,直到其恢复正常。· 优先权(Priority):给所有服务器分组,给每个组定义优先权,BIGIP用户的请求,分配给优先级最高的服务器组(在同一组内,采用轮询或比率算法,分配用户的请求);当最高优先级中所有服务器出现故障,BIGIP才将请求送给次优先级的服务器组。这种方式,实际为用户提供一种热备份的方式。· 最少的连接方式(LeastConnection):传递新的连接给那些进行最少连接处理的服务器。当其中某个服务器发生第二到第7层的故障,BIGIP就把其从服务器队列中拿出,不参加下一次的用户请求的分配,直到其恢复正常。· 最快模式(Fastest):传递连接给那些响应最快的服务器。当其中某个服务器发生第二到第7层的故障,BIGIP就把其从服务器队列中拿出,不参加下一次的用户请求的分配,直到其恢复正常。观察模式(Observed):连接数目和响应时间以这两项的最佳平衡为依据为新的请求选择服务器。当其中某个服务器发生第二到第7层的故障,BIGIP就把其从服务器队列中拿出,不参加下一次的用户请求的分配,直到其恢复正常。· 预测模式(Predictive):BIGIP利用收集到的服务器当前的性能指标,进行预测分析,选择一台服务器在下一个时间片内,其性能将达到最佳的服务器相应用户的请求。(被BIGIP进行检测)· 动态性能分配(DynamicRatio-APM):BIGIP收集到的应用程序和应用服务器的各项性能参数,动态调整流量分配。· 动态服务器补充(DynamicServerAct.):当主服务器群中因故障导致数量减少时,动态地将备份服务器补充至主服务器群。· 服务质量(QoS):按不同的优先级对数据流进行分配。· 服务类型(ToS):按不同的服务类型(在TypeofField中标识)对数据流进行分配。2) 规则模式:针对不同的数据流设置导向规则,用户可自行编辑流量分配规则,BIGIP利用这些规则对通过的数据流实施导向控制。解决因“峰值堵塞”带来的性能调整“不平衡”当出现流量“峰值”时,如果能调配所有服务器的资源同时提供服务,所谓的“峰值堵塞”压力就会由于系统性能的大大提高而明显减弱。3) 由于BIGIP优秀的负载均衡能力,所有流量会被均衡的转发到各个服务器,即组织所有服务器提供服务。这时,系统性能等于所有服务器性能的总和,远大于流量“峰值”。这样,即缓解了“峰值堵塞”的压力,又降低了为调整系统性能而增加的投资。避免“多米诺”现象4) BIGIP将所有的服务器组织在一起提供服务,流量压力合理地分担到各个服务器,不会使服务器如同单台设备工作时出现“多米诺”现象。当本地服务器群中的服务器数量不能满足系统要求时,BIGIP会利用“动态服务器补充”功能自动调入服务器补充系统性能。并且即使当所有服务器都不能提供服务时,“Redirect”功能会把用户数据请求转发到“备份”点,满足系统的可靠性要求。更好的提供系统容错,提高系统可靠性“N+1”方式因备份服务器的数量少而不能有效的提供系统容错能力。BIGIP将用户的服务请求均衡到所有的服务器。服务器群中的任何一台或多台设备发生故障后,用户的服务请求被均衡到其它服务器。而且,当本地服务器群中的服务器数量不能满足系统要求时,BIGIP会利用“动态服务器补充”功能自动调入服务器补充系统性能。如何有效地确定服务器、应用、内容的状态,使提高系统可靠性的关键。BIGIP利用其独到的、高效的“健康检测”手段,识别服务器、应用、内容的状态。它们包括:· 服务器逻辑连接状态检测· 应用类型状态检测· 扩展内容查证(ECV:ExtendedContentVerification)-ECV是一种非常复杂的服务检查,主要用于确认应用程序能否对请求返回对应的数据。如果一个应用对该服务检查作出响应并返回对应的数据,则BIGIP控制器将该服务器标识为工作良好。如果服务器不能返回相应的数据,则将该服务器标识为宕机。宕机一旦修复,BIGIP就会自动查证应用已能对客户请求作出正确响应并恢复向该服务器传送。该功能使BIGIP可以将保护延伸到后端应用如Web内容及数据库。BIGIP的ECV功能允许您向Web服务器、防火墙、缓存服务器、代理服务器和其它透明设备发送查询,然后检查返回的响应。这将有助于确认您为客户提供的内容正是其所需要的。5) 扩展应用查证(EAV:ExtendedApplicationVerification)EAV是另一种服务检查,用于确认运行在某个服务器上的应用能否对客户请求作出响应。为完成这种检查,BIGIP控制器使用一个被称作外部服务检查者的客户程序,该程序为BIGIP提供完全客户化的服务检查功能,但它位于BIGIP控制器的外部。例如,该外部服务检查者可以查证一个从后台数据库中取出数据的应用能否正常工作。EAV是BIGIP提供的非常独特的功能,它提供管理者将BIGIP客户化后访问各种各样应用的能力,该功能使BIGIP在提供标准的可用性查证之外能获得服务器、应用及内容可用性等最重要的反馈。该功能对于提高系统可靠性至关重要,它用于从客户的角度测试您的站点。例如,您可以模拟客户完成交易所需的所有步骤连接到前置服务器或中间件服务器、从目录中选择项目以及验证交易使用的信用卡。一旦BIGIP掌握了该“可用性”信息,即可利用负载平衡使资源达到最高的可用性。BIGIP已经为测试多种服务的健康情况和状态,预定义了扩展应用验证(EAV),如:FTP、NNTP、SMTP、POP3和MSSQL等,用户还可依据实际应用,自行编辑EAV脚本。“扩展”灵活根据系统的发展、业务的增长,进行灵活的扩充,是不可避免的。这不仅要顾及到数量的增长,同时也要考虑到软硬件类型的区别。BIGIP对系统的扩充是非常灵活的。· BIGIP对所连接的服务器群的数量没有限制,同时对服务器的软、硬件类型也没有任何限制。6) BIGIP可最大同时容纳多达4百万个会话业务。“免疫力”强在图中我们可以看到,前置服务器群或中间件服务器群在逻辑上位于BIGIP之后,所有的数据流,包括“攻击性”数据流都要经过BIGIP才能够流至服务器。BIGIP具有以下优秀的安全特性,对系统进行保护:· 访问控制列表· IP包过滤· 加密(SSL)的管理信息传递· 口令保护· 拒绝“DoS”攻击· 免疫“PingofDeath”攻击· 不用Ack缓冲应答未确认的SYN,防止SYN风暴· 通过对无效连接的管理来防止使用没有开放的服务进行攻击· 源路由检查,防止IP欺骗· NAT/SNAT。通过设置,BIGIP®可以将一个端口映射到多个端口上。许多知名的端口是,如80,443,20,21可以被映射到服务器上的任何一个端口上。此外,BIGIP®可以将位于它后面的服务器的地址翻译为那些对外公布的地址。这个安全特性为网络带来了以下几种好处:Ø 入侵者无法确定哪些服务运行在哪些端口上,因而增加了攻击的难度;Ø 使用非公开的路由地址、BIGIP®可以节省客户的IP地址,降低客户的成本;Ø 可以隐藏BIGIP®背后的服务器地址,避免这些服务器暴露到外部世界,从而减少了黑客攻击这些服务器的机会利用虚拟IP地址隐藏服务器实际地址。同时,在BIGIP®的安全管理报告中通过监视下列参数,BIGIP®可以在安全报告中列出那些服务和端口受到了非法的访问尝试:· IP地址:攻击者的源IP地址· 频率:攻击者尝试攻击的数量7) 端口:哪个端口受到攻击这些信息可以帮助管理员发现他们网络中存在的安全漏洞,并且可以判定哪些人是潜在的攻击者。“容灾”数据中心的冗余设置常被用来提供数据中心的“容灾”。BIGIP与3DNS的结合,可以灵活的提供“容灾”保障。BIGIP可以通过设置“备份中心”,保证在主数据中心负载过重或发生故障,无法正常提供服务时,自动启用“备份中心”,继续为客户提供服务。3DNS可以帮助客户在系统寻找过程中,智能地找寻到合适的数据中心。并且3DNS还可以动态监测数据中心的状态,一旦主数据中心发生故障,无法正常提供服务,3DNS可以自动将流量立即传送到备份“备份中心”。8) BIGIP与3DNS的结合应用,可以保证在局域和广域连接中为系统提供灵活的“容灾”策略。网络感知应用,应用控制网络以下图为例,前置服务器或中间件服务器会定制完成与后台服务器进行数据记录的备份。这时,这台服务器会集中于交换数据,而影响正常的客户服务。若此时的客户请求再转向它,势必会对客户服务带来影响,如响应延迟太大,或服务中断。· 但是,F5利用“iControl”技术可以帮助服务器通知网络,“此时忙,暂停服务”,然后,网络将停止再向它转发客户请求,而将客户请求继续转发至其它服务器,继续对客户应用请求提供服务。并且,服务器会同时通知3DNS,这个中心可用服务器数量减少一台,应相应减少对这个中心的客户服务请求量。当这台服务器完成所有数据记录的备份后,服务器又会通知BIGIP和3DNS,此时它已恢复正常,可以提供服务。这时,系统又恢复原有的正常状态。在系统的运行过程中,各种各样的变化是不可避免的,靠人工的方法毕竟不是一个灵活的、智能的方式。“iControl”可帮助系统成为一个“自适应”的系统,使“网络真正感知应用,应用控制网络”。另外,利用BIGIP、3DNS和iControl,还可以帮助系统提供增值应用:配置灵活。BIGIP的放置非常灵活,即可放置在服务器群与网络的中间,也可与服务器群以平行的方式接入网络。BIGIP可根据服务器的运行状态,如“CPU性能”、“内存利用率”、“磁盘空间利用率”等服务器软、硬件状态,自动调整流量的分配。BIGIP的高可靠性连接,提高了系统的可靠度。BIGIP之间可互相备份,并且,提供“客户连接状态”的备份,提供“冗余”操作。它们可工作与两种状态:Ø Active/Standby· Active/Active可基于所有TCP/IP协议进行流量分发、管理和控制。可对所有基于IP的设备提供流量的分发、管理和控制,包括防火墙、路由器、VPN路由器等网络设备。Npath性能。BIGIP®包括称作nPath的可选模式。该模式允许服务器绕过BIGIP®直接将信息返回给客户。例如,涉及下载流式媒体的企业可以选择采用该功能。BIGIP®仅对用户的请求(即进入的流量)进行管理。SSL加速加密套接字(SecureSocket)层交易的广泛采用和总体网络负载减缓了服务器的执行速度。SSLGateway为SSL交易加速。3DNS®和BIGIP®结合提供14种的全球流量分配策略:Ø 轮询算法Ø 比率Ø 最少连接数Ø 随机Ø 用户定义的服务质量Ø 往返时间(RTT)Ø 完成率(数据包丢失)Ø BIG-IP吞吐量(PPS)Ø 全球可用性Ø HOPSØ 分布式拓扑Ø 访问控制Ø LDNS轮询算法Ø 动态比率三. 相关技术资料BIG-IP提供支持99.999%的正常运行99.999%高可用性服务器系统的可用性指标可以用两个参数进行简单的描述:平均无故障工作时间(MTBF),和平均修复时间(MTBR)。系统的可用性可用下式表示:系统可用性MTBF/(MTBFMTBR)也就是说,如果系统的可用性达到99.9%,则每年的停止服务时间将达8.8小时,而当系统的可用性达到99.99%时,年停止服务时间是53分钟,当可用性达到99.999%时,每年的停止服务时间只有5分钟。对于网络时代的企业任何服务停止带来的损失都是巨大的,据国外权威机构对400家企业的调查,普通企业一次关键应用的停机平均损失达每小时1万美元,而对于一些金融企业每小时的停机损失竟达到100万美元。调查发现,造成系统停止服务的主要原因有三个:其一,硬件故障,在整个停机原因中占30%,其二,操作系统和应用软件故障,占35%,其三是由于操作失误,程序错误和环境故障,占35%。可以看到,要提高系统的可用性必须从硬件和软件两个方面入手,对于硬件产品而言,运行的时间越长越易出故障,提高硬件系统的可用性必须要在故障出现时能够保证系统继续服务。硬件冗余技术可以很好的解决这一问题,通过对关键部件的冗余设计可以做到当系统中出现故障硬件时由冗余部件自动接替服务,不致造成系统停机。而对于软件系统而言,故障的产生难以进行有效的预测,通过快速地恢复软件系统降低平均平均修复时间(MTBR)也可以达到提高可用性的目的。服务器系统的电子部件和机械部件之间存在着可靠性的差异。电子电路的可靠性根据其工作状态不同也存在一定的差异,通常工作在高压大电流情况下的部件可靠性较低,而工作在低压小电流状态的部件可靠性较高,工作温度较高的部件可靠性低,工作温度较低的部件可靠性高。通过分析可以看到,提高MTBF值和降低MTBR值对系统可用性设计具有相同的意义。BIG-IPFive9sofUptimeWhatdoes99.999%uptimemean?Statisticallyitmeansyoursystemisavailable99.999%ofthetime,orthereverse,onlydown%0.001ofthetime.Duringaone-yearperiodthisequals5.25minutesofunexpecteddowntime.Unexpecteddowntimedoesnotincludetimethatyoumaytakethesystemdownfornormaloperationalandmaintenanceprocedures.Inaredundantpair,thisisthebestpracticesdeployment;bothBIG-IPsystemswouldnotbeunexpectedlyunavailableforaperiodofgraterthan5.25minutes.F5statesthatBIG-IPwillprovide99.999%uptimeforyourwebapplications.ForthistobetrueBIG-IPitselfmustbeavailable.Toprove99.999%availabilitymanycompaniesleavetheirsystemsrunningforoneyear.Ifthesystemdoesnotfailtheycanclaim99.999%availability.F5hasmanysystemsaroundtheworldthathavebeenupforayearormore.Inthehardwarethelowestcommondenominatoristhepowersupplywitharatingof50,000hoursMTBF.50,000hoursequals5.7years.Buthowdoyoumeasure99.999%availabilityofthesoftware?Yes,F5hascustomersthatarerunningversionsofBIG-IPolderthanoneyear,andhavebeenupone-yearorlonger.Thisisdocumented.Butthisistheexceptiontotherule.Why?BecausetheBIG-IPsoftwareisupdatedwithmajorreleases2-3timesayearandminorreleases3-4timesayear.Soinmostcaseswecannottracktheuptimeofthesystemsbeyond3-4months.95%ofthecases,whentalkingtocustomers,theyhaveexperiencednodowntimeintheperiodbetweenproductupdates.Thequestioniswhatdoyoudowhenonesystemfails?Whatdoyoudowhenbothsystemsfail?Andwhatarethetypicalscenarioswherebothsystemfail?Whereisthecustomersresponsibility?Whatyoudoasacustomerinthat5.25minutesplaysacriticalroleintheoverallequation.Whenonesystemfailsforwhateverreason,doyouhavetherightinternaltechnicalresourcestorespondtotheproblem?Doyouhavelocalvendorsupporttoassistintroubleshootingtheproblem?Rememberthatwhenonesystemfailsinaredundantpair,youarestilloperationalandthereforearenotdown.F5provides7x24supportandservicestoassurethatshouldanyproblemsoccur,yoursystemwillbebackupinnotime.Whydobothsystemsfail?F5sexperienceisthat95%ofthecaseswhereacustomerhaveacatastrophicfailureofbothsystems,inaredundantdeployment,itisduetooperationalorhumanerrorinconfiguringthesystem.Asanexample,whenyoumakeachangeintheconfigurationtoBIG-IPitisrecommendedthatyoudonotautomaticallysynchronizethenewconfigurationtothepassivesystemrightaway.First,lettheactivesystemruntomakesureyouhavenotmadeanyerrors.Anditisalwaysabestpracticesfunctiontoback-upaknownoperationalconfiguration.Howis99.999%Uptimeobtained?99.999%uptimeisobtainedthrough3keycomponents.1. Havingthepropertestingfacilityforpre-stagingyourapplication.2. TrainingyoursupportstaffinthefunctionalandoperationalbestpracticesusageofBIG-IP.WorkingwithavendorlikeF5Networksthathaslocalandglobalresourcesandunderstandssupporting7x24operationalrequirements.Souptimeismoreaboutchoosingtherightpartnertodobusinesswith.利用F5的BIG-IP控制器负载平衡BEAWebLogic集群流量F5的BIG-IP本地负载平衡器和BEAWebLogic服务器F5和BEA紧密合作,使BIG-IP控制器和WebLogic服务器这两款业界领先的设备完美结合,以提供一款出色的解决方案,为那些部署在WebLogic电子商务平台上的服务和应用提供一流的可扩展性和性能。· BIG-IP控制器经过精心设计和测试,能够正确管理用户到WebLogic集群的连接。BIG-IP经过配置可以将独立的cookie插入用户的Web浏览器,同时使WebLogic服务器cookie保留内存中的持续信息,以进行故障切换(参见图示)。该解决方案的优势流量控制-BIG-IP提供了WebLogic服务器集群所需的流量管理能力和用户持续性。经验证的兼容性-BIG-IP与WebLogic服务器进行互操作,可保持重要的服务器持续性(BIG-IP)和用户会话数据(WebLogic),以实现无缝、可扩展的服务器集群。SSL能力BIG-IP提供了集成的SSL处理,以提高WebLogic服务器集群的性能和可扩展性。优化网络和WebLogic服务器性能BIG-IP的OneConnect能够智能管理HTTP会话,从而将带宽成本降低了20%,并增加了后端服务器集群的容量。易于设置该解决方案不需要额外的WebLogic配置。客户可以在其WebLogic服务器前面简单地配置和部署BIG-IP。自动应用升级利用F5的BIG-IP和GLOBLE-SITE,BEAWebLogic用户可以实现自动软件更新。当客户想要更新WebLogic服务器上的任何内容(包括WebLogic软件)时,可以采用F5的GLOBLE-SITE来自动安排非高峰运行时间的内容发布。GLOBLE-SITE能够与BIG-IP进行通信,从而可在进行内容更新的同时启动或关闭服务器。1. 利用OracleApplicationServer和BIGIP配置负载平衡在国家网络计算中心中配置了一个