数据库容灾解决方案的选择(共19页).doc
《数据库容灾解决方案的选择(共19页).doc》由会员分享,可在线阅读,更多相关《数据库容灾解决方案的选择(共19页).doc(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上数据库容灾解决方案 2006-12-02 10:31:42第一章 企业面临的挑战以及发展趋势1.1前言1958年,Bill Gore 和他的太太 Vieve Gore在美国特拉华州Newark市,自己家里的地下室成立了Gore公司。1969年,Gore公司研制成功独特的,具有防风、防水、透气功能的GORE-TEX面料并广泛应用于生产具有功能性、保护性和时尚感的服装和鞋类产品。目前,Gore公司已成为一家在全球拥有6000多名员工、40多间加工厂的跨国公司,并在氟材料的技术研究和应用领域始终占据世界领先地位。对于Gore这样的以研发新型材料作为企业动力的公司而言,材料的
2、研发过程记录、研发历史数据、研发结果数据是企业最可宝贵的财富。请假设这样一种情况,如果这些数据在一次事故中全部丢失,Gore公司会蒙受多么大的损失?1983年,当个人电脑还处于萌芽期的时候,美国青年戴尔成立了自己的个人电脑公司,主要销售IBM的旧电脑和自己组装的品牌电脑。那是一个电脑群雄激烈厮杀的年代,当行业的领导者们争相以引人注目的技术推出计算机时,戴尔注意到了平凡的供应链。戴尔公司利用信息技术全面管理公司生产过程。通过互联网,戴尔公司和其上游的配件制造商能够对客户的定单迅速地做出反应:当定单传至戴尔的控制中心时,控制中心把定单分解为一个个子任务,并通过网络分派给各独立配件制造商进行生产。各
3、制造商按照戴尔的电子定单进行生产组装,并按照戴尔控制中心的时间表来供货。戴尔所需要做的只是在成品车间完成组装和系统测试,剩下的就是客户服务中心的事情了。“经过优化后,戴尔供应链每20秒钟汇集一次定单”,“平均库存时间仅有7小时”。虽然没有傲视群雄的杰出技术,现在的戴尔公司却已成长为一个年销售额达410亿美金的企业。对戴尔公司来说,市场信息的获取、物流信息的传递以及合作伙伴的信息交换,这些共同构成了拉动企业正常运转的信息链。如果有一天,一场意外的事故导致供应链的崩裂,戴尔该如何面对客户恼怒的面容和企业直线下滑的利润?信息,作为企业宝贵的资源,其重要性已经得到了人们的充分认识。但是我们该如何保护这
4、一资源?假设您就是某企业的一位高级管理人员,当您的企业遭遇以下事故时,您将如何去面对:1 某一天,证券公司的交易数据因操作失误而损坏;2 某一天,保险公司的所有保单数据因电源故障而丢失;3 石油勘探公司辛苦一年获取的地质数据因人为的恶意操作而丢失;4 医院保存的所有病历因为磁带的损坏而无法使用;这样的例子还有很多很多。那么这样的事故所带来的后果是什么?至少,很难想象这个不幸的企业还能毫发无损的健康生存。因为,对于信息时代的企业而言,健全的信息往往是维持其运转所必须的基本条件。所以,如何保护企业的信息资源,如何使企业免遭信息灾难,已经成为企业所必须考虑的沉重问题。第二章 容灾概述2.1 概述常言
5、道,“知己知彼,百战不殆”。要实现容灾,首先要了解我们的“敌人” 灾难。那么,哪些事件可以定义为灾难呢?典型的灾难事件是自然灾难,如火灾、洪水、地震、飓风、龙卷风、台风等,还有其它如原先提供给业务运营所需的服务中断,如设备故障、软件错误、电信网络中断和电力故障等等。此外,人为的因素往往也会酿成大祸,如操作员错误、破坏、植入有害代码和恐怖袭击。现阶段,由于我国很多行业正处在高速发展的阶段,很多生产流程和制度仍不完善,加之缺乏经验,这方面的损失屡见不鲜。事实上,我国2003年遭遇的“非典”,某种意义上也是灾难。对此,我们认为需要做到两点:一是建立切实可行的应急机制,这主要包含一套基于充分且清楚地将
6、风险予以分类定义的业务持续计划,二是在危机突然降临时,此计划能被有效执行。对于IT系统,除了上述的灾难之外,与系统相关的计划外宕机也可视作灾难(见图1)。图1.停机原因分析北美自“9.11”之后,全球各企业均认识到灾难防范保护的重要性。某些大型金融机构之所以能够在两天内恢复营业,其主要原因是它们不仅象一般公司那样在内部进行数据备份,而且在数英里外的数据备份中心也保留着数据备份。这些备份都是通过数据备份软件和数据复制软件进行的。采取了这种措施后,一旦工作现场发生意外,企业就可以立即使用另一套数据。华尔街的金融机构重新对灾难恢复的步骤做了评估,并认识到灾难恢复只是技术手段之一,它们开始强调 Bus
7、iness Continuity - 业务连续性而不仅仅是 Disaster Recovery - 灾难恢复。因为过去的灾难恢复计划并没有强调全局性及对整个市场的影响,而如何维持业务的连续运作将成为企业运营风险评估中至关重要的一环。事实证明,只有对数据存储备份制定完备、持续且可执行的容灾计划,特别是业务连续计划,才能为人们提供万无一失的数据安全保护。严格的说,容灾计划包括一系列应急计划,如业务持续计划(BCP-Business Continuity Plan),业务恢复计划(ERP-Business Recovery Plan),运行连续性计划(COOP-Continuity of Opera
8、tions Plan),事件响应计划(IRP-Incident Response Plan),场所紧急计划(OEP-Occupant Emergency Plan),危机通信计划(CCP-Crisis Communication Plan),灾难恢复计划(DRP-Disaster Recovery Plan)等等。业务持续计划(BCP)它是一套用来降低组织的重要营运功能遭受未料的中断风险的作业程序,它可能是人工的或系统自动的。业务持续计划是高层管理人员的首要职责,因为他们被委任于保护公司的资产及公司的生存。业务持续计划的目的是使得一个组织及其信息系统在灾难事件发生时仍可以继续运作。为了能对灾难
9、事件有适当的对策,严密的计划及相关资源的投入是必须的。业务恢复计划(BRP)它也叫业务继续计划,涉及紧急事件后对业务处理的恢复,但与BCP不同,它在整个紧急事件或中断过程中缺乏确保关键处理的连续性的规程。BRP的制定应该与灾难恢复计划及BCP进行协调。BRP应该附加在BCP之后。操作连续性计划(COOP)COOP 关注位于机构(通常是总部单位)备用站点的关键功能以及这些功能在恢复到正常操作状态之前最多30天的运行。由于COOP涉及到总部级的问题,它和BCP是互相独立制定和执行的。COOP的标准要素包括职权条款、连续性的顺序和关键记录和数据库。由于COOP强调机构在备用站点恢复运行中的能力,所以
10、该计划通常不包括IT运行方面的内容。另外,它不涉及无需重新配置到备用站点的小型危害。但是COOP可以将BCP、BRP和灾难恢复计划作为附录。危机通信计划(CCP)机构应该在灾难之前做好其内部和外部通信规程的准备工作。危机通信计划通常由负责公共联络的机构制定。危机通信计划规程应该和所有其它计划协调,以确保只有受到批准的内容公之于众,它应该作为附录包含在BCP中。通信计划通常指定特定的人员作为在灾难反应中回答公众问题的唯一发言人。它还可以包括向个人和公众散发状态报告的规程,例如记者招待会的模板。计划(IRP)事件响应计划建立了处理针对机构的IT系统攻击的规程。这些规程用来协助安全人员对有害的计算机
11、事件进行识别、消减并进行恢复,这些事件的例子包括:对系统或数据的非法访问、拒绝服务攻击、或对硬件、软件、数据的非法更改(如有害逻辑:病毒、蠕虫或木马等)。本计划可以包含在BCP的附录中。灾难恢复计划 (DRP)正如其名字所表示的,DRP应用于重大的、通常是灾难性的、造成长时间无法对正常设施进行访问的事件。通常,DRP指用于紧急事件后在备用站点恢复目标系统、应用或计算机设施运行的IT计划。DRP的范围可能与IT应急计划重叠,但是DRP的范围比较狭窄,它不涉及无需重新配置的小型危害。根据机构的需要,可能会有多个DRP附加在BCP之后。场所紧急计划 (OEP)OEP在可能对人员的安全健康、环境或财产
12、构成威胁的事件发生时,为设施中的人员提供反应规程。 OEP在设施级别进行制定,与特定的地理位置和建筑结构有关。设施OEP可以附加在BCP之后,但是独立执行。BCP关注在中断期间和之后维持机构的业务功能。业务功能的一个可能的例子是工资的支付处理或客户的信息处理。BCP可以专门为某个特定的业务处理编写也可以涉及到所有关键的业务处理。IT系统在BCP中被认为是对于业务处理的支持。在某些情况下,BCP可能没有涉及到对过程的长期恢复并使其回到正常运行状态,而只是包含过渡的业务连续性需求。灾难恢复计划、业务继续计划和场所紧急计划可以附加在BCP之后。在BCP中设定的职责和优先顺序应该和其在操作连续性计划(
13、COOP)中的一致以消除可能的冲突。按一般惯例,备用站点维持机构(通常是总部)要支持长达30天的运行,直到整个系统恢复到正常状态,COOP正是为了达到这个要求而制定的。BCP涉及到在重大中断期间和之后维持业务处理所需的业务功能和IT系统。BRP记录了机构在备用站点进行业务处理的持续规程。与BCP不同,BRP不涉及在紧急事件期间对关键处理的连续性维持。DRP是指设计用于重大和通常是毁灭性灾难之后的目标系统、应用程序或计算机设施的恢复,它是以IT为主的计划。两个计划都提供了IT系统的恢复和继续规程。由于包括了对无需重新部署到备用站点的小型中断进行系统恢复的规程,所以这类计划比DRP的范围更广泛。计
14、算机事件响应计划建立了使安全人员可以确定、防止和恢复针对机构IT系统进行的计算机攻击的规程。OEP则提供了在人员的健康和安全以及环境或财产等受到威胁的紧急情况下,设施工作人员所遵循的指导方针。计划的制定者之间必须进行协调以确保各自的策略和规程能够互为补充,必须将所有有关计划、系统和处理的变化情况反馈给系统和相应处理计划的制定者。第三章 容灾方案分析在现代企业的IT系统管理过程中,常常会遇到各种有关灾难备份范畴的需求,例如: “无论发生任何问题,业务系统必须在最短的时间内恢复! ”; “无论发生任何问题,数据绝对不能丢失!” 针对这些问题,有经验的管理人员可能会考虑到一系列由此引发的问题: “究
15、竟有些什么因素可能导致业务中断?” “究竟最短的时间是多长?” “是否所有的应用系统数据都不能丢失?” “这些恢复目标是否合理?” “目前的IT架构是否能够满足所要求的恢复目标?” “是否IT系统得到恢复,就意味着业务部门可以对客户进行服务?” “如何衡量灾难备份方案的投入产出比?”回答以上这些问题的过程,就是考虑企业业务连续性的过程。事实上,随着IT系统在企业内部应用的深入,灾难备份在企业中已不是IT一个部门的问题,而是整个企业各业务部门与IT部门紧密合作的问题。其内容也不仅局限于数据的备份和应用的接管,还包含了网络的冗余、人员与组织架构的整理、恢复流程的设计等一系列技术以外的范畴。目的在于
16、保证在灾难环境下,企业真正从业务的角度得到保护,而不仅仅是IT环境的恢复。3.1业务连续性开发模式各行各业的用户,需要针对自身情况,设立可行的业务恢复目标,并制订出切合实际、投资合理、可靠的业务连续性及技术方案。这种业务连续性开发模式,体现在业务连续性或灾难备份的项目中,就是灾难备份项目实施的步骤:1. 灾难类型分析2. 业务冲击分析3. 当前业务环境及恢复能力分析4. 容灾策略制订5. 容灾方案设计6. 业务连续性流程设计7. 业务连续性流程及容灾方案管理和测试其过程如下图所示,是一个周而复始的过程,随着企业内部环境的变化随时灵活变化:图一. 灾难备份项目实施过程 3.1.1阶段一、灾难类型
17、分析(风险分析)在本阶段,需要进行详细而量化的风险分析,以确定当前IT环境之中存在哪些无法接受的物理威胁或者可能发生的灾难,并对灾难发生的可能性、目前可能的防护措施的有效性和该灾难所威胁的资产价值进行分析,最终得到带有优先级别的需要防护的灾难列表,并制订可能的处理方法,如接受该灾难发生的风险而不进行防护、自行制订该灾难的防护方法或者采取购买保险等风险转嫁策略。其结果可以由下图表示:在该图中,横坐标为风险发生的可能性,纵坐标为风险发生所造成的损失。在某一风险发生的可能性极小时,即使造成的损失极大,也可能属于可接受的风险范畴,例如美国的“9?11”事件。但该接受程度是与时俱进的,在“9?11”事件
18、发生后,事实是大部分没有考虑这种大范围灾难性事件的企业基本没有得到恢复的机会。目前业界也已经将低概率事件逐渐纳入防护的范围。3.1.2阶段二、业务冲击分析在本阶段,应该针对各种业务流程进行分析,通过走访各业务部门的相关人员,了解各种业务流程本身对该企业的重要程度。(例如在银行业里,储蓄和单据、网上支付、电话银行等业务就具有不同的优先等级。)同时根据一定的评判原则,得出在核心流程由于灾难的发生而无法正常进行时对企业本身的损失情况。这种损失可能是可以量化的,例如单据的丢失、计算的错误而导致的直接损失;也可以是无形的损失,例如客户满意度及竞争优势的丢失。通过对可量化和不可量化损失的综合考虑,得出各种
19、核心业务流程由于灾难受损的可容忍程度及损失的决策依据。体现在IT系统上,是三个指标: 数据恢复点目标(RECOVERY POINT OBJECTIVE):体现为该流程在灾难 发生后,恢复运转时数据丢失的可容忍程度; 恢复时间目标(RECOVERY TIME OBJECTIE):体现为该流程在灾难发生后,需要恢复的紧迫性也即多久能够得到恢复的问题; 网络恢复目标(NETWORK RECOVERY OBJECTIVE):即营业网点什么时候才能通过备份网络与数据中心重新恢复通信的指标;对于不同的业务流程,这三个指标可能相差非常之大,各个流程本身对这三个目标的优先程度也是不一样的,有的流程可能要求数据
20、丢失的程度较小,但恢复时间可以较长,而另一些流程可能要求短时间内恢复,但数据的丢失程度可以放大一些。这三个指标直接影响所使用的容灾策略及技术方案,并指导企业的投入成本。可以用下图表示:图3. 业务冲击分析曲线 在该图中,横坐标为灾难持续时间,纵坐标为灾难损失,在某一程度以下属于可接受的程度,即横虚线所示。这种可接受决策应该由负责该流程的业务部门综合考虑后做出。3.1.3阶段三、企业容灾环境分析本阶段主要针对业务冲击分析的结果,对目前的内部环境进行评估,得出与恢复目标之间的差距。分析的对象为业务流程需要的资源,如IT环境等。通过本阶段的工作,得出各业务流程所牵涉的企业资产及资源(人力资源、IT架
21、构、技术储备、技术使用程度、网络环境等),并分析得出目前的业务环境对容灾需求、冗余程度、可能造成的数据损失是否能够支持等方面的报告。用下图表示:图4. 容灾环境分析 图中右边红线为目前环境所支持的容灾能力,左边红线为经过业务冲击分析所得到的需要达到的恢复能力,在灾难恢复时间和灾难造成损失两个方面都需要得到降低。3.1.4阶段四、容灾策略制订在本阶段,结合以上各阶段的分析成果,以及企业本身在容灾上的投入能力,制订企业短期、长期范围内的容灾策略和目标,并有意识地将企业本身的人员组成和组织架构做出调整以适应策略要求。最重要的是制订出容灾实施步骤,优先解决最为重点的问题。如下图所示:图5. 容灾策略制
22、订 3.1.5阶段五、容灾方案设计容灾方案可供选择的范围很大,但所有的容灾方案都必须考虑的因素包括恢复时间、实施与维护容灾策略所需的投入等。容灾恢复时间的需求越短,所需的实施成本就越大,实施难度也就越高。恢复时间与投入的比值可以用以下这张曲线图加以说明:图6. 容灾方案层次 图中的各种层次方案可以分别满足不同的数据恢复目标和恢复时间目标,需要根据业务冲击分析的结果,针对每一种业务流程,综合选择能够满足容灾目标的方案。3.1.6 阶段六、业务连续性流程设计有了IT系统的恢复方案,只能够保证在灾难环境下,IT系统的恢复能够保证业务冲击分析的目标,但是业务的连续性并不只是IT系统的恢复,还包括办公场
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 库容 解决方案 选择 19
限制150内