容灾项目方案设计.doc
《容灾项目方案设计.doc》由会员分享,可在线阅读,更多相关《容灾项目方案设计.doc(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、容灾项目方案设计第 36 页目 录第 1 章容灾技术规范4容灾总体规划4技术指标RPO、RTO4国际标准SHARE785Tier 06Tier 17Tier 27Tier 38Tier 48Tier 58Tier 69界定灾备系统适用范围9界定灾备建设目标9界定灾备系统总体架构10第 2 章主流容灾技术说明12数据备份12实时数据保护12数据镜像(Mirroring)13数据复制(Replication)13软件复制13硬件复制15数据库复制18Datacore SDS19应用系统恢复19网络系统恢复19容灾切换过程20消防演习20第 3 章主流容灾技术分析及对比21数据备份21实时数据保护2
2、2数据镜像(Mirroring)22硬件镜像22软件镜像22软件智能存储镜像23镜像技术在容灾中利用23数据复制(Replication)23软件复制(卷复制)24硬件复制24基于软件控制器复制25数据库复制25应用系统恢复27网络系统恢复29第 4 章容灾系统设计步骤29第一步,深化数据备份系统30第二步,存储、应用整合31存储整合31应用整合31第三步,实现远程实时数据卷保护31第四步,建立远程切换消防演习机制32第五步,建立远程切换机制32第 5 章数据容灾性能分析32同步数据容灾性能分析32带宽33距离33中间链路设备和协议转换时延34异步数据容灾性能分析36容灾技术规范作为风险防范系
3、统,灾备系统建设本身在总体规划、方案选择与投产实施后管理运行,以及真正面对灾难时切换操作等方面也存在着潜在风险。 计算机信息系统实现数据大集、应用大集中后,系统运行安全成为风险控制焦点。目前,已经有多系统开始或准备进行灾备系统建设,灾备系统建设目标是减灾容灾,使计算机信息系统与数据能够最大限度地防范与化解各种意外与灾害所带来风险。然而,及大多数工程一样,灾备系统建设本身在总体规划、方案选择与投产实施后管理运行,以及真正面对灾难时切换操作等方面也存在着潜在风险。 可以说,风险防范系统本身也存在风险点,需要小心应对。 灾备系统建设中所涉及潜在风险大致可分为技术风险、管理风险与投资风险,其中尤以技术
4、选择风险最大,技术方案选择优越,可以规避一定管理风险与投资风险。而这三者也存在内在相互关联,不同灾备级别对应建设投资规模、所采用技术以及实施与管理复杂度也不同,应考虑保护计算机系统原有投资并提高灾备系统建设投资利用率。 1.1 容灾总体规划真正容灾是数据被不间断一致性访问!在灾难备份世界里,是有等级观念,级别不同,灾备系统所采用技术与达到功能是不同,在系统建设资金投入方面差距也很巨大。所以,对用户来说,明确灾备系统建设总体规划十分必要。1.1.1 技术指标RPO、RTO衡量容灾技术两个技术指标RPO、RTORPO(Recovery Point Objective): 以数据为出发点,主要指是业
5、务系统所能容忍数据丢失量。及在发生灾难,容灾系统接替原生产系统运行时,容灾系统及原生产中心不一致数据量。RPO是反映恢复数据完整性指标,在同步数据复制方式下,RPO等于数据传输时延时间;在异步数据复制方式下,RPO基本为异步传输数据排队时间。在实际应用中,考虑到数据传输因素,业务数据库及容灾备份数据库一致性(SCN)是不相同,RPO表示业务数据及容灾备份数据SCN时间差。发生灾难后,启动容灾系统完成数据恢复,RPO就是新恢复业务系统数据损失量。RTO(Recovery Time Objective):以应用为出发点,即应用恢复时间目标,主要指是所能容忍应用停止服务最长时间,也就是从灾难发生到业
6、务系统恢复服务功能所需要最短时间周期。是反映业务恢复及时性指标,表示业务从中断到恢复正常所需时间。RTO值越小,代表容灾系统数据恢复能力越强。各种容灾解决方案RTO有较大差别,基于光通道技术同步数据复制,配合异地备用业务系统与跨业务中心及备份中心高可用管理,这种容灾解决方案具有最小RTO。容灾系统为获得最小RTO,需要投入大量资金。不同容灾方案RTO与RPO是不相同。1.1.2 国际标准SHARE78要建设容灾系统,就必须提出相应设计指标,以此作为衡量与选择容灾解决方案参数。目前,国际上通用容灾系统评审标准为SHARE 78,主要包括以下内容。备份/恢复范围灾难恢复计划状态业务中心及容灾中心之
7、间距离业务中心及容灾中心之间如何连接数据是怎样在两个中心之间传送允许有多少数据丢失保证更新数据在容灾中心被更新容灾中心可以开始容灾进程能力SHARE 78是建立容灾系统一种评审标准。建立容灾系统最终目,是为了在灾难发生后能够以最快速度恢复数据服务,主要表达在RTO Objective)与RPO上。SHARE78,M028报告中定义灾备七个级别与及其对应数据丢失量及恢复时间情况详见下表:灾难备份等级及业务恢复情况对照表等级描述RPORTO企业百分比0级无灾备计划-48小时0.1%2级车辆运送热备份2448小时24小时90%3级电子传送24小时24小时6%4级活动状态备份中心秒级24小时0.5%5
8、级两中心、两阶段确认秒级2小时0.1%6级零数据丢失零丢失2小时3%1.1.2.1 Tier 0 Tier 0 - 无异地数据备份(No off-site Data)Tier 0 被定义为没有信息存储需求,没有建立备份硬件平台需求,也没有发展应急计划需求,数据仅在本地进行备份恢复, 没有数据送往异地。这种方式是最为低成本灾难备份解决方案,但事实上这种灾难备份并没有真正灾难备份能力,因为它数据并没有被送往远离本地地方,而数据恢复也仅是利用本地记录。 1.1.2.2 Tier 1Tier 1- PTAM车辆转送方式( Pickup Truck Access Method)作为 Tier 1 灾难备
9、份方案需要设计一个应急方案,能够备份所需要信息并将它存储在异地,然后根据灾难备份具体需求,有选择地建立备份平台, 但事先并不提供数据处理硬件平台。 PTAM是一种用于许多中心备份标准方式,数据在完成写操作之后,将会被送到远离本地地方,同时具备有数据恢复程序。在灾难发生后,一整套系统与应用安装动作需要在一台未启动计算机上重新完成。系统与数据将被恢复并重新及网络相连。这种灾难备份方案相对来说成本较低(仅仅需要传输工具消耗以及存储设备消耗)。 但同时有难于管理问题,即很难知道什么样数据在什么样地方。一旦系统可以工作,标准做法是首先恢复关键应用,其余应用根据需要恢复。这样情况下,恢复是可能,但需要一定
10、时间,同时依赖于什么时候硬件平台能够被提供准备好。1.1.2.3 Tier 2Tier 2 - PTAM卡车转送方式+热备份中心 (PTAM+Hot Site)Tier 2相当于是Tier 1再加上具有热备份能力中心灾难备份。热备份中心拥有足够硬件与网络设备去支持关键应用安装需求。对于十分关键应用,在灾难发生同时,必须在异地有正运行着硬件平台提供支持。这种灾难备份方式依赖于用PTAM方法去将日常数据放在异地存储,当灾难发生时候,数据再被移动到一个热备份中心。虽然移动数据到一个热备份中心增加了成本,但却明显降低了灾难备份时间。1.1.2.4 Tier 3Tier 3 - 电子传送(Electro
11、nic Vaulting)Tier 3 是在Tier 2基础上用电子链路取代了车辆进行数据传送灾难备份。接收方硬件平台必须及生产中心物理地相分离,在灾难发生后,存储数据用于灾难备份。由于热备份中心要保持持续运行,因此增加了成本。但确实是消除了运送工具需要,提高了灾难备份速度。1.1.2.5 Tier 4Tier 4 - 活动状态备份中心 (Active Secondary Site)Tier 4 这种灾难备份要求两个中心同时处于活动状态并管理彼此备份数据,允许备份行动在任何一个方向发生。接收方硬件平台必须保证及另一方平台物理地相分离,在这种情况下,工作负载可以在两个中心之间被分担,两个中心之间
12、之间彼此备份。在两个中心之间,彼此在线关键数据拷贝不停地相互传送着。在灾难发生时,需要关键数据通过网络可迅速恢复,通过网络切换,关键应用恢复时间也可降低到了小时级。1.1.2.6 Tier 5Tier 5 - 两中心两阶段确认 (Two-Site Two-Phase Commit)Tier 5 是在Tier 4基础上在镜像状态上管理着被选择数据 (根据单一commit范围,在本地与远程数据库中同时更新着数据),也就是说,在更新请求被认为是满意之前,Tier 5需要生产中心及备份中心数据都被更新。我们可以想象这样一种情景,数据在两个中心之间相互映像,由远程two-phase commit来同步,
13、因为关键应用使用了双重在线存储,所以在灾难发生时,仅仅传送中数据被丢失,恢复时间被降低到了小时级。1.1.2.7 Tier 6Tier 6 - 零数据丢失 (Zero Data Loss)Tier 6 可以实现零数据丢失率,同时保证数据立即自动地被传输到备份中心。Tier 6被认为是灾难备份最高级别,在本地与远程所有数据被更新同时,利用了双重在线存储与完全网络切换能力。Tier 6是灾难备份中最昂贵方式,也是速度最快恢复方式,恢复时间被降低到了分钟级。对于Tier 6 灾难备份解决方案,可以应用两种远程拷贝技术来实现,即PPRC同步远程拷贝与XRC异步远程拷贝。 因此,企业需要根据其计算机处理
14、系统中数据重要性,以及需要恢复速度与程度,来进行灾备系统建设整体考虑与不同灾难对业务冲击分析,并最终确定灾备系统建设总体规划。灾备系统建设总体规划应包括以下几个方面: 1.1.3 界定灾备系统适用范围分析不同应用系统,确定灾备系统是一个覆盖整个计算机系统工程,根据业务重要性,对不同系统采用不同级别容灾方案,如针对关键业务应用子系统,实施高级别容灾工程;对低级别业务系统,实施低级别容灾工程。总之要建立一个综合性整体灾备建设工程。 1.1.4 界定灾备建设目标 生产系统在单位时间内数据处理能力或IO流量确定情况下,RPO实际上成为一个反映灾备恢复过程中数据丢失量指标。而RTO则是指从灾难发生到备份
15、系统可以接管原有生产系统所需要花费时间,这不仅要考虑数据恢复时间,还应该考虑恢复后数据完整性、一致性修复与确认、备份中心计算机处理系统启动与备份中心网络切换等全部时间。总体规划中应为灾备系统设定明确RPO与RTO指标。 但是设计容灾系统不能只看RTO与RPO,对于不同业务系统与用户特殊要求,其它一些指标有可能成为选择容灾解决方案主要因素。例如,某些地区为了防范一些特定自然灾害风险,要求容灾备份中心及业务中心保持足够距离,在这种情况下,容灾备份中心及业务中心距离要求就是容灾系统重要指标。通信网络是容灾系统组成部分,通信线路质量也是容灾系统性能指标之一,其中包括网络数据传输带宽、网络传输通道冗余与
16、网络服务商服务水平(网络年中断率)。如果容灾系统使用通信网络是确定,为了比较不同容灾解决方案,可以用单位存储容量数据库在同一通信网络上数据完全恢复时间作为一项设计指标。大部分业务系统都是数据库应用结构,但业务系统容灾并不等于是数据库容灾,还包括访问数据库应用程序与相关配置信息。实现数据库容灾是容灾基础,在保障数据库数据一致前提下,还要实现应用程序与配置信息一致性;实现应用系统高可用性、应用程序在容灾中心及生产中心接管与切回过程,因此,还要考虑应用模式是C/S、B/S,两层、三层、多层次应用结构等等。1.1.5 界定灾备系统总体架构 根据实际需求、现有技术、所在地域、计划防范灾难种类与预算投入资
17、金量等实际情况,确定灾备系统预期达到级别,并以此来确定灾备系统及生产运行系统在地理位置上距离(同城还是异地或两者兼备堡垒节点),备份数据存储所在介质(磁盘还是磁带或两者兼备),备份数据在生产中心及备份中心传输方式(这就涉及到了具体计算机存储及网络技术),以及备份中心计算机系统处理能力与网络接管所需具体架构(是否及生产中心采用完全同等数量、容量与性能计算机、存储设备与网络体系结构)。 第 2 章 主流容灾技术说明2.1 数据备份 数据备份是系统、数据容灾基础,也是低端容灾实现,是高端容灾(实时数据保护)有力保障。目前备份技术主要有快照备份、离线备份、异地存储备份。备份系统通过备份策略,对计算机信
18、息系统操作系统、文件系统、应用程序、数据库系统等数据集,实现某一时间点完整拷贝,拷贝数据处在非在线状态,不能被立刻访问,必须通过相应操作,如恢复等方式使用备份数据。这也解决了高端容灾(实时数据保护)不能解决问题:人为误操作、恶意性操作等,这类操作,计算机系统是不能区分,一旦执行,将造成数据中心、灾备中心同时修改;对于数据库系统,在日志方式下,可以通过回滚方式修改,对于文件系统、操作系统等其他配置信息是不能回滚,将造成毁灭性结果。因此在建设高端容灾系统前提,一定要做好本地系统备份,这是容灾技术起点。目前成熟备份软件有Symantec NetBackup、EMC Legato,IBM TSM,HP
19、 Protect Server等等。2.2 实时数据保护 实时数据保护,就是在多块磁盘上、多个阵列、多台服务器、多个数据中心实时保存同一份数据多份存储,目是为了避免物理故障,数据不会因为一块磁盘、一个阵列、一台服务器、一个数据中心故障,而不能访问。注意,实时数据保护需要以数据备份作为前提,它不能防范人为误操作与恶性操作。这里我们要强调容灾目是让数据在灾难发生时,还能被访问,通过实时数据保护,保证数据完整性;因此实时数据保护是容灾手段,而不是目。目前实时数据保护技术主要有两种:数据镜像与数据复制。2.2.1 数据镜像(Mirroring)数据镜像(Mirroring)是冗余一种类型,一个磁盘上数
20、据在另一个磁盘上存在一个完全相同副本即为镜像。分软件镜像及硬件镜像,它们区别就在于实现镜像所需CPU周期所处位置。最终,都是根据程序指令,为硬件(磁盘,以及磁盘上存储数据)制作一个镜像副本。镜像可以保证两份数据完全一样。镜像软件有Symantec Volume Manager;各硬件厂商都有基于自己阵列硬件镜像方式。2.2.2 数据复制(Replication)数据复制(Replication)是将一个原数据及其改动,通过后续机制拷贝到另外一处,可以是另一个磁盘、另一个阵列、另一个服务器、另一个数据中心。由于实现机制不同,又分为同步复制与异步复制两种方式。同步复制,能够确保两份数据完全一致,但
21、对系统影响较大,一般不会采用;异步复制,通过后续机制,确保将本地改动数据复制异地,对系统影响较小,但数据同步有延迟,是目前实现远程数据同步主要方法。根据实现机制,数据复制分为软件方式与硬件方式;硬件方式往往又被称为远程镜像。软件复制有Symantec Volume Replicator;Datacore 等;其中Symantec是基于卷复制,Datacore是基于block复制,类似于硬件复制,纯硬件复制有HDS TrueCopy、EMC SRDF等。其中软件复制是可以跨硬件平台,可以实现多厂商集成,一般硬件复制则是相同品牌之间磁盘子系统操作。具有一定限制性。2.2.2.1 软件复制Syman
22、tec Volume Replicator(简称VVR)负责远程数据复制。VVR复制基于Volume进行。复制数据可以是数据库中数据(文件方式或裸设备方式),数据库日志,复制数据也可以是各种文件,如应用与数据库配置文件,应用程序,库文件,等等。复制示意图见图四。VVR及VxVM完全集成在一起。用VxVM管理界面与命令统一配置管理;由于VVR仅仅将Volume上每次I/O实际数据实时复制到远程节点,所以在网络线路上传输数据量很少,对带宽需求也很小,因此也及应用无关,只要是在定义复制卷上任何操作,都会被复制到异地。Datacore则是基于软件块设备复制,处于卷更底层,属于块设备远程复制,及基于卷复
23、制不同是,他具有应用操作系统独立性,数据远程复制及操作系统无关,并且不需要远端主机应用系统运行,支持异步与同步方式,并且及硬件存储子系统不同是,Datacore可以实现异构存储子系统集中管理,打破了单一厂商选择限制,对于磁盘子系统选择更加灵活。其复制示意图如下:通过整合原有存储子系统以及新购存储子系统,将数据改动记录在DatacoreSDS设备当中,采用存储转发传输机制,利用cache技术与buffer技术,记录数据改变,然后通过传输机制将所有应用数据传输到对端,该软件支持一对多远程复制。类似于硬件复制,但是可以不受品牌限制。2.2.2.2 硬件复制以EMCSRDF为例,如下图:1系统定期检测
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 项目 方案设计
限制150内