XX公司CommVault灾难备份系统方案建议书(共56页).doc
《XX公司CommVault灾难备份系统方案建议书(共56页).doc》由会员分享,可在线阅读,更多相关《XX公司CommVault灾难备份系统方案建议书(共56页).doc(56页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上XXX公司CommVault灾备方案建议书二二二年五月目 录第 1 章 前言1.1 概述承蒙XX公司对慷孚系统公司(CommVault)公司的信任和厚爱,提供我们参与其备份容灾系统建设的机会,我们不胜感激及深表荣幸。CommVault公司将本着诚挚、科学的态度,充分考虑贵方的需求,利用我们国际领先的科技和丰富的设计、项目经验,提供最佳的专业服务,以及高性价比的系统设计方案,提供一套优质的数据容灾备份方案。慷孚系统公司CommVault Systems于1996年从AT&T贝尔实验室分立出来发展成独立的软件公司,致力于数据管理方案的创新。CommVault SIMPAN
2、A平台提供统一的数据管理产品,已被全球众多2000强企业采用。1.2 容灾的必要性随着信息技术的发展,企业和政府部门越来越依赖于电子数据处理来进行它的商业行为和管理,电子数据处理的高可靠性和高可用性越来越成为关键。如果数据丢失,业务的开展将变得极其困难,更为重要的是,核心数据的丢失,严重时完全有可能造成整个系统的瘫痪。如果政府部门核心数据丢失,严重时会引起政治事件。因此,在限定的时间内成功的灾难恢复将应该是一个战略计划中的一个关键组成部分。 尽管随着科学技术的发展,计算机系统的可靠性日益增加,但是人为的操作错误、软件缺陷、硬件故障、电脑病毒、骇客攻击、自然灾难等诸多因素,均有可能造成数据的丢失
3、,依然可以轻而易举地摧毁企业赖以生存的IT系统,从而造成无法估量的损失。所以,建立灾备中心便成了必然的选择。1.3 容灾规划与技术路线我们常常看到这样一个现象,一旦某单位要建容灾系统,众多硬件、软件厂商都到场,纷纷推荐各自的灾备或容灾解决方案,结果是产品和概念的混战。那如何正确认识灾难备份呢?比较简单的方法就是先从国家标准开始解读。1.3.1 解读国家标准国家标准信息系统灾难恢复规范GB/T20988-2007有关灾难备份的基本概念定义如下:灾难:由于人为或自然的原因,造成信息系统严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件,通常导致信息系统需要切
4、换到灾难备份中心运行。灾难恢复:为了将信息系统从灾难造成的故障瘫痪状态恢复到正常运行状态,并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态,而设计的活动和流程。灾难备份:为了灾难恢复而对数据、数据处理系统、网络系统、基础设施、专业技术支持能力和运行管理能力进行备份的过程。灾难备份系统:用于灾难恢复目的,由数据备份系统、备用数据处理系统和备用的网络系统组成的信息系统。国标中清晰的定义了信息系统“灾难”的概念,一旦信息系统出现了灾难,就要进行“灾难恢复”,为了能进行“灾难恢复”,就必须提前进行“灾难备份”,于是就要建“灾难备份系统”,灾难备份系统由三个子系统构成:数据备份系统、备用数据处
5、理系统和备用网络系统。通过以上的分析,我们就能了解容灾是个系统工程,是对数据、数据处理系统、网络系统、基础设施、专业技术支持能力和运行管理能力进行备份的过程,当灾难发生后,能按设计要求进行灾难恢复。我们需要建立灾难备份系统来实现灾难备份,由于备用数据处理系统和备用的网络系统只要购买并安装实施所需的硬件设备就能达到目的,相对比较简单,最为复杂的是如何建立满足灾难恢复要求的数据备份系统。1.3.2 灾难备份的分级标准国家标准信息系统灾难恢复规范GB/T20988-2007中规定了灾难备份分级标准,对灾难备份的级别有比较详细的描述,对我们在规划实施灾难备份系统时有很好的指导意义。下面的表格中描述了灾
6、难备份的分级标准。全备份介质保管复制备用场地及设备恢复时间数据丢失一级每周场外存放无满足介质存放2天1-7天二级每周场外存放无具有或能调配部分设备1天1-7天三级每天场外存放定时具有部分设备12小时24小时四级每天场外存放定时具有全部设备2天几分钟2天30分钟六级每天场外存放零丢失与生产系统相一致,并能无缝却换几分钟0从这个分级标准中,我们看到以下几个要点:1. 每个级别的备份频率不一样,但备份数据必须要场外存放。2. 不同级别采用的数据备份方式不同,一、二级不需要数据复制,三、四级采用定时复制,五级采用实时复制,六级要求不能丢失数据,并能进行无缝切换。3. 每个级别的RPO/RTO也有所不同
7、。在我们实际的应用环境中,并不是一个数据中心的所有系统都采用同一种容灾级别,我们对重要的系统采用较高的级别,而相对不重要的系统采用较低的级别。1.3.3 数据复制不等于容灾数据备份系统主要是对数据进行保护,目前,不同的IT厂家都有各自不同的数据保护方案,有的是硬件产品,有的是软件产品,虽然各个厂家的产品名称都不一样,但数据保护的算法都大同小异。现在企业很多已经采用RAID技术对重要数据进行保护,利用内置的RAID卡或者外置的磁盘阵列,采用Raid1、5等技术防范硬盘坏而导致数据丢失。除此之外,数据保护的算法还有:复制、快照和备份恢复,下面我们对IT业界这几种最流行的数据保护算法的特点进行对比分
8、析。RAID复制快照备份物理错误(47%)自然灾害YESYES硬件失效YESYESYESYES逻辑错误(53%)人工出错YESYES软件失效YESYES病毒YESYES恢复点(RPO)能容忍丢失多少数据?没丢失秒、分钟、小时小时天恢复时间(RTO)要多久才能恢复实时分钟、小时分钟小时天数据保留时间能恢复多长时间内丢失的数据不能不能几小时几天几周几月几年从上面这个对比分析表中我们可以得出以下结论:数据备份系统主要有5个目标:防止物理错误、防止逻辑错误、满足RPO、满足RTO、满足数据保留的时间,没有一种单一的数据保护算法能同时完全满足这5个目标。因此一个完整的数据保护方案应该是这几种算法结合而构
9、成,这样我们在规划设计灾难备份系统时,也应该采用综合的解决方案。1.3.4 灾备级别与投资关系下图是RPO与投资的关系曲线,当灾备级别越高,RPO就越小,系统的投入就越高,投资是一个几何曲线,因此,我们必须根据我们实际应用的需要,选择恰当的灾难备份级别,避免为了防范一个小概率的灾难事件,而要投入太高建设费和运维费用。很多用户就因为费用的原因而放弃了灾难备份。从国标的要求我们也可以看到,并不是所有的容灾级别都需要那么高的RPO,我们应该根据业务系统的要求来选择合理的容灾级别。灾难保护计划的目的是,确保关键业务持续运行以及减少非计划宕机时间。所有与容灾方案相关的计划都试图在方案本身、宕机时间和成本
10、之间寻找一个平衡。合适的就是最好的,切忌贪大求全。比如有些业务可以容忍一段时间的停机,完全可以通过脱机备份方式进行恢复,就没有必要建设实时的容灾复制,否则,不仅浪费了大量的投资,而且也占用了大量的维护成本,使总体拥有成本(TCO)很高。同时,在人力紧缺的情况下,不能把有限的人力投入到业务容灾系统上去。综合以上所述,可以如下图所示: 1.3.5 不同数据保护方法与RPO和RTO的关系不同的数据保护方法有不同的RPO和RTO,但并不是RPO越小,RTO就越小,反过来也一样。有些系统要求RPO较小,主要要求数据丢失很少;有些系统要求RTO较小,主要是满足快速提供服务;有些系统要求RPO和RTO都要小
11、,既要少丢数据,也要快速恢复。当然天下没有免费的午餐,要求高,投入也会很高。下图是不同的数据保护方法与RPO和RTO的关系:复制方式,虽然丢失的数据比较少,但是恢复运行时间不一定就很短。由于数据库的日志机制,在不同的设置下,如果复制中断,灾备中心有可能需要比较长的修复时间(日志回滚和检测)。另一方面,由于复制不能避免逻辑错误,在发生逻辑事故时,复制两端的数据都被破坏,恢复运行就更困难。所以如果要快速恢复应用运行,一般需要和快照,备份结合,来提高灾备数据的可用性。快照方式,快照机制能够在灾备中心创建若干个恢复时间点,例如1个小时做1个快照,保留4个快照点。快照丢失的数据有可能比较多,一般是1个小
12、时,但是恢复的速度非常快。如果和应用快照结合的话,恢复数据库运行一般只要几分钟,因为修复的时间非常短。与数据库结合的快照在某个时间点能够确保数据库数据完整一致。备份方式,可以利用磁带或磁带进行备份。传统上采用备份方式的RPO和RTO是最差的。但是,由于可以采用事先在灾备中心恢复数据,这样就能大大改善RTO,当然采用磁盘备份的效率会更高。1.3.6 不要掉入RPO陷阱谁都希望数据丢失得尽量少,希望RPO越小越好,那投入的建设费和运维费是相当惊人的!但实际上并不是所有的系统都有那么高的RPO要求,很多业务系统丢失5分钟的数据和丢失一小时的数据的区别不大,这时因为一旦数据丢失以后,都需要业务部门来反
13、复核对业务数据,为了保险,通常要求把系统回退到某个整时间点,再重新输入业务数据,然后再起用系统。对于一个远程的灾备系统,当起用远程的备用系统时,需要特别的管理流程或审批流程,通常不建议采用自动切换方式,否则造成的混乱和损失会更大!通过解读国标,不同级别的容灾,RPO、RTO是不同的,根据自己业务的要求,合理选择RPO和RTO,是容灾建设的第一步。1.4 容灾恢复计划及演练很多企业建设容灾系统,重视硬件系统的投资,那是看得见的“实实在在”的容灾系统,而轻视在容灾恢复计划(DRP)的“软件”投入,其实这是非常严重的误区。容灾系统的建设是需要同时满足RTO和RPO指标的,恢复时间对我们及用户来说是至
14、关重要的,试想,如果没有一套行之有效的DRP,在灾难发生时,即使 “硬件”是运行正常的,(如果没有经常的测试来验证,又如何能保证是正常的?)谁来组织进行容灾恢复?人员如何分工?根据什么来进行恢复?我想,忙中生乱,可能会产生更大的乱子。因此,必须为灾难备份系统建立一套灾难恢复计划,包括建立灾难备份系统的管理机制和组织架构、灾难响应流程、灾难切换流程、灾难应急流程等。灾难恢复计划必须定期的进行演练,演练不但是为了熟悉容灾切换、回切流程,使企业内部各部门及人员熟悉自己在容灾中所扮演的角色,做到胸有成竹,才能够在灾难真正发生的时刻有条不紊地开展恢复的过程,而且可以提高人们的安全意识,在平时维护、软件升
15、级时注意容灾系统的维护。通过演练,还可以发现切换、回切流程的不足,验证和优化灾难恢复计划,确保在灾难发生时,灾难恢复计划能够行之有效的。演练的过程可以分为“纸上谈兵”和实地演习两种方式,根据企业需要及对业务影响的不同分别采用。需要注意的是,无论平时的测试如何完善,也没有办法预测可能发生的灾难情况。关键人员的损失或者关键文档的丢失,都有可能对灾难恢复计划的执行造成巨大影响。因此,在灾难演练过程中要注意到人员的交叉备份情况,除了每个人自己所担负的责任外,尽量做到关键步骤有后备人选作为应变。第 2 章 用户现状和需求分析2.1 用户现状我们把XX公司的IT工作场所划分成两类:l 生产数据中心生产数据
16、中心是服务器、存储设备、网络设备最集中的工作场所,也是数据最重要、最集中的地方,是重点保护对象。l 容灾数据中心容灾数据中心是数据中心的备份场所,万一当灾难发生时,容灾数据中心能顶替数据中心进行工作,建立一个完备的容灾数据中心是非常必要的。随着IT的发展及计算机应用的普及,办公应用中越来越多运用计算机,大部分的工作数据都会存储在个人的电脑上或服务器上。经常会碰到由于死机或蓝屏、系统和应用程序不稳定、硬盘故障等而导致数据丢失的问题,电脑故障并不可怕,电脑数据丢失可能会导致几天、几个月甚至几年的工作付之东流。协同办公系统建设及推广,使日常帮越来越依赖于协同办公系统,办公系统的正常直接影响到日常办公
17、系统的正常进行。公司的生产系统更重要,一旦出问题,必将影公司的正常生产和公共形象。2.2 目标需求分析我们首先为不同的应用系统确定不同的备份级别:系统名称备份方式复制容灾设备恢复时间数据丢失对应国标级别生产数据库每周全备每天增备实时备份服务器 30分钟5分钟5级生产应用每周全备每天增备定时备份服务器 30分钟1天4级OA数据库每周全备每天增备实时备份服务器 30分钟5分钟5级OA应用每周全备每天增备定时备份服务器 30分钟1天4级财务系统每周全备每天增备无异地保留备份数据12小时1天3级档案系统每周全备每天增备无异地保留备份数据12小时1天3级工作日志每周全备每天增备无异地保留备份数据12小时
18、1天3级全文检索每周全备每天增备无异地保留备份数据12小时1天3级公文交换每周全备每天增备无异地保留备份数据12小时1天3级台式机每天增备无异地保留备份数据12小时4小时3级除上述灾备要求外,在技术和管理方面还有以下问题需要注意:l 项目实施的风险:由于现有的系统都是正在运行的关键系统,一定要注意项目实施的风险,最好不要对现有系统存储或数据库进行较大的改变,最好不要重新安装系统和数据库。l 管理权限问题:对系统备份管理权限管理必须合理,如备份和恢复权限应该分开,避免错误恢复而导致系统破坏。l 统一监控问题:在数据中心能对系统的运维状况进行监控管理,及时发现问题,并能进行事后审计监督和优化改进。
19、l 容灾演练:容灾演练是灾难恢复的重要环节,因此要求能方便进行容灾演练。l 投资保护问题:尽量要利用现有的主机和存储设备,而不是重新购买新主机或存储设备。第 3 章 灾备方案规划3.1 灾备拓扑架构数据中心和容灾中心直接有专用的网络链路连接,整个系统构成说明如下:l 备份管理服务器:配置、管理、监控整个灾备系统。l DR备份管理服务器:备份管理服务器的容灾备机,当备份管理服务器出现灾难时,由该机来接管。l 台式机备份服务器:对台式机进行备份。l 备份磁盘:磁盘备份设备,存放备份数据。l 容灾备份磁盘:存放容灾备份副本的磁盘设备。3.2 对服务器的备份保护根据上一节的需求分析,我们对数据中心的服
20、务器都要进行数据备份保护。我们采用LAN和LAN FREE备份模式,每天对生产服务器进行备份,备份策略为:每周末进行全备份,每天进行增量备份,备份数据先保留在数据中心的备份磁盘上,然后再把备份数据复制到容灾中心的容灾备份磁盘上。这样就实现了所有服务器数据的容灾备份,能满足国标3级要求。在LAN备份模式下,在生产机内只需要安装备份iDA模块。在备份操作时,iDA模块把需要备份的数据从生产数据存储设备中读入生产机,并通过LAN把备份数据传给专用MA服务器,MA服务器将把数据通过SAN写到备份设备上;在恢复操作时,MA服务器将通过SAN网从备份设备上读入恢复数据,并通过LAN把数据传给iDA,iDA
21、把数据写入生产系统。在LAN模式下,备份/恢复操作的数据需要经过LAN网转送。LAN-Free的备份方式是建立在SAN(存储区域网)的基础上的,基于SAN的备份是一种彻底解决传统备份方式需要占用LAN带宽问题的解决方案。它采用一种全新的体系结构,将磁带库和磁盘阵列各自作为独立的光纤结点,多台主机共享磁带库备份时,数据流不再经过网络而直接从磁盘阵列传到磁带库内,是一种无需占用网络带宽 (LAN-Free) 的解决方案。LAN-Free的优点是数据备份统一管理、备份速度快、网络传输压力小、磁带库资源共享;缺点是投资高。在LAN-Free该模式下,在生产机内需要安装iDA和SAN MA模块。在备份操
22、作时,iDA模块把需要备份的数据从生产数据存储设备中读入生产机,并在生产机内把备份数据传给SAN MA模块,SAN MA模块将把数据通过SAN写到备份设备上;在恢复操作时,SAN MA将通过SAN网从备份设备上读入恢复数据,在生产机内把数据传给iDA,iDA把数据写入生产系统。在LAN Free模式下,备份/恢复操作的数据经过SAN网转送。数据备份采用D2D2T方式,D2D2T的意思是磁盘到磁盘到磁带备份模式,这是一个经济、高效、可靠的备份方法。D2D2T技术针对当前的纯磁带库方案,有更快的吞吐率,它不仅仅是把数据拷贝到磁盘上或磁带就完事,而是针对数据有一整套的管理,它不仅仅能提高效率,而是能
23、确保关键的信息在生命周期的每个环节都是可用的、安全的。利用高品质的廉价磁盘(阵列)和D2D技术来建第二级存储,与磁带相比具有下列优势:1. 快速的备份和恢复数据。2. 磁盘操作比磁带快,特别在装载和查找时。3. 烦恼的磁带故障被消除。4. 磁盘具有随机读写和优化查找的功能,而磁带是个顺序设备,对随机读写文件很慢。5. 磁盘能支持多台主机同时并行存取。6. 磁盘的存储方案比磁带方案占用更少的机房面积。7. 利用磁盘存储方案可消除操作磁带时的人为错误。(备份数据的复制可采用SDR或Auxcopy, 根据情况而定)当数据备份到磁盘后,利用辅助拷贝功能,可以在系统闲暇的时候通过网络把备份数据传送到容灾
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- XX 公司 CommVault 灾难 备份 系统 方案 建议书 56
限制150内