VERITAS整体容灾方案.doc
《VERITAS整体容灾方案.doc》由会员分享,可在线阅读,更多相关《VERITAS整体容灾方案.doc(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、VERITAS整体容灾方案维尔软件目 录目 录1第一章 系统需求分析2 系统建立目标2 需求简析2第二章 高可用容灾方案设计32.1 设计原那么32.2 方案概述42.2.1 “N+1 冗余备份方式42.2.2 N节点循环备份方式52.2.3 软件安装6第三章 高可用容灾方案实现73.1 软件功能解释73.2 安装、配置过程133.3 工作过程14方案分析173.4.1 有关数据的量化分析及结果173.4.2 方案小结19附 录21一、VERITAS公司简介21二、VERITAS Foundation Suite23三、VERITAS Cluster Server 30附件一、具体安装配置命令
2、及配置文件第一章 系统需求分析1.1 系统建立目标建立本系统的目的是为xxx系统建立一个全面的、整体的容灾方案,最大限度地保证业务系统工作的连续性、可靠性。1.2 需求简析在xxx以往的业务系统中,仅考虑本地容灾,即通过集群的双机系统(Cluster或HA)对业务应用提供保护,在一台效劳器的软硬件发生故障时,将整个业务切换到后备效劳器上。该方法很大程度上防止了效劳器的单点故障,提高了整个业务系统的可用性。但是,随着xxx业务系统的开展,随着竞争的不断加剧,在一些重要的系统中,客户已经不满足于简单的本地保护。越来越多的客户提出了要求更高的系统可用性,要求实现真正的异地容灾保护。因为一旦出现异常情
3、况,如火灾、爆炸、地震、水灾、雷击或某个方向线路故障等自然原因以及电源机器故障、人为破坏等非自然原因引起的灾难,导致业务正常无法进展和重要数据的丧失、破坏,造成的损失将不可估量。因此,xxx要求业务系统可以在发生上述灾难时快速恢复,将损失降到最低点。全面的异地容灾保护方案,意味着除了要实现本地的切换保护外,更要实现数据的实时异地复制和业务系统包括数据库和应用软件的实时远程切换。第二章 高可用容灾方案设计 设计原那么我们为xxx提供的高可用容灾方案的设计原那么如下:l 方案当前即可实施l 在满足要求的前提下尽量简单l 除特别必要,不需要增加另外超出本方案的软硬件l 如果一个软件产品可以实现需要的
4、功能,我们不会再使用另外的产品实现重复的功能l 同一方案适合多种平台环境,降低安装、管理和维护的难度。VERITAS的容灾方案是一个完整的方案,该方案包括三个功能:主节点到灾备节点的数据远程实时复制、本地应用效劳和数据复制效劳的切换保护、应用远程容灾切换。涉及的产品包括Volume Manager+Volume Replicator,VERITAS Cluster Server和Global Cluster Manager。 在该整体方案中中,上层依赖于它的下层,每一层的产品实现相应的功能。 图中涉及的软件产品将在下面论述。2.2 方案概述VERITAS解决方案能够按照现xxx业务的要求实现多
5、种容灾模型。即:l “1+1冗余备份方式l “N+1备份方式l N节点循环备份方式(如果只要求N=2,即双地点互为备份)第一种方式实际是第二种方式N=1时的特殊情况,以下不单独讨论。 “N+1 冗余备份方式为N个正在运行的xxx业务系统建立一套远程容灾备份系统,称为“N+1备份方式。这种方式下,N个正在运行的业务系统中的任何数据的更改,包括静态数据更改与动态数据更改,都必须同步到备用系统中。备用系统中存储着所有的N套正在运行的业务系统的数据总和。正在运行的其中一个系统发生故障,那么备用系统使用对应当前故障系统的用户数据和相应应用,来接收故障系统的业务。假设正在运行的N个业务系统中所有系统同时发
6、生故障,那么备用系统使用的所有对应故障系统的备份数据和相应应用,接收所有业务系统。“N+1备份方式的优点是建立本钱比拟低,可以使用一套备份系统为多个系统提供容灾备份的功能,平时设备利用率比拟高。“N+1备份方式的缺点是当多个系统同时发生故障,如果只有一套备份系统为所有用户提供效劳,可能导致效劳质量的下降。该方式建议备份系统使用较高的硬件配置。 “N+1系统简单示意图如下列图图二: 数据传输方向图二 多对一备份Site 1Site nSite n+1Site 22.2.2 N节点循环备份方式 由于只要求N=2,实为一对一互为备份。Site A运行本身业务系统的同时,还作为Site B业务系统的备
7、份系统;同理,Site B运行本身业务系统的同时,还作为Site A的备份系统。正常情况下,Site B拥有本身业务的应用、数据库进程和相关的数据,同时,Site B系统中有相应的数据区存储从Site A实时复制来的数据。而且Site B实时将数据复制到Site A。当Site A 发生灾难时,Site B除了提供本身业务外,还要提供Site A的相应效劳。反之同理。N节点N=2循环备份系统简单示意图如下列图图三:数据传输方向图三 相互备份Site ASite B2.2.3 软件安装在两种情况下,每个地点的每台效劳器上安装的软件一样,只是不同情况下配置方法不同,每台效劳器的具体配置方法后面讨论
8、。每台效劳器安装软件如下:1) 安装VERITAS Volume Manager(VxVM) 2) 安装VERITAS (VxFS) 3) 安装VERITAS Volume Replicator(VVR) 4) 安装VERITAS Cluster Server(VCS)、相应的数据库代理(Agent)和应用软件代理5) 安装VERITAS Global Cluster Manager(GCM)第三章 高可用容灾方案实现本章将就该方案的每个细节进展讨论。包括方案的详细讲解,软件的实际配置方法等。通过阅读和理解本章,您将了解VERITAS解决方案的实现方法,并清楚地知道VERITAS解决方案是切实
9、可行的,并且有相关的实施案例和实施经历。我们假设原来就已经按照双机系统设计,那么本方案仅需要增加不同地点间的广域连接,不需要增加其它硬件。软件方面要用VERITAS高可用软件替换原有的HA/Cluster软件,新增Volume Manager、VERITAS 、VERITAS Volume Replicator和Global Cluster Manager。在介绍功能前,需要强调的的是:VERITAS提供的是完整的容灾解决方案。各个软件的功能完全集成在一起,建立一个容远程数据复制、本地容灾、远程应用切换于一体的方案。3.1 软件功能解释 在这里,每个软件只解释与本方案相关的那局部功能,至于软件
10、的全部功能,请见附录。一、 VERITAS Volume Manager(简称VxVM) 将在物理磁盘上建立多个或一个逻辑卷(Volume)。以裸设备的方式使用卷,或在卷上建立文件系统。将数据特别是需要进展远程复制的相关文件系统、数据库存放在卷上。由于数据复制是基于卷的,所以,Volume 是进展复制的根底。二、 VERITAS Volume Replicator(简称VVR)负责远程数据复制。VVR复制基于Volume进展。复制的数据可以是数据库中的数据文件方式或裸设备方式和文件。复制的示意图见图四。图四1) VVR与VxVM完全集成在一起。用VxVM管理界面和命令统一配置管理;由于VVR仅
11、仅将Volume上每次I/O的实际数据实时复制到远程节点,所以在网络线路上传输的数据量很少,对带宽的需求也很小。;2) 将各个业务系统中需要进展远程复制的多个或一个卷定义为一个Replicated Volume Group(简称RVG);3) 在Site A定义一条RLINK,指向Site B;在Site B也定义一条指向Site A的RLINK。RLINK是单向的;需要进展复制的两个系统各定义一个指向对方的RLINK;每个RVG定义一个RLINK。例如有Site A和Site B两套系统同时用Site C的系统作为备份。在Site A定义一个RVGa,包含需要进展数据复制的卷;在Site B
12、定义一个RVGb,包含需要进展数据复制的卷;在Site C定义两个RVG,名为RVGa和RVGb,分别作为Site A RVGa和Site B RVGb的备份。然后,在Site A定义RLINK to_c1,指向Site C;在Site B定义RLINK to_c2,指向Site C;在Site C定义两个RLINK,一个to_a,指向Site A,另一个to_b,指向Site B。 4Storage Replicator Log(简称SRL)是VVR中的重要部件。将数据复制各方的某个卷定义为一个SRL。需要复制的数据首先要写入SRL,然后传到异地。VVR通过SRL保证数据复制严格按照写顺序进
13、展,这在异步工作方式下非常重要。当网络中断或异地系统出现故障时,本地数据将记录在SRL中,等系统恢复正常时再将SRL中的数据按照先进先出的顺序传送到异地。当SRL满后,VVR将通过Data Chang Map简称DCM记录变化过的数据块的块号。 VVR数据流程见图五: 图五 5Data Change Map简称DCM与主节点的RVG相关,它其中的内容是位图信息,记录某一时间点后修改正的数据块位置。DCM在正常情况下不使用,在SRL满后记录变化的数据块的块号,当恢复正常复制后,等SRL中的数据传送完后,将DCM中记录的块传送到异地。灾难恢复后的反向复制也用到DCM。6数据复制的工作模式缺省为同步
14、/异步自适应,即在网络延时情况较好、数据能够及时复制时,工作在同步方式,完全保证两边数据的一致性;当网络延时情况较差、数据不能及时复制时,工作在异步方式下,保证主节点的I/O性能。数据复制根据实际情况,自行在两种工作模式之间切换。 如果数据复制的线路带宽有限,出于保证本地效劳器读写性能的考虑,可以将复制工作模式定义为异步。由于VVR的数据复制严格按照I/O的修改顺序进展,所以,无论在同步还是异步工作方式下,都能保证数据的完整性。对于数据库系统,该复制机制能够保证灾备节点的数据库在灾难发生时正常启动并提供效劳。7后备节点的完全同步,即所谓的建立基线。在主节点往后备节点正常复制数据前,必须逐块逐块
15、地将主节点中需要复制的数据拷贝到后备节点,也就是说,将双方的RVG进展同步。 后备节点的完全同步分为两种情况,一是复制时主节点应用不进展数据更改,二是复制时主节点应用进展数据更改。两种情况下,都可以采用自动同步方式或采用备份和检查点(Check Point)结合的方法。 自动同步是指通过网络将数据从主节点(Primary)复制到备份节点(Secondary)。方法很简单,只要进展一步操作即可完成。自动同步对带宽要求较高,否那么,将无法完成完全同步。自动同步要求RVG中的每个卷都有DCM。 对于网络带宽较小,或者需要完全同步的数据量太大时,使用备份与检查点结合的方法。在备份开场前,在主节点设置检
16、查点,该检查点记录在SRL中,然后将数据备份到活动硬盘、光盘、磁带或其它介质上。备份完成后,将检查点取消。将备份的数据恢复到后备节点上。然后将RLINK连接挂上,主节点SRL中记录的的数据传送到后备节点,完成后,两边数据一致,进入正常数据复制状态。用该方法进展数据完全同步,要求SRL卷大些,等完成后,再将SRL卷通过Volume Manager在线缩小。8 当某些严重意外情况发生后,后备节点会变成新的主节点,称为角色转换。在灾难期间,不进展数据复制,新的主节点用DCM记录变化数据位置。9 当原来的主节点在灾难后恢复正常,需要进展数据反向同步和角色转换。反向同步有两种情况,一种是在灾难发生时刻,
17、原主节点与灾备节点的数据是同步的即无未复制的数据;第二种是在灾难发生时刻,原主节点与灾备节点的数据不是完全同步的即主节点有数据尚未复制到灾备节点。第二种情况在反向同步开场时第一步首先要进展重置,指将原主节点SRL和DCM中数据这些数据在灾难发生时尚未来得及传送的位置信息修改当前主节点即原后备节点的DCM。然后,将DCM中指向的数据全部传送到原主节点。而第一种情况的话,直接进展第二步工作。传送完成后,将当前主节点的数据库和应用停顿,将双方角色复原,并在原主节点提供正常效劳。 10脱机处理。通过使用VVR的In-Band Control(IBC)消息、Snapshot、以及Volume Manag
18、er(VxVM)的FastResync(简称FR,即快速同步)功能,可以实现数据的脱机处理。脱机处理主要指对后备节点种的数据进展处理,例如进展备份、打印报表、数据仓库处理等。脱机处理由打破后备节点的镜像卷、对镜像数据进展处理、重镜像等几个过程组成。 11双收条双重确认机制。指后备节点对复制数据的接收确认有两个阶段。第一个确认当后备节点收到数据后发出;第二个确认当后备节点数据成功写入硬盘后发出。当主节点收到第二个确认后,将SRL中的相应数据清空。三、 VERITAS Cluster Server简称VCS是用于本地容灾的集群软件,支持多达32个节点的应用级切换,保证本地业务系统的软硬件高可用性。
19、VCS以其出色的可靠性和易管理性闻名。VCS的功能特点请见附录。在本方案中,VCS主要负责以下功能:1) VCS负责监控和管理硬件系统和操作系统,当出现故障时进展切换。2) 通过数据库代理(Agent监控和管理数据库系统,当出现故障时进展切换。3) 通过API或脚本编写针对性客户化应用代理,监控和管理应用系统,当出现故障时进展切换。4) 通过Replicator 代理监控和管理数据复制过程,当主效劳器数据复制发生故障时,自动将数据复制工作切换到后备效劳器,保证数据复制过程的连续性。这点对于容灾系统非常重要。该代理充分说明VERITAS提供的是完整的容灾解决方案。5) 主节点和备份节点的VCS集
20、群系统都在Global Cluster Manager的统一监控和管理下,从而实现集群系统间的远程应用切换。GCM在VCS中以两个效劳组指GCM Master和GCM Slave的形式存在。四、Global Cluster Server简称GCM可以称为Clusters Cluster集群的集群。它负责对多个不同地点的多达32个集群系统进展监控和管理,在发生严重灾难时,进展site的切换即应用的远程切换。 GCM Console为Web界面,通过浏览器管理各个Cluster系统,并在管理界面中主动控制或响应远程切换。3.2 安装、配置过程在硬件和操作系统环境准备好后,整个方案的实际安装、配置及
21、工作过程如下。详细的配置命令和配置文件见附录。一、 安装VERITAS Volume Manager(VxVM)和(VxFS)。将效劳器本地硬盘的其中一个分区或整个硬盘作为rootdg。将磁盘阵列中所有磁盘用Volume Manager管理。创立一个disk group,包括涉及的磁盘,并在这些磁盘上划分出需要的卷,包括用于SRL的卷。如果卷上需要文件系统,使用VxFS。将数据库和应用系统都安装在共享的磁盘阵列卷中。二、 由于VVR与VxVM集成在一起,所以无需另外安装。1) 为需要复制的卷增加DCM。2) 创立SRL。3) 定义RLINK,指向备份节点。4) 定义RVG,将需要进展远程复制的
22、卷(包括SRL卷)都定义到一个RVG中,并与RLINK联合绑定。5) 进展数据复制。三、 安装VCS、Oracle或Informix代理、客户化应用代理和VVR代理。安装完成后,配置心跳线,然后对各个效劳组(Service Group)中涉及的资源进展定义。进展本地切换测试,优化有关参数。四、 安装GCM。安装完成后,在VCS的效劳组(Service Group)中增加了GCM Master 和GCM Slave。对其进展配置。定义GCM响应的事件和相应的处理动作。用手工模式进展异地容灾切换测试,并调优化有关参数。五、 进展全系统联调,测试各种情况下的系统工作情况,并进一步优化有关参数。3.3
23、 工作过程为方便论述,本节模拟地点A和B,两地各有一套建立在VCS双节点集群上的业务系统,以B地点的系统作为A地点的备份。切换示意图见图六。图六一、 正常情况下:1) 业务系统运行在地点A,包括数据库实例、有关的文件、数据库数据、应用软件。A节点对外提供效劳。2) A节点所有的有关的数据通过VVR实时复制到B节点。3) 两地的VCS对的各自节点内的两台效劳器的主机情况、数据库效劳、应用软件进展实时监控和管理,其中,VCS还对VVR数据复制效劳进展监控。4) GCM 监控两地Cluster系统的运行。二、 当A地点的主效劳器发生硬件或软件故障,导致主效劳器无法提供正常效劳:1) VCS进展本地切
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- VERITAS 整体 方案
限制150内