HACMP原理及应用简介.ppt
《HACMP原理及应用简介.ppt》由会员分享,可在线阅读,更多相关《HACMP原理及应用简介.ppt(80页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、HACMPHACMP原理及应用简介原理及应用简介主要内容主要内容Topic 1、几种常见的提高系统可靠性的技术Topic 2、HACMP的工作原理Topic 3、HACMP的管理Topic 4、HACMP应用案例Topic 5、HACPM troubleshootingAppendix、共享LVM的定义Topic 1:几种常见的几种常见的提高系统可用性的技术提高系统可用性的技术提高系统可靠性的相关技术提高系统可靠性的相关技术容错技术磁盘阵列技术热插拔技术集群技术灾难恢复技术容错技术容错技术 容错技术是指在硬件和软件出现故障时,仍能完成处理和运算,不降低系统性能,即利用冗余技术,使计算机具有容忍
2、故障的能力。可以通过硬件和软件方法实现。常见的容错技术:冗余CPU、内存、通信子系统、磁盘、电源等;自动故障检测故障部件、隔离和联机更换故障部件;磁盘阵列技术磁盘阵列技术 磁盘阵列(DISK ARRAY)是一个由硬盘控制器控制的多个硬盘的相互连接,使多个硬盘的读写同步,减少错误,提高效率和可靠性的技术;RAID(REDUNDANT Array of Inexpensive Disk)是磁盘阵列技术标准,也就是利用多余的磁盘对信息进行冗余保存,从而提高磁盘系统的可靠性。常见的等级有1、0+1、3、5等。不同等级的不同等级的RAID技术的比较技术的比较热插拔技术热插拔技术 热插拔技术(Hot-Sw
3、appable)以前主要用于磁盘阵列中,在有一个硬盘坏掉的情况下,服务器可以不用关机,直接抽出坏掉的硬盘,换上新的硬盘。现在有些厂家对于其他的部件,也可以采用热插拔技术。如控制卡、电源等。集群技术集群技术集群(Cluster)技术是利用HA(High Availability)双机热备份软件,通过避免系统的单点故障,来提高客户计算机系统及其应用的可靠性。集群技术已用于多种平台:UNIXOpen VMSNovellWindows NT灾难恢复技术灾难恢复技术必要性 数据的高度集中;自然灾害,如水灾、火灾、地震等;其他来自计算机系统以外的问题,如电力系统故障;灾难恢复技术的两大技术要素:瞬时复制技
4、术连续和周期性更新灾难恢复技术和集群技术的比较灾难恢复技术和集群技术的比较Topic 2 HACMP工作原理工作原理HACMP双机系统的工作原理双机系统的工作原理1.1.作为双机系统的两台服务器(主机作为双机系统的两台服务器(主机A A和和B B)同时运行)同时运行HACMPHACMP软件软件2.2.服务器除正常运行自己的应用外,同时又作为对方的服务器除正常运行自己的应用外,同时又作为对方的备份主机(节点关系为备份主机(节点关系为CascadingCascading)3.3.两台主机系统(两台主机系统(A A和和B B)在整个运行过程中,通过)在整个运行过程中,通过“心心跳线跳线”相互监测对方
5、的运行情况(包括系统的软硬件相互监测对方的运行情况(包括系统的软硬件运行、网络通讯和应用运行情况等)运行、网络通讯和应用运行情况等)HACMP双机系统的工作原理(续)双机系统的工作原理(续)4.4.一旦发现对方主机的运行不正常(出故障)时,故一旦发现对方主机的运行不正常(出故障)时,故障机上的应用就会立即停止运行,本机(故障机的障机上的应用就会立即停止运行,本机(故障机的备份机)就会立即在自己的机器上启动故障机上的备份机)就会立即在自己的机器上启动故障机上的应用,把故障机的应用及其资源包括用到的应用,把故障机的应用及其资源包括用到的IPIP地址地址和磁盘空间等)接管过来,和磁盘空间等)接管过来
6、,使故障机上的应用能使故障机上的应用能在本机继续运行在本机继续运行。HACMP双机系统的工作原理(续)双机系统的工作原理(续)5.5.应用和资源的接管过程由应用和资源的接管过程由HAHA软件自动完成,无软件自动完成,无需人工干预需人工干预6.当两台主机正常工作时,也可以根据需要将其当两台主机正常工作时,也可以根据需要将其中一台机上的应用人为切换到另一台机中一台机上的应用人为切换到另一台机(备份机备份机)上运行上运行HACMP特点特点三大特点:高可用性表现在可以隔离或减少机器、资源或设备失败带来的影响,防止单点故障:如CPU、内存、控制卡、I/O子系统、通讯子系统。HACMP(High Avai
7、lability Cluster Multi-Processing,高可容错、多处理系统集群)是基于UNIX平台处理关键事物、提供高可用性的软件。HACMP特点(续)特点(续)可管理性正常工作时,各个节点之间可以分担负载,即可以跑不同的应用。这样可以减少系统的管理费用;在一个节点上,可以管理其他节点的HA配置;高扩展性 支持的节点多达32个;可以方便地加入新的节点、用户或其他的资源;Application layerconsists of the high available application that use HACMP for AIX servicesHACMP for AIX la
8、yerprovides high available services to client applicationRSCT layer(HACMP/ES only)provides greatest scalability and coordination of subsystem for HACMP/ES clustersAIX layerprovides operation system servicesLVM layermanages disk space at the logical levelTCP/IP layermanages commuciation of the logica
9、l levelA model of an HACMP for AIX Cluster Node Minimizing Scheduled Down-Time with HACMPHACMP有关最小化DOWN机时间的几个特性:Dynamic reconfiguration(DARE)DARE resource migration Cluster Single Point of Control(C-SPOC)Dynamic adapter swap for replacing hot-pluggable adapter cardsCluster Events HACMP 是基于事件驱动的AIX环境
10、下的集群软件。事件是 Cluster Manager 能够意识到和处理的集群中状态的改变。cluster event 可以由 网卡、网络、节点的变化或集群的重新配置而激活。当Cluster Manager 检测到集群的状态的改变,它将执行相关脚本来处理该事件。常见的cluster events 如下:node_up and node_up_complete events(a node joining the cluster)node_down and node_down_complete events(a node leaving the cluster)network_down event(
11、a network has failed)network_up event(a network has connected)swap_adapter event(a network adapter failed and a new one has taken its place)Cluster Evnets(续)(续)C-SPOC Utility C-SPOC(Cluster Single Point of Control)工具可以让系统管理员在任何一节点完成对所有节点的管理任务。Maintain user and group accounts Maintain shared Logical
12、Volume Manager(LVM)components Control HACMP services on a cluster-wide basis.优点:减少管理开销;减少节点状态不一致性的可能性;高效管理逻辑卷和控制集群服务。消除的潜在的单点故障包括:Nodes Applications Networks and network adapters Disks and disk adaptersHACMP 用以下的方式来处理节点的失败:Disk takeover IP address takeover(with or without hardware address swapping)单
13、点故障单点故障Components of a HACMP ClusterNodeShared external disks devicesNetworks Public network,Private network,Serial network Ethernet,Token-Ring,FDDI,ATMNetwork Adapters Service network adapter,standby network adapterClientsCluster Topologycluster topology由以下 components 组成:The cluster definitionclust
14、er ID 和name 决定了一个cluster。每个 CLUSTER 的cluster ID and name 必须唯一。Cluster IDs 的范围:1-99999,cluster name 是最大31个字符的字符串。The cluster nodes The network adapters The network modules Serial,Target mode SCCI,Target mode SSA,Ethernet,Token-Ring,FDDI,SLIP,SP Switch,ATMCluster resource and resource groupHACMP中的资源由硬
15、件和软件组成:DisksVolume GroupsFile SystemNetwork AddressesApplication Server为了有效地利用HACMP的高可靠性,每种资源必须定义在resource group中,resource group可以使相关的资源联系成一个逻辑实体,这样易于配置和管理。Resource Group有三种不同的节点关系CascadingConcurrentRotatingNode RelationshipCluster Configuration 有两种类型的Cluster configuration:Standby configurations这是传统
16、的冗余硬件配置,其中,有一个或多个空闲的standby(备份)节点,等待着某个主节点离开集群。对应的节点关系为:Rotating、CascadingTakeover configurations这种配置中,每个节点都有应用在跑,承担集群中的部分负载,没有备份的节点。对应的节点关系为:Cascading、Concurrent。并发存取中各节点的关系并发存取中各节点的关系节点A和节点B同时跑相同的应用,拥有相同的资源,对资源有相同的优先级。采用采用Cascading方式时,方式时,IP地址的变化地址的变化 两个应用A、B分别绑定两个地址:svcA和svcB,正常运行时,应用A在节点A,应用B在节点
17、B。采用采用Cascading方式时,方式时,IP地址的变化(续)地址的变化(续)当节点A的网络出现故障时,应用A在节点B上重新启动,节点B的备份网卡接管了应用A的地址。现在,用户无论是访问应用A,还是应用B,实际上都是节点B提供的服务三个节点、两个应用中的三个节点、两个应用中的Cascading 资源组定义资源组定义节点C分别为应用A和应用B的备份,正常情况下,应用A跑在节点A上,应用B跑在节点B上。非并发存取硬盘的几种配置非并发存取硬盘的几种配置 Hot-Standby Rotating Standby Mutual Takeover Third-Party Takeover 硬盘接管前,
18、文件系统MOUNT在节点A,此时,节点B不能再MOUNT该文件系统,只有通过NFS访问它。非并发存取硬盘的接管过程非并发存取硬盘的接管过程 非并发存取硬盘的接管过程(续)非并发存取硬盘的接管过程(续)节点节点B接管硬盘后,接管硬盘后,相关的文件系统相关的文件系统mount在本地,在本地,可以通过可以通过NFS export 文件系统文件系统 优点:以较低的代价,完成从单机到HACMP的升级。不足:发生切换时,由于备用机的配置较低,可能影响应用的性能。Hot-standby configuration Mutual Takeover Configuration Cluster Manager可以
19、检测到网络的失败,但不能采取措施恢复不再相连的网络。相关措施:将节点接在两个交换机上,形成冗余链路。Network Failure Partitioned Cluster Partitioned Cluster(续)(续)集群中如果某组节点不能与其他组的节点通讯,那么这就是一个分区(partition)的集群。导致的问题导致的问题:争夺资源引起不可预测的问题。采取的对策:采取的对策:利用心跳线组成的逻辑环,来克服节点间由于TCP/IP连接的丢失而引发的数据冲突。Topic 3 Cluster managementCluster DaemonCluster Manager daemon:clst
20、rmgr(强制的)维护节点间的心跳线协议,监控节点及其接口的状态,当网络或节点的状态改变时,激活相关的脚本。Cluster SMUX Peer daemon:clsmuxpd(强制的)维护集群对象的状态信息,与snmpd相关联。Cluster Lock Manager daemon:cllockd(可选的)节点如果是Concurrent Access配置的一部分,则需要启动该进程。Monitoring the Cluster/usr/sbin/cluster/clstatHAView monitor HACMP through NetViewsmit show Cluster Services
21、 显示HACMP进程的状态 log fileCluster log file/var/adm/cluster.log/tmp/hacmp.out/usr/sbin/cluster/history/cluster.mmdd/tmp/cm.log/tmp/emuhacmp.log/tmp/cspoc.l.ogsystem error log Clverify 工具用来检查HACMP修改的AIX系统文件和集群的配置(含拓扑和资源)是否正确,来保证集群能正常工作。运行clverify 工具的三种方式:交互方式、命令行和smit。什么时候需要运行什么时候需要运行clverify?集群环境下,硬件和软件有
22、了改变Clverify Utility softwareverifies that the HACMP-specific modifications to AIX system files exist and are correct.It has one option,lpp.clusterallows you to verify the configuration agreement using the topology and config options:topologyverifies that all nodes agree on the cluster configuration.
23、This program has two options,check and sync:checktells you if the nodes are in agreement.syncsynchronizes the cluster topology,if necessary,so that all nodes agree.configverifies that networks are configured correctly,and that all nodes agree on the ownership and takeover of defined resources.This p
24、rogram has three options,networks,resources,or all:Clverify 检查内容检查内容Topic 4 HACMP应用实例应用实例环境:环境:两台RS/6000 S70 1台7133 磁盘阵列柜(16*36.4GB)AIX V4.3.3 HACMP V4.3 两个应用:计费(Sybase数据库)、WWW(Netscape Enterprise Server)IBM HACMPIBM HACMPIBM HACMPIBM HACMP双机系统结构图例双机系统结构图例双机系统结构图例双机系统结构图例 IBM主机主机(服务器服务器)A 安装安装Hacmp软
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- HACMP 原理 应用 简介
限制150内