基于主机平台的两地三中心灾备解决方案.docx
《基于主机平台的两地三中心灾备解决方案.docx》由会员分享,可在线阅读,更多相关《基于主机平台的两地三中心灾备解决方案.docx(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于主机平台的两地三中心灾备解决方案的实例分析方案简介基于主机平台的两地三中心灾备解决方案(Metro/z/OS Global Mirror),顾名思义是指, 在同城距离内的两个中心间采用 PPRC(Metro Mirror)实现数据镜像,同时在生产中心与远程异地第三中心间采用XRC(z/OS Global Mirror)实现异地灾备。这一方案兼具高可用性和灾难备份的能力。这一方案针对主机平台,相对于 MGM(Metro/Global Mirror)解决方案,具有软硬件紧密结合、两地间距离无理论上限、支持不同磁盘系统供应商的产品等特点。本文将以两套配置方案为主,通过对比不同场景的测试数据 ,
2、分析 Metro/z/OS Global Mirror 方案中磁盘系统响应时间和磁盘IO 的状况,特别是考察在特定场景下,XRC 和 PPRC 协同工作时对磁盘IO 性能的影响;并分享在Metro/z/OS Global Mirror 方案设计、规划和实施中的一些经验。配置实例以下三套配置方案的区别主要在于磁盘系统的类型不同,带来的差异主要是IO 响应时间上的差异。其中配置三仅用作为观察XRC 状况的对比,并不作为建议配置。1) 硬件环境主机系统两台 z990 主机:2084-B16,共约 10000 MIPS。两台 9037 Timer。两个 sysplex:PLEXP1 有四个成员系统和两
3、个 Coupling Facility,用于生产系统和 PPRC 控制系统。PLEXT 有两个成员系统和两个Coupling Facility,用于SDM 系统。磁盘系统两台 ESS800:一台有 1TB 存储空间, 8 个 CU, 每个CU 有 27 个 3390-3 和 6 个 3390-9 的卷, 有 16GB Cache 和 1GB NVS。一台有 1TB 存储空间,5 个 CU,每个CU 有 48 个 3390-3 和 10 个 3390-9 的卷, 有 16GB Cache 和 1GB NVS。微码:2.4.04.0045两台 DS8000:一台有 1TB 存储空间,8 个 CU(
4、跨 6 个 Rack),每个 CU 有 27 个 3390-3 和 6 个 3390-9 的卷,用于生产系统;有 64GB Cache 和 2GB NVS。一台有约 1TB 存储空间,8 个 CU(跨 4 个 Rack),每个CU 有 27 个 3390-3 和5 个 3390-9 的卷,有 64GB Cache 和 2GB NVS。微码:5.1.00.02842) 软件环境生产系统和PPRC 控制系统:z/OS V1.5;DB2 for z/OS V7.1; CICS TS for z/OS V2.3;NetView for z/OS V5.1; SA for z/OS V2.2; GDPS
5、/PPRC V3.2。SDM 系统:z/OS V1.6;NetView for z/OS V5.1; SA for z/OS V2.3; GDPS/XRC V3.3;XRC Performance Monitor V1.1。3) 配置一拓扑图4) 配置二拓扑图*注:配置三中的远程异地磁盘系统优于生产系统的磁盘系统,该配置仅作为观察XRC 的对比参考。工具说明1) 压力模拟工具DB2 Reorg 批量DB2 的表空间数据集分布在 16 个 3390-3 的卷上, DB2 active log 数据 集分布在 8 个 3390-9 的卷上;每次执行作业对 4 个表空间同时进行 Reorg; 每个表
6、都根据不同的键值进行 2 次 Reorg;每个表空间包含 5M 个记录,因此总记录数是 20M; 平均记录长度是 512 字节, 其中最后一个字段为可变长字符VARCHAR 类型。对于批量作业主要考量处理时间(Batch Duration)和IO 响应时间(IO Response Time)。DAST Tool一个驱动I/O 的批量工具,用于辅助模拟IO 压力; 调用汇编来对磁盘进行底层的I/O 操作;将该工具参数设置为“一读加一写”模式执行两遍,对跨 8 个 CU 的 16 个3390-3 卷进行I/O 操作,每次 I/O 操作的时间间隔是 2 毫秒。CICS Access VSAM模拟 C
7、ICS 访问VSAM 文件的联机交易;总共 80 个作业运行在同一 Sysplex 中的两个成员系统上, 每个成员系统有两个 AOR 和两个TOR; 每个作业模拟十万个顺序交易, 总共模拟八百万个交易; 每个交易对VSAM 文件有 3 个 I/O 操作, 两次读和一次写;总共持续约 100 分钟, 每秒交易量达 1000 笔/秒。对于该应用主要考量每秒交易处理量( Transaction Rate)和交易响应时间(Transaction Response Time)。2) 数据收集工具RMF 和 RMF Magic每分钟采样SMF 类型 70-79 和 42 的数据,抽取每 5 分钟的均值生成
8、RMF 报告。RMF Magic 是数据分析工具, 属于 IntelliMagic 公司的版权软件产品;根据RMF 数据产生相应的DSS, Cache, Storage Group 和Device 的统计数据并可以导入到Excel 表或HTML 中。XRC Performance MonitorXPM 监控XRC 的活动情况, 以确定XRC 的瓶颈/问题;通过ISPF 屏幕监控SDM 内部操作的情况, 其历史数据可以被下载到本地PC 导入 Excel,然后加以分析;并且通过XPMEXCT 和XRCHKVOL 观察发生超过Delay 阀值的情况和发生Pacing 卷的情况。JOB log记录批量
9、作业的耗时。DS8000 性能数据收集工具PDCU(Performance Data Collection Utility) 收集 DS8000 的性能数据并产生Excel 的报告以便加以分析。ESS Expert是一个用于收集ESS800 性能数据的版权软件, 对存储的性能进行监控和管理。3) 测试内容基准设定在 XRC Only 的场景下每秒大约 2500 个写IO 同时对四个表空间进行DB2 Reorg 批量处理。在 XRC Only 的场景下每秒大约 5000 个写IO 同时对四个表空间进行DB2 Reorg 批量处理;并且运行 DAST 工具对 16 个 3390-3 卷上的数据集以
10、“一读加一写”的模式执行两遍,每个IO 操作间停顿两毫秒。CICS 访问 VSAM 文件的应用用于观察在随机IO 操作时系统的表现。场景设定基于两套配置、三类Workload、四个测试场景,总共有 24 个测试场景。两套配置三类 WorkloadCICS 模拟在线交易workload,每秒WIO 达 3000;DB2 Reorg 批量作业,对 4 个表空间进行操作,每秒WIO 达 2500;DAST 以“一读加一写”的模式和DB2 Reorg 作业同时运行,每秒WIO 达 5000。四个测试场景BASE:没有远程拷贝服务XRC Only:只有XRC 关系PPRC Only:只有PPRC 关系X
11、RC+PPRC:同时有XRC 和PPRC 关系数据分析1) 观察指标对于 DB2 Reorg 批量作业主要考量处理时间(Batch Duration)和 IO 响应时间(IO Response Time)。对于 CICS 应用主要考量每秒交易处理量(Transaction Rate)和交易响应时间(Transaction Response Time)。关注点是,在 XRC 与PPRC 共存时影响性能的关键因素。场景中暂不考虑 DS8300 比之于ESS800 的性能提高带来的对XRC 带宽增大的需求。在本次测试中未模拟网络环境。2) 数据分析以下对不同配置下、四种磁盘镜像关系时、运用三类压力测
12、试工具的 24 个场景的测试数据, 做比较和分析。从系统RMF 报告中收集到以下数据。CICS Access VSAM对于 CICS 模拟交易程序,两套配置下增加了 PPRC 后都有类似的影响,但由于其该模拟程序本身的随机性,不做量化的比较。DB2 Reorg比较配置一中XRC Only 和 XRC+PPRC 场景发现,Batch 完成时间增长 19%,同时生产系统的WIO 下降 13%;PPRC 延缓了主磁盘的IO 操作,同时也部分减轻了XRC 的负荷。比较配置二中 XRC Only 和 XRC+PPRC 场景发现,Batch 完成时间增长 3%,同时生产系统的WIO 增长了 70%。DB2
13、 Reorg +DAST表明:在已有 XRC 的情况下,增加 PPRC,对于指标影响不大,这一点与已有资料的观点一致;除了 CICS 模拟程序本身的随机性因素外,配置二的性能指标整体优于配置一。这与测试前的预期相一致。磁盘系统收集的数据CICS Access VSAMDB2 ReorgDB2 Reorg +DAST表明:观察到不同压力环境下的FW Bypass(NVS full)值,该值一旦超过 3-10%,将造成磁盘的响应时间Response Time 恶化。从以下的图表中可以发现A 磁盘(Primary)的该值整体低于 1%,而C 磁盘(XRC Secondary)的该值整体高于3%。其影
14、响从磁盘响应时间的数据上可以得到验证。SDM 系统收集的XPM 数据比较两套配置下,从SDM 系统上观察到的平均滞后时间(Average Delay)和平均遗留时间(Average Exposure)可以发现,除了在配置一中仅有XRC 关系时 DB2+DAST 压力过载引起XRC 系统性能恶化外,其它数据中配置二比之配置一要差。表明:在已存在XRC 的基础上建立PPRC 关系后,SDM 的写操作压力有所减弱,有PPRC 的情况下 XRC 的压力过高的情况会有所改善;从平均遗留时间远低于平均滞后时间这点可以看出,配置的整体瓶颈在于 XRC 从磁盘的更新操作,这与NVS 的数值也可以相互印证;从
15、XRC 的角度来考察,配置二PPRC 关系中磁盘系统性能都优于XRC 的从磁盘,整体的均衡性反而不如配置一。经验小结对比不同配置的测试数据, PPRC 在 Primary 磁盘使用 DS8000 的情况下, Secondary 磁盘使用DS8000 与ESS800 的时候,整个磁盘系统的性能差异明显。通过在不同压力下,对比配置一和配置二中PPRC 的工作情况,观察到:对于 DB 和 DB2 与 DAST 组合两类压力,观察IO 平均响应时间和批量作业完成时间,在配置二时的数值明显优于配置一。表明:作为PPRC 同步拷贝关系中从磁盘的性能,对生产系统的性能会有显著影响。通过在不同压力下,对比配置
16、一、配置二和配置三中仅有XRC 关系时的工作情况,观察到:对于 DB 和DB2 与 DAST 组合两类压力,观察批量作业完成时间,在配置三时的数值优于配置一和配置二。也就是说,XRC 从磁盘配置是DS8000 的情况要优于XRC 从磁盘是两台ESS800 或者是一台ESS800 的情况。表明:作为XRC 从磁盘的性能,在XRC 极其繁忙时,对生产系统的性能会有影响。通过在配置一中对比XRC 日志数据集跨 8 个CU 分布和跨 16 个CU 分布的情况, 观察到:对于 DB2 和 DB2 与 DAST 组合两类压力,观察平均 IO 响应时间和批量作业完成时间,可以看到跨 16 个CU 分布时的响
17、应时间短于前者。表明:XRC 日志数据集配置的建议,应尽可能将日志数据集分散到多个CU 上;同时,虽然XRC 是异步拷贝的解决方案,但无论采用Device Blocking 还是 Write Pacing 策略,一旦XRC 极其繁忙,可能会对生产系统的表现有影响。对于 CICS 这类压力,观察交易响应时间,可以看到跨16 个 CU 分布时的响应时间明显短于前者;对于CICS 压力,观察每秒交易量,可以看到跨 16 个 CU 分布时的每秒交易量明显多于前者。表明:这也验证了XRC 日志数据集配置的建议,应尽可能将日志数据集分散到多个CU 上。通过在配置一中对比XRC 采用 Device Bloc
18、king 策略、Write Pacing 策略同时日志数 据集跨 8 个 CU 分布和 Write Pacing 策略同时日志数据集跨 16 个 CU 分布的情况,观 察到:对于DB2 这类压力,观察批量完成时间,当XRC 从磁盘性能较差时,可以看到Device Blocking 策略对生产系统的影响最大,次之是 Write Pacing 策略同时日志数据集跨 8 个 CU 分布的情况,相比起来最好的是Write Pacing 策略同时日志数据集跨 16 个CU 分布的情况;表明:XRC 日志数据集配置的建议,应尽可能将日志数据集分散到多个 CU 上;XRC 新版本3.3 中的Write Pa
19、cing 策略比之于Device Blocking,在 XRC 充分繁忙时,对生产系统的影响明显减小了。通过在配置三中对比 XRC 采用 Copy 工作方式和 Migration 工作方式的情况, 观察到:对于 DB2 这类压力,观察 IO 平均响应时间和批量作业完成时间,XRC 的 Migration 工作方式比之Copy 工作方式的响应时间明显缩短了。表明:XRC 不同工作方式,在XRC 极其繁忙的情况下,Migration 方式对生产系统的影响更小,由于它不写XRC 日志数据集,不会发生对日志数据集的写等待。生产系统同时启用 PPRC 和 XRC 不会造成性能显著恶化。因此在讨论同城数据
20、镜像和远程异地灾备的时候,可以分开讨论各自对生产环境的影响,简化分析模型。在资源充分的情况下应进一步完善配置,特别是对XRC 配置的 sizing 是很重要的,只有均衡的配置才能实现理想的性能,不仅配置中的磁盘系统性能应匹配,CU 数目也应对等,生产系统的忙卷要跨CU 和Reader 分布。从存储服务器端收集的数据 NVS Full 都超过阀值的现象表明 XRC Secondary 端的磁盘在性能上无法跟上主磁盘(DS8000)的 I/O 要求。同时应避免XRC 压力近乎饱和的情况发生。基于生产数据备份和数据共享的考虑在三中心分别可以考虑建立FlashCopy 备份,同时需要扩大磁盘系统容量。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 主机 平台 两地 中心 解决方案
限制150内