异构并行计算机容错技术研究.docx
《异构并行计算机容错技术研究.docx》由会员分享,可在线阅读,更多相关《异构并行计算机容错技术研究.docx(131页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Study and Implementation of FaultTolerance for Heterogeneous ParallelComputerCandidate: Jia JiaSupervisor: Prof. Yang XuejunA dissertationSubmitted in partial fulHllment of the requirementsfor the degree of Doctor of Engineeringin Computer Science and TechnologyGraduate School of National University
2、 of Defense TechnologyChangsha, Hunan, P.R.ChinaSeptember, 2011独创性声明本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教 育机构的学位或证书而使用过的材料。与我同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示谢意。学位论文题目: 异构并行计算机容错技术研究学位论文作者签名:日期:年 月 日学位论文版权使用授权书本人完全了解国防科学技术大学有关保留、使用
3、学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文 档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密学位论文在解密后适用本授权书。)学位论文题目:异构并行计算机容错技术研究学位论文作者签名:日期: 年 月 日作者指导教师签名:日期:年 月 日目录摘要iAbstractiii第一章绪论11.1 课题背景11.1.1 异构并行计算机的兴起11.1.2 大规模并行系统的可靠性问题41.1.3 大规模异构并行计算机面临的可靠性挑战61.2 容错研究基础91.2.1
4、 容错基本概念91.2.2 故障类型101.2.3 故障模型111.3 相关研究工作111.3.1 容错常用方法111.3.2 Rollback-recovery 容错技术分析131.3.3 TMR容错技术分析141.3.4 Checkpointing 容错技术分析151.3.5 优化checkpoint的相关研究161.3.6 异构并行计算机现有容错方法171.4 本文主要研究内容181.5 本文主要工作和创新201.6 论文结构21第二章计算可接受模型232.1 面向一般计算系统的计算可接受模型232.2 面向异构并行计算系统的计算可接受模型252.3 容错机制对异构系统可接受度的影响27
5、2.3.1 带TMR异构系统可接受模型分析272.3.2 带C/R异构系统可接受模型分析302.4 本章小结33第三章基于异构系统故障传播行为分析的应用级checkpoint的数据量优化方法353.1 问题背景353.1.1 CG 调用353.1.2 CG调用流图373.1.3 异构系统故障传播与CG调用流图393.2 异构系统故障传播行为403.2.1 CG间故障传播413.2.2 G点内故障传播423.3 异构系统的应用级checkpoint数据优化方法453.3.1 基于故障传播行为的checkpoint数据分析453.3.2 Checkpoint 的位置选择473.4 实验评估493.
6、4.1 实验方法493.4.2 实验结果503.5 本章小结54第四章异构系统应用级checkpoint的优化设置研究554.1 问题背景554.1.1 异构系统程序特征分析554.1.2 问题提出574.2 全局checkpoint数据保存开销最小化问题584.2.1 场景一:基于同步机制的checkpoint优化设置584.2.2 场景二:基于异步机制的checkpoint优化设置654.2.3 Checkpoint数据保存偏移量设置优化问题714.3 实验评估734.3.1 实验方法734.3.2 实验结果744.4 本章小结76第五章面向GPU的多副本容错技术795.1 基于冗余线程的
7、GPU多副本容错技术的基本思想795.1.1 问题背景795.1.2 解决方案805.2 RB-TMR的设计和实现方法825.2.1 创建冗余代理835.2.2 基于RB-TMR机制的GPU Kernel的设计845.2.3 比较与投票87第II贝5.3 RB-TMR编译工具的设计与实现905.3.1 RB-TMR的编译实现框架 905.3.2 前端分析器915.3.3 数据流分析器915.3.4 代码重写器935.4 性能评估945.4.1 实验方法945.4.2 实验结果955.5 本章小结99第六章结论与展望1016.1 工作总结1016.2 研究展望102致谢103参考文献105作者在
8、学期间取得的学术成果117作者在学期间参加的科研项目119表 目 沃表 3.1 Checkpointing 的时间开销51表3.2 Checkpoint数据存储空间开销52表 4.1 Checkpoint 数量74表4.2 Checkpoint数据保存时间开销74表5.1无故障情况下带有三种容错机制的程序执行时间96攵、 冬冬冬图图图义、冬冬图图图冬冬图目录图1.1 TOP500中机器的处理器数目统计图2图1.2高性能计算机的性能发展趋势2图1.3 Intel处理器电源电压的变化趋势4图1.4 Top500前20台超级计算机系统的平均处理器核心数量5图1.5不同规模下系统的MTBF变化趋势6图
9、1.6处理器和存储器的性能增长速度四8图1.7故障、错误与失效三者的关系9图1.8容错方法分类13图1.9基本TMR系统结构14图 1.10Checkpointing 技术15图2.1计算可接受模型的概念体系23图2.2多次执行下程序运行结果的可接受24图2.3异构并行系统上的程序执行262.4 TMR容错示意图28GPU TMR2.5 DA -DA, 的变化曲线292.6 带TMR系统单次执行与该系统多次执行可接受比较302.7 C/R容错示意图312.8 带C/R系统单次执行与该系统多次执行可接受比较333.1 同构与异构系统算法执行流程363.2 CUDA上的矩阵乘算法363.3 SWI
10、M异构系统CG调用流图 383.4 CG间的数据传播393.5 G点内故障传递 433.6 G点内故障影响集求解算法453.7 CUDA 上的 Checkpointing 流程463.8 一般算法的基本思想483.9 选择合适的checkpoint位置的一般算法483.10 无CPU-GPU传输状态checkpointing的执行时间增加比 513.11时间开销减少百分比52图3.12 有CPU-GPU传输状态checkpointing的优化收益 53图4.1异构系统体系结构5611 4.2 异相系统矩阵乘算法流程戻图4.3同步执行checkpointing的流程59图 4.4 同步设置 CP
11、U-GPU 端 checkpoint60图4.5C_Struct的数据结构61图4.6同步机制Checkpoint间隔与程序的期望执行时间“5。162图4.7模型(4.3)的求解算法64图4.8 异步执行checkpointing的流程65图 4.9 异步设置 CPU-GPU 端 checkpoint66图4.10异步机制checkpoint间隔与程序的期望执行时间69图4.11模型(4.12)的求解算法71图4.12 偏移量中的checkpoint位置选取72佟1 4,13 一次同步与异步checkpointing时间开销75图4.14同步与异步设置下全局checkpointing时间开销7
12、5图5.1两种容错方法81图5.2 个异构程序及对应的RB-TMR容错版本82图5.3 个Kernel的线程组织方式83图5.4单GPU时的冗余代理线程组织方式83图5.5多GPU时的冗余代理线程组织方式84图5.6 重设计的Kernel代码85图5.7 个异构程序示例86图5.8 多GPU的RB-TMR机制的示例代码87图5.9 TMR与RB-TMR比较投票机制流程88图5.10 多GPU的RB-TMR机制的示例代码89图5.11比较与投票算法90图 5.12 TriKerneling 的框架图91图5.13矩阵乘的CUDA程序92图5.14矩阵乘CUDA程序的控制流图93图5.15 RB-
13、TMR程序对比checkpointing程序的平均回滚次数96图5.16 RB-TMR程序对比checkpointing程序的执行时间97图5.17 RB-TMR程序对比TMR程序的执行时间97图 5.18 RB-TMR 对比 checkpointing 的容错开销98图5.19 RB-TMR对比TMR的容错开销98摘要并行计算是实现超高性能计算的主要技术手段。当前,随着GPGPU性能的不 断提高,利用CPU和GPU构建的异构并行系统已经成为高性能计算机领域的研 究热点。然而随着并行计算系统规模的不断增长,高性能计算机面临严峻的挑战。 由于异构并行系统更为复杂的体系结构以及其特有的性质,且商用
14、GPGPU容错能 较弱,所以由CPU和GPU构建的大规模异构并行系统的可靠性问题更为尖锐, 尚缺乏实用的容错手段。本文针对异构并行计算机的容错技术展开研究,以异构并行系统硬件故障在 软件中的传播行为为理论基础,对应用级checkpointing技术的保存数据量优化问 题进行研究;分析了异构并行系统多checkpoint的全局开销最优化问题,并提出了 设置方案;同时,针对异构并行系统提出了一种新的面向GPU的多副本容错技术 RB-TMR,并对其所具备的关键机制进行了详细的研究与设计实现。本文的主要贡 献如下:1、提出了一种面向一般计算系统的计算可接受模型。建立程序的执行结果可 接受以及可接受度的
15、定义,并进步定义程序多次执行的可接受和多次执行的可 接受度,以此为基础得到可接受度的相关定理和推论。针对异构并行系统将可接 受度的相关定理和推论进行了扩展,并建立异构并行系统的可接受模型,同时进 步案例分析两种常见的容错技术checkpoint/restart和TMR应用到异构并行系统 上时,对可接受模型的影响,从而给出容错机制的指导意见和优化方法。2、基于过程间相关性理论,提出了由CPU和GPU构成的异构并行系统中硬 件故障在软件中传播行为描述方法,我们称其为故障传播模型。同时,根据故障 传播模型,设计了针对该系统的checkpointing机制,并针对影响checkpoint/restar
16、t 开销的主要问题之checkpoint保存数据量进行了优化。实验证明该优化方法可以有效的减小开销,提高容错性能。3、深入研究了面向异构并行系统的多个checkpoint的全局开销最小化问题, 提出了面向异构并行系统的同步及异步两种机制的多checkpoint全局开销最小化 的优化设置方法。首先提出了两个针对优化设置多个checkpoint位置的基本问题。 然后通过对异构并行系统体系结构和程序特性的分析,提出了基于两种机制的异 构并行系统的多checkpoint设置方法;同步及异步机制的checkpoint设置方法。同 时,根据checkpoint优化设置的两个具体问题分别对这两种机制进行优化
17、设置分析 和数学建模,并给出了相应的求解算法。4、提出了一种回滚机制与TMR技术相结合的容错技术RB-TMR。这技术 可以有效应对fail-stop故障与瞬时故障两种类型的故障进行容错,我们给出了这一技术的实现方法,并针对异构并行系统体系结构及程序模型的特征对其中关键机 制的设计进行了具体分析和讨论。同时,设计并实现了一个面向RB-TMR机制的 源到源编译辅助工具,可以辅助用户面向CUDA程序完成RB-TMR机制的实现, 减轻了用户实现RB-TMR机制的负担。实验结果表明RB-TMR技术能够实现较高 的错误检出和纠正率,有效减小可能需要回滚恢复的概率,根据综合评定,其相 对于传统checkpo
18、inting及TMR技术有更好的容错性能。关键词:高性能计算;异构并行计算机;容错;可接受;应用级checkpointing; 过程间相关性;故障传播行为第ii贝AbstractParallel computing is a major ultra-high-performance computing technology. As the performance of GPGPU (General Purpose computation on Graphic Processing Units) keeps improving, heterogeneous parallel systems bu
19、ilt based on CPU and GPU become a hot research field of high-performance computers. However, with the increase of the parallel computing system size, high-performance computers encounter serious challenges. Due to more complicated architecture and unique features of heterogeneous parallel systems an
20、d weak fault-tolerance of GPGPU, large scale heterogeneous parallel systems built based on CPU and GPU undergoes an acute reliability issue, which is lack of practical means.This paper studies the fault-tolerance technique of heterogeneous parallel systems. Based on the propagation behaviors of hard
21、ware error that propagates in software in heterogeneous parallel systems, this paper optimizes checkpoint size of applicationlevel checkpointing, optimizes the global overhead of multiple checkpoints in heterogeneous parallel systems and proposes configuration solution, and explores a GPU-oriented m
22、ulti-copies fault tolerance technique (RB-TMR). The main contributions of the paper are summarized as follows:1. A general computer oriented acceptance model is proposed. The acceptance and its degree of program results and multiple times of program execution are first defined. Based on them, theore
23、ms and corollaries regarding acceptance degree are obtained. This paper extends the theorems and corollaries in heterogeneous parallel systems and establishes the acceptance model of heterogeneous parallel systems. Cases are used to analyze the effect of two common fault-tolerance techniques (checkp
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 并行 计算机 容错 技术研究
限制150内