异构并行计算机容错技术研究.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《异构并行计算机容错技术研究.pdf》由会员分享,可在线阅读,更多相关《异构并行计算机容错技术研究.pdf(134页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Study and Implementation of FaultTolerance for Heterogeneous ParallelComputerCandidate:Jia JiaSupervisor:Prof.Yang XuejunA dissertationSubmitted in partial fulfillment of the requirementsfor the degree of Doctor of Engineeringin Computer Science and TechnologyGraduate School of National University o
2、f Defense TechnologyChangsha,Hunan,P.R.ChinaSeptember,2011独 创 性 声 明 本 人 声 明 所 呈 交 的 学 位 论 文 是 我 本 人 在 导 师 指 导 下 进 行 的 研 究 工 作 及 取 得 的 研 究 成 果。尽 我 所 知,除 了 文 中 特 别 加 以 标 注 和 致 谢 的 地 方 外,论 文 中 不 包 含 其 他 人 已 经 发 表 和 撰 写 过 的 研 究 成 果,也 不 包 含 为 获 得 国 防 科 学 技 术 大 学 或 其 它 教 育 机 构 的 学 位 或 证 书 而 使 用 过 的 材 料。与
3、我 一 同 工 作 的 同 志 对 本 研 究 所 做 的 任 何 贡 献 均 已 在 论 文 中 作 了 明 确 的 说 明 并 表 示 谢 意。学 位 论 文 题 目:异 构 并 行 计 算 机 容 错 技 术 研 究 _学 位 论 文 作 者 签 名:日 期:年 月 日 学 位 论 文 版 权 使 用 授 权 书 本 人 完 全 了 解 国 防 科 学 技 术 大 学 有 关 保 留、使 用 学 位 论 文 的 规 定。本 人 授 权 国 防 科 学 技 术 大 学 可 以 保 留 并 向 国 家 有 关 部 门 或 机 构 送 交 论 文 的 复 印 件 和 电 子 文 档,允 许 论
4、 文 被 查 阅 和 借 阅;可 以 将 学 位 论 文 的 全 部 或 部 分 内 容 编 入 有 关 数 据 库 进 行 检 索,可 以 采 用 影 印、缩 印 或 扫 描 等 复 制 手 段 保 存、汇 编 学 位 论 文。(保 密 学 位 论 文 在 解 密 后 适 用 本 授 权 书。)学 位 论 文 题 目:异 构 并 行 计 算 机 容 错 技 术 研 究 学 位 论 文 作 者 签 名:日 期:年 月 日 作 者 指 导 教 师 签 名:日 期:年 月 日国 防 科 学 技 术 大 学 研 究 生 院 博 士 学 位 论 文 目 录 摘 要.iAbstract.iii第 一 章
5、 绪 论.11.1 课 题 背 景.11.1.1 异 构 并 行 计 算 机 的 兴 起.11.1.2 大 规 模 并 行 系 统 的 可 靠 性 问 题.41.1.3 大 规 模 异 构 并 行 计 算 机 面 临 的 可 靠 性 挑 战.61.2 容 错 研 究 基 础.91.2.1 容 错 基 本 概 念.91.2.2 故 障 类 型.101.2.3 故 障 模 型.111.3 相 关 研 究 工 作.111.3.1 容 错 常 用 方 法.111.3.2 Rollback-recovery 容 错 技 术 分 析.131.3.3 T M R容 错 技 术 分 析.141.3.4 Che
6、ckpointing 容 错 技 术 分 析.151.3.5 优 化 checkpoint的 相 关 研 究.161.3.6 异 构 并 行 计 算 机 现 有 容 错 方 法.171.4 本 文 主 要 研 究 内 容.181.5 本 文 主 要 工 作 和 创 新.201.6 论 文 结 构.21第 二 章 计 算 可 接 受 模 型.232.1 面 向 一 般 计 算 系 统 的 计 算 可 接 受 模 型.232.2 面 向 异 构 并 行 计 算 系 统 的 计 算 可 接 受 模 型.252.3 容 错 机 制 对 异 构 系 统 可 接 受 度 的 影 响.272.3.1 带 T
7、 M R异 构 系 统 可 接 受 模 型 分 析.272.3.2 带 C/R异 构 系 统 可 接 受 模 型 分 析.302.4 本 章 小 结.33第 三 章 基 于 异 构 系 统 故 障 传 播 行 为 分 析 的 应 用 级 checkpoint的 数 据 量 优 化 方 法.35第 I 贝国 防 科 学 技 术 大 学 研 究 生 院 博 士 学 位 论 文 3.1 问 题 背 景.353.1.1 CG 调 用.353.1.2 C G调 用 流 图.373.1.3 异 构 系 统 故 障 传 播 与 C G调 用 流 图.393.2 异 构 系 统 故 障 传 播 行 为.403
8、.2.1 C G间 故 障 传 播.413.2.2 G 点 内 故 障 传 播.423.3 异 构 系 统 的 应 用 级 checkpoint数 据 优 化 方 法.453.3.1 基 于 故 障 传 播 行 为 的 checkpoint数 据 分 析.453.3.2 Checkpoint 的 位 置 选 择.473.4 实 验 评 估.493.4.1 实 验 方 法.493.4.2 实 验 结 果.503.5 本 章 小 结.54第 四 章 异 构 系 统 应 用 级 checkpoint的 优 化 设 置 研 究.554.1 问 题 背 景.554.1.1 异 构 系 统 程 序 特 征
9、 分 析.554.1.2 问 题 提 出.574.2 全 局 checkpoint数 据 保 存 开 销 最 小 化 问 题.584.2.1 场 景 一:基 于 同 步 机 制 的 checkpoint优 化 设 置.584.2.2 场 景 二:基 于 异 步 机 制 的 checkpoint优 化 设 置.654.2.3 Checkpoint数 据 保 存 偏 移 量 设 置 优 化 问 题.714.3 实 验 评 估.734.3.1 实 验 方 法.734.3.2 实 验 结 果.744.4 本 章 小 结.76第 五 章 面 向 G P U的 多 副 本 容 错 技 术.795.1 基
10、于 冗 余 线 程 的 GPU多 副 本 容 错 技 术 的 基 本 思 想.795.1.1 问 题 背 景.795.1.2 解 决 方 案.805.2 RB-TMR的 设 计 和 实 现 方 法.825.2.1 创 建 冗 余 代 理.835.2.2 基 于 RB-TMR机 制 的 GPU Kernel的 设 计.845.2.3 比 较 与 投 票.87第 I I 贝国 防 科 学 技 术 大 学 研 究 生 院 博 士 学 位 论 文 5.3 RB-TMR编 译 工 具 的 设 计 与 实 现.905.3.1 RB-TMR的 编 译 实 现 框 架.905.3.2 前 端 分 析 器.91
11、5.3.3 数 据 流 分 析 器.915.3.4 代 码 重 写 器.935.4 性 能 评 估.945.4.1 实 验 方 法.945.4.2 实 验 结 果.955.5 本 章 小 结.99第 六 章 结 论 与 展 望.1016.1 工 作 总 结.1016.2 研 究 展 望.102致 谢.103参 考 文 献.105作 者 在 学 期 间 取 得 的 学 术 成 果.117作 者 在 学 期 间 参 加 的 科 研 项 目.119第 3 页国 防 科 学 技 术 大 学 研 究 生 院 博 士 学 位 论 文 表 目 录 表 3.1 Checkpointing 的 时 间 开 销.
12、51表 3.2 Checkpoint数 据 存 储 空 间 开 销.52表 4.1 Checkpoint 数 量.74表 4.2 Checkpoint数 据 保 存 时 间 开 销.74表 5.1无 故 障 情 况 下 带 有 三 种 容 错 机 制 的 程 序 执 行 时 间.96第 4 页国 防 科 学 技 术 大 学 研 究 生 院 博 士 学 位 论 文 图 目 录 123456789101234111111111111111111n04图 图 图 图 图 图 图 图 图 图 图 图 图 图 图 蛰 组 国 羽 身 组 国 蛰 蛰 S国 国 组 国 蛰 国.56.7222.8J23Z3
13、.工 3.43.Os.6.7.89J3.3.3.3.3.3.11113.23.4.TOP500中 机 器 的 处 理 器 数 目 统 计 图.2高 性 能 计 算 机 的 性 能 发 展 趋 势.2Intel处 理 器 电 源 电 压 的 变 化 趋 势.4Top500前 2 0台 超 级 计 算 机 系 统 的 平 均 处 理 器 核 心 数 量.5不 同 规 模 下 系 统 的 MTBF变 化 趋 势.6处 理 器 和 存 储 器 的 性 能 增 长 速 度,.8故 障、错 误 与 失 效 三 者 的 关 系.9容 错 方 法 分 类.13基 本 TM R系 统 结 构.14Checkpo
14、inting 技 术.15计 算 可 接 受 模 型 的 概 念 体 系.23多 次 执 行 下 程 序 运 行 结 果 的 可 接 受.24异 构 并 行 系 统 上 的 程 序 执 行.26TM R容 错 示 意 图.28GPU TMRDA-DA 的 变 化 曲 线.29带 TM R系 统 单 次 执 行 与 该 系 统 多 次 执 行 可 接 受 比 较.30C/R容 错 示 意 图.31带 C/R系 统 单 次 执 行 与 该 系 统 多 次 执 行 可 接 受 比 较.33同 构 与 异 构 系 统 算 法 执 行 流 程.36CUDA上 的 矩 阵 乘 算 法.36SWIM异 构
15、系 统 CG调 用 流 图.38C G间 的 数 据 传 播.39G 点 内 故 障 传 递.43G 点 内 故 障 影 响 集 求 解 算 法.45CUDA 上 的 Checkpointing 流 程.46一 般 算 法 的 基 本 思 想.48选 择 合 适 的 checkpoint位 置 的 一 般 算 法.48无 CPU-GPU传 输 状 态 checkpointing的 执 行 时 间 增 加 比.51时 间 开 销 减 少 百 分 比.52有 CPU-GPU传 输 状 态 checkpointing的 优 化 收 益.53异 构 系 统 体 系 结 构.56第 5 页国 防 科 学
16、 技 术 大 学 研 究 生 院 博 士 学 位 论 文 I冬 I 4.2 异 构 条 统 犯 阵 来 算 法 流 程.F图 4.3 同 步 执 行 checkpointing的 流 程.59图 4.4 同 步 设 置 CPU-GPU 端 checkpoint.60图 4.5 C_Struct的 数 据 结 构.61图 4.6 同 步 机 制 Checkpoint间 隔 与 程 序 的 期 望 执 行 时 间 口 5。1.62图 4.7 模 型(4.3)的 求 解 算 法.64图 4.8 异 步 执 行 checkpointing的 流 程.65图 4.9 异 步 设 置 CPU-GPU 端
17、checkpoint.66图 4.1 0 异 步 机 制 checkpoint间 隔 与 程 序 的 期 望 执 行 时 间.69图 4.1 1 模 型(4.12)的 求 解 算 法.71图 4.12 偏 移 量&中 的 checkpoint位 置 选 取.72图 4.13 一 次 同 步 写 异 步 checkpointing时 I 旬 并 错.75图 4.1 4 同 步 与 异 步 设 置 下 全 局 checkpointing时 间 开 销.75图 5.1两 种 容 错 方 法.81图 5.2 一 个 异 构 程 序 及 对 应 的 RB-TMR容 错 版 本.82图 5.3 一 个 K
18、ernel的 线 程 组 织 方 式.83图 5.4 单 GPU时 的 冗 余 代 理 线 程 组 织 方 式.83图 5.5 多 GPU时 的 冗 余 代 理 线 程 组 织 方 式.84图 5.6 重 设 计 的 Kernel代 码.85图 5.7 一 个 异 构 程 序 示 例.86图 5.8 多 GPU的 RB-TMR机 制 的 示 例 代 码.87图 5.9 TMR与 RB-TMR比 较 投 票 机 制 流 程.88图 5.10 多 GPU的 RB-TMR机 制 的 示 例 代 码.89图 5.1 1 比 较 与 投 票 算 法.90图 5.12 TriKerneling 的 框 架
19、 图.91图 5.13 矩 阵 乘 的 CUDA程 序.92图 5.1 4 矩 阵 乘 CUDA程 序 的 控 制 流 图.93图 5.15 RB-TMR程 序 对 比 checkpointing程 序 的 平 均 回 滚 次 数.96图 5.16 RB-TMR程 序 对 比 checkpointing程 序 的 执 行 时 间.97图 5.17 RB-TMR程 序 对 比 TMR程 序 的 执 行 时 间.97图 5.18 RB-TMR 对 比 checkpointing 的 容 错 开 销.98图 5.19 RB-TMR对 比 TM R的 容 错 开 销.98第 6 页国 防 科 学 技
20、术 大 学 研 究 生 院 博 士 学 位 论 文 摘 要 并 行 计 算 是 实 现 超 高 性 能 计 算 的 主 要 技 术 手 段。当 前,随 着 GPGPU性 能 的 不 断 提 高,利 用 C PU和 G PU构 建 的 异 构 并 行 系 统 己 经 成 为 高 性 能 计 算 机 领 域 的 研 究 热 点。然 而 随 着 并 行 计 算 系 统 规 模 的 不 断 增 长,高 性 能 计 算 机 面 临 严 峻 的 挑 战。由 于 异 构 并 行 系 统 更 为 复 杂 的 体 系 结 构 以 及 其 特 有 的 性 质,且 商 用 GPGPU容 错 能 力 较 弱,所 以
21、由 CPU和 GPU构 建 的 大 规 模 异 构 并 行 系 统 的 可 靠 性 问 题 更 为 尖 锐,尚 缺 乏 实 用 的 容 错 手 段。本 文 针 对 异 构 并 行 计 算 机 的 容 错 技 术 展 开 研 究,以 异 构 并 行 系 统 硬 件 故 障 在 软 件 中 的 传 播 行 为 为 理 论 基 础,对 应 用 级 checkpointing技 术 的 保 存 数 据 量 优 化 问 题 进 行 研 究;分 析 了 异 构 并 行 系 统 多 checkpoint的 全 局 开 销 最 优 化 问 题,并 提 出 了 设 置 方 案;同 时,针 对 异 构 并 行 系
22、 统 提 出 了 一 种 新 的 面 向 GPU的 多 副 本 容 错 技 术 RB-TMR,并 对 其 所 具 备 的 关 键 机 制 进 行 了 详 细 的 研 究 与 设 计 实 现。本 文 的 主 要 贡 献 如 下:1、提 出 了 一 种 面 向 一 般 计 算 系 统 的 计 算 可 接 受 模 型。建 立 程 序 的 执 行 结 果 可 接 受 以 及 可 接 受 度 的 定 义,并 进 一 步 定 义 程 序 多 次 执 行 的 可 接 受 和 多 次 执 行 的 可 接 受 度,以 此 为 基 础 得 到 可 接 受 度 的 相 关 定 理 和 推 论。针 对 异 构 并 行
23、 系 统 将 可 接 受 度 的 相 关 定 理 和 推 论 进 行 了 扩 展,并 建 立 异 构 并 行 系 统 的 可 接 受 模 型,同 时 进 一 步 案 例 分 析 两 种 常 见 的 容 错 技 术 checkpoint/restart和 TM R应 用 到 异 构 并 行 系 统 上 时,对 可 接 受 模 型 的 影 响,从 而 给 出 容 错 机 制 的 指 导 意 见 和 优 化 方 法。2、基 于 过 程 间 相 关 性 理 论,提 出 了 由 CPU和 GPU构 成 的 异 构 并 行 系 统 中 硬 件 故 障 在 软 件 中 传 播 行 为 描 述 方 法,我 们
24、 称 其 为 故 障 传 播 模 型。同 时,根 据 故 障 传 播 模 型,设 计 了 针 对 该 系 统 的 checkpointing机 制,并 针 对 影 响 checkpoint/restart开 销 的 主 要 问 题 之-checkpoint保 存 数 据 量 进 行 了 优 化。实 验 证 明 该 优 化 方 法 可 以 有 效 的 减 小 开 销,提 高 容 错 性 能。3、深 入 研 究 了 面 向 异 构 并 行 系 统 的 多 个 checkpoint的 全 局 开 销 最 小 化 问 题,提 出 了 面 向 异 构 并 行 系 统 的 同 步 及 异 步 两 种 机
25、制 的 多 checkpoint全 局 开 销 最 小 化 的 优 化 设 置 方 法。首 先 提 出 了 两 个 针 对 优 化 设 置 多 个 checkpoint位 置 的 基 本 问 题。然 后 通 过 对 异 构 并 行 系 统 体 系 结 构 和 程 序 特 性 的 分 析,提 出 了 基 于 两 种 机 制 的 异 构 并 行 系 统 的 多 checkpoint设 置 方 法:同 步 及 异 步 机 制 的 checkpoint设 置 方 法。同 时,根 据 checkpoint优 化 设 置 的 两 个 具 体 问 题 分 别 对 这 两 种 机 制 进 行 优 化 设 置
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 并行 计算机 容错 技术研究
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内