Platform在戴姆勒-克莱斯勒公司应用的成功案例.pdf





《Platform在戴姆勒-克莱斯勒公司应用的成功案例.pdf》由会员分享,可在线阅读,更多相关《Platform在戴姆勒-克莱斯勒公司应用的成功案例.pdf(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Platform 在戴姆勒-克莱斯勒公司应用的成功案例 在戴姆勒-克莱斯勒公司应用的成功案例 1-1 借助 借助 Platform LSF 充分利用闲置计算资源,戴姆勒-克莱斯勒公司开展 充分利用闲置计算资源,戴姆勒-克莱斯勒公司开展 LS-DYNA 碰撞模拟实验 碰撞模拟实验 Dale Dunlap 和 Joseph Cieslak P.E.Platform Computing 公司 John Picklo 戴姆勒-克莱斯勒公司 Platform 在戴姆勒-克莱斯勒公司应用的成功案例 在戴姆勒-克莱斯勒公司应用的成功案例 1-2 摘要 摘要 计算机辅助工程(CAE)工具是产品开发周期的一个重
2、要组成部分,用于在设计阶段执行复杂的模拟和分析。为满足设计工程师在使用此类应用时的响应时间要求,CAE 需要利用大量的计算资源。CAE 工具可确保产品更快上市,无需制造原型,并可提升最终产品的质量,这就为制造商赢得了效率与量产优势。本文对一套完整方案进行了论述,在这套方案中,我们将高性能计算(HPC)集群网格应用到了戴姆勒-克莱斯勒(DCX)的桌面工作站中。这套方案允许戴姆勒-克莱斯勒透明地使用空闲工作站的 CPU,因而极大地提升了整体计算能力,可与专业的 HPC 解决方案相媲美,而成本与后者相比,仅是其一小部分。以该解决方案为基础,还可进一步将网格部署至戴姆勒-克莱斯勒的基础设施,从而未来可
3、获得更多益处。通过对现有资源潜在计算能力进行管理,Platform 和戴姆勒-克莱斯勒意识到,这样能够使现有资产的价值实现最大化,同时获得的计算能力亦可加快并优化研究与分析过程,并且不会对这些工作站用户的日常应用产生任何影响。企业可用台式机的利用率通常大约占 57,而大型企业则拥有成千上万台台式机。因此,在应用高峰期间,我们能够采用一种经济高效的方式来提升计算性能,同时不必额外采购高性能计算 的 CPU。Platform 在戴姆勒-克莱斯勒公司应用的成功案例 在戴姆勒-克莱斯勒公司应用的成功案例 1-3 背景 背景 戴姆勒-克莱斯勒公司在 CAE 工具使用方面居于全球领先地位。多年以来,戴姆勒
4、-克莱斯勒始终成功使用 Platform Computing 的 LSF 产品来支持其在 NAFTA 区域内(运行诸如 LS-DYNA 等 CAE 工具套件)的高性能计算集群实现网格计算功能。资料显示,通过将执行工作中的延迟降至最低,LSF 可优化 HPC 集群中的 CPU 利用率,实现效率提升 90。在 LSF 被充分应用于戴姆勒-克莱斯勒的 HPC 集群的前提下,通过使用为戴姆勒-克莱斯勒工程师配备的大约 1,500 个 UNIX 工作站,利用这些工作站中的 CPU 空闲周期,亦可实现 HPC 集群网格的扩展。戴姆勒-克莱斯勒公司已使用 LSF 产品多年。目前运行有两个独立生产集群。其中一
5、个集群主要用于 LS-DYNA 碰撞模拟,该集群有 1,000 多个 CPU,全天 24 小时运行。该集群为数百个工程师提供服务,对戴姆勒-克莱斯勒的业务而言,其意义十分重大。戴姆勒-克莱斯勒还拥有 1,500 多台 UNIX 台式机,多数用于 CAD 应用 CATIA。由于 CATIA 是 CPU 与内存密集型应用,白天主要为设计人员所用,因此,这些工作站在夜间和周末闲置期间可用作 LS-DYNA 的潜在计算资源。戴姆勒-克莱斯勒最初希望,无论如何都要充分使用 HPC 集群,并“窃取”台式机空闲的计算资源,从而将其添加到 HPC 集群系统中。为了确保计算之间的互通,工作站上的 LS-DYNA
6、 任务也必须分配 12 个 CPU 运行(该任务配置与 HPC 环境下的处理器要求相同)。Platform 在戴姆勒-克莱斯勒公司应用的成功案例 在戴姆勒-克莱斯勒公司应用的成功案例 1-4 为什么要选择为什么要选择 Platform Computing?Platform Computing 在帮助企业更全面有效地了解其现有 IT 投资状况,以及充分利用 IT 投资方面,已积累了长达 14 年以上的丰富经验。通过提供全天候全球技术支持,Platform 已成功为 2200 多家企业提供网格解决方案。Platform 拥有业内最完整的网格产品套件。没有哪家公司的解决方案可与 Platform 的
7、网格解决方案相媲美,而 Platform 在部署方面的经验更令这些公司无法比拟。Platform 对所提供的稳定产品都有跟踪记录,这就降低了部署网格解决方案方面的风险。由于 Platform 的产品能够降低故障率及管理费用,并且具备可进行扩充以管理大型工作负载的出色能力,因此 Platform 的产品已经证实可具有最低的总拥有成本。作为全球网格论坛的主要成员之一,Platform 正致力于确立网格标准。Platform 的目标是支持 OGSA 和 OGSI 标准。这就降低了戴姆勒-克莱斯勒与其它网格部署标准进行互操作的风险。Platform 在戴姆勒-克莱斯勒公司应用的成功案例 在戴姆勒-克莱
8、斯勒公司应用的成功案例 1-5 戴姆勒-克莱斯勒公司的要求 戴姆勒-克莱斯勒公司的要求 为了保证 UNIX 台式机资产得以优化,Platform 和戴姆勒-克莱斯勒公司确立了如下要求:1.在不影响用户的情况下,在配置时间窗口充分利用台式机资源。LS_Dyna 任务运行需要大量时间,将耗费大量资源,这可能降低机器速度,因此用户不希望工作时,台式机上有其它任务运行。只有在完全空闲时,台式机才能执行这些任务。本解决方案应允许管理员定制时间窗口,对“周期窃取”活动进行控制,并将对台式机用户的影响降至最低。2.只有符合“节点选择标准要求”的台式机,方在备选之列。符合预定义标准要求的台式机,亦可考虑加入集
9、群。节点选择需自动完成,这些标准要求必须允许管理员进行再设置。典型的标准要求是:-最小 18 G 的本地可用磁盘。-不运行“Catia”程序。-没有任何用户登录至该台式机的控制台,或键盘/鼠标至少空闲了半小时。3.“最佳”台式机可候选备用。最初,戴姆勒-克莱斯勒希望每晚利用一些可用台式机(从 1,500 个备选机中选出)构建一个“新集群”。由于管理员手动选择难度颇大,故选择需自动完成。“最佳”选项将是可配置的,能够依据 CPU 的性能和/或台式机内存进行选择。“新集群”的大小也应是可配置的,并应基于配置数量或工作负载进行配置。4.在时间窗口期间,HPC 集群的挂起任务(jobs pending
10、)可使用台式机资源。根据运行时要求,可在时间窗口期间为台式机分配任务。Platform 在戴姆勒-克莱斯勒公司应用的成功案例 在戴姆勒-克莱斯勒公司应用的成功案例 1-6-用户可监控台式机上运行任务的状态。-任务完成后,用户可得到任务的完成结果。-时间窗口关闭时,将自动检测未完成任务,并重新将其排列至 HPC 集群队列顶部。-清空台式机上的任务。5.LS-DYNA 的任务特性和运行时要求:-12 个 CPU 的 MPI 并行任务。-平均运行时超过 10 个小时。-任务必须在同类型计算机上运行。-任务必须可接受应用级断点保存(application-level checkpointable)。(
11、输出和断点文件保存在共享文件系统中)-如果某台计算机停机,应将任务顺利移植至其它地方。-任务应在清晨进行断点保存并返回至挂起状态。6.正在使用的生产集群(HPC)十分复杂,并且运行关键任务应用。本解决方案不应被干扰HPC 集群的正常运行。Platform 在戴姆勒-克莱斯勒公司应用的成功案例 在戴姆勒-克莱斯勒公司应用的成功案例 1-7 HPC Cluster(over 1000 servers)HPC 集群(1000 多台服务器)Desktop Cluster(s)台式机集群 Desktop Pool(over 3,500 desktops)台式机池(Desktop Pool)(3,500
12、多个台式机)LSF LSF Job forwarding 任务移交 Desktop Manager 台式机管理器 Job dispatching 任务分配 Membership 成员 Server farms 服务器群 Jobs submitting to HPC Cluster 任务提交至 HPC 集群 图 1.1UNIX 台式机 ActiveCluster 系统组织机构图 1.1UNIX 台式机 ActiveCluster 系统组织机构 额外的台式机资源组成一个或数个“台式机”集群,这些集群由各“台式机管理器”进行管理或控制。该台式机集群仅接受和执行来自 HPC 集群的任务。这种多台式机集
13、群和管理器设计在未来可以处理大型台式机池。下图显示该解决方案的架构和流程。Platform 在戴姆勒-克莱斯勒公司应用的成功案例 在戴姆勒-克莱斯勒公司应用的成功案例 1-8 HPC cluster HPC 集群 Desktop cluster 台式机集群 Client 客户机 LSF Server LSF 服务器 LSF Desktop LSF 台式机 LSF Manager LSF 管理器 Desktop Manager 台式机管理器 LSF Scheduler LSF 调度程序(1)Users submit jobs to HPC cluster(1)用户提交任务至 HPC 集群(2)(
14、7)LSF schedule jobs on HPC or desktop clusters(2)(7)LSF 调度 HPC 或台式机集群上的任务(3)(8)jobs dispatched,account mapping,and run on servers or desktops(3)(8)任务分配、帐户映射,以及在服务器或台式机上运行(4)(9)Send jobs status and result back(4)(9)发送任务状态并返回执行结果(5)Users get jobs result(5)用户获取任务执行结果(6)HPC cluster forwards jobs to Desk
15、top cluster(6)HPC 集群移交任务给台式机集群(10)Desktop cluster forwards jobs status and result back(10)台式机集群发送任务状态并返回执行结果(11)HPC cluster reclaims jobs from Desktop cluster(11)HPC 集群从台式机集群中收回任务(12)Desktop cluster checkpoints and requeues jobs(12)台式机集群检测并重新排列任务(13)Desktop cluster returns jobs back to HPC cluster(1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Platform 戴姆勒 克莱斯勒 公司 应用 成功 案例

限制150内