IBM高性能计算存储解决方案建议书final.doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《IBM高性能计算存储解决方案建议书final.doc》由会员分享,可在线阅读,更多相关《IBM高性能计算存储解决方案建议书final.doc(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、SAN存储助力集群式高性能计算架构高性能计算DS5000存储方案建议书高性能计算DS5000存储方案建议书 高性能计算DS5000存储方案建议书目 录第1章为什么独立存储更适合高性能计算11.1高性能计算的集群化趋势11.2为什么采用SAN独立存储进行集群式高性能计算11.3IBM 集群式高性能计算解决方案概述21.4IBM 集群式高性能计算方案价值4第2章高性能计算解决方案说明62.1高性能计算集群技术方案介绍62.2存储服务器技术方案说明72.3DS5000 高性能计算方案说明82.4DCS9900 高性能计算方案说明122.5BladeCenter高性能计算方案说明152.6集群系统相关
2、软件介绍16第3章为什么IBM是高性能计算领域之最佳的合作伙伴193.1IBM 全球领先的高性能计算平台技术,帮助您实现计算能力目标193.2高性能计算集群方案优势203.3IBM BladeCenter解决方案优势243.4IBM存储系统部优势25第4章IBM中国公司简介27目录第1章 为什么独立存储更适合高性能计算1.1 高性能计算的集群化趋势在信息科学领域半个多世纪的发展历史中,高性能计算一直代表了当时技术的制高点,并成为理论科学和实验科学以后科技创新的主要工具。在过去十年中,高性能计算技术正处于创新的高峰期,其处理速度和总体计算能力的发展远高于摩尔定律描绘的芯片技术的发展速度,在近期刚
3、公布的最新一期全球超级计算500强榜单中,第500名的实测浮点运算能力为5.92万亿次(峰值9.99万亿次)。在应用领域,一些传统领域和高性能计算结合的新兴交叉学科不断涌现,如计算化学、计算物理、生物信息学等,这也为我国计算技术的研究提供了跨越式发展的良好机遇。在高性能计算领域,我国总体上较为落后于发达国家,在应用和教育方面的差距尤为严重。差距是挑战,更是发展空间和机遇。我国政府为应对国际金融危机加大投入拉动内需的重大举措,必然使我国信息化建设提速,激发有关行业对高性能计算机的需求:金融行业规避风险需要提升预测分析能力,高性能计算是重要手段;超级计算是精确地震预报、灾害天气预报的主要手段;此外
4、,在应对能源和自然资源枯竭危机、环境污染、疾病威胁等人类面临的重大问题的进程中,在探索宇宙、物质和生命现象奥秘的过程中,高性能计算扮演着极为重要的角色。这些都为我国高性能计算中心的发展提供了极大的机遇。同时,在当前的经济危机影响下,计算中心更面临如何以更少的资源投入提供更高计算性能的巨大挑战。要把握机遇,高性能计算中心需要不断挑战和突破新的计算能力。为了实现更强的计算和分析海量数据的能力,满足由于快速计算所带来的临时计算数据对存储的较高的持续带宽要求。随着计算体系结构和计算能力的变化,传统的基于主机的存储架构成了新的瓶颈。于是,作为后起之秀的Linux 集群系统,吸取了SP大规模并行机的诸多优
5、势,并且将SP上的优秀的系统管理软件和并行处理方面的程序移植到Linux 集群系统上,如并行系统管理软件PSSP和通用并行文件系统GPFS等,从而使Linux 集群系统不仅能在并行运算方面的性能得到保障,增强了集群系统的可管理性,而且采用具有高可用性的IBM xSeries服务器,可以大大降低成本。近年来,高性能计算已经由传统的大主机方式逐渐向集群方式转变。在TOP500排行榜中,采用集群方式的高性能计算系统处于快速壮大之中。1.2 为什么采用SAN独立存储进行集群式高性能计算随着科技与应用的高速发展,高性能数据计算,广播级视音频数据处理,数据挖掘、在线交易处理等应用驱动着TB级的数据爆炸。同
6、时,数据量的增加,带来了针对数据的管理,共享,分布,保护等实际需求,市场要求存储厂商不断推出适合需求的解决方案和产品。传统的服务器客户机网络结构在性能、可管理性、连接性等方面都达到了极限,而SAN是解决这些问题的理想方案。一方面,今天的高性能计算环境不仅打破了几十年来Teraflop性能难以提升的困境,而且还以比单个大型超算计算机远低得多的成本来实现这一突破。 当数据内容和应用变得更复杂和先进时,存储就更需要突飞猛进。当集群进行每秒万亿次计算时,如何管理那巨大的数据卷是一个问题。 最近数年来,处理性能的快速提升也要求存储网络的性能也要得到相应的快速同步发展,这也是为何基于SAN的独立存储架构能
7、够凭借高扩展的特性进入到高性能计算领域的原因之一。两一方面,现实应用中的高性能计算系统,计算节点动辄几十个,往往多达成千上百个。通过计算节点的扩展增加、硬件升级等手段使得集群系统的处理能力能够进一步增强,运算时间进一步缩短,这就对I/O环节的处理能力提出了挑战。但是连接存储设备的I/O节点个数通常有限,通过提高存储网络的速度和存储体本身的处理能力,能够显著提高I/O节点与存储设备之间的数据交换能力,从而提高整个高性能计算系统的计算效率。SAN相关的投资正以每年50以上的速度增长,有超过三分之二的数据管理者在考虑将SAN引入他们的网络环境。1.3 IBM 集群式高性能计算解决方案概述高性能计算大
8、多采用大规模的并行运算,高性能计算机的架构主要以集群为主,整个高性能计算系统在硬件基础架构上包含计算资源、网络资源和存储资源三大部分。在目前主流的采用Linux并行集群架构的高性能计算系统中,计算资源分为计算节点和I/O节点,计算节点负责运行计算任务,I/O节点则负责数据的存储并响应计算节点的读写请求,不同计算资源节点之间通过高速网络进行通信和信息交换。在此次方案中,我们选用的IBM Linux集群系统使用了基于Intel Xeon处理器的刀片服务器节点、成熟的集群管理软件、提供极高的持续带宽保证的存储服务器,集中了最好的IBM高性能设备和技术。不仅能在并行运算方面的性能得到保障,而且增强了集
9、群系统的可管理性和可维护性。采用具有高可用性的IBM xSeries服务器,大大降低了总体成本。在计算节点的选择上,IBM建议采用Blade Center +HS22刀片, IBM BladeCenter 支持最新的Intel和AMD四核处理器,支持业界最快的高达4.0 GHz的Power 6处理器,以及专用于高性能计算的九核Cell处理器。IBM HS22是业界功能最强大的刀片,HS22采用最新的Intel Nahelem处理器,在集成了IBMBladeCenter传统的高可靠等优势的基础上,性能、功耗和虚拟化的功能都比上一代产品有了显著提升。IO节点采用IBM的DS5000和DCS9550
10、/DCS9900,产品有众多的高速后端磁盘通道,能提供极高的持续带宽保证,非常适合做高性能计算环境下持续带宽要求极高的存储服务器,显著提高I/O节点的处理能力:n I/O节点是提供存贮共享的计算机。为了使任务可以并行执行,每台执行任务的计算机必须能够访问同样的数据,本方案存贮节点通过网络共享(NFS)或集群文件系统来确保数据访问的同步。n I/O节点和高性能存储直接相连,并通过自己的Fiber Channel I/O通道将冗余磁盘阵列上的多个分区做成集群并行文件系统GPFS,并向计算节点提供数个唯一路径且全局共享的文件系统。本方案提供高速的文档读写服务给所有计算节点, 特别适合于有可能会产生大
11、文档的高性能应用上。n 方案所用的两个系列存储服务器增加了后端磁盘通道,更适合高性能计算和流媒体应用对持续带宽保证,整体持续带宽性能地更高的要求。1.4 IBM 集群式高性能计算方案价值1.4.1 集群方案价值IBM的Linux 集群解决方案越来越受到众多的研究机构和商家的关注, 在2002年6月的世界高性能计算大会上新评选出的高性能计算500强中,有42个用Intel芯片搭建的Linux集群系统,其中有31个都是采用了IBM的Linux集群系统; 在2003年10月的世界高性能计算大会上新评选出的高性能计算500强中,Linux集群的数量增加到了119个,其中有56个都是采用了IBM的Lin
12、ux集群系统,占到了接近一半的份额。在2006年11月20日刚刚发布的全球高性能计算TOP500中,IBM的集群系统已经增加到236套。n 高性能计算机集群:由刀片服务器、机架式服务器所组成,提供性能价格比最好的方案作为计算节点及I/O节点等不同功能;n 高速互连网络: 采用最新InfiniBand DDR 网卡, 能支持双网络及RDMA功能; 同时,IBM IB网络只需要3跳数,相比友商需要5跳数,网络延迟较少;n 并行文件系统: 可采用GPFS,为全球最快,支持集群系统规模最大的并行文件系统, 最高实测带宽可达134GB/s;n 高可靠性设计: IBM刀片中心双背板设计、 服务器内置RAS
13、功能、 InfiniBand DDR双网络设计、GPFS可靠性功能、LoadLeveler可靠性功能等;n 综合集群管理: IBM刀片中心拥有独特KVM设计, 提供IBM Director管理功能, 支持无盘启动功能等, 整合集群硬件及软件管理;n 绿色节能功能: IBM刀片中心比友商同类产品节能、可选外置水冷机柜门来减少冷却费用、可选PowerExecutive管理软件来设定管理措施;n IBM整体方案:IBM了解百万亿次高性能计算机系统实施的复杂性。因此,IBM方案不但能支持市场中其他开放产品,同时也建议了IBM高性能计算整体方案,(包括GPFS,LoadLeveler,CSM等产品可选)
14、,成熟稳定;n IBM高性能计算机经验:IBM拥有国内外高性能计算机最多TOP500项目成功实施案例,因此,IBM积累了丰富经验,同时在国内所有厂家中拥有最多参于过TOP500项目的技术人员;1.4.2 Blade Center方案价值在HPC领域,从2008年11月公布的TOP500 HPC系统报告来看,有185个系统由IBM公司提供,占总数的37。而在TOP10的HPC统计中,有三个系统由IBM提供。2008年发布的世界最快的计算机,也是人类历史上首次突破每秒千万亿次的计算机就是采用的IBM BladeCenter构建的。IBM BladeCenter刀片服务器能给您带来竞争友商的同类产品
15、所没有的以下优势:n 降低成本:更高的性能、更高的利用率、更高的效率。IBM BladeCenter 刀片服务器平台通过虚拟化及绿色节能技术可以帮助企业在提升IT效率、保护现有的IT投资的同时,有效降低IT系统的用电量和冷却成本,以达到降低企业IT总体拥有成本的目的。n 管理风险:BladeCenter平台久经考验、稳定可靠。IBM BladeCenter平台具有韧性的架构和管理工具可以为企业的IT系统提供安全保障和高可用性。另外,IBM BladeCenter平台丰富的产品组合不仅可以从容面对今天的需求,它强大的扩容能力更可以应对明天业务需求的不断增长。n 改进服务:提供无与伦比的RAS功能
16、和创新的管理功能。IBM BladeCenter平台拥有强大的性能,能够满足日益增长的应用工作负载对企业的要求。而且,IBM BladeCenter平台还可以通过动态的管理工具对不断变化的需求做出快速的响应。这些优势都可以确保IBM BladeCenter 可以为企业有效提升服务水平1.4.3 存储服务器方案价值在2008年6月公布的HPC排名中,在对持续带宽有极度要求的TOP10 HPC系统中,有4个系统选择了DCS作为HPC系统的存储(计算能力分别排名第二,第三,第六以及第九)。运用IBM 的存储系统,可以帮您建立一个完善的、高效的高性能计算集群系统,并给您的计算中心带来如下价值:n 强大
17、的计算能力;n 具有相匹配的节点/CPU内存容量;n 具有高性能的数据存储管理能力;n 具有强大的作业吞吐能力和具有先进的并行作业管理能力;n 具有完善的高可靠性和高可用性设计;第2章 高性能计算解决方案说明2.1 高性能计算集群技术方案介绍在IBM 在集群系统产品(包括机架服务器和刀片服务器)中采用了大量的先进技术,这些技术有的最早使用在IBM传统的主机系统(Mainframe)和小型机系统上。正是这些先进的技术为IBM的集群系统提供了企业级的处理能力、扩展能力、高可用性、高可管理性和服务。使IBM集群系统一经推出,就受到好评,广泛运用到各行各业中去。为客户提供了不仅仅是高性能价格比的产品,
18、同时在高可用性和安装管理维护方便等方面都有突出的表现。具体的讲,IBM的Linux集群系统解决方案有如下的先进技术:IBM Linux 集群采用的先进技术服务处理器(Service Processor)IBM Service Process 是固化在主板上的专用服务处理芯片,在相应软件的配合下(如CSM,xCAT 等系统管理软件),监视每台服务器的硬件运行状况,系统管理员能够根据其提供的信息,快速作出反应,帮助及时发现和解决问题。可以采集到CPU、内存、硬盘、电源、风扇和稳压模块等硬件的信息,实时发出预警信息,实现预故障分析;能够远程控制节点的部分硬件(如通过命令实现对节点的远程开机、关机和重
19、新启动等操作)。xCAT管理软件由IBM专业技术人员开发的用于IBM xSeries服务器上的Linux集群系统管理软件,供用户使用,其功能主要有现如下几点:系统并行安装和配置;通过命令实现对节点的远程开机、关机和重新启动等操作;监视和控制硬件状态,尤其是提供予故障的分析;支持运行远程命令(dsh,ssh);支持用户帐户的统一管理;方便的软硬件错误诊断及错误自动记录;管理和同步所有节点的配置文件光通路诊断(Light Path Diagnostics)“光通路诊断”是一套完全基于主板光纤传输的诊断系统,可以精确地定位系统硬件中的隐形故障,帮助系统管理员进行故障定位,完成许多以前只能平经验完成的
20、工作。集群中每个节点上都有这个帮助诊断硬件故障的装置,可帮助诊断CPU、风扇、电源模块、内存、硬盘等发生的故障,方便系统维护,提高系统整体运行时间。Chipkill内存技术使内存的校验位增长到4位,从而大大提高了可靠性。通用并行文件系统GPFSGPFS也是从IBM大规模并行机SP上继承下来的,用于提高文件访存的效率,提高I/O访问的性能和文件系统的高可用性。2.2 存储服务器技术方案说明HPC需要一个能够连接处理器和I/O节点的高速系统,这个系统不仅具备卓越的本地I/O总线处理能力,还要有远程消息传输通道。而独立于主机操作系统和处理器平台的I/O系统也能有助于性能提升。方案运用了SAN、nfi
21、niBand网络技术、GPFS 共享文件技术,不但具有足够的便于管理的特性,还能提供极高的存储网络性能。2.2.1 SAN技术已经具备了良好的灵活性和开放标准基础,对于SAN的研究越来越多的集中于找到I/O和计算节点最佳性能的结合点。SAN特别适合使用在运行科学计算和工程应用的大规模集群上。当然,也不排除一些集群仍然采用低速共享I/O协议(如NFS),而低速的I/O将限制集群的处理速度和吞吐量。使用多个文件服务器(NAS)来支持巨型集群将增加费用、复杂性和管理环境难度。当面向数据密集型的应用时,简单地增加更多的存储不仅是困难的,更是破坏性的。当新的卷和mount point被添加时,文件服务器
22、上的容量和带宽的平衡被打破,必须再次进行平衡。2.2.2 InfiniBand网络技术由于InfiniBand具备高通信效率、低MPI(并行处理接口)延迟和良好的带宽容量的优势,并以可接受的成本实现了把应用扩展到数千个计算节点。因此计算网络采用Infiniband连接技术,结合后端的存储网络的SAN技术,再加上成熟可靠的并行集群文件系统(如GPFS等),已经成为HPC领域集群计算的一种趋势。2.2.3 GPFS技术和SAN日益普及的应用趋势类似,通用处理器和集群文件系统也都在HPC应用中得到广泛应用。IBM的GPFS就是这样的一种为集群应用提供并行计算的文件系统,该文件系统的使用能降低集群计算
23、的成本和复杂性。 GPFS是IBM公司的共享文件系统,起源于IBM SP系统上使用的虚拟共享磁盘技术(VSD)。作为这项技术的核心,GPFS是一个并行的磁盘文件系统,它保证在资源组内的所有节点可以并行访问整个文件系统;而且针对此文件系统的服务操作,可以同时安全地在使用此文件系统的多个节点上实现。并且GPFS允许客户共享文件,而这些文件可能分布在不同节点的不同硬盘上;它提供了许多标准的UNIX文件系统接口,允许应用不需修改或者重新编辑就可以在其上运行。GPFS也支持UNIX文件系统的工具,即:用户可以像使用普通文件系统一样使用基于GPFS的文件系统,唯一不同的在于管理GPFS文件系统的命令。GP
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- IBM 性能 计算 存储 解决方案 建议书 final
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内