高性能计算专业系统设计专项方案.doc
《高性能计算专业系统设计专项方案.doc》由会员分享,可在线阅读,更多相关《高性能计算专业系统设计专项方案.doc(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、高性能计算系统方案设计第1章 需求分析1.1 高性能计算和大规模数据解决应用高性能计算作为一种先进科研手段,在国内应用发展不久,得到了普遍注重,近年来国家投入逐年加大。高性能计算应用条件已经成熟,体当前:u 价格相对低廉高性能机群系统为高性能计算应用提供了物质基本;u 高性能计算应用技术门槛逐渐减少;u 国家勉励有关单位做高性能计算研究,有关投入不断加大;u 诸多高校科研人员使用高性能计算手段,获得了较好成果。1.1.1 计算机架构由于各学科高性能计算应用软件种类繁多,各种软件应用特点也各不相似,对计算资源需求存在差别,方案设计需要充分考虑到实际应用特点。作为高性能计算基本设施核心,当代高性能
2、计算机发展从20世纪70年代向量计算机开始,也已有了30年发展历程。先后浮现了向量机、多解决器并行向量机、MPP大规模并行解决机、SMP对称多解决机、DSM分布式共享存储计算机、Constellation星群系统、Cluster集群系统、混和系统等各种主体架构,并分别在不同步期占据着应用主流。开放Cluster集群系统具备较多优势,已经占据了当前高性能计算机主流位置,在TOP500中占据了约80%份额,在中小规模高性能计算系统中更是占据统治地位。1.1.2 软件并行特点按照应用程序与否为并行程序,可以分为如下几类:u 串行程序程序运营中只有一种进程或线程。串行程序不能运用高性能计算机各种解决器
3、并行特点,但可以同步运营程序各种任务或算例。u 共享内存并行程序程序运营中可以有各种进程或各种线程,可以使用各种解决器进行并行计算。但这种并行程序不能在分布式内存机群系统上运营。u 消息传递并行程序消息传递式并行程序可以在所有架构计算机上运营,可以同步使用数目诸多解决器,以加速程序运营。在高性能集群系统上,各种程序都可以运营,可以使用集群系统一种CPU,一种节点或各种节点。1.1.3 互连网络高性能计算系统互连网络涉及计算网络,数据IO网络,管理监控网络等。对于并行程序来说,进程之间通信量也有着明显差别。对于进程间通信量较小程序来说,使用高性价比千兆以太网就可以满足需求。对于通信密集型并行程序
4、,各种进程之间数据互换频繁,对互连网络性能规定很高,规定具备较高带宽和很低延迟,千兆以太网就不能较好满足规定,需要使用高速网络,如Infiniband,其单向带宽达到20Gb,延迟不大于2微秒。 从 TOP500 排行榜中咱们可以看到,千兆以太网和Infiniband网成为高性能计算机网络互联主流,特别从性能份额上来说,Infiniband网更是占据了绝大某些份额,因此在国际主流较大系统中,Infiniband计算网逐渐成为主流。高性能网络基本性能如下咱们可以看到,对于千兆以太网,带宽达到112MB/s,延时非常高,达到47.57us。而使用万兆以太网,虽然带宽和延时均有明显提高,但是与Inf
5、iniband网相比,还是有较大差距。万兆以太网使用TCP/IP合同,带宽达到770MB,延时约为12us,使用IwarpRDMA合同,性能有一定提高,带宽达到1046MB/s,延时达到7.68us。对于Infiniband网,DDR和QDR带宽有较大差距,但是延时比较接近,分别为1.6us 和1.3us。值得注意是,QDRIP over IB性能有了大幅提高。1.1.4 操作系统高性能计算操作系统由最初Unix操作系统为主,当前随着集群架构逐渐广泛和Linux操作系统逐渐成熟,Linux操作系统逐渐成为高性能计算机主流,占到80%以上市场份额。为了使得集群系统有较好兼容性,可以配备各种操作系
6、统,如Linux(Redhat,Suse),Windows HPC server等.第2章 系统方案设计2.1 方案总体设计2.1.1 系统配备表序号名称技术规格单位数量1硬件某些1.1计算子系统刀片平台TC4600原则19英寸5U机架式刀片机箱、可以支持14个计算刀片;1*管理模块,集成远程KVM和远程虚拟媒体;2*千兆网络互换模块,提供6个RJ45千兆接口;4*冗余热插拔散热模块;4*W电源(3+1冗余热拔插);台5计算刀片CB60-G15带FDR计算刀片2*IntelXeonE5-2660 八核处器(2.2GHz);8*8GBDDR31333MHz;1*300G 2.5寸10000转SA
7、S硬盘;1*56GbInfiniband接口;2*1000M以太网接口; 片63管理/登录节点曙光I620r-G102U机架式;2IntelXeonE5-2660 八核处器(2.2GHz);84GBDDR31333MHz;1300G 2.5寸10000转SAS硬盘;156GbInfiniband接口;21000M以太网接口; 1*冗余电源;1*超薄DVD-RW;1*上架导轨;台21.2存储子系统存储系统曙光DS600-G10双控FC3U ,16盘位,双控制器,4个8Gb/s FC+8个1Gb ISCSI主机通道,双锂电池,2*2GB Cache;冗余电源;含4个SFP(8Gb);Cache容量
8、可升级为2*16GB;600G 15000转 6Gb SAS硬盘*16块套11.3网络子系统计算网络IB 互换机FDR Infiniband互换机,36 端口台2Infiniband线缆MX MC2207310-005 56GB QSFP FDR 5M IB光缆根65管理网络千兆互换机 48端口互换机,10/100/1000baseT铜接口台2防火墙集群安全模块TLFW-1000T 龙芯防火墙标配6个千兆电口,1U机架。并发连接数120万,吞吐量1G,支持SSL VPN隧道数300配合Nikey智能密钥*10:曙光精心打造USB Key解决方案,内置8位国产安全芯片,自主开发COS。硬件实现数
9、字签名,私钥永不出Key。台11.4机柜子系统机柜系统曙光天潮原则机柜标配2个PDU、双侧门,无电源箱,无监控液晶触摸一体机个3曙光天潮原则电源箱380V无监控电源箱个1监控系统曙光智能机柜监控系统支持四台机柜温湿度远程监控套1曙光集群监控中心监控液晶触摸一体机,含LCD、触摸屏、监控主机各1套,安装在机柜前面板门上套1控制台曙光集群控制台1U手动伸缩控制台(曙光17”液晶显示屏、鼠标、键盘、8口切换器等)套1视频切换系统SKVMSKVM IV Over IP(包括键盘鼠标)台1CIMKVM节点控制模块个72软件某些操作系统LinuxSuSELinux公司版套1集群管理系统曙光GridView
10、 2.5GridView HPC版,支持系统布置、系统监控、集群管理、数据报表、统一告警、作业调度。basic portal,包括serial 和 mpi,支持互动作业,作业故障自动切换重启,文献传播,查看修改文献操作。套65Gridview ClusQuota 集群配额系统,可支持顾客机时配额管理,充值计费管理,顾客信用管理等功能。(可选)套1应用门户系统曙光Gridview Clusportal 系统包括Fluent软件作业调度套1应用开发环境编译器GNU编译器,支持C/C+Fortran77/90Intel 编译器,支持C/C+ Fortran套1数学库MKL,BLAS、LAPACK、S
11、caLAPACK、FFTW套1MPI并行环境OpenMPI(支持Infiniband和以太网MPI环境)套1MPICH2(支持千兆以太网MPI环境)套12.1.2 系统拓扑图2.1.3 系统方案阐明u 计算系统CPU整体峰值性能达到17.7万亿次,可以扩展到500万亿次;u 重要产品都采用了冗余设计(电源、电扇等),存储系统采用冗余设计,系统可靠性有较高保证;u 系统功耗(不含空调制冷系统)不超过为,150千瓦,电费可按此核算;u 曙光公司将为顾客提供完善服务,涉及安装调试、系统优化、顾客培训等,这些都不单独收费,顾客不必考虑这些方面费用;u 曙光公司提供5年免费上门服务,极大减少了顾客运营维
12、护费用;u 曙光公司是领先专业高性能机算机及方案提供商,拥有较多成功案例,涉及百万亿次超级机算机成功案例,产品可靠性和稳定性得到了充分验证。2.1.4 需求相应分析l 先进性本系统中,咱们使用刀片集群架构,为当前高性能发展先进趋势。使用最新一代Intel E5-2600解决器,为当前性能最高X86解决器。使用FDR网络,也为当前最为先进网络技术。同步,系统中使用并行文献系统、自动功耗管理系统和HPC应用WEB potal,均代表着HPC先进发展方向。l 高可靠、高可用需求系统采用刀片服务器,冗余电源,双控制器存储系统、高档别RAID系统,以及核心节点HA双机,同步,高效管理监控系统也是保证系统
13、高可靠、高可用保证。l 适合顾客应用软件需求顾客应用软件众多,顾客众多,对计算需求大,系统共配备101TFLOPS计算能力。针对某些应用对节点间网络需求高,配备了高带宽,低延时FDR Infiniband网。带宽达到56Gbps,延时不大于1us。同步,海量计算时IO并发读写量巨大,对存储容量和性能需求惊人,系统配备了并行存储系统,可以实现所有存储统一地址和并发读写。l 易使用需求系统配备了HPC WEB Portal,可以有效减少顾客使用难度。同步,针对系统和应用专业培训,也能提高使用人员使用水平。针相应用软件安装调试也大大减少了顾客使用难度。l 可扩展性需求集群架构可以保证计算系统良好扩展
14、,同步,并行存储架构也实现对存储系统扩展。l 易管理维护需求配备高效管理系统,支持监控、告警、管理、报表等多项功能,解决管理员后顾之忧,同步,对管理员培训和对系统运维支持,也能有效提高系统管理水平。l 节能环保需求配备了刀片系统和高效节能系统,支持空载节点自动待机,可以有效减少能耗,协助顾客节约运维成本。2.2 计算系统2.2.1 刀片集群系统共配备63个双路8核刀片服务器,主频2.2Ghz,双精度峰值接近17万亿次。当前,开放集群(Cluster)系统具备较多优势,已经占据了当前高性能计算机主流位置,在TOP500中占据了80%以上份额,在中小规模高性能计算系统中更是占据统治地位。刀片式集群
15、系统在计算密度、功耗散热、运营成本、维护成本、可靠性等方面,都明显优于其他系统,且为系统扩容升级提供了良好基本,刀片系统优势重要体当前如下几种方面。n 计算密度更高提高计算密度是刀片服务器发展重要动力之一。对于大规模并行计算机来说,提高计算密度特别重要,刀片式集群系统有效提高了计算密度。n 机房规定减少大规模高性能计算机将对机房空间提出较高规定,并且要为系统扩容升级留下空间。刀片式集群系统实现了较高计算密度,并且有效减少了系统功耗,对系统空调等散热系统规定也相对减少。n 功耗散热减少刀片服务器功耗部件较少。刀片柜中电源将由各种刀片共享,因此会使用高效率电源,减小了系统功耗,同步产生热量减少,减
16、少了冷却系统耗电量。节能设计体当前曙光刀片服务器各个层面:1)依照实时功耗拟定工作电源个数,使电源工作在最佳效率曲线上。2)修改计算刀片操作系统内核,实现节能3)多计算刀片任务调节调度n 布线简朴在机架式服务器构成集群系统中,系统布线是一种很大问题。系统线缆也许涉及高性能计算网络(Infiniband,以太网等)、数据网络、管理网络、监控网络、电源网络、KVM网络等,这些线缆需要连接到每一种计算单元。特别是在高密度、计算单元数目又比较多状况下,系统布线是令设计人员头疼问题。刀片式集群系统可以大大减少系统布线数量。各种刀片服务器可以共用冗余电源,内置互换机将高速网络(Infiniband等)、数
17、据网络、管理网络、KVM网络集成在一起,只需要对刀片柜进行布线,刀片柜内部计算刀片通过背板连接,无需布线。依照计算,使用刀片式集群,可以节约85%以上系统布线。n 可靠性提高曙光刀片服务器采用无源背板进行系统互连,与老式线缆连接方式相比,把可靠性提高到了一种数量级以上。刀片系统采用模块化、冗余、热插拔设计,进一步提高了系统可靠性。n 管理以便曙光刀片服务器管理监控高度集成:通过统一监控界面,监控所有刀片资源,涉及机箱电源、电扇、计算刀片、背板、互换机。管理系统整合当前两大监控技术,即IPMI以及KVM (Over IP),真正实现监视控制一体化。同步,为实现以便快捷刀片服务器管理,通过优化管理
18、软硬件设计,改进可管理性,增强布置和可服务性,这些将减少总所有权成本。2.2.2 Intel E5-2600解决器性能优势3月,Intel Xeon 解决器E5-2600发布,E5-2600解决器相比上代双路服务器Xeon5600系列解决器在解决器架构上进行了重大调节,从而带来最高达到77%性能提高。E5-2600相比上代5600解决器,在解决器核心数、流水线长度、内存带宽等各种方面都对做出了重大提高,因此导致了性能巨大奔腾。对于最能衡量高性能计算解决能力spec cpu fp性能,相比上一代解决器,最多高达77%性能提高。对于众多高性能计算应用,相比上代解决器,基本都超过50%以上性能提高。
19、通过调节流水线长度和增长CPU核心数,相比上代解决器,linpack性能最多超过100%性能提高。2.2.3 GPGPU计算节点系统共配备4台GPGPU节点,该GPGPU节点配备4块NVDIA C2075 GPU卡,共提供单精度峰值16TFLOPS,双精度峰值8TFLOPS。GPGPU计算是指运用图形卡来进行普通意义上计算,而不是老式意义上图形绘制。时至今日,GPU已发展成为一种高度并行化、多线程、多核解决器,具备杰出计算功率和极高存储器带宽,如图所示。CPU 和GPU每秒浮点运算次数和存储器带宽CPU 和GPU之间浮点功能之因此存在这样差别,因素就在于GPU专为计算密集型、高度并行化计算而设
20、计,上图显示正是这种状况,因而,GPU设计能使更多晶体管用于数据解决,而非数据缓存和流控制,如图所示。GPU中更多晶体管用于数据解决当前,已有非常多高性能应用完毕了在GPU系统上移植。2.3 网络系统本方案网络系统设计从性能和可靠两个原则出发,采用2套网络。网络配备都考虑了扩展余量,以便系统扩充。网络方案设计充分考虑到了计算节点、存储节点、网络互换机性能参数,在保证了系统稳定前提下,使每台设备都能得到最大限度运用。2.3.1 千兆管理网络配备1台高品位千兆互换机,配合刀片机箱管理模块,连成千兆管理网络。该互换机1U高,48个千兆端口,实现系统中所有节点联通。千兆管理网络用于系统管理控制、系统监
21、控、作业递交、作业监控管理等方面数据通讯。2.3.2 Infiniband高速网系统配备2台36端口 Infiniband FDR互换机,共同构成56GbpsFDR全线速网络。单向56GbFDR Infiniband 网络相比,相比上代单向40GbQDR Infiniband 网络,性能得到了非常大提高。这得益于三方面:1 FDR 网络传播性能提高,传播性能从QDR 40Gb增长到FDR56Gb。2 FDR 网络编码效率提高,编码效率从QDR 8/10 提高到 FDR 64/66。3 PCI-E 3.0 编码效率提高,编码效率从 PCI-E 2.0 8/10 提高到 PCI-E 3.0 128
22、/130。综合起来,QDR网络由于编码效率影响,带宽仅能达到Bandwidth(QDR)=40Gbps*0.8*0.8/8=3.2GBps而FDR带宽可达到Bandwidth(QDR)=56Gbps*(64/66)*(128/130)/8=6.6GBps实际达到一倍以上性能提高对于网络密集型高性能应用,FDR网络带来性能提高也是非常明显,如下图所示分子动力学应用NAMD,网络设备升级成FDR后,性能和扩展性都得到大幅提高。2.4 存储系统2.4.1 高性能集群存储需求特点高性能计算集群在各种节点进行大规模并行计算同步,需要进行大量文献及数据访问,对于系统存储性能也提出非常高规定,系统对存储规定
23、重要归结为如下几点。n 全局文献统一印象;高性能集群相比其他应用而言,一种明显特点为保证参加计算所有节点具备统一文献印象,也就是说,在任何一种节点、对某一种文献读写、修改都会在其他节点生效,实现这一种功能,往往需要通过网络文献系统来实现,较为老式为nfs系统,当前,由于集群规模增大和访问性能规定逐渐提高,并行文献系统在中大规模高性能集群中使用越来越广泛。n 全局文献高速访问;对于某些规模较大集群,或者某些高IO应用集群,由于对存储访问量很大,对共享存储访问性能也提出了较高规定。普通,咱们需要通过提高磁盘阵列性能、存储介质性能、磁盘阵列访问接口性能和IO节点网络性能来提高存储访问性能。对于更高I
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 性能 计算 专业 系统 设计 专项 方案
限制150内