联想刀片服务器技术方案【完整版】.doc
《联想刀片服务器技术方案【完整版】.doc》由会员分享,可在线阅读,更多相关《联想刀片服务器技术方案【完整版】.doc(60页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、联想刀片服务器技术方案【完整版】(文档可以直接使用,也可根据实际需要修订后使用,可编辑放心下载)联想高性能计算机群技术方案联想北京二九年十二月目 录目 录11联想与高性能计算32系统技术方案概述52.1 节点系统62.3 计算网络82.4 管理网络82.5控制台82.6 存储系统82.7 机群软件系统93机群设备介绍93.1节点系统93.2 计算网络153.3 存储系统153.4 软件系统18操作系统18作业管理系统19监控与管理系统24并行软件开发环境314安装、验收及培训方案384.1 工程实施38工程实施组织38质量保证措施39工程实施步骤40工程进度方案41资源需求424.2 培训方案
2、43培训目标43培训内容与课程要求435保修及售后效劳方案475.1 联想售后效劳体系475.2 保修效劳495.3 3小时 响应495.4 技术咨询效劳495.5 替换整机或部件的所有权495.6 不属于免费保修义务的情形495.7 特别提醒与说明50附件一 成功案例511联想与高性能计算当前,国内的高性能还处在开展阶段,自从联想在2002年研制成功世界上第一个实际速度超过1万亿次的大规模机群系统后,国内外厂商都加大了对机群系统的研制能力,国内的高性能产业得到了蓬勃开展。对于高性能市场的分布情况,当前还没有官方正式的统计,只能从厂商的实力和成功案例进行分析。联想从2001年开始进军高性能效劳
3、器领域以来,着重针对高等院校和科研院所进行产品开发与市场拓展,在市场中一直处于领先地位。截止2021年,先后为近170个用户成功实施了高性能机群,两次承当了中国科学院网络计算中心主节点的建设任务,并且成功地与Williams车队进行合作,成为国产品牌中唯一将高性能业务拓展到海外的企业。2001年10月,联想开始进军高性能效劳器领域。之后,联想顺应国际主流技术开展趋势,以市场需求为驱动,吸收国内外最新技术成果,进行了大量创新性研发,突破包括系统设计与优化、系统根底架构、系统软件等在内的一大批高性能效劳器的关键核心技术,开发出一系列可扩展、易管理、好使用、稳定可靠的高性能效劳器产品,并配备可满足用
4、户个性化需求的行业解决方案,提供从系统层到应用软件层的全面解决方案和技术效劳。2002年7月,联想研制成功“深腾1800”万亿次机群系统,安装在中科院数学与系统科学研究院。这是世界上第一个实际速度超过1万亿次的大规模机群系统。曾入选新华社2002年中国十大新闻及两院院士评选的2002年中国十大科技进展,并荣获2004年国家科技进步二等奖。 2002年末,另一套深腾1800大规模机群系统安装在中科院大气物理所国家重点实验室。 2002年12月30日, 联想深腾1800战胜 IBM、HP等国内著名品牌中标大庆油田,使该油田第一次在国内实现三维叠前深度偏移地震资料处理。2003年,联想成功研制“国家
5、网格主节点联想深腾6800超级计算机,安装在中科院计算机网络信息中心。这是当时世界上 Linpack 效率78.5%最高的高端通用计算机,其组合查询性能名列世界当时世界所有大型效劳器的第四位, 其典型应用MM5的测试结果在2004年3月列世界所有超级计算机的第一位。该机荣获2005年国家科学技术进步二等奖、2005年国家重点新产品奖、2004年信息产业重大技术创造奖。联想深腾6800自2004年初在网络中心对外效劳以来, 一直 7 X 24 小时稳定运行, 在双星方案、气候模式计算、油藏模拟、材料科学计算、流体力学计算等领域取得了150多项重要计算成果。联想深腾系列高性能计算机成为最早进入世界
6、TOP500的一批国产计算机, 分列当时世界TOP500的第14、43、98 和 299名。 这是一个历史性的突破,联想深腾系列高性能计算机已成为国际知名国内主流的品牌。联想在推动高性能技术产业化方面取得了突破性进展,联想的高性能计算机广泛应用于许多关键领域,在国民经济和社会开展中发挥重要作用。目前, 机群已成为世界高性能计算机体系结构的主流,联想深腾1800、深腾6800和深腾7000为这一趋势的形成做出了重要奉献。2002年8月初,世界上主流并行编程环境MPI-ch的创造人、美国阿贡实验室 William Cropps 参观联想深腾1800后写道:“We see the future of
7、 clustering computing。 2007年,联想为F1的Williams车队成功地安装实施了1套8万亿次的高性能效劳器,联想高性能效劳器开始进军海外。联想作为国际奥委会TOP合作伙伴,负责为2006年都灵冬季奥运会和2021年北京奥运会信息系统提供效劳器和存储产品。如今,联想效劳器和存储产品在已结束的都灵冬季奥运会上实现了零故障运行。联想的产品和效劳实力获得了都灵奥组委的高度评价。联想在高性能效劳器根底技术方面有着长期的积累,有齐全的产品线和严格的质量控制体系,为高性能计算机的研制和生产奠定了坚实的根底。在产品设计上,联想坚持用户导向的原那么,同时结合对新技术的深入理解和消化吸收
8、,始终遵循模块化设计思想,在充分综合考虑各模块精密配合和整机系统合理整合的根底上,先设计出最正确性价比、最稳定的产品方案,然后对方案进行工程计算仿真,同时不断地结合验证性实验,最终才形成可行的开发方案,从而保证为用户在最短的时间里开发出最贴近的具有竞争力的产品。在研究开发上,联想建立了与国际接轨的两级研发体系,即公司级研发平台和各事业部研发中心。公司级研发平台由联想研究院、软件中心、板卡中心和工业设计中心组成。事业部研发中心隶属于各事业部,直接承当具体的专项技术开发工作。联想在高性能效劳器技术上已突破并拥有了自己的核心技术,拥有自主知识产权的系统设计与优化技术、系统监控技术、系统管理技术、高可
9、用和负载均衡技术以及根底架构技术等关键技术,在高性能计算机系统技术方面已申请国家创造专利85项,其中,46项已获授权。在工程技术上,联想拥有针对效劳器的部件及整机进行专业性测试的全套技术。部件测试包含外观、结构、功能、兼容性、可靠性、平安性、性能和环境8个方面的测试,以保证所有部件符合联想效劳器技术特性和质量标准的要求,对效劳器的核心部件如电源、内存,还建立了专业化的实验室,实现了部件的自动测试。如全球技术领先的自动电源测试实验室和自动内存测试实验室,国内功能最全面、技术最先进的系统测试实验室,以及高温实验室、电磁兼容检测实验室、噪音实验室、湿热实验室等等,所有产品需要在这些实验室中通过一系列
10、的严格检测,只有通过了这一系列的严格检测的效劳器产品,才可以顺利出厂,提供给客户。联想始终严格执行国际标准的质量控制体系,是国内唯一通过ISO90002000版质量认证体系的效劳器厂商。在技术效劳与方案上,联想效劳器应用方案中心拥有雄厚的技术力量,在硬件平台、操作系统、数据库、中间件、网络、存储、机群技术等方面有着多年的技术和经验积累,可以分别从不同的技术层面为用户提供有效的产品应用和方案支持效劳。中心拥有先进的实验环境,包括方案集成实验室、性能评测实验室、数据中心、客户实验室四个局部,为用户提供方案开发、测试,方案移植、优化以及培训、咨询等效劳,及时、快速、可靠地解决在用户系统在使用过程中所
11、遇到的技术问题,使客户的系统可以更加平安稳定地运行,以保障和促进客户业务的顺利开展并取得更大的成功。总之,通过多年的努力,联想在高性能计算机的设计、研发、工程、方案、效劳方面已具备坚实的根底,具备了承当国家重大战略性工程和中科院信息化建设重大工程的实力。2系统技术方案概述联想在高性能效劳器业务运作上经验丰富、体系完善。近几年HPC领域的成功案例到达数百个,应用领域涉足气象、量子化学、生物科学、工程物理、计算力学、电力仿真、能源运输、计算中心、材料力学等多种学科和交叉学科。人员组成上拥有一支深入理解用户需求的体系结构设计和行业应用技术分析的专家队伍,不但对计算机系统结构有深厚的技术功底,而且对科
12、学计算领域的应用软件十分熟悉。结合联想多年来在计算化学、计算物理等领域大型机群设备的建设经验,经过深入对中国人民大学高性能计算机需求分析,联想认为本次工程中提供的高性能计算机系统方案应须满足业务运行稳定可靠、建设方案技术先进、系统规模扩展灵活、系统能耗低、管理功能完备方便、效劳支持深入快捷的特点。联想推荐的中国人民大学高性能计算机群总体方案结构具有以下特点:业务运行稳定:实验室的的大局部作业都具有计算规模大、资源占用率高等特点,提交一次作业往往需要几天甚至一个月的时间,因此对高性能计算机的稳定性要求较高。如果设备在计算过程中出现问题,会造成时间的极大浪费。联想采用最新设计的刀片系统以及经过奥运
13、考验、具备奥运品质的机架式效劳器作为系统的节点效劳器,配置LCOMS技术实时监控整个系统,以强大的性能为根底保证系统的稳定运行。建设方案技术先进采用高性能计算机最流行的Cluster体系架构,Intel最出色的Nehalem系列处理器,DDRIII系列内存,具备40G的带宽主流网络架构高速 Infiniband互联;提供一整套的联想全套机群软件、Intel全套系列HPC软件、性能分析和调试工具Intel Trace Collector和 Intel Trace Analyzer,丰富的数学库Intel MKL、Atlas、Blas等。系统规模扩展灵活Cluster架构天生扩展性好,只需根据需要
14、增加机柜、节点和网络交换机,即可轻松扩展规模。系统能耗低联想采用电源转换效率到达93%的计算刀片系统,在消耗同样能耗时,系统能够获得更大的计算能力,充分保护了用户的现有投资。管理功能完备方便联想LCOMS机群管理系统、机群监控技术、联想资源管理和作业调度系统涵盖了机群系统所需的全部管理功能,完全的B/S结构,WEB浏览器访问,全中文的图形交互界面。效劳支持深入快捷联想具备在国内领先的大型HPC工程的集成运作能力;联想拥有强大和快捷的本地效劳支持能力;联想有专门的应用支持队伍,在快乐能计算方面联想有充分的移植和系统支持能力;在客户自写软件方面联想可具备并行软件开发与调优、工程科学算法研究改良等能
15、力。中国人民大学高性能计算机群方案采用当今主流的Cluster体系结构,所有节点均采用基于64位Nehalem四核效劳器,通过Infiniband计算网络实现计算节点间的互连,所有硬件集成在联想机群根底架构中,并通过联想机群系统软件及应用支撑环境和工具等,对外提供单一系统映像,很好的满足用户高性能科学计算的应用。整套系统由六大局部组成:节点系统、互连系统、存储系统、软件系统、根底架构、显示系统。2.1 节点系统系统内的刀片计算节点、I/O节点、管理节点。(1) 计算节点:配置10台联想深腾B714R刀片作为第一类刀片计算节点,配置42台联想深腾B714R刀片作为第二类刀片计算节点B714R刀箱
16、满足:l 刀箱最大支持14片刀片,共提供5个刀箱,完全满足计算节点需求;l 刀箱配置管理控制模块,千兆以太网模块,40Gb/s QDR Infiniband交换机模块;l 冗余电源和风扇。第一类刀片计算节点:l 每刀片配置两颗Intel E5530系列CPU;每刀片配置24GB DDRIII 1066MHz内存,每刀片配置12个内存DIMM;l 每刀片配置1块146GB热插拔SAS硬盘,转速为15000rpm;l 每刀片配置2个千兆网卡端口;l 每刀片配置1块IB卡,速率20Gb/s;第二类刀片计算节点:l 每刀片配置两颗Intel E5530系列CPU;每刀片配置12GB DDRIII 10
17、66MHz内存,每刀片配置12个内存DIMM;l 每刀片配置1块146GB热插拔SAS硬盘,转速为15000rpm;l 每刀片配置2个千兆网卡端口;l 每刀片配置1块IB卡,速率20Gb/s;配置2台联想R525G2机架式效劳器作为管理节点:联想R525G2满足l 配置2颗 Intel Xeon E5530(2.40GHz);l 配置12GB DDR3 1066GHz内存;l 配置2块146GB热插拔SAS硬盘, RAID1,转速为15000rpm;带电池保护;l 配置4个千兆网卡端口;l 配置DVD-RW驱动器;l 配置热拨插冗余双电源。配置2台联想R525G2机架式效劳器作为存储节点:联想
18、R525G2满足l 配置2颗 Intel Xeon E5530(2.40GHz);l 配置12GB DDR3 1066GHz内存;l 配置2块146GB热插拔SAS硬盘, RAID1,转速为15000rpm;带电池保护;l 配置1块4Gb光纤HBA卡;l 配置4个千兆网卡端口;l 配置DVD-RW驱动器;l 配置热拨插冗余双电源;l *运行可靠的联想龙存并行文件系统。2.3 计算网络系统提供带宽性能为40Gbps的InfiniBand高速网络作为系统的计算网络,包括硬件和软件。l Infiniband网络,所有计算节点之间的连接带宽40Gb/s;l 刀片机箱配40Gb/s QDR Infini
19、band交换机模块,对内和对外端口数均等于机箱满配时刀片数目;l 刀片机箱之间通过2台36口40Gb/s的Infiniband交换机链接。2.4 管理网络配置一套联想千兆网络作为系统的管理网络。2.5控制台 机群配置一台1U折叠式液晶显示器作为控制台。2.6 存储系统配置1台联想SureFibre 640光纤磁盘阵列:l 联想品牌,支持Linux操作系统;l 总容量10TB,持续输入/输出带宽400MB/s;在不删除用户原有数据的情况下,可升级至容量44.8TB,持续输入输出带宽800MB/s;l 采用15Krpm磁盘阵列,支持热插拔、阵列快照;l 冗余双控制器,每个控制器2个4Gb光纤端口,
20、每个控制器配置1GB高速缓存带断电保护功能;l 至少支持RAID1和5;l 电源及风扇全冗余。2.7 机群软件系统软件系统包括:操作系统、机群管理软件、作业调度软件、机群监控软件、并行编译环境。1操作系统:机群系统配置RedHat 5企业版操作系统。2机群管理软件:l 软件采用B/S架构,支持中英文界面;l 集群自动部署系统;l 通过Web GUI实现用户的集中管理;l 支持对各种系统资源CPU时间、内存、处理器数、节点数等进行分配与限制。3作业调度软件:l 通过Web GUI 配置资源管理和任务调度程序参数;l 智能化任务调度,实现资源预定,任务回填,动态优先级等功能;l 通过Web GUI
21、 实时观察任务状态。4编译系统并行库:GNU编译器、Intel C/C+、Intel Fortran、Intel MPI、mpich、OpenMP等,以及优化过的数学程序库:MKL、BLAS、LAPACK、Scalapack、FFT程序库、Intel调优工具和集群工具等。上述软件由联想负责安装与调试。3机群设备介绍3.1节点系统机群的节点系统包括:刀片计算节点,I/O节点和管理节点。 1刀片计算节点 联想B714R刀片机群系统的运算能力决定于机群系统中计算节点的运算能力和计算节点的数量规模,由于需要进行高密度的使用,通常对其单位体积内浮点运算能力要求较高,计算节点采用联想B714R刀片式效劳器
22、,配置2颗Intel最新Xeon E5500系列处理器,每机箱集成14片,刀片机箱可以安装InfiniBand模块,千兆以太网交换模块、管理模块、电源模块和风扇模块,不仅计算能力超强,而且在高速系统通信、管理等方面都有极高的集成度和性能。u 业界领先的高密度B714R可以在7U高的刀箱内可以部署14 片支持2个Intel E5500系列CPU的计算刀片。42U标准机柜内,可以部署最多6台B714R,84个计算刀片,672个计算核心,计算能力高达7.87万亿次。u 高效的电源转换效率B714R的电源转换效率高达93%。下表是不同电源转换效率下,功耗的节省情况。高效的电源转换效率带来的好处,除了节
23、约效劳器运行电费之外,还间接节省了UPS的采购本钱,以及为了机箱散热而采购的空调的采购本钱和电费本钱。此外,由于电源效率的提升,减少了电能转换成的热能,元器件的寿命和稳定行就会得到提高(注:元器件每当温度升高10度,寿命会减少3%)。电源效率的提升也减少了热能的产生,也使散热风扇噪声降低了。u 全热插拔配置B714R所有模块全部支持热插拔特性。这些模块包括电源模块、管理模块、ETHERNET交换模块、InfiniBand交换模块、计算刀片、计算刀片硬盘等。u 关键部件冗余配置B714R的关键模块全部支持冗余配置。电源模块支持N+1冗余、管理模块支持11冗余、ETHERNET交换模块支持11冗余
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 完整版 联想 刀片 服务器 技术 方案
限制150内