创新平台云高性能计算技术方案建议书合集4套.pdf





《创新平台云高性能计算技术方案建议书合集4套.pdf》由会员分享,可在线阅读,更多相关《创新平台云高性能计算技术方案建议书合集4套.pdf(264页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大庆高性能计算大庆高性能计算解决方案解决方案 1.01.0 版版目目 录录目 录.21 概述.31.1建设背景.31.2设计范围.31.3总体设计原则.32 系统平台设计.42.1项目需求.42.2设计思想.52.3云存储系统方案.62.4系统优势和特点.62.5作业调度系统方案.83 系统架构.93.1 cStor系统基本组成.93.2 cStor系统功能描述.103.3 Jobkeeper系统基本组成.174 系统安全性设计.204.1安全保障体系框架.204.2云计算平台的多级信任保护.214.3基于多级信任保护的访问控制.254.4云平台安全审计.285 工作机制.315.1数据写入机
2、制.315.2数据读出机制.326 关键技术.346.1负载自动均衡技术.346.2高速并发访问技术.346.3高可靠性保证技术.346.4高可用技术.356.5故障恢复技术.357 接口描述.367.1 POSIX通用文件系统接口访问.367.2应用程序API接口调用.368 本地容错与诊断技术.378.1 cStor高可靠性.378.2 cStor数据完整性.378.3 cStor快照技术.388.4 Jopkeeper故障处理技术.389 异地容灾与恢复技术.409.1 cStor数据备份与恢复系统功能.409.2 cStor异地文件恢复.411 概述概述1.1建设背景建设背景云存储平台
3、与作业调度为本次高性能计算总体解决方案的一部分。主要针对海量的数据的集中存储、共享、计算与挖掘,建立一套具有高可靠、可在线弹性伸缩,满足高吞吐量并发访问需求的云存储与计算平台。为数据存储和高效计算提供便捷、统一管理和高效应用的基础平台支撑。1.2设计范围设计范围本技术解决方案针对海量数据集中存储、共享与计算,提供从系统软硬件技术架构、原理、硬件选型、网络接入以及软件与应用之间的接口等方面的全面设计阐述。1.3总体设计原则总体设计原则针对本次工程的实际情况,充分考虑系统建设的建设发展需求,以实现系统统一管理、高效应用、平滑扩展为目标,以“先进、安全、成熟、开放、经济”为总体设计原则。1.3.1先
4、进性原则先进性原则在系统总体方案设计时采用业界先进的方案和技术,以确保一定时间内不落后。选择实用性强产品,模块化结构设计,既可满足当前的需要又可实现今后系统发展平滑扩展。1.3.2安全性原则安全性原则数据是业务系统核心应用的最终保障,不但要保证整套系统能够 7X24 运行,而且存储系统必须有高可用性,以保证应用系统对数据的随时存取。同时配置安全的备份系统,对应用数据进行更加安全的数据保护,降低人为操作失误或病毒袭击给系统造成的数据丢失。在进行系统设计时,充分考虑数据高可靠存储,采用高度可靠的软硬件容错设计,进行有效的安全访问控制,实现故障屏蔽、自动冗余重建等智能化安全可靠措施,提供统一的系统管
5、理和监控平台,进行有效的故障定位、预警。1.3.3成熟性原则成熟性原则为确保整个系统能够稳定工作,软件平台将使用先进、完善、易于管理和稳定可靠的云存储资源管理系统,对于与应用的集成接口,提供统一的通用稳定访问接口。1.3.4开放性原则开放性原则系统建设具有开放性的标准体系,提供符合 POSIX 标准的通用文件系统访问接口,开放的应用 API 编程接口,提供人性化的应用和管理界面,以满足用户需求。遵循规范的通用接口标准,使全系统中的硬件、通信、软件、操作平台之间的互联共享。充分考虑系统的升级和维护问题,维护采用在线式的,即在系统不停止工作的情况下,可以更换单元备件。系统的维护和升级操作由系统管理
6、员即可完成。1.3.5经济性原则经济性原则现有业务系统存储数据量较大,且数据的增长速度较快。因此在建设系统存储架构时,应从长远的角度考虑,建设一个长期的存储架构,除了可以应对存储硬件设备的升级速度外,还必须考虑到对前期存储设备的投资保护,在保证不断提供功能和性能提高的同时,存储架构在较长的时间内能够保持相对稳定。结合先进的云平台技术架构优势,根据本次项目建设的实际容量需求设计,同时充分考虑应用发展需求,实现系统可弹性在线平滑升级。通过软件实现在较廉价普通服务器上实现高度容错,同时能够在较低冗余度的情况下实现高度可靠容错,大大节约和降低系统建设的硬件成本。2 系统系统平台平台设计设计2.1项目需
7、求项目需求2.1.1容量需求容量需求针对本次建设实际数据容量,一期拟建设 48TB 裸容量数据存储平台,主要存储数据。2.1.2吞吐量需求吞吐量需求为满足多用户或应用整体吞吐带宽需要,确保数据访问流畅,系统需提供多用户或应用并发访问高吞吐带宽设计,系统能够有效利用网络带宽,性能可通过规模增加实现平滑增长。2.1.3扩展性需求扩展性需求未来根据业务应用的变化和发展,需要快速实施系统资源的升级,可以在业务服务不间断的状态下平滑扩展,不会导致架构发生根本性变化,为不断产生和变化的业务需求提供持续的支持,支持业务系统的快速整合和部署对核心系统基础架构的特别要求。2.1.4低成本需求低成本需求要求系统能
8、够以低硬件成本、低维护成本实现高可靠高性能应用要求,充分提高资源利用率,简化管理,并能灵活、可持续扩展。2.1.5可维护性需求可维护性需求要求系统具有自适应管理能力,安装、维护、升级简易方便,提供统一易用的 WEB 配置管理监控平台,实现智能化管理。2.1.6接口需求接口需求要求能够提供通用的文件系统接口,方便用户及应用系统访问,减少与应用集成或开发工作量,实现系统快速部署与集成。2.2设计思想设计思想采用业界成熟先进的云平台架构思想,采用软件实现对大量普通商用服务器存储空间资源进行虚拟化整合,实现软硬件故障高度容错,将系统控制流与数据流分离,同时使得数据在逻辑上集中、物理上分散,每台服务器同
9、时对外提供服务,以达到多并发高吞吐量的性能要求,采用自注册机制、故障自动屏蔽、自动冗余重建技术实现系统自我维护和平滑扩展,系统服务 724 小时不间断。系统采用先进的编解码容错技术,可根据数据可靠性要求设置适当的冗余编解码策略进行系统部署,可以以极小的磁盘和硬件冗余度,实现高度的可靠性数据容错。2.3云存储云存储系统系统方案方案采用业界已经成熟的 cStor 云存储资源管理系统,在多台普通商用服务器上构建高性能高可靠云存储系统,作为本次云媒资系统云数据中心存储平台,其应用部署示意图如下图所示。cStor 云存储资源管理系统部署示意图2.4系统系统优势和特点优势和特点cStor 云存储系统是一套
10、软件与硬件相结合的系统,其中专有技术和软件是高附加值部分,可以广泛应用于需要存储大量数据的应用场合(如安防、广电、电信、互联网、银行等领域)。该系统相比传统存储系统有如下技术优势:2.4.1高高度度可靠可靠存储系统采用云架构,数据被分块存储在不同的存储节点上,数据采用先进的 1:1 容错机制进行容错,可在任意损坏一个存储服务器节点的情况下实现数据完整可靠,系统对外存储访问服务不间断。云存储的管理节点采用了主备双机镜像热备的高可用机制,在主管理节点出现故障时,备管理节点自动接替主管理节点的工作,成为新的主管理节点,待故障节点修复并重启服务后,它则成为新的备管理节点,保障系统的 724 小时不间断
11、服务。2.4.2优异优异性能性能cStor 采用控制流与数据流分离的技术,数据的存储或读取实际上是与各个存储节点上并行读写,这样随着存储节点数目的增多,整个系统的吞吐量和 IO 性能将呈线性增长。同时,cStor 采用负载均衡技术,自动均衡各服务器负载,使得各存储节点的性能调节到最高,实现资源优化配置。2.4.3无限容量无限容量系统容量仅受限于卷管理服务器内存,可支撑的容量接近无限,经推算,理论容量为 102410241024 PB(1G 个 PB 容量)。2.4.4在线伸缩在线伸缩cStor 云存储资源管理系统扩容非常方便,支持不停止服务的情况下,动态加入新的存储节点,无需任何操作,即实现扩
12、容;同时,无需人为干预,也可以摘下任意节点,系统自动缩小规模而不丢失数据,存储在此节点上的数据将会重新备份到其他节点上。2.4.5通用易用通用易用cStor 云存储系统提供符合 POSIX 标准的通用文件系统接口,无论是哪种操作系统下的应用程序,都可以不经修改将云存储当成自己的海量磁盘来使用。同时,也提供专用的 API 接口,供开发人员调用。2.4.6智能管理智能管理提供基于 WEB 的管理控制平台,所有的管理工作均由 cStor 管理模块自动完成,使用人员无需任何专业知识便可以轻松管理整个系统。通过管理平台,可以对 cStor 中的所有节点实行实时监控,用户通过监控界面可以清楚地了解到每一个
13、节点和磁盘的运行情况;同时也可以实现对文件级别的系统监控,支持损坏文件的查找和修复功能。系统提供用户安全认证及对不同用户进行配额设置与权限管理功能,满足应用的日常维护和安全管理需求。2.5作业调度系统方案作业调度系统方案采用业界已经成熟的 Jobkeeper 多任务调度系统,在多台普通商用服务器上构建高性能高可靠的任务调度平台。2.5.1高高度度可可靠性靠性Jobkeeper 采用“多主多备,负载均衡”的管理节点,从而保证无论管理节点还是处理节点都不存在任何单点故障问题。2.5.2低依赖性低依赖性Jobkeeper 采用模块化设计思想,通过统一化配置和 API 接口的方式向用户提供服务。2.5
14、.3低干预性低干预性Jobkeeper 采用基于事件化的统一管理模式。在系统无人值守的情况下自动完成故障处理等功能。2.5.4高高实时性实时性Jobkeeper 在机器性能允许的范围内,所有任务的控制工作基本都在秒级完成,具有前所未有的高效性。3 系统架构系统架构在本次高性能计算系统建设中,云存储系统属于基础平台支撑层,以用于数据集中存储和共享,实现对数据的统一管理和高效应用。将数据逻辑集中物理分散,以提供多并发高吞吐带宽,最大程度降低系统访问瓶颈,任务调度则基于云存储进行大规模的高性能的并发计算。下面具体说明cStor云存储资源管理系统和Jobkeeper任务调度系统的基本组成和主要功能。3
15、.1cStor 系统基本组成系统基本组成cStor 云存储资源管理系统采用分布式的存储机制,将数据分散存储在多台独立的存储服务器上。它采用包括卷管理服务器、元数据管理服务器(MasterServer)、数据存储节点服务器(Chunk Server)和挂接访问客户端以及管理监控中心服务器的结构构成虚拟统一的海量存储空间。在每个服务器节点上运行cStor 云存储资源管理系统的相应的软件服务程序模块。系统架构框图如下图所示。cStor 云存储资源管理系统架构其中,Master Server 保存系统的元数据,负责对整个文件系统的管理,MasterServer 在逻辑上只有一个,但采用主备双机镜像的方
16、式,保证系统的不间断服务;Chunk Server 负责具体的数据存储工作,数据以文件的形式存储在 Chunk Server上,Chunk Server 的个数可以有多个,它的数目直接决定了 cStor 云存储系统的规模;挂接访问客户端即为服务器对外提供数据存储和访问服务的窗口,通常情况下,客户端可以部署在 Chunk Server 上,每一个块数据服务器,既可以作为存储服务器同时也可以作为客户端服务器。由一对元数据服务器及其管理的存储服务器节点所提供的存储空间称为一个卷空间,不同的卷空间由卷管理服务器虚拟化统一管理,对外可提供统一的海量存储空间。管理监控中心提供统一易用的 WEB 配置管理监
17、控平台,提供设备监控、空间监控、文件监控、服务监控、用户认证管理、配额管理、故障告警及预警等功能,实现智能化管理。这种分布式系统最大的好处是有利于存储系统的扩展和实现,在小规模的数据扩展时,只需要添加具体的 Chunk Server 即可,而不需要添加整套设备。在实现大规模扩展时也可方便地添加整个卷设备。3.2cStor 系统功能描述系统功能描述cStor 云存储资源管理系统从功能上划份为三大部分:1)cStor 分布式分布式文文件件系统系统分布式文件系统实现文件数据存储、可靠性容错、可伸缩性保证、高可用保证、负载均衡和流量分担等功能。2)存储访问接口存储访问接口cStor 提供符合 POSI
18、X 规范的文件系统访问接口,通过 cStor 访问挂接程序可将云存储空间挂接为本地目录或磁盘。同时可提供专用的 API 接口,支持业务应用层程序对云存储系统的直接访问。3)管理管理监控中心监控中心管理监控中心提供帐户管理、设备管理、系统监控、卷管理、告警管理、故障管理等功能。下面逐一详细介绍各部分系统功能。3.2.1cStor 分布式分布式文文件件系统系统cStor 分布式文件系统包括卷管理、元数据管理、块数据管理服务。参考上面系统架构框图左侧部分。元数据是指文件的名称、属性、数据块位置信息等,元数据管理通过元数据服务程序完成。因元数据访问频繁,故系统将元数据加载缓存至内存中管理,提高访问效率
19、。由于元数据的重要性,元数据损坏或丢失则相当于文件数据丢失,因此实现了元数据服务器主备双机高可用,确保小时不间断服务。通过元数据远程多机冗余备份功能,实现在多台其它机器上备份元数据,当元数据服务器损坏,可以通过备份的元数据重新恢复服务,切保数据可以完整找回。块数据是指文件数据被按照一定大小(默认 64MB)分割而成的多个数据块,分布存储到不同的存储节点服务器上,并通过编解码容错算法产生相应的冗余块。块数据服务是运行在每个存储节点服务器上的块数据管理程序,负责使用存储服务器上的磁盘空间存储文件数据块,并实现相应的编解码功能。相比较传统业界的云存储采用块数据简单备份冗余容错机制,编解码容错方式大大
20、降低了硬件资源冗余度,提高了磁盘利用率。由一对主备元数据服务器及其所管理的块数据服务器管理节点设备及其所提供的存储空间称为一个卷。卷管理服务器负责将多个卷虚拟化整合,对外提供统一的整体访问云存储空间。文件系统采用中心服务器模式分布式存储架构,控制流与数据流分离,通过增加存储节点系统采用自动注册机制,实现系统高可伸缩性,增加或减少存储节点规模,不影响系统正常提供存储访问服务。该系统架构实现了统一调度,负载均衡和流量自动分担功能,多个存储节点同时对外提供数据流服务,系统根据磁盘空间使用比例进行资源优化配置。同时在多个不同的存储节点之间实现根据空间比例进行优化配置,数据优先存储的空间利用比例相对较低
21、的磁盘或存储服务器上。cStor 分布式文件系统具有自动冗余重建功能,确保损坏的数据块能够被解码或编码后存储到在线的正常的存储服务器节点上。3.2.2存储访问接口存储访问接口cStor 分布式文件系统提供符合 POSIX 规范的文件系统访问接口。支持 Linux、Windows、MaxOS X 等操作系统平台。可将云存储系统提供的存储空间挂接为本地目录或本地盘符来使用。用户操作云存储空间和操作本地文件相同。另外 cStor 提供专用的高速存取访问 API 接口,供性能要求很高的高端应用程序对接使用。3.2.3管理监控中心管理监控中心管理监控中心为系统管理员配置和维护 cStor 云存储资源管理
22、系统的有效工具,充分体现了系统的可维护性。管理监控中心提供帐户管理、设备管理、系统监控、卷管理、告警管理、故障管理等功能。以下为部分系统管理界面。设备管理设备管理系统监控系统监控告警信息告警信息告警配置告警配置告警日志告警日志故障处理故障处理卷管理卷管理帐户管理帐户管理添加帐户添加帐户3.3Jobkeeper 系统基本组成系统基本组成Jobkeeper 的系统架构如下图所示:上图中对 Jobkeeper 进行了分层,对每层进行具体阐述虚拟化资源层:将机器进行虚拟化,形成更大范围的服务集群。存储层:存储数据的处理结果集或其他中间结果集的单元。数据处理层:独立的数据处理程序,是对不同需求数据的统一
23、处理方案,由JobKeeper 调度平台进行统一的配置管理。业务层:对于应用层的相关功能的业务化,数字化处理,用于将应用层的需求任务进行规则化划分,形成统一的处理化模式。应用层:一组用于管理和结果反馈的显示组件。是整个系统面向用户和开发人员的基础承载。JobKeeper 的任务分发流程如下图所示:JobKeeper 任务分发流程图当用户在应用层下发任务给管理节点,管理节点调度机器采集机器节点的信息,根据具体的算法选取最优节点并分发任务,接下来具体的处理节点接收到任务并处理同时将结果返回给管理节点,管理节点整理汇总处理结果,而后返回给应用层。服务器节点组:负责对处理节点的系统信息以及任务处理信息
24、进行实时的跟踪和保存,对应的信息镜像存储在基于 cStor 或者 NFS 服务的存储系统上。处理节点组:通过 RPC 的远程调用获取各自节点的任务处理目标,并实时的和处理节点上的任务处理目标进行对比,控制程序的执行和结束。处理节点组会在一个设定的心跳间隔内主动的和管理节点组联系一次,报告节点存活状态。4 系统安全性设计系统安全性设计4.1安全保障体系框架安全保障体系框架NSA 提出的信息安全保障技术框架(IATF),如下图所示。IATF 依据“深度防护战略”理论,要求从整体、过程的角度看待信息安全问题,强调人、技术、操作这三个核心原则,关注四个层次的安全保障:保护网络和基础设施、保护边界、保护
25、计算环境、支撑基础设施。图表 基于深度防护战略的 IATF 模型IATF 模型从深度防护战略出发,强调人、技术和操作三个要素:人:人是信息的主体,是信息系统的拥有者、管理者和使用者,是信息保障体系的核心,是第一位的要素,同时也是最脆弱的。正是基于这样的认识,安全组织和安全管理在安全保障体系中是第一位的,要建设信息安全保障体系,首先必须建立安全组织和安全管理,包括组织管理、技术管理和操作管理等多个方面。技术:技术是实现信息安全保障的重要手段,信息安全保障体系所应具备的各项安全服务就是通过技术机制来实现的。当然 IATF 所指的技术是防护、检测、响应、恢复并重的、动态的技术体系。操作:也可称之“运
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 创新 平台 性能 计算 技术 方案 建议书

限制150内