创新平台云高性能计算技术方案建议书合集4套.pdf
-
资源ID:95378346
资源大小:12.83MB
全文页数:264页
- 资源格式: PDF
下载积分:8金币
快捷下载

会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
创新平台云高性能计算技术方案建议书合集4套.pdf
大庆高性能计算大庆高性能计算解决方案解决方案 1.01.0 版版目目 录录目 录.21 概述.31.1建设背景.31.2设计范围.31.3总体设计原则.32 系统平台设计.42.1项目需求.42.2设计思想.52.3云存储系统方案.62.4系统优势和特点.62.5作业调度系统方案.83 系统架构.93.1 cStor系统基本组成.93.2 cStor系统功能描述.103.3 Jobkeeper系统基本组成.174 系统安全性设计.204.1安全保障体系框架.204.2云计算平台的多级信任保护.214.3基于多级信任保护的访问控制.254.4云平台安全审计.285 工作机制.315.1数据写入机制.315.2数据读出机制.326 关键技术.346.1负载自动均衡技术.346.2高速并发访问技术.346.3高可靠性保证技术.346.4高可用技术.356.5故障恢复技术.357 接口描述.367.1 POSIX通用文件系统接口访问.367.2应用程序API接口调用.368 本地容错与诊断技术.378.1 cStor高可靠性.378.2 cStor数据完整性.378.3 cStor快照技术.388.4 Jopkeeper故障处理技术.389 异地容灾与恢复技术.409.1 cStor数据备份与恢复系统功能.409.2 cStor异地文件恢复.411 概述概述1.1建设背景建设背景云存储平台与作业调度为本次高性能计算总体解决方案的一部分。主要针对海量的数据的集中存储、共享、计算与挖掘,建立一套具有高可靠、可在线弹性伸缩,满足高吞吐量并发访问需求的云存储与计算平台。为数据存储和高效计算提供便捷、统一管理和高效应用的基础平台支撑。1.2设计范围设计范围本技术解决方案针对海量数据集中存储、共享与计算,提供从系统软硬件技术架构、原理、硬件选型、网络接入以及软件与应用之间的接口等方面的全面设计阐述。1.3总体设计原则总体设计原则针对本次工程的实际情况,充分考虑系统建设的建设发展需求,以实现系统统一管理、高效应用、平滑扩展为目标,以“先进、安全、成熟、开放、经济”为总体设计原则。1.3.1先进性原则先进性原则在系统总体方案设计时采用业界先进的方案和技术,以确保一定时间内不落后。选择实用性强产品,模块化结构设计,既可满足当前的需要又可实现今后系统发展平滑扩展。1.3.2安全性原则安全性原则数据是业务系统核心应用的最终保障,不但要保证整套系统能够 7X24 运行,而且存储系统必须有高可用性,以保证应用系统对数据的随时存取。同时配置安全的备份系统,对应用数据进行更加安全的数据保护,降低人为操作失误或病毒袭击给系统造成的数据丢失。在进行系统设计时,充分考虑数据高可靠存储,采用高度可靠的软硬件容错设计,进行有效的安全访问控制,实现故障屏蔽、自动冗余重建等智能化安全可靠措施,提供统一的系统管理和监控平台,进行有效的故障定位、预警。1.3.3成熟性原则成熟性原则为确保整个系统能够稳定工作,软件平台将使用先进、完善、易于管理和稳定可靠的云存储资源管理系统,对于与应用的集成接口,提供统一的通用稳定访问接口。1.3.4开放性原则开放性原则系统建设具有开放性的标准体系,提供符合 POSIX 标准的通用文件系统访问接口,开放的应用 API 编程接口,提供人性化的应用和管理界面,以满足用户需求。遵循规范的通用接口标准,使全系统中的硬件、通信、软件、操作平台之间的互联共享。充分考虑系统的升级和维护问题,维护采用在线式的,即在系统不停止工作的情况下,可以更换单元备件。系统的维护和升级操作由系统管理员即可完成。1.3.5经济性原则经济性原则现有业务系统存储数据量较大,且数据的增长速度较快。因此在建设系统存储架构时,应从长远的角度考虑,建设一个长期的存储架构,除了可以应对存储硬件设备的升级速度外,还必须考虑到对前期存储设备的投资保护,在保证不断提供功能和性能提高的同时,存储架构在较长的时间内能够保持相对稳定。结合先进的云平台技术架构优势,根据本次项目建设的实际容量需求设计,同时充分考虑应用发展需求,实现系统可弹性在线平滑升级。通过软件实现在较廉价普通服务器上实现高度容错,同时能够在较低冗余度的情况下实现高度可靠容错,大大节约和降低系统建设的硬件成本。2 系统系统平台平台设计设计2.1项目需求项目需求2.1.1容量需求容量需求针对本次建设实际数据容量,一期拟建设 48TB 裸容量数据存储平台,主要存储数据。2.1.2吞吐量需求吞吐量需求为满足多用户或应用整体吞吐带宽需要,确保数据访问流畅,系统需提供多用户或应用并发访问高吞吐带宽设计,系统能够有效利用网络带宽,性能可通过规模增加实现平滑增长。2.1.3扩展性需求扩展性需求未来根据业务应用的变化和发展,需要快速实施系统资源的升级,可以在业务服务不间断的状态下平滑扩展,不会导致架构发生根本性变化,为不断产生和变化的业务需求提供持续的支持,支持业务系统的快速整合和部署对核心系统基础架构的特别要求。2.1.4低成本需求低成本需求要求系统能够以低硬件成本、低维护成本实现高可靠高性能应用要求,充分提高资源利用率,简化管理,并能灵活、可持续扩展。2.1.5可维护性需求可维护性需求要求系统具有自适应管理能力,安装、维护、升级简易方便,提供统一易用的 WEB 配置管理监控平台,实现智能化管理。2.1.6接口需求接口需求要求能够提供通用的文件系统接口,方便用户及应用系统访问,减少与应用集成或开发工作量,实现系统快速部署与集成。2.2设计思想设计思想采用业界成熟先进的云平台架构思想,采用软件实现对大量普通商用服务器存储空间资源进行虚拟化整合,实现软硬件故障高度容错,将系统控制流与数据流分离,同时使得数据在逻辑上集中、物理上分散,每台服务器同时对外提供服务,以达到多并发高吞吐量的性能要求,采用自注册机制、故障自动屏蔽、自动冗余重建技术实现系统自我维护和平滑扩展,系统服务 724 小时不间断。系统采用先进的编解码容错技术,可根据数据可靠性要求设置适当的冗余编解码策略进行系统部署,可以以极小的磁盘和硬件冗余度,实现高度的可靠性数据容错。2.3云存储云存储系统系统方案方案采用业界已经成熟的 cStor 云存储资源管理系统,在多台普通商用服务器上构建高性能高可靠云存储系统,作为本次云媒资系统云数据中心存储平台,其应用部署示意图如下图所示。cStor 云存储资源管理系统部署示意图2.4系统系统优势和特点优势和特点cStor 云存储系统是一套软件与硬件相结合的系统,其中专有技术和软件是高附加值部分,可以广泛应用于需要存储大量数据的应用场合(如安防、广电、电信、互联网、银行等领域)。该系统相比传统存储系统有如下技术优势:2.4.1高高度度可靠可靠存储系统采用云架构,数据被分块存储在不同的存储节点上,数据采用先进的 1:1 容错机制进行容错,可在任意损坏一个存储服务器节点的情况下实现数据完整可靠,系统对外存储访问服务不间断。云存储的管理节点采用了主备双机镜像热备的高可用机制,在主管理节点出现故障时,备管理节点自动接替主管理节点的工作,成为新的主管理节点,待故障节点修复并重启服务后,它则成为新的备管理节点,保障系统的 724 小时不间断服务。2.4.2优异优异性能性能cStor 采用控制流与数据流分离的技术,数据的存储或读取实际上是与各个存储节点上并行读写,这样随着存储节点数目的增多,整个系统的吞吐量和 IO 性能将呈线性增长。同时,cStor 采用负载均衡技术,自动均衡各服务器负载,使得各存储节点的性能调节到最高,实现资源优化配置。2.4.3无限容量无限容量系统容量仅受限于卷管理服务器内存,可支撑的容量接近无限,经推算,理论容量为 102410241024 PB(1G 个 PB 容量)。2.4.4在线伸缩在线伸缩cStor 云存储资源管理系统扩容非常方便,支持不停止服务的情况下,动态加入新的存储节点,无需任何操作,即实现扩容;同时,无需人为干预,也可以摘下任意节点,系统自动缩小规模而不丢失数据,存储在此节点上的数据将会重新备份到其他节点上。2.4.5通用易用通用易用cStor 云存储系统提供符合 POSIX 标准的通用文件系统接口,无论是哪种操作系统下的应用程序,都可以不经修改将云存储当成自己的海量磁盘来使用。同时,也提供专用的 API 接口,供开发人员调用。2.4.6智能管理智能管理提供基于 WEB 的管理控制平台,所有的管理工作均由 cStor 管理模块自动完成,使用人员无需任何专业知识便可以轻松管理整个系统。通过管理平台,可以对 cStor 中的所有节点实行实时监控,用户通过监控界面可以清楚地了解到每一个节点和磁盘的运行情况;同时也可以实现对文件级别的系统监控,支持损坏文件的查找和修复功能。系统提供用户安全认证及对不同用户进行配额设置与权限管理功能,满足应用的日常维护和安全管理需求。2.5作业调度系统方案作业调度系统方案采用业界已经成熟的 Jobkeeper 多任务调度系统,在多台普通商用服务器上构建高性能高可靠的任务调度平台。2.5.1高高度度可可靠性靠性Jobkeeper 采用“多主多备,负载均衡”的管理节点,从而保证无论管理节点还是处理节点都不存在任何单点故障问题。2.5.2低依赖性低依赖性Jobkeeper 采用模块化设计思想,通过统一化配置和 API 接口的方式向用户提供服务。2.5.3低干预性低干预性Jobkeeper 采用基于事件化的统一管理模式。在系统无人值守的情况下自动完成故障处理等功能。2.5.4高高实时性实时性Jobkeeper 在机器性能允许的范围内,所有任务的控制工作基本都在秒级完成,具有前所未有的高效性。3 系统架构系统架构在本次高性能计算系统建设中,云存储系统属于基础平台支撑层,以用于数据集中存储和共享,实现对数据的统一管理和高效应用。将数据逻辑集中物理分散,以提供多并发高吞吐带宽,最大程度降低系统访问瓶颈,任务调度则基于云存储进行大规模的高性能的并发计算。下面具体说明cStor云存储资源管理系统和Jobkeeper任务调度系统的基本组成和主要功能。3.1cStor 系统基本组成系统基本组成cStor 云存储资源管理系统采用分布式的存储机制,将数据分散存储在多台独立的存储服务器上。它采用包括卷管理服务器、元数据管理服务器(MasterServer)、数据存储节点服务器(Chunk Server)和挂接访问客户端以及管理监控中心服务器的结构构成虚拟统一的海量存储空间。在每个服务器节点上运行cStor 云存储资源管理系统的相应的软件服务程序模块。系统架构框图如下图所示。cStor 云存储资源管理系统架构其中,Master Server 保存系统的元数据,负责对整个文件系统的管理,MasterServer 在逻辑上只有一个,但采用主备双机镜像的方式,保证系统的不间断服务;Chunk Server 负责具体的数据存储工作,数据以文件的形式存储在 Chunk Server上,Chunk Server 的个数可以有多个,它的数目直接决定了 cStor 云存储系统的规模;挂接访问客户端即为服务器对外提供数据存储和访问服务的窗口,通常情况下,客户端可以部署在 Chunk Server 上,每一个块数据服务器,既可以作为存储服务器同时也可以作为客户端服务器。由一对元数据服务器及其管理的存储服务器节点所提供的存储空间称为一个卷空间,不同的卷空间由卷管理服务器虚拟化统一管理,对外可提供统一的海量存储空间。管理监控中心提供统一易用的 WEB 配置管理监控平台,提供设备监控、空间监控、文件监控、服务监控、用户认证管理、配额管理、故障告警及预警等功能,实现智能化管理。这种分布式系统最大的好处是有利于存储系统的扩展和实现,在小规模的数据扩展时,只需要添加具体的 Chunk Server 即可,而不需要添加整套设备。在实现大规模扩展时也可方便地添加整个卷设备。3.2cStor 系统功能描述系统功能描述cStor 云存储资源管理系统从功能上划份为三大部分:1)cStor 分布式分布式文文件件系统系统分布式文件系统实现文件数据存储、可靠性容错、可伸缩性保证、高可用保证、负载均衡和流量分担等功能。2)存储访问接口存储访问接口cStor 提供符合 POSIX 规范的文件系统访问接口,通过 cStor 访问挂接程序可将云存储空间挂接为本地目录或磁盘。同时可提供专用的 API 接口,支持业务应用层程序对云存储系统的直接访问。3)管理管理监控中心监控中心管理监控中心提供帐户管理、设备管理、系统监控、卷管理、告警管理、故障管理等功能。下面逐一详细介绍各部分系统功能。3.2.1cStor 分布式分布式文文件件系统系统cStor 分布式文件系统包括卷管理、元数据管理、块数据管理服务。参考上面系统架构框图左侧部分。元数据是指文件的名称、属性、数据块位置信息等,元数据管理通过元数据服务程序完成。因元数据访问频繁,故系统将元数据加载缓存至内存中管理,提高访问效率。由于元数据的重要性,元数据损坏或丢失则相当于文件数据丢失,因此实现了元数据服务器主备双机高可用,确保小时不间断服务。通过元数据远程多机冗余备份功能,实现在多台其它机器上备份元数据,当元数据服务器损坏,可以通过备份的元数据重新恢复服务,切保数据可以完整找回。块数据是指文件数据被按照一定大小(默认 64MB)分割而成的多个数据块,分布存储到不同的存储节点服务器上,并通过编解码容错算法产生相应的冗余块。块数据服务是运行在每个存储节点服务器上的块数据管理程序,负责使用存储服务器上的磁盘空间存储文件数据块,并实现相应的编解码功能。相比较传统业界的云存储采用块数据简单备份冗余容错机制,编解码容错方式大大降低了硬件资源冗余度,提高了磁盘利用率。由一对主备元数据服务器及其所管理的块数据服务器管理节点设备及其所提供的存储空间称为一个卷。卷管理服务器负责将多个卷虚拟化整合,对外提供统一的整体访问云存储空间。文件系统采用中心服务器模式分布式存储架构,控制流与数据流分离,通过增加存储节点系统采用自动注册机制,实现系统高可伸缩性,增加或减少存储节点规模,不影响系统正常提供存储访问服务。该系统架构实现了统一调度,负载均衡和流量自动分担功能,多个存储节点同时对外提供数据流服务,系统根据磁盘空间使用比例进行资源优化配置。同时在多个不同的存储节点之间实现根据空间比例进行优化配置,数据优先存储的空间利用比例相对较低的磁盘或存储服务器上。cStor 分布式文件系统具有自动冗余重建功能,确保损坏的数据块能够被解码或编码后存储到在线的正常的存储服务器节点上。3.2.2存储访问接口存储访问接口cStor 分布式文件系统提供符合 POSIX 规范的文件系统访问接口。支持 Linux、Windows、MaxOS X 等操作系统平台。可将云存储系统提供的存储空间挂接为本地目录或本地盘符来使用。用户操作云存储空间和操作本地文件相同。另外 cStor 提供专用的高速存取访问 API 接口,供性能要求很高的高端应用程序对接使用。3.2.3管理监控中心管理监控中心管理监控中心为系统管理员配置和维护 cStor 云存储资源管理系统的有效工具,充分体现了系统的可维护性。管理监控中心提供帐户管理、设备管理、系统监控、卷管理、告警管理、故障管理等功能。以下为部分系统管理界面。设备管理设备管理系统监控系统监控告警信息告警信息告警配置告警配置告警日志告警日志故障处理故障处理卷管理卷管理帐户管理帐户管理添加帐户添加帐户3.3Jobkeeper 系统基本组成系统基本组成Jobkeeper 的系统架构如下图所示:上图中对 Jobkeeper 进行了分层,对每层进行具体阐述虚拟化资源层:将机器进行虚拟化,形成更大范围的服务集群。存储层:存储数据的处理结果集或其他中间结果集的单元。数据处理层:独立的数据处理程序,是对不同需求数据的统一处理方案,由JobKeeper 调度平台进行统一的配置管理。业务层:对于应用层的相关功能的业务化,数字化处理,用于将应用层的需求任务进行规则化划分,形成统一的处理化模式。应用层:一组用于管理和结果反馈的显示组件。是整个系统面向用户和开发人员的基础承载。JobKeeper 的任务分发流程如下图所示:JobKeeper 任务分发流程图当用户在应用层下发任务给管理节点,管理节点调度机器采集机器节点的信息,根据具体的算法选取最优节点并分发任务,接下来具体的处理节点接收到任务并处理同时将结果返回给管理节点,管理节点整理汇总处理结果,而后返回给应用层。服务器节点组:负责对处理节点的系统信息以及任务处理信息进行实时的跟踪和保存,对应的信息镜像存储在基于 cStor 或者 NFS 服务的存储系统上。处理节点组:通过 RPC 的远程调用获取各自节点的任务处理目标,并实时的和处理节点上的任务处理目标进行对比,控制程序的执行和结束。处理节点组会在一个设定的心跳间隔内主动的和管理节点组联系一次,报告节点存活状态。4 系统安全性设计系统安全性设计4.1安全保障体系框架安全保障体系框架NSA 提出的信息安全保障技术框架(IATF),如下图所示。IATF 依据“深度防护战略”理论,要求从整体、过程的角度看待信息安全问题,强调人、技术、操作这三个核心原则,关注四个层次的安全保障:保护网络和基础设施、保护边界、保护计算环境、支撑基础设施。图表 基于深度防护战略的 IATF 模型IATF 模型从深度防护战略出发,强调人、技术和操作三个要素:人:人是信息的主体,是信息系统的拥有者、管理者和使用者,是信息保障体系的核心,是第一位的要素,同时也是最脆弱的。正是基于这样的认识,安全组织和安全管理在安全保障体系中是第一位的,要建设信息安全保障体系,首先必须建立安全组织和安全管理,包括组织管理、技术管理和操作管理等多个方面。技术:技术是实现信息安全保障的重要手段,信息安全保障体系所应具备的各项安全服务就是通过技术机制来实现的。当然 IATF 所指的技术是防护、检测、响应、恢复并重的、动态的技术体系。操作:也可称之“运行”,它体现了安全保障体系的主动防御,如果说技术的构成是被动的,那操作和流程就是将各方面技术紧密结合在一起的主动过程,运行保障至少包括安全评估、入侵检测、安全审计、安全监控、响应恢复等内容。信息安全保障体系的实现就是通过建立安全组织、安全管理和防护技术体系,协调组织、技术、运作三者之间的关系,明确技术实施和安全操作中技术人员的安全职责,从网络和基础设施、区域边界、计算环境、支撑基础设施等多层次保护,从而达到对安全风险的及时发现和有效控制,提高安全问题发生时的反应速度和恢复能力,增强网络与信息的整体安全保障能力。对于云计算安全参考模型,云安全联盟 CSA(Cloud Security Alliance)提出了基于 3 种基本云服务的层次性及其依赖关系的安全参考模型,并实现了从云服务模型到安全控制模型的映射。该模型显示 PaaS 位于 IaaS 之上,SaaS 位于PaaS 之上。该模型的重要特点是供应商所在的等级越低,云服务用户所要承担的安全能力和管理职责就越多。根据资源或服务的管理权、所有权和资源物理位置的不同,CSA 也给出了不同的云部署模型的可能实现方式及其不同部署模式下共享云服务的消费者之间的信任关系,如下图所示。图表 云部署模型的实现此图显示,对于私有云和社区云,有多种实现方式,可以和公共云一样,由第三方拥有和管理并提供场外服务(off-premises),所不同的是共享云服务的消费者群体之间具有信任关系,局限于组织内部和可信任的群体之间。对于每一种云部署实现方式,都可以提供 3 种基本的云服务。云部署实现的不同方式和基本云服务的组合构成不同的云服务消费模式。结合云服务安全参考模型,可以确定不同的云服务消费模式下供应商和用户的安全控制范围和责任,用户评估和比较不同云服务消费模式的风险及现有安全控制与要求的安全控制之间的差距,做出合理的决策。4.2云计算平台的多级信任保护云计算平台的多级信任保护云计算可信平台实现系统平台(计算环境)认证、应用系统完整性认证、分布式资源信任认证和用户身份认证 4 个层次。多层信任保护的具体结构如下图所示。图表 多级信任保护在上图中,平台认证是基础,为其他 3 种认证提供一个可靠的计算环境。平台认证、应用认证、资源认证和用户认证都通过统一的证书机制来实现。(1)云平台信任保护由于 TPM(trust platform module)规范能够支持现有的公钥基础设施,并且 TPM 内部的认证密钥和 64 位物理唯一序列号都能很好地实现自身和平台的绑定。因此可信平台之间的信任关系可以借助基于可信第三方的证书机制来保障。即每一个节点将能够代表自身特征的关键信息以可靠地方式提交到可信第三方(如 CA 中心),可信第三方在核实这些数据的真实性和完整性后对其签名,并为其颁发一个平台证书。此后,该平台在和其他平台通信时可以出示该证书,以表明自己的合法身份。平台在向可信第三方提交平台信息和验证其他平台证书合法性时,都需要借助 TPM 的硬件支持。在下图所示的实例中,云平台 A 和 B 都从证书颁发中心获得自己的平台证书。当 B 请求与 A 建立连接并向 A 出示自己的证书后,A 借助 TPM 验证 B 出示的证书的有效性。图表 基于可信第三方的平台认证为了确保云端用户访问云平台的可信性,并确保远程节点具有期望的完全保障条件,基于可信计算平台的多级信任保护方法构造包含下表中各种主要因素的平台证书。数据名称数据类型数据说明Cert_NumChar证书编号Cert_TypeShort证书类型Cert_DistributeTimeByte20颁发时间Cert_LimitTimeByte20有效期限TPM_IDByte8TPM 序列号Hardware_CodeByte20平台硬件标识Software_CodeByte20平台软件标识SecureComponent_CodeByte20安全组织组件标识CA_SignatureByte128CA 签名信息图表 主要因素平台证书在图中,TPM 和端系统唯一绑定;硬件标识码代表了端系统中各种硬件设备的完整性信息,包括 CPU 序列号、主板型号、硬盘序列号、内存容量等;软件标识码代表了端系统中包含操作系统版本、补丁、主要服务等软件完整性信息;安全组件标识码是各种安全组件的完整性度量结果,包括防火墙类型、安全补丁、防病毒软件名称等。为了获取这些数据的完整性度量结果,采用 Hash 函数对系统中的硬件标识信息、软件版本信息或安全组件描述信息进行计算,得出一个代表该系统相关信息完整性的度量值。此处,选择 SHA-1 算法作为完整性度量函数。签名信息是可信第三方对证书内容的数字签名,签名信息的存在确保了证书的合法性和不可篡改性。(2)应用信任保护有了云平台认证,用户就能断言远程协作者在确定的节点和环境中进行工作。但在网络计算等复杂应用中,一个节点可能承载了多个应用系统、担负着多个计算任务。所以,需要确保单个应用系统不同部分间(如客户端和服务器端)的可信。Seshadri 等人研究了代码的远程完整性验证方法。该方法从数据完整性的角度解决了授权执行的远程应用的可信性。借鉴他的思想,采用认证应用系统中进程完整性的办法对应用系统进行信任保护。即端系统控制各个应用的进程,只有通过完整性认证并授权执行的进程才能被启动。为此,系统为每个重要的分布式应用定义若干个进行完整性证书,证书的主要内容如下表所示。数据名称数据类型数据说明Process_IDByte20进程 IDProcess_IntegrityByte20完整性度量值TPM_SignByte20TPM 签名信息在图中,进程完整性度量值是采用单向散列函数对进程代码进行计算后得出的值。进程完整性证书中。进程完整性认证可以确保远程协作进程的可信性,一定程度上降低病毒和木马进行插入攻击的风险。(3)资源信任保护多级信任保护方法仍然采用证书机制实现对资源的信任保护,即端系统基于TPM 给平台中共享的网络资源颁发完整性证书并签名。其他对等的端系统需要访问该资源时,可以验证该证书的合法性并从证书中获悉资源的完整性度量数据。由于采用单向散列函数计算出的资源完整性度量值能够代表该资源的可信性,因此远程用户可以据此决定是否访问该网络资源。考虑单纯采用单向散列函数计算资源的完整性消耗的时间过长,实际实现时根据资源可信要求的不同采取了一些灵活的措施。如一些可信要求不高的资源文件,只针对资源文件的基本属性或按样条规则抽出部分数据进行完整性度量;资源完整性证书的主要数据成员如下表所示。数据名称数据类型数据说明Process_IDByte20资源标识 IDProcess_IntegrityByte20资源完整性信息TPM_SignByte20TPM 签名信息(4)用户信任保护用户信任保护的需求在现有分布式应用中已经普遍存在,但现有基于身份认证的用户信任保护方法仅仅针对用户实体进行认证,无法将用户实体和计算环境以及用户的物理存在性联系起来。基于可信平台的多级信任保护方法在系统平台认证和应用认证的基础上进一步进行用户身份认证,从而能够将系统中的用户锁定到具体的计算平台和具体的应用系统。多级信任保护方法中的用户身份证书的主要数据成员如下表所示。数据名称数据类型数据说明User_IDByte16用户 IDApplication_IDByte16应用 IDPlatform_IDByte16平台 IDApp_SignByte16应用签名TPM_SignByte16TPM 签名在上表中,用户 ID 是系统中用户的惟一标识,可以使用用户编号(用户名称)或者用户拥有的智能卡(SKEY)的序列号;所属应用 ID 是用户所属应用的惟一标识,可以使用应用的完整性度量值来代替(单进程应用可以使用进程的完整性数据代替,多进程应用可以将各个进程完整性度量数据拼接后,计算出新的整个应用的完整性度量数据);平台 ID 是创建该用户的端系统标识,可以使用和平台绑定的 TPM 的惟一序列号。4.3基于多级信任保护的访问控制基于多级信任保护的访问控制用户管理与权限控制子系统的接口关系如下图所示,各模块间接口关系如下:身份服务模块在用户提交进入系统的申请后向身份管理系统模块提交用户信息和身份申请;身份管理系统模块在确认用户信息后将身份管理指令和身份信息反馈至身份服务模块;认证服务模块对用户身份进行验证,确认用户合法性;访问控制模块接收用户的授权请求后,向授权管理系统模块提交用户授权和相关信息;授权管理系统模块根据用户信息(如用户所对应角色、所在安全域等)为用户分配相应的权限或回收相应权限将结果反馈给访问控制模块;访问控制模块得到用户的权限信息后根据信息的内容和用户请求执行需要的具体操作。数据隔离、数据校验(防篡改)、数据加密和数据保护模块提供对存储数据的安全保护。图表 云存储安全子系统接口关系图在云平台中,用户有不同的访问权限,针对不同权限的用户可以设定不同等级的操作。同时存储在底层资源池中的资源也同样划分为不同的安全等级,不同等级的资源,访问途径是不相同的。本项目提出了基于可信平台的多级信任保护方法,其主要目标是能够认证访问云平台的应用(进程)、资源和用户的可信性,从而能够非常方便地服务于多级访问控制技术,为其提供良好的基础。简单地,可以将系统中的资源按可信性需求程度分为高、中和低 3 个等级。资源的可信要求越高,对访问该资源的用户的可信性也要求越高。具体流程如下图所示:图表 基于多级信任保护的多级访问控制流程为了更好的保护虚拟资源池的数据安全,首先要建立一个可信的资源访问控制,可以利用网闸和访问控制器建立一套监控机制,对访问资源池的请求进行监督,只允许外部连接通过专用的协议进行访问,而对其它非可信的访问一律拒绝,以防止恶意的非法入侵和攻击,包括漏洞攻击、DDoS 攻击和带宽攻击等,建立一个数据安全交换平台,如下图所示。图表数据安全交换平台具体实现方式包括:会话终止:请求端通过网闸与资源池建立连接时,网闸的对外网络接口会通过模拟应用的服务器端,终止网络之间的会话连接,这样可确保在不可信和可信网络之间没有一条激活的会话连接;协议安全检查:对来自连接的数据包进行基于内部 RFC 的协议分析,也可以对某些协议进行动态分析,检查是否有攻击成分;数据抽取和内部封装:在协议检查同时,将协议分析后的数据包中的数据提取出来,然后将数据和安全协议一起通过特定的格式压缩、数据封装转化成网闸另一端能接受的格式;基于安全策略的决策审查:安全策略决策是运行在访问控制器上,由系统管理员定义。它分析外部来的数据,主要是源地址、目的地址以及协议等信息,并且和规则库进行匹配,看是否允许通过或丢弃;编码与解码:对静态的数据块进行编码,编码是相对复杂而且基于随机关键字的。一旦编码,则打乱了数据或命令的原有格式,使数据中可能携带的可执行恶意代码失效,阻止恶意程序执行。一旦数据经过了内容检测且确认是安全的,它就被解码,准备发送到内部网络;会话生成内部服务器模拟应用的客户端,将经检测过的数据发送到内部网络,和内部网络上真正的应用服务器建立一个新的连接,接着生成符合 RFC 协议的新通信包。同时,通过外部集成入侵检测系统 IDS,对网络通信进行安全审计,及时发现和追踪各类非法连接行为;通过外部集成的负载均衡设备,为访问用户提供虚拟 IP 地址,保证物理机器对用户不可见,避免非法用户对真实物理机的直接访问,避免对物理机的可能操作动作。4.4云平台安全审计云平台安全审计云平台安全审计任务由分布于网络各处的功能单元协作完成,这些单元还能在更高层次结构上进一步扩展,从而能够适应网络规模的扩大。云安全审计体系结构如下图所示。图表云存储安全审计体系结构它由三部分组成:主机代理模块:在受监视系统中作为后台进程运行的审计信息收集模块。主要目的是收集主机上与安全相关的事件信息,并将数据传送给中央管理者。局域网监视器代理模块:主要分析局域网通讯流量,根据需要将结果报告给中央管理者。中央管理者模块:接收包括来自局域网监视器和主机代理的数据和报告,控制整个系统的通信信息,对接收到的数据进行分析。在云安全审计体系结构中,代理截获审计收集系统生成的审计记录,应用过滤器去掉与安全无关的记录,然后将这些记录转化成一种标准格式以实现互操作。然后,代理中的分析模块分析记录,并与该用户的历史映像相比较,当检测出异常时,向中央管理者报警。局域网监视器代理审计主机与主机之间的连接以及使用的服务和通讯量的大小,以查找出显著的事件,如网络负载的突然改变、安全相关服务的使用等。对于安全审计系统来说,数据源可以分为三类:基于主机、基于目标、基于网络,下面分别对每类来源进行论述。(1)基于主机的数据源基于主机(包括虚拟机)的数据有以下四类:操作系统日志、系统日志、应用日志和基于目标的信息。(2)基于目标的数据源评估出系统中关键的或是有特殊价值的对象,针对每一个对象制定信息收集和监视机制,该对象即为审计的目标;对于审计目标的每一次状态转变,与系统的安全策略进行比较,所出现的任何异常都进行记录或响应。最常见的基于目标的审计技术是完整性校验,其审计对象多为文件。采用消息摘要算法,计算需要保护的系统对象(如关键文件)的校验值,并存储在安全区域。周期性地对目标进行检查,可以发现目标是否被改变,从而提供一定级别的保护。(3)基于网络的数据源网络数据源的基本原理是:当网络数据流在网段中传播时,采用特殊的数据提取技术,收取网络中传输的数据,作为安全审计系统的数据源。在计算机网络系统中,局域网普遍采用的是基于广播机制的 IEEE 802.3 协议,即以太网(Ethernet)协议。该协议保证传输的数据包能被同一冲突域内的所有主机接收,基于网络的安全审计正是利用了以太网的这一特性。安全审计方法描述:为系统描述方便,用 T 表示安全服务器,与外部网络隔离,它的通信安全性可由各种方法实现,如抵赖的令牌、VPN 安全信道、SSL 安全信道等,如内部网络中的安全服务器、安全的电子证据收集设备或安全的中央服务器等;用 U 表示不安全的系统,容易受到攻击却记录着日志的计算机系统,它在物理位置上并不安全,也就是说它是接入网络的,也没有有效的防御措施来确保不被攻击者控制,如个人 PC、防火墙、入侵检测系统或其它应用系统等;用 V 表示某些授权用户使用的计算机,安全性介于 U 和 T 之间,它能被信任查看某些日志记录,但不能修改记录,也就是说并不支持所有的操作,如内部工作站等。本系统创建新的安全日志文件时,由 U 随机产生初始认证密钥,并由安全信道发送到 T 保存。U 产生原始日志信息,通过多种加密的标准工具对原始日志的每条记录进行保护后写入安全审计日志文件中,并定期将安全审计日志文件备份到 T 中保存。安全审计时,T 发送认证码给 V,指定 V 查看或审计 U 和 T 中的日志文件的部分日志记录,也可由 T 直接对 U 中的日志文件进行安全审计,出现可疑信息时与 T 中的备份日志数据进行比较,发现确实不一致的则可初步判断 U可能遭受攻击。安全日志审计系统结构如下图所示。图表 安全日志审计系统结构图U 开始创建日志文件时与安全的认证系统 T 共享一个密钥,用这个密钥创建日志文件。对于分布式安全审计系统的具体实现来说,应用 Agent 技术是一个较好的解决方案,该技术已经在一些实际的安全审计系统中得到了应用。Agent 最早起源于人工智能,现广泛地应用于人工智能、网络管理、软件工程等领域。我们将 Agent(代理)定义为“一个自治的实体,它能够感知环境,并且对外界的信息做出判断和推理,来控制自己的决策和行动,以便完成一定的任务”。基于 Agent 的安全审计系统是将 Agent 分布于系统的关键点上,包括提供各项服务的服务器、重要的工作站、内部网关和防火墙上,完成大部分安全审计和响应任务。由于代理本身具有自治性,可以针对特定的应用环境编程和配置,使得代理占用系统资源最小;在将代理放入具体复杂环境前可以对它进行独立测试;同时通过 Agent 间的有限交互(包括数据和控制信息),可以获得更复杂的信息,有利于解决网络中的协作入侵活动。安全审计中 Agent 通过探查所在的系统的日志文件,捕获网络数据包或其他的信息源获取数据。此外,将审计任务分配到多台计算机上有利于减少监控计算机的负荷,而且能提高系统的处理速度和效率,提高系统的实时性;最后,Agent 可以自动升级,而且对系统的其他部分保持透明。5 工作机制工作机制5.1数据写入机制数据写入机制数据写入过程参考下图:(1)客户端向元数据服务器请求写入文件数据,元数据服务器返回写入服务器列表;(2)客户端进行文件切块写入有块数据服务器;(3)客户端每写入一定量的块数据后,通知元数据服务器,由元数据服务器启动一个编码任务,进行编码;而客户端继续写数据,真到写完成为止;(4)元数据服务器调度一个或多个块数据服务器进行编码任务;(5)被调度的块数据服务器,获取需要的原始信息块组进行编码,产生冗余数据块;5.2数据读出机制数据读出机制数据读出过程参考下图:(1)客户端向元数据服务器请求读出文件数据,元数据服务器返回数据块位置列表;(2)客户端进行数据块读出;(3)客户端进行数据块校验;(4)对未能读出的数据块或无效块通过同编码组内其它数据块进行解码,获得完整正解的文件数据。6 关键技术关键技术6.1负载自动均衡技术负载自动均衡技术云存储系统采用中心服务器模式来管理整个云存储文件系统,所有元数据均保存在主管理服务器上,文件则划分为多个节点存储在不同的节点服务器上。主卷管理服务器维护了一个统一的命名空间,同时掌握整个系统内节点服务器的使用情况,当客户端向元数据服务器发送数据读写的请求时,元数据服务器根据节点服务器的磁盘使用情况、网络负担等情况,选择负担最轻的节点服务器对外提供服务,自动均衡负载负担。另外,当某有一个节点服务器因为机器故障或者其他原因造成离线时,主卷管理服务器会将此机器自动屏蔽掉,不再将此节点服务器提供给客户端使用,同时存储在此节点服务器上的数据也会自动的编码冗余到其他可用的节点服务器上,