江苏省软件工程技术研究开发中心云计算平台方案建议书.pdf
《江苏省软件工程技术研究开发中心云计算平台方案建议书.pdf》由会员分享,可在线阅读,更多相关《江苏省软件工程技术研究开发中心云计算平台方案建议书.pdf(96页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、云计算平台云计算平台技术方案建议书技术方案建议书、目目录录1.1(一)专家评价与修改意见表.错误!未定义书签。错误!未定义书签。1.2(二)科研机构基本信息.错误!未定义书签。错误!未定义书签。2系统总体概述.32.1系统基本功能.42.2系统建设的主要设计思想和设计目标、设计原则.52.3系统的主要技术特点.52.4系统总体构架.62.5cProc 云处理平台简介.82.6cStor 云存储系统简介.102.7OpenStack 简介.122.8系统设计性能.132.8.1数据流量处理能力.132.8.2数据存储读取能力.132.9系统功能.153系统设计实施与关键技术方法.173.1cPr
2、oc 云处理平台.173.1.1数据立方(DataCube).173.1.2任务监控器(JobKeeper).203.1.3cProc 数据处理.223.1.4数据压缩.243.1.5适应应用需求的混合存储策略.253.1.6HBase 数据存储.263.1.7数据库存储.273.2cProc 云处理平台可靠性设计.293.2.1可靠性概述.303.2.2HDFS 可靠性设计.313.2.3HBase 可靠性设计.333.2.4MapReduce 可靠性设计.353.2.5Zookeeper 可靠性设计.373.2.6数据存储的可靠性设计.393.2.7处理与存储集群 Master 单点失效容
3、错处理.413.2.8处理与存储集群的负载均衡处理.473.3cStor 云存储系统.503.3.1技术架构.503.3.2工作原理.523.3.3管理机制.533.3.4关键技术.543.4OpenStack 介绍.563.4.1OpenStack 是什么.563.4.2云服务提供商的概念架构.583.4.3OpenStack Compute 架构.593.4.4OpenStack Image Service.673.4.5OpenStack Object Storage.683.4.6OpenStack 界面图.753.5平台安全.753.5.1云处理平台信任保护.753.5.2基于多级信
4、任保护的访问控制.793.5.3云处理平台安全审计.823.5.4云处理平台安全网关.853.6软硬件设施清单.884项目管理和实施.934.1项目开发周期.934.2项目计划进度.934.3项目实施.944.4客户受益.951 系统总体概述系统总体概述1.1 系统需求分析系统需求分析系统需要广泛应用于移动互联网、金融证券、电子政务、教育科研等需要海量数据存储和处理的领域。同时,能为中小企业提供基于 SaaS 的低成本的信息化服务、虚拟化服务,降低企业信息化的门槛。云计算平台的建设能增强苏州市云计算与智能信息处理领域的自主开发能力,从而有力的推动该产业长期稳定的发展,进一步提升苏州市信息技术产
5、业的竞争力和影响力;能为苏州市中小企业提供信息化、虚拟化服务平台,对目前企业信息集成中存在的主要问题,如基础数据缺失、计划和安排生产的盲目性、流程不规范、现场采集数据困难等提供解决方案,推动苏州信息基础设施建设和中小企业信息化进程。1.2系统基本功能系统基本功能本项目在充分研究云计算现有成果的基础上,面向中小企业智能信息服务、新一代智能信息处理、移动互联网等重点领域的云计算需求,开展云计算关键技术研究。首先研究绿色环保节能云计算中心构建方案,基于先进的海量数据云存储技术构建一个高度可靠、可在线弹性伸缩、能够支持高并发大吞吐量的快速存取访问的云存储系统平台,用于海量的教学信息资源的存储和共享,并
6、为上层云计算数据处理和应用服务提供基础的数据存储平台;然后研究建立适合于中小企业智能信息服务、移动互联网应用服务等的云计算应用模式;最后针对云服务中的用户数据安全与隐私保护等核心问题开展研究,形成支撑具体云服务应用的关键技术体系。最终为后续具体应用服务构建一个安全、稳定、可靠的基础云平台。系统基本功能和组成如下:海量信息智能搜索与数据挖掘技术海量信息智能搜索与数据挖掘技术能够支撑 Deep Web 深度挖掘、自然语言处理、图形图像处理与理解和大规模知识库自动构建等需要复杂信息处理基于云计算的新型移动服务基于云计算的新型移动服务基于云计算的移动图像搜索与挖掘系统和基于云计算的移动位置地理信息服务
7、系统,为移动互联网用户提供新颖的拍照购物搜索服务和基于位置的地理信息服务基于智能生成模型的云计算信息技术支撑服务基于智能生成模型的云计算信息技术支撑服务建立动态工作流的智能生成模型,该模型能依据业务类型智能生成动态工作流,并能依据过程信息反馈调整生成类型基于云计算的海量数据存储平台基于云计算的海量数据存储平台搭建高度可靠、可在线弹性伸缩、能够支持高并发大吞吐量的快速存取访问,用于海量的教学信息资源的存储和共享,并为上层云计算数据处理和应用服务提供基础的数据存储平台企业虚拟化服、网站托管企业虚拟化服、网站托管为企业提供资源虚拟化、资源共享等服务,最大利用硬件资源,节约成本的同时,降低企业对资源的
8、管理难度1.3 系统建设的主要设计思想和设计目标、设计原则系统建设的主要设计思想和设计目标、设计原则设计思想设计思想:在充分研究移动互联网、云计算理论的基础上,研究基于云计算的移动互联网应用服务,通过云计算提供的高性能计算和海量数据存储能力,突破移动终端在计算能力和存储空间上的限制、扩展移动应用软件的类型、提高移动软件的服务质量和降低服务成本。设计目标设计目标:采用云计算、物联网和信息网格技术,构建一个绿色环保、安全、稳定、可靠的云基础平台;基于云计算技术实现 Deep Web、自然语言处理、图形图像处理与理解和大规模知识库自动构建等海量信息的高效处理;建立基于云计算的企业信息化应用软件模式,
9、开发出涵盖企业产品全生命周期的集成应用支撑软件系统和中小企业智能信息服务平台;建立基于云计算的移动互联网软件服务的应用模式,实现基于云计算的移动图像搜索与挖掘系统和基于云计算的移动位置地理信息服务系统。设计原则:设计原则:(1)技术领先,性能优异系统将采用国际先进的云存储和云计算技术,并在此基础上提供高效的查询和分析处理、资源虚拟化服务、网站托管等功能。(2)数据安全可靠系统将采用多种容错技术保证存储的数据安全和故障的自动恢复。1.4 系统的主要技术特点系统的主要技术特点海量数据存储及处理:海量数据存储及处理:基于先进的海量数据云存储技术构建一个高度可靠、可在线弹性伸缩、能够支持高并发大吞吐量
10、的快速存取访问的云存储系统平台,用于海量的教学信息资源的存储和共享,并为上层云计算数据处理和应用服务提供基础的数据存储平台高效处理能力和实时性高效处理能力和实时性:平台在高效率并行分布式软件的支撑下,可以实时完成数据入库、分析和管理工作。海量数据入库不会出现数据堆积现象,各类分析和查询工作基本都在秒级完成,具有前所未有的高效性。高可靠性高可靠性:基于对云计算可靠性深厚的研究积累,彻底解决了当前分布式计算平台易出现的单点故障问题。任何一个节点出现故障,系统将自动屏蔽,而且不会出现丢失数据的现象。可伸缩性可伸缩性:在不停机的情况下,增加节点,平台的处理能力自动增加;减少节点,平台的处理能力自动缩减
11、。这样,可以做到与云计算平台的无缝对接,根据计算和存储任务动态地申请或释放资源,最大限度地提高资源利用率。高性价比高性价比:采用 X86 架构廉价计算机构建云计算平台,用软件容错替代硬件容错,大大节省成本。在目标性能和可靠性条件下,可比传统的小型机加商用数据库方案节省 10 倍左右的成本。全业务支持全业务支持:采用分布式数据库模式,绝大部分海量数据存放于分布式平台并进行分布式处理,少量实时性要求很高的数据存放于关系数据库中,可支撑各种类型的业务。不仅支撑查询、统计、分析业务,还可支撑深度数据挖掘和商业智能分析业务。1.5 系统总体构架系统总体构架构建一个绿色环保、安全、稳定、可靠的云基础平台;
12、基于云计算技术实现Deep Web、自然语言处理、图形图像处理与理解和大规模知识库自动构建等海量信息的高效处理;建立基于云计算的企业信息化应用软件模式,开发出涵盖企业产品全生命周期的集成应用支撑软件系统和中小企业智能信息服务平台;建立基于云计算的移动互联网软件服务的应用模式,实现基于云计算的移动图像搜索与挖掘系统和基于云计算的移动位置地理信息服务系统;图表 1 系统示意图云存储系统层:在普通 x86 服务器上搭建高性价比的云存储系统,提供海量数据云存储能力,具有高度可靠、可在线弹性伸缩、能够支持高并发大吞吐量的快速存取访问等特性,能够支撑海量教学信息资源的存储和共享,并为上层云处理平台和应用服
13、务提供基础的数据存储平台。云处理平台层:云处理平台包含公司自主研发的数据立方(DataCube)和任务监控器(JobKeeper),数据立方提供所有数据的管理能力,而 JobKeeper 管理所有的请求任务,通过其具有的负载均衡能力,让所有处理几点并发的处理请求,采用智能搜索技术、数据挖掘技术、不确定处理技术、分布式并行处理技术,为上层提供高性能处理服务。虚拟化管理层:通过开源系统 OpenStack,管理用户、证书、镜像等,可以将硬件资源虚拟化成多个节点机器,用户可以租用自己的虚拟服务,互不干扰,而且任意节点宕机,不会影响整个虚拟化管理系统的运行,还能支持网站托管等功能。应用层:通过云处理平
14、台可以为应用层提供 Deep Web 深度挖掘、自然语言处理、图形图像处理与理解、大规模知识库自动构建、拍照购物搜索服务、基于位置的地理信息服务、移动图像搜索与挖掘系统等服务;其中所有的数据都存储在云存储系统上,而通过 OpenStack 虚拟化管理系统可以为用户企业提供资源虚拟化服务。1.6 cProc 云处理平台简介云处理平台简介云存储层包括公司自主研发的云储存系统 cStor 和 apache 开源云储存系统HDFS;而在数据管理层中,包含数据立方、Hbase;数据处理层包含 JobKeeper和 MapReduce;最后的监控协调层则包括 zookeeper 和 Chukwa 来实现对
15、整个系统的实时监控和数据管理。下图为 cProc 云处理平台架构:通过数据立方,可以对元数据进行数据分析、清理、分割。对结构化数据任意关键字索引,形成一个多维数据模型,数据立方的命名也由此而来。数据立方是独立于 cProc 云处理平台的技术架构,用户可以选择性采用数据立方,也可以单独采用 Hbase、Hive 等技术框架,通过数据立方或 Hbase,可以将结构化数据看成一张无限大的表,操作这张表跟操作传统关系型数据库一样,上层应用无需修改,完全符合用户原来操作习惯。对于非结构化数据,cProc 云处理平台采用公司自主研发的超安存算法,对这些数据块进行分割,散乱存储到云储存系统上,然后采用分布式
16、并行处理,对数据进行实时处理,cProc 云处理平台的处理性能随着节点的增多而成倍数增长。cProc 云处理平台拥有以下特点:1 1.对任意多关键字实时索引对任意多关键字实时索引2.2.支持类支持类 SQLSQL 复杂并行组合查询复杂并行组合查询3.3.分布式分布式万兆实时数据流秒级处理万兆实时数据流秒级处理4.4.高可靠性,系统无单点,确保意外情况下,系统的正常运行高可靠性,系统无单点,确保意外情况下,系统的正常运行以上特点由云创公司自主研发的下面几大功能来提供保证,分别是数据立方,分布式数据处理,调度均衡器、数据传输接口等。数据立方对数据建立高效的索引结构。数据立方是云创公司研发的高效数据
17、结构,该结构成功解决了海量数据的快速索引和查询问题,使得百亿条记录级的数据能够秒级处理。分布式数据处理是云创公司研发的处理海量数据的处理框架,用于对大规模数据集的并行处理。处理能力可以通过增加或减少机器达到动态调整。采用先进的容错技术,确保处理任务的可靠性,即使在异常情况下,如机器宕机、断网的情况下,确保处理任务的实时性和准确性。调度均衡器是云创公司研发的解决单点故障的一项技术,用于解决系统内的单点问题,确保某机器的应用程序状态在宕机或断网时,可将状态从异常机器转移到其他机器上,中间无数据丢失。数据传输接口是云创公司经过多年积累,专门针对地面数据传输研究出高性能可靠文件传输协议,采用并行流水线
18、方式、将传输与存储作联合优化,并支持多点中继高效传输。经过多项实地远程传输试验,结果表明该技术的传输效率在1Gb/s 光纤线路上达到了带宽的 80%左右,处于国际最高水平。几大功能相辅相成,高效且可靠地处理海量数据,确保响应迅速,传输速度快,处理结果准确。1.7 cStor 云存储系统简介云存储系统简介cStor 云存储系统是南京云创存储科技有限公司自主研发的、具有自主知识产权的高科技产品,是国内最早实现并保持领先的云存储系统,整套系统包括软件与硬件,是一个海量的云存储平台。图 2 C1000 系列云存储产品存储机柜与传统的大规模存储系统相比,cStor 针对绝大多数数据密集型应用的特点从多个
19、方面进行了优化,从而在一定规模下达到成本、可靠性和性能的最佳平衡。cStor 凭着超低的价格、优异的性能、高度可靠、绿色节能、无限容量、在线自动伸缩、易用通用等诸多压倒性优势,获得了广电、安防、刑侦、政务、交通、动漫等各行业用户青睐,产品代理和销售商已发展到数十家。目前,cStor 云存储系统已成熟应用于安防视频监控、刑侦、广电、交通、电信、医疗、政务等诸多领域,性能卓越,表现出色,从未出现故障,得到用户一致称赞。图 3 部署在南京政务云数据中心云创机器下图 4 为一简单的 cStor 云存储系统部署示意图。图 4 cStor 云存储系统部署示意图cStor 云存储系统采用了分布式的存储架构,
20、元数据服务器采用主备双机容错的方式管理各个存储节点,文件分散存储在各存储节点上。客户端与元数据服务器间只有控制流,数据流直接在各存储节点间交互。因此,系统的整体吞吐率随着存储的规模的增大是线性增加,直到达到带宽的饱和利用。1.8 OpenStack 简介简介OpenStack是一个与Amazon EC2兼容的IaaS系统。OpenStack包括OpenStackCompute 和 OpenStack Object Storage 两个部分。OpenStack Compute 又包含 Web 前端、计算服务、存储服务、身份认证服务、存储块设备(卷)服务、网络服务、任务调度等多个模块。OpenSt
21、ack Compute 的不同模块之间不共享任何信息,通过消息传递进行通讯。因此,不同的模块可以运行在不同的服务器上,也可以运行在同一台服务器上。OpenStack Object Store 可以利用通用服务器搭建可扩展的海量数据仓库,并且通过冗余来保证数据的安全性。同一份数据的在多台服务器上都有副本,将出现故障的服务器从集群中撤除不会影响数据的完整性,加入新的服务器后系统会自动地在新的服务器上为相应的文件创建新的副本。从功能上讲,OpenStackObject Store 同时具备 Eucalyptus 中的 Walrus 服务和弹性块设备(SC)服务。不过 OpenStack Object
22、 Store 不是一个文件系统,不能够保证数据的实时性。从这个方面来考虑,OpenStack Object Store 更适合用于存储需要长期保存的静态数据,例如操作系统映像文件和多媒体数据。OpenStack 通过 Agent 的方式来管理计算资源。在每一个计算节点上,都需要运行 nova-network 服务和 nova-compute 服务。这些服务启动之后,就可以通过消息队列来与云控制器进行交互。1.9 系统设计性能系统设计性能1.9.1数据流量处理能力数据流量处理能力以下是各部分处理能力统计:数据存储查询数据存储查询系统器系统器配置:8 核 CPU2,主频 2GHz 以上,内存 32
23、G,硬盘 82T SATA处理能力:折合数据入库流量 80Mb/s应用分析系统器应用分析系统器配置:8 核 CPU2,主频 2GHz 以上,内存 32G,硬盘 82T SATA处理能力:折合处理并发访问量 1000 次/s1.9.2数据存储读取能力数据存储读取能力原始数据存储采用云存储平台,分布式文件系统存储系统。性能指标:性能指标:存储量指标单系统应支持 PB 级存储容量。吞吐量指标Infiniband 网络上文件读、写性能:(1)写文件性能1 个客户端写 250G 文件,文件平均写性能为 932MB/s,峰值为 1.9GB/秒。(2)读文件性能1 个客户端读 250G 文件,文件平均读性能
24、为 852MB/s,读文件峰值为 1.2GB/s上述性能测试数据是 1 个客户端、8 个存储节点的测试结果,由于本次测试受测试资源影响,没能完全测出 Infiniband 最优性能。但在 8 个存储节点上,文件写性能达到 932MB/s,写峰值为 1.9GB/s,读性能达到 852MB/s,读峰值为1.2GB/s。吞吐量是指在没有帧丢失的情况下,设备能够接受的最大速率。吞吐量根据应用系统读写方式和应用系统读取存储内容大小分成四个指标。分布式文件存储系统按照 32 个节点并发 500 个用户计算,单节点 8 块 2T 大小的硬盘情况下,每个节点指标具体内容如下表所示:表 8 分布式文件存储系统吞
25、吐量指标编号读写方式存储内容大小总 吞 吐 量 指 标(MBps)平 均 吞 吐 量 指 标(MBps)1100%读250GB24000482100%写250GB20000403100%读100KB23000464100%写100KB1900038图表分布式文件存储系统吞吐量指标系统响应时间指标千兆网络环境下,局域网客户端从分布式文件存储系统中读取 4096 字节存储内容的响应时间应不高于 20ms。1.10 系统功能系统功能数据存储:通过云存储平台存储海量数据,教学信息资源存储和共享智能信息处理:基于云计算框架研究海量信息的智能搜索、数据挖掘、不确定性处理等技术,将云计算中的分布式并行计算技
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 江苏省 软件工程 技术研究 开发 中心 计算 平台 方案 建议书
限制150内