大数据中心方案架构建设方案.doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《大数据中心方案架构建设方案.doc》由会员分享,可在线阅读,更多相关《大数据中心方案架构建设方案.doc(30页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据中心方案架构建设方案3.1 数据中心架构设计 云计算数据中心通过运行在单独的服务器上的云操作系统对服务器、存储、网络等资源进行虚拟化管理,提供可以自定义的虚拟机,在虚拟机上安装Hadoop、hbase等Nosql分布式数据库集群,对现有的数据ETL采集、清洗、转换、汇总进来,使用海量数据分布存储技术,用spark、storm等大数据处理软件对hbase中的数据进行分析处理,挖掘数据价值。还可以在虚拟机上运行业务应用系统,提供负载均衡和冗余备份,达到系统的稳定、高可用和方便的扩展性。通过安装SSR等安全软件和安全服务器,可以保证提升操作系统的安全级别,从而达到国家等级保护的三级要求,为客户
2、构建真正的安全长城。云计算数据中心可以自动管理和动态分配、部署、配置、重新配置以及回收资源,也可以自动安装软件和应用,具有良好的弹性和灵活性,管理、使用方便。云中心可以向用户提供虚拟基础架构。用户可以自己定义虚拟基础架构的构成,如服务器配置、数量,存储类型和大小等等。用户通过自服务界面提交请求,每个请求的生命周期由平台维护。服务器虚拟化系统基于服务器,存储和网络设备构建资源池,在资源池上通过资源的管理、调度和镜像管理实现系统的各种高级功能,例如计算层面的系统负载均衡和虚拟机高可用,存储层面的镜像复制和冗余。系统支持以主机或者虚拟群集为单位管理资源,虚拟群集为一组共享存储资源的物理主机。 云中心
3、既是一个企业云,也可以对外提供服务,扩展成公有云。学校还可以使用别的公有云如阿里云,形成混合云。云中心包括iaas、paas、saas三层服务:1). SaaS:提供给客户的服务是运营商运行在云计算基础设施上的应用程序,用户可以在各种设备上通过客户端界面访问,如浏览器。消费者不需要管理或控制任何云计算基础设施,包括网络、服务器、操作系统、存储等等;2). PaaS:提供给消费者的服务是把客户采用提供的开发语言和工具(例如Java,python, .Net等)开发的或收购的应用程序部署到供应商的云计算基础设施上去。客户不需要管理或控制底层的云基础设施,包括网络、服务器、操作系统、存储等,但客户能
4、控制部署的应用程序,也可能控制运行应用程序的托管环境配置;可以使用docker容器完成应用系统的部署和管理。3). IaaS:提供给消费者的服务是对所有计算基础设施的利用,包括处理CPU、内存、存储、网络和其它基本的计算资源,用户能够部署和运行任意软件,包括操作系统和应用程序。消费者不管理或控制任何云计算基础设施,但能控制操作系统的选择、存储空间、部署的应用,也有可能获得有限制的网络组件(例如路由器、,防火墙,、负载均衡器等)的控制。 云中心采用xen、kvm、VMware进行虚拟化,LXC提供Linux容器,支持docker应用容器。一 . 服务器采用浪潮整机柜服务器SmartRack,面向
5、海量数据的存储和处理,适合云资源池如虚拟化、分布式存储,大数据处理如Hadoop集群等应用,目前在国内服务器中占主导地位,特点如下:定位多种应用,支持各类服务器节点。针对不同业务对存储、计算、IO吞吐量、功耗的不同要求,设计开发出不同种类的服务器节点,包括:1U全宽双路12盘位综合型节点、1U全宽单路18盘位冷存储节点、1U半宽双路计算型节点,满足不同需求。 整机柜集中供电、集中散热,相比其他架构服务器,运行功耗降低10%以上。 整机柜由一组电源模块集中供电,最大输出功率高达22.5kw,直接支持交流或高压直流供电,各节点通过铜排从电源模块取电,结合电源负载动态调整技术,电源转换效率高达94%
6、以上。机柜背部风扇墙集中散热,根据节点数量灵活调节风扇墙高度,采用140mm大尺寸风扇,相同功耗下可提供更大散热量。领先的架构设计,保障系统高可靠运行。服务器节点中无独立的电源和风扇,有效降低单点故障。根据整机柜实际负载情况,电源可实现N+N/N+2/N+1多种冗余方式。风扇可根据温度状况自动调节转速,支持2+1冗余。对整机柜节点、电源、风扇进行集中监控管理。实现管理中心RMC对整个机柜各模块的统一监控和管理,节点、电源、风扇的健康状况、温度、配置信息一目了然,还可进行批量开关机、重启,功耗控制,风扇转速自动/手动调节等功能,搭配专为Smart Rack设计的可视化管理软件,轻松实现简易化智能
7、管理。简易维护,无需繁琐拆装。独有节点前维护设计、各模组免工具热插拔设计、优化的线缆走线设计,使得系统运维难度大大降低。风扇等易损部件全部裸露在外,更加方便更换维护。二 云操作系统建议采用浪潮云海云数据中心操作系统 V3.0,此系统秉承开放化、模块化、标准化的设计理念,基于虚拟化技术,实现了数据中心资源融合、资源管理及服务交付,简化了云数据中心运维,提高了云数据中心服务水平。云海云数据中心操作系统有以下特点:自主可控、安全可靠的云数据中心操作系统:浪潮自主研发的国产云数据中心操作系统,加强了WEB安全、虚拟化安全、数据安全、访问控制、安全审计等方面的安全控制,可帮助用户构建安全可控的云数据中心
8、。异构资源管理:云海OS支持对数据中心各类异构硬件设备及软件资源的统一管理;支持对VMWare vSphere、Inspur iVirtual等异构虚拟化资源池的集中管理,已部署的虚拟化环境可被云海OS无缝接管;精细的软硬件资源监控:云海OS支持对数据中心主流厂商的服务器、网络设备、存储设备等物理资源,操作系统、数据库、WEB应用等软件资源,VMWare vSphere、Inspur iVirtual等虚拟化环境的精细监控,提供界面、邮件、短信等多种告警方式,通过详尽清晰的报表分析数据,帮助数据中心的运维人员随时掌握数据中心的各类资源的运行状况,降低运维管理复杂度,提高运维效率。快速的服务交付
9、:云海OS支持通过虚拟机模板、应用服务模板的方式,实现业务的快速交付,业务上线时间由原来的几周、几天,缩短为几分钟,大大提高数据中心的服务水平。资源使用按量计费:实时的资源使用情况统计,让用户精确掌控自身资源和费用使用情况,帮助IT部门实现由成本中心向价值中心的角色转变。资源按需服务:云海OS可实现将基础架构作为服务交付,用户可通过自助服务门户在线申请及访问自己的虚拟数据中心、应用服务、虚拟机等资源,实现资源的按需申请、便捷获取、自助使用。可定制的业务流程:云海OS支持用户创建与原工作流程吻合的资源申请的审批流程,实现业务流程的个性化、可定制化。灵活的服务交付方式:云海OS既支持从下到上的资源
10、申请与审批,也支持从上到下的资源创建与分配的服务交付方式,可满足不同客户对资源获取方式的不同需要。多租户私有云:云海OS可创建多个组织,一个组织可代表某业务部门、分部或子公司。每个组织都有各自独立的虚拟数据中心、用户及独有的目录,可将组织资源分配给本组织的用户,每个组织如同拥有自己的数据中心。利用基于权限的用户控制机制和基于虚拟交换机的网络隔离技术,实现多租户环境下的安全性和可靠性,以此构建安全的多租户私有云。灵活可控的权限管理:云海OS支持用户自定义角色类型,不同的权限可自由组合,实现灵活可控的系统权限管理。服务全生命周期管理:云海OS涵盖服务提供所需的各个环节,包括服务的申请审批;服务的交
11、付和回收;服务的使用统计和计费;服务的运行监控服务移动性:通过vApp封装多个虚拟机服务和相关的网络连接策略,遵循OVF等开放式标准,实现同一个云环境的终端用户彼此之间可以轻松共享服务,而不同的云环境的用户可以轻松的在云之间迁移服务。3.2 大数据处理设计通过在虚拟机上安装Hadoop2.6、hbase1.0等Nosql数据库集群,用sqoop1.3把现有的数据汇总进来,要对现有数据做个总的分析,对字段统一定义规划,制定转换策略,做到正确性、唯一性、可用性,去除重复字段,通过ETL抽取、清洗数据,把数据导入hbase,这样就可以消除信息孤岛,用spark、storm等大数据处理软件对hbase
12、中的数据进行分析处理,挖掘数据价值。云中心通过调度系统自动采集、加工、存储数据,为应用系统提供支持: 在云中心的平台上,开发招生、创业、就业、数据实验室等应用系统,通过元数据库管理所有的数据数据经过采集、加工后进入hbase,消除信息孤岛,统一管理使用:一.hadoop2架构体系下图是hadoop2的架构图1. HDFS文件系统,Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,
13、适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。2、YARN是一套资源统一管理和调度平台,可管理各种计算框架,包括MapReduce,Spark,MPI等。包括 以下内容:ResourceManager(RM):整个系统只有一个RM,它就只管调度方面的事情,并且为集群应用而优化,因而具有很好的性能。RM的一个核心是它的Scheduler。调度包含两个过程,一要搜集各节点的情况;二要根据某种调度策略,分配合适的节点。搜集节点情况是基于一个资源容器(resourc
14、e container)的概念,该容器包括cpu,disk,network等(目前只用到cpu)NodeManager(NM):NM是每个节点一个实例,管理每个节点,它触发应用容器(application container),监控节点的资源(cpu/disk等),并向RM报告资源的情况。ApplicationMaster(AM):AM是每个应用一个实例,它是一个特定的框架接口库,一方面与RM中的Scheduler协商得到resource container,另一方面与NM一起执行和监控各子任务部件,从系统的角度,AM本身也一种container(下图中将它与container画得一样)。Co
15、ntainer:从逻辑上,container可认为是资源的分配容器,它包括hostname,cpu,memory等属性。AM发送ResourceRequest给RM,然后RM分配合适的Container给AM,AM再将此Container提交给它所在节点的NM,NM采用此资源容器运行任务。实际上,Container是一种使用资源的“授权”,AM得到此授权后,在NM的管理下,可以运行任何进程(包括非Java应用,这一点与1.0不同)。 二、 Hive是基于Hadoop的一个数据仓库工具,处理能力强而且成本低廉。主要特点:存储方式是将结构化的数据文件映射为一张数据库表。提供类SQL语言,实现完整的
16、SQL查询功能。可以将SQL语句转换为MapReduce任务运行,十分适合数据仓库的统计分析。三、 HBaseHBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而 不是基于行的模式。HBase使用和 BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数据行拥有一个可选择的键和任意数量的列,一个或多个列组成一个 ColumnFamily,一个Fmaily下的列位于一个HFile中,易于缓存数据。表是疏松的存储的,因此用户可以给行定义各种不同的列。在 HBase中数据按主键排序,同时表按主键
17、划分为多个HRegion,如下图所示(HBase数据表结构图):四. Sqoop是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql、oracle.)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。五.spark架构体系Spark与Hadoop的对比 Spark的中间数据放到内存中,对于迭代运算效率更高。Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面,有RDD的抽象概念。 Spark比Hadoop更通用。Sp
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据中心 方案 架构 建设
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内