数据中心相关技术与应用(大数据相关)3937701.pptx
《数据中心相关技术与应用(大数据相关)3937701.pptx》由会员分享,可在线阅读,更多相关《数据中心相关技术与应用(大数据相关)3937701.pptx(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、红色25绿色40蓝色80黑色淡色50%绿色RGB160绿色RGB200标题28号微软雅黑加粗第一级24号黑体第二级22号华文细黑第三级20号华文细黑第四级16号华文细黑第五级12号华文细黑数据中心相关技术与应用2013-12-02红色25绿色40蓝色80黑色淡色50%绿色RGB160绿色RGB200标题28号微软雅黑加粗第一级24号黑体第二级22号华文细黑第三级20号华文细黑第四级16号华文细黑第五级12号华文细黑目录MPPMPP数据库在数据中心的应用数据库在数据中心的应用企业级数据中心定义企业级数据中心定义数据中心中的大数据数据中心中的大数据数据中心数据中心BI BI技术选型描述技术选型描述
2、HadoopHadoop在数据中心的应用在数据中心的应用数据中心数据中心ESBESB技术研究技术研究大数据技术与传统数据中心的集成大数据技术与传统数据中心的集成红色25绿色40蓝色80黑色淡色50%绿色RGB160绿色RGB200标题28号微软雅黑加粗第一级24号黑体第二级22号华文细黑第三级20号华文细黑第四级16号华文细黑第五级12号华文细黑传统的数据仓库的架构数据源抽取、转换、加载业务数据集市企业数据仓库ETL元数据前端分析展现工具查询工具、应用红色25绿色40蓝色80黑色淡色50%绿色RGB160绿色RGB200标题28号微软雅黑加粗第一级24号黑体第二级22号华文细黑第三级20号华文
3、细黑第四级16号华文细黑第五级12号华文细黑新一代数据中心定义p企业数据中心是指建立在数据仓库与数据仓库之上的决策分析应用,应包括数据源、数据ETL、ODS数据库、数据仓库、数据集市、商务智能应用、数据管理等功能。p数据中心应该具备常见数据的处理与管理能力,具备对结构化、半结构化、非结构化等数据的处理能力,同时支持RDB、MPP、NoSQL,同时具备数据的通用管理能力,以数据为中心进行平台建设。p数据中心数据平台在接口层要丰富又简单,可以提供各种应用所需接口,最大程度匹配已有接口,对应用对应用改动需求力求最低。改动需求力求最低。p一个合理的数据平台,不能等同于Hadoop或者其他某项单一技术建
4、设;整体数据中心的建设,从数据采集层、存储层、应用层都有完整的解决方案,同时具备平台运维管理、接口管理、数据管理功能;p数据中心数据管理能力至少应包含:1.元数据管理,2.数据质量管理,3.数据安全管理,4.数据可视化管理,5.数据生命周期管理。p数据平台必须针对数据提供完整方案,同时兼顾应用接口、其他平台接入,系统管理、系统调度等功能。p任何一种单一技术都难以适应数据中心数据采集、存储、处理和对外服务的需求,多种技术并存才多种技术并存才是发展是发展趋势趋势。RDB、MPP、Hadoop采集处理层数据抽取/加载/检查ETL调度数据交互、转换数据映射数据层数据存储数据聚合服务数据处理服务数据查询
5、服务事件通知服务信息子层KPI报表统一视图知识库接口层服务管理资料类数据服务指标类数据服务配置类数据服务清单累数据服务日志类数据服务OPENAPI数据管理功能数据生命周期管理数据可视化管理数据质量管理采集层数据质量管理数据质量规则、知识库数据质量稽核指标运维数据安全管理4A认证隐私信息保护权限管控、审计追踪元数据管理元数据获取管理元数据存储与模型管理元数据分析、展现、服务技术、业务元数据管理ODW-RDBODW-MPP分布式文件系统分布式关系数据库分布式计算数据分发同步处理用户管理权限管理备份与恢复日志管理设备监控指标资源池指标数据库指标分布式系统指标指标汇总存储管理资源池管理设备管理作业调度
6、管理事件自动化规则配置执行引擎性能预警调度异常控制北向接口管理数据采集接口管理数据共享配置通用接口配置平台管理功能数据服务功能综合分析系统A+ABIS应用无线网优综合监控系统信令监测系统日志上层应用其他应用红色25绿色40蓝色80黑色淡色50%绿色RGB160绿色RGB200标题28号微软雅黑加粗第一级24号黑体第二级22号华文细黑第三级20号华文细黑第四级16号华文细黑第五级12号华文细黑新一代数据中心功能视图数据中心整体功能视图可以分为数据服务功能模块、平台管理功能模块,数据管理功能模块,共同数据中心的应用。采集处理层数据抽取/加载/检查ETL调度数据交互、转换数据映射数据层数据存储数据聚
7、合服务数据处理服务数据查询服务数据集市、OLAP接口层服务管理资料类数据服务指标类数据服务配置类数据服务清单累数据服务日志类数据服务OPENAPI数据管理功能数据生命周期管理数据可视化管理数据质量管理采集层数据质量管理数据质量规则、知识库数据质量稽核指标运维数据安全管理4A认证隐私信息保护权限管控、审计追踪元数据管理元数据获取管理元数据存储与模型管理元数据分析、展现、服务技术、业务元数据管理DW-RDBDW-MPP分布式文件系统非关系数据库分布式计算数据分发同步处理数据服务功能用户管理权限管理备份与恢复日志管理设备监控指标资源池指标数据库指标分布式系统指标指标汇总存储管理资源池管理设备管理作业
8、调度管理事件自动化规则配置执行引擎性能预警调度异常控制北向接口管理数据采集接口管理数据共享配置通用接口配置平台管理功能应用展示层企业数据中心元数据获取采集层数据质量定义、稽核存储库模型定义采集数据分发红色25绿色40蓝色80黑色淡色50%绿色RGB160绿色RGB200标题28号微软雅黑加粗第一级24号黑体第二级22号华文细黑第三级20号华文细黑第四级16号华文细黑第五级12号华文细黑目录MPPMPP数据库在数据中心的应用数据库在数据中心的应用企业级数据中心定义企业级数据中心定义数据中心中的大数据数据中心中的大数据数据中心数据中心BI BI技术选型描述技术选型描述HadoopHadoop在数据
9、中心的应用在数据中心的应用数据中心数据中心ESBESB技术研究技术研究大数据技术与传统数据中心的集成大数据技术与传统数据中心的集成红色25绿色40蓝色80黑色淡色50%绿色RGB160绿色RGB200标题28号微软雅黑加粗第一级24号黑体第二级22号华文细黑第三级20号华文细黑第四级16号华文细黑第五级12号华文细黑数据中心引入大数据的意义与原则n随着半结构化、非结构化数据、互联网数据等新型数据源的引入以及分析需求对分析深度和广度的增加,以移动运营商行业为例,越来越需要大数据。主要包括如下:1、数据规模方面:GPRS流量话单的条数和数据量已经超过了语音详单,而位置信令、Gn信令、客服语音、互联
10、网外部数据等规模更大,且还处在不断增长的趋势。2、数据类型方面:逐步从OLTP系统中获得的结构化数据,过渡到结构化数据和互联网网页、上网日志等非结构化数据和半结构化数据共存。3、对数据的使用方面:不仅有批量的数据加工和前台界面的访问,临时统计、数据挖掘等访问需求也逐步增多。对历史明细数据的访问增多。对数据访问的及时性增强。随着数据中心越来越具备大数据平台的特征,利用传统的单一数据仓库技术就难以满足高效低成本的需求,需要引入相应的大数据技术。n新技术的引入不能影响原有的使用感知,需要按照分阶段逐步引入的方式。可以参考如下的几个引入原则:1、先增量后存量。现有的数据处理系统引入大数据处理技术,面临
11、着模型改造、流程改造等一系列的问题,可以首先在新上线应用引入大数据处理技术。2、先边缘后核心。对于原有功能的迁移,可以先迁移非关键的应用。这些应用不涉及到关键生产任务,可以忍受数据处理延迟和故障修复时间较高等可能出现的风险。3、先简单后复杂。数据处理逻辑较简单的应用也可以首先尝试引入大数据处理技术,降低实施的复杂度,积累运维经验。通过在大数据处理技术的规划、实施及运维过程中积累经验及教训,不断提升和完善大数据技术的应用水平,逐步拓展大数据技术应用领域。红色25绿色40蓝色80黑色淡色50%绿色RGB160绿色RGB200标题28号微软雅黑加粗第一级24号黑体第二级22号华文细黑第三级20号华文
12、细黑第四级16号华文细黑第五级12号华文细黑大数据在数据中心的应用场景n大数据技术可以应用在以下场景(包括但不限于):1、原数据仓库底层结构化数据处理(ETL或ELT)。底层结构化数据处理计算任务重但复杂性不高,不涉及多表关联,适合引入大数据技术实现高效低成本。例如:对运营商的清单(语音详单、GPRS清单、WLAN清单等)的清洗、转换、汇总等。2、半结构和非结构数据处理与分析。例如对上网日志、网络信令、客服语音等数据的处理和分析,这些数据难以利用传统数据仓库技术进行处理和分析。3、数据集市。地数据集市应用较为独立,且对可靠性的要求并不是十分严格,适合作为引入大数据技术形成资源池,以移动运营商为
13、例,可实现各地市、各部门数据集市的云化、池化和虚拟化,最终实现资源动态调配,达到高效低成本。4、数据仓库数据分级存储。对低价值的细节数据以及长周期的历史数据(冷数据)访问频率较低,也能容忍相对较长的响应时间,可以存储在成本更低的平台上。5、数据挖掘。某些数据挖掘设计长周期的数据,计算时间很长(数天),占用很多数据仓库资源。还有一些数据挖掘算法超出了关系代数计算范畴,需要抽取数据到独立的计算平台(例如SAS统计分析系统)中进行计算。这些数据挖掘任务可以迁移到大数据平台之上进行计算。例如交往圈的计算,因其仅涉及单一数据,但数据量非常大,且需要多次迭代计算。6、对外查询。数据中心不仅仅是数据处理,也
14、需要将数据处理的结果对外提供查询,而这些查询一部分是海量的OLAP性质的查询,另外还有一部分OLTP性质的查询,即数量众多但每次查询量较少的。比如数据中心前端库、与生产系统互动的数据库以及提供流量详单查询的数据库。这些查询任务不能很好地运行在OLAP类数据库之上,可以迁移到大数据平台上。针对这些应用场景,可以看到,主要需要引入的是Hadoop和MPP技术,然后逐步考虑NoSQL、流计算和内存计算等技术的引入。红色25绿色40蓝色80黑色淡色50%绿色RGB160绿色RGB200标题28号微软雅黑加粗第一级24号黑体第二级22号华文细黑第三级20号华文细黑第四级16号华文细黑第五级12号华文细黑
15、Hadoop技术与MPP技术的比较HadoopMPP传统数据仓库传统数据仓库平台开放性平台开放性高低低运维复杂度运维复杂度高,与运维人员能力相关中中扩展能力扩展能力高中低拥有成本拥有成本低中高系统和数据管理成本系统和数据管理成本高中中应用开发维护成本应用开发维护成本高中中SQL支持支持低高高数据规模数据规模PB级别部分PBTB级别计算性能计算性能对非关系型操作效率高对关系型操作效率高对关系型操作效率中数据结构数据结构结构化、半结构化和非结构数据结构化数据结构化数据Hadoop 在处理非结构数据和半结构数据上具备优势,尤其适合海量数据批处理等应用需求。当然随着Hadoop技术的成熟,基于Hado
16、op的即席查询技术也逐渐崭露头角。比如仿照Dremel的开源项目Apache Drill以及Cloudera Impala。MPP适合替代现有关系数据结构下的大数据处理,具有较高的效率,但其在大规模集群(超过100个节点)下的可用性还有待试点证实。MPP数据库场景下经常需要扫描大量的数据,所以对磁盘存储系统的数据库场景下经常需要扫描大量的数据,所以对磁盘存储系统的I/O性能要求非性能要求非常高,在测试和日常运行中,常高,在测试和日常运行中,I/O多大情况下是瓶颈,这点与多大情况下是瓶颈,这点与Hadoop平台可以明显区平台可以明显区分开来分开来。红色25绿色40蓝色80黑色淡色50%绿色RGB
17、160绿色RGB200标题28号微软雅黑加粗第一级24号黑体第二级22号华文细黑第三级20号华文细黑第四级16号华文细黑第五级12号华文细黑目录MPPMPP数据库在数据中心的应用数据库在数据中心的应用企业级数据中心定义企业级数据中心定义数据中心中的大数据数据中心中的大数据数据中心数据中心BI BI技术规划技术规划选型选型HadoopHadoop在数据中心的应用在数据中心的应用数据中心数据中心ESBESB技术技术研究研究大数据技术与传统数据中心的集成大数据技术与传统数据中心的集成红色25绿色40蓝色80黑色淡色50%绿色RGB160绿色RGB200标题28号微软雅黑加粗第一级24号黑体第二级22
18、号华文细黑第三级20号华文细黑第四级16号华文细黑第五级12号华文细黑MPP数据库在数据中心的应用场景MPP数据库适合结构化数据的深度分析、复杂查询以及多变的自助分析类应用。它提供了统一的标准访问接口(SQL),而无需像Hadoop一样需要定制开发。MPP数据库一般构建在X86平台上,并使用本地盘而不用阵列,而且产品众多,因为可以降低拥有成本。MPP数据库产品在数据中心中可以用于以下场景(包括但不限于):n数据集市:数据集市定位于以企业数据仓库数据为基础,结合其他相关数据,支撑特定业务场景或者业务部门需求的IT平台。目前运营商数据中心中已经存在地市数据集市和部门数据集市。随着新业务平台分析需求
19、的出现、不同分析特征的需求的出现,还有一些分析需求可以通过数据集市的方式进行承载,比如深度分析(Advanced Analysis)和自助分析(Self-Service Analysis)。n数据分级存储(历史库或者明细库):数据中心中数据存储周期分为在线数据、近线数据、归档数据。目前在线数据及近线数据存放在数据仓库,归档数据使用磁带库存放。带来的问题是在线数据中不常访问的数据占据数据仓库宝贵的资源,针对归档数据的数据分析需求增加,而数据从磁带库恢复的时间无法满足需求。数据中心数据仓库的数据在完成近期数据支撑任务后,转移到历史库中进行长周期存储,支持后续数据访问和长周期数据分析需求,同时可作为
20、核心数据仓库的备份,提升整体架构及数据的高可用性。MPP架构基于x86平台构建,可高效低成本的实现历史库的建设需求。nETL:通过将数据的关联汇总卸载到MPP数据库上,可降低数据仓库的负载,提高数据关联汇总的性能,同时可以满足后续数据量增长情况下的平滑扩容的需求。这部分的计算任务可以定位于数据仓库外的复杂数据加工、数据汇总任务,其源数据可以来自业务系统,也可以来自ETL(专业ETL工具或者Hadoop)清洗、转换后的话单或者经过ETL轻度汇总过的数据。其结果数据导入到基础数据仓库中供上层应用访问。红色25绿色40蓝色80黑色淡色50%绿色RGB160绿色RGB200标题28号微软雅黑加粗第一级
21、24号黑体第二级22号华文细黑第三级20号华文细黑第四级16号华文细黑第五级12号华文细黑MPP平台选型建议对比项目对比项目TeradataEMC南大通用南大通用IBMHPAsterDataGreenPlumGBase8ADB2DPFOverGPFSVertica无共享无共享MPP架构架构-无主控节点无主控节点*无共享无共享MPP架构架构-有主控节点有主控节点支持行存储支持行存储支持列存储支持列存储(10.5版本发布后)当前构建在X86平台上的新型MPP数据库产品众多,Garnter每年会发布一版数据仓库魔力象限可以供参考。在大陆地区可以获得技术支持的MPP产品及其特性如下(包括但不限于):不
22、同架构的数据仓库各有优缺点。比如带主控节点(Master)的数据库会存在单点故障,但各节点分工明确;无主控节点的数据库不存在单点故障,但可能某各节点承担的任务不平均。行存储装载数据快、压缩率低、查询速度稍慢;列存储装载数据满、压缩率高、查询速度快,但部分产品的列存储方式无法支持更新、删除数据。硬件平台的选型参考各厂家的指导文档。红色25绿色40蓝色80黑色淡色50%绿色RGB160绿色RGB200标题28号微软雅黑加粗第一级24号黑体第二级22号华文细黑第三级20号华文细黑第四级16号华文细黑第五级12号华文细黑MPP数据分布规划得益于ShareNothing的架构,MPP数据库的所有表都是分
23、布式存储的,所以在创建表时都需要指定分布键,分布键可以是单一字段,也可以是复合字段,然后通过Hash方式去分布。合理的分布合理的分布键设计可以使得大部分的表关联操作在键设计可以使得大部分的表关联操作在一个节点内完成,不需要跨节点进行数一个节点内完成,不需要跨节点进行数据交互,这是据交互,这是MPP数据库产品(按行数据库产品(按行Hash分布)与分布)与Hadoop(选择按照块随(选择按照块随机分布)的根本差别机分布)的根本差别。注意:在某个节点发生故障无法为整个MPP数据库集群提供服务的情况下,数据库会自动切换到副本机制,利用副本所在的服务器来提供服务。但是副本所在的服务器本身就要承担自己正常
24、的工作任务,这样一来相当于负荷加重了一倍。所以故障情况下虽然整个数据库集群可用,但是理论上的性能将下降到原来的一半,而不是按照退但是理论上的性能将下降到原来的一半,而不是按照退服节点比例的性能下降服节点比例的性能下降。红色25绿色40蓝色80黑色淡色50%绿色RGB160绿色RGB200标题28号微软雅黑加粗第一级24号黑体第二级22号华文细黑第三级20号华文细黑第四级16号华文细黑第五级12号华文细黑目录MPPMPP数据库在数据中心的应用数据库在数据中心的应用企业级数据中心定义企业级数据中心定义数据中心中的大数据数据中心中的大数据数据中心数据中心BI BI技术选型描述技术选型描述Hadoop
25、Hadoop在数据中心的应用在数据中心的应用数据中心数据中心ESBESB技术研究技术研究大数据技术与传统数据中心的集成大数据技术与传统数据中心的集成红色25绿色40蓝色80黑色淡色50%绿色RGB160绿色RGB200标题28号微软雅黑加粗第一级24号黑体第二级22号华文细黑第三级20号华文细黑第四级16号华文细黑第五级12号华文细黑Hadoop在数据中心的应用场景分析场景为什么采用Hadoop采用的组件ETL1、降低原始数据存储压力2、降低数据仓库处理压力3、降低存储和处理成本Hive/MR/Pig清单查询1、快速响应海量数据查询2、降低查询成本HBase机器学习和数据挖掘1、降低海量数据挖
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据中心 相关 技术 应用 数据 3937701
限制150内