大数据体系结构及关键技术课件.ppt
《大数据体系结构及关键技术课件.ppt》由会员分享,可在线阅读,更多相关《大数据体系结构及关键技术课件.ppt(97页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、PPTPPT文档演模板文档演模板 Office Office PPTPPT大数据体系结构及关键大数据体系结构及关键技术技术2023/1/5大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT主要内容主要内容一、大数据时代的新命题一、大数据时代的新命题二、大数据的体系结构二、大数据的体系结构三、大数据的关键技术三、大数据的关键技术四、物联网与云计算架构四、物联网与云计算架构五、知名企业大数据架构五、知名企业大数据架构六、大数据系统设计案例六、大数据系统设计案例n总结、交流、作业总结、交流、作业大数据体系结构及关键技术PPTPPT文档演模板文档演模板
2、Office Office PPTPPT一、大数据时代的新命题一、大数据时代的新命题大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT谷歌大数据中心:谷歌大数据中心:全球主要全球主要DC有有8个个大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT大数据表象概念:大数据表象概念:百度数据规模百度数据规模大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT大数据表象概念:大数据表象概念:对系统要求对系统要求大数据体系结构及关键技术PPTPPT文档演模板文档演
3、模板 Office Office PPTPPT大数据时代的新命题大数据时代的新命题:n数据在爆炸式增长数据在爆炸式增长 互联网海量大数据互联网海量大数据 物联网各类型数据物联网各类型数据n发数据处理能力要求提高发数据处理能力要求提高 大规模数据存取方式大规模数据存取方式 大数据并行技术能力大数据并行技术能力n数据间关联性分析加强数据间关联性分析加强 社交网络关系社交网络关系 多业务关联性多业务关联性 用户行为分析用户行为分析n网络数据的实时同步网络数据的实时同步 一切营销都线下线上一切营销都线下线上 多业务跨地域数据同步多业务跨地域数据同步n“数据结构化数据结构化”本身是最具本身是最具挑战性的
4、一个环节挑战性的一个环节.n海量数据与快速处理是一海量数据与快速处理是一对悖论对悖论.大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT信息社会需求:信息社会需求:信息化信息化-智能化智能化-现代化现代化农业社会工业社会信息社会人力工具 -镰刀 -锄头 动力工具 -机车 -机床智能工具-推理机-智能网 信息时代的大数据需求信息时代的大数据需求大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT信息时代数据大爆炸,信息时代数据大爆炸,推动智能技术发展推动智能技术发展大数据体系结构及关键技术PPTPPT文
5、档演模板文档演模板 Office Office PPTPPT信息时代,软件编程模型发展信息时代,软件编程模型发展n“面向信息处理面向信息处理”的智能化编程模型,编程简化为数据配置与管理大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT大数据技术架构大数据技术架构数据数据智能智能大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT二、大数据的系统架构二、大数据的系统架构大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT传统数据库技术架构传统数据库技术架构:
6、nOracle数据库体系架构数据库体系架构大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT大数据架构:分层架构大数据架构:分层架构u从从数数据据在在生生命命周周期期看看,大大数数据据从从数数据据源源经经过过分分析析挖挖掘掘到到最最终终获获得得价价值值需需要要经经过过5个环节,包括个环节,包括数据准备、数据存储与管理、计算处理、数据分析和知识展现。数据准备、数据存储与管理、计算处理、数据分析和知识展现。大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT大数据的系统架构:大数据的系统架构:整体系统架构
7、整体系统架构新一代编程语言大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT大数据架构:大数据架构:整体逻辑功能架构整体逻辑功能架构大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT大数据架构理解:搜索引擎大数据架构理解:搜索引擎大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT大数据架构理解:网页内容抓取大数据架构理解:网页内容抓取大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT大数据系统架构大数据系
8、统架构HadoopuHadoop分布式系统组成分布式系统组成大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT大数据系统架构大数据系统架构Hadoop在图中,在图中,Hadoop主要的功能组件有:主要的功能组件有:nHadoop Common:包含包含HDFS、MapReduce和其他项目公共内容;和其他项目公共内容;nHDFS:Hadoop分布式文件系统;分布式文件系统;nMapReduce:一个用于并行处理大数据集的软件框架。:一个用于并行处理大数据集的软件框架。Map 函数接受一组数据函数接受一组数据并将其转换为一个键并将其转换为一个键/值
9、对列表,输入域中的每个元素对应一个键值对列表,输入域中的每个元素对应一个键/值对。值对。Reduce 函数接受函数接受 Map 函数生成的列表,然后根据它们的键(为每个键生成一个键函数生成的列表,然后根据它们的键(为每个键生成一个键/值对)值对)缩小键缩小键/值对列表;值对列表;nHBase:类似类似Google BigTable的分布式的分布式NoSQL列数据库;列数据库;nHive:是基于:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的张数据库表,并提供完整的sql查询功能,可以将查询功能,可以
10、将sql语句转换为语句转换为MapReduce任任务进行运行;务进行运行;nZookeeper:分布式锁,提供类似:分布式锁,提供类似Google Chubby的功能;的功能;nAvro:新的数据序列化格式与传输工具,将逐步取代:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的原有的IPC机制;机制;nPig:大数据数据流分析平台,为用户提供多种接口;:大数据数据流分析平台,为用户提供多种接口;nSqoop:在:在HADOOP与传统的数据库间进行数据的传递。与传统的数据库间进行数据的传递。大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPP
11、T大数据系统架构大数据系统架构Hadoop:功能定位功能定位大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT1.大数据系统架构大数据系统架构Hadoop:层次对应层次对应大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT大数据:分布式计算架构大数据:分布式计算架构大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT大数据架构大数据架构:MapReduce工作原理工作原理1大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Offic
12、e PPTPPT大数据架构大数据架构:MapReduce工作原理工作原理2大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT三、大数据的关键技术三、大数据的关键技术大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT大数据关键技术到底有哪些?大数据关键技术到底有哪些?核心问题是:核心问题是:(计算、存储、分析计算、存储、分析)算法算法大数据:恐怖的大数据大数据:恐怖的大数据(生活示例生活示例)智能性:数据分析、自然语言理解智能性:数据分析、自然语言理解 逻辑推理逻辑推理(演示演示)艺术性:分形算法、视
13、频动画艺术性:分形算法、视频动画(演示演示)大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT大数据关键技术大数据关键技术1:大数据存储技术大数据存储技术u数数据据的的海海量量化化和和快快增增长长特特征征、以以及及数数据据格格式式的的多多样样化化是是大大数数据据对对存存储储技技术术提提出出的的首首要要挑挑战战。要要求求底底层层硬硬件件架架构构和和文文件件系系统统在在性性价价比比上上要要大大大大高高于于传传统技术,并能够弹性扩展存储容量。统技术,并能够弹性扩展存储容量。谷歌文件系统(GFS)和Hadoop 的分布式文件系统HDFS(Hadoop D
14、istributed File System)奠定了大数据存储技术的基础。GFS/HDFS 将计算和存储节点在物理上结合在一起,从而避免在数据密集计算中易形成的I/O 吞吐量的制约,同时这类分布式存储系统的文件系统也采用了分布式架构,能达到较高的并发访问能力。网络附着存储系统(NAS)和存储区域网络(SAN)等体系,存储和计算的物理设备分离,它们之间要通过网络接口连接,这导致在进行数据密集型计算(Data Intensive Computing)时I/O 容易成为瓶颈。单机文件系统不提供数据冗余、可扩展性、容错及并发能力差大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office
15、Office PPTPPT大数据关键技术大数据关键技术2:并行计算能力并行计算能力u大数据的分析挖掘是数据密集型计算,需要巨大的计算能力。u针对不同计算场景发展出特定分布式计算框架。Yahoo 提提出出的的S4 系系统统、Twitter 的的Storm,谷谷歌歌2010 年年公公布布的的Dremel系系统统,MapReduce内存化以提高实时性的内存化以提高实时性的Spark 框架框架.大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT数据爆炸,知识贫乏数据爆炸,知识贫乏 苦恼:淹没在数据中;不能制定合适的决策!数据数据知识知识决策决策n模式模式
16、n趋势趋势n事实事实n关系关系n模型模型n关联规则关联规则n序列序列n目标市场目标市场n资金分配资金分配n贸易选择贸易选择n在哪儿做广告在哪儿做广告n销售的地理位置销售的地理位置n金融金融n经济经济n政府政府nPOS.n人口统计人口统计n生命周期生命周期大数据关键技术大数据关键技术3:数据分析技术数据分析技术大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPTu基基于于计计算算流流体体力力学学的的三三维维呈呈现现:如如用用能能场场所所3D场场景景及及CFD温温度度及及能能效效云场呈现如下图。云场呈现如下图。大数据关键技术大数据关键技术4:数据显示技
17、术数据显示技术大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT大数据分析大数据分析u世界杯:英格兰世界杯:英格兰vs意大利意大利 1:2。数据热图。数据热图大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT大数据关键技术大数据关键技术5:数据挖掘算法数据挖掘算法代代特征特征数据挖掘算法数据挖掘算法集成集成分布计算分布计算模型模型数据模型数据模型第一代第一代数数据据挖挖掘掘作作为为一一个个独独立立的的应应用用支持一个或者支持一个或者多个算法多个算法 独立的系独立的系统统单个机单个机器器向量数据向量数
18、据第二代第二代和和数数据据库库以以及及数据仓库集成数据仓库集成多多个个算算法法:能能够够挖挖掘掘一一次次不不能能放放进内存的数据进内存的数据数数据据管管理理系系统统,包包括括数数据据库库和和数数据据仓库仓库同质同质/局局部区域部区域的计算的计算机群集机群集有有些些系系统统支支持持对对象象、文文本本、和和连连续续的媒体数据的媒体数据第三代第三代和预言模型系和预言模型系统集成统集成 多个算法多个算法数数据据管管理理和和预预言言模模型型系系统统intranet/extranet网网络计算络计算支支持持半半结结构构化化 数数 据据 和和webweb数据数据第四代第四代和移动数据和移动数据/各种计算数据
19、各种计算数据联合联合 多个算法多个算法数数据据管管理理、预预言言模模型型、移动系统移动系统移移动动和和各各种种计计算算设设备备普普遍遍存存在在的的计计算算模模型型大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPTDebt$40KQ QQ QQ QQ QII123456factor 1factor 2factor n神经网络神经网络 Neural Networks Neural Networks聚类分析聚类分析 Clustering ClusteringOpenAccntAdd NewProductDecreaseUsage?Time序列分析序列分
20、析 Sequence Analysis Sequence Analysis决策树决策树 Decision Trees Decision Treesn 倾向性分析n 客户保留n 客户生命周期管理n 目标市场n 价格弹性分析n 客户细分n 市场细分n 倾向性分析n 客户保留n 目标市场n 欺诈检测关联分析关联分析 Association Associationn 市场组合分析n 套装产品分析n 目录设计n 交叉销售大数据关键技术大数据关键技术5:数据挖掘算法数据挖掘算法大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT数据挖掘的主要方法分类(分类(C
21、lassification)聚类聚类(Clustering)相关规则相关规则(Association Rule)回归回归(Regression)其他其他n知识发现系统需要一个前处理知识发现系统需要一个前处理过程过程n数据抽取数据抽取n数据清洗数据清洗n数据选择数据选择n数据转换数据转换n知识发现系统是一个自动知识发现系统是一个自动/半自半自动过程动过程n知识发现系统要有很好的性能知识发现系统要有很好的性能知识发现KDD系统特征大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT数据挖掘主要方法:数据挖掘主要方法:ETLnETL Process Fr
22、amework ETL工工具具有有:OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Informatic PowerCenter、AICloudETL、DataStage、DataSpider,等。等。ApplicationApplication&Operations&OperationsServicesServicesTransportTransportServicesServicesLoadLoadTransformTransformExtractExtractTarget adaptorsTarget adaptorsS
23、ource adaptorsSource adaptorsETL Data import/ETL Data import/Rule importRule importETL Data ExportETL Data ExportRuntimeRuntimeMata dataMata dataServicesServicesDesign Design managementmanagementMeta data Meta data Import/Import/exportexportMeta data Meta data managementmanagement大数据体系结构及关键技术PPTPPT文
24、档演模板文档演模板 Office Office PPTPPT四、物联网与云计算架构四、物联网与云计算架构大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT互联网上的物联网:概念互联网上的物联网:概念大数据体系结构及关键技术PPTPPT文档演模板文档演模板 Office Office PPTPPT互联网上的物联网:发展互联网上的物联网:发展u2009年年8月月7日日,温温家家宝宝视视察察中中科科院院嘉嘉兴兴无无线线传传感感网网工工程程中中心心无无锡锡研研发发分分中中心心,提提出出“在在传传感感网网发发展展中中,要要早早一一点点谋谋划划未未来来,早早
25、一一点点攻攻破破核核心心技技术术”,明确要求尽快建立中国的传感信息中心,或叫明确要求尽快建立中国的传感信息中心,或叫“感知中国感知中国”中心。中心。u2010年年2月月25日日,中中国国首首个个传传感感网网大大学学科科技技园园在在无无锡锡成成立立,北北京京邮邮电电大大学学无无锡感知技术与产业研究院是首家入驻大学科技园的高校科研机构。锡感知技术与产业研究院是首家入驻大学科技园的高校科研机构。u移移动动、电电信信、联联通通三三大大运运营营商商纷纷纷纷在在无无锡锡成成立立物物联联网网研研究究中中心心,以以无无锡锡为为首的国内大中城市争相建设智能城市,争取成为感知中国首的国内大中城市争相建设智能城市,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 体系结构 关键技术 课件
限制150内