第8章 大数据ppt课件.pptx
《第8章 大数据ppt课件.pptx》由会员分享,可在线阅读,更多相关《第8章 大数据ppt课件.pptx(39页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、在此输入您的封面副标题第8章 大数据信 息 技 术 素 养第八章 大数据8.1 大数据概述8.1.1 大数据的发展历程1.大数据萌芽阶段(1980年-2008年)2.大数据发展阶段(2009年-2011年)3.大数据爆发阶段(2012-2016年)4.大数据成熟阶段(2017至今)8.1.2 大数据的概念1.大数据的概念 大数据,指无法在一定范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要处理模式才能更强的决策力、洞策发现力和流程优化能力的海量、高增长率和多样化的信息资产。 最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、
2、BB、NB、DB2022/5/11现代教育技术中心38.1 大数据概述8.1.2 大数据的概念2.大数据的特征 业界较为统一的认识是“大数据”的4V特点,即Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值),其核心在于对这些含有意义的数据进行专业化处理。(1)数据体量巨大(2)数据类别多样(3)处理速度快(4)价值真实性高和密度低8.1.3 大数据时代的思维变革1.总体思维2.容错思维3.相关思维4.智能思维2022/5/11现代教育技术中心48.2 大数据技术8.2.1 大数据技术发展历程2022/5/11现代教育技术中心58.2 大数据技术8.2.2
3、 大数据关键技术1.数据收集 利用数据仓库(ETL)将把零散的结构化和非结构化的海量数据抽取到临时中间层进行清洗、转换、集成最终加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;利用日志采集工具(Flume、Kafka等)采集实时的数据,经过滤聚集后加载到HDFS等存储系统。2.数据存储管理主要由面向文件存储的分布式系统和面向行/列存储的分布式数据库构成。3.资源管理与服务协调 统一资源管理与调试系统,管理集群中的各种资源(比如CPU和内存等),并按照一定的策略分配给上层的各类应用。2022/5/11现代教育技术中心68.2 大数据技术8.2.2 大数据关键技术4.大数据计算模式
4、大数据的计算模式包括批处理、流式实时处理、图计算、查询分析计算四种计算模式。各计算模式的代表产品如表所示。2022/5/11现代教育技术中心7大数据计算模式解决问题代表产品批处理计算针对大规模数据的批处理MapReduce、Spark等流计算针对流数据的实时计算Storm、S4、Flume、Scribe、Spark Streaming图计算针对规模巨大包含具有复杂关系的图数据进行存储和计算Pregel、GraphX、Griaph、PowerGraph等查询分析计算大规模数据的存储管理和查询分析Dremel、Hive、Cassandra、Impala等5.数据分析 为方便用户解决大数据问题而提供
5、的各种数据分析工具。8.2 大数据技术8.2.3 大数据架构Lambda Architecture(LA)是一种大数据软件设计架构,目的是指导用户充分利用批处理和流式计算技术各自的优点实现一个复杂的大数据处理系统。LA主要思想是将数据处理流程分解成三层:批处理层、流式处理层和服务层。2022/5/11现代教育技术中心88.2 大数据技术8.2.4 分布式存储和计算平台Hadoop1.Hadoop简介 Hadoop采用Java语言开发,是在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架。2.Hadoop的特点 Hadoop基于Java语言开发,以一种可靠、高效、可扩展的方式对大量非
6、结构化数据进行分布式处理的软件框架。(1)成本低且易扩展(2)高可靠性和容错性(3)高效性2022/5/11现代教育技术中心98.2 大数据技术8.2.4 分布式存储和计算平台Hadoop3.Hadoop的版本 Hadoop采用Java语言开发,是在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架。Hadoop 三大发行版本:Apache、Cloudera、HortonworkApache版本最原始(最基础)的版本,是学习hadoop的基础。Cloudera在大型互联网企业中用的较多。Hortonworks文档较好。2022/5/11现代教育技术中心108.2 大数据技术8.2.4
7、 分布式存储和计算平台Hadoop4.Hadoop生态系统 Hadoop采用Java语言开发,是在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架。2022/5/11现代教育技术中心118.2 大数据技术8.2.5 分布式文件系统HDFS1. HDFS介绍(1)HDFS的优点.能处理超大型数据.流式处理.兼容廉价硬件设备.跨平台兼容性强(2)HDFS不适合应用的类型.低延时的数据访问.存储大量小文件.不支持多用户写入及任意修改文件2022/5/11现代教育技术中心128.2 大数据技术8.2.5 分布式文件系统HDFS2.HDFS核心概念(1)Client(2)NameNode(3
8、)DataNode(4)Secondary NameNode3.HDFS架构2022/5/11现代教育技术中心138.2 大数据技术8.2.5 分布式文件系统HDFS4.HDFS关键技术 HDFS在实现时采用了大量分布式技术,其中的关键技术有容错性设计、副本放置策略、异构存储介质以及中央化缓存管理等。(1)容错性设计(2)副本放置策略(3)异构存储介质(4)集中式缓存管理2022/5/11现代教育技术中心148.2 大数据技术8.2.6 分布式数据库HBase1.HBase简介 HBase是一个分布式的、面向列的开源数据库,该技术来源于Fay Chang发表于2006年11月的Google论文
9、“Bigtable:一个结构化数据的分布式存储系统”。HBase是Apache的Hadoop项目的子项目。HBase Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群,主要用来存储和检索大规模数据,通过水平扩展的方式,处理超过10亿数据和数百万列元素组成的表。2022/5/11现代教育技术中心158.2 大数据技术8.2.6 分布式数据库HBase2.HBase和传统数据库的区别2022/5/11现代教育技术中心16对比项对比项HBaseHBase传统数据库传统数据库数据类型数据类型
10、HBase的数据类型简单,只保留字符串有丰富的数据类型数据操作数据操作HBase有简单的插入、查询、删除、清空等操作,表和表之间是分离的,没有复杂的表和表之间的关系。通常有各式各样的函数和连接操作。存储模式存储模式HBase是基于列存储的,利于数据压缩,可以并行查询列,查询效率高。 传统数据库是基于表格结构和行存储,需要维护大量索引,存储成本高,不能线性扩展,压缩效率低。 数据维护数据维护HBase的更新是插入了新的数据。传统数据库的更新是替换和修改数据。可伸缩性可伸缩性HBase可以轻松的增加或减少硬件的数目,并且对错误的兼容性比较高。传统数据库需要增加中间层才能实现类似的功能。事务事务HB
11、ase只可以实现单行的事务性,意味着行与行之间、表与表之前不必满足事务性传统数据库是可以实现跨行的事务性8.2 大数据技术8.2.7 NoSQL数据库1. NoSQL的产生 主流的NoSQL数据库有BigTable、HBase、Cassandra、SimpleDB、CouchDB、MongoDB和Redis等。2.NoSQL的优势(1)易扩展 (2)大数据量,高性能 (3)灵活的数据模型 (4)高可用 2022/5/11现代教育技术中心178.2 大数据技术8.2.7 NoSQL数据库3.NoSQL的类型 一般将NoSQL数据库分为四大类:键值(Key-Value)存储数据库、列存储数据库、文
12、档型数据库和图形(Graph)数据库。(1)键值(Key-Value)存储数据库2022/5/11现代教育技术中心18项目描述相关产品Redis、Riak、SimpleDB、Chordless、Scalaris、Memcached数据模型Key 指向 Value 的键值对,通常用hash table来实现典型应用内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等等。优点扩展性好、灵活性好、大量写操作时性能高缺点无法存储结构化信息、条件查询效率低8.2 大数据技术8.2.7 NoSQL数据库3.NoSQL的类型(2)列存储数据库2022/5/11现代教育技术中心19项目描述相关产品
13、BigTable、HBase、Cassandra、HadoopDB、GreenPlum、PNUTS数据模型以列簇式存储,将同一列数据存在一起典型应用分布式的文件系统优点查找速度快,可扩展性强,更容易进行分布式扩展缺点功能相对局限8.2 大数据技术8.2.7 NoSQL数据库3.NoSQL的类型(3)文档型数据库2022/5/11现代教育技术中心20项目描述相关产品CouchDB、MongoDB、Terrastore、ThruDB、RavenDB、SisoDB、RaptorDB、Cloudkit、Perservere、Jackkrabbit数据模型Key-Value对应的键值对,Value为结构
14、化数据典型应用Web应用(与Key-Value类似,Value是结构化的,不同的是数据库能够了解Value的内容)优点性能好、灵活性好、复杂性低、数据结构灵活缺点查询性能不高,缺乏统一的查询语法8.2 大数据技术8.2.7 NoSQL数据库3.NoSQL的类型(4)图形(Graph)数据库2022/5/11现代教育技术中心21项目描述相关产品Neo4J、OrientDB、InfoGrid、Infinite Graph、GraphDB数据模型图结构典型应用应用于大量复杂、互连接、低结构化的图结构场合、如社交网络、推荐系统等优点灵活性高、支持复杂的图算法,比如最短路径寻址,N度关系查找等、可用于构
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第8章 大数据ppt课件 数据 ppt 课件
限制150内