2022年云计算和大数据基础知识 .pdf
《2022年云计算和大数据基础知识 .pdf》由会员分享,可在线阅读,更多相关《2022年云计算和大数据基础知识 .pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、读书之法 ,在循序而渐进 ,熟读而精思* 1: 100. 云计算(一)大数据 (BigData) 1. 定义:海量数据或巨量数据, 其规模巨大到无法用当前主流的计算机系统在合理时间内获取、存储、管理、处理并提取以帮助使用者决策。2. 特点:1)数据量大(Volume)- PB级以上2)快速(Velocity)- 数 据 增长快3)多样(Variety)- 数 据 来源及格式多样4)价值密度低(Value )- 从大量、多样数据中提取价值的体系结构5)复杂度(Complexity)-对数据处理和分析的难度大3.大数据与云计算的关系:从技术上看, 大数据与云计算的关系就像一枚硬币的正反面一样密不可
2、分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。(二)云计算 (Cloud Computing) 1.定义:1)云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。/ 分布式计算2)云计算是通过网络按需提供可动态伸缩的廉价计算服务。2. 特点:1)超大规模2)虚拟化3)高可靠性4)通用性5)高可伸缩性6)按需服务7)极其廉价3. 服务类型分类:1) SaaS (软件即服务::Software as a Se
3、rvice) / 针对性更强,它将某些特定应用软件功能封装成服务如: Salesforce online CRM 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1 页,共 7 页读书之法 ,在循序而渐进 ,熟读而精思2) PaaS (平台即服务:Platform as a Service)/对资源的抽象层次更进一步,提供用户应用程序运行环境如:Google App Engine ,Microsoft Windows Azure 3) IaaS (基础设施作为服务:Infrastructure as a Service)/ 将硬件设备等基础资源封装
4、成服务供用户使用, 如: Amazon EC2/S3 4. 云计算的实现机制(体系结构)1) SOA (面向服务的体系结构): 它将应用程序的不同功能单元(称为服务)通过这些服务之间定义良好的接口和契约联系起来。使得其服务能以一种统一的、通用的方式进行交互。SOA 可 以 看 作 是 B/S 模 型 、XML/Web Service 技术之后的自然延伸。2)管理中间件:(关键部分)3)资源池层:将大量相同类型的资源构成同构或接近同构的资源池。4)物理资源层:计算机、存储器、网络设施、数据库和软件等5. 云计算与网格计算1)网格是基于SOA 、使用互操作、按需集成等技术,将分散在不同地理位置的资
5、源虚拟化为一个整体。2) 关系类似于TCP/IP 协议之于OSI 模型6. 云计算与物联网1)物联网有全面感知, 可靠传递、 智能处理三个特征。云计算提供对智能处理所需要的海量信息的分析和处理支持。2) 云计算架构与互联网之上,而物联网依赖于互联网来提供有效延伸。因而, 云计算模式是物理网的后端支撑关键。* 1.1: 1. Google 云计算原理(一)文件系统GFS 1) 系统架构精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 2 页,共 7 页读书之法 ,在循序而渐进 ,熟读而精思2) 实现机制 : 节点分类:Client - Master -
6、 Chunk Server Master 负责管理。Client 与 Master 之间只有控制流,而没有数据流【数据流与控制流分离】 Client 可以同时访问多个Chunk Server 。【高度的I/O 并行】3) 特点 采用中心服务器【Master 掌握 Chunk Server 情况,方便实现负载均衡】 不缓存数据 在用户态下实现4)容错机制 Master 容错:a. 对应 Chunk Server 留有备份 Chunk Server 容错:a. 多个副本备份 (3 个)b. GFS 每个文件被分为多个 Chunk (64MB)c. Chunk 分为Block(64kb), 每个 B
7、lock 对应一个32 bit 校验和(二)分布式计算编程模型MapReduce 1) 编程模型 划分为M 个 Map , 每一个Map 针对不同的原始数据,互相独立、并行操作。 Reduce 操作则是对每个Map 产生的中间结果进行合并。每个 Reduce 所处理的最终结果互不交叉,通过简单相连即可形成完整的结果集。PS: Map: (in key, in value ) - N 个 Map Reduce: ( key(value1,value2,. ) ) - 对相同的Key 对应的value 进行并行处理/ 统计单词出现次数,每个Map 统计一部分文本,Reduce 进行合并。2) 实现
8、机制3) 容错机制 Master 失效:周期性地设置检查点,一旦任务失效,则从最近一个检查点重新执行 Worker 失效:Master 周期性地ping Worker , Worker 不答复即失效,任务调度分配给其他Worker 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 3 页,共 7 页读书之法 ,在循序而渐进 ,熟读而精思(三)分布式锁服务Chubby 1) 作用:Chubby 是 Google 设计的提供粗粒度锁服务的一个文件系统,它基于松耦合分布式系统,解决了分布的一致性问题2) Paxos 算法 proposers (提议 ) -
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年云计算和大数据基础知识 2022 计算 数据 基础知识
限制150内