2022年云计算和大数据基础知识.docx
《2022年云计算和大数据基础知识.docx》由会员分享,可在线阅读,更多相关《2022年云计算和大数据基础知识.docx(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思* 1: 100. 云运算(一)大数据 BigData 1. 定义:海量数据或巨量数据, 其规模庞大到无法用当前主流的运算机系 统在合理时间内猎取、储备、治理、处理并提取以帮忙使用者决策;2. 特点:1)数据量大(Volume)- PB级以上2)快速(Velocity)- 数 据 增长快3)多样(Variety)- 数 据 来源及格式多样4)价值密度低(Value )- 从大量、多样数据中提取价值的体系结构5)复杂度(Complexity )-对数据处理和分析的难度大3.大数据与云运算的关系:从技术上看,
2、大数据与云运算的关系就像一枚硬币的正反面一样密不行分;大数据必定 无法用单台的运算机进行处理,必需采纳分布式运算架构;它的特色在于对海量数据的挖掘,但它必需依靠云运算的分布式处理、分布式数据库、云储备和虚拟化技术;(二)云运算 Cloud Computing 1.定义:1)云运算是一种商业运算模型;它将运算任务分布在大量运算机构 成的资源池上,使各种应用系统能够依据需要猎取运算力、储备空间和信息服务;/ 分布式运算2)云运算是通过网络按需供应可动态伸缩的廉价运算服务;2. 特点:1)超大规模 2)虚拟化 3)高牢靠性 4)通用性 5)高可伸缩性 6)按需服务 7)极其廉价3. 服务类型分类:1
3、) SaaS (软件即服务 ::Software as a Service / 针对性更强,它将某些特定应用软件功能封装成服务如: Salesforce online CRM 名师归纳总结 - - - - - - -第 1 页,共 7 页精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思2) PaaS (平台即服务:Platform as a Service)/对资源的抽象层次更进一步,供应用户应用程序运行环境如:Google App Engine ,Microsoft Windows Azure 3) IaaS (基础设施作为服务:/ 将硬件设备等基础资
4、源封装成服务供用户使用4. 云运算的实现机制(体系结构)Infrastructure as a Service ), 如: Amazon EC2/S3 1) SOA (面对服务的体系结构): 它将应用程序的不同功能单元(称为服务)通过这些服务之间定义良好的接口和契约联系起来;统一的、通用的方式进行交互;使得其服务能以一种SOA 可 以 看 作 是 B/S 模 型 、XML/Web Service 技术之后的自然延长;2)治理中间件:(关键部分)3)资源池层:将大量相同类型的资源构成同构或接近同构的资源池;4)物理资源层:运算机、储备器、网络设施、数据库和软件等5. 云运算与网格运算1)网格是基
5、于 SOA、使用互操作、按需集成等技术,将分散在不同地理位置的资源虚拟化为一个整体;2) 关系类似于TCP/IP 协议 之于OSI 模型6. 云运算与物联网1)物联网有全面感知, 牢靠传递、 智能处理三个特点;云运算供应对智能处理所需要的海量信息的分析和处理支持;2)云运算架构与互联网之上,而物联网依靠于互联网来供应有效延长;因而, 云运算模式是物理网的后端支撑关键;* 1.1: 1. Google 云运算原理(一)文件系统GFS 1) 系统架构名师归纳总结 - - - - - - -第 2 页,共 7 页精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思
6、2) 实现机制 : 节点分类:Client - Master - Chunk Server Master 负责治理;Client 与 Master 之间只有掌握流,而没有数据流【数据流 与掌握流 分别】 Client 可以同时拜访多个 Chunk Server ;【高度的 I/O 并行】3) 特点 采纳中心服务器【Master 把握 Chunk Server 情形,便利实现负载均衡】 不缓存数据 在用户态下实现4)容错机制 Master 容错:a. 对应 Chunk Server 留有备份 Chunk Server 容错:a. 多个副本备份 (3 个)b. GFS 每个文件被分为多个 Chun
7、k (64MB)c. Chunk 分为 Block(64kb), 每个 Block 对应一个 32 bit 校验和(二)分布式运算编程模型 MapReduce 1) 编程模型 划分为M 个 Map , 每一个Map 针对不同的原始数据,相互独立、并行操作; Reduce 操作就是对每个Map 产生的中间结果进行合并;每个 Reduce 所处理的最终结果互不交叉,通过简洁相连即可形成完整的结果集;PS: Map: in key, in value - N 个 Map value 进行Reduce: keyvalue1,value2,. - 对相同的Key 对应的并行处理/ 统计单词显现次数,每个
8、Map 统计一部分文本,Reduce 进行合并;2) 实现机制3) 容错机制新执行 Master 失效:周期性地设置检查点,一旦任务失效,就从最近一个检查点重 Worker 失效:Master 周期性地 ping Worker , Worker 不答复即失效,任务调名师归纳总结 度安排给其他Worker 第 3 页,共 7 页- - - - - - -精选学习资料 - - - - - - - - - 读书之法 ,在循序而渐进 ,熟读而精思(三)分布式锁服务 Chubby 1) 作用:Chubby 是 Google 设计的供应粗粒度锁服务的一个文件系统,它基于松耦合分布式系统,解决了分布的一样性
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 计算 数据 基础知识
限制150内