云计算与大数据处理综述(共7页).docx
《云计算与大数据处理综述(共7页).docx》由会员分享,可在线阅读,更多相关《云计算与大数据处理综述(共7页).docx(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上云计算与大数据处理1. 引言从某种程度上来讲,云计算是面向服务计算的一个极其成功的范例。云计算的三大理念包括:基础设施即服务(IaaS)、平台即服务(PaaS)以及软件即服务(SaaS)。这一概念甚至同样可以扩展到数据库即服务(DBaaS)抑或存储即服务(SaaS)。灵活性强、计次付费、前期低投资以及风险转移几大特性,使得云计算成为部署新型应用的一种普遍方式。大量云计算应用服务的不断涌现,也催生了各种各样的云平台。越来越多的平台和应用,同时作为生产者和消费者,也使得互联网上的数据量以惊人的速度日益扩增。可扩展数据管理系统因此就成为云计算基础架构的重要一环。对于可扩展分
2、布式数据管理的研究已经持续了许多年。大多数研究都关注于如何设计出一种同时适用于更新密集任务和专业分析任务的可扩展式系统。最初的方案有应用于更新密集型任务的分布式数据库,以及专业分析任务的并行数据库。其中并行数据库更是从原型系统一直发展到可用的商业系统水准。然而相比之下分布式数据库却发展的差强人意且从未得到商业化。2. 可扩展海量数据管理系统应用服务的数据访问模式的变革,再加上急速扩增的需求,催生了一种被称作键值对(Key-Value)存储的新型系统。键值存储模式出现后受到各种企业的追捧并且得到了广泛采用。在工业界和学术界,MapReduce模式以及其开源实现项目Hadoop都得到了迅速应用普及
3、。而且更进一步,针对不同的应用场景下的可用性以及运行效率提升,也不断有各种Hadoop改良解决方案被提出。部署在云端的应用服务都有着各自对于数据管理的迫切需求,这样就有诸多的可供研究的空间。总之,为解决各领域大数据管理带来的挑战,催生了数不胜数的系统方案。各种云计算服务都需要对分布存储的、海量的数据进行处理分析。具体而言,云计算应用面临的数据管理挑战体现在数据的海量性、异构性以及非确定性。针对这些特点,来构建高可用性及强可扩展性的分布式数据存储系统,目前云计算系统中的数据管理技术除了MapReduce之外,主要还包括Google的GFS、 BigTable和亚马逊的Dynamo。2.1 Map
4、Reduce技术MapReduce是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行计算。作为一个新的编程模型,MapReduce将所有针对海量异构数据的操作抽象为两种操作,即Map和Reduce。使用Map函数将任务分解为适合在单个节点上执行的计算子任务,通过图1. MapReduce架构模型调度执行处理后得到一个“Key-Value”集。而Reduce函数则根据预先制定的规则对在Map阶段得到的“Key-Value”集进行归并操作,得到最终计算结果。MapReduce架构模型最为成功之处就在于,让人们可以根据需求将针对海量异构数据的处理操作(无论是多么复杂)分解为任意粒
5、度的计算子任务,并能够在多个计算节点之间灵活地调度计算任务以及参与计算的数据,从而实现计算资源和存储资源配置的全局最优化。另外,MapReduce方法在将Map任务和Reduce任务分配到集群中的相应节点时,会考虑到数据的本地性(Data Locality),即一般会将Map/Reduce安排到参与计算数据的存放节点或附近节点来执行。2.2 GFS技术GFS(Google File System)是一个大型的分布式文件系统。它为Google云计应用算提供分布式海量存储解决方案,并且与MapReduce和BigTable等技术结合十分紧密,形成Google独有的一套的云计算解决方案。GFS的架构
6、模型如图2所示,GFS将整个系统的节点分为三类角色:Client(客户端)、Master(主服务器)和Chunk Server(数据块服务器)。Client是GFS提供给应用程序的访问接口,它是一组专用接口,不遵守POSIX规范,以库文件的形式提供。应用程序直接调用这些库函数,并与该库链接在一起;Master是GFS的管理节点,其数量在逻辑上只有一个,它保存系统的元数据,负责整个文件系统的管理,是GFS文件系统中的大脑;Chunk Server负责具体的存储工作,数据以文件的形式存储在Chunk Server上,Chunk Server的个数可以有多个,它的数目直接决定了GFS的规模。GFS将
7、文件按照图2. GFS架构模型固定大小进行分块(默认是64MB),每一块称为一个Chunk(数据块),每个Chunk都有一个对应的索引号(Index)。客户端应用在访问GFS时,首先访问Master节点,获取将要与之进行交互的Chunk Server信息,然后再行直接访问这些Chunk Server完成数据存取。GFS的这种设计方法实现了控制流和数据流的分离。Client与Master之间只有控制流,而无数据流,这样就极大地降低了Master的负载,使之免于成为制约系统性能的一个瓶颈。Client与Chunk Server之间直接传输数据流,同时由于文件被分成多个Chunk进行分布式存储,Cl
8、ient又可以同时访问多个Chunk Server,从而使得整个系统I/O活动高度并行,整体性能得到极大提升。2.3 BigTable技术Google提出的BigTable技术是建立在GFS和MapReduce之上的一个大型的分布式数据管理系统。BigTable实际上的确是一个很庞大的表结构,它的规模可以超过1PB(1024TB)。它将所有数据都作为对象来处理,形成一个巨大的表格。对于BigTable,Google给出了如下定义:BigTable是一种为了管理结构化数据而设计的分布式存储系统,系统中存放管理数据可以扩展到非常大的规模,例如在数千台服务器上的达到PB规模的数据,现在有很多Goog
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算 数据处理 综述
限制150内