大数据与分布式计算-PPT.ppt
《大数据与分布式计算-PPT.ppt》由会员分享,可在线阅读,更多相关《大数据与分布式计算-PPT.ppt(65页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据与分布式计算HDFSHadoopDistributedFileSystem1990年,一个普通的硬盘驱动器可存储1370MB的数据并拥有4.4MB/s的传输速度,所以,只需五分钟的时间就可以读取整个磁盘的数据。20年过去了,1TB级别的磁盘驱动器是很正常的,但是数据传输的速度却在100MB/s左右。所以它需要花两个半小时以上的时间读取整个驱动器的数据。从一个驱动器上读取所有的数据需要很长的时间,写甚至更慢。如何解决?磁盘损坏数据丢失怎么办?如果需要存储计算1000T数据怎么办?常用RAID技术RAID类型型访问速度速度数据可靠性数据可靠性磁磁盘利用率利用率RAID0很快很低100%RAI
2、D1很慢很高50%RAID10中等很高50%RAID5较快较高(N-1)/NRAID6较快较(RAID5)高(N-2)/NHDFS系统架构什么是HDFS?HadoopDistributedFileSystemHadoopDistributedFileSystem(HDFS)istheprimarystoragesystemusedbyHadoopapplications.HDFScreatesmultiple replicas ofdatablocksanddistributesthemoncomputenodesthroughoutaclustertoenablereliable,extre
3、melyrapidcomputations.HDFS设计目标HDFS以流式数据访问模式存储超大文件,运行于商用硬件集群上。超大文件流式数据访问一次写入多次读取商用硬件不适合HDFS的场景低延迟的数据访问大量小文件超过NameNode的处理能力多用户任意写入修改文件HDFS为了做到可靠性(reliability)创建了多份数据块(data blocks)的复制(replicas),并将它们放置在服务器群的计算节点中(compute nodes),MapReduce就可以在它们所在的节点上处理这些数据了。设计目标假设:节点失效是常态理想:1.任何一个节点失效,不影响HDFS服务2.HDFS可以自动
4、完成副本的复制HDFS主要组件的功能NameNodeDataNode存储元数据存储文件内容元数据保存在内存中文件内容保存在磁盘保存文件,block,datanode之间的映射关系维护了blockid到datanode本地文件的映射关系文件文件切分成块(默认大小64M),以块为单位,每个块有多个副本存储在不同的机器上,副本数可在文件生成时指定(默认3)NameNode是主节点,存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表以及块所在的DataNode等等DataNode在本地文件系统存储文件块数据,以及块数据的校验和可以创建、删除、移动或重命
5、名文件,当文件创建、写入和关闭之后不能修改文件内容。分而治之(DivideandConquer)分而治之(DivideandConquer)分而治之(DivideandConquer)MapReduceMapReduce:大规模数据处理处理海量数据(1TB)上百/上千CPU实现并行处理简单地实现以上目的移动计算比移动数据更划算分而治之(DivideandConquer)MapReduce特性自动实现分布式并行计算容错提供状态监控工具模型抽象简洁,程序员易用MapReduce它由称为map和reduce的两部分用户程序组成,然后利用框架在计算机集群上面根据需求运行多个程序实例来处理各个子任务,然
6、后再对结果进行归并。WordCountMapReduceMapReduce物理上MapReduceHiveSQLSub-queriesinfromclauseEqui-joinsInnerLeft,Right,fullOuterMulti-tableInsertMulti-group-byExtensibilityPluggableMap-reducescriptsPluggableUserDefinedFunctionsPluggableUserDefinedTypesComplexobjecttypes:ListofMapsPluggableDataFormatsApacheLogForm
7、atColumnarStorageFormatHiveQLJoinINSERTOVERWRITETABLEpv_usersSELECTpv.pageid,u.ageFROMpage_viewpvJOINuseruON(pv.userid=u.userid);HiveQLJoininMapReducekeyvalue111111222pageid useridtime11119:08:0121119:08:1312229:08:14useridagegender11125female22232malepage_viewuserpv_userskeyvalue111222Mapkeyvalue11
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分布式 计算 PPT
限制150内