Hadoop生态系统基本介绍.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《Hadoop生态系统基本介绍.ppt》由会员分享,可在线阅读,更多相关《Hadoop生态系统基本介绍.ppt(60页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Hadoop发展展历程及各程及各组件介件介绍第一章第一章 课程程简介介课程介绍Hadoop发展历程Hadoop各组件介绍第二章第二章Hadoop发展历程WhyHadoop?Hadoop简史Hadoop核心组件Hadoop生态系统总结Hadoop解决的问题我们处在一个海量数据的时代我们正产生着比以往任何时候都多的数据-金融交易数据-网络数据-服务器日志-分析数据-电子邮件和短信-各类多媒体数据我们处在一个海量数据的时代我们产生数据的速度比以往任何时候都快-各类自动化数据-无处不在的互联网-用户自发生成的内容例如,-纽约证交所每天产生的交易数据多达1TB-Twitter每天处理3.4亿条信息-Fa
2、cebook每天有27亿条评论淘宝双11当天的营业额?淘宝双11全记录数据就是价值这些数据可用于许多有价值的应用-营销分析-产品推荐-需求预测-欺诈检测-更多、更多我们必须处理它以提取其价值数据处理的可扩展性受限我们如何处理所有这些信息有两个问题需要面对-大数据的存储HDFS-大数据的分析MapReduceWhyHadoop?Hadoop简史Hadoop版本Hadoop解决的问题Hadoop的史前Hadoop最开始用来提高ApacheNutch的可扩展性-Nutch是一个开源的Web搜索引擎项目两篇谷歌论文对这项成果有重大影响-TheGoogleFileSystem(存储)-Mapreduce
3、(处理)2002200320042005NutchcreatedGoogleFilesystempaperMapReducepaperNutchre-architecture早期HadoopHadoop后来从ApacheNutch被分离出来-第一次进入Lucene的一个子项目,称为hadoop-后来成为顶级Apache项目雅虎!领导早期的许多Hadoop开发-其他很多公司也接踵而至200620082008Hadoopsub-project1000-nodeYahoo!clusterTop-levelApacheprojectHadoop大事记2004年DougCuttingMikeCafare
4、lla实现了HDFS和MapReduce的初版2005年12月Nutch移植到新框架,Hadoop在20个节点上稳定运行2006年1月DougCutting加入雅虎2006年2月ApacheHadoop项目正式启动,支持MapReduce和HDFS独立发展2006年2月雅虎的网格计算团队采用Hadoop2006年4月在188个节点上(每节点10GB)运行排序测试机需要47.9个小时2006年5月雅虎建立了一个300个节点的Hadoop研究集群2006年5月在500个节点上运行排序测试集需要42个小时(硬件配置比4月份更好)2006年11月 研究集群增加到600个节点Hadoop大事记2006年
5、12月 排序测试记在20个节点上运行1.8个小时,100个节点上运行3.3个小时,500个节点上运行5.2个小时,900个节点上运行7.8个小时2007年1月研究集群增加到900个节点2007年4月研究集群增加到两个集群1000个节点2008年4月在900个节点上运行1TB的排序测试集仅需要209秒,成为全球最快2008年10月 研究集群每天状态10TB的数据2009年3月17个集群共24000个节点2009年4月在每分钟排序中胜出,59秒内排序500GB(1400个节点上)和173分钟内排序100TB的数据(在3400个节点上)WhyHadoop?Hadoop简史Hadoop版本Hadoop
6、解决的问题Hadoop版本http:/ stock.product,SUM(orders.purchases)FROM stock INNER JOIN orders ON(stock.id=orders.stock_id)WHERE orders.quarter=Q1 GROUP BY stock.product;Hadoop生态系统之zookeeperZookeeper简介在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制不适合在某些应用中使用,因此需要有一种可靠的、可扩展的、分布式的、可配置的协调机制来统一系统的状态。Zookeeper的目的就在于此。Zookeepe
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hadoop 生态系统 基本 介绍
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内