Hadoop大数据平台部署与应用.pptx
《Hadoop大数据平台部署与应用.pptx》由会员分享,可在线阅读,更多相关《Hadoop大数据平台部署与应用.pptx(61页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Hadoop大数据平台部署与应用主讲:吕震宇主要内容l1、Hadoop 生态系统概述以及版本演化l2、Hadoop 发行版介绍(开源版)l3、Hadoop 安装l4、HDFS 上机操作l5、HBASE 上机操作l6、YARN 上机操作l7、MapReduce 上机操作l8、SPARK 概述1、Hadoop 生态系统概述以及版本演化Hadoop 1.0 与 Hadoop 2.0分布式存储系统 HDFS(Hadoop Distributed File System)提供了高可靠性、高扩展性和高吞吐率的数据存储服务分布式计算框架 MapReduce具有易于编程、高容错性和高扩展性等优点资源管理系统
2、YARN(Yet Another Resource Negotiator)负责集群资源的统一管理和调度HADOOP 1.0HADOOP 2.0HDFS(redundant,reliable storage)MapReduce(cluster resource management&data processing)MapReduce(data processing)Others(data processing)YARN(cluster resource management)HDFS(redundant,reliable storage)HDFS 架构DataNodeDataNodeDataNo
3、deDataNodeDataNodeLocal DiskNameNodeSecondaryNameNodeHDFSClientLocal DiskLocal DiskLocal DiskLocal Disk心跳、均衡负载、复制等HDFS 架构lActive Namenodel主 Master(只有一个),管理 HDFS 的名称空间,管理数据块映射信息l配置副本策略;处理客户端读写请求lSecondary NameNodelNameNode 的热备;定期合并 fsimage 和 fsedits,推送给 NameNode;l当 Active NameNode 出现故障时,快速切换为新的 Activ
4、e NameNode。lDatanodelSlave(有多个);存储实际的数据块;执行数据块读/写lClientl与 NameNode 交互,获取文件位置信息;l与 DataNode 交互,读取或者写入数据;管理 HDFS、访问 HDFS。MapReducel源自于 Google 的 MapReduce 论文l发表于 2004 年 12 月lHadoop MapReduce 是 Google MapReduce 克隆版lMapReduce特点l良好的扩展性l高容错性l适合 PB 级以上海量数据的离线处理词频统计的 MapReduce 处理过程Deer Bear RiverCar Car Riv
5、erDeer Car BearDeer,1Bear,1River,1Car,1Car,1River,1Deer,1Car,1Bear,1Deer Bear RiverCar Car RiverDeer Car BearBear,1Bear,1Car,1Car,1Car,1Deer,1Deer,1River,1River,1Bear,2Car,3Deer,2River,2Bear,2Car,3Deer,2River,2InputSplittingMappingReducingShufflingFinal resultHadoop 构成:YARN(资源管理系统)Application Run Na
6、tively IN HadoopBATCH(MapReduce)YARN(Cluster Resource Management)HDFS2(Redundant,Reliable Storage)InterActive(Tez)ONLINE(HBase)STREAMING(Storm,S4,)GRAPH(Giraph)IN-MEMORY(Spark)HPC MPI(OpenMPI)OTHER(Search)YARN是什么Hadoop 2.0 新增系统负责集群的资源管理和调度使得多种计算框架可以运行在一个集群中YARN的特点良好的扩展性、高可用性对多种类型的应用程序进行统一管理和调度自带多种多用
7、户调度器,适合共享集群环境Hadoop 生态系统:1.0 时代Flume(日志收集)Zookeeper(分布式协调服务)Mahout(数据挖掘库)Hive(数据仓库)Oozie(作业流调度系统)MapReduce(分布式计算框架)Ambari(安装部署工具)HDFS(分布式存储系统)Pig(工作流引擎)Hbase(分布式数据库)Sqoop(数据库TEL工具)Hive(基于MR的数据仓库)l由Facebook开源,最初用于海量结构化日志数据统计;lETL(Extraction-Transformation-Loading)工具l构建在Hadoop之上的数据仓库l数据计算使用 MapReduce,
8、数据存储使用HDFSlHive 定义了一种类 SQL 查询语言HQLl类似SQL,但不完全相同l通常用于进行离线数据处理(采用 MapReduce)l可认为是一个 HQLMR 的语言翻译器Pig(作业流引擎)l由 yahoo!开源l是提供一种基于 MapReduce 的 ad-hoc 数据分析工具l构建在Hadoop之上的数据仓库l定义了一种数据流语言 Pig Latinl通常用于进行离线分析WordCount:MapReduce 实现public static class TokenizerMapper extends Mapper private final static IntWrita
9、ble one=new IntWritable(1);private Text word=new Text();public void map(Object key,Text value,Context context )throws IOException,InterruptedException StringTokenizer itr=new StringTokenizer(value.toString();while(itr.hasMoreTokens()word.set(itr.nextToken();context.write(word,one);public static clas
10、s IntSumReducer extends Reducer private IntWritable result=new IntWritable();public void reduce(Text key,Iterable values,Context context )throws IOException,InterruptedException int sum=0;for(IntWritable val:values)sum+=val.get();result.set(sum);context.write(key,result);WordCount:MapReduce 实现public
11、 static void main(String args)throws Exception Configuration conf=new Configuration();String otherArgs=new GenericOptionsParser(conf,args).getRemainingArgs();if(otherArgs.length!=2)System.err.println(Usage:wordcount );System.exit(2);Job job=new Job(conf,word count);job.setJarByClass(WordCount.class)
12、;job.setMapperClass(TokenizerMapper.class);job.setCombinerClass(IntSumReducer.class);job.setReducerClass(IntSumReducer.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);FileInputFormat.addInputPath(job,new Path(otherArgs0);FileOutputFormat.setOutputPath(job,new Path
13、(otherArgs1);System.exit(job.waitForCompletion(true)?0:1);WordCount:Hive 实现SELECT word,COUNT(*)FROM doc LATERAL VIEW explode(split(text,)lTable as word GROUP BY word;WordCount:Pig 实现-加载数据input=load/input/data as(line:chararray);-将字符串分割成单词words=foreach input generateflatten(TOKENIZE(line)as word;-对单词
14、进行分组grpd=group words by word;-统计每组中单词数量cntd=foreach grpd generate group,COUNT(words);-打印结果dump cntd;Mahout(数据挖掘库)lMahoutl基于Hadoop的机器学习和数据挖掘的分布式计算框架l实现了三大类算法l推荐(Recommendation)l聚类(Clustering)l分类(Classification)Hbase(分布式数据库)l源自 Google 的 Bigtable 论文l发表于 2006 年 11 月lHbase 是 Google Bigtable 克隆版Hadoop 生态系
15、统:2.0 时代Flume(日志收集)Zookeeper(分布式协调服务)Tez(DAG计算)SharkOozie(作业流调度系统)MapReduce(分布式计算框架)Ambari(安装部署工具)HDFS(分布式存储系统)Hbase(分布式数据库)Sqoop(数据库TEL工具)HivePigYARN(分布式计算框架)Spark(内存计算)Hive2Pig22、Hadoop 发行版介绍(开源版)Hadoop 发行版介绍(开源版)lApache Hadoopl推荐使用最新的2.x.x版本,比如2.4.0l下载地址:http:/hadoop.apache.org/releases.htmllSVN:
16、http:/svn.apache.org/repos/asf/hadoop/common/branches/lCDH(Cloudera Distributed Hadoop)l推荐使用最新的 CDH5 版本,比如 CDH 5.0.0l下载地址:http:/ Data Platform)l推荐使用最新的 HDP 2.x 版本,比如 HDP 2.1 版本l下载地址:http:/ 版本演化:HDPHadoop 版本演化:CDH3、Hadoop 安装Hadoop 安装 软件准备l下载 Intellij IDEA(在windows中安装即可)lhttps:/ Community Editionl下载 H
17、adoop 安装包lhadoop:lhttp:/ lhbase:lhttp:/ lspark:lhttp:/ l下载 JDK 安装包Hadoop 安装 安装操作系统l安装 Vmware Workstation 10.0.0.4l在虚拟机中安装 Ubuntu 12.04 操作系统l目前虚拟机已经准备好,可以直接使用l映射虚拟目录l为虚拟机添加共享文件夹l在虚拟机中 mount 文件夹sudo mount-t vmhgfs.host:/mnt/hgfs/Hadoop 安装 JDKl安装 JDKl将 jdk-6u45-linux-i586.bin 拷贝到/usr/lib/jvm 文件夹,运行命令:c
18、hmod+x/usr/lib/jvm/jdk-6u45-linux-i586.binsudo/usr/lib/jvm/jdk-6u45-linux-i586.binl修改/etc/profile 文件sudo gedit/etc/profilel向/etc/profile 追加如下代码并保存export JAVA_HOME=/usr/lib/jvm/jdk1.6.0_45export PATH=$JAVA_HOME/bin:$PATHexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarl更新/etc/profile
19、文件,最好重新登录source/etc/profile l验证 JDK 安装正确java versionHadoop 安装 安装 Hadoopl安装 Hadoopl1)将 hadoop-2.5.0-cdh5.2.0.tar.gz 拷贝到工作目录下l2)解压 hadoop压缩包tar zxvf hadoop-2.5.0-cdh5.2.0.tar.gzl3)拷贝 experiment/single-cluster 下的 core-site.xml 和 hdfs-site.xml 文件到 hadoop-2.5.0-cdh5.2.0/etc/hadoop/目录l4)拷贝 experiment/sing
20、le-cluster 下的 mapred-site.xml 和 yarn-site.xml 文件到 hadoop-2.5.0-cdh5.2.0/etc/hadoop/目录l5)修改 etc/hadoop/下的几个配置文件:l(1)hadoop-env.sh可以在命令窗口中使用下面显示java安装目录:echo$JAVA_HOME将 export JAVA_HOME=$JAVA_HOME 修改为export JAVA_HOME=/usr/lib/jvm/jdk1.6.0_45/l(2)hdfs-site.xmll将 dfs.namenode.name.dir 和 dfs.datanode.dat
21、a.dir 改成自己对应的路径l6)启动 HDFS 和 YARNl(1)启动 HDFS格式化 HDFS(第一次使用前做一次就可以了):bin/hadoop namenode-format启动 namenodesbin/hadoop-daemon.sh start namenode启动 datanodesbin/hadoop-daemon.sh start datanodel(2)启动 YARN启动 resourcemanager:sbin/yarn-daemon.sh start resourcemanager启动 nodemanager:sbin/yarn-daemon.sh start n
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hadoop 数据 平台 部署 应用
限制150内