《hadoop培训》PPT课件.ppt
《《hadoop培训》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《hadoop培训》PPT课件.ppt(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Page 2提纲n hadoop的组成部分和安装方法n hadoop的web接口n hadoop的命令行接口ndfsnjobnjarndfsadminn.n hadoop的编程接口nmapreduce任务编程nhdfs编程n Streaming编程框架n 任务的调试和查错Page 3hadoop的软件结构和安装方法n 软件结构(我们目前主要使用的)nDFS模块,包含了Namenode, Secondary Namenode, Datanode等模块,这些模块分别会运行在主节点和从节点上,通过http协议进行交互nmapred模块,包含了JobTracker和TaskTracker模块,这些模块
2、运行在主节点和从节点上,也通过http协议进行交互Page 4hadoop的软件结构和安装方法n 软件安装方法n下载程序包n解压后配置相关参数,所有的配置文件在主文件夹下的conf文件夹内。n分发程序目录到集群中所有机器n命令行启动集群start-mapred.shPage 5hadoop的接口n 通过接口了解hadoop内部的情况nweb接口n部分命令行接口n 通过接口控制hadoop的运行和态nweb接口(需开启配置中web控制选项)n命令行接口n 通过接口提交任务n命令行接口结合编程接口Page 6hadoop的web接口n hdfs,默认用浏览器访问namenode节点的50070端口
3、即可nhdfs接口中可以访问n mapred,默认用浏览器访问jobtracker节点的50030端口即可,一般将同一台机器作为jobtracker和namenode节点Page 7hadoop的命令行接口n dfsn-mv -cp(宜使用distCp工具替代) -ls .n jobn-list -kill -history .n jar : 读取配置运行java程序nStreaming.jarnmyjob.jarnwordcount.jarn.n ?admin:管理和查看hadoop上的详细状态n.n .Page 8hadoop任务运行原理n hadoop任务(Job)由多个子任务(Task
4、)组成,tasks由以下两部分n多个mapper,其中mapper的个数由输入文件格式规定的文件分块数确定,mapper的运行和数据分块所在的机器有很大的关系n多个/0个 reducer,reducer的个数由用户提交任务时指定n 集群中JobTracker负责调度Job和Job之下的tasks,而每个tasktracker负责接收task任务并运行之n提交任务过程:用户与JobTracker交互,提交任务资源和配置n运行任务过程:JobTracker将队列中的tasks按调度算法分配给各tasktracker的空闲槽,tasktracker随后就运行之并监视汇报tasks的运行情况。Page
5、 9hadoop任务运行原理-通过hadoop编程接口提交任务n 以一个任务的提交为例:WordCount.jarn 其代码结构如下:这个程序其实和普通的java程序没有区别,其实现了mapper,reducer接口,并通过main函数加载配置和参数,上传jar,提交任务并监控运行情况public class WordCountpublic static class TokenizerMapper extends Mapperpublic static class IntSumReducer extends Reducer public static void main(String args
6、) Page 10hadoop编程接口,hadoop任务运行原理n 以一个任务的提交为例:WordCount.jarn 其main函数如下,其中就包含了提交任务的流程:public static void main(String args) throws Exception Configuration conf = new Configuration(); /读取默认的配置文件 String otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs(); /通用参数解析 if (otherArgs.length != 2
7、) System.err.println(Usage: wordcount ); System.exit(2); Job job = new Job(conf, word count); /新建任务对象 job.setJarByClass(WordCount.class);/主类 job.setMapperClass(TokenizerMapper.class);/mapper job.setCombinerClass(IntSumReducer.class);/作业合成类 job.setReducerClass(IntSumReducer.class);/reducer job.setOut
8、putKeyClass(Text.class);/设置作业输出数据的关键类 job.setOutputValueClass(IntWritable.class);/设置作业输出值类 FileInputFormat.addInputPath(job, new Path(otherArgs0);/文件输入 FileOutputFormat.setOutputPath(job, new Path(otherArgs1);/文件输出 System.exit(job.waitForCompletion(true) ? 0 : 1);/提交任务,等待完成退出. Page 11hadoop编程需要实现的接口
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- hadoop培训 hadoop 培训 PPT 课件
限制150内