教你如何查看API及使用hadoop新api编程.pdf

上传人：asd****56

文档编号：70332619

上传时间：2023-01-19

格式：PDF

页数：15

大小：487.67KB

( 4.5 )

《教你如何查看API及使用hadoop新api编程.pdf》由会员分享，可在线阅读，更多相关《教你如何查看API及使用hadoop新api编程.pdf（15页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、教你如何查看教你如何查看 API 及使用及使用 hadoop 新新 api 编程：编程：hadoop2.4 新新 api 与旧与旧 api 调用例子对比调用例子对比说明说明问题导读：问题导读：一直想写 hadoop 新旧 api 之间的关系，这对于爱好编程的程序猿来讲，是必备的。1.hadoop 中中 mapred 与与 mapreduce 包，那个是被弃用的？包，那个是被弃用的？2.hadoop 旧旧 api 如何初始化如何初始化 job？3.hadoop 新新 api 使用那个函数来初始化使用那个函数来初始化 job 对象？对象？程序说明：程序说明：下面的 mapreduce 程序的功

2、能只是计算文件 booklist.log 的行数，最后输出结果。分别调用旧包和新包的方法编写了两分带有 main 函数的 java 代码。a,新建了 mapreduce 工程后，先把 hadoop 的配置目录下的 xml 都拷贝到 src 目录下。b,在工程 src 同级目录旁建立 conf 目录，并放一个 log4j.properties 文件。c,src 目录下建立 bookCount 目录，然后再添加后面的子 java 文件。d,右击run as application或选择 hadoop 插件菜单run on hadoop来触发执行 MapReduce程序即可运行。生成要分析的输入文

3、件生成要分析的输入文件 vi namelist.log 添加以下内容即可：name name name name name name name name name name name name 保存退出。执行的前请通过 hdfs 的 copyFromLocal 命令拷贝到 hdfs 的/user/hduser 用户目录下。老老 API 使用使用 mapred 包的代码包的代码文件 BookCount.java：package bookCount;import java.io.IOException;import java.util.Iterator;import org.apache.had

4、oop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapred.FileInputFormat;import org.apache.hadoop.mapred.FileOutputFormat;import org.apache.hadoop.mapred.JobClient;import org.apache.hadoop.mapred.Job

5、Conf;import org.apache.hadoop.mapred.MapReduceBase;import org.apache.hadoop.mapred.Mapper;import org.apache.hadoop.mapred.OutputCollector;import org.apache.hadoop.mapred.Reducer;import org.apache.hadoop.mapred.Reporter;import org.apache.log4j.Logger; import org.apache.log4j.PropertyConfigurator;publ

6、ic class BookCount public static Logger logger=Logger.getLogger(BookCount.class);public static void main(String args)throws IOException PropertyConfigurator.configure(conf/log4j.properties);logger=Logger.getLogger(BookCount.class);logger.info(AnaSpeedMr starting);System.setProperty(HADOOP_USER_NAME,

7、hduser);JobConf conf=new JobConf(BookCount.class);conf.setJobName(bookCount_sample_job);FileInputFormat.setInputPaths(conf,new Path(booklist.log);FileOutputFormat.setOutputPath(conf,new Path(booklistResultDir);conf.setMapperClass(BookCountMapper.class);conf.setReducerClass(BookCountReducer.class);co

8、nf.setOutputKeyClass(Text.class);conf.setOutputValueClass(IntWritable.class);JobClient.runJob(conf); static class BookCountMapper extends MapReduceBase implements Mapper Override public void map(LongWritable key,Text value,OutputCollector output,Reporter reporter)throws IOException output.collect(ne

9、w Text(booknum),new IntWritable(1);logger.info(foxson_mapper_ok);System.out.println(foxsonMapper);static class BookCountReducer extends MapReduceBase implements Reducer Override public void reduce(Text key,Iterator values,OutputCollector output,Reporter reporter)throws IOException long sumBookNum =0

10、;while(values.hasNext()sumBookNum=sumBookNum+1;values.next();logger.info(foxson_BookCountReducer_ok); output.collect(key,new LongWritable(sumBookNum);System.out.println(foxsonReduce);新新 API 使用使用 mapreduce 包的例子包的例子文件 BookCountNew.java：package bookCount;import java.io.IOException;import org.apache.ha

11、doop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper;import

12、 org.apache.hadoop.mapreduce.Reducer;import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;import org.apache.hadoop.util.Tool;import org.apache.hadoop.util.ToolRunner;import org.apache.log4j.Logger;import org.apache.log4j.Property

13、Configurator;public class BookCountNew extends Configured implements Tool public static final Logger logger=Logger.getLogger(BookCountNew.class);public static void main(String args)throws Exception PropertyConfigurator.configure(conf/log4j.properties);logger.info(BookCountNew starting);System.setPro

14、perty(HADOOP_USER_NAME,hduser);Configuration conf=new Configuration();int res=ToolRunner.run(conf,new BookCountNew(),args);logger.info(BookCountNew end);System.exit(res); Override public int run(String arg0)throws Exception try Configuration conf=getConf();Job job=Job.getInstance(conf,bookCount_new_

15、sample_job);job.setJarByClass(getClass();job.setMapperClass(BookCountMapper.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(IntWritable.class);job.setReducerClass(BookCountReducer.class);job.setInputFormatClass(TextInputFormat.class);job.setOutputFormatClass(TextOutputFormat.c

16、lass);TextInputFormat.addInputPath(job,new Path(booklist.log);TextOutputFormat.setOutputPath(job,new Path(booklistResultDir);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);System.exit(job.waitForCompletion(true)?0:1);catch(Exception e)logger.error(e.getMessage();e.print

17、StackTrace();return 0; static class BookCountMapper extends Mapper Override public void map(LongWritable key,Text value,Context context)throws IOException,InterruptedException context.write(new Text(booknum),new IntWritable(1);logger.info(foxson_mapper_ok);System.out.println(foxsonMapper);static cla

18、ss BookCountReducer extends Reducer Override public void reduce(Text key,Iterable values,Context context)throws IOException,InterruptedException long sumBookNum=0;for(IntWritable value:values)sumBookNum=sumBookNum+1;logger.info(foxson_BookCountReducer_ok);context.write(key,new LongWritable(sumBookNu

19、m);System.out.println(foxsonReduce); 上面例子大家仅供参考，这里在交给大家该如何学习查看 api，咱们还是以上面为例：1.查看查看 hadoop2.4 在线在线 api 首先打开下面链接 http:/hadoop.apache.org/docs/r2.4.0/api/index.html 打开之后，我们说一下查看顺序：如下图所示：1-2-3 的顺序也就是说：如果想了解这个包都包含哪些类接口等需要查看 2 区域，想看类和接口的详细信息，比如包含哪些函数，函数有什么功能，查看 3 区域。 2.旧旧 api 的各个函数及实例的各个函数及实例我们这里以 jobc

20、onf 为例：从上图查看顺序，我们得到下面代码：/Create a new JobConf JobConf job=new JobConf(new Configuration(),MyJob.class);/Specify various job-specific parameters job.setJobName(myjob);FileInputFormat.setInputPaths(job,new Path(in);FileOutputFormat.setOutputPath(job,new Path(out);job.setMapperClass(MyJob.MyMapper.clas

21、s);job.setCombinerClass(MyJob.MyReducer.class);job.setReducerClass(MyJob.MyReducer.class);job.setInputFormat(SequenceFileInputFormat.class);job.setOutputFormat(SequenceFileOutputFormat.class); 3.新新 api 的各个函数及实例的各个函数及实例给了这么个例子：1./Create a new Job 2.Job job=new Job(new Configuration();3.job.setJarByC

22、lass(MyJob.class);4.5./Specify various job-specific parameters 6.job.setJobName(myjob);7.8.job.setInputPath(new Path(in);9.job.setOutputPath(new Path(out);10.11.job.setMapperClass(MyJob.MyMapper.class); 12.job.setReducerClass(MyJob.MyReducer.class);13.14./Submit the job,then poll for progress until

23、the job is complete 15.job.waitForCompletion(true);复制代码上面放到 eclipse 中，一看不对啊带个横杠，含义就是被弃用了下面我们继续寻找：getInstance()有很多重载函数，这里不需要解释什么是重载吧，面向对象估计大家学习过，重载就是函数名相同，参数个数和类型可能不同。好吧，我们试一下这个，如上面新 api 就是采用这种实例化 job 的。同时这种实例化的方式采用的是工厂模式，工厂模式，大家也可以找找这方面的资料。寻找 api 完毕，更多的函数大家可以在找找。相关帖子推荐：Hadoop 中 mapred 包和 mapreduce 包的区别与联系对于云技术、大数据爱好者、可以关注：about 云腾讯认证空间，每天更新最新内容，经典文章 http:/ about 云官方群 39327136、371358502 云计算爱好者群惯用手机可以关注微信：云资源、云技术、疑问解答邮件订阅地址：http:/ 淘宝云技术入门、hadoop、openstack 及其它视频：http:/

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 如何查看 API 使用 hadoop 编程

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：教你如何查看API及使用hadoop新api编程.pdf
链接地址：https://www.taowenge.com/p-70332619.html