欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    hadoop开发视频教程(1).ppt

    • 资源ID:78697375       资源大小:1.41MB        全文页数:10页
    • 资源格式: PPT        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    hadoop开发视频教程(1).ppt

    Hadoop大数据解决方案大数据解决方案进阶应用用Hadoop讲师:迪伦(北风网版权所有)MapReduce高阶实现高阶实现(5)q 文本输入q 多种输入q 实例:数据分区课程目标课程目标文本输入文本输入-KeyValueTextInputFormat-KeyValueTextInputFormatq通常输入的文本中的每一行是一个Key/value对,使用某个分界符进行分隔,比如Tabq可以通过key.value.separator.in.input.line属性来指定分隔符q示例,输入:q输出:XMLXML文件读取文件读取qXML文档按标签来进行分割qHadoop提供了StreamXmlRecordReader类(在org.apache.hadoop.streaming包中)q通过把输入格式设置为StreamInputFormat,把Stream.recordreader.class属性设置为org.apache.hadoop.streaming.StreamXmlRecordReader来使用q例如,维基百科用XML格式来提供大量内容,非常适合用MapReduce来并行处理多种输入多种输入q默认MapReduce所有文件都一个InputFormat和同一个Mapper来解释q现实当中,数据格式会随时间演变,或有些数据源会提供不同格式的相同数据q可以用MultipleInputs类来解决,它允许每条输入路径指定InputFormat和Mapperq例如,两种气象数据集输入q这段代码取代了对FileInputFormat.addInputPath()和conf.setMapperClass()的常规调用多种输入多种输入q如果有多种输入格式而只有一个mapper(通过JobConf的setMapper()方法设定),可使用MultipleInputs类的一个重载版本的addInputPath()方法:多个输出多个输出q对输出的文件名进行控制,或者让每个reducer输出多个文件qMapReduce为此提供了两个库:MultipleOutputFormat和MultipleOutputsq实例:数据分区需求:按气象站来区分气象数据,需要运行一个作业,作业的输出是每个气象站一个文件,此文件包含该气象站的所有数据记录思路:1、写一个partitioner,把同一个气象站的数据放到同一个分区2、把作业的reducer数设为气象站的个数实例:数据分区实例:数据分区qPartitioner的实现getPartition(String)把气象站ID转换成分区索引号,因此输入一个所有气象站的列表给它,然后返回列表中气象站ID的索引实例:数据分区实例:数据分区q方案的缺陷需要在作业运行之前知道分区数和气象站的个数让应用程序来严格限定分区数可能导致分区不均q让应用程序设定分区数的两种特殊情况0个reducer没有分区,只执行map任务1个reducer合并成单个输出。前提是数据量足够小q解决方案最好能让集群为作业决定分区数通过MultipleOutputFormat实现每个reducer写多个文件欢迎访问我们的官方网站

    注意事项

    本文(hadoop开发视频教程(1).ppt)为本站会员(赵**)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开