hadoop开发视频教程(1).ppt
《hadoop开发视频教程(1).ppt》由会员分享,可在线阅读,更多相关《hadoop开发视频教程(1).ppt(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Hadoop大数据解决方案大数据解决方案进阶应用用Hadoop讲师:迪伦(北风网版权所有)MapReduce高阶实现高阶实现(5)q 文本输入q 多种输入q 实例:数据分区课程目标课程目标文本输入文本输入-KeyValueTextInputFormat-KeyValueTextInputFormatq通常输入的文本中的每一行是一个Key/value对,使用某个分界符进行分隔,比如Tabq可以通过key.value.separator.in.input.line属性来指定分隔符q示例,输入:q输出:XMLXML文件读取文件读取qXML文档按标签来进行分割qHadoop提供了StreamXmlRe
2、cordReader类(在org.apache.hadoop.streaming包中)q通过把输入格式设置为StreamInputFormat,把Stream.recordreader.class属性设置为org.apache.hadoop.streaming.StreamXmlRecordReader来使用q例如,维基百科用XML格式来提供大量内容,非常适合用MapReduce来并行处理多种输入多种输入q默认MapReduce所有文件都一个InputFormat和同一个Mapper来解释q现实当中,数据格式会随时间演变,或有些数据源会提供不同格式的相同数据q可以用MultipleInputs
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- hadoop 开发 视频教程
限制150内