Hadoop大数据技术基础与应用 习题及答案.docx
《Hadoop大数据技术基础与应用 习题及答案.docx》由会员分享,可在线阅读,更多相关《Hadoop大数据技术基础与应用 习题及答案.docx(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Hadoop大数据技术基础与应用 习题及答案第1章Hadoop技术概述1 .Hadoop2.0包含哪些核心组件?MapReduce、HDFS、YARN.Hadoop包含哪些优势?方便、弹性、健壮、简单.Hadoop有哪些应用领域?运营商、电子商务、在线旅游、欺诈检测、医疗保健、能源开采、金融、直播、在线教育等 等.Hadoop有几种运行模式?单机模式、伪分布模式、完全分布式模式.Hadoop伪分布集群包含哪些守护进程?DataNode、NodeManager ResourceManager SecondaryNameNode NameNode第2章Hadoop分布式文件系统(HDFS)1 .简
2、述HDFS的设计理念?HDFS的设计理念来源于非常朴素的思想:即当数据文件的大小超过单台计算机的存储能力 时,就有必要将数据文件切分并存储到由若干台计算机组成的集群中,这些计算机通过网络 进行连接,而HDFS作为一个抽象层架构在集群网络之上,对外提供统一的文件管理功能, 对于用户来说就感觉像在操作一台计算机一样,根本感受不到HDFS底层的多台计算机, 而且HDFS还能够很好地容忍节点故障且不丢失任何数据。2 .简述FSImage和Edit Log的合并过程?FSImage和EditLog合并的详细步骤如下所示。(1) SecondaryNameNode (即从元数据节点)引导NameNode
3、(即元数据节点)滚动更新 EditLog,并开始将新的 EditLog 写进 edits.newo(2)SecondaryNameNode W NameNode 的 FSImage(fsimage)和 EditLog(edits)复制到本地的检 查点目录。(3) SecondaryNameNode 将 FSImage(fsimage)导入内存,并回放 EditLog(edits),将其合并到5.如何在Hadoop集群中动态地增加或删除节点?简单的说,Hadoop集群扩容只需要新增节点纳入include文件进行管理即可,Hadoop集群 缩容只需要删除节点纳入exclude文件进行管理即可。第7
4、章Hive数据仓库工具.简述Hive和关系型数据库的异同?Hive和关系型数据库都有数据库和表的概念,都可以使用SQL来处理数据。但是Hive中的 表是逻辑表不是物理表,数据存储在HDFS之上,作业的运行依赖YARN集群,可以基于 Hadoop集群处理海量数据。1 .简述Hive的运行机制?Hive的运行机制包含以下几个步骤:(1)用户通过用户接口连接Hive,发布HQL。(2) Hive解析查询并制定查询计划。(3) Hive将查询转换成MapReduce作业。(4) Hive 在 Hadoop 上执行 MapReduce 作业。2 .简述Hive内部表和外部表的区别与使用?(1)区别删除H
5、ive内部表时,表结构和数据都会被删除。删除Hive外部表时,只删除表结构,数据 不会被删除。(2)使用场景根据实际工作经验,一般会遵循一个经验法则:如果所有数据处理都由Hive来完成, 应该选择使用内部表。如果同一个数据集需要由Hive和其他工具同时来处理,应该选择使 用外部表。一般的做法是将存放在HDFS中的初始数据集使用外部表进行处理,然后使用Hive 的转换操作将数据移到Hive的内部表。3 .简述ORDER BY和SORT BY在使用上的区别和联系?(1)联系order by和sort by都可以对数据进行排序。(2)区别order by排序出来的数据是全局有序的,但是只能有一个pa
6、rtitionsort by排序出来的数据是局部有序的,但是全局无序。即partition内部是有序的,但是partition与partition之间的数据时没有顺序关系的。4 .简述Hive性能调优的常见手段?Fetch Task的优化、本地模式执行的优化、JVM的优化、task并行度优化等等第8章H Base分布式数据库根据下面给出的表格,用HBase Shell模式设计Score成绩表,并对表进行操作。Score成绩表namescoreChineseMathEnglishLucy959086Lily907688Jack8592781 .查看Score表结构。# 创建表create Sco
7、re,*score# 插入数据put Score,Lucyscore:Chinese/95put Score/Lucy/scorerMath/gOput Score,Lucy,score:English,86put Score/Lily/scoreiChineseygOput Score,Lily/scoreiMath/ye1put Score/Lily/scoreiEnglish/SSput Score,Jack/score解析数据val array = t.split(“J)val day = array(2).split(s+)(0)val hour = array(2).split(s
8、+H)(l).substring(0,2) (array(O),array(l),day,hour)/.filter(t=/过滤出最近7天的数据/TimeUtils.getDiffDay(currentDay,t._3)(t._3,t._4,t._l).map(t=(t._l,t._2.size) print(pvRDD.collect().toBuffer)插入HBase省略统计uv独立访问人数-先按照用户去重,然后再聚合统计valuvRDDrdd.groupBy(t=t).map(t=(t. 1. 3,t. 1. 4,t. 1. l),t. 2.size).reduceByKey( + )
9、print(uvRDD.collect().toBuffer)插入HBase省略sc.stop();)Flink示例代码:package com.bigdata;import mon.functions.FilterFunction;import mon.functions.FlatMapFunction;import mon.functions.MapFunction;import org.apache.flink.api.java.DataSet;import org.apache.flink.api.java.ExecutionEnvironment;import org.apache.
10、flink.api.java.tuple.Tuple2;import org.apache.flink.util.Collector;public class FlinkTest public static void main(String args) throws Exception /获取 ExecutionEnvironmentExecution Environment benv = ExecutionEnvironment.getExecutionEnvironmentf); 读取数据DataSet ds = benv.readTextFileCGAXIearnWdataWuser.l
11、og);统计pv访问次数DataSetTuple2StringJnteger pvDS = ds.map(new MapFunctionString, Tuple2StringJnteger() (Override public Tuple2 map(String s) throws Exception String array = s.split。,);String day = array2.split(s+)0;String hour = array2.split(s+)l.substring(0,2);return new Tuple2(day4-+hour+(5)+array0,l);
12、 ) ).filter(new FilterFunctionTuple2String, lnteger() Overridepublic boolean filter(Tuple2 t) throws Exception /过滤出最近7天的数据/TimeUtils.getDiffDay(currentDay,t._3)7return true; ) ) .groupBy(0).sum(l); pvDS.print(); 插入HBase省略 System.out.println(H);统计uv独立访问人数.先按用户去重,然后再聚合统计DataSetTuple2String,lnteger uvl
13、DS = ds.map(new MapFunctionString, Tuple2String,lnteger() Overridepublic Tuple2 map(String s) throws Exception String array = s.split(,);String day = array2.split(s+)O;String hour = array2.split(s+)l.substring(0/2);return new Tuple2(array0+arrayl+day+hour,l); ).filterfnew FilterFunctionTuple2String,
14、 lnteger() Overridepublic boolean filter(Tuple2 t) throws Exception /过滤出最近7天的数据/TimeUtils.getDiffDay(currentDay,t._3)7return true; ) ) .groupBy(0).sum(l); DataSetTuple2String,lnteger uv2DS = uvlDS.flatMap(newFlatMapFunctionTuple2String, Integers Tuple2String, lnteger() Overridepublic void flatMap(Tu
15、ple2 t, CollectorTuple2String, lnteger collector) throws Exception String line = t.fO;String array = line.split();collector.collect(newTuple2(array2+,+array3+,+array0,l);).groupBy(0).sum(l);uv2DS.print();插入HBase省略)FSImage(fsimage.ckpt),并将新的 FSImage(fsimage.ckpt)压缩后写入磁盘。(4) SecondaryNameNode 将新的 FSIm
16、age(fsimage.ckpt)传回 NameNode。(5) NameNode 在接收新的 FSImage(fsimage.ckpt)后,将 fsimage.ckpt 替换为 fsimage,然后 直接加载和启用该文件。(6) NameNode将新的EditLog(即edits.new)更名为EditLog(即edits)o默认情况下,该过程 1小时发生一次,或者当EditLog达到默认值(如64MB)也会触发,具体控制参数可以通过配 置文件进行修改。3.简述HDFS的数据读写流程?HDFS读取数据流程主要包括以下几个步骤。1 .客户端通过调用FileSystem对象的open。方法来打开
17、希望读取的文件,对于HDFS来说, 这个对象是DistributedFileSystem的一个实例。数据节点数据节点数据节点图2-4客户端读取HDFS中的数据2 .DistributedFileSystem通过RPC获得文件的第一批块的位置信息(Locations),同一个块按 照重复数会返回多个位置信息,这些位置信息按照Hadoop拓扑结构排序,距离客户端近的 排在前面。3 .前两步会返回一个文件系统数据输入流(FSDatalnputStream)对象,该对象会被封装为分 布式文件系统输入流(DFSInputStream)对象,DFSInputStream可以方便地管理DataNode 和N
18、ameNode数据流。客户端调用read。方法,DFSInputStream会找出离客户端最近的 DataNode并连接。4 .数据从DataNode源源不断地流向客户端。5 .如果第一个块的数据读完了,就会关闭指向第一个块的DataNode的连接,接着读取下一 个块。这些操作对客户端来说是透明的,从客户端的角度来看只是在读一个持续不断的数据 流。6 .如果第一批块全部读完了,DFSInputStream就会去NameNode拿下一批块的位置信息,然 后继续读。如果所有的块都读完了,这时就会关闭所有的流。HDFS的写入数据流程主要包括以下几个步骤。1 .客户端通过调用DistributedFi
19、leSystem的create。方法创建新文件。数据节点数据节点数据节点图2-5 HDFS的写数据流程2 .DistributedFileSystem通过RPC调用NameNode去创建一个没有块关联的新文件。在文件 创建之前,NameNode会做各种校验,比如文件是否存在,客户端有无权限去创建等。如 果校验通过,NameNode就会创建新文件,否则就会抛出I/O异常。3 .前两步结束后,会返回文件系统数据输出流(FSDataOutputStream)的对象,与读文件的 时候相似,FSDataOutputStream被封装成分布式文件系统数据输出流(DFSOutputStream), DFSO
20、utputStream 可以协调 NameNode和 DataNode。客户端开始写数据到 DFSOutputStream, DFSOutputStream会把数据切成一个个小的数据包(packet),然后排成数据队列(data quene)o 4,接下来,数据队列中的数据包首先传输到数据管道(多个数据节点组成数据管道)中的第 一个DataNode中(写数据包),第一个DataNode又把数据包发送到第二个DataNode中, 依次类推。5 .DFSOutputStream还维护着一个响应队列(ack quene),这个队列也是由数据包组成,用 于等待DataNode收到数据后返回响应数据包,
21、当数据管道中的所有DataNode都表示已经 收到响应信息的时候,这时ack quene才会把对应的数据包移除掉。6 .客户端写数据完成后,会调用close。方法关闭写入流。7 .客户端通知NameNode把文件标记为已完成,然后NameNode把文件写成功的结果反馈给 客户端。此时就表示客户端已完成了整个HDFS的写数据流程。4 .简述HDFS的副本存储策略?新版本的副本存放策略的基本思想如下。副本1存放在Client所在的节点上(假设Client不在集群的范围内,则第一个副本存储节点 是随机选取的,当然系统会尝试不选择那些太满或者太忙的节点)。副本2存放在与第一个节点不同机架中的一个节点中
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hadoop大数据技术基础与应用 习题及答案 Hadoop 数据 技术 基础 应用 习题 答案
限制150内