Hadoop大数据基础与应用0001.docx
《Hadoop大数据基础与应用0001.docx》由会员分享,可在线阅读,更多相关《Hadoop大数据基础与应用0001.docx(16页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第1章Hadoop技术概述.Hadoop2.0包含明B些核心组件?MapReduce、HDFS、YARN.Hadoop包含哪些优势?方便、弹性、健壮、简单.Hadoop有哪些应用领域?运营商、电子商务、在线旅游、欺诈检测、医疗保健、能源开采、金融、直播、在线教育等 等.Hadoop有几种运行模式?单机模式、伪分布模式、完全分布式模式.Hadoop伪分布集群包含哪些守护进程?DataNode NodeManager ResourceManager SecondaryNameNode NameNode第2章Hadoop分布式文件系统(HDFS)1 .简述HDFS的设计理念?HDFS的设计理念来源于
2、非常朴素的思想:即当数据文件的大小超过单台计算机的存储能力 时,就有必要将数据文件切分并存储到由若干台计算机组成的集群中,这些计算机通过网络 进行连接,而HDFS作为一个抽象层架构在集群网络之上,对外提供统一的文件管理功能, 对于用户来说就感觉像在操作一台计算机一样,根本感受不到HDFS底层的多台计算机, 而且HDFS还能够很好地容忍节点故障且不丢失任何数据。2 .简述FSImage和Edit Log的合并过程?FSImage和EditLog合并的详细步骤如下所示。(1) SecondaryNameNode (即从元数据节点)引导NameNode (即元数据节点)滚动更新 EditLog,并开
3、始将新的 EditLog 写进 edits.newo(2)SecondaryNameNode W NameNode 的 FSImage(fsimage)和 EditLog(edits)复制到本地的检 查点目录。(3) SecondaryNameNode 将 FSImage(fsimage)导入内存,并|1|放 EditLog(edits),将其合并到 FSImage(fsimage.ckpt),并将新的 FSImage(fsimage.ckpt)压缩后写入磁盘。(4) SecondaryNameNode 将新的 FSImage(fsimage.ckpt)传回 NameNode。(5) Name
4、Node 在接收新的 FSImage(fsimage.ckpt)后,将 fsimage.ckpt 替换为 fsimage,然后5.如何在Hadoop集群中动态地增加或删除节点?简单的说,Hadoop集群扩容只需要新增节点纳入include文件进行管理即可,Hadoop集群 缩容只需要删除节点纳入exclude文件进行管理即可。第7章Hive数据仓库工具.简述Hive和关系型数据库的异同?Hive和关系型数据库都有数据库和表的概念,都可以使用SQL来处理数据。但是Hive中的 表是逻辑表不是物理表,数据存储在HDFS之上,作业的运行依赖YARN集群,可以基于 Hadoop集群处理海量数据。1 .
5、简述Hive的运行机制?Hive的运行机制包含以下几个步骤:(1)用户通过用户接口连接Hive,发布HQL。(2) Hive解析查询并制定查询计划。(3) Hive将查询转换成MapReduce作业。(4) Hive 在 Hadoop 上执行 MapReduce 作业。2 .简述Hive内部表和外部表的区别与使用?(1)区别删除Hive内部表时,表结构和数据都会被删除。删除Hive外部表时,只删除表结构,数据 不会被删除。(2)使用场景根据实际工作经验,一般会遵循一个经验法则:如果所有数据处理都由Hive来完成, 应该选择使用内部表。如果同一个数据集需要由Hive和其他工具同时来处理,应该选择
6、使 用外部表。一般的做法是将存放在HDFS中的初始数据集使用外部表进行处理,然后使用Hive 的转换操作将数据移到Hive的内部表。3 .简述ORDER BY和SORT BY在使用上的区别和联系?(1)联系order by和sort by都可以对数据进行排序。(2)区别order by排序出来的数据是全局有序的,但是只能有一个partitionsort by排序出来的数据是局部有序的,但是全局无序。即partition内部是有序的,但是 partition与partition之间的数据时没有顺序关系的。4 .简述Hive性能调优的常见手段?Fetch Task的优化、本地模式执行的优化、JVM
7、的优化、task并行度优化等等第8章H Base分布式数据库根据下面给出的表格,用HBase Shell模式设计Score成绩表,并对表进行操作。Score成绩表namescoreChineseMathEnglishLucy959086Lily907688Jack8592781 .查看Score表结构。# 创建表create Score,score# 插入数据put ,Score7Lucy,score:Chinese,/95,put ScoreyLucy/scorerMath/gO,put Score/Lucy/scoreiEnglish/SGput Score/Lily/scoreiChin
8、ese/gOput Score*,Lily,score:Math*,76put coreYLily/scoreiEnglish/SSput Score7Jack7score:Chinese785put Score,Jack/scoreath,92put Score/Jack/scorenglish/yS# 查询表结构describe Score2 .查询Jack同学的Chinese成绩。get Score/Jack/scoreiChinese.将Lucy同学的English成绩修改为90分。put Score1,Lucy/scoreiEnglish/gO第9章Hadoop生态圈其他常用开发技术
9、.如何提高Sqoop导入导出的并发度?Sqoop通过参数-m可以指定作业的并发度。1 .Flume如何保证数据不丢失?Flume中的Event在系统流动过程中,通过事务的方式保证不丢失。Event在Flume节点存储 时,可以选择type的值为file将数据持久化磁盘确保数据不丢失。2 .Kafka的Partition为什么需要副本?Kafka中的一个Topic可以包含多个Partition,为了防止Kafka集群节点宕机或者磁盘损坏, Partition需要副本机制来实现容错,确保在硬件故障的情况下数据不丢失。3 .简述Kafka的优势?Kafka具备高吞吐量、低延迟、持久性、可靠性、容错性
10、和高并发的特点和优势。4 .Spark和Flink编程题目假设日志数据如下所示,格式为:网站ID、访客ID、访问时间sitel/userl/2021-10-20 02:12:22sitel,user2z2021-10-28 04:41:23sitel,user3,2021-10-20 11:46:32sitel,user3,2021-10-23 11:02:11site2,user4,2021-10-20 15:25:22site3/user5/2021-10-29 08:32:54site3,user6,2021-10-22 08:08:26site4,user7,2021-10-20 10
11、:35:37site4,user7,2021-10-24 11:54:58现在要对近7天的日志进行统计,统计结果格式如下。Key: (Date (日期),Hour (时段),Site (网站)。Value: (PV (访问次数),UV (独立访问人数,相同访客id去重)。分别使用Spark和Flink编写执行代码,并将统计结果保存到HBase数据库。Spark示例代码:package com.bigdataimport org.apache.spark.SparkConf, SparkContextobject SparkTest def main(args: ArrayString): Un
12、it = 获取 SparkContextval conf = new SparkConf().setAppName(,SparkTest).setMaster(local2)val sc = new SparkContext(conf)读取日志文件val rdd = sc.textFile(G:learndatauser.log).map(t=解析数据val array = t.split(“J)val day = array(2).split(s+)(0)val hour = array(2).split(s+H)(l).substring(0,2) (array(O),array(l),d
13、ay,hour)/.filter(t=/过滤出最近7天的数据/TimeUtils.getDiffDay(currentDay,t._3)(t._3,t._4,t._l).map(t=(t._l,t._2.size) print(pvRDD.collect().toBuffer)插入HBase省略统计uv独立访问人数-先按照用户去重,然后再聚合统计valuvRDDrdd.groupBy(t=t).map(t=(t. 1. 3,t. 1. 4,t. 1. l),t. 2.size).reduceByKey( + )print(uvRDD.collect().toBuffer)插入HBase省略sc
14、.stop();)Flink示例代码:package com.bigdata;import mon.functions.FilterFunction;import mon.functions.FlatMapFunction;import mon.functions.MapFunction;import org.apache.flink.api.java.DataSet;import org.apache.flink.api.java.ExecutionEnvironment;import org.apache.flink.api.java.tuple.Tuple2;import org.apa
15、che.flink.util.Collector;public class FlinkTest public static void main(String args) throws Exception /获取 ExecutionEnvironmentExecution Environment benv = ExecutionEnvironment.getExecutionEnvironmentf); 读取数据DataSet ds = benv.readTextFileCGAXIearnWdataWuser.log);统计pv访问次数DataSetTuple2StringJnteger pvD
16、S = ds.map(new MapFunctionString, Tuple2StringJnteger() (Override public Tuple2 map(String s) throws Exception String array = s.split。,);String day = array2.split(s+)0;String hour = array2.split(s+)l.substring(0,2);return new Tuple2(day4-+hour+(5)+array0,l); ) ).filter(new FilterFunctionTuple2String
17、, lnteger() Overridepublic boolean filter(Tuple2 t) throws Exception /过滤出最近7天的数据/TimeUtils.getDiffDay(currentDay,t._3)7return true; ) ) .groupBy(0).sum(l); pvDS.print(); 插入HBase省略 System.out.println(H);统计uv独立访问人数.先按用户去重,然后再聚合统计DataSetTuple2String,lnteger uvlDS = ds.map(new MapFunctionString, Tuple2S
18、tring,lnteger() Overridepublic Tuple2 map(String s) throws Exception String array = s.split(,);String day = array2.split(s+)O;String hour = array2.split(s+)l.substring(0/2);return new Tuple2(array0+arrayl+day+hour,l); ).filterfnew FilterFunctionTuple2String, lnteger() Overridepublic boolean filter(T
19、uple2 t) throws Exception /过滤出最近7天的数据/TimeUtils.getDiffDay(currentDay,t._3)7return true; ) ) .groupBy(0).sum(l); DataSetTuple2String,lnteger uv2DS = uvlDS.flatMap(newFlatMapFunctionTuple2String/ Integers Tuple2String, lnteger() Overridepublic void flatMap(Tuple2 t, CollectorTuple2String, lnteger col
20、lector) throws Exception String line = t.fO;String array = line.split(“);collector.collectfnewTuple2(array2+,+array3+array0,l);).groupBy(0).sum(l);uv2DS.print();插入HBase省略)第9章Hadoop生态圈其他常用开发技术.如何提高Sqoop导入导出的并发度?Sqoop通过参数-m可以指定作业的并发度。1 .Flume如何保证数据不丢失?Flume中的Event在系统流动过程中,通过事务的方式保证不丢失。Event在Flume节点存储
21、时,可以选择type的值为file将数据持久化磁盘确保数据不丢失。2 .Kafka的Partition为什么需要副本?Kafka中的一个Topic可以包含多个Partition,为了防止Kafka集群节点宕机或者磁盘损坏, Partition需要副本机制来实现容错,确保在硬件故障的情况下数据不丢失。3 .简述Kafka的优势?Kafka具备高吞吐量、低延迟、持久性、可靠性、容错性和高并发的特点和优势。4 .Spark和Flink编程题目假设日志数据如下所示,格式为:网站ID、访客ID、访问时间sitel,userl,2021-10-20 02:12:22sitel,user2/2021-10-
22、28 04:41:23sitel,user3,2021-10-20 11:46:32sitel,user3,2021-10-23 11:02:11site2,user4,2021-10-20 15:25:22site3,user5,2021-10-29 08:32:54site3,user6,2021-10-22 08:08:26site4,user7,2021-10-20 10:35:37site4,user7,2021-10-24 11:54:58现在要对近7天的日志进行统计,统计结果格式如下。Key: (Date (日期),Hour (时段),Site (网站)。Value: (PV (
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hadoop 数据 基础 应用 0001
限制150内