《大数据技术原理和应用操作》试卷B卷及答案.docx
大数据技术原理和应用操作试卷B卷一、单项选择题(每题2分,共计20分)1 .在配置Linux网络参数时,固定1P地址是将路由协议配置为()。A、staticB、dynamicC> immutableD、variable2 .在MapReduce程序中,map()函数接收的数据格式是()。A、字符串B、整型C> LongD、键值对3 .以下选项中,用于获取Zookeeper所包含的信息的Shell命令是()。A、1sB、ls2C、rD、get4 .以下选项中,用于上传文件的Shell命令是()。A、-1sB、-mvC> -cpD、-put5 .以下选项中,哪一项为哪一项可以进行重启引导系统()。A、OKB、CancelC> RebootD、Apply6 .以下选项中,最早提出“大数据”这一概念的是()。A、贝恩B、麦肯锡c、吉拉德D、杰弗逊.以下选项中,关于HDFS的架构说法正确的选项是()。A、HDFS采用的是主备架构B、HDFS采用的是主从架构C、HDFS采用的是从备架构D、以上说法均错误7 .以下选项中,主要用于决定整个MapReduce程序性能高低的阶段是()。A、MapTaskB、ReduceTaskC、分片、格式化数据源D、Shuffle8 .以下选项中,Hadoop2.x版本独有的进程是()。A、JobTrackerB、TaskTrackerC、NodeManagerD、NameNode9 .以下选项中,用于存放部署Hadoop集群服务器的是()。A、namenodeB、datanodeC、rackD、metadata二、多项选择题(每题2分,共计20分)1.以下选项中,属于Google提出的处理大数据的技术手段有()。A、MapReduceB、MySQLC、BigTableD、GFS 2,以下选项中,属于Hadoop版本系列的有()。A、Hadoop4B、 Hadoop2C、HadooplD、Hadoop33 .以下选项中,属于Hadoop优势的有()。A、扩容能力强B、可靠性C、低效率D、高容错性4 .以下哪项可以作为集群的管理?A、PuppetB、PdshC、Cloudera ManagerD、Zookeeper5 .以下选项中,关于Hadoop集群说法正确的选项是()。A Hadoop集群包含 Worker节点B、Hadoop集群包含Master节点C、Hadoop集群包含Slave节点D、Hadoop集群包含HMaster节点6 .以下说法中,关于crontab表达式说法正确的选项是()。A、通过执行crontab表达式可以执行定时任务B、crontab表达式是由6个参数决定C、Crontab表达式是由5个参数决定D、以上说法均正确7 .在Zookeeper选举过程中,一共有四种状态,分别是()。A、竞选状态B、随从状态C、观察状态D、领导者状态8 .以下说法中,关于使用Java API操作HDFS说法正确的选项是()。A、需要引入hadoop-common依赖B、需要引入hadoop-hdfs依赖C>需要引入hadoop-client依赖D、以上说法均错误9 .以下选项中,属于Zookeeper集群的角色有()。A、FollowerB、WorkerC> ObserverD、Leader10 .以下选项中,属于Sqoop指令的参数有()。A、importB、outputC> inputD、export三、判断题(对的打“J”,错的打“X”;每题1分,共10分).reduce。函数会将m叩()函数输出的键值对作为输入,把相同key值的value进行汇总, 输出新的键值对()1 .Zookeeper的选举机制,实际上是采用算法FastLeaderElection,投票数大于半数那么胜出 的机制。().Source组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括 avro> thrift、exec 等。()2 .SecureCRT是一款支持SSH的终端仿真程序,它能够在Windows操作系统上远程连 接Linux服务器执行操作。().大数据在医疗行业中可以有效控制疾病的发生。()5 .传统文件系统存储数据时,假设文件太大,会导致上传和下载非常耗时。().伪分布式模式下的Hadoop功能与完全分布式模式下的Hadoop功能相同。()6 .由于Hadoop是使用Java语言编写的,因此可以使用Java API操作Hadoop文件系统。().Hadoop HA是集群中启动两台或两台以上机器充当NameNode,防止一台NameNode 节点发生故障导致整个集群不可用的情况。()7 .HDFS目前不支持并发多用户的写操作,写操作只能在文件末尾追加数据。()四、填空题(每题2分,共计20分)1 .Flume的核心是把数据从数据源通过数据采集器(Source)收集过来,再将提供的数据 通过汇集到指定的接收器(Sink)。2 .Hadoop发行版本分为开源社区版和.数据仓库是面向【】、集成、【】和时变的数据集合,用于支持管理决策。3 .通过执行【】命令,查看该节点的Zookeeper角色。4 .HDFS是可以由【】组成,每个服务器机器存储文件系统数据的一局部。5 .如果使用Sqoop工具将MySQL表数据导入Hive数据仓库中,需要在sqoop-env.sh配 置文件中配置.传统的文件系统对海量数据的处理方式是将数据文件直接存储在台服务器上。1.1 】是Zookeeper集群工作的核心,也是事务性请求(写操作)的唯一调度和处理者。9 .马云曾经说过未来的时代将不是IT时代,而是【】时代。10 .启动Hadoop集群,主要是启动其内部包含的【】和YARN集群。五、简答题(每题6分,共计30分).简述如何检查Namenode是否正常运行。1 .简述 event o.启动Hive方式有哪些?2 .简述大数据在零售行业应用的具体表现。3 .简述Hive的排序种类及特点。参考答案单项选择题(每题2分,共计20分)2. AD3. DD4. CB5. BD6. CC多项选择题(每题2分,共计20分)A,C,D1. B,C,DA,B,D2. A,B,DB,C3. A,BA,B,C,D4. A,B,CA,C,D5. A,D判断题(每题1分,共计10分)1 .对.对3,对.对4 .错.对5 .错.对6 .对.对填空题(每题2分,共计20分).【缓冲通道(Channel)】1 .【商业版】.【主题】【非易实】2 .【zkServer.sh status .【成百上千台服务器机器】3 .【Hive的安装路径】.【一】4 . Leader . DT5 .【HDFS集群】简答题(每题6分,共计30分)1 .正确答案:如果要检查Namenode是否正常工作,使用Jps命令即可。2 .正确答案:它是Flume内部数据传输的基本单元。一个完整的event包含headers和 body,其中headers包含了一些标识信息,而body中就是Flume收集到的数据信息。3 .正确 答案:1 .bin/hive、2上in/hiveserver2.正确答案:大数据在零售行业的具体表现有三个,分别是精准定位零售行业市场、支 撑行业收益管理以及挖掘零售业新需求。4 .正确答案:1.order by全局排序.sort by非全局排序3 .distribute by hash散列分区,常和sort by同时使用。即分区又排序,需要设置 mapreduce.job.reduces 的个数.cluster by当distribute by和sort by的字段相同时,等同于cluster by.可以看做特殊的 distribute + sort