Hadoop面试题汇总.docx
《Hadoop面试题汇总.docx》由会员分享,可在线阅读,更多相关《Hadoop面试题汇总.docx(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、优质文本单项选择题1.下面哪个程序负责 数据存储。a) b) c) d) e)答案C 2. 中的 默认保存几份?a)3 份 b)2 份c)1 份d)不确定答案A默认3分3. 以下哪个程序通常与 在一个节点启动?a) b) c) d)答案D4. 作者a) b) c) 答案C 5. 默认 a)32 b)64 c)128答案:1版本是64M2版本是128M6.以下哪项通常是集群的最主要瓶颈a) b)网络 c)磁盘 d)内存答案:C磁盘7 所创立的工程的名称都受到其家人的启发,以下工程不是由他创立的工程是A B C D 答案:D8.配置时,包含在哪一个配置文件中A B C D 答案:B9. 配置文件中
2、,显示覆盖里的内容。在版本0.20中,被别离成三个文件,不包括A B C D 答案:A10默认的当前工作目录是$,的值需要在哪个配置文件内说明A. B. C. D. 以上均不是答案:B11.关于单机模式和伪分布式模式的说法,正确是A 两者都起守护进程,且守护进程运行在一台机器上B 单机模式不使用,但加载守护进程C 两者都不与守护进程交互,防止复杂性D 后者比前者增加了输入输出以及可检查内存使用情况答案:D12.以下关于 的说法错误的选项是A 的文件不是通用的,只用于文件系统B 类的默认实例化方法是以系统的资源配置为根底的C 对象存储文件和目录的元数据D 是的子类答案:A13的负责管理文件系统的
3、命名空间,将所有的文件和文件夹的元数据保存在一个文件系统树中,这些信息也会在硬盘上保存成以下文件:A日志B命名空间镜像C两者都是答案:C14. 的保存了一个文件包括哪些数据块,分布在哪些数据节点上,这些信息也存储在硬盘上。A正确B错误答案:B知识点:在系统启动的时候从数据节点收集而成的15 就是出现问题时的备用节点 A正确B错误答案:B知识点:它和元数据节点负责不同的事情。其主要功能就是周期性将元数据节点的命名空间镜像文件和修改日志合并,以防日志文件过大。合并过后的命名空间镜像文件也在 保存了一份,以防失败的时候,可以恢复。16的是基于流数据模式访问和处理超大文件的需求而开发的,默认的最根本的
4、存储单位是64M,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是A一次写入,少次读写B屡次写入,少次读写C一次写入,屡次读写D屡次写入,屡次读写答案:C17无法高效存储大量小文件,想让它能处理好小文件,比较可行的改进策略不包括A 利用、等方式归档小文件B 多设计C 大小适当调小D 调大内存或将文件系统元数据存到硬盘里答案:D18.关于的文件写入,正确的选项是A 支持多用户对同一文件的写操作B 用户可以在文件任意位置进行修改C 默认将文件块复制成三份存放D 复制的文件块默认都存在同一机架上答案:C19 中的和命令操作对象是A 文件B 目录C 两者都是答案:C20在启动时自动进
5、入平安模式,在平安模式阶段,说法错误的选项是A 平安模式目的是在系统启动时检查各个上数据块的有效性B 根据策略对数据块进行必要的复制或删除C 当数据块最小百分比数满足的最小副本数条件时,会自动退出平安模式D 文件系统允许有修改答案:D21. 以下关于为存储并行切分和处理的数据做的设计,错误的选项是 A 扩展了以支持随机读 B 为实现细粒度并行,输入分片( )应该越小越好 C 一台机器可能被指派从输入文件的任意位置开始处理一个分片 D 输入分片是一种记录的逻辑划分,而数据块是对输入数据的物理分割 答案:B多项选择题1. 关于 哪项是正确的?a)它是 的热备 b)它对内存没有要求c)它的目的是帮助
6、 合并编辑日志,减少 启动时间d) 应与 部署到一个节点答案C D2. 以下哪项可以作为集群的管理?a) b) c) d)答案1:3. 配置机架感知的下面哪项正确a)如果一个机架出问题,不会影响数据读写b)写入数据的时候会写到不同机架的 中c) 会根据机架获取离自己比较近的网络数据答案具体可以参考机架感知加强集群稳固性,该如何配置机架感知4. 端上传文件的时候以下哪项正确a)数据经过 传递给 b) 端将文件切分为 ,依次上传c) 只上传数据到一台 ,然后由 负责 复制工作答案B5. 以下哪个是 运行的模式a)单机版 b)伪分布式 c)分布式答案6. 提供哪几种安装 的方法a) b) c) d)
7、答案:具体可以参考 四种安装方式总结及实例指导简答题1集群可以运行的3个模式?1)单机本地模式;2)伪分布式模式;3)全分布式模式;2.单机本地模式中的注意点?在单机模式中不会存在守护进程,所有东西都运行在一个上。这里同样没有,使用的是本地文件系统。单机模式适用于开发过程中运行程序,这也是最少使用的一个模式。3.伪分布模式中的注意点?伪分布式适用于开发和测试环境,在这个模式中,所有守护进程都在同一台机器上运行。4. 全分布模式又有什么注意点?全分布模式通常被用于生产环境,这里我们使用N台主机组成一个集群,守护进程运行在每台主机之上。这里会存在运行的主机,运行的主机,以及 运行的主机。在分布式环
8、境下,主节点和从节点会分开。5. 是否遵循模式?是的,在用例下,还拥有“目录。6. 的核心配置是什么?的核心配置通过两个文件来完成:1,;2,。这些文件都使用格式,因此每个中都有一些属性,包括名称和值,但是当下这些文件都已不复存在。7. 那当下又该如何配置?现在拥有3个配置文件:1,;2,;3,。这些文件都保存在子目录下。8. 只是单一的目录?只是一个目录。9. 的3个主要属性?决定的是元数据存储的路径以及的存储方式磁盘或是远端决定的是数据存储的路径用于第二10. 如何退出输入模式?退出输入的方式有:1,按;2,键入如果你没有输入任何当下或者键入如果你已经输入当下,并且按下。11. “命令的用
9、处?这个命令可以检查、 、 是否正常工作。12. 如何重启?点击,再点击。键入 , ,及0.20 。13. 的全名?全名是: 。14. 命令的作用?可以让你知道哪个节点是 。15. 命令的作用是? 说明了守护进程效劳的位置或状态,其实是特性,和关系不大。16. 如何在浏览器中查找?如果你确实需要在浏览器中查找,你不再需要:8021,的端口号是50070。17. 是用于做什么的?提供了中. 的运行环境。18. 文件是否提供了多个入口?是的你可以拥有多个文件接口。19. 文件当下的位置?现在位于。20. 在中,代表了什么?代表了“ 。21. 用于做什么?用来存储。22. 需求什么样的网络?核心使用
10、来驱动从节点上的效劳器进程,并在主节点和从节点之间使用 连接。23.全分布式环境下为什么需求 ?这主要因为集群中通信过于频繁, 需要尽可能快的给 发布任务。24. 工作的端口号是?工作的端口号是.22,当然可以通过它来配置,22是默认的端口号。25.为什么本地主机需要密码?在中使用密码主要是增加平安性,在某些情况下也根本不会设置密码通信。26.如果在中添加,是否还需要设置密码?是的,即使在中添加了,还是需要设置密码。27.假设中没有数据会怎么样?没有数据的就不能称之为,通常情况下,肯定会有数据28.当 宕掉时,会发生什么?当 失败时,集群仍然可以正常工作,只要没问题。29.是否可以在上运行?你
11、最好不要这么做, 或者是才是的最正确操作系统。在安装中,通常不会被使用,因为会出现各种各样的问题。因此,绝对不是的推荐系统。30.简要描述如何安装配置一个开源版,描述即可,列出步骤更好1.配置主机名2.配置3.配置面密码互通4.安装5.安装6.配置(1)修改 (2)修改 (3)修改 (4)修改 (5)修改 (6)修改 7.配置的环境变量 8.格式化32.请列出正常工作的集群中都需要启动哪些进程,他们的作用分别是什么? 名字节点,存储元数据 辅助实现文件和文件的合并 存储数据的节点 负责集群中所有资源的统一管理和分,它接收来自各个节点的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序
12、是中每个节点上的代理,它管理集群中单个计算节点,包括与保持通信,监督的生命周期管理,监控每个的资源使用内存、等情况,追踪节点健康状况,管理日志和不同应用程序用到的附属效劳 33.请写出以下执行命令1杀死一个? 2)删除上的目录 3参加一个新的存储节点和删除一个计算节点需要刷新集群状态命令? 5.请列出你所知道的调度器,并简要说明其工作方法?1默认的调度器2 计算能力调度器 3公平调度器 4适用于异构集群的调度器5适用于实时作业的调度器 和 6.请列出在你以前工作中所使用过的开发的语言?7.当前日志采样格式为34有哪些方式保存元数据,各有哪些特点?原生使用作为元数据库,无法并发调用可以将元数据保
13、存在数据库中远程效劳器模式,在效劳器端启动一个 ,客户端利用 协议通过 访问元数据库35.请简述怎么样实现二级排序?有两种方法进行二次排序,分别为: 和 。对于 ,主要思想是:在()函数中,将某个对应的所有保存下来,然后进行排序。 这种方法最大的缺点是:可能会造成 。对于 ,主要思想是:将和局部拼接成一个组合实现接口或者调用函数,这样获取的结果便是先按排序,后按排序的结果,需要注意的是,用户需要自己实现,以便只按照进行数据划分36.简述实现的几种方法?2.1 是一种最简单的方式,其主要思想如下:在阶段,函数同时读取两个文件1和2,为了区分两种来源的数据对,对每条数据打一个标签,比方:0表示来自
14、文件1,2表示来自文件2。即:阶段的主要任务是对不同文件中的数据打标签。在阶段,函数获取相同的来自1和2文件的 , 然后对于同一个,对1和2中的数据进行笛卡尔乘积。即:阶段进行实际的连接操作。2.2 之所以存在 ,是因为在阶段不能获取所有需要的字段,即:同一个对应的字段可能位于不同中。 是非常低效的,因为阶段要进行大量的数据传输。 是针对以下场景进行的优化:两个待连接表中,有一个表非常大,而另一个表非常小,以至于小表可以直接存放到内存中。这样,我们可以将小表复制多份,让每个 内存中存在一份比方存放到 中,然后只扫描大表:对于大表中的每一条记录,在 中查找是否有相同的的记录,如果有,那么连接后输
15、出即可。为了支持文件的复制,提供了一个类,使用该类的方法如下:1用户使用静态方法()指定要复制的文件,它的参数是文件的如果是上的文件,可以这样::9000,其中9000是自己配置的端口号。在作业启动之前会获取这个列表,并将相应的文件拷贝到各个的本地磁盘上。2用户使用()方法获取文件目录,并使用标准的文件读写读取相应的文件。2.3 ,也叫半连接,是从分布式数据库中借鉴过来的方法。它的产生动机是:对于 ,跨机器的数据传输量非常大,这成了操作的一个瓶颈,如果能够在端过滤掉不会参加操作的数据,那么可以大大节省网络。实现方法很简单:选取一个小表,假设是1,将其参与的抽取出来,保存到文件3中,3文件一般很
16、小,可以放到内存中。在阶段,使用将3复制到各个上,然后将2中不在3中的对应的记录过滤掉,剩下的阶段的工作与 相同。2.4 + 在某些情况下,抽取出来的小表的集合在内存中仍然存放不下,这时候可以使用以节省空间。最常见的作用是:判断某个元素是否在一个集合里面。它最重要的两个方法是:() 和()。最大的特点是不会存在 ,即:如果()返回,那么该元素一定不在集合中,但会存在一定的 ,即:如果()返回,那么该元素可能在集合中。因而可将小表中的保存到中,在阶段过滤大表,可能有一些不在小表中的记录没有过滤掉但是在小表中的记录一定不会过滤掉,这没关系,只不过增加了少量的网络而已。37.请用实现非递归二分查找?
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hadoop 试题 汇总
限制150内