欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    林子雨大数据技术原理与应用第二章课后题答案(共6页).docx

    • 资源ID:13892764       资源大小:19.84KB        全文页数:6页
    • 资源格式: DOCX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    林子雨大数据技术原理与应用第二章课后题答案(共6页).docx

    精选优质文档-倾情为你奉上大数据第二章课后题答案黎狸1. 试述Hadoop和谷歌的MapReduce、GFS等技术之间的关系。Hadoop是Apache软件基金会旗下的一-个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。 Hadoop 的核心是分布式文件系统( Hadoop Ditributed File System,HDFS )和MapReduce。 HDFS是对谷歌文件系统( Google File System, GFS )的开源实现,是面向普通硬件环境的分布式文件系统,具有较高的读写速度、很好的容错性和可伸缩性,支持大规模数据的分布式存储,其冗余数据存储的方式很好地保证了数据的安全性。 MapReduce 是针对谷歌MapReduce的开源实现,允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,采用MapReduce 来整合分布式文件系统上的数据,可保证分析和处理数据的高效性。2. 试述Hadoop具有哪些特性。Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性。 高可靠性。采用冗余数据存储方式,即使一个副本发生故障, 其他副本也可以保证正常对外提供服务。 高效性。 作为并行分布式计算平台,Hadoop采用分布式存储和分布式处理两大核心技术,能够高效地处理PB级数据。 高可扩展性。 Hadoop的设计目标是可以高效稳定地运行在廉价的计算机集群上,可以扩展到数以千计的计算机节点。 高容错性。 采用冗余数据存储方式,自动保存数据的多个副本,并且能够自动将失败的任务进行重新分配。 成本低。 Hadoop采用廉价的计算机集群,成本比较低,普通用户也很容易用自己的PC搭建Hadoop运行环境。 运行在 Linux平台上。Hadoop是基于Java语言开发的,可以较好地运行在Linux平台上。 支持多种编程语言。 Hadoop 上的应用程序也可以使用其他语言编写,如C+。3. 试述Hadoop在各个领域的应用情况。互联网领域是Hadoop应用的主要阵地。 雅虎将Hadoop主要用于支持广告系统与网页搜索。 Facebook主要将Hadoop平台用于日志处理、推荐系统和数据仓库等方面。 淘宝Hadoop集群服务于阿里巴巴集团各部门,数据来源于各部门产品的线上数据库( Oracle、MySQL)备份、系统日志以及爬虫数据,每天在Hadoop集群运行各种MapReduce任务,如数据魔方、量子统计、推荐系统、排行榜等。 百度选择Hadoop主要用于日志的存储和统计、网页数据的分析和挖掘、商业分析、在线数据反馈、网页聚类等。4. 试述Hadoop的项目结构以及每个部分的具体功能。Hadoop项目结构 PigChukwaHiveHBase MapReduceHDFSZookeeper CommonAvro各部分具体功能: Common。Common为Hadoop其他子项目提供支持的常用工具,主要包括文件系统、RPC(Remote Procedure Call)和串行化库。 Avro。Avro Avro是Hadoop的一一个子项目,也是Apache中的一个独立项目。Avro是一个用于数据序列化的系统,提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用( Remote Procedure Call, RPC )的功能和简单的动态语言集成功能。Avro 可以将数据结构或对象转化成便于存储和传输的格式,节约数据存储空间和网络传输带宽, Hadoop的其他子项目(如HBase和Hive )的客户端与服务端之间的数据传输都采用了Avro。 HDFS。HDFS是针对GFS的开源实现。具有处理强大数据、流式处理、可以运行在廉价的商用服务器上等优点。 HBase。HBase是针对谷歌的BigTable的开源实现。一般采用HDFS作为其底层数据存储,基于列的存储,具有强大的非结构化数据存储能力。具有良好的横向扩展能力。 MapReduce。MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,并将其运行于廉价计算机集群上,完成海量数据的处理。 Zookeeper。Zookeeper是针对谷歌Chubby的-一个开源实现,是高效和可靠的协同工作系统,提供分布式锁之类的基本服务( 如统一命名服务、 状态同步服务、集群管理、分布式应用配置项的管理等),用于构建分布式应用,减轻分布式应用程序所承担的协调任务。 Hive。Hive是一个基于Hadoop的数据仓库工具,可以用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储,十分适合数据仓库的统计分析。 Pig。Pig是一种数据流语言和运行环境,适合于使用Hadoop和MapReduce平台来查询大型半结构化数据集。Pig大大简化了Hadoop常见的工作任务,它在MapReduce的基础上创建了更简单的过程语言抽象,为Hadoop应用程序提供了一种更加接近结构化查询语言(SQL)的接口。 Sqoop。Sqoop可以改进数据的互操作性,主要用来在Hadoop 和关系数据库之间交换数据。通过Sqoop,可以方便地将数据从MySQL、Oracle 、PostgreSQL 等关系数据库中导人Hadoop (可以导人HDFS、HBase或Hive),或者将数据从Hadoop导出到关系数据库,使得传统关系数据库和Hadoop之间的数据迁移变得非常方便。 Chukwa。Chukwa是一个开源的、用于监控大型分布式系统的数据收集系统,可以将各种类型的数据收集成适合Hadoop处理的文件,并保存在HDFS中供Hadoop进行各种MapReduce操作。5. 路径JAVA_ HOME是在哪一个配置文件中进行设置的?在安装Hadoop的文件夹下的“conf”目录下配置。6. 所有节点的HDFS路径是通过fs.default.name来设置的,请问它是在哪个配置文件中设置的?在安装目录下的HDFS core-site.xml 配置文件中配置。fs.default.name是文件系统的名字。通常是NameNode的hostname与port, 需要在每一个需要访问集群的机器上指定,包括集群中的节点7. 试列举单机模式和伪分布模式的异同点。相同点:运行机器数相同。单机模式与伪分布式都是在一台单机上运行。不同点: 运行模式不同:单机模式是Hadoop的默认模式,即在一台单机上运行,没有分布式文件系统,直接读写本地操作系统的文件系统。伪分布模式但用不同的Java进程模仿分布式运行中的各类结点。 启动进程不同:单机模式下,Hadoop不会启动NameNode、DataNode、JobTracker、TaskTracker等守护进程,Map()和Reduce()任务作为同一个进程的不同部分来执行的。伪分布式模式下,Hadoop启动NameNode、DataNode、JobTracker、TaskTracker这些守护进程都在同一台机器上运行,是相互独立的Java进程。 配置文件处理方式不同:单机模式下,不对配置文件进行修改。伪分布式模式下,修改3个配置文件:core-site.xml(Hadoop集群的特性,作用于全部进程及客户端)、hdfs-site.xml(配置HDFS集群的工作属性)、mapred-site.xml(配置MapReduce集群的属性)。 节点交互不同:单机模式因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。伪分布模式在单机模式之上增加了代码调试功能,允许你检查内存使用情况,HDFS输入输出,以及其他的守护进程交互。8. Hadoop伪分布式运行启动后所具有的进程都有哪些?Hadoop伪分布式运行启动后所具有的进程有:NameNode、DataNode、JobTracker、TaskTracker。9. 如果具备集群实验条件,请尝试按照Hadoop官方文档搭建全分布式的Hadoop集群环境。略。专心-专注-专业

    注意事项

    本文(林子雨大数据技术原理与应用第二章课后题答案(共6页).docx)为本站会员(飞****2)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开