《2022年大数据考点总结.docx》由会员分享,可在线阅读,更多相关《2022年大数据考点总结.docx(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精品_精品资料_名词说明1. Hadoop : 是一个开源分布式运算平台,为用户供应了系统底层细节透亮的分布式基础架构.基于 Java 语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中. 核心是分布式文件系统HDFS ( Hadoop Distributed File System)和 MapReduce.2. HDFS :是 Hadoop的一个分布式文件系统,它的主要设计理念为储备超大文件,最高效的拜访模式是一次写入、多次读取,运行在一般廉价的服务器上.3. Hbase : 是一个高牢靠、高性能、面对列、可伸缩的分布式数据库,主要用来储备非结构化和半结构化的松散数据.$ h
2、base shell4. Spark :AMP 试验室于 2022 年开发,基于内存运算的大数据并行运算框架,可用于构建大型的、低推迟的数据分析应用程序5. 举荐系统 : 是自动联系用户和物品的一种工具,通过讨论用户的爱好偏好,进行个性化运算,帮忙用户从海量信息中去挖掘自己潜在的需求6. 网络爬虫 :又称为网络蜘蛛,是一种根据肯定的规章,自动的抓取万维网信息的程序或者脚本.可编辑资料 - - - 欢迎下载精品_精品资料_7. 大数据: 一种规模大到在猎取、储备、治理、分析方面大大超出了传统数据库才能范畴的数据集合( 1. 数据量大 2. 数据类型多 3. 处理速度快 4 价值密度低即 Volu
3、me 、Variety 、Value 、Velocity )8. 物联网: 物物相连的互联网,是互联网的延长,它利用局部网络或互联网等通信技术把传感器、掌握器、机器、人员和物等通过新的方式联在一起,形成人与物、物与物相联,实现信息化和远程治理掌握9. 云运算: 通过整合和治理分布在网络各处的运算资源,供应可伸缩的、廉价的分布式运算才能,通过互联网以统一界面,向大量的用户供应服务的一种模式10 数据可视化 :将大型集中的数据以图形图像形式表示,并利用数据分析和开发工具发觉其中未知信息的处理过程简答题1.hadoop 有哪些组件以及功能?答:主要组件有分布式文件系统HDFS ,为海量数据供应储备.
4、分布式并行编程模型Mapreduce为用户供应强大的运算才能.可编辑资料 - - - 欢迎下载精品_精品资料_2.MapReduce的运行过程是什么样的?答: 从分布式文件系统读入数据、执行 Map 任务输出中间结果、通过 Shuffle 阶段把中间结果分区排序整理后发送给Reduce任务、执行 Reduce 任务得到最终结果并写入分布式文件系统. (执行 map 函数把一组键值对根据相关的规章映射成一组新的键值对,并交由归约函数处理)3.Hbase 的主要功能组件有哪些?答:( 1)库函数:链接到每个客户端( 2 )一个 Master 主服务器 ( 3)很多个 Region服务器4.Hbas
5、e 与传统的数据库有什么区分?答(1 )数据类型:关系数据库采纳关系模型,HBase 就采纳了更加简洁的数据模型( 2 )数据操作:关系数据库中包含了丰富的操作,HBase操作只有简洁的插入、查询、删除、清空等( 3 )储备模式:关系数据库是基于行模式储备的,HBase 是基于列储备的.可编辑资料 - - - 欢迎下载精品_精品资料_( 4 )数据索引:关系数据库通常可以针对不同列构建复杂的多个索引,以提高数据拜访性能. HBase 只有一个索引 行键( 5 )数据保护:在关系数据库中,更新操作会用最新的当前值去替换记录中原先的旧值,旧值被掩盖后就不会存在. 而在 HBase 中执行更新操作时
6、, 并不会删除数据旧的版本( 6 )可伸缩性:关系数据库很难实现横向扩展,纵向扩展的空间也比较有限. 而 hbase正好相反.5.数据可视化思想及其作用?答:数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观看数据,从而对数据进行更深化的观看和分析作用: 1)观测、跟踪数据2)分析数据 3 )帮助懂得数据 4 )增强数据吸引力6.云运算,物联网,大数据之间联系答: 区分:大数据侧重于对海量数据的储备、处理和分析.云运算本质上通过网络以服务的方式将运算服务供应应用户.物联网的主要是实现物物相
7、连.联系:云运算为大数据供应了技术基础,大数据为云运算供应了用武之的.物联网是大数据的重要来源,大数据也为物联网数据分析供应支撑.云运算为物联网供应海量的数据储备才能,物联网为云运算供应了宽阔的应可编辑资料 - - - 欢迎下载精品_精品资料_用空间.7. 关系型数据库和非关系型数据库区分?答:( 1)关系数据库:是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据优势:以完善的关系代数理论作为基础,有严格的标准,支持事务ACID 四性, 借助索引机制可以实现高效的查询,技术成熟,有专业公司的技术支持劣势:可扩展性较差,无法较好支持海量数据储备,数据模型过于死板、
8、无法较好支持 Web2.0 应用,事务机制影响了系统的整体性能等( 2 ) NoSQL 数据库:是建立在非关系模型基础上的数据集优势:可以支持超大规模数据储备,敏捷的数据模型可以很好的支持Web2.0应用,具有强大的横向扩展才能等劣势:缺乏数学理论基础,复杂查询性能不高,大都不能实现事务强一样性,很难实现数据完整性, 技术尚不成熟, 缺乏专业团队的技术支持,保护较困难等8. spark 由哪些组件构成?答: Spark 的生态系统主要包含了Spark Core 、历史数据交互查询Spark SQL 、实时数据流数据处理Spark Streaming、历史数据的数据挖掘MLLib 和图结构数据处
9、理 GraphX等组件9. 大数据给思维方式的转变?可编辑资料 - - - 欢迎下载精品_精品资料_答:在数据基础上倾向全体数据而不是抽样数据, 在分析方法上注意相关分析而不是因果分析在分析成效上更加追求效率而不是肯定精确10. 大数据在医疗,通信等行业的应用产生的影响以及详细带来什么转变?医疗: 1. 看病难或将成为一个传奇2. 临床帮助的决策支持系统的应用:这个系统可以为医生临床治疗供应决策依据,有助于确保医疗质量,可以使医生从耗时过长的简洁询问工作中解脱出来,从而提高治疗效率3. 医疗模式或将发生五大转变:( 1)是由疾病为中心转向以健康为中心(2)是从以医院为基础转向以社会、家庭为基础(3)是从碎片化、非连续的服务转化成连续的、整合性的服务(4 )是从被动诊治转变为主动预防(5 )从为单个患者服务转变为群体服务.可编辑资料 - - - 欢迎下载精品_精品资料_THANKS .致力为企业和个人供应合同协议, 策划案方案书, 学习课件等等打造全网一站式需求欢迎您的下载,资料仅供参考可编辑资料 - - - 欢迎下载
限制150内