Hive数据仓库技术与应用课件汇总整本书电子教案全套课件完整版ppt最新教学教程.pptx
《Hive数据仓库技术与应用课件汇总整本书电子教案全套课件完整版ppt最新教学教程.pptx》由会员分享,可在线阅读,更多相关《Hive数据仓库技术与应用课件汇总整本书电子教案全套课件完整版ppt最新教学教程.pptx(139页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Hive数据仓库技术与应用01任务Hive的概念02任务Hive前的准备单元1Hadoop生态与Hive03任务Hive的产生背景1Hive的产生背景1Hive的产生背景ApacheHive数据仓库软件可以使用SQL方便地阅读、编写和管理分布在分布式存储中的大型数据集。产生背景有以下几个方面:Hive的背景1Hive的产生背景(1)MapReduce编程使用起来不方便、不适合事务/单一请求处理、不能随即读取、以蛮力代替索引。(2)Hive由Facebook开源,最初用于解决海量结构化的日志数据统计问题,它是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整
2、的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。Hive的产生背景1Hive的产生背景(3)Hive是建立在Hadoop上的数据仓库基础构架。(4)Hive比较简单、容易上手(提供了类似于SQL查询语言HQL)、为超大数据集设计的计算/存储扩展能力(MR计算,HDFS存储)、统一的元数据管理。Hive的产生背景Hive的产生背景Hive的实现Hive对于这个三个部分的实现都提供了相应的支持:数据获取(DataAcquisition)数据存储数据访问(DataAccess)Hive的产生背景Hive的实现Hive对于这个三个部分的实现都提供了相应的支持:数据获取(Data
3、Acquisition)数据存储数据访问(DataAccess)2Hive的概念2Hive的概念(1)Hive包含了3大组成部分:HiveClientsHiveServicesHiveStorageandComputing2Hive的概念Hive组件:Driver、Compiler、ExecutionEgine、MetastoreMetastore组件包括两个部分:Metastoredatabase和MetastoreservicesHive由Facebook实现并开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供HQL(HiveSQL)查询功能,底层数据是
4、存储在HDFS上。Hive组件3Hadoop生态与Hive3Hadoop生态与hivePigpig是数据流的语言,所以很适合做物质的数据探索和ETL阶段数据的非处理,它和Spark的思想很相似,所以也可以说Spark是实现正确的Pig。Pig包括两部分:一是用于描述数据流的语言,称为PigLatin;二是用于运行PigLatin程序的执行环境。3Hadoop生态与hiveHBaseHBase是ApacheHadoop中的一个子项目,HBase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用Hadoop的DFS工具就可以看到这些这些数据存储文件夹的结构,还可以通过Map/Reduce
5、的框架(算法)对HBase进行操作。3Hadoop生态与hive采用HBase的原因HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。HBase是介于MapEntry(key&value)和DBRow之间的一种数据存储方式。ThankYOU!Hive数据仓库技术与应用01任务JDK的配置02任务环境准备单元2免密登陆03任务VMware与SecureCRT Portable1VMware与SecureCRT Portable1VMware与SecureCRT PortableVMware(威睿)虚拟机软件,是全球桌面到数据中心虚拟化解决方案的领导厂商。全球不同规模的客户
6、依靠VMware来降低成本和运营费用、确保业务持续性、加强安全性并走向绿色。VMware的简介1VMware与SecureCRT Portable(1)VMware虚拟化前:每台主机一个操作系统;软件硬件紧密地结合;在同一主机上运行多个应用程序通常会遭遇沖突;系统的资源利用率低;硬件成本高昂而且不够灵活;(2)VMware虚拟化后:打破了操作系统和硬件的互相依赖;通过封装到到虚拟机的技术,管理操作系统和应用程序为单一的个体;強大的安全和故障隔离;虚拟机是独立于硬件的,它们能在任何硬件上运行;Vmware的虚拟化1VMware与SecureCRT Portable分区隔离封装相对与硬件独立Vmw
7、are的四大特性2JDK的配置2JDK的配置中文称为Java开发工具包,由SUN公司提供。它为Java程序开发提供了编译和运行环境,所有的Java程序的编写都依赖于它。JDK的简介2JDK的配置(1)J2SE:标准版(2)J2EE:企业版(3)J2ME:微缩版JDK的版本2JDK的配置使用MobaXterm连接虚拟机,将文件直接拖至虚拟机文件夹中上传JDK的介质文件共享(1)解压将下载下来的.tar.gz文件解压。(2)设置环境变量编辑.bashrc文件。(3)在该文件的末尾,加上几行代码(4)验证JDK是否安装完成2JDK的配置tar的解压与压缩3免密登陆3免密登陆(1)配置每个节点的hos
8、ts文件(2)每个节点生成SSH密钥(3)在主节点上将公钥拷到一个特定文件authorized_keys中(4)将authorized_keys文件拷到下一个节点,并将该节点的ssh密钥id_rsa.pub加入该文件中。(5)登录hadoop02主机命令(6)验证免密登录ThankYOU!Hive数据仓库技术与应用01任务Hadoop的配置02任务Hadoop搭建与配置单元3Hadoop搭建1Hadoop搭建1Hadoop搭建上传Hadoop的介质(1)block(2)Namenode(3)DataNode的工作机制1Hadoop搭建解压Hadoop压缩包,使用tar命令将Hadoop压缩包进
9、行解压缩解压Hadoop压缩包1Hadoop搭建(1)编辑core-hdfs.xml(2)编辑hdfs-site.xml(3)编辑mapred-site.xml(4)编辑yarn-site.xml修改Hadoop的配置文件1Hadoop搭建启动命令:start-all.sh启动顺序:NameNode、DateNode、SecondaryNameNode、obTracker、TaskTracker停止命令:stop-all.sh关闭顺序性:JobTracker、TaskTracker、NameNode、DateNod、SecondaryNameNode启动Hadoop服务2Hadoop的配置2H
10、adoop的配置Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成Hadoop的整体框架2Hadoop的配置Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。Hadoop实现了一个分布式文件系统,简称HDFS。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Hadoop的介绍2Hadoop的配置MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。MapReduce
11、综述2Hadoop的配置Hadoop两大核心设计Hadoop核心设计2Hadoop的配置MapReduce最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。MapReduce的由来2Hadoop的配置一个映射函数就是对一些独立元素组成的概念上的列表(例如,一个测试成绩的列表)的每一个元素进行指定的操作。MapReduce:映射和化简2Hadoop的配置化简操作工作方式与之类似,但是由于化简操作的可并行性相对较差,主节点会尽量把化简操作只分配在一个节点上,或者离需要操作的数据尽可能近的节点上。MapReduce:分布可靠2Hadoop的配置在Google,MapRed
12、uce用在非常广泛的应用程序中,包括“分布grep、分布排序、Web连接图反转、每台机器的词矢量、Web访问日志分析、反向索引构建、文档聚类、机器学习、基于统计的机器翻译.”MapReduce:用途2Hadoop的配置数据划分和计算任务调度数据/代码互定位系统优化出错检测和恢复MapReduce:主要功能ThankYOU!Hive数据仓库技术与应用01任务安装Hive实验02任务安装Hive的基础操作单元4Hive命令03任务Hive的几种模式04任务数据类型和文件格式05任务安装Hive的基础操作单元4Hive权限管理06任务Hive命令行界面Hive常用优化方法07任务1Hive的几种模式
13、1Hive的几种模式本地模式本地模式没有HDFS,只能测试MapReduce程序,程序运行的结果保存在本地文件系统。1Hive的几种模式本地模式的配置完全本地模式自动本地模式1Hive的几种模式远程模式元数据信息被存储在MySQL数据库中。MySQL数据库与Hive运行不在同一台物理机器上。多用于实际的生产运行环境。远程模式模型1Hive的几种模式远程模式的步骤在Linux的MySQL数据库中创建数据库解压安装包上传mysql驱动的jar包到指定的lib文件夹内。修改配置文件hive-site.xml。确保Hadoop运行正常。运行1Hive的几种模式内嵌模式在不修改任何配置的情况下,在本机通
14、过默认的元数据数据库管理,Hive中有一个自带的数据库derby,在首次启动的时候需要进行初化数据。步骤如下:执行Hive命令之前需要将HDFS启动。在哪一个目录下运行Hive,都必须进行初始化。如果在同一个目录下,多次初始化时,需要将metastore_db目录删除掉,再进行初始化。2安装Hive实验2安装Hive实验Hive简介Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,使数据查询和分析变得更方便,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。Hive构建在基于静态批处理的Hadoop之上,Hadoop通常
15、都有较高的延迟并且在作业提交和调度的时候需要大量的开销。2安装Hive实验Hive的定义Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。2安装Hive实验设计特点Hive的设计特点如下:(1)支持索引,加快数据查询。(2)不同的存储类型,例如,纯文本文件、HBase中的文件。(3)将元数据保存在关系数据库中,大大减少了在查询过程中执行语义检查的时间。(4)可以直接使用存储在Hadoop文件系统中的数据。(5)内置大量用户函数UDF来操作时间、字符串和其他的数据挖掘
16、工具,支持用户扩展UDF函数来完成内置函数无法实现的操作。(6)类SQL的查询方式,将SQL查询转换为MapReduce的Job在Hadoop集群上执行。2安装Hive实验数据存储(1)Hive没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织Hive中的表,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据。(2)Hive中所有的数据都存储在HDFS中,Hive中包含以下数据模型:表(Table)、外部表(ExternalTable)、分区(Partition)和桶(Bucket)。3Hive命令3Hive命令(1)Hive命令创建表语句:C
17、reateTable是用于在Hive中创建表的语句。(2)加载数据(3)重命名分区(4)删除分区4Hive命令行界面4Hive命令行界面Hive命令行选项命令说明-d,-define 在Hive命令中使用变量替换(Variablesubstitution)。例如,-dA=Bor-defineA=B-e在命令行模式下直接运行SQL语句-f在命令行模式下运行指定文件中的SQL语句-H,-help输出命令行选项信息-h连接安装在远程主机上的Hive服务器-hiveconf连接Hive服务器时同时指定一些属性值-hivevar应用到Hive命令中的变量替换(Variablesubstitution)。
18、例如,-hivevarA=B-i指定初始化文件。如果在启动Hive时没有使用-i选项指定初始文件,CLI(CommandLineInterface)将使用$HIVE_HOME/bin/.hivercand$HOME/.hiverc进行初始化-p连接到指定端口的Hive服务器-S,-silentHive以silent模式运行,命令执行过程中不输出中间信息-v,-verboseHive以verbose模式,在控制台显示SQL语句的执行状态4Hive命令行界面Hive命令行示例(1)在命令行中嵌入SQL语句(2)在命令行中嵌入SQL语句同时设置Hive运行参数值(3)以silent模式执行SELEC
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hive 数据仓库 技术 应用 课件 汇总 电子 教案 全套 完整版 ppt 最新 教学 教程
限制150内