书签分享收藏举报版权申诉 / 49

立即下载

当前位置：首页 > 教育专区 > 教案示例 > 第7讲：Hive数据仓库ppt课件.ppt

第7讲：Hive数据仓库ppt课件.ppt

上传人：飞****2

文档编号：32428224

上传时间：2022-08-09

格式：PPT

页数：49

大小：2.79MB

( 4.5 )

《第7讲：Hive数据仓库ppt课件.ppt》由会员分享，可在线阅读，更多相关《第7讲：Hive数据仓库ppt课件.ppt（49页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、第第7 7讲讲 HiveHive数据仓库数据仓库数据分析者面临的问题数据分析者面临的问题数据日趋庞大，无论是入库和查询，都出现性能瓶颈数据日趋庞大，无论是入库和查询，都出现性能瓶颈用户的应用和分析结果呈整合趋势，对实时性和响应时间要用户的应用和分析结果呈整合趋势，对实时性和响应时间要求越来越高求越来越高使用的模型越来越复杂，计算量指数级上升使用的模型越来越复杂，计算量指数级上升数据分析者期待的解决方案数据分析者期待的解决方案完美解决性能瓶颈，在可见未来不容易出现新瓶颈完美解决性能瓶颈，在可见未来不容易出现新瓶颈过去所拥有的技能可以平稳过渡。比如过去所拥有的技能可以平稳过渡。比如S

2、QLSQL、R R 转移平台的成本有多高？平台软硬件成本，再开发成本，技转移平台的成本有多高？平台软硬件成本，再开发成本，技能再培养成本，维护成本能再培养成本，维护成本 Hive简介简介起源自起源自facebookfacebook由由Jeff Jeff HammerbacherHammerbacher领导的团队领导的团队构建在构建在HadoopHadoop上的数据仓库框架上的数据仓库框架设计目的是让设计目的是让SQLSQL技能良好，但技能良好，但JavaJava技能较弱的分析师可技能较弱的分析师可以查询海量数据以查询海量数据 20082008年年facebookfacebook把把hi

3、vehive项目贡献给项目贡献给ApacheApache Hive 数据仓库工具。可以把数据仓库工具。可以把HadoopHadoop下的原始结构化数据变成下的原始结构化数据变成HiveHive中的表中的表支持一种与支持一种与SQLSQL几乎完全相同的语言几乎完全相同的语言HiveQLHiveQL。除了不支持更。除了不支持更新、索引和事务，几乎新、索引和事务，几乎SQLSQL的其它特征都能支持的其它特征都能支持可以看成是从可以看成是从SQLSQL到到Map-ReduceMap-Reduce的映射器的映射器提供提供shellshell、JDBC/ODBCJDBC/ODBC、ThriftThr

4、ift、WebWeb等接口等接口 HiveHive不适合用于联机事务处理，也不提供实时查询功能。不适合用于联机事务处理，也不提供实时查询功能。最适合应用在基于大量不可变数据的批处理作业。最适合应用在基于大量不可变数据的批处理作业。 Hive Hive 是建立在是建立在 HadoopHadoop 上的数据仓库基础构架。它提供了上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（一系列的工具，可以用来进行数据提取转化加载（ETLETL），），这是一种可以存储、查询和分析存储在这是一种可以存储、查询和分析存储在 HadoopHadoop 中的大规模中的大规模数据的机制。数据的机

5、制。Hive Hive 定义了简单的类定义了简单的类 SQL SQL 查询语言，称为查询语言，称为 HQLHQL，它允许熟悉，它允许熟悉 SQL SQL 的用户查询数据。同时，这个语言也的用户查询数据。同时，这个语言也允许熟悉允许熟悉 MapReduceMapReduce 开发者的开发自定义的开发者的开发自定义的 mappermapper 和和 reducer reducer 来处理内建的来处理内建的mappermapper 和和 reducer reducer 无法完成的复杂无法完成的复杂的分析工作。的分析工作。Hive现状现状 HadoopHadoop生态圈中的重要项目生态圈中的重要项目

6、企业级数据仓库的主流架构之一企业级数据仓库的主流架构之一解决解决“即席查询即席查询”的问题的问题注意注意ClouderaCloudera的的ImpalaImpala项目，号称比项目，号称比HiveHive要快要快3-303-30倍倍兼容兼容SQLSQL是目前大数据产品的风向标是目前大数据产品的风向标体系结构图 1 1、用户接口主要有三个：命令行、用户接口主要有三个：命令行(CLI)(CLI)，客户端，客户端(Client) (Client) 和和WEBWEB界面界面( WUI)( WUI)。其中最常用的是。其中最常用的是 CLICLI，CliCli 启动的时候，会同时启启动的时候，会同

7、时启动一个动一个 Hive Hive 服务。服务。Client Client 是是 Hive Hive 的客户端，用户连接至的客户端，用户连接至 Hive ServerHive Server。在启动。在启动 Client Client 模式的时候，需要指出模式的时候，需要指出 Hive Hive Server Server 所在节点，并且在该节点启动所在节点，并且在该节点启动 Hive ServerHive Server。 WUI WUI 是通是通过浏览器访问过浏览器访问 HiveHive。 2 2、元数据存储。、元数据存储。Hive Hive 将元数据存储在数据库中，如将元数据存储在数据库中

8、，如 mysqlmysql、derbyderby嵌入式数据库。嵌入式数据库。Hive Hive 中的元数据包括表的名字，表的列和中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。录等。 3 3、执行。解释器、编译器、优化器完成、执行。解释器、编译器、优化器完成 HiveQLHiveQL 查询语句从词法查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在计划存储在 HDFS HDFS 中中, ,并在随后有并在随后有

9、 MapReduceMapReduce 调用执行。调用执行。 4 4、 HDFSHDFS 存储。存储。Hive Hive 的数据存储在的数据存储在 HDFS HDFS 中，大部分的查询由中，大部分的查询由 MapReduceMapReduce 完成（包含完成（包含 * * 的查询，比如的查询，比如 select select * * from from tbltbl 不不会生成会生成 MapRedcueMapRedcue 任务）。任务）。Hive Hive 元数据存储元数据存储Hive Hive 将元数据存储将元数据存储在在 RDBMS RDBMS 中，有三种模式可以连接到数据库：中，有三种模

10、式可以连接到数据库： Single User Single User ModeMode：此模式连接到一个此模式连接到一个 In-memory In-memory 的数据库的数据库 DerbyDerby，一般用，一般用于于 Unit TestUnit Test。Hive安装安装内嵌模式：元数据保持在内嵌的内嵌模式：元数据保持在内嵌的DerbyDerby模式，只允许一个会模式，只允许一个会话连接话连接本地独立模式：在本地安装本地独立模式：在本地安装MysqlMysql，把元数据放到，把元数据放到MysqlMysql内内远程模式：元数据放置在远程的远程模式：元数据放置在远程的MysqlMys

11、ql数据库数据库内嵌模式安装内嵌模式安装下载并解压Hive 设置环境变量设置环境变量（修改profile文件）配置文件配置文件 hive-env.sh cp hive-env.sh.template hive-env.sh hive-site.xml cp hive-default.xml.template hive-site.xml 启动启动hive HiveHive命令行启动方式：直接输入命令行启动方式：直接输入/hive/bin/hive/hive/bin/hive命令，命令，或者输入或者输入hive-service hive-service clicli命令。命令。Hive we

12、bHive web界面启动方式：输入界面启动方式：输入hive-service hive-service hwihwi命令。命令。HiveHive采用远程服务启动方式：远程服务的端口号为采用远程服务启动方式：远程服务的端口号为1000010000，采用采用hive-service hive-service hiveserverhiveserver命令。命令。HiveHive采用远程后台启动方式：关闭采用远程后台启动方式：关闭HiveHive终端，但是终端，但是HiveHive服务服务不退出，采用不退出，采用nohupnohup hive-service hive-service hiveser

13、verhiveserver命令。命令。简单建删表测试简单建删表测试一个常见错误一个常见错误解决方法解决方法修改hadoop-env.sh Hive安装：独立模式安装：独立模式可参考网络资源：可参考网络资源： http:/ http:/ Hive的服务 HiveHive不仅仅是一个不仅仅是一个shellshell，通过配置，还可以提供，通过配置，还可以提供ThriftThrift服服务器、务器、WebWeb接口、元数据和接口、元数据和JDBC/ODBCJDBC/ODBC服务，具有强大的功能服务，具有强大的功能和良好的可扩展性。和良好的可扩展性。 1 1、Hive shellHive sh

14、ell 执行执行HiveQLHiveQL（大约相当于（大约相当于SQL 92SQL 92标准）标准）查看或临时设置查看或临时设置HiveHive参数，只对当前会话有效参数，只对当前会话有效创建函数创建函数导入导入jarjar包包 HiveQL 查询语言 HiveQL是一种类似是一种类似SQL的语言的语言查询语言查询语言 HQL HQL SQL SQL 数据存储位置数据存储位置 HDFS HDFS Raw Device Raw Device 或者或者Local FS Local FS 数据格式数据格式用户定义用户定义系统决定系统决定数据更新数据更新不支持不支持支持支持索引索引

15、无无有有执行执行 MapRedcueMapRedcue Executor Executor 执行延迟执行延迟高高低低可扩展性可扩展性高高低低数据规模数据规模大大小小 HiveQL 查询语言 1.1.查询语言。由于查询语言。由于 SQL SQL 被广泛的应用在数据仓库中，因此，专门被广泛的应用在数据仓库中，因此，专门针对针对 Hive Hive 的特性设计了类的特性设计了类 SQL SQL 的查询语言的查询语言 HQLHQL。熟悉。熟悉 SQL SQL 开开发的开发者可以很方便的使用发的开发者可以很方便的使用 Hive Hive 进行开发。进行开发。 2.2.数据存储位置。数

16、据存储位置。Hive Hive 是建立在是建立在 HadoopHadoop 之上的，所有之上的，所有 Hive Hive 的数据都是存储在的数据都是存储在 HDFS HDFS 中的。而数据库则可以将数据保存在块中的。而数据库则可以将数据保存在块设备或者本地文件系统中。设备或者本地文件系统中。 3.3.数据格式。数据格式。Hive Hive 中没有定义专门的数据格式，数据格式可以由中没有定义专门的数据格式，数据格式可以由用户指定，用户定义数据格式需要指定三个属性：列分隔符（通用户指定，用户定义数据格式需要指定三个属性：列分隔符（通常为空格、常为空格、”t”t”、”x001x001）、行分隔符）、

17、行分隔符（”n”n”）以及读）以及读取文件数据的方法（取文件数据的方法（Hive Hive 中默认有三个文件格式中默认有三个文件格式 TextFileTextFile，SequenceFileSequenceFile 以及以及 RCFileRCFile）。由于在加载数据的过程中，不需）。由于在加载数据的过程中，不需要从用户数据格式到要从用户数据格式到 Hive Hive 定义的数据格式的转换，因此，定义的数据格式的转换，因此，Hive Hive 在加载的过程中不会对数据本身进行任何修改，而只是将数据内在加载的过程中不会对数据本身进行任何修改，而只是将数据内容复制或者移动到相应的容复制或者移动

18、到相应的 HDFS HDFS 目录中。而在数据库中，不同的目录中。而在数据库中，不同的数据库有不同的存储引擎，定义了自己的数据格式。所有数据都数据库有不同的存储引擎，定义了自己的数据格式。所有数据都会按照会按照一定的组织存储，因此，数据库加载数据的过程会比较耗一定的组织存储，因此，数据库加载数据的过程会比较耗时。时。 HiveQL 查询语言 4.4.数据更新。由于数据更新。由于 Hive Hive 是针对数据仓库应用设计的，而数据仓是针对数据仓库应用设计的，而数据仓库的内容是读多写少的。因此，库的内容是读多写少的。因此，Hive Hive 中不支持对数据的改写和添中不支持对数据的改写和添加，所

19、有的数据都是在加载的时候中确定好的。而数据库中的数加，所有的数据都是在加载的时候中确定好的。而数据库中的数据通常是需要经常进行修改的，因此可以使用据通常是需要经常进行修改的，因此可以使用 INSERT INTO . INSERT INTO . VALUES VALUES 添加数据，使用添加数据，使用 UPDATE . SET UPDATE . SET 修改数据修改数据 5.5.索引。之前已经说过，索引。之前已经说过，Hive Hive 在加载数据的过程中不会对数据在加载数据的过程中不会对数据进行任何处理，甚至不会对数据进行扫描，因此也没有对数据中进行任何处理，甚至不会对数据进行扫描，因此也没有

20、对数据中的某些的某些 Key Key 建立索引。建立索引。Hive Hive 要访问数据中满足条件的特定值时要访问数据中满足条件的特定值时，需要暴力扫描整个数据，因此访问延迟较高。由于，需要暴力扫描整个数据，因此访问延迟较高。由于 MapReduceMapReduce 的引入，的引入， Hive Hive 可以并行访问数据，因此即使没有索引，对于大可以并行访问数据，因此即使没有索引，对于大数据量的访问，数据量的访问，Hive Hive 仍然可以体现出优势。数据库中，通常会针仍然可以体现出优势。数据库中，通常会针对一个或者几个列建立索引，因此对于少量的特定条件的数据的对一个或者几个列建立索引，因

21、此对于少量的特定条件的数据的访问，数据库可以有很高的效率，较低的延迟。由于数据访问，数据库可以有很高的效率，较低的延迟。由于数据的访问的访问延迟较高，决定了延迟较高，决定了 Hive Hive 不适合在线数据查询。不适合在线数据查询。 6.6.执行。执行。Hive Hive 中大多数查询的执行是通过中大多数查询的执行是通过 HadoopHadoop 提供的提供的 MapReduceMapReduce 来实现的（类似来实现的（类似 select select * * from from tbltbl 的查询不需要的查询不需要 MapReduceMapReduce）。而数据库通常有自己的执行引擎

22、。）。而数据库通常有自己的执行引擎。 HiveQL 查询语言 7.7.执行延迟。之前提到，执行延迟。之前提到，Hive Hive 在查询数据的时候，由于没有索在查询数据的时候，由于没有索引，需要扫描整个表，因此延迟较高。另外一个导致引，需要扫描整个表，因此延迟较高。另外一个导致 Hive Hive 执执行延迟高的因素是行延迟高的因素是 MapReduceMapReduce 框架。由于框架。由于 MapReduceMapReduce 本身具本身具有较高的延迟，因此在利用有较高的延迟，因此在利用 MapReduceMapReduce 执行执行 Hive Hive 查询时，也查询时，也会有较高的延迟

23、。相对的，数据库的执行延迟较低。当然，这会有较高的延迟。相对的，数据库的执行延迟较低。当然，这个低是有条件的，即数据规模较小，当数据规模大到超过数据个低是有条件的，即数据规模较小，当数据规模大到超过数据库的处理能力的时候，库的处理能力的时候，Hive Hive 的并行计算显然能体现出优势。的并行计算显然能体现出优势。 8.8.可扩展性。由于可扩展性。由于 Hive Hive 是建立在是建立在 HadoopHadoop 之上的，因此之上的，因此 Hive Hive 的可扩展性是和的可扩展性是和 HadoopHadoop 的可扩展性是一致的。而数据库由于的可扩展性是一致的。而数据库由于 ACID

24、ACID 语义的严格限制，扩展行非常有限。语义的严格限制，扩展行非常有限。 9.9.数据规模。由于数据规模。由于 Hive Hive 建立在集群上并可以利用建立在集群上并可以利用 MapReduceMapReduce 进行并行计算，因此可以支持很大规模的数据；对应的，数据进行并行计算，因此可以支持很大规模的数据；对应的，数据库可以支持的数据规模较小。库可以支持的数据规模较小。 HiveQL 查询语言 HiveHive安装与部署成功之后，在命令行输入安装与部署成功之后，在命令行输入hivehive进入进入shellshell。 1 1、退出、退出shellshell： Hivequit;Hive

25、quit; 2 2、查看已有表、查看已有表 Hiveshow tables ;Hiveshow tables ; 3 3、查看表结构、查看表结构 Hivedescribe Hivedescribe tablenametablename ; ;建表 Create Table CREATE EXTERNAL TABLE IF NOT EXISTS table_name (col_name data_type COMMENT col_comment, .) COMMENT table_comment PARTITIONED BY (col_name data_type COMMENT col_com

26、ment, .) CLUSTERED BY (col_name, col_name, .) SORTED BY (col_name ASC|DESC, .) INTO num_buckets BUCKETS ROW FORMAT row_format STORED AS file_format LOCATION hdfs_path CREATE TABLE CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用，则抛出异常；用户可以用 IF NOT EXIST IF NOT EXIST 选项来忽略这个异常。

27、选项来忽略这个异常。 EXTERNAL EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时指定一关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（个指向实际数据的路径（LOCATIONLOCATION），），Hive Hive 创建内部表时，会将数创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。和数

28、据会被一起删除，而外部表只删除元数据，不删除数据。 LIKE LIKE 允许用户复制现有的表结构，但是不复制数据。允许用户复制现有的表结构，但是不复制数据。用户在建表的时候可以自定义用户在建表的时候可以自定义 SerDeSerDe 或者使用自带的或者使用自带的 SerDeSerDe。如果。如果没有指定没有指定 ROW FORMAT ROW FORMAT 或者或者 ROW FORMAT DELIMITEDROW FORMAT DELIMITED，将会使用自带，将会使用自带的的 SerDeSerDe。在建表的时候，用户还需要为表指定列，用户在指定表的。在建表的时候，用户还需要为表指定列，用户在指

29、定表的列的同时也会指定自定义的列的同时也会指定自定义的 SerDeSerDe，Hive Hive 通过通过 SerDeSerDe 确定表的具体确定表的具体的列的数据。的列的数据。如果文件数据是纯文本，可以使用如果文件数据是纯文本，可以使用 STORED AS TEXTFILESTORED AS TEXTFILE。如果数据。如果数据需要压缩，使用需要压缩，使用 STORED AS SEQUENCE STORED AS SEQUENCE 。有分区的表可以在创建的时候使用有分区的表可以在创建的时候使用 PARTITIONED BY PARTITIONED BY 语句。一个表可语句。一个表可以拥有

30、一个或者多个分区，每一个分区单独存在一个目录下。而且，以拥有一个或者多个分区，每一个分区单独存在一个目录下。而且，表和分区都可以对某个列进行表和分区都可以对某个列进行 CLUSTERED BY CLUSTERED BY 操作，将若干个列放入操作，将若干个列放入一个桶（一个桶（bucketbucket）中。也可以利用）中。也可以利用SORT BY SORT BY 对数据进行排序。这样可对数据进行排序。这样可以为特定应用提高性能。以为特定应用提高性能。表名和列名不区分大小写，表名和列名不区分大小写，SerDeSerDe 和属性名区分大小写。表和列的注和属性名区分大小写。表和列的注释是字符串。释是

31、字符串。创建表创建表创建表创建表列类型列类型 Hive支持的数据类型如下支持的数据类型如下: 原生类型原生类型: TINYINT SMALLINT INT BIGINT BOOLEAN FLOAT DOUBLE STRING BINARY (Hive 0.8.0以上才可用以上才可用) TIMESTAMP (Hive 0.8.0以上才可用以上才可用) 复合类型复合类型: arrays: ARRAY maps: MAP structs: STRUCT union: UNIONTYPEHive中表的类型 Hive Hive 没有专门的数据存储格式，也没有为数据建立索引，用户可以没有专门的数据存储

32、格式，也没有为数据建立索引，用户可以非常自由的组织非常自由的组织 Hive Hive 中的表，只需要在创建表的时候告诉中的表，只需要在创建表的时候告诉 Hive Hive 数数据中的列分隔符和行分隔符，据中的列分隔符和行分隔符，Hive Hive 就可以解析数据。就可以解析数据。 Hive Hive 中所有的数据都存储在中所有的数据都存储在 HDFS HDFS 中，中，Hive Hive 中包含以下数据模型：中包含以下数据模型：TableTable，External TableExternal Table，PartitionPartition，BucketBucket。（1 1）普通表）普通

33、表普通表的创建就是一个表对应一个表名和表名对应的文件。普通表的创建就是一个表对应一个表名和表名对应的文件。（2 2）外部表）外部表建表的同时指定一个指向实际数据的路径，创建内部表时会将数据移建表的同时指定一个指向实际数据的路径，创建内部表时会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。删除表时，内部表的元数据和数据一起不对数据的位置做任何改变。删除表时，内部表的元数据和数据一起被删，而外部表只删除元数据，不删除数据。被删，而外部表只删除元数据，不删除数据。（3 3）分区表）分区

34、表在在 Hive Hive 中，表中的一个中，表中的一个 Partition Partition 对应于表下的一个目录，所有对应于表下的一个目录，所有的的 Partition Partition 的数据都存储在对应的目录中。例如：的数据都存储在对应的目录中。例如：pvspvs 表中包含表中包含 dsds 和和 city city 两个两个 PartitionPartition，则对应于，则对应于 dsds = 20090801, = 20090801, ctryctry = US = US 的的 HDFS HDFS 子目录为：子目录为：/ /wh/pvs/dswh/pvs/ds=200908

35、01/ctry=US=20090801/ctry=US；对应于；对应于 dsds = = 20090801, 20090801, ctryctry = CA = CA 的的 HDFS HDFS 子目录为；子目录为；/ /wh/pvs/dswh/pvs/ds=20090801/ctry=CA =20090801/ctry=CA 加载数据 HiveHive不支持一条一条用不支持一条一条用insertinsert语句进行插入操作，也不支持语句进行插入操作，也不支持updateupdate操作。数据以操作。数据以loadload的方式加载到建立好的表中，一旦的方式加载到建立好的表中，一旦导入，不可修改

36、。导入，不可修改。 LOAD DATA LOCAL INPATH LOAD DATA LOCAL INPATH filepathfilepath OVERWRITE OVERWRITE INTO TABLE INTO TABLE tablenametablename PARTITION (partcol1=val1, partcol2=val2 .) PARTITION (partcol1=val1, partcol2=val2 .) Load Load 操作只是单纯的复制操作只是单纯的复制/ /移动操作，将数据文件移动到移动操作，将数据文件移动到 Hive Hive 表对应的位置。表对应的位

37、置。 filepathfilepath 可以是：可以是：相对路径，例如：相对路径，例如：project/data1 project/data1 绝对路径，例如：绝对路径，例如： /user/hive/project/data1 /user/hive/project/data1 包含模式的完整包含模式的完整 URIURI，例如：，例如：hdfs:/namenode:9000/user/hive/project/data1 hdfs:/namenode:9000/user/hive/project/data1 加载的目标可以是一个表或者分区。如果表包含分区，必须指定每一个分区的分加载的目标可以是

38、一个表或者分区。如果表包含分区，必须指定每一个分区的分区名。区名。filepathfilepath 可以引用一个文件（这种情况下，可以引用一个文件（这种情况下，Hive Hive 会将文件移动到表所对应的目会将文件移动到表所对应的目录中）或者是一个目录（在这种情况下，录中）或者是一个目录（在这种情况下，Hive Hive 会将目录中的所有文件移动至表会将目录中的所有文件移动至表所对应的目录中）。所对应的目录中）。如果指定了如果指定了 LOCALLOCAL，那么：，那么： load load 命令会去查找本地文件系统中的命令会去查找本地文件系统中的 filepathfilepath。如果发现是相

39、对路径，则路径。如果发现是相对路径，则路径会被解释为相对于当前用户的当前路径。用户也可以为本地文件指定一个完整的会被解释为相对于当前用户的当前路径。用户也可以为本地文件指定一个完整的 URIURI，比如：，比如：file:/user/hive/project/data1. file:/user/hive/project/data1. load load 命令会将命令会将 filepathfilepath 中的文件复制到目标文件系统中。目标文件系统由表中的文件复制到目标文件系统中。目标文件系统由表的位置属性决定。被复制的数据文件移动到表的数据对应的位置。的位置属性决定。被复制的数据文件移动到表的

40、数据对应的位置。如果没有指定如果没有指定 LOCAL LOCAL 关键字，如果关键字，如果 filepathfilepath 指向的是一个完整的指向的是一个完整的 URIURI，hive hive 会直接使用这个会直接使用这个 URIURI。否则：。否则：如果没有指定如果没有指定 schema schema 或者或者 authorityauthority，Hive Hive 会使用在会使用在 hadoophadoop 配置文件中定配置文件中定义的义的 schema schema 和和authorityauthority，fs.default.namefs.default.name 指定了指定

41、了 NamenodeNamenode 的的 URIURI。如果路径不是绝对的，如果路径不是绝对的，Hive Hive 相对于相对于 /user/ /user/ 进行解释。进行解释。Hive Hive 会将会将 filepathfilepath 中指定的文件内容移动到中指定的文件内容移动到 table table （或者（或者 partitionpartition）所指）所指定的路径中。定的路径中。如果使用了如果使用了 OVERWRITE OVERWRITE 关键字，则目标表（或者分区）中的内容（如果有）会关键字，则目标表（或者分区）中的内容（如果有）会被删除，然后再将被删除，然后再将 file

42、pathfilepath 指向的文件指向的文件/ /目录中的内容添加到表目录中的内容添加到表/ /分区中。分区中。如果目标表（分区）已经有一个文件，并且文件名和如果目标表（分区）已经有一个文件，并且文件名和 filepathfilepath 中的文件名冲突中的文件名冲突，那么现有的文件会被新文件所替代。，那么现有的文件会被新文件所替代。插入数据插入数据 SELECT查询 SELECT ALL | DISTINCT SELECT ALL | DISTINCT select_exprselect_expr, , select_exprselect_expr, . , . FROM FROM tab

43、le_referencetable_reference WHERE WHERE where_conditionwhere_condition GROUP BY GROUP BY col_listcol_list CLUSTER BY CLUSTER BY col_listcol_list | DISTRIBUTE BY | DISTRIBUTE BY col_listcol_list SORT BY SORT BY col_listcol_list LIMIT number LIMIT number 一个一个SELECTSELECT语句可以是一个语句可以是一个unionunion查询或一个子查

44、询的一部分查询或一个子查询的一部分 table_referencetable_reference是查询的输入，可以是一个普通表、一个视图、一是查询的输入，可以是一个普通表、一个视图、一个个joinjoin或一个子查询或一个子查询简单查询。例如，下面这一语句从简单查询。例如，下面这一语句从t1t1表中查询所有列的信息。表中查询所有列的信息。 SELECT SELECT * * FROM t1 WHERE Clause FROM t1 WHERE Clause WHERE ClauseWHERE Clause是一个布尔表达式，不支持是一个布尔表达式，不支持wherewhere子句中的子句中的in

45、in，exitexit或或子查询子查询使用使用ALLALL和和DISTINCTDISTINCT选项区分对重复记录的处理。默认是选项区分对重复记录的处理。默认是ALLALL，表示查询所有记录。表示查询所有记录。DISTINCTDISTINCT表示去掉重复的记录。表示去掉重复的记录。 hive SELECT col1, col2 FROM t1 hive SELECT col1, col2 FROM t1 1 3 1 3 1 3 1 3 1 4 1 4 2 5 2 5 hive SELECT DISTINCT col1, col2 FROM t1 hive SELECT DISTINCT col

46、1, col2 FROM t1 1 3 1 3 1 4 1 4 2 5 2 5 基于基于PartitionPartition的查询的查询一般一般 SELECT SELECT 查询会扫描整个表（除非是为了抽样查询）。查询会扫描整个表（除非是为了抽样查询）。但是如果一个表使用但是如果一个表使用 PARTITIONED BY PARTITIONED BY 子句建表，查询就可子句建表，查询就可以利用分区剪枝（以利用分区剪枝（input pruninginput pruning）的特性，只扫描一个表）的特性，只扫描一个表中它关心的那一部分。中它关心的那一部分。Hive Hive 当前的实现是，只有分区

47、断言当前的实现是，只有分区断言出现在离出现在离 FROM FROM 子句最近的那个子句最近的那个WHERE WHERE 子句中，才会启用分子句中，才会启用分区剪枝。例如，如果区剪枝。例如，如果 page_viewspage_views 表使用表使用 date date 列分区，以列分区，以下语句只会读取分区为下语句只会读取分区为2008-03-012008-03-01的数据。的数据。 SELECT SELECT page_viewspage_views. .* * FROM FROM page_viewspage_views WHERE WHERE page_views.datepage_vi

48、ews.date = 2008-03-01 = 2008-03-01 AND AND page_views.datepage_views.date = 2008-03-31; = 2008-03-31; 查询查询连接 HiveQLHiveQL的连接分为内连接、左向外连接、右向外连接、全外的连接分为内连接、左向外连接、右向外连接、全外连接和半连接连接和半连接5 5种。种。例如：例如： Select Select userinforuserinfor. .* *,choice.,choice.* * from from userinforuserinfor join join choice o

49、n (choice on (userinforuserinfor .id= choice . .id= choice .useriduserid););表连接表连接 JDBC/ODBC接口接口用户可以像连接传统关系数据库一样使用用户可以像连接传统关系数据库一样使用JDBCJDBC或或ODBCODBC连接连接Hive Hive 目前还不成熟目前还不成熟 JDBC的具体连接过程的具体连接过程 1.1.使用使用jdbcjdbc的方式连接的方式连接HiveHive，首先做的事情就是需要启动，首先做的事情就是需要启动hivehive的的Thrift Server,Thrift Server,否则连接否

50、则连接hivehive的时候会报的时候会报connection connection refusedrefused的错误。的错误。启动命令如下：启动命令如下： hive -service hive -service hiveserverhiveserver 2.2.新建新建javajava项目，然后将项目，然后将hive/libhive/lib下的所有下的所有jarjar包和包和hadoophadoop的核心的核心jarjar包包hadoop-0.20.2-core.jarhadoop-0.20.2-core.jar添加到项目的类路径添加到项目的类路径上。上。样板代码样板代码 public

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: Hive 数据仓库 ppt 课件

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：第7讲：Hive数据仓库ppt课件.ppt
链接地址：https://www.taowenge.com/p-32428224.html