书签分享收藏举报版权申诉 / 23

立即下载

当前位置：首页 > 应用文书 > 解决方案 > Hive数据仓库教学大纲、期末复习题.docx

Hive数据仓库教学大纲、期末复习题.docx

上传人：太**

文档编号：72755709

上传时间：2023-02-13

格式：DOCX

页数：23

大小：35.55KB

( 4.5 )

《Hive数据仓库教学大纲、期末复习题.docx》由会员分享，可在线阅读，更多相关《Hive数据仓库教学大纲、期末复习题.docx（23页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、Hive数据仓库教学大纲（Data Warehouse ）一、课程概况课程名称：数据仓库课程学时：40学时（理论总学时/实践总学时：20/20）二、课程目标Hive是基于Hadoop的一个数据仓库工具，通过Hive可以实现将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，同时将sql语句转换为MapReduce任务进行运行，可以通过类SQL语句快速实现简单的MapReduce 统计。Hive的最佳使用场合是大数据集的批处理作业。Hive数据仓库是普通高校大数据相关专业的核心基础必修课程。主要教学内容包括Hive数据仓库基础、Hive环境搭建,Hive数据定义,Hive 数据

2、操作，HQL查询，Hive函数，Hive数据压缩，Hive优化和综合案例等。三、教学内容及学时分配（一）教学内容与学时分配各章教学内容与学时分配表章次内容总课时理论课时实践课时*Hive数据仓库基础22Hive环境搭建422*Hive基础22四Hive数据定义422五Hive数据操作624六HQL查询844七Hive函数624八Hive数据压缩22九Hive优化22十综合案例122数据仓库复习题第一章概述1 .数据挖掘的定义？（书P2, PPT_P8）从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。2 .数据挖掘的源

3、是否必须是数据仓库的数据？可以有哪些来源？（PPT_P14）关系数据库、数据仓库、事务数据库、高级数据等3 .数据挖掘的常用方法？（P4、PPT_P29）聚类分析、决策树、人工神经网络、粗糙集、关联规则挖掘、统计分析等4 .数据挖掘的过程包括哪些步骤，每一步具体包括哪些内容？（书P2-3, PPT_P17-19）确定业务对象、数据准备、数据挖掘、结果分析与知识同化。5.数据挖掘与数据仓库的关系（联系和区别）？书P6-7, PPT_P45-46联系：1,数据仓库为数据挖掘提供了更好的，更广泛的数据源2,数据仓库韦数据挖掘提供了新的支持平台。3,数据仓库为更好地使用数据挖掘工具提供了方便4,数

4、据挖掘对数据仓库提供了更好的决策支持。5,数据挖掘对数据仓库的数据组织提出了更高的要求6,数据挖掘还为数据仓库提供了广泛的技术支持区别：数据仓库是一种存储技术，它包含大量的历史数据、当前的详细数据以及综合数据，它能为不同用户的不同决策需要提供所需的数据和信息。数据挖掘是从人工智能机器学习中发展起来的，它研究各种方法和技术，从大量的数据中挖掘出有用的信息和知识。第二章数据仓库1 .数据仓库的定义数据仓库一是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合，支持管理部门的决策定制过程。2 .数据仓库数据的四大基本特征：面向主题的、集成的、不可更新的、随时间变化的。3 .数据仓库

5、体系结构有三个独立的数据层次：信息获取层、信息存储层、信息传递层。4 .粒度的定义？它对数据仓库有什么影响？(1)是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度越小，细节程度越高，综合程度越低，回答查询的种类就越多。(2)影响存放在数据仓库中的数据量大小；影响数据仓库所能回答查询问题的细节程度。5 .在数据仓库中，数据按照粒度从小到大可分为四个级别：早期细节级、当前细节级、轻度细节级和高度细节级。6 .数据分割的标准：可按日期、地域、业务领域、或按多个分割标准的组合，但一般包括日期项。7 .数据仓库设计中，一般存在着三级数据模型：概念数据模型、逻辑数据模型、物理数据模型8 .数

6、据仓库设计步骤(1)概念模型设计(2)技术准备工作(3)逻辑模型设计(4)物理模型设计(5)数据仓库的生成(6)数据仓库的使用和维护9 .数据装入时，并不是一次就将准备装入的数据全部装入数据仓库, 而是按照逻辑模型设计中所确定和分析的主题域，先装入并生成某一主题域。10 .建立数据仓库的步骤并不是一成不变的，但最终应该满足用户的分析需求。第三章联机分析处理技术1 .联机事务处理与联机分析处理的区别？联机事务处理（OLTP）作为数据管理手段，主要用于事务处理，但它对分析处理一直不能令人满意。联机分析处理（OLAP）是决策支持系统的有机组成部分，利用存储在数据仓库中的数据完成各种分析操作，

7、并以直观易懂的形式将分析结果返回给决策分析人员。2.OLAP的主要特征快速性、可分析性、多维性、信息性。3 .钻取 Drill/Roll up,Drill down改变维的层次，变换分析的粒度。分向上钻取和向下钻取。向上钻取：在某一维上将低层次的细节数据概括到高层的汇总数据, 或者减少维数。向下钻取：从汇总数据深入到细节数据进行观察或增加新维。4 .ROLAP是基于关系数据库的OLAP实现，而MOLAP是基于多维数据结构组织的OLAP实现。5 .0LAP根据其数据存储格式可分为三类：关系 OLAP(ROLAP)、多维 OLAP(MOLAP)和混合 OLAP(HOLAP)。6 .雪花型模式是对

8、星型模式维表的进一步层次化和规范化来消除冗余的数据。7 .OLAP的衡量标准(1)透明性准则：OLAP在体系结构中的位置和数据源对用户是透明的。(2)动态的稀疏矩阵处理准则：对任意给定的稀疏矩阵，存在且仅存在一个最优的物理视图。(3)维的等同性准则：每一数据维在数据结构和操作能力上都是等同的。第四章数据预处理1 .数据预处理的方法数据清洗、数据集成、数据变换、数据规约等。2 .分箱方法统一权重、统一区间、最小燧、用户自定义区间。3 .数据平滑处理方法按平均值、按边界值、按中值4 .数据规范化定义？规范化的常用方法有哪些？（1）将数据按比例缩放，使之落入一个特定的区域，如0,1,称为规范化/

9、标准化。（2）常用方法：最小-最大规范化、零-均值规范化、小数定标规范化。5 .数据规约从大数据集中得到其规约表示小数据集规约的目的是减少原始数据量；可以在小数据集上得到与原始数据相同的挖掘结果。6 .下面是一个超市某种商品连续24个月的销售数据（百元）：21 , 16, 19, 24, 27, 23, 22, 21, 20, 17, 16, 20, 23, 22,18, 24, 26, 25, 20, 26, 23, 21, 15, 17使用统一权重、统一区间和自定义区间方法对数据分箱，并对分箱后的数据采用平均值、边界值或中值等方法进行平滑。解：15,16,16,17,17,18,19,

10、20,20,20,21,21,21,22,22,23,23,23,2,24,25,26,26,2 7统一权重：设权重为6,表示每箱6个记录，分四箱：箱 1: 15,16,16,17,17,18 箱 2： 19,20,20,20,21,21箱 3: 21,22,22,23,23,23 箱 4: 24,24,25,26,26,27边界：箱 1: 15,15,15,18,18,18 箱 2： 19,19,19,21,21,21箱 3: 21,21,21,23,23,23 箱 4: 24,24,24,27,27,27统一区间:每个箱子宽度为（27-15）/4=3,区间15,18）、18,21）、24,

11、27）：箱 1: 15,16,16,17,17 箱 2： 18,19,20,20,20箱 3: 21,21,21,22,22,23,23,23 箱 4: 24,24,25,26,26,27中值：1: 16,16,16,16,16 箱 2： 20,20,20,20,20箱 3: 22,22,22,22,22,22,22,22 箱 4: 25.5, 25.5, 25.5, 25.5, 25.5, 25.5第五章关联规则方法1 .关联规则挖掘的任务？找到事务数据库D中支持度和置信度分别满足用户指定的最小支持度min_sup和最小置信度min_con的规则。2 .关联规则挖掘问题分哪两个步骤？（1）

12、找出D中所有的频繁项集；（2）从频繁项集中产生关联规则。3 .Apriori 性质:频繁项集的所有非空子集也都必须是频繁的;这是频繁项集的先验知识；可以减少候选频繁项集的数量。4 .负边界：负边界中的项集是非频繁的，但每个项集的所有子集都是频繁的。053755 .数据库如下图所示，如果设定最小支持度s=40%,置信度c=70%, 计算该数据库中的频繁TID项目列表T111, 13, 14T212, 13, 15T311, 12, 13, 15T412, 15候选1- 项集计数S (%)频繁1-项集L1250向但375恒伯3750412505375i5候选2-项集计数s(%)频繁2-项集L2il

13、, i2125：il, i3250il, i3il, i5125i2, i3250i2, 13(375i2 i5i3, i5250i3, i5候选3项集1数.S，%频繁3-i!集L3i2, i3. i5250i2, i3, i频繁项集：L1, L2, L3,即、i2、i3、i5、i1, i3、i2, i3、i2, i5、i, i5、i2, i3, i5。负边界：i1, i2, i1, i5o频繁项集产生的规则置信度强规则il, i3ili3113i3 -il羽i2, i3i2f3羽i3f 2羽i2, i5i2-i5羽i2i5i5i2羽i5f 2i3, i5i3f 5羽15-13羽i2, i3,

14、 i5i2J3-*i52/2i2/3f i5i2,i5-i3羽i3J5-*i2i3/5i 2第六章决策树方法1.决策树的基本概念:适用于离散值属性、连续值属性；采用自项向下的规约方法产生一个类似于流程图的树结构；在根节点和各内部节点上选择合适的描述属性，并且根据该属性的不同取值向下建立分枝。2 .决策树的优点进行分类器设计时，决策树分类方法所需时间相对较少；决策树的分类模型是树型结构，简单直观，比较符合人类的理解方式；可以讲决策树中到达每个叶节点的路径转换为IFTHEN形式的分类规则，这种形式更有利于理解。3.决策树剪枝决策树剪枝过程试图检测和去掉多余的分枝，以提高对未知类标号的数

15、据进行分类时的准确性。第八章人工神经网络方法1 .神经网络直所以能胜任一些复杂的工作，是因为它有学习的能力。2 .具有较好的泛华能力是神经网络设计的评价指标之一。3 .BP神经网络的拓扑结构分为多个层次：输入层、隐含层、输出层。4 .神经网络进行学习实际上就是学习其连接的权值。5 .BP神经网络学习过程由信号的正向传播与误差的反响传播两个过程组成。6 .在线训练：每处理一个训练实例，就更新一次权重。7 .离线训练：把所有训练实例都处理一遍之后，再更新权重。8 .利用梯度下降法更新权重易于陷入局部极小值，从而无法得到最优解。9 .BP神经网络的优点和缺点I-综合案例222（二）教学内容纲要第

16、一章Hive数据仓库基础（2学时）1 .教学目的与要求熟练掌握Hive架构，了解Hive数据仓库的概念，掌握Hive和数据库的区别。2 .主要教学内容（2学时）第一节数据仓库教学重点：数据仓库的概念，数据仓库的特点，数据仓库的数据模型。教学难点：数据仓库的体系结构第二节Hive数据仓库教学重点：Hive数据仓库。教学难点：Hive数据仓库第三节Hive体系结构及执行流程教学重点：Hive架构教学难点：Hive架构第四节Hive数据仓库和数据库比较教学重点：查询语言，数据存储系统，执行延迟，可扩展性，应用场景。教学难点：数据更新，数据规模。第二章Hive环境搭建（4学时）1 .教学目的与要求通过

17、学习Hive安装及配置，熟练掌握Hive安装及配置的方法，MySQL安装及配置，Hive元数据配置，掌握HiveJDBC连接和Hive常见属性配置方法。2 .主要教学内容（2学时）第一节Hive安装及配置教学重点：Hive安装及配置。教学难点：Hive安装及配置。第二节MySQL安装及配置BP神经网络的优点:抗噪性能好；既能处理连续数据，也能处理类别型数据；在多个领域有成功应用；既适合有监督学习，也适合无监督学习；具有较好的泛化能力；具有较好的逼近非线性映射的能力；具有较好的容错性。(1) BP神经网络的缺点：缺乏可解释性；可能无法找到优解；可能存在过学习问题(overfitting)；收敛

18、速度慢。第九章聚类分析1 .聚类分析定义把一个给定的数据对象集合分成不同的簇；在同一个簇(或类)中, 对象之间具有相似性；不同簇(或类)的对象之间具有较高的相宜性。2 .聚类分析方法通常分为哪些方法?基于划分方法；基于层次的方法；基于密度的方法；基于网格的方法；谱聚类方法3 .数据挖掘技术对聚类分析的要求有哪几个方面？(1)可伸缩性(适用于增长的大数据集)；(2)处理不同类型属性的能力(支持多种类型属性的数据集)；(3)发现任意形状聚类的能力(除了球形聚类外，能划分出任意形状聚类)；(4)减小对先验知识和用户自定义参数的依赖性；(5)处理噪声数据的能力(对孤立点、缺失值。错误数据等噪声数

19、据的抗干扰性)；(6)可解释性和实用性(降维，可视化显示)。4 .K平均方法与K中心点方法比较(1)当存在噪声和离群点时，K中心点方法比K均值方法更加鲁棒。(2) K中心点方法的执行代价比K平均方法要高。(3)两种方法都要用户指定簇的数目Ko5 .聚类分析中最常用的距离有欧几里得距离，曼哈坦距离、明可夫斯基距离等。6 .基于划分的聚类算法有K中心点方法和K平均方法等单选题举例1 .决策树中不包含以下哪种结点（C）A.根结点B.内部结点C.外部结点D.叶结点2 .某超市研究销售记录数据后发现，买啤酒的人很大概率也会买尿布，这种属于数据挖掘的哪类问题？（A）A.关联规则发现B.聚类C.分类D.

20、自然语言处理3 .将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？（C）A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘4 .当不知道数据所带标签（类别）时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？（B）A.分类B.聚类C.关联分析D.决策树分析5 .什么是KDD? （A）A.数据挖掘与知识发现B.领域知识发现C.文档知识发现D.动态知识发现判断题举例1 .数据挖掘的主要任务是从数据中发现潜在的规则，从而能更好的完成描述数据、预测数据等任务。2 .数据挖掘的目标不在于数据采集策略，而在于对于已经存在的数据进行模式的发掘。3 .离群点

21、可以是合法的数据对象或值。4 .DSS主要是基于数据仓库，联机数据分析和数据挖掘技术的应用o5 .0LAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息，是继数据库技术发展滞后迅猛发展起来的一种新技术。6 .离散属性总是具有有限个值。7 .关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。8 .利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。9 .先验原理可以表述为：如果一个项集是频繁的，那包含它的所有项集也是频繁的。10 .分类和回归都可用于预测，分类的输出是离散的类别值，而回归的输出是连续数值。11 .在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚

22、类的效果越差。12 .聚类分析可以看作是一种非监督的分类。13 .K均值是一种划分聚类算法，簇的个数由算法自动地确定。14 .等宽分箱法使每个箱子的取值区间相同。15 .啤酒与尿布的故事是聚类分析的典型实例。16 .等深分箱法使每个箱子的记录个数相同。17 .决策树通常用于分类与预测教学重点：MySQL安装包准备，安装MySQL服务器，安装MySQL客户端教学难点：安装MySQL服务器。第三节Hive元数据配置教学重点：驱动拷贝，配置MetaStore到MySQL, MySQL中user表参数配置。教学难点：多窗口启动Hive测试。第四节Hive JDBC连接教学重点：启动hiveserve

23、r2服务，启动beeline,连接hiveserver2。教学难点：启动hiveserver2服务。第五节Hive常见属性配置教学重点：Hive数据仓库位置配置，查询后信息显示配置，Hive运行日志信息配置，Hive参数配置方式。教学难点：Hive参数配置方式。3.主要实践内容（2学时）上机实验：Hive安装部署第三章Hive基础（2学时）1 .教学目的与要求通过本章内容的学习，掌握数据类型，运算符，Hive数据存储，文件存储格式, Hive常用交互命令，Hive其他操作命令。2 .主要教学内容（2学时）第一节Hive数据类型教学重点：基本数据类型，复杂数据类型，数据类型转换教学难点：复杂数

24、据类型第二节Hive运算符教学重点：算术运算符，比较运算符，逻辑运算符，复杂运算符教学难点：复杂运算符第三节Hive数据存储教学重点：Hive数据存储方式教学难点：Hive数据存储第四节Hive表存储格式教学重点：行式存储和列式存储，TextFile格式，SequenceFile格式，Orc格式，Parquet格式。教学难点：SequenceFile格式第五节Hive常用交互命令教学重点：Hive常用交互命令教学难点：Hive常用交互命令第六节Hive其他操作命令教学重点：Hive其他操作命令教学难点：Hive其他操作命令第四章Hive数据定义（4时）1 .教学目的与要求通过本章内容的学习，

25、了解查询数据库，修改数据库，删除数据库，表的修改, 表的删除，视图。熟练掌握创建表，分区表，桶表。2 .主要教学内容（2学时）第一节数据仓库的创建教学重点：创建数据库。教学难点：创建数据库。第二节数据仓库的查询教学重点：显示数据库，查看数据库详情，切换当前数据库。教学难点：切换当前数据库。第三节数据仓库的修改教学重点：修改数据库。教学难点：修改数据库第四节数据仓库的删除教学重点：删除数据库教学难点：删除数据库。第五节表的创建教学重点：管理表，外部表，管理表与外部表的互相转换。教学难点：管理表与外部表的互相转换。第六节分区表教学重点：分区表基本操作，二级分区表创建。教学难点：二级分区表创建。第七

26、节桶表教学重点：桶表创建。教学难点：桶表创建第八节表的修改教学重点：重命名表，增加和删除表分区，修改、增加和替换列教学难点：增加和删除表分区。第九节表的删除教学重点：表的删除教学难点：表的删除。第十节视图教学重点：视图。教学难点：视图。3 .主要实践内容（2学时）上机实验：Hive基本操作（2学时）第五章Hive数据操作（6学时）1 .教学目的与要求熟练掌握数据导入，数据导出2 .主要教学内容（2学时）第一节数据导入教学重点：Load加载数据，Insert插入数据,As Select加载数据，Location 加载数据，Import加载数据。教学难点：Location加载数据第二节数据导出教学

27、重点：Insert语句导出，Hadoop命令导出，Hive Shell命令导出，Export 语句导出。教学难点：Hadoop命令导出3 .主要实践内容（4学时）上机实验：Hive查询第六章HQL查询（8学时）1 .教学目的与要求熟练掌握Select基本查询，Where语句，分组语句；掌握Join语句，排序，抽样查询。2 .主要教学内容（4学时）第一节Select基本查询教学重点：全表和特定列查询，列的别名，Limit语句教学难点：Limit语句第二节Where语句教学重点：Like的使用，Rlike的使用。教学难点：Rlike的使用。第三节分组语句教学重点：Group By语句，Havin

28、g语句教学难点：Having语句。第四节Join语句教学重点：等值Join,表的别名，内连接，左外连接，右外连接，满外连接，左半连接，多表连接，笛卡尔积Join。教学难点：笛卡尔积Join第五节排序教学重点：Order By全局排序,列别名排序,多列排序，Sort By内部排序, Distribute By 分区排序,Cluster By 排序。教学难点：Cluster By排序第六节抽样查询教学重点：桶表抽样查询，数据块抽样查询，随机抽样查询。教学难点：数据块抽样查询。3 .主要实践内容（4学时）上机实验：Hive分组排序第七章Hive函数（6学时）1 .教学目的与要求熟练掌握系统内置函数

29、，自定义函数；掌握其他常用函数。2 .主要教学内容（2学时）第一节Hive内置函数教学重点：数值计算函数，聚合函数，日期时间函数，条件函数，字符串处理函数，内置函数查看命令。教学难点：条件函数第二节其他常用函数教学重点：空字段赋值NVL,列转行，窗口函数，排序函数。教学难点：窗口函数。第三节自定义函数教学重点：UDF函数，UDTF函数，UDAF函数。教学难点：UDAF函数。3 .主要实践内容（4学时）上机实验：Hive JDBC连接第八章Hive数据压缩（2学时）1 .教学目的与要求熟练掌握数据压缩模式,Hadoop压缩配置;掌握开启Map输出压缩，开启Reduce 输出压缩。2 .主要教学

30、内容（2学时）第一节数据压缩模式教学重点：数据压缩模式教学难点：数据压缩模式第二节Hadoop压缩配置教学重点：修改Hadoop集群具有Snappy压缩方式，MapReduce支持的压缩编码，压缩参数配置。教学难点：压缩参数配置。第三节Map输出压缩开启教学重点：开启Map输出压缩教学难点：开启Map输出压缩第四节Reduce输出压缩开启教学重点：开启Reduce输出压缩教学难点：开启Reduce输出压缩第九章Hive优化（2学时）1 .教学目的与要求熟练掌握Hive参数优化，数据倾斜，HQL优化。2 .主要教学内容（2学时）第一节Hive参数优化教学重点：本地模式，Fetch抓取，并行执行

31、，严格模式，推测执行，JVM重用。教学难点：并行执行。第二节数据倾斜教学重点：合理设置Map数目，合并小文件，复杂文件增加Map数目，合理设置Reduce数目。教学难点：复杂文件增加Map数目。第三节HQL优化教学重点：Group By优化，Count （Distinct）优化，小表、大表Join,大表Join 大表，Mapjoin,行列过滤优化，动态分区调整优化，执行计划优化。教学难点：动态分区调整优化。第十章综合案例1 （2学时）1 .教学目的与要求熟练掌握案例需求分析方法，建表，数据分析方法。2 .主要实践内容（2学时）上机实验：综合案例1第H一章综合案例2 （2学时）1 .教学目的与要求熟练掌握案例需求分析方法，建表，数据分析方法。2 .主要实践内容（2学时）上机实验：综合案例2

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: Hive数据仓库教学大纲、期末复习题 Hive 数据仓库教学大纲期末复习题

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：Hive数据仓库教学大纲、期末复习题.docx
链接地址：https://www.taowenge.com/p-72755709.html