Hive数据仓库教学大纲、期末复习题.docx





《Hive数据仓库教学大纲、期末复习题.docx》由会员分享,可在线阅读,更多相关《Hive数据仓库教学大纲、期末复习题.docx(23页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Hive数据仓库教学大纲(Data Warehouse )一、课程概况课程名称:数据仓库课程学时:40学时(理论总学时/实践总学时:20/20)二、课程目标Hive是基于Hadoop的一个数据仓库工具,通过Hive可以实现将结构化的 数据文件映射为一张数据库表,并提供简单的sql查询功能,同时将sql语句转 换为MapReduce任务进行运行,可以通过类SQL语句快速实现简单的MapReduce 统计。Hive的最佳使用场合是大数据集的批处理作业。Hive数据仓库是普通高校大数据相关专业的核心基础必修课程。主要教学内容包括Hive数据仓库基础、Hive环境搭建,Hive数据定义,Hive 数据
2、操作,HQL查询,Hive函数,Hive数据压缩,Hive优化和综合案例等。 三、教学内容及学时分配(一)教学内容与学时分配各章教学内容与学时分配表章次内容总课时理论课时实践课时*Hive数据仓库基础22Hive环境搭建422*Hive基础22四Hive数据定义422五Hive数据操作624六HQL查询844七Hive函数624八Hive数据压缩22九Hive优化22十综合案例122数据仓库复习题第一章概述1 .数据挖掘的定义?(书P2, PPT_P8)从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐 含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。2 .数据挖掘的源
3、是否必须是数据仓库的数据?可以有哪些来源?(PPT_P14)关系数据库、数据仓库、事务数据库、高级数据等3 .数据挖掘的常用方法? (P4、PPT_P29)聚类分析、决策树、人工神经网络、粗糙集、关联规则挖掘、统计 分析等4 .数据挖掘的过程包括哪些步骤,每一步具体包括哪些内容?(书P2-3, PPT_P17-19)确定业务对象、数据准备、数据挖掘、结果分析与知识同化。5.数据挖掘与数据仓库的关系(联系和区别)?书P6-7, PPT_P45-46联系:1,数据仓库为数据挖掘提供了更好的,更广泛的数据源2,数据仓库韦数据挖掘提供了新的支持平台。3,数据仓库为更好地使用数据挖掘工具提供了方便4,数
4、据挖掘对数据仓库提供了更好的决策支持。5,数据挖掘对数据仓库的数据组织提出了更高的要求6,数据挖掘还为数据仓库提供了广泛的技术支持区别:数据仓库是一种存储技术,它包含大量的历史数据、当前的 详细数据以及综合数据,它能为不同用户的不同决策需要提供所需的数 据和信息。数据挖掘是从人工智能机器学习中发展起来的,它研究各 种方法和技术,从大量的数据中挖掘出有用的信息和知识。第二章数据仓库1 .数据仓库的定义数据仓库一是一个面向主题的、集成的、随时间而变化的、不容 易丢失的数据集合,支持管理部门的决策定制过程。2 .数据仓库数据的四大基本特征:面向主题的、集成的、不可更新的、随时间变化的。3 .数据仓库
5、体系结构有三个独立的数据层次:信息获取层、信息存储层、信息传递层。4 .粒度的定义?它对数据仓库有什么影响?(1)是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多。(2)影响存放在数据仓库中的数据量大小;影响数据仓库所能回答 查询问题的细节程度。5 .在数据仓库中,数据按照粒度从小到大可分为四个级别:早期细节级、当前细节级、轻度细节级和高度细节级。6 .数据分割的标准:可按日期、地域、业务领域、或按多个分割标 准的组合,但一般包括日期项。7 .数据仓库设计中,一般存在着三级数据模型:概念数据模型、逻辑数据模型、物理数据模型8 .数
6、据仓库设计步骤(1)概念模型设计(2)技术准备工作(3)逻辑模型设计(4)物理模型设计(5)数据仓库的生成(6)数据仓库的使用和维护9 .数据装入时,并不是一次就将准备装入的数据全部装入数据仓库, 而是按照逻辑模型设计中所确定和分析的主题域,先装入并生成某一主 题域。10 .建立数据仓库的步骤并不是一成不变的,但最终应该满足用户的 分析需求。第三章联机分析处理技术1 .联机事务处理与联机分析处理的区别?联机事务处理(OLTP)作为数据管理手段,主要用于事务处理,但 它对分析处理一直不能令人满意。联机分析处理(OLAP)是决策支持系统的有机组成部分,利用存储 在数据仓库中的数据完成各种分析操作,
7、并以直观易懂的形式将分析结 果返回给决策分析人员。2.OLAP的主要特征快速性、可分析性、多维性、信息性。3 .钻取 Drill/Roll up,Drill down改变维的层次,变换分析的粒度。分向上钻取和向下钻取。向上钻取:在某一维上将低层次的细节数据概括到高层的汇总数据, 或者减少维数。向下钻取:从汇总数据深入到细节数据进行观察或增加新维。4 .ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。5 .0LAP根据其数据存储格式可分为三类:关系 OLAP(ROLAP)、多维 OLAP(MOLAP)和混合 OLAP(HOLAP)。6 .雪花型模式是对
8、星型模式维表的进一步层次化和规范化来消除冗 余的数据。7 .OLAP的衡量标准(1)透明性准则:OLAP在体系结构中的位置和数据源对用户是透明的。(2)动态的稀疏矩阵处理准则:对任意给定的稀疏矩阵,存在且仅存在一个最优的物理视图。(3)维的等同性准则:每一数据维在数据结构和操作能力上都是等同的。第四章数据预处理1 .数据预处理的方法数据清洗、数据集成、数据变换、数据规约等。2 .分箱方法统一权重、统一区间、最小燧、用户自定义区间。3 .数据平滑处理方法按平均值、按边界值、按中值4 .数据规范化定义?规范化的常用方法有哪些?(1)将数据按比例缩放,使之落入一个特定的区域,如0,1,称为 规范化/
9、标准化。(2)常用方法:最小-最大规范化、零-均值规范化、小数定标规范 化。5 .数据规约从大数据集中得到其规约表示小数据集规约的目的是减少原始数据量;可以在小数据集上得到与原始数据相同的挖掘结果。6 .下面是一个超市某种商品连续24个月的销售数据(百元):21 , 16, 19, 24, 27, 23, 22, 21, 20, 17, 16, 20, 23, 22,18, 24, 26, 25, 20, 26, 23, 21, 15, 17使用统一权重、统一区间和自定义区间方法对数据分箱,并对分箱 后的数据采用平均值、边界值或中值等方法进行平滑。解:15,16,16,17,17,18,19,
10、20,20,20,21,21,21,22,22,23,23,23,2,24,25,26,26,2 7统一权重:设权重为6,表示每箱6个记录,分四箱:箱 1: 15,16,16,17,17,18 箱 2: 19,20,20,20,21,21箱 3: 21,22,22,23,23,23 箱 4: 24,24,25,26,26,27边界:箱 1: 15,15,15,18,18,18 箱 2: 19,19,19,21,21,21箱 3: 21,21,21,23,23,23 箱 4: 24,24,24,27,27,27统一区间:每个箱子宽度为(27-15)/4=3,区间15,18)、18,21)、24,
11、27):箱 1: 15,16,16,17,17 箱 2: 18,19,20,20,20箱 3: 21,21,21,22,22,23,23,23 箱 4: 24,24,25,26,26,27中值:1: 16,16,16,16,16 箱 2: 20,20,20,20,20箱 3: 22,22,22,22,22,22,22,22 箱 4: 25.5, 25.5, 25.5, 25.5, 25.5, 25.5第五章关联规则方法1 .关联规则挖掘的任务?找到事务数据库D中支持度和置信度分别满足用户指定的最小支持 度min_sup和最小置信度min_con的规则。2 .关联规则挖掘问题分哪两个步骤?(1)
12、找出D中所有的频繁项集;(2)从频繁项集中产生关联规则。3 .Apriori 性质:频繁项集的所有非空子集也都必须是频繁的;这是频繁项集的先验知识;可以减少候选频繁项集的数量。4 .负边界:负边界中的项集是非频繁的,但每个项集的所有子集都是频繁的。053755 .数据库如下图所示,如果设定最小支持度s=40%,置信度c=70%, 计算该数据库中的频繁TID项目列表T111, 13, 14T212, 13, 15T311, 12, 13, 15T412, 15候选1- 项集计数S (%)频繁1-项集L1250向但375恒伯3750412505375i5候选2-项集计数s(%)频繁2-项集L2il
13、, i2125:il, i3250il, i3il, i5125i2, i3250i2, 13(375i2 i5i3, i5250i3, i5候选3项集1数.S,%频繁3-i!集L3i2, i3. i5250i2, i3, i频繁项集:L1, L2, L3,即、i2、i3、i5、i1, i3、i2, i3、i2, i5、i, i5、i2, i3, i5。负边界:i1, i2, i1, i5o频繁项集产生的规则置信度强规则il, i3ili3113i3 -il羽i2, i3i2f3羽i3f 2羽i2, i5i2-i5羽i2i5i5i2羽i5f 2i3, i5i3f 5羽15-13羽i2, i3,
14、 i5i2J3-*i52/2i2/3f i5i2,i5-i3羽i3J5-*i2i3/5i 2第六章决策树方法1.决策树的基本概念:适用于离散值属性、连续值属性;采用自项向下的规约方法产生一 个类似于流程图的树结构;在根节点和各内部节点上选择合适的描述属 性,并且根据该属性的不同取值向下建立分枝。2 .决策树的优点进行分类器设计时,决策树分类方法所需时间相对较少;决策树的 分类模型是树型结构,简单直观,比较符合人类的理解方式;可以讲决 策树中到达每个叶节点的路径转换为IFTHEN形式的分类规则,这种 形式更有利于理解。3.决策树剪枝决策树剪枝过程试图检测和去掉多余的分枝,以提高对未知类标号 的数
15、据进行分类时的准确性。第八章人工神经网络方法1 .神经网络直所以能胜任一些复杂的工作,是因为它有学习的能力。2 .具有较好的泛华能力是神经网络设计的评价指标之一。3 .BP神经网络的拓扑结构分为多个层次:输入层、隐含层、输出层。4 .神经网络进行学习实际上就是学习其连接的权值。5 .BP神经网络学习过程由信号的正向传播与误差的反响传播两个 过程组成。6 .在线训练:每处理一个训练实例,就更新一次权重。7 .离线训练:把所有训练实例都处理一遍之后,再更新权重。8 .利用梯度下降法更新权重易于陷入局部极小值,从而无法得到最 优解。9 .BP神经网络的优点和缺点I-综合案例222(二)教学内容纲要第
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hive数据仓库 教学大纲、期末复习题 Hive 数据仓库 教学大纲 期末 复习题

限制150内