上海海洋大学数据仓库复习资料内容.doc
!-数据仓库与数据挖掘复习内容第一章 4.说明OLTP概念和OLAO概念答:OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。 OLAP(On Line Analytical Processing)联机分析处理,是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。 6.说明OLTP与OLAP的主要区别。 答:OLTP针对的是细节性数据、当前数据、经常更新、一次性处理的数据量小、对响应时间要求高且面向应用,事务驱动;OLAP针对的是综合性数据、历史数据、不更新,但周期性刷新、一次处理的数据量大、响应时间合理且面向分析,分析驱动。 9.元数据与数据字典的关系什么 答:在数据仓库中引入了“元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身信息的数据。 15数据挖掘与OLAP有什么不同答:OLAP是在带层次的维度和跨维度进行多维数据分析的。数据挖掘则不同,它是以变量和记录为基础进行分析的。 第二章3.说明数据集市与数据仓库的区别与联系。 答:联系:数据集市是一种更小,更集中的数据仓库,为公司提供了一条分析商业数据的廉价途径。数据集市是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用支持用户利用已有的数据获得重要的竞争优势或者找到进入新市场的具体解决方案。 区别:(1)数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题。而数据集市是按照某一 特定部门的数据模型建立的。(2)部门的主题与企业的主题之间可能存在关联,也可能不存在关联。(3)数据集市的数据组织一般采用星型模型。 (4)画出数据集市的两种结构图,说明它们的不同点.独立型数据集市直接从操作型环境获取数据,从属型数据集市从企业级数据仓库获取数据,带有从属型数据集市的体系结构。 17.简单说明ETL过程的主要步骤.ETL过程的主要步骤概括为:(1)决定数据仓库中需要的所有的目标数据(2)决定所有的数据源,包括内部和外部的数据源(3)准备从源数据到目标数据的数据映射关系(4)建立全面的数据抽取规则(5)决定数据转换和清洗规则(6)为综合表制定计划(7)组织数据缓冲区域和检测工具(8)为所有的数据装载编写规程(9)维度表的抽取、转换和装载(10)事实表的抽取、转换和装载 22.说明数据库中的元数据以及数据仓库中元数据的不同。答:关于数据源的元数据是现有业务系统的数据源的描述信息,是对不同平台上的数据源的物理结构和含义的描述。具体为:(1)数据源中所有物理数据结构,包括所有的数据项及数据类型。(2)所有数据项的业务定义。(3)每个数据项更新的频率以及由谁或哪个过程更改过。(4)每个数据项的有效值。(5)其他系统中具有相同业务含义的数据项的清单。 p24 数据仓库的四种数据模型。答:星形模型。大多数数据仓库都采用星型模型,是事实表(大表)以及多个维表(小表)所组成。事实表存放着大量关于企业事实数据(数字实际值),对象(元组)个数通常都很大,而且非规范化程度很高。事实表有大量的行(元组),维表相对来说有较少的行。优点:存取速度快,主要针对各个维做了大量处理,做报表时速度很快。与规范化关系数据库相比,以增加存储空间为代价,提高了多维数据的查询速度,而规范化的关系数据库设计是使数据的冗余保持在最少并减少当数据改变时系统必须执行的动作。缺点:当业务问题发生变化,原来的维不能满足要求时需要增加新的维,维的变化非常复杂耗时,数据冗余量很大。雪花模型。对星型模型的维表进一步的层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域,优点是最大限度地减少数据存储量,以及把较小的维表联合在一起来改善查询信息。缺点:增加了用户必须处理的表的数量,增加了某些查询的复杂性。星网模型。多个相关的星型模型通过相同的维表连接起来形成网状结构,各个事实共享的维表是时间维。第三范式。3NF解决数据冗余,数据被分割为多个实体,实体在数据库中用表来表示,使用3NF会形成比较复杂的关系表,但适合于操作型处理。星型模型的设计模式适用于决策分析应用。第三章3.2节OLAP的三种数据模型及其比较;答:MOLAP数据模型:MOLAP数据模型是基于多维数据库的OLAP,简称多维OLAP;ROLAP数据模型:ROLAP是基于关系数据库的OLAP,简称关系OLAP。HOLAP,即混合OLAP介于MOLAP和ROLAP之间。在HOLAP的多维数据库中的数据维度少于MOLAP中的维度库,数据储存容量也少于MOLAP方式。但是,HOLAP在数据存取速度上又低于MOLAP。第四章数据仓库概念模型将需求分析过程中得到的用户抽象为计算机表示的信息结构。它是从客观世界(用户)到计算机世界的一个中间层次,即用户需求的数据模型。常用E-R图特点:1、 能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。2、 易于理解,有利于和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。3、 易于更改,当用户需求发生变化时,容易对概念模型进行修改和扩充。4、 易于向数据仓库的数据模型(星型模型)转换。逻辑模型设计把概念模型设计好的E-R图转换成计算机所支持的数据模型。主要工作为:1、 主要域进行概念模型(E-R图)到逻辑模型(星型模型)的转换;2、 颗粒层次划分;3、 关系模式定义;4、 定义记录系统;物理模型设计为了逻辑模型设计的数据模型确定一个最合适应用要求的物理结构(包括存储结构和存取方法)。数据存储的数据模型。工作主要是:1、 估计存储容量;2、 确定数据的存储结构;3、 确定索引;4、 确定数据存放位置;5、 确定存储分配;时间维度概念:以时间作为描述、表达变量的度量尺度。是在分析经济变量时加上时间要素的角度而形成的。对于经济变量的考察,凡能用时间单位来表达的,就必须在分析中加上时间这一维度,才能使经济变量准确的表达出来。可以用来表示经济变量中存量和流量的区别。存量是在某一时点测定的,其大小没有时间维度,而流量则必须用时间单位宋表示(年、月、日,小时、分、秒等),即时间维度。不说明时间单位,流量的计量便没有意义。数据粒度概念:数据仓库的数据中保存数据的细化程度或综合程度的级别。细化程度越高,粒度级别就越小;相反,细化程度越低,粒度级别就越高。影响存放在数据库中的数据量大小和所能回答的查询类型。注意雪花模型和综合事实表的区别!(8990、4.11和4.12)雪花模型:减少各维度的记录数,使查询过程中搜索记录数目减少。综合事实表:是由基础事实表衍生出来的。特别地看一下上次做过的数据仓库的实验及其实验文档,涉及到实验的具体步骤和内容.第八章数据挖掘,看关联规则数据挖掘的算法思想, 分析课本上P177的例子,要看它的分析步骤和处理办法,特别是如何画对应的图8.4; 【1】 基本概念:关联规则挖掘是发现大量数据库中项集之间的关联关系。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。原理:(1) 关联规则是形如AB的蕴涵式,这里AcI,BcI,且AB。(2) 规则的支持度:规则AB在数据库D中具有支持度S,表示S是D中事务同时包含AB的百分比,它是概率P(AB),即:S(AB)=P(AB)=|AB|/|A|,其中|D|表示事务数据库D的个数,|AB|表示A、B两个项集同时发生的事务个数。(3) 规则的可信度,规则AB具有可信度C,表示C是包含A项集的同时也包含B项集,相对于包含A项集的百分比,这是条件概率P(B|A),即C(AB)=P(B|A)=|AB|/|A|,A表示数据库中包含项集A的事务个数。(4) 阈值:为了在事务数据库中找出有用的关联规则,需要由用户确定两个阈值:最小支持度(min_sup)和最小可信度(min_conf).(5) 项的集合称为项集,包含k个项的项集称之为K-项集。若项集满足最小支持度,则它称为频繁项集。(6) 关联规则:同时满足最小支持度和最小可信度的规则称为关联规则,即S(AB)min_sup,且C(AB)min_conf成立时,规则AB称为关联规则,也可以称为强关联规则。(7) 兴趣度(不小于0):I(AB)=P(AB)/P(A)P(B),反映了项集A与项集B的相关程度,若I(AB)=1,即P(AB)=P(A)P(B),表示项集A出现和项集是相互独立的。若I(AB)1,表示A出现和B出现是负相关。若I(AB)1,表示A出现和B出现是正相关,意味着A的出现蕴含B出现。算法基本思想:找到所有支持度大于最小支持度的项集,这些项集称为频繁项集。使用一种称作逐层搜索的迭代方法,“K-项集”用于搜索“K+1-”项集,直到不能找到“K-项集”为止,找每个LK需要一次数据库扫描。性质:频繁项集的所有非空子集都必须也是频繁的。 设K-项集LK,K+1-项集LK=1,产生LK=1的候选集CK+1.有公式:Ck+1=LK*LK=XY,其中X,YLK,|XY|=K+1,其中C1是1-项集的集合,取自所有事务中的单项元素。如L1=A,B,C2=AB=A,B,且|AB|=2,L2=A,B,A,C,C3=A,BA,C=A,B,C,且|ABC|=3.【2】 Apriori算法中候选集与频繁项集产生实例对表8.6所示的事物数据库,Apriori算法步骤如下:表8.61、 在算法的第一次迭代,每个项都是候选1-项集的集合C1的成员。算法扫描所有的事务,对每个项的出现次数计数,图8.4中第一列。2、 假定最小事务支持计数为2(即min-sup=2/9=22%)。可以确定频繁1-项集的集合L1.它由具有最小支持度的候选1-项集组成,见图8.4第二列。3、 为发现频繁2-项集的集合L2,算法使用L1*L1,来产生候选集C2,见图第3列。4、 扫描D中事务,计算C2中每个候选集的支持度计数,如图8.4第4列。5、 确定频繁2-项集的集合L2,它由具有最小支持度的C2中候选2-项集组成,见图第5列。6、 候选3-项集C3产生,仍按3步骤进行。得到候选集。C3=A,B,C,A,B,E,A,C,E,B,C,D,B,C,E,B,D,E按Apriori性质,频繁项集的所有子集必须是频繁的。由于A,D,C,D.C,E,D,E不是频繁项集,故C3后4个候选不可能是频繁的,在C3中删除它们,见图第6列。 扫描D中事务,对C3中的候选集计数支持度计数,图第7列。7、 确定L3,它由具有最小支持度的C3中候选3-项集组成,见图第8列。8、 按公式产生候选4-项集的集合C4,产生结果A,B,C,E,这个项集被剪去,因为它的子集B,C,E不是频繁的。这样L4,此算法终止。L3是最大的频繁项集,即A,B,C和A,B,E.图8.4 候选集与频繁项集的产生【3】课本P184习题八: 18, 25题(Apriori性质)18、数据库有4个事务,设最小支持度为50%。使用Apriori、算法找出所有数据频繁项目集。 25、集合论原理用于关联规则挖掘的思想是什么。 关联规则是形如XB的蕴涵式,其中,X、Y分别为关联规则的先导或后继。集合论原理用于关联规则挖掘时,是计算数据项集在整个集合众和相关集合中所占的比例,大于阈值时构成数据项之间的关联规则。
收藏
- 资源描述:
-
!-
数据仓库与数据挖掘复习内容
第一章
4.说明OLTP概念和OLAO概念
答:OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。
OLAP(On Line Analytical Processing)联机分析处理,是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。
6.说明OLTP与OLAP的主要区别。
答:OLTP针对的是细节性数据、当前数据、经常更新、一次性处理的数据量小、对响应时间要求高且面向应用,事务驱动;OLAP针对的是综合性数据、历史数据、不更新,但周期性刷新、一次处理的数据量大、响应时间合理且面向分析,分析驱动。
9.元数据与数据字典的关系什么
答:在数据仓库中引入了“元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身信息的数据。
15.数据挖掘与OLAP有什么不同
答:OLAP是在带层次的维度和跨维度进行多维数据分析的。数据挖掘则不同,它是以变量和记录为基础进行分析的。
第二章
3.说明数据集市与数据仓库的区别与联系。
答:联系:数据集市是一种更小,更集中的数据仓库,为公司提供了一条分析商业数据的廉价途径。数据集市是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用支持用户利用已有的数据获得重要的竞争优势或者找到进入新市场的具体解决方案。
区别:
(1)数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题。而数据集市是按照某一 特定部门的数据模型建立的。
(2)部门的主题与企业的主题之间可能存在关联,也可能不存在关联。
(3)数据集市的数据组织一般采用星型模型。
(4)画出数据集市的两种结构图,说明它们的不同点.
独立型数据集市直接从操作型环境获取数据,从属型数据集市从企业级数据仓库获取数据,带有从属型数据集市的体系结构。
17.简单说明ETL过程的主要步骤.
ETL过程的主要步骤概括为:
(1)决定数据仓库中需要的所有的目标数据
(2)决定所有的数据源,包括内部和外部的数据源
(3)准备从源数据到目标数据的数据映射关系
(4)建立全面的数据抽取规则
(5)决定数据转换和清洗规则
(6)为综合表制定计划
(7)组织数据缓冲区域和检测工具
(8)为所有的数据装载编写规程
(9)维度表的抽取、转换和装载
(10)事实表的抽取、转换和装载
22.说明数据库中的元数据以及数据仓库中元数据的不同。
答:关于数据源的元数据是现有业务系统的数据源的描述信息,是对不同平台上的数据源的物理结构和含义的描述。具体为:
(1)数据源中所有物理数据结构,包括所有的数据项及数据类型。
(2)所有数据项的业务定义。
(3)每个数据项更新的频率以及由谁或哪个过程更改过。
(4)每个数据项的有效值。
(5)其他系统中具有相同业务含义的数据项的清单。
p24 数据仓库的四种数据模型。
答:星形模型。大多数数据仓库都采用星型模型,是事实表(大表)以及多个维表(小表)所组成。事实表存放着大量关于企业事实数据(数字实际值),对象(元组)个数通常都很大,而且非规范化程度很高。事实表有大量的行(元组),维表相对来说有较少的行。
优点:存取速度快,主要针对各个维做了大量处理,做报表时速度很快。与规范化关系数据库相比,以增加存储空间为代价,提高了多维数据的查询速度,而规范化的关系数据库设计是使数据的冗余保持在最少并减少当数据改变时系统必须执行的动作。
缺点:当业务问题发生变化,原来的维不能满足要求时需要增加新的维,维的变化非常复杂耗时,数据冗余量很大。
雪花模型。对星型模型的维表进一步的层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域,优点是最大限度地减少数据存储量,以及把较小的维表联合在一起来改善查询信息。缺点:增加了用户必须处理的表的数量,增加了某些查询的复杂性。
星网模型。多个相关的星型模型通过相同的维表连接起来形成网状结构,各个事实共享的维表是时间维。
第三范式。3NF解决数据冗余,数据被分割为多个实体,实体在数据库中用表来表示,使用3NF会形成比较复杂的关系表,但适合于操作型处理。
星型模型的设计模式适用于决策分析应用。
第三章
3.2节OLAP的三种数据模型及其比较;
答:MOLAP数据模型:MOLAP数据模型是基于多维数据库的OLAP,简称多维OLAP;
ROLAP数据模型:ROLAP是基于关系数据库的OLAP,简称关系OLAP。
HOLAP,即混合OLAP介于MOLAP和ROLAP之间。
在HOLAP的多维数据库中的数据维度少于MOLAP中的维度库,数据储存容量也少于MOLAP方式。但是,HOLAP在数据存取速度上又低于MOLAP。
第四章
数据仓库概念模型
将需求分析过程中得到的用户抽象为计算机表示的信息结构。它是从客观世界(用户)到计算机世界的一个中间层次,即用户需求的数据模型。常用E-R图
特点:
1、 能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。
2、 易于理解,有利于和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。
3、 易于更改,当用户需求发生变化时,容易对概念模型进行修改和扩充。
4、 易于向数据仓库的数据模型(星型模型)转换。
逻辑模型设计
把概念模型设计好的E-R图转换成计算机所支持的数据模型。
主要工作为:
1、 主要域进行概念模型(E-R图)到逻辑模型(星型模型)的转换;
2、 颗粒层次划分;
3、 关系模式定义;
4、 定义记录系统;
物理模型设计
为了逻辑模型设计的数据模型确定一个最合适应用要求的物理结构(包括存储结构和存取方法)。数据存储的数据模型。
工作主要是:
1、 估计存储容量;
2、 确定数据的存储结构;
3、 确定索引;
4、 确定数据存放位置;
5、 确定存储分配;
时间维度概念:以时间作为描述、表达变量的度量尺度。是在分析经济变量时加上时间要素的角度而形成的。对于经济变量的考察,凡能用时间单位来表达的,就必须在分析中加上时间这一维度,才能使经济变量准确的表达出来。可以用来表示经济变量中存量和流量的区别。存量是在某一时点测定的,其大小没有时间维度,而流量则必须用时间单位宋表示(年、月、日,小时、分、秒等),即时间维度。不说明时间单位,流量的计量便没有意义。
数据粒度概念:数据仓库的数据中保存数据的细化程度或综合程度的级别。细化程度越高,粒度级别就越小;相反,细化程度越低,粒度级别就越高。影响存放在数据库中的数据量大小和所能回答的查询类型。
注意雪花模型和综合事实表的区别!!!(89~90、4.11和4.12)
雪花模型:减少各维度的记录数,使查询过程中搜索记录数目减少。
综合事实表:是由基础事实表衍生出来的。
特别地看一下上次做过的数据仓库的实验及其实验文档,涉及到实验的具体步骤和内容.
第八章
数据挖掘,看关联规则数据挖掘的算法思想, 分析课本上P177的例子,要看它的分析步骤和处理办法,特别是如何画对应的图8.4;
【1】 基本概念:
关联规则挖掘是发现大量数据库中项集之间的关联关系。
关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。
原理:
(1) 关联规则是形如A→B的蕴涵式,这里AcI,BcI,且A∩B≠∅。
(2) 规则的支持度:规则A→B在数据库D中具有支持度S,表示S是D中事务同时包含AB的百分比,它是概率P(AB),即:S(A→B)=P(AB)=|AB|/|A|,其中|D|表示事务数据库D的个数,|AB|表示A、B两个项集同时发生的事务个数。
(3) 规则的可信度,规则A→B具有可信度C,表示C是包含A项集的同时也包含B项集,相对于包含A项集的百分比,这是条件概率P(B|A),即C(A→B)=P(B|A)=|AB|/|A|,A表示数据库中包含项集A的事务个数。
(4) 阈值:为了在事务数据库中找出有用的关联规则,需要由用户确定两个阈值:最小支持度(min_sup)和最小可信度(min_conf).
(5) 项的集合称为项集,包含k个项的项集称之为K-项集。若项集满足最小支持度,则它称为频繁项集。
(6) 关联规则:同时满足最小支持度和最小可信度的规则称为关联规则,即S(A→B)>min_sup,且C(A→B)>min_conf成立时,规则A→B称为关联规则,也可以称为强关联规则。
(7) 兴趣度(不小于0):I(A→B)=P(AB)/P(A)P(B),反映了项集A与项集B的相关程度,若I(A→B)=1,即P(AB)=P(A)P(B),表示项集A出现和项集是相互独立的。若I(A→B)<1,表示A出现和B出现是负相关。若I(A→B)>1,表示A出现和B出现是正相关,意味着A的出现蕴含B出现。
算法基本思想:找到所有支持度大于最小支持度的项集,这些项集称为频繁项集。使用一种称作逐层搜索的迭代方法,“K-项集”用于搜索“K+1-”项集,直到不能找到“K-项集”为止,找每个LK需要一次数据库扫描。
性质:频繁项集的所有非空子集都必须也是频繁的。
设K-项集LK,K+1-项集LK=1,产生LK=1的候选集CK+1.有公式:
Ck+1=LK*LK={X∪Y,其中X,Y∈LK,|XY|=K+1},其中C1是1-项集的集合,取自所有事务中的单项元素。如L1={{A},{B}},C2={{A}∪{B}={A,B},且|AB|=2,L2={{A,B},{A,C},C3={A,B}∪{A,C}={A,B,C},且|ABC|=3.
【2】 Apriori算法中候选集与频繁项集产生实例
对表8.6所示的事物数据库,Apriori算法步骤如下:
表8.6
1、 在算法的第一次迭代,每个项都是候选1-项集的集合C1的成员。算法扫描所有的事务,对每个项的出现次数计数,图8.4中第一列。
2、 假定最小事务支持计数为2(即min-sup=2/9=22%)。可以确定频繁1-项集的集合L1.它由具有最小支持度的候选1-项集组成,见图8.4第二列。
3、 为发现频繁2-项集的集合L2,算法使用L1*L1,来产生候选集C2,见图第3列。
4、 扫描D中事务,计算C2中每个候选集的支持度计数,如图8.4第4列。
5、 确定频繁2-项集的集合L2,它由具有最小支持度的C2中候选2-项集组成,见图第5列。
6、 候选3-项集C3产生,仍按3步骤进行。得到候选集。
C3={{A,B,C},{A,B,E},{A,C,E},{B,C,D},{B,C,E},{B,D,E}}
按Apriori性质,频繁项集的所有子集必须是频繁的。由于{A,D},{C,D}.{C,E},{D,E}不是频繁项集,故C3后4个候选不可能是频繁的,在C3中删除它们,见图第6列。
扫描D中事务,对C3中的候选集计数支持度计数,图第7列。
7、 确定L3,它由具有最小支持度的C3中候选3-项集组成,见图第8列。
8、 按公式产生候选4-项集的集合C4,产生结果{A,B,C,E},这个项集被剪去,因为它的子集{B,C,E}不是频繁的。这样L4≠∅,此算法终止。L3是最大的频繁项集,即{A,B,C}和{A,B,E}.
图8.4 候选集与频繁项集的产生
【3】
课本P184习题八: 18, 25题(Apriori性质)
18、数据库有4个事务,设最小支持度为50%。使用Apriori、算法找出所有数据频繁项目集。
25、集合论原理用于关联规则挖掘的思想是什么。
关联规则是形如X→B的蕴涵式,其中,X、Y分别为关联规则的先导或后继。集合论原理用于关联规则挖掘时,是计算数据项集在整个集合众和相关集合中所占的比例,大于阈值时构成数据项之间的关联规则。
展开阅读全文