数据仓库技术与联机分析处理 Data Warehouse & OLAP.ppt
《数据仓库技术与联机分析处理 Data Warehouse & OLAP.ppt》由会员分享,可在线阅读,更多相关《数据仓库技术与联机分析处理 Data Warehouse & OLAP.ppt(143页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二讲数据仓库技术与联机分析处理,Data Warehousing & OLAP,本章主要内容,1.多数据源问题2.数据预处理问题3.数据仓库的定义及其理解数据的粒度数据的分割数据组织形式数据追加4.数据仓库的模型概念/逻辑/物理模型5.联机分析技术(OLAP)6.数据库的设计与开发,1.多数据源问题,数据不一致:一处变了而另一处没变数据属性差异:男女(0,1)(T,F)数据重复:冗余数据不完整:存在空值噪声数据:偏差或误差高维数据:数据的多属性模式不统一:集成为单一数据集的2个或多个数据源模式不同。数据不平衡:某一类样本的数量明显少于其他类型样本的数量,数据质量的多维度量,多维度量观点:精确
2、度完整度一致性可信度附加价值可访问性跟数据本身的含义相关的内在的、上下文的、表象的,2.数据预处理,数据清理填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性数据集成集成多个数据库、数据立方体或文件数据变换规范化和聚集数据归约得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果数据离散化数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要,数据预处理的形式,数据规约,数据集成,数据清洗,数据变换,-2, 32, 100, 59, 48-0.02, 0.32,1.00, 0.59, 0.48,数据清理空缺值,数据并不总是完整的例如:数据库表中,很多条记录的对
3、应字段没有相应值,比如销售表中的顾客收入引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时,有些数据应为得不到重视而没有被输入对数据的改变没有进行日志记载空缺值要经过推断而补上,如何处理空缺值,忽略元组:当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。人工填写空缺值:工作量大,可行性低使用一个全局变量填充空缺值:比如使用unknown或-使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值(如项目经理的平均工资150,000.)使用最可能的值填充空缺值:使用像Bayesian公式或判定
4、树这样的基于推断的方法,数据清理噪声数据,噪声:一个测量变量中的随机错误或偏差引起不正确属性值的原因数据收集工具的问题数据输入错误数据传输错误技术限制命名规则的不一致其它需要数据清理的数据问题重复记录不完整的数据不一致的数据,如何处理噪声数据,分箱(binning):首先排序数据,并将他们分到等深的箱中然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等聚类:监测并且去除孤立点计算机和人工检查结合计算机检测可疑数据,然后对它们进行人工判断回归通过让数据适应回归函数来平滑数据,数据平滑的分箱方法,通过考察“邻居”(周围的值)来平滑存储数据的值,用“箱的深度”表示不同的箱里有相同个数的数据,
5、用“箱的宽度”来表示每个箱值的取值区间。由于分箱方法考虑相邻的值,因此是一种局部平滑方法。分箱的主要目的是去噪,将连续数据离散化,增加粒度。,数据平滑的分箱方法,price 的排序后数据(美元): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34划分为(等深的)箱:-箱1: 4, 8, 9, 15-箱2: 21, 21, 24, 25-箱3: 26, 28, 29, 34用箱平均值平滑:-箱1: 9, 9, 9, 9-箱2: 23, 23, 23, 23-箱3: 29, 29, 29, 29用箱边界值平滑:-箱1: 4, 4, 4, 15-箱2: 21,
6、21, 25, 25-箱3: 26, 26, 26, 34,边界值平滑时,先确定两个边界,然后依次计算除边界值外的其它值与两个边界的距离,与之距离最小的边界确定为平滑边界值。具体如下计算:-箱1: 8-44;15-87;故选4做为平滑边界值。 9-45;15-96;故选4做为平滑边界值。-箱2: 21-210;25-214;故选21做为平滑边界值。 24-213;25-241;故选25做为平滑边界值。-箱3: 28-262;34-286;故选26做为平滑边界值。 29-263;34-295;故选26做为平滑边界值。,聚类,通过聚类分析查找孤立点(落在聚类集合之外的值),消除噪声,回归,x,y,
7、y = x + 1,X1,Y1,Y1,线性回归(二元关系)多元回归(多变量),数据预处理,为什么要预处理数据?数据清理数据集成数据变换数据归约数据离散化,数据集成,数据集成:将多个数据源中的数据整合到一个一致的存储中模式集成:整合不同数据源中的元数据实体识别问题:匹配来自不同数据源的现实世界的实体,比如:A.cust-id=B.customer_no检测并解决数据值的冲突对现实世界中的同一实体,来自不同数据源的属性值可能是不同的可能的原因:不同的数据表示,不同的度量等等,处理数据集成中的冗余数据,集成多个数据库时,经常会出现冗余数据同一属性在不同的数据库中会有不同的字段名一个属性可以由另外一个
8、表导出,如“年薪”有些冗余可以被相关分析检测到,重复应当在元组级检测。它是指同一数据,存在两个或多个相同的元组。数据值冲突的检测与处理。 对于现实世界的同一实体,来自不同数据源的属性值可能不同。如表示、比例或编码的不同。仔细将多个数据源中的数据集成起来,能够减少或避免结果数据中的冗余与不一致性,从而可以提高挖掘的速度和质量。,数据预处理,为什么要预处理数据?数据清理数据集成数据变换数据归约数据离散化,数据变换,平滑:去除数据中的噪声 (分箱、聚类、回归)聚集:汇总,数据立方体的构建数据泛化:沿概念分层向上汇总,用高层次概念替换低层次“原始”数据。规范化:将数据按比例缩放,使之落入一个小的特定区
9、间最小最大规范化Z-score规范化小数定标规范化属性构造通过现有属性构造新的属性,并添加到属性集中;以增加对高维数据的结构的理解和精确度(height,width)area,数据变换规范化,最小最大规范化z-score规范化:属性A的值基于A的平均值和标准差.小数定标规范化(移动小数点位置),其中,j是使 Max(| |)1的最小整数,数据预处理,为什么要预处理数据?数据清理数据集成数据变换数据归约数据离散化,数据归约策略,数据仓库中往往存有海量数据,在其上进行复杂的数据分析与挖掘需要很长的时间数据归约数据归约可以用来得到数据集的归约表示,它小得多,但可以产生相同的(或几乎相同的)分析结果数
10、据归约策略数据立方体聚集维归约数据压缩数值归约离散化和概念分层产生用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间。,数据立方体聚集,最底层的方体对应于基本方体基本方体对应于感兴趣的实体在数据立方体中存在着不同级别的汇总数据立方体可以看成方体的格每个较高层次的抽象将进一步减少结果数据数据立方体提供了对预计算的汇总数据的快速访问使用与给定任务相关的最小方体在可能的情况下,对于汇总数据的查询应当使用数据立方体,维归约,通过删除不相干的属性或维减少数据量属性子集选择找出最小属性集,使得数据类的概率分布尽可能的接近使用所有属性的原分布减少出现在发现模式上的属性的数目,使得模式更易于
11、理解启发式的(探索性的)方法逐步向前选择逐步向后删除向前选择和向后删除相结合判定归纳树,启发式的(探索性的)方法,逐步向前选择:由空属性集开始,选择原属性集中最好的属性,并将它添加到该集合中。其后每次迭代,将原属性集剩下的属性中的最好的属性添加到该集合中。逐步向后删除:整个属性集开始,每次删除最坏的。向前选择和向后删除相结合:每步选择一个最好的属性,并在剩余属性中删除一个最坏的属性。判定归纳树:(每个节点表示一个属性上的测试,每个分枝对应于测试的一个输出;每个叶子节点表示一个判定类。,数据压缩,有损压缩 VS. 无损压缩前者能由压缩数据重新构造原始数据而不丢失任何信息;后者只能构造原始数据的近
12、似值。字符串压缩有广泛的理论基础和精妙的算法通常是无损压缩在解压缩前对字符串的操作非常有限音频/视频压缩通常是有损压缩,压缩精度可以递进选择有时可以在不解压整体数据的情况下,重构某个片断两种有损数据压缩的方法:小波变换和主要成分分析,数值归约,通过选择替代的、较小的数据表示形式来减少数据量有参方法:使用一个参数模型估计数据,最后只要存储参数即可。线性回归方法:Y=+X多元回归:线性回归的扩充对数线性模型:近似离散的多维数据概率分布无参方法:直方图聚类选样,直方图,一种流行的数据归约技术将某属性的数据划分为不相交的子集,或桶,桶中放置该值的出现频率桶和属性值的划分规则等宽:桶的宽度区间是常数等深
13、:桶的频率粗略地为常数V-最优:具有最小方差的直方图,等宽:桶的宽度区间是常数等深:桶的频率粗略地为常数(每个桶包含大致相同个数的临近数据样本)V-最优:具有最小方差的直方图(直方图的方差是每个桶代表的原数据的加权和,其中权等于桶加值的个数。MaxDiff:考虑每对相邻值之间的差.,聚类,将数据集划分为聚类,然后通过聚类来表示数据集如果数据可以组成各种不同的聚类,则该技术非常有效,反之如果数据界线模糊,则方法无效数据可以分层聚类,并被存储在多层索引树中聚类的定义和算法都有很多选择,聚类与分类的区别,分类(classification):找出描述并区分数据类或概念的模型,以便使用该模型预测类标记
14、未知的对象类。从历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。分类的目的是学会一个分类函数或分类模型(即分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。聚类(clustering):是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组(簇),并且对每一个这样的簇进行描述的过程。它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似。是研究如何在没有训练的条件下把样本划分为若干类。 (无监督学习),进行聚类前并不知道将要划分成几个簇和什么样的簇,也不知道根据哪些空间区分规则来定义簇。,选样,允许用数据的较小随机样本(子
15、集)表示大的数据集对数据集D的样本选择:简单随机选择n个样本,不回放:由D的N个元组中抽取n个样本简单随机选择n个样本,回放:过程同上,只是元组被抽取后,将被回放,可能再次被抽取聚类选样:D中元组被分入M个互不相交的聚类中,可在其中的m个聚类上进行简单随机选择(mM)分层选样:D被划分为互不相交的“层”,则可通过对每一层的简单随机选样得到D的分层选样,数据预处理,为什么要预处理数据?数据清理数据集成数据变换数据归约数据离散化,离散化,三种类型的属性值:名称型e.g. 无序集合中的值(如颜色, 民族.)序数e.g. 有序集合中的值 (如职称)连续值e.g. 实数离散化将连续属性的范围划分为区间有
16、效的规约数据基于判定树的分类挖掘离散化的数值用于进一步分析,离散化和概念分层,离散化通过将属性域划分为区间,减少给定连续属性值的个数。区间的标号可以代替实际的数据值。概念分层通过使用高层的概念(比如:青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据,数据数值的离散化和概念分层生成,分箱(binning)例如,通过数据分布到箱中,并且箱中的平均值或中值替换箱中的每个值,可以将属性值离散化。直方图分析(histogram)直方图分析方法递归的应用于每一部分,可以自动产生多级概念分层。聚类分析将数据划分成簇,每个簇形成同一个概念层上的一个节点,每个簇可再分成多个子簇,形成子节
17、点。基于熵的离散化通过自然划分分段,通过自然划分分段,将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。聚类分析产生概念分层可能会将一个工资区间划分为:51263.98, 60872.34通常数据分析人员希望看到划分的形式为50000,60000自然划分的3-4-5规则常被用来将数值数据划分为相对一致,“更自然”的区间,自然划分的3-4-5规则,规则的划分步骤:如果一个区间最重要的数字上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;(3,6,9划分成三个等宽区间;72,3,2)如果一个区间最重要的数字上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间;
18、如果一个区间最重要的数字上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间;将该规则递归的应用于每个子区间,产生给定数值属性的概念分层;对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间。e.g. 5%-95%,分类数据的概念分层生成,分类数据是指无序的离散数据,它有有限个值(可能很多个)。分类数据的概念分层生成方法:由用户或专家在模式级显式的说明属性的部分序。通过显示数据分组说明分层结构的一部分。说明属性集,但不说明它们的偏序,然后系统根据算法自动产生属性的序,构造有意义的概念分层。对只说明部分属性集的情况,则可
19、根据数据库模式中的数据语义定义对属性的捆绑信息,来恢复相关的属性。,属性集的规格,根据在给定属性集中,每个属性所包含的不同值的个数,可以自动的生成概念分成;不同值个数最多的属性将被放在概念分层的最底层。,country,province,city,street,5个不同值,65 个不同值,3567 个不同值,674,339 个不同值,数据预处理,3.数据仓库,企业级的数据库和应用多建立在传统的关系数据库上,但是随着要处理、分析的数据的海量增长,传统的数据库越来越力不从心。研究表明:20092020年,全球数据信息量将实现44倍的增长,其中需要管理的文件数将增加67倍,总存储量将增长30倍。企业
20、在PB级甚至EB级的数据中寻找相关信息无异于大海捞针,制定信息驱动决策的成本和复杂性将与日俱增。面对日益增长的非结构化和多结构化数据洪流的冲击,企业如何管理、分析数据、发掘数据价值并形成洞察力,已成为企业提升竞争力的关键因素。,数据处理大致可以分成两大类:,联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查
21、询结果。,操作处理与分析处理,事务处理操作型数据传统的数据库决策分析分析型数据由传统的数据库向数据仓库演变,早期的分析处理是在传统的基于事务处理的数据库基础上添加统计分析和决策支持等分析功能来实现的,但随着技术和需求的发展,传统的数据库已经无法满足决策分析的需求,传统的数据库逐步向数据仓库演变,即分析处理系统逐步从事务处理系统中独立出来。,数据库处理的两大应用,联机事务处理(OLTP)操作型处理操作型处理,为企业的特定应用服务是对数据库的联机的日常操作,通常是对一个或一组记录的查询和修改人们关心的是响应时间、数据的安全性和完整性决策支持系统(DSS)分析型处理分析型处理,用于管理人员的决策分析
22、经常需要访问大量的历史数据数据仓库 + 联机分析处理 + 数据挖掘( DW + OLAP + DM ) DSS,操作型系统与分析型系统,事务处理操作型数据传统的数据库决策分析分析型数据由传统的数据库向数据仓库演变,系统开发周期SDLCSystem Development Life Cycle需求分析设计编程实现测试系统集成系统实施相反的螺旋周期系统实施数据集成测试针对数据编程设计DSS系统结果分析理解需求,数据仓库的定义,W.H.Inmon定义:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Vo
23、latile)、反应历史变化的(Time Variant)数据集合,用于支持管理决策。,数据仓库和数据库,数据库是文件系统发展的革命性结果。数据仓库是数据库在互联网时代发展的一次变革两者的根本区别:1、数据仓库中包含过去的数据以及综合的、集成的和提炼过的信息,结构相对灵活。2、大量数据进入数据仓库后,被修改和更新的操作较少。,数据仓库发展历史,数据库,文件系统,数据仓库,分布式数据云,数据仓库的4大特点,面向主题的(Subject Oriented)数据仓库中的数据通常是按照一定的主题域进行组织。主题是一个抽象概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 技术 联机 分析 处理 data warehouse olap
限制150内