《【教学课件】第4章OLAP技术.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第4章OLAP技术.ppt(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第 4 4 章章 OLAP OLAP 技术技术本章学习目标:(1)通过 OLAP 技术概念介绍了解 OLAP 的发展和特点。(2)通过多维分析学习掌握多维的基本概念。(4)通过OLAP的实施掌握OLAP实施方法。(5)通过多维OLAP与关系OLAP的学习掌握多维OLAP与关系OLAP的概念。(6)通过OLAP技术评价学习掌握对OLAP技术的评价。第第 4 章章 OLAP 技术技术u4.1 OLAP 技术概念技术概念u4.2 OLAP 与多维分析与多维分析u4.3 OLAP 的实施的实施u4.4 多维多维 OLAP 与关系与关系 OLAPu4.5 OLAP 技术评价技术评价u练习练习4.1 O
2、LAP 4.1 OLAP 技术概念技术概念在线分析处理或联机分析处理(线分析的处理上的OLAP,)是一个应用广泛的数据仓库使用技术。两个特点,在线性(On_Line),多维分析(Multi_Analysis),4.1.1OLAP的发展针对特定问题的联机数据查询和分析对原始数据按照用户的观点进行转换处理反映用户眼中问题某一真实方面(“维”)快速、稳定、一致和交互式的存取允许用户对这些数据按照需要进行深入的观察4.1.2 OLAP 的特性的特性1.快速性快速性系统能在数秒内对用户的多数分析要求做出反应系统能在数秒内对用户的多数分析要求做出反应2.可分析性用户无需编程就可以定义新的专门计算,将其作为
3、分析的一部分,并以用户所希望的方式给出报告3.多维性提供对数据分析的多维视图和分析4.信息性能及时获得信息,并且管理大容量信息能及时获得信息,并且管理大容量信息4.2 OLAP 与多维分析与多维分析4.2.1 多维基本概念多维基本概念维维、维维的的层层次次、维维成成员员、多多维维数数据据集集、数数据据单单元元、多维数据集的度量值和聚集多维数据集的度量值和聚集1.维维“上卷”“下钻”销售地区西南华中华东四川云南河南湖北江苏上海4.2 OLAP 与多维分析与多维分析2.多维数据集多维数据集产品北京上海化妆品江苏玩具服装电器1234时间(月)销售数量:10000服装切片3.维成员维成员维维的的一一个
4、个取取值值、不同维层次取值的组合、维成员描述所关心的主题在维中的位置 数据单元可以表示为:(维1维成员,维2维成员,维3维成员,维4维成员,观察变量值)4.多维数据集的度量值多维数据集的度量值多维数据集的核心值多维数据集的核心值 5.聚集聚集立立方方体体中中包包括括很很多多层层次次,这这些些层层次次可可以以向向用用户户提提供供某一层次的概括数据某一层次的概括数据 通通过过聚聚集集,形形成成基基于于维维的的有有决决策策分分析析意意义义的的一一些些数数据交集据交集4.2.2 多维分析多维分析1.多维的切片多维的切片(维 1,维2,维i成员,维n,观察变量)是多维数据集(维1,维2,维i,维n,观察
5、变量)在维i上的一个切片 2.多维的切块多维的切块在(维1,维2,维i,维k,维n,观察变量)多维数据集上,对维i,维k,选定了维成员,那(维1,维2,维i成员,维k成员,维n,观察变量)就是多维数据集(维1,维2,维i,维k,维n,观察变量)在维i,维k上的一个切块 4.2.2 多维分析多维分析3.旋转旋转2002年2003年1季度2季度3季度4季度1季度2季度3季度4季度北京市123564566134562355上海市13410398871021399782天津市67735996736962944.2.2 多维分析多维分析3.旋转旋转北京市上海市天津市2002年1季度123134672季度
6、56103733季度4598594季度6687962003年1季度134102732季度56139693季度2397624季度5582944.2.2 多维分析多维分析4.其它其它OLAP操作操作u“上卷上卷”(roll_up)、)、“下钻下钻”(drill_down)、)、“钻过钻过”(drill_across)和)和“钻透钻透”(drill_through)等钻取)等钻取操作。操作。“上卷上卷”是指沿某一个维的概念分层向上归约是指沿某一个维的概念分层向上归约;“下钻下钻”是上卷的逆向操作,它是沿某一个维的概念分层向是上卷的逆向操作,它是沿某一个维的概念分层向下或引入新的维来实现;下或引入新的
7、维来实现;“钻过钻过”是指对多个事实表进行是指对多个事实表进行查询;查询;“钻透钻透”是指对立方体操作时,利用数据库关系,是指对立方体操作时,利用数据库关系,钻透立方体的底层,进入后端的关系表。钻透立方体的底层,进入后端的关系表。uOLAP的其它操作还有统计表中最高值和最低值的项数,的其它操作还有统计表中最高值和最低值的项数,计算平均值、增长率、利润、投资回报率等统计计算。计算平均值、增长率、利润、投资回报率等统计计算。4.2.3 维的层次关系维的层次关系简单层次简单层次复杂层次复杂层次全国江苏北京上海苏州市扬州市宝应县4.2.4 维的类关系维的类关系类类的的划划分分,只只能能依依据据同同一一
8、层层次次的的维维成成员员集集合合来划分来划分 维的层次与类组合图 产品维产品大类产品用途类产品销地类产品产地类产品小类4.2.5 OLAP与数据仓库关系与数据仓库关系u从OLAP使用的效率角度考虑,设计数据仓库时考虑因素。u尽可能使用星型架构,如果采用雪花结构,就要最小化事实表底层维度表以后的维度表数量。u为用户设计包含事实表的维度表。u维度表的设计应该符合通常意义上的范式约束,维度表中不要出现无关的数据。u事实表中不要包含汇总数据,事实表中所包含的用户需要访问的数据应该具有必需的粒度。u对事实表和维度表中的关键字必须创建索引;同一种数据尽可能使用一个事实表。u保证数据的参考完整性,避免事实表
9、中的某些数据行在立方体进行聚集运算时没有参加进来。4.3 OLAP的实施的实施 业务处理系统第三层第二层第一层客户端数据抽取数据清理、转换 数据加载多维化处理可视化处理图4.7数据仓库与OLAP关系图数据仓库OLAP服务器数据准备区4.4 多维多维OLAP与关系与关系OLAP产品名称销售地区销售数量电器电器电器服装服装服装江苏上海北京江苏上海北京9404503408303502704.4.1 多维数据库多维数据库江苏上海北京电器服装9408304503503402704.4.1 多维数据库多维数据库产品名称销售地区销售数量电器电器电器电器服装服装服装服装汇总汇总汇总汇总江苏上海北京汇总江苏上海
10、北京汇总江苏上海北京汇总9404503401730830350270145017708006103180江苏上海北京汇总电器服装汇总94083017704503508003402706101730145031804.4.2 多维数据库的数据存储多维数据库的数据存储维数扩展到三维或更高的维度时,多维数据库MDDB就成了一种“超立方”体的结构 在MDDB中,其数据的存储是由许多类似于数组的对象来完成对象中包含了经过高度压缩的索引和指针,利用这些索引和指针将许多存储数据的单元块联结在一起 实际组合中往往由于各种原因会导致某些组合没有具体的值,或值是空的或者为零。产生了多维数据库的稀疏矩阵问题 4.4
11、.3 多维数据库与数据仓库多维数据库与数据仓库直接从业务处理系统中抽取数据直接从业务处理系统中抽取数据 问题:问题:1.增加数据抽取部分的工作量增加数据抽取部分的工作量2.缺乏统一的数据源和结论缺乏统一的数据源和结论3.加大系统的维护工作量加大系统的维护工作量4.缺乏对元数据的有效管理缺乏对元数据的有效管理5.加大加大OLAP系统的开发投入系统的开发投入4.4.4 MOLAP的创建与功能的创建与功能1.MOLAP的创建的创建阶段:阶段:选择功能选择功能确定分析数值确定分析数值构造分析维构造分析维定义逻辑模型定义逻辑模型2.MOLAP功能功能快速响应能力快速响应能力与多维数据库进行交互的能力与多
12、维数据库进行交互的能力挖掘信息间的内在联系挖掘信息间的内在联系各种模型各种模型数据导航能力数据导航能力 4.4.5 ROLAP实现的三个规则实现的三个规则1.支持支持OLAP原则原则2.数据存储在某一个关系型数据库中数据存储在某一个关系型数据库中3.支持某种形式的聚集导航支持某种形式的聚集导航4.4.6 ROLAP的多维表示方法的多维表示方法1.星型模式在关系数据库中的表示星型模式在关系数据库中的表示 产品ID时间ID销售商ID地址ID图4.8星型模式的关系数据库表示产品ID销售商ID地址ID时间ID销售数量销售成本总收入销售商维度表地理位置维表时间维表产品维表2.雪花模式在关系数据库中的表示
13、雪花模式在关系数据库中的表示产品维表产品ID时间ID销售商ID地址ID图4.9雪花模式的关系数据库表示地理位置维表时间维表产品ID产品名称公司ID公司名称产品颜色ID产品颜色产品商标ID商标名称产品类型ID产品类型名销售商维度表产品ID销售商ID地址ID时间ID销售数量销售成本总收入产品ID公司ID产品颜色ID产品商标ID产品类型ID4.4.7 ROLAP的创建与功能的创建与功能1.ROLAP的创建的创建选择功能、确定分析数值、构造分析维、定义逻辑模型选择功能、确定分析数值、构造分析维、定义逻辑模型数据添加、数据管理、元数据存储、应用工具构造数据添加、数据管理、元数据存储、应用工具构造2.RO
14、LAP的功能的功能提供基于关系数据的商业视图提供基于关系数据的商业视图维层次支持维层次支持模型的自定义模型的自定义细剖细节层次细剖细节层次数据的备分恢复和安全功能数据的备分恢复和安全功能元数据导航元数据导航OLAP服务器性能的协调等功能服务器性能的协调等功能 4.5 OLAP技术评价技术评价4.5.1 MOLAP与与ROLAP的比较的比较1.查询性能查询性能2.数据加载性能数据加载性能3.分析能力分析能力4.数据集市的大小数据集市的大小5.维的管理维的管理6.维护能力维护能力 4.5.2 OLAP的衡量标准的衡量标准1.多维性多维性2.直观性直观性3.可访问性可访问性4.解释性批处理提取解释性
15、批处理提取5.OLAP分析模型分析模型6.客户机客户机/服务器结构性服务器结构性7.透明性或开放性透明性或开放性8.多用户性多用户性9.处理非正规数据性处理非正规数据性 4.5.2 OLAP的衡量标准的衡量标准10.存储存储OLAP结果结果11.提取丢失值提取丢失值12.处理丢失值处理丢失值13.弹性报告弹性报告14.一致性能报告一致性能报告15.对物理层的自动调整对物理层的自动调整16.通用维通用维17.无限维与聚合层无限维与聚合层18.无限制跨维操作无限制跨维操作4.5.3 OLAP服务器和工具的服务器和工具的评价标准评价标准1.OLAP功能功能2.访问性能访问性能3.引擎功能引擎功能4.管理能力管理能力练习u1.什么是OLAP?OLAP是一种技术?还是一种数据库?u2.OLAP的系统结构有哪几种?不同的结构在进行在线分析时各有什么特点?u3.MOLAP和ROLAP在OLAP的数据存储中各有什么特点?在什么情况下,选择MOLAP?在什么情况下,选择ROLAP?u4.OLAP中的数据切片是如何实现的?u5.OLAP中的钻取操作可以用来为哪些决策提供帮助?u6.请用一种OLAP工具完成对旅店房客的多维分析:总费用与细目费用,时间、居住时间长短与节假日,客户职务与客户所服务的行业。
限制150内