第4章OLAP技术.ppt
《第4章OLAP技术.ppt》由会员分享,可在线阅读,更多相关《第4章OLAP技术.ppt(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第4章OLAP技术 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望第4章OLAP技术4.1 OLAP 技术概念技术概念4.2 OLAP 与多维分析与多维分析4.3 OLAP 的实施的实施4.4 多维多维 OLAP 与关系与关系 OLAP4.5 OLAP 技术评价技术评价练习练习4.1OLAP技术概念 在在线线分分析析处处理理或或联联机机分分析析处处理理(OLAP)是是一一个个应应用用广广泛泛的的数据仓库使用技术。数据仓库使用技术。两个特点,在两个特点,在线性线性(
2、On_Line),多维分析多维分析(Multi_Analysis),4.1.1 OLAP 的发展的发展针对特定问题的联机数据查询和分析针对特定问题的联机数据查询和分析对原始数据按照用户的观点进行转换处理对原始数据按照用户的观点进行转换处理反映用户眼中问题某一真实方面(反映用户眼中问题某一真实方面(“维维”)快速、稳定、一致和交互式的存取快速、稳定、一致和交互式的存取允许用户对这些数据按照需要进行深入的观察允许用户对这些数据按照需要进行深入的观察4.1.2OLAP的特性1.快速性快速性 系统能在数秒内对用户的多数分析要求做出反应系统能在数秒内对用户的多数分析要求做出反应2.可分析性可分析性 用用
3、户户无无需需编编程程就就可可以以定定义义新新的的专专门门计计算算,将将其其作作为为分分析析的一部分,并以用户所希望的方式给出报告的一部分,并以用户所希望的方式给出报告3.多维性多维性 提供对数据分析的多维视图和分析提供对数据分析的多维视图和分析4.信息性信息性 能及时获得信息,并且管理大容量信息能及时获得信息,并且管理大容量信息4.2OLAP与多维分析4.2.1 多维基本概念多维基本概念维维、维维的的层层次次、维维成成员员、多多维维数数据据集集、数数据据单单元元、多多维维数据集的度量值和聚集数据集的度量值和聚集1.维维“上卷上卷”“下钻下钻”销售地区西南华中华东四川云南河南湖北江苏上海4.2O
4、LAP与多维分析2.多维数据集多维数据集 产品产品北京北京上海上海 化妆品化妆品江苏江苏 玩具玩具 服装服装 电器电器 1 2 3 4 时间(月)时间(月)销销售售数数量量:10000服装切片3.维成员维成员维维的的一一个个取取值值、不不同同维维层层次次取取值值的的组组合合、维维成成员员描描述述所所关关心心的的主主题题在在维维中的位置中的位置 数数据据单单元元可可以以表表示示为为:(维维1维维成成员员,维维2维维成成员员,维维3维维成成员员,维维4维维成成员,观察变量值)员,观察变量值)4.多维数据集的度量值多维数据集的度量值多维数据集的核心值多维数据集的核心值 5.聚集聚集立方体中包括很多层
5、次,这些层次可以向用户提供某一层次的概括数据立方体中包括很多层次,这些层次可以向用户提供某一层次的概括数据 通过聚集,形成基于维的有决策分析意义的一些数据交集通过聚集,形成基于维的有决策分析意义的一些数据交集4.2.2多维分析1.多维的切片多维的切片(维维 1,维维2,维维i成成员员,维维n,观观察察变变量量)是是多多维维数数据据集集(维(维1,维,维2,维,维i,维,维n,观察变量)在维,观察变量)在维i上的一个切片上的一个切片 2.多维的切块多维的切块在在(维维1,维维2,维维i,维维k,维维n,观观察察变变量量)多多维维数数据据集集上上,对对维维i,维维k,选选定定了了维维成成员员,那那
6、(维维1,维维2,维维i成成员员,维维k成成员员,维维n,观观察察变变量量)就就是是多多维维数数据据集集(维维1,维维2,维维i,维维k,维维n,观观察察变变量量)在在维维i,维,维k上的一个切块上的一个切块 4.2.2多维分析3.旋转2002年2003年1季度2季度3季度4季度1季度2季度3季度4季度北京市123564566134562355上海市13410398871021399782天津市67735996736962944.2.2多维分析3.旋转北京市上海市天津市2002年1季度123134672季度56103733季度4598594季度6687962003年1季度134102732季度
7、56139693季度2397624季度5582944.2.2多维分析4.其它OLAP操作“上卷”(roll_up)、“下钻”(drill_down)、“钻过”(drill_across)和“钻透”(drill_through)等钻取操作。“上卷”是指沿某一个维的概念分层向上归约;“下钻”是上卷的逆向操作,它是沿某一个维的概念分层向下或引入新的维来实现;“钻过”是指对多个事实表进行查询;“钻透”是指对立方体操作时,利用数据库关系,钻透立方体的底层,进入后端的关系表。OLAP的其它操作还有统计表中最高值和最低值的项数,计算平均值、增长率、利润、投资回报率等统计计算。4.2.3维的层次关系简单层次复
8、杂层次全国江苏北京上海苏州市扬州市宝应县4.2.4维的类关系类的划分,只能依据同一层次的维成员集合来划分类的划分,只能依据同一层次的维成员集合来划分 维的层次与类组合图维的层次与类组合图 产品维产品大类产品用途类产品销地类产品产地类产品小类4.2.5OLAP与数据仓库关系从从OLAP使用的效率角度考虑,设计数据仓库时考虑因素。使用的效率角度考虑,设计数据仓库时考虑因素。尽尽可可能能使使用用星星型型架架构构,如如果果采采用用雪雪花花结结构构,就就要要最最小小化化事事实实表表底底层层维维度表以后的维度表数量。度表以后的维度表数量。为用户设计包含事实表的维度表。为用户设计包含事实表的维度表。维维度度
9、表表的的设设计计应应该该符符合合通通常常意意义义上上的的范范式式约约束束,维维度度表表中中不不要要出出现现无无关的数据。关的数据。事事实实表表中中不不要要包包含含汇汇总总数数据据,事事实实表表中中所所包包含含的的用用户户需需要要访访问问的的数数据据应该具有必需的粒度。应该具有必需的粒度。对对事事实实表表和和维维度度表表中中的的关关键键字字必必须须创创建建索索引引;同同一一种种数数据据尽尽可可能能使使用用一个事实表。一个事实表。保保证证数数据据的的参参考考完完整整性性,避避免免事事实实表表中中的的某某些些数数据据行行在在立立方方体体进进行行聚聚集运算时没有参加进来。集运算时没有参加进来。4.3O
10、LAP的实施业务处理系统第三层第二层第一层客户端数据抽取数据清理、转换 数据加载多维化处理可视化处理图4.7数据仓库与OLAP关系图数据仓库OLAP服务器数据准备区4.4多维OLAP与关系OLAP产品名称销售地区销售数量电器电器电器服装服装服装江苏上海北京江苏上海北京9404503408303502704.4.1 多维数据库多维数据库江苏上海北京电器服装9408304503503402704.4.1多维数据库产品名称销售地区销售数量电器电器电器电器服装服装服装服装汇总汇总汇总汇总江苏上海北京汇总江苏上海北京汇总江苏上海北京汇总9404503401730830350270145017708006
11、103180江苏上海北京汇总电器服装汇总94083017704503508003402706101730145031804.4.2多维数据库的数据存储 维维数数扩扩展展到到三三维维或或更更高高的的维维度度时时,多多维维数数据据库库MDDB就就成成了了一一种种“超立方超立方”体的结构体的结构 在在MDDB中,其数据的存储是由许多类似于中,其数据的存储是由许多类似于数组数组的对象来完成的对象来完成 对对象象中中包包含含了了经经过过高高度度压压缩缩的的索索引引和和指指针针,利利用用这这些些索索引引和和指指针针将许多存储数据的单元块联结在一起将许多存储数据的单元块联结在一起 实实际际组组合合中中往往往
12、往由由于于各各种种原原因因会会导导致致某某些些组组合合没没有有具具体体的的值值,或或值值是空的或者为零。产生了多维数据库的是空的或者为零。产生了多维数据库的稀疏矩阵问题稀疏矩阵问题 江苏上海北京浙江电器服装电脑94001770450080002706101730031804.4.3多维数据库与数据仓库多维数据库可以对数据进行切片、切块多维数据库可以对数据进行切片、切块数据仓库可提供细节数据数据仓库可提供细节数据OLAP是技术、数据仓库是存储数据的体系结构,两者互存。是技术、数据仓库是存储数据的体系结构,两者互存。直接从业务处理系统中抽取数据直接从业务处理系统中抽取数据 问题:问题:1.增加数据
13、抽取部分的工作量增加数据抽取部分的工作量2.缺乏统一的数据源和结论缺乏统一的数据源和结论3.加大系统的维护工作量加大系统的维护工作量4.缺乏对元数据的有效管理缺乏对元数据的有效管理5.加大加大OLAP系统的开发投入系统的开发投入4.4.4MOLAP的创建与功能1.MOLAP的创建的创建阶段:阶段:选择功能选择功能确定分析数值确定分析数值构造分析维构造分析维定义逻辑模型定义逻辑模型2.MOLAP功能功能快速响应能力快速响应能力与多维数据库进行交互的能力与多维数据库进行交互的能力挖掘信息间的内在联系挖掘信息间的内在联系各种模型各种模型数据导航能力数据导航能力 4.4.5ROLAP实现的三个规则1.
14、支持支持OLAP原则原则2.数据存储在某一个关系型数据库中数据存储在某一个关系型数据库中3.支持某种形式的聚集导航支持某种形式的聚集导航4.4.6ROLAP的多维表示方法1.星型模式在关系数据库中的表示星型模式在关系数据库中的表示 产品ID时间ID销售商ID地址ID图4.8星型模式的关系数据库表示产品ID销售商ID地址ID时间ID销售数量销售成本总收入销售商维度表地理位置维表时间维表产品维表2.雪花模式在关系数据库中的表示产品维表产品ID时间ID销售商ID 地址ID图4.9雪花模式的关系数据库表示地理位置维表时间维表产品ID产 品 名称公司ID公司名称产品颜色ID产 品 颜色产品商标ID商 标
15、 名称产品类型ID产品类型名销售商维度表产品ID销售商ID地址ID时间ID销售数量销售成本总收入产品ID公司ID产品颜色ID产品商标ID产品类型ID4.4.7ROLAP的创建与功能1.ROLAP的创建的创建选择功能、确定分析数值、构造分析维、定义逻辑模型选择功能、确定分析数值、构造分析维、定义逻辑模型数据添加、数据管理、元数据存储、应用工具构造数据添加、数据管理、元数据存储、应用工具构造2.ROLAP的功能的功能提供基于关系数据的商业视图提供基于关系数据的商业视图维层次支持维层次支持模型的自定义模型的自定义细剖细节层次细剖细节层次数据的备分恢复和安全功能数据的备分恢复和安全功能元数据导航元数据
16、导航OLAP服务器性能的协调等功能服务器性能的协调等功能 4.5OLAP技术评价4.5.1 MOLAP与与ROLAP的比较的比较1.查询性能查询性能MOLAP的的查查询询能能力力一一般般较较好好,因因为为在在多多维维数数据据库库中中常常常常根根据据用用户户的的需需求求,事事先先做做好好了了许许多多计计算算。由由于于计计算算的的预预先先性性,使使MOLAP的的查查询询能能力力可可以以预预测测,并并且且较较为为理理想想。在在ROLAP中中进进行行查查询询分分析析,其其结结果果往往往往则则是是很很难难预预计计的的。有有时时很很快快,有有时时则则要要很很长长时时间间才才能能获获取取答答案案。在在ROL
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- OLAP 技术
限制150内