chap 2 联机分析处理技术.pdf
《chap 2 联机分析处理技术.pdf》由会员分享,可在线阅读,更多相关《chap 2 联机分析处理技术.pdf(82页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Data Warehousing and Online Analytical Processing 第二章第二章 联机分析处理概念和技术联机分析处理概念和技术 Chapter 2 Introduction to Online Analytical Processing March 2013 Yunhai Tong School of Electronics Engineering and Computer Science,Peking University Data Warehousing and Online Analytical Processing 讨论内容讨论内容 数据分析模型 OLA
2、P的提出 多维数据结构 多维数据操作 多维数据模型的实现 Data Warehousing and Online Analytical Processing 数据分析模型概述数据分析模型概述 以前的数据分析主要是静态的 不能与数据库中的数据建立动态联系 实际需求:更需要复杂、动态的分析 能与数据库中的数据建立动态联系 综合多个数据源 从不同角度观察数据 多变的主题与多维数据访问 Data Warehousing and Online Analytical Processing Codd提出四种数据分析模型提出四种数据分析模型 划分依据:处理数据的范围 用户-分析人员的交互需要 多维分析需求 现
3、有工具的支持 四种数据分析模型:绝对模型 解释模型 思考模型 公式化模型 Data Warehousing and Online Analytical Processing 数据分析模型:数据分析模型:绝对模型绝对模型 绝对模型(Categorical Model)支持工具广泛 静态数据分析 比较历史数据值 综合路径是数据库设计时定义的 Data Warehousing and Online Analytical Processing 数据分析模型:数据分析模型:解释模型解释模型 解释模型(Exegetical Model)支持工具较多 静态数据分析 利用已有的多层次路径层层细化,找出事实发生
4、的原因 Data Warehousing and Online Analytical Processing 数据分析模型:数据分析模型:思考模型思考模型 思考模型(Contemplative Model)支持工具较少 动态数据分析(动态性较低)在一维或多维上引入变量或参数,分析引入后会发生什么 引入变量时,须创建大量综合数据 Data Warehousing and Online Analytical Processing 数据分析模型:数据分析模型:公式模型公式模型 公式模型(Formulatic Model)至今没有支持工具 动态数据分析(动态性很高)分析在多维上需引入哪些变量或参数,并分
5、析引入后所产生的结果 Data Warehousing and Online Analytical Processing 数据分析举例数据分析举例 目 标:为了扩大商品销售量、分析与销售量相关因素 分析模型:绝对模型:历史数据比较,利用回归分析“某种商品今年的销售情况与以往相比,有何变化?今后趋势?”解释模型:进一步找出原因“销售量下降与时间、地区、商品、销售渠道中何种因素有关?”思考模型:引入年龄(变量),分析销售量与顾客年龄是否有关系?公式模型:自动引入各种变量,最终给出与销售量有关的全部因素。Data Warehousing and Online Analytical Processin
6、g 四种分析模型比较四种分析模型比较 数据分析模型 绝对模型 解释模型 思考模型 公式模型 处理数据范围 历史数据和当前数据 预测数据、行为 用户分析人员交互 少 多 多维分析 少 多 现有支持工具 多 少 Data Warehousing and Online Analytical Processing 讨论内容讨论内容 数据分析模型 OLAP的提出 多维数据结构 多维数据操作 多维数据模型的实现 Data Warehousing and Online Analytical Processing 联机分析处理(联机分析处理(OLAP)的提出)的提出 关系数据库满足了联机事务处理(OLTP)的
7、要求 存在着大量的分析型应用 RDB无法适应 应用角度:要求对大量的数据从各个角度进行综合分析(多维分析)技术角度:SQL已经不能很好的适应分析应用需求 查询效率(响应时间)SQL本身的限制,尤其对时间的处理能力 典型分析应用:对一些统计指标 (销售金额)从不同角度(维)(时间、地区、商品类型)从不同级别(层次)(地区:县、地市、省、大区)在RDBMS上开发前端产品,支持上述应用逻辑 E.F.Codd把这类技术称为“OLAP”(1993年)Data Warehousing and Online Analytical Processing OLAP的基本认识的基本认识 主要目标:面向业务分析人员
8、,处理即席的(ad-hoc)并且复杂的(complex)数据查询 交互式的数据处理过程:创建、管理、分析、产生报表 扩展类似于现有平面报表(spreadsheet)的分析,通常在数据仓库的基础上,开展海量数据分析 支持不同方式的数据探测(exploration)和数据聚合 (aggregation)Data Warehousing and Online Analytical Processing Codds rules for OLAP:Codd93 Multi-Dimensional Concept View 多维概念模型 The user should be able to see the
9、 data as being multidimensional insofar as it should be easy to pivot or slice and dice.Transparency 透明性准则 The OLAP functionality should be provided behind the users existing software without adversely affecting the functionality of the host.Accessibility 存取能力准则 OLAP should allow the user to access
10、diverse data stores but see the data within a common schema provided by the OLAP tool.Data Warehousing and Online Analytical Processing Codds rules for OLAP:Codd93 Consistent Reporting Performance 稳定的报表性能 There should not be significant degradation in performance with large numbers of dimensions or
11、large quantities of data.Client-Server Architecture C/S体系结构 Since much of the data is on mainframes,and the users work on PCs,the OLAP tool must be able to bring the two together!Generic Dimensionality 维的等同性准则 Data dimensions must all be treated equally.Functions available for one dimension must be
12、available for others.Data Warehousing and Online Analytical Processing Codds rules for OLAP:Codd93 Dynamic Sparse Matrix Handling 动态稀疏矩阵处理准则 The OLAP tool should be able to work out for itself the most efficient way to store sparse matrix data.Multi User Support 多用户支持能力准则 This is self-evident.Unrest
13、ricted Cross-Dimensional Operations 非受限的跨维操作 e.g.,individual office overheads are allocated according to total corporate overheads divided in proportion to individual office sales.Data Warehousing and Online Analytical Processing Codds rules for OLAP:Codd93 Intuitive Data Manipulation 直观的数据操作 Naviga
14、tion should be done by operations on individual cells rather than menus.Flexible Reporting 灵活的报表生成 Row and column headings must be capable of more than one dimension each,and of displaying subsets of any dimension.Unlimited Dimensions and Aggregation Levels 非受限的维与维的层次 At least 15 dimensions may be r
15、equired,and within each there may be many hierarchical levels.Data Warehousing and Online Analytical Processing OLAP应用举例应用举例 不同时间段的比较(同期比)各种商品本周(本月、本年)的销售情况与以往相比,有何变化?今后趋势?排序和统计分类(top N/bottom N)统计每天销售量、销售额和利润最高的10个商场?客户特定的即席分析(市场分割、即席分组的情况)按照季度统计一下东北地区前四个季度的收入情况?Data Warehousing and Online Analytic
16、al Processing 讨论内容讨论内容 数据分析模型 OLAP的提出 多维数据结构 多维数据操作 多维数据模型的实现 Data Warehousing and Online Analytical Processing 多维数据模型多维数据模型 多维数据模型又称多维概念视图,通常用Cube来表示。多维数据模型可以更加直观的表示现实中的复杂关系 多维数据模型的基本组成:维、度量(变量、指标)举例:计算举例:计算每一个商场每一个商场、每个产品每个产品的的销售额销售额 Product Area$300$100 Store Sales Volume Product A B C D E$200$15
17、0$300$250$100$150-$300$150-$150-$250-$100$200-$300-$100 Cross-Tabulation(products/Store)Data Warehousing and Online Analytical Processing 多维数据模型举例多维数据模型举例 sum J1 J2 J4 sum 批发批发 .sum 零售零售 时间时间 地区地区 销售渠道销售渠道 J3 北京北京.上海上海 广东广东 时间时间 地区地区 销售渠道销售渠道 销售额销售额 J1 北京北京 批发批发 1200 J1 北京北京 零售零售 2300 J1 上海上海 批发批发 1
18、233 J1 上海上海 零售零售 2122 J2 北京北京 批发批发 3312 J2 上海上海 批发批发 3423 关系表与多维关系表与多维Cube Data Warehousing and Online Analytical Processing 数据立方体(Cube)维(Dimension)分析的上下文 维层次路径、维层次、维成员(维实例)、维层次属性 事实(Fact)度量(Measure)关键性能指标(KPI)聚集函数 多维数据模型的组成多维数据模型的组成 Data Warehousing and Online Analytical Processing 维:对数据进行分类的一种结构,以
19、用于从特定的角度观察数据。(例如:时间、地区、产品)维的两个用途 选择针对期望详细程度的层次的数据 分组对细节数据综合(聚集)到相应的详细程度的数据层次 多维数据模型的组成多维数据模型的组成 Data Warehousing and Online Analytical Processing 维维 维的组织方式:维层次路径(HIERARCHY)维层次路径由代表不同详细程度的维层次(Level)组成。维的层次:特定角度的不同细节程度 年份季度月份日期大区省份城市产品大类产品小类产品名称维模式 :所有层次Data Warehousing and Online Analytical Processin
20、g 维维 维层次中包含 维成员(DIMENSION VALUES),维成员树 维的一个取值(称为该维的一个成员),每一个维成员属于某一个特定的维层次。例如:时间维:三个层次,日、月、年,维成员:1999年5月20日、1999年5月;1999年 维成员是数据在该维上的位置描述 例如:1999年5月20日销售额表示销售额数据在时间维上的位置 (相当于时间轴上的某一点或某一区间)不同维层次的取值的组合(对多层次情况),例如:5月20日 维层次属性(ATTRIBUTES):维层次上的描述属性,例如产品的“规格”、“颜色”、“销地”、“产地”Data Warehousing and Online Ana
21、lytical Processing 维层次关系维层次关系 定义维层次的聚集和钻取关系 简单维层次关系 年份季度月份日期大区省份城市产品大类产品小类产品名称维模式 :所有层次Data Warehousing and Online Analytical Processing 复杂的维层次关系复杂的维层次关系 较为复杂的维层次关系 一个维包含拥有同一底层数据的多条维层次路径(c)产品维维层次结构(c)产品维维层次结构产品大类产品大类产品小类产品小类产品名称产品名称产品颜色产品颜色包装大小包装大小表示维层次描述属性表示维层次描述属性年份年份季度季度月份月份日期日期周次周次(a)时间维维层次结构(a)
22、时间维维层次结构AllAll华东华东华北华北江苏江苏河北河北北京北京南京南京保定保定玄武区玄武区北市区北市区海淀区海淀区(b)地区维维成员层次结构(b)地区维维成员层次结构 维成员树可能是一棵高度不平衡树。在维层次属性不仅分类属性,同时还拥有描述属性 在某些维层次结构中还包含复杂数据类型的维成员 Data Warehousing and Online Analytical Processing 为什么需要维层次关系为什么需要维层次关系 不支持层次关系带来的问题 增加维的数目,变成非常“稀疏”的状况 标注:表示有意义的单元 表示无意义的空单元 省维 城市维 沈阳 哈尔滨 大连 长春 辽宁省 黑龙
23、江 吉林省 时间维 产品维 西北 陕西 甘肃 宁夏.东北 黑龙江 吉林 辽宁 沈阳 大连.不支持维层次关系 支持维层次关系 Data Warehousing and Online Analytical Processing 维成员属性(维成员的“类”)维成员属性(维成员的“类”)维成员属性,维成员的描述属性,维成员的“类”按一定的划分标准对维成员全集的一个(分类)划分 划分:即把全集分成了若干子集 各子集的和(并)等于全集 子集间的交为空 Data Warehousing and Online Analytical Processing 维成员属性维成员属性 划分标准一般是实体(维成员)的属性
24、(特征),称为类属性 例如(产品的)“规格”、“颜色”、“销地”、“产地”一个类属性,对应一个划分;不同类属性,得到不同类划分.按产品销地划分 产品维 东北 西北 华北 华南 东北 西北 华北 华南 类划分1 类划分2 维层次关系 按产品产地划分 Data Warehousing and Online Analytical Processing 维层次和类的区别维层次和类的区别 表达的含义不同 维层次表达变量在该维的综合的级别 例:销售额在时间维上按三个级别(日、月、年)进行综合 称为三个维层次 父层次的值由其子层次的值综合得到 维成员的类表达某一子集维成员的共同特征 即:对应的类属性取相同值
25、 例如:颜色为红色的产品,不同颜色的产品为不同的类 同一层次的维成员可划分为类:例如产品大类中的“家电”、“服装”、“文具”等 不同层次的维成员之间不存在类的关系 Data Warehousing and Online Analytical Processing 维层次和类的区别(续维层次和类的区别(续 1)分析动作不同 按维层次进行分析 逐层向上综合数据;逐层向下细化数据;按维成员的类进行分析 选择类属性对维成员全集进行分类 对同类维成员归纳出共同的特性 按类进行分析不能跨维层次,只在同层次(兄弟结点)进行 将维层次与类交叉组合进行分析(见下图)Data Warehousing and On
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- chap 联机分析处理技术 联机 分析 处理 技术
限制150内