数据仓库与数据挖掘基础第2章OLAP(赵志升)XXXX修改35815.pptx
-
资源ID:91046771
资源大小:347.50KB
全文页数:82页
- 资源格式: PPTX
下载积分:20金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
数据仓库与数据挖掘基础第2章OLAP(赵志升)XXXX修改35815.pptx
河北北方学院:赵志升河北北方学院:赵志升数据数据仓库与数据挖掘仓库与数据挖掘Data Data WWarehouse and arehouse and D Data ata MMininginingn41 OLAP概念、特点与分类n42 OLAP的基本操作n43 OLAP的数据模型n44 基于多维数据库的OLAP(MOLAP)n45 基于关系数据库的OLAP(ROLAP)n46 OLAP实现n47 OLAP的衡量和特性第第4章章 联机分析处理联机分析处理4.1 OLAP的定义、特点的定义、特点nOLAPOLAP(On-Line Analysis ProcessingOn-Line Analysis Processing)定义)定义 是数据仓库上的分析展示工具,它建立在数据是数据仓库上的分析展示工具,它建立在数据多维视图的基础上。多维视图的基础上。联机分析处理。联机分析处理。nOLAPOLAP的主要特点的主要特点 一是在线性一是在线性(On Line)(On Line),体现为对用户请求的快,体现为对用户请求的快速响应和交互式操作;速响应和交互式操作;二是多维分析二是多维分析(Multi_Analysis)(Multi_Analysis),这是,这是OLAPOLAP技技术的核心所在。术的核心所在。4.1 OLAP的定义和特点的定义和特点 CoddCodd提出了多维数据库和多维分析的概念,即提出了多维数据库和多维分析的概念,即OLAPOLAP。OLAPOLAP委员会对联机分析处理的定义为:使分析委员会对联机分析处理的定义为:使分析人员、管理人员或执行人员能够从多种角度对从原始人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。取,从而获得对数据的更深入了解的一类软件技术。OLAPOLAP的目标是满足决策支持或多维环境特定的查询和的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是报表需求,它的技术核心是“维维”这个概念,因此这个概念,因此OLAPOLAP也可以说是多维数据分析工具的集合。也可以说是多维数据分析工具的集合。4.1 OLAP的定义和特点的定义和特点 整个数据(仓)库系统的工具层大整个数据(仓)库系统的工具层大致可以分为三类,或者说三个发展阶段:致可以分为三类,或者说三个发展阶段:(1 1)以)以MIS为代表的查询、报表类工具为代表的查询、报表类工具(2 2)以)以OLAP为代表的验证型工具为代表的验证型工具(3 3)以及以)以及以DM为代表的挖掘型工具为代表的挖掘型工具 4.1 OLAP的分类的分类 OLAPOLAP系统按照其存储器的数据存储格式可以分为关系系统按照其存储器的数据存储格式可以分为关系OLAPOLAP(RelationalOLAPRelationalOLAP,简称,简称ROLAPROLAP)、多维)、多维OLAPOLAP(MultidimensionalOLAPMultidimensionalOLAP,简称,简称MOLAPMOLAP)和混合型)和混合型OLAPOLAP(HybridOLAPHybridOLAP,简称,简称HOLAPHOLAP)三种类型。)三种类型。1.ROLAP 1.ROLAP ROLAPROLAP将分析用的多维数据存储在关系数据库中并根据应用将分析用的多维数据存储在关系数据库中并根据应用的需要有选择的定义一批实视图作为表也存储在关系数据库中。的需要有选择的定义一批实视图作为表也存储在关系数据库中。不必要将每一个不必要将每一个SQLSQL查询都作为实视图保存,只定义那些应用频查询都作为实视图保存,只定义那些应用频率比较高、计算工作量比较大的查询作为实视图。对每个针对率比较高、计算工作量比较大的查询作为实视图。对每个针对OLAPOLAP服务器的查询,优先利用已经计算好的实视图来生成查询服务器的查询,优先利用已经计算好的实视图来生成查询结果以提高查询效率。同时用作结果以提高查询效率。同时用作ROLAPROLAP存储器的存储器的RDBMSRDBMS也针对也针对OLAPOLAP作相应的优化,比如并行存储、并行查询、并行数据管理、作相应的优化,比如并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、基于成本的查询优化、位图索引、SQLSQL的的OLAPOLAP扩展扩展(cube,rollup)(cube,rollup)等等。等等。4.1 OLAP的分类的分类 1.ROLAP 1.ROLAP 存储模式使得分区的聚合存储在关系数据库的表(在分区数存储模式使得分区的聚合存储在关系数据库的表(在分区数据源中指定)中。但是,可为分区数据使用据源中指定)中。但是,可为分区数据使用ROLAPROLAP存储模式,而存储模式,而不在关系数据库中创建聚合。不在关系数据库中创建聚合。同样,如果分区源数据存储在同样,如果分区源数据存储在SQL Server 2000SQL Server 2000中,而且满中,而且满足特定条件,则将创建索引视图而不创建表。足特定条件,则将创建索引视图而不创建表。与与MOLAPMOLAP存储模式不同,存储模式不同,ROLAPROLAP不会使源数据的复本存储起不会使源数据的复本存储起来;当结果无法从聚合或客户端高速缓存派生时,将访问分区来;当结果无法从聚合或客户端高速缓存派生时,将访问分区的事实数据表以回答查询。在的事实数据表以回答查询。在ROLAPROLAP存储模式下,查询响应一般存储模式下,查询响应一般较其它两种存储模式下要慢。较其它两种存储模式下要慢。ROLAPROLAP通常用于不经常查询的大数通常用于不经常查询的大数据集,如年份较早的历史数据。据集,如年份较早的历史数据。4.1 OLAP的分类的分类2.MOLAP2.MOLAP MOLAPMOLAP将将OLAPOLAP分析所用到的多维数据物理上存储为多分析所用到的多维数据物理上存储为多维数组的形式,形成维数组的形式,形成“立方体立方体”的结构。的结构。维的属性值被映射成多维数组的下标值或下标的范围,维的属性值被映射成多维数组的下标值或下标的范围,而总结数据作为多维数组的值存储在数组的单元中。而总结数据作为多维数组的值存储在数组的单元中。由于由于MOLAPMOLAP采用了新的存储结构,从物理层实现起,采用了新的存储结构,从物理层实现起,因此又称为物理因此又称为物理OLAPOLAP(PhysicalOLAPPhysicalOLAP););而而ROLAPROLAP主要通过一些软件工具或中间软件实现,主要通过一些软件工具或中间软件实现,物理层仍采用关系数据库的存储结构,因此称为虚拟物理层仍采用关系数据库的存储结构,因此称为虚拟OLAPOLAP(VirtualOLAPVirtualOLAP)。)。4.1 OLAP的分类的分类2.MOLAP2.MOLAP MOLAP MOLAP存储模式使得分区的聚合和其源数据的复本以多存储模式使得分区的聚合和其源数据的复本以多维结构存储在分析服务器计算机上。根据分区定义为是本地维结构存储在分析服务器计算机上。根据分区定义为是本地分区还是远程分区,该计算机可以是定义分区的分析服务器分区还是远程分区,该计算机可以是定义分区的分析服务器计算机,或别的分析服务器计算机。用于存储分区数据的多计算机,或别的分析服务器计算机。用于存储分区数据的多维结构位于分析服务器维结构位于分析服务器DataData文件夹的子文件夹中。文件夹的子文件夹中。由于分析服务器计算机上驻留有源数据的一个复本,所由于分析服务器计算机上驻留有源数据的一个复本,所以即使查询结果无法从分区的聚合中获得,也可以不用访问以即使查询结果无法从分区的聚合中获得,也可以不用访问分区的源数据而解决查询。根据分区聚合的百分比和设计,分区的源数据而解决查询。根据分区聚合的百分比和设计,MOLAP MOLAP 存储模式为达到最快查询响应时间提供了潜在可能性。存储模式为达到最快查询响应时间提供了潜在可能性。总而言之,总而言之,MOLAPMOLAP更加适合于频繁使用的多维数据集中的分更加适合于频繁使用的多维数据集中的分区和对快速查询响应的需要。区和对快速查询响应的需要。4.1 OLAP的分类的分类4.1 OLAP的分类的分类3.HOLAP3.HOLAP 由于由于MOLAPMOLAP和和ROLAPROLAP有着各自的优点和缺点(如下表有着各自的优点和缺点(如下表所示)所示),且它们的结构迥然不同,这给分析人员设计且它们的结构迥然不同,这给分析人员设计OLAPOLAP结构提出了难题。为此一个新的结构提出了难题。为此一个新的OLAPOLAP结构结构混合型混合型OLAPOLAP(HOLAPHOLAP)被提出,它能把)被提出,它能把MOLAPMOLAP和和ROLAPROLAP两种结构的两种结构的优点结合起来。迄今为止,对优点结合起来。迄今为止,对HOLAPHOLAP还没有一个正式的定还没有一个正式的定义。但很明显,义。但很明显,HOLAPHOLAP结构不应该是结构不应该是MOLAPMOLAP与与ROLAPROLAP结构的结构的简单组合,而是这两种结构技术优点的有机结合,能满简单组合,而是这两种结构技术优点的有机结合,能满足用户各种复杂的分析请求。足用户各种复杂的分析请求。4.1 OLAP的分类的分类HOLAP HOLAP 存储模式结合了存储模式结合了MOLAPMOLAP和和ROLAPROLAP二者的特性。同二者的特性。同MOLAPMOLAP一样,一样,HOLAPHOLAP使得分区的聚合按多维结构存储在分析服务器计算机使得分区的聚合按多维结构存储在分析服务器计算机上。上。HOLAPHOLAP不会使源数据的复本存储起来。对于只访问包含不会使源数据的复本存储起来。对于只访问包含于分区聚合中的汇总数据的查询,于分区聚合中的汇总数据的查询,HOLAPHOLAP与与MOLAPMOLAP特性相同。特性相同。访问源数据的查询(例如深化至原子多维数据集单元,而访问源数据的查询(例如深化至原子多维数据集单元,而该单元没有对应的聚合数据)必须从关系数据库中检索数该单元没有对应的聚合数据)必须从关系数据库中检索数据,据,并且将不如源数据存储在并且将不如源数据存储在MOLAPMOLAP结构中那样快速。结构中那样快速。按按HOLAPHOLAP存储的分区小于同一个按存储的分区小于同一个按MOLAPMOLAP存储的分区,存储的分区,而比而比ROLAPROLAP分区响应涉及汇总数据的查询要快。一般情况下,分区响应涉及汇总数据的查询要快。一般情况下,HOLAPHOLAP存储模式适用于要求对基于大量源数据的汇总能够实存储模式适用于要求对基于大量源数据的汇总能够实现快速查询响应的多维数据集中的分区。现快速查询响应的多维数据集中的分区。4.1 4.1 OLAPOLAP与与OLTPOLTP的区别的区别n (1 1)OLTPOLTP主要面向公司职员主要面向公司职员;OLAP;OLAP则主要面向公司领导者。则主要面向公司领导者。(2 2)OLTPOLTP应用主要是用来完成客户的事务处理,其数据应用主要是用来完成客户的事务处理,其数据基础是操作型数据库,如民航订票系统、银行储蓄系统等等,基础是操作型数据库,如民航订票系统、银行储蓄系统等等,通常需要进行大量的更新操作,同时对响应时间要求较高通常需要进行大量的更新操作,同时对响应时间要求较高;而而OLAPOLAP是以数据仓库或数据多维视图为基础的数据分析处是以数据仓库或数据多维视图为基础的数据分析处理,是针对特定问题的联机数据访问和分析,它一般不对仓理,是针对特定问题的联机数据访问和分析,它一般不对仓库数据作修改处理,而只是查询,其应用主要是对客户当前库数据作修改处理,而只是查询,其应用主要是对客户当前及历史数据进行分析,辅助领导决策,其典型的应用有对银及历史数据进行分析,辅助领导决策,其典型的应用有对银行信用卡风险的分析与预测、公司市场营销策略的制定等,行信用卡风险的分析与预测、公司市场营销策略的制定等,主要是进行大量的查询操作,对时间的要求不太严格。主要是进行大量的查询操作,对时间的要求不太严格。OLAP与与OLTP的不同的不同OLAP与数据挖掘的比较n 相同之处相同之处 OLAP OLAP与与DMDM都是数据库都是数据库(数据仓库数据仓库)上的分析工具;上的分析工具;n 不同之处不同之处 (1 1)在实际应用中各有侧重。前者是验证型的)在实际应用中各有侧重。前者是验证型的,后后者是挖掘型的;者是挖掘型的;(2 2)前者建立在多维视图的基础之上,强调执行效)前者建立在多维视图的基础之上,强调执行效率和对用户请求命令的及时响应,而且其直接数据率和对用户请求命令的及时响应,而且其直接数据源一般是数据仓库;后者建立在各种数据源的基础源一般是数据仓库;后者建立在各种数据源的基础上上,重在发现隐藏在数据深层次的对人们有用的模式重在发现隐藏在数据深层次的对人们有用的模式,一般并不过多考虑执行效率和响应速度。一般并不过多考虑执行效率和响应速度。OLAPOLAP与数据挖掘的比较与数据挖掘的比较(3)数数据据挖挖掘掘与与OLAPOLAP不不同同,主主要要体体现现在在它它分分析析数数据据的的深深入入和和分分析析过过程程的的自自动动化化,自自动动化化的的含含义义是是其其分分析析过过程程不不需需要要客客户户的的参参与与,这这是是它它的的优优点点,也也正正是是其其不不足足。因因为为在在实实际际中中,客客户户也也希希望望参参与与到到挖挖掘掘中中来来,例例如如只只想想对对数数据据的的某某一一子子集集进进行行挖挖掘掘,对对不不同同抽抽取取、集集成成水水平平的的数数据据进进行行挖挖掘掘,或或是根据自己的需要动态选择挖掘算法等等。是根据自己的需要动态选择挖掘算法等等。因此,因此,OLAPOLAP与数据挖掘各有所长与数据挖掘各有所长。OLAP与与DM都是数据库(数据仓库)的分析工具,在实际应用都是数据库(数据仓库)的分析工具,在实际应用中各有侧重:中各有侧重:OLAP的在线性体现在与用户的交互和快速响应上,多维性则体现的在线性体现在与用户的交互和快速响应上,多维性则体现在它建立在多维视图的基础上。用户积极参与分析过程,动态地提在它建立在多维视图的基础上。用户积极参与分析过程,动态地提出分析要求,选择分析算法,对数据进行由浅及深的分析。出分析要求,选择分析算法,对数据进行由浅及深的分析。DM与与OLAP不同,主要体现在它分析数据的深入和分析过程的不同,主要体现在它分析数据的深入和分析过程的自动化。其中,自动化是指其分析过程不需要用户的参与。这是它自动化。其中,自动化是指其分析过程不需要用户的参与。这是它的优点,也正是它的不足。因为在实际中,用户也希望参与到挖掘的优点,也正是它的不足。因为在实际中,用户也希望参与到挖掘中来,如只想对数据的某一子集进行挖掘,以及对不同抽取、集成中来,如只想对数据的某一子集进行挖掘,以及对不同抽取、集成水平的数据进行挖掘,还有想根据自己的需要动态选择挖掘算法等水平的数据进行挖掘,还有想根据自己的需要动态选择挖掘算法等等。等。由此可见,由此可见,OLAP与与DM各有所长,如果能将二者结合起来,发各有所长,如果能将二者结合起来,发展一种建立在展一种建立在olap和数据仓库基础上的新的挖掘技术,将更能适应和数据仓库基础上的新的挖掘技术,将更能适应实际的需要。而实际的需要。而OLAM(on-line analytical mining或或olap mining),正是这种结合的产物。),正是这种结合的产物。OLAP与数据挖掘的结合与数据挖掘的结合OLAM 将将OLAP与与数数据据挖挖掘掘结结合合起起来来,发发展展出出一一种种为为数数据据挖挖掘掘服服务务的的具具有有新新型型OLAPOLAP的的数数据据仓仓库库,将将更更能能适适应实际的需要。应实际的需要。OLAM(On Line Analytical Mining,联机分析,联机分析挖掘)正是这种结合的产物。挖掘)正是这种结合的产物。n 联机分析挖掘,又称为联机分析挖掘,又称为OLAP Mining。它是联。它是联机分析处理技术与数据挖掘技术在数据库或数据仓机分析处理技术与数据挖掘技术在数据库或数据仓库应用中的结合,是联机分析处理技术的新发展,库应用中的结合,是联机分析处理技术的新发展,也是近年来数据库领域的研究重点和热点。也是近年来数据库领域的研究重点和热点。OLAM产生的原因产生的原因n OLAP与与DM虽同为数据库或数据仓库的虽同为数据库或数据仓库的分析工具,但两者侧重点不同。同时,分析工具,但两者侧重点不同。同时,随着随着OLAP与与DM技术的应用和发展,数技术的应用和发展,数据库领域在据库领域在OLAP基础上对深层次分析的基础上对深层次分析的需求与人工智能领域中数据挖掘技术的需求与人工智能领域中数据挖掘技术的融合最终促成了联机分析挖掘技术。融合最终促成了联机分析挖掘技术。OLAM产生的原因产生的原因n一方面,分析工具一方面,分析工具OLAP功能虽强大,能为客户端应用程序功能虽强大,能为客户端应用程序提供完善的查询和分析,但它也存在以下不足提供完善的查询和分析,但它也存在以下不足:n 1)OLAP是一种验证型分析工具,是由用户驱动的。即是一种验证型分析工具,是由用户驱动的。即在某个假设的前提下通过数据查询和分析来验证或否定这个在某个假设的前提下通过数据查询和分析来验证或否定这个假设,这很大程度上受到用户假设能力的限制。假设,这很大程度上受到用户假设能力的限制。n 2)OLAP分析事先需要对用户的需求有全面而深入的了分析事先需要对用户的需求有全面而深入的了解,然而用户的需求并不是确定的,难以把握。所以解,然而用户的需求并不是确定的,难以把握。所以OLAP分析常常采用试凑法在大型数据库或仓库中搜索,不仅花时分析常常采用试凑法在大型数据库或仓库中搜索,不仅花时间,而且可能产生一些无用的结果。间,而且可能产生一些无用的结果。n 3)即使搜索到了有用的信息,由于缺乏应有的维度,从即使搜索到了有用的信息,由于缺乏应有的维度,从不同的视图得到的结果可能并不相同,容易产生误导。不同的视图得到的结果可能并不相同,容易产生误导。OLAM产生的原因n另一方面,数据挖掘虽然可以使用复杂算法来分析数据和创建模型表另一方面,数据挖掘虽然可以使用复杂算法来分析数据和创建模型表示有关数据的信息,用户也不必提出确切的要求,系统就能够根据数示有关数据的信息,用户也不必提出确切的要求,系统就能够根据数据本身的规律性,自动地挖掘数据潜在的模式,或通过联想,建立新据本身的规律性,自动地挖掘数据潜在的模式,或通过联想,建立新的业务模型以辅助决策。但它也存在一些缺点的业务模型以辅助决策。但它也存在一些缺点:n 1)DM是挖掘型分析工具,是由数据驱动的。用户需要事先提出挖是挖掘型分析工具,是由数据驱动的。用户需要事先提出挖掘任务。但对于用户来讲,很多时候预先是不知道想挖掘什么样的知掘任务。但对于用户来讲,很多时候预先是不知道想挖掘什么样的知识的。识的。n 2)由于数据库或数据仓库中存有大量数据和信息,用户仅仅指出挖由于数据库或数据仓库中存有大量数据和信息,用户仅仅指出挖掘任务,而不提供其他搜索线索,这样掘任务,而不提供其他搜索线索,这样DM工具就会遍历整个数据库,工具就会遍历整个数据库,导致搜索空间太大。计算机将处于长时间的工作,而且结果中可能会导致搜索空间太大。计算机将处于长时间的工作,而且结果中可能会生成很多无用信息。生成很多无用信息。n 3)即使挖掘出了潜在有价值的信息,但它究竟用来做什么分析用,即使挖掘出了潜在有价值的信息,但它究竟用来做什么分析用,用户也可能不清楚。用户也可能不清楚。OLAM产生产生n两种技术各存在不足,但同时也可以相辅相成。如果将两种技术各存在不足,但同时也可以相辅相成。如果将OLAP同同DM配合集成,配合集成,n一方面一方面OLAP的分析结果给的分析结果给DM提供挖掘的依据,引导提供挖掘的依据,引导DM的进行的进行;n另一方面,在数据挖掘的结果中进行另一方面,在数据挖掘的结果中进行OLAP分析,则分析,则OLAP分析的深度就可拓展。这样用户就可以灵活选择分析的深度就可拓展。这样用户就可以灵活选择所需的数据挖掘功能,并动态交换挖掘任务,在数据仓所需的数据挖掘功能,并动态交换挖掘任务,在数据仓库的基础上提供更有效的决策支持。库的基础上提供更有效的决策支持。n 鉴于鉴于OLAP与与DM技术在决策分析中的这种互补性,促技术在决策分析中的这种互补性,促成了成了OLAM技术的形成。技术的形成。发展发展olam的原始驱动力有以下几点:的原始驱动力有以下几点:(1)data mining工具需要的数据是一些经过净化、集成处理的数工具需要的数据是一些经过净化、集成处理的数据,通常这种处理过程也是昂贵的;而据,通常这种处理过程也是昂贵的;而dw(data warehouse,数据仓,数据仓库)作为库)作为olap的数据源,存储的就是这样的数据。它能为的数据源,存储的就是这样的数据。它能为olap提供数据,提供数据,当然也可以为当然也可以为dm提供数据。提供数据。(2)dm是一项崭新的技术,很多人在研究它。围绕着它有许多工具是一项崭新的技术,很多人在研究它。围绕着它有许多工具或是体系结构。而或是体系结构。而dm作为数据分析工具的一种,不是孤立的,必然要与作为数据分析工具的一种,不是孤立的,必然要与其他的工具发生联系。因此,考虑到如何最大限度地利用这些现成的工其他的工具发生联系。因此,考虑到如何最大限度地利用这些现成的工具,也是具,也是olam发展之初所关心的问题。发展之初所关心的问题。(3)成功的数据挖掘需要对数据进行钻探性()成功的数据挖掘需要对数据进行钻探性(exporatory)分析。)分析。例如,挖掘所需的数据可能只是一部分、一定范围的数据。因此,对多例如,挖掘所需的数据可能只是一部分、一定范围的数据。因此,对多维数据模型的切片、切块、下钻等操作,同样可以应用于维数据模型的切片、切块、下钻等操作,同样可以应用于dm的过程中。的过程中。也就是说,可以将也就是说,可以将dm建立在多维模型(或说超级立方体)的基础之上。建立在多维模型(或说超级立方体)的基础之上。(4)用户的参与对)用户的参与对dm非常重要,它动态地提出挖掘要求,选择挖掘非常重要,它动态地提出挖掘要求,选择挖掘算法。故可以将算法。故可以将olap的的clientserver结构应用于结构应用于dm中来。中来。OLAM产生产生n联机分析挖掘概念正式提出是在联机分析挖掘概念正式提出是在1997年,年,由加拿大由加拿大Simon Fraser大学教授大学教授Jiawei Han等在数据立方体的基础上提出多维等在数据立方体的基础上提出多维数据挖掘的概念,称为数据挖掘的概念,称为OLAP mining。这实际上是在这实际上是在OLAP系统的基础上,把数系统的基础上,把数据分析算法、数据挖掘算法引人进来,据分析算法、数据挖掘算法引人进来,解决多维数据环境的数据挖掘问题。解决多维数据环境的数据挖掘问题。OLAM体系结构体系结构OLAM体系结构体系结构nOLAM的挖掘分析处理是建立在数据仓库系统的数据立方体的挖掘分析处理是建立在数据仓库系统的数据立方体基础上的。数据立方体的组织模型、计算和操作对与系统基础上的。数据立方体的组织模型、计算和操作对与系统的执行效率和响应速度起着至关重要的作用。的执行效率和响应速度起着至关重要的作用。OLAM集成了集成了传统的传统的OLAP和数据挖掘技术,为用户的在线分析挖掘操作和数据挖掘技术,为用户的在线分析挖掘操作提供接口。提供接口。OLAM引擎通过用户图形接口接收用户的分析请引擎通过用户图形接口接收用户的分析请求指令和数据,在元数据的指导下,对数据立方体进行相求指令和数据,在元数据的指导下,对数据立方体进行相应的操作,包括集合运算应的操作,包括集合运算(如求和、求平均如求和、求平均)和导向运算和导向运算(如如选择、旋转、上钻与下钻选择、旋转、上钻与下钻)等,然后将挖掘分析的结果以可等,然后将挖掘分析的结果以可视化的形式展现给用户,整个分析挖掘过程是动态进行的。视化的形式展现给用户,整个分析挖掘过程是动态进行的。OLAM的系统特征的系统特征n OLAM系统的主要目的就是实现系统的主要目的就是实现OLAP与数与数据挖掘的功能互补,提高数据分析挖掘的性能。据挖掘的功能互补,提高数据分析挖掘的性能。建立在庞大复杂的数据仓库基础上的建立在庞大复杂的数据仓库基础上的OLAM在在实现过程中面临最大的挑战是数据分析挖掘执实现过程中面临最大的挑战是数据分析挖掘执行的效率的提高和对用户请求的快速准确响应。行的效率的提高和对用户请求的快速准确响应。目前专门的目前专门的OLAM产品还没有正式出现,但根产品还没有正式出现,但根据据OLAM系统的设计目的和用户要求,系统的设计目的和用户要求,OLAM应具有其自己的系统及功能特征。应具有其自己的系统及功能特征。OLAM的系统特征(的系统特征(1)n多维分析和数据挖掘无缝集成,即多维分析与多维分析和数据挖掘无缝集成,即多维分析与数据挖掘的完美结合需要理论基础,需要一套数据挖掘的完美结合需要理论基础,需要一套系统构建方法。比如借助于系统构建方法。比如借助于OLAP对数据立方对数据立方体进行切片、切块、旋转、向下钻取、向上汇体进行切片、切块、旋转、向下钻取、向上汇总等操作的支持,应能方便地对任何一部分数总等操作的支持,应能方便地对任何一部分数据和不同抽象级别地数据进行挖掘。据和不同抽象级别地数据进行挖掘。OLAM的系统特征(的系统特征(2)n具有较高的执行效率和较快的响应速度。具有较高的执行效率和较快的响应速度。OLAM系统快速响应能力的获得是一个十分有系统快速响应能力的获得是一个十分有挑战性的问题,可以认为是挑战性的问题,可以认为是OLAM技术中最困技术中最困难的问题之一。往往数据挖掘算法复杂且耗时,难的问题之一。往往数据挖掘算法复杂且耗时,这时要求协调执行效率和挖掘精度两者的关系。这时要求协调执行效率和挖掘精度两者的关系。OLAM的系统特征(的系统特征(3)n支持迭代分析过程,支持迭代分析过程,即系统应提供即系统应提供“回溯回溯”能能力,以便随时标记分析过程中的时空状态点,力,以便随时标记分析过程中的时空状态点,并在分析过程中随时回到这一点,有利于分析并在分析过程中随时回到这一点,有利于分析的灵活进行,防止在进行由浅人深的分析过程的灵活进行,防止在进行由浅人深的分析过程中用户中用户“迷失方向迷失方向”。OLAM的系统特征(的系统特征(4)n支持复杂信息建模,即要求支持复杂信息建模,即要求OLAM系统支持多种异构系统支持多种异构DBMS中多种数据类型的融合,全面处理企业内的各中多种数据类型的融合,全面处理企业内的各种决策支持应用。种决策支持应用。一方面,决策分析的数据对象来自一方面,决策分析的数据对象来自于不同开发环境和目的的分立应用系统,数据的管理于不同开发环境和目的的分立应用系统,数据的管理方法和数据结构也可能不同,这就要求方法和数据结构也可能不同,这就要求OLAM在数据在数据方面有很强的包容性方面有很强的包容性;另一方面,不同的数据挖掘方法另一方面,不同的数据挖掘方法要求不同的数据结构支撑。要求不同的数据结构支撑。OLAM的系统特征的系统特征(5)n良好的可扩展性。良好的可扩展性。要求要求OLAM系统支持多种挖掘算法系统支持多种挖掘算法的模块的添加、多种工作对象的建构、多种数据源的的模块的添加、多种工作对象的建构、多种数据源的集成、多种前端工具的利用等扩展功能。用户能根据集成、多种前端工具的利用等扩展功能。用户能根据实际问题的不同,选用不同的挖掘算法。此外,实际问题的不同,选用不同的挖掘算法。此外,OLAM因该具有支持这些扩展的通用接口,以便与其因该具有支持这些扩展的通用接口,以便与其它工具和算法衔接,或者嵌人用户自己的算法。它工具和算法衔接,或者嵌人用户自己的算法。OLAM的系统特征的系统特征(6)n灵活友好的人机交互能力。灵活友好的人机交互能力。OLAM中的中的决策分析过程是要在人的指导下进行的,决策分析过程是要在人的指导下进行的,人作为系统的有机组成部分和系统应用人作为系统的有机组成部分和系统应用密不可分。人利用自己掌握的领域知识密不可分。人利用自己掌握的领域知识在在OLAM系统的辅助下完成领域内问题系统的辅助下完成领域内问题的求解,在这个过程中人与计算机分别的求解,在这个过程中人与计算机分别承担各自最擅长的工作,达到资源的合承担各自最擅长的工作,达到资源的合理配置。理配置。OLAM的系统特征的系统特征(7)n支持复杂事务模型及多任务优化和调度。支持复杂事务模型及多任务优化和调度。OLAM事务是有事务是有“内部结构内部结构”的数据库的数据库操作集合,是一个有层次的复杂网络结操作集合,是一个有层次的复杂网络结构,传统的无内部结构、彼此孤立的、构,传统的无内部结构、彼此孤立的、最小原子特性的事务模型只是这种模型最小原子特性的事务模型只是这种模型的特例。的特例。OLAM事务之间具有广泛的联事务之间具有广泛的联系,考虑在对事务分解的基础上,充分系,考虑在对事务分解的基础上,充分利用不同事务中的公共子事务来优化事利用不同事务中的公共子事务来优化事务的调度。务的调度。OLAM的分析操作的分析操作n从从OLAM的定义来看,它是建立在多维的定义来看,它是建立在多维数据视图基础之上的。因此,对于数据视图基础之上的。因此,对于OLAM的操作应是超立方体计算与传统的操作应是超立方体计算与传统挖掘算法的结合。这里所说的立方体计挖掘算法的结合。这里所说的立方体计算方法一般指切片、切块、上卷、下钻、算方法一般指切片、切块、上卷、下钻、旋转等操作旋转等操作;而挖掘算法则是指关联规则、而挖掘算法则是指关联规则、分类、聚类等挖掘算法。根据立方体计分类、聚类等挖掘算法。根据立方体计算和数据挖掘所进行的次序的不同组合算和数据挖掘所进行的次序的不同组合可以有不同的模式。可以有不同的模式。OLAM的分析操作的分析操作n先进行立方体计算、后进行数据挖掘。在进行数据挖先进行立方体计算、后进行数据挖掘。在进行数据挖掘以前,先对多维数据进行二定的立方体计算,以选掘以前,先对多维数据进行二定的立方体计算,以选择合适的数据范围和恰当的抽象级别。择合适的数据范围和恰当的抽象级别。n先对多维数据作数据挖掘,然后再利用立方体计算算先对多维数据作数据挖掘,然后再利用立方体计算算法对挖掘出来的结果做进一步的深入分析。法对挖掘出来的结果做进一步的深入分析。n立方体计算与数据挖掘同时进行。在挖掘的过程中,立方体计算与数据挖掘同时进行。在挖掘的过程中,可以根据需要对数据视图做相应的多维操作。这也意可以根据需要对数据视图做相应的多维操作。这也意味着同一个挖掘算法可以应用于多维数据视图的不同味着同一个挖掘算法可以应用于多维数据视图的不同部分。部分。n回溯操作。回溯操作。OLAM的标签和回溯特性,允许用户回溯的标签和回溯特性,允许用户回溯一步或几步,或回溯至标志处,然后沿着另外的途径一步或几步,或回溯至标志处,然后沿着另外的途径进行挖掘,这样用户在挖掘分析中可以交互式的进行进行挖掘,这样用户在挖掘分析中可以交互式的进行立方体计算和数据挖掘。立方体计算和数据挖掘。OLAM技术的发展趋势技术的发展趋势nOLAM技术实现了技术实现了OLAP和和DM技术的互补,它的发展趋势是技术的互补,它的发展趋势是两者更加可靠的集成、融合,有自己合理优化的结构体系和一两者更加可靠的集成、融合,有自己合理优化的结构体系和一套完备的技术理论基础,从整体上为决策分析提供完美支持。套完备的技术理论基础,从整体上为决策分析提供完美支持。nOLAM技术是一门交叉学科,涉及机器学习、模式识别、统计技术是一门交叉学科,涉及机器学习、模式识别、统计学、智能数据库、人工智能、高性能计算、数据可视化、专家学、智能数据库、人工智能、高性能计算、数据可视化、专家系统等综合技术。这些相关学科的发展,无疑也将会推动系统等综合技术。这些相关学科的发展,无疑也将会推动OLAM技术的发展。特别是,近年来随着数据库技术的发展,技术的发展。特别是,近年来随着数据库技术的发展,出现了不同数据类型的高级数据库,如面向对象数据库、对象出现了不同数据类型的高级数据库,如面向对象数据库、对象关系型数据库、空间数据库、超文本数据库、多媒体数据库、关系型数据库、空间数据库、超文本数据库、多媒体数据库、时序数据库等。因此,未来的时序数据库等。因此,未来的OLAM技术应用应基于这些高级技术应用应基于这些高级数据库展开。数据库展开。n随着互联网技术的发展,全球信息的共享,基于随着互联网技术的发展,全球信息的共享,基于Web的联机的联机分析挖掘分析挖掘(Web0LAM),也将成为,也将成为OLAM技术发展的一个新方向。技术发展的一个新方向。P87页页4.2 OLAP的典型操作的典型操作 OLAPOLAP对对数数据据仓仓库库中中数数据据的的操操作作是是针针对对多多维维数数据据视视图图(又又称称为为超超立立方方体体)进进行行的的。对对立立方方体体的的典典型型操操作作包包括括:切切片片、切切块块以以及及旋旋转等。转等。n切片切片 选定多维数组的一个二维子集;选定多维数组的一个二维子集;n切块切块 选定多维数组的一个三维子集;选定多维数组的一个三维子集;n旋旋转转 改改变变一一个个立立方方体体显显示示的的维维方方向向,人人们们可可以以从从不不同同的的角角度度更更加加清清晰晰、直直观观地地观观察察数数据。据。多维数据多维数据Sales volume as a function of product,month,and regionProductRegionMonthDimensions:Product,Location,TimeHierarchical summarization pathsIndustry Region YearCategory Country QuarterProduct City Month Week Office Day立方体实例立方体实例Total annual salesof TV in U.S.A.DateProductCountrysumsum TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum数据立方体的浏览数据立方体的浏览VisualizationOLAP capabilitiesInteractive manipulation第一节第一节第一节第一节 多维数据模型多维数据模型多维数据模型多维数据模型11 1、数据立方体数据立方体数据立方体数据立方体数据立方体数据立方体 数据仓库和数据仓库和数据仓库和数据仓库和数据仓库和数据仓库和OLAPOLAPOLAP工具基于工具基于工具基于工具基于工具基于工具基于多维数据模型多维数据模型多维数据模型多维数据模型多维数据模型多维数据模型,多维数据模型将数据看作多维数据模型将数据看作多维数据模型将数据看作多维数据模型将数据看作多维数据模型将数据看作多维数据模型将数据看作数据立方体数据立方体数据立方体数据立方体数据立方体数据立方体(data data data cubecubecube)形式。数据立方体允许以多维对数据建)形式。数据立方体允许以多维对数据建)形式。数据立方体允许以多维对数据建)形式。数据立方体允许以多维对数据建)形式。数据立方体允许以多维对数据建)形式。数据立方体允许以多维对数据建模和观察,由模和观察,由模和观察,由模和观察,由模和观察,由模和观察,由维维维维维维和和和和和和事实事实事实事实事实事实定义。定义。定义。定义。定义。定义。第一节第一节第一节第一节 多维数据模型多维数