数据挖掘2、数据仓库和数据挖掘的OLAP技术36010.pptx
《数据挖掘2、数据仓库和数据挖掘的OLAP技术36010.pptx》由会员分享,可在线阅读,更多相关《数据挖掘2、数据仓库和数据挖掘的OLAP技术36010.pptx(65页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据仓库和数据挖掘的OLAP技术数据仓库数据挖掘的有效平台n数据仓库中的数据清理和数据集成,是数据挖掘的重要数据预处理步骤n数据仓库提供OLAP工具,可用于不同粒度的数据分析n很多数据挖掘功能都可以和OLAP操作集成,以提供不同概念层上的知识发现q分类q预测q关联q聚集什么是数据仓库?n数据仓库的定义很多,但却很难有一种严格的定义q它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。q为统一的历史数据分析提供坚实的平台,对信息处理提供支持n数据仓库区别于其他数据存储系统q“数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”W.H.In
2、mon数据仓库关键特征一面向主题n面向主题,是数据仓库显著区别于关系数据库系统的一个特征q围绕一些主题,如顾客、供应商、产品等q关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。q排除对于决策无用的数据,提供特定主题的简明视图。数据仓库关键特征二数据集成n一个数据仓库是通过集成多个异种数据源来构造的。q关系数据库,一般文件,联机事务处理记录联机事务处理记录n使用数据清理和数据集成技术。q确保命名约定、编码结构、属性度量等的一致性。q当数据被移到数据仓库时,它们要经过转化。数据仓库关键特征三随时间而变化n数据仓库是从历史的角度提供信息q数据仓库的时间范围比操作数据库系统要长的
3、多。n操作数据库系统:主要保存当前数据。n数据仓库:从历史的角度提供信息(比如过去 5-10 年)q数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。数据仓库关键特征四数据不易丢失n尽管数据仓库中的数据来自于操作数据库,但他们却是在物理上分离保存的。q操作数据库的更新操作不会出现在数据仓库环境下。q不需要事务处理,恢复,和并发控制等机制不需要事务处理,恢复,和并发控制等机制q只需要两种数据访问:n数据的初始转载和数据访问(读操作)数据仓库的构建与使用n数据仓库的构建包括一系列的数据预处理过程q数据清理q数据集成q数据变换n数据仓库的使用热点是商
4、业决策行为,例如:q增加客户聚焦q产品重定位q寻找获利点q客户关系管理数据仓库与异种数据库集成n异种数据库的集成方法q传统的异种数据库集成:(查询驱动查询驱动)n在多个异种数据库上建立包装程序(wrappers)和中介程序(mediators)n查询驱动方法当从客户端传过来一个查询时,首先使用元数据字典将查询转换成相应异种数据库上的查询;然后,将这些查询映射和发送到局部查询处理器q数据仓库:(更新驱动更新驱动)n将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析查询驱动方法和更新驱动方法的比较n查询驱动的方法q需要复杂的信息过滤和集成处理q与局部数据源上的处理竞争资源q对于频
5、繁的查询,尤其是涉及聚集(汇总)操作的查询,开销很大(决策支持中常见的查询形式)n更新驱动的方法(带来高性能)q数据经预处理后单独存储,对聚集操作提供良好支持q不影响局部数据源上的处理q集成历史信息,支持复杂的多维查询数据仓库与操作数据库系统n操作数据库系统的主要任务是联机事务处理OLTPq日常操作:购买,库存,银行,制造,工资,注册,记帐等n数据仓库的主要任务是联机分析处理OLAPq数据分析和决策支持,支持以不同的形式显示数据以满足不同的用户需要OLAP VS.OLTP(1)n用户和系统的面向性q面向顾客(事务)VS.面向市场(分析)n数据内容q当前的、详细的数据 VS.历史的、汇总的数据n
6、数据库设计q实体联系模型(ER)和面向应用的数据库设计 VS.星型/雪花模型和面向主题的数据库设计OLAP VS.OLTP(2)n数据视图q当前的、企业内部的数据 VS.经过演化的、集成的数据n访问模式q事务操作 VS.只读查询(但很多是复杂的查询)n任务单位q简短的事务 VS.复杂的查询n访问数据量q数十个 VS.数百万个OLAP VS.OLTP(3)n用户数q数千个 VS.数百个n数据库规模q100M-数GB VS.100GB-数TBn设计优先性q高性能、高可用性 VS.高灵活性、端点用户自治n度量q事务吞吐量 VS.查询吞吐量、响应时间为什么需要一个分离的数据仓库?n提高两个系统的性能q
7、DBMS是为OLTP而设计的:存储方式,索引,并发控制,恢复q数据仓库是为OLAP而设计:复杂的 OLAP查询,多维视图,汇总n不同的功能和不同的数据:q历史数据:决策支持需要历史数据,而这些数据在操作数据库中一般不会去维护q数据汇总:决策支持需要将来自异种源的数据统一(如聚集和汇总)q数据质量:不同的源使用不一致的数据表示、编码和格式,对这些数据进行有效的分析需要将他们转化后进行集成多维数据模型(1)n数据仓库和OLAP工具基于多维数据模型n在多维数据模型中,数据以数据立方体(data cube)的形式存在q数据立方体数据立方体允许以多维数据建模和观察。它由维维和事事实实定义n维维是关于一个
8、组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表维表。q多维数据模型围绕中心主题组织,该主题用事实表事实表表示n事实表事实表包括事实的名称或度量以及每个相关维表的关键字n事实事实指的是一些数字度量多维数据模型(2)示例 time_keydayday_of_the_weekmonthquarteryeartime 维表location_keystreetcitystate_or_provincecountrylocation 事实表Sales 事实表 time_key item_key branch_key location_key units_sold dollars_sold
9、avg_sales度量item_keyitem_namebrandtypesupplier_typeitem 维表branch_keybranch_namebranch_typebranch 维表多维数据模型(3)n在数据仓库中,数据立方体是n-D的(n维)q(关系表和电子表格是几维的?)n示例qAllElectronics的销售数据按维time,item的2-D视图(P30,表2-2)qAllElectronics的销售数据按维time,item和location的3-D视图(P30,表2-3)qAllElectronics的销售数据按维time,item和location的3-D视图的3-
10、D数据立方体表示(P31,图2-1)q销售数据的4-D立方体表示(P31,图2-2)n多维数据模型为不同角度上的数据建模和观察提供了多维数据模型为不同角度上的数据建模和观察提供了一个良好的基础一个良好的基础多维数据模型(4)n在数据仓库的研究文献中,一个n维的数据的立方体叫做基本方体基本方体。给定一个维的集合,我们可以构造一个方体的格方体的格,每个都在不同的汇总级或不同的数据子集显示数据,方体的格称为数据立方体数据立方体。0维方体存放最高层的汇总,称作顶点方体顶点方体;而存放最底层汇总的方体则称为基基本方体本方体。数据立方体一个方体的格alltimeitemlocationsupplierti
11、me,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0-D(顶点)方体1-D方体2-D 方体3-D 方体4-D(基本)方体数据仓库的概念模型n最流行的数据仓库概念模型是多维数据模型。这种模型可以以星型模式、雪花模式、或事实星座模式的形式存在。q星型模式(Star schema):事实表
12、在中心,周围围绕地连接着维表(每维一个),事实表含有大量数据,没有冗余。q雪花模式(Snowflake schema):是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加表中。结果,模式图形成类似于雪花的形状。q事实星座(Fact constellations):多个事实表共享维表,这种模式可以看作星型模式集,因此称为星系模式(galaxy schema),或者事实星座(fact constellation)星型模式实例 time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_p
13、rovincecountrylocationSales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch雪花模式实例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSales Fact
14、Table time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity事实星座模式实例time_keydayday_of_the_weekmonthquarteryeartimeloca
15、tion_keystreetcityprovince_or_statecountrylocationSales Fact Tabletime_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShipping Fact Tabletime_key item_key shipper_key from_location to_loca
16、tion dollars_cost units_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper一种数据挖掘查询语言:DMQLnDMQL首先包括定义数据仓库和数据集市的语言原语,这包括两种原语定义:一种是立方体定义,一种是维定义q立方体定义(事实表)define cube :q维定义(维表)define dimension as()q特殊案例(共享维表的定义)n第一次作为维表定义“cube definition”n然后:define dimension as in cube 实例:使用DMQL定义星型模式define c
17、ube sales_star time,item,branch,location:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)define dimension time as(time_key,day,day_of_week,month,quarter,year)define dimension item as(item_key,item_name,brand,type,supplier_type)define dimension branch as(branch_k
18、ey,branch_name,branch_type)define dimension location as(location_key,street,city,province_or_state,country)实例:使用DMQL定义雪花模式define cube sales_snowflake time,item,branch,location:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)define dimension time as(time_key,day,
19、day_of_week,month,quarter,year)define dimension item as(item_key,item_name,brand,type,supplier(supplier_key,supplier_type)define dimension branch as(branch_key,branch_name,branch_type)define dimension location as(location_key,street,city(city_key,province_or_state,country)实例:使用DMQL定义事实星座模式define cub
20、e sales time,item,branch,location:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)define dimension time as(time_key,day,day_of_week,month,quarter,year)define dimension item as(item_key,item_name,brand,type,supplier_type)define dimension branch as(branch_key,bran
21、ch_name,branch_type)define dimension location as(location_key,street,city,province_or_state,country)define cube shipping time,item,shipper,from_location,to_location:dollar_cost=sum(cost_in_dollars),unit_shipped=count(*)define dimension time as time in cube salesdefine dimension item as item in cube
22、salesdefine dimension shipper as(shipper_key,shipper_name,location as location in cube sales,shipper_type)define dimension from_location as location in cube salesdefine dimension to_location as location in cube sales14 March 2023Data Mining:Concepts and Techniques29A Sample Data CubeTotal annual sal
23、esof TV in U.S.A.DateProductCountrysumsum TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum度量的分类n一个数据立方体的度量是一个数值数值函数,该函数可以对数据立方体的每一个点求值。q(刚才的示例中用的是什么函数?)n度量可以根据其所用的聚集函数分为三类:q分布的(distributive):将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样。n比如:count(),sum(),min(),max()等q代数的(algebraic):函数可以由一个带M个参数的代数函数计算(M为有界整数),而每个参数值都
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 数据仓库 OLAP 技术 36010
限制150内