数据仓库与数据挖掘综述35832.pptx
《数据仓库与数据挖掘综述35832.pptx》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘综述35832.pptx(81页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据仓库与数据挖掘综述数据仓库与数据挖掘综述概念、体系结构、趋势、应用概念、体系结构、趋势、应用报告人:朱建秋报告人:朱建秋报告人:朱建秋报告人:朱建秋 提纲提纲vv数据仓库概念数据仓库概念vv数据仓库体系结构及组件数据仓库体系结构及组件vv数据仓库设计数据仓库设计vv数据仓库技术(与数据库技术的区别)数据仓库技术(与数据库技术的区别)vv数据仓库性能数据仓库性能vv数据仓库应用数据仓库应用vv数据挖掘应用概述数据挖掘应用概述vv数据挖掘技术与趋势数据挖掘技术与趋势vv数据挖掘应用平台(科委申请项目)数据挖掘应用平台(科委申请项目)数据仓库概念数据仓库概念vv基本概念基本概念vv对数据仓库的一
2、些误解对数据仓库的一些误解基本概念基本概念数据仓库数据仓库vvData warehouse is a subject oriented,Data warehouse is a subject oriented,Data warehouse is a subject oriented,Data warehouse is a subject oriented,integrated,non-volatile and time variant integrated,non-volatile and time variant integrated,non-volatile and time varian
3、t integrated,non-volatile and time variant collection of datacollection of datacollection of datacollection of data in support of in support of in support of in support of managements decision managements decision managements decision managements decision Inmon,1996Inmon,1996Inmon,1996Inmon,1996.vvD
4、ata warehouse is Data warehouse is Data warehouse is Data warehouse is a set of methods,a set of methods,a set of methods,a set of methods,techniques,and toolstechniques,and toolstechniques,and toolstechniques,and tools that may be leveraged that may be leveraged that may be leveraged that may be le
5、veraged together to produce a vehicle that delivers together to produce a vehicle that delivers together to produce a vehicle that delivers together to produce a vehicle that delivers data to end-users on an integrated platform data to end-users on an integrated platform data to end-users on an inte
6、grated platform data to end-users on an integrated platform Ladley,1997Ladley,1997Ladley,1997Ladley,1997.vvData warehouse is Data warehouse is Data warehouse is Data warehouse is a processa processa processa process of crating,of crating,of crating,of crating,maintaining,and using a decision-support
7、 maintaining,and using a decision-support maintaining,and using a decision-support maintaining,and using a decision-support infrastructure infrastructure infrastructure infrastructure Appleton,1995Haley,1997Gardner 1998.Appleton,1995Haley,1997Gardner 1998.Appleton,1995Haley,1997Gardner 1998.Appleton
8、,1995Haley,1997Gardner 1998.基本概念基本概念数据仓库特征数据仓库特征 Inmon,1996Inmon,1996vv面向主题面向主题面向主题面向主题n n一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:定单处理;应收帐目;应付帐目;定单处理;应收帐目;应付帐目;定单处理;应收帐目;应付帐目;定单处理;应收帐目;应付帐目;)n n典型的主题领域:客户;产品;交易;帐目典型的主题领域
9、:客户;产品;交易;帐目典型的主题领域:客户;产品;交易;帐目典型的主题领域:客户;产品;交易;帐目n n主题领域以一组相关的表来具体实现主题领域以一组相关的表来具体实现主题领域以一组相关的表来具体实现主题领域以一组相关的表来具体实现n n相关的表通过公共的键码联系起来(如:顾客标识号相关的表通过公共的键码联系起来(如:顾客标识号相关的表通过公共的键码联系起来(如:顾客标识号相关的表通过公共的键码联系起来(如:顾客标识号Customer IDCustomer ID)n n每个键码都有时间元素(从日期到日期;每月累积;单独日期每个键码都有时间元素(从日期到日期;每月累积;单独日期每个键码都有时间
10、元素(从日期到日期;每月累积;单独日期每个键码都有时间元素(从日期到日期;每月累积;单独日期)n n主题内数据可以存储在不同介质上(综合级,细节级,多粒度)主题内数据可以存储在不同介质上(综合级,细节级,多粒度)主题内数据可以存储在不同介质上(综合级,细节级,多粒度)主题内数据可以存储在不同介质上(综合级,细节级,多粒度)vv集成集成集成集成n n数据提取、净化、转换、装载数据提取、净化、转换、装载数据提取、净化、转换、装载数据提取、净化、转换、装载vv稳定性稳定性稳定性稳定性n n批处理增加,仓库已经存在的数据不会改变批处理增加,仓库已经存在的数据不会改变批处理增加,仓库已经存在的数据不会改
11、变批处理增加,仓库已经存在的数据不会改变vv随时间而变化(时间维)随时间而变化(时间维)随时间而变化(时间维)随时间而变化(时间维)vv管理决策支持管理决策支持管理决策支持管理决策支持基本概念基本概念Data Mart,ODSvvData MartData Martn n数据集市数据集市数据集市数据集市-小型的,面向部门或工作组级小型的,面向部门或工作组级小型的,面向部门或工作组级小型的,面向部门或工作组级数据仓库。数据仓库。数据仓库。数据仓库。vvOperation Data StoreOperation Data Storen n操作数据存储操作数据存储操作数据存储操作数据存储 ODSOD
12、SODSODS是能支持企业日常的全是能支持企业日常的全是能支持企业日常的全是能支持企业日常的全局应用的数据集合局应用的数据集合局应用的数据集合局应用的数据集合,是不同于是不同于是不同于是不同于DBDBDBDB的一种新的数的一种新的数的一种新的数的一种新的数据环境据环境据环境据环境,是是是是DW DW DW DW 扩展后得到的一个混合形式。扩展后得到的一个混合形式。扩展后得到的一个混合形式。扩展后得到的一个混合形式。四个基本特点:面向主题的四个基本特点:面向主题的四个基本特点:面向主题的四个基本特点:面向主题的(Subject-Subject-Subject-Subject-Oriented)O
13、riented)Oriented)Oriented)、集成的、可变的、集成的、可变的、集成的、可变的、集成的、可变的、当前或接近当前或接近当前或接近当前或接近当前的。当前的。当前的。当前的。基本概念基本概念ETL,元数据,粒度,分割元数据,粒度,分割vvETLn nETLETL(Extract/Transformation/LoadExtract/Transformation/Load)数据装载、转数据装载、转数据装载、转数据装载、转换、抽取工具。换、抽取工具。换、抽取工具。换、抽取工具。Microsoft DTS;IBM Visual Microsoft DTS;IBM Visual War
14、ehouse etc.Warehouse etc.vv元数据元数据n n关于数据的数据,关于数据的数据,关于数据的数据,关于数据的数据,用于构造、维持、管理、和使用数据用于构造、维持、管理、和使用数据用于构造、维持、管理、和使用数据用于构造、维持、管理、和使用数据仓库,仓库,仓库,仓库,在数据仓库中尤为重要。在数据仓库中尤为重要。在数据仓库中尤为重要。在数据仓库中尤为重要。vv粒度粒度n n数据仓库的数据单位中保存数据的细化或综合程度的级数据仓库的数据单位中保存数据的细化或综合程度的级数据仓库的数据单位中保存数据的细化或综合程度的级数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越
15、高,粒度越小。别。细化程度越高,粒度越小。别。细化程度越高,粒度越小。别。细化程度越高,粒度越小。vv分割分割n n数据分散到各自的物理单元中去,它们能独立地处理。数据分散到各自的物理单元中去,它们能独立地处理。数据分散到各自的物理单元中去,它们能独立地处理。数据分散到各自的物理单元中去,它们能独立地处理。对数据仓库的一些误解对数据仓库的一些误解vv数据仓库与数据仓库与OLAPn n星型数据模型星型数据模型星型数据模型星型数据模型n n多维分析多维分析多维分析多维分析vv数据仓库不是一个虚拟的概念数据仓库不是一个虚拟的概念vv数据仓库与范式理论数据仓库与范式理论n n需要非范式化处理需要非范式
16、化处理需要非范式化处理需要非范式化处理提纲提纲vv数据仓库概念数据仓库概念vv数据仓库体系结构及组件数据仓库体系结构及组件vv数据仓库设计数据仓库设计vv数据仓库技术(与数据库技术的区别)数据仓库技术(与数据库技术的区别)vv数据仓库性能数据仓库性能vv数据仓库应用数据仓库应用vv数据挖掘应用概述数据挖掘应用概述vv数据挖掘技术与趋势数据挖掘技术与趋势vv数据挖掘应用平台(科委申请项目)数据挖掘应用平台(科委申请项目)数据仓库体系结构及组件数据仓库体系结构及组件vv体系结构体系结构vvETL工具工具vv元数据库元数据库(Repository)及元数据管理及元数据管理vv数据访问和分析工具数据访
17、问和分析工具体系结构体系结构 Pieter,1998Pieter,1998 SourceDatabasesData Extraction,Transformation,loadWarehouseAdmin.ToolsExtract,Transformand LoadDataModelingToolCentralMetadataArchitectedData MartsData Accessand AnalysisEnd-UserDW ToolsCentral DataWarehouseCentral DataWarehouseMid-TierMid-TierDataMartDataMartLo
18、cal MetadataLocal MetadataLocal MetadataMetadataExchangeMDBDataCleansingToolRelationalAppl.PackageLegacyExternalRDBMSRDBMS带带ODS的体系结构的体系结构SourceDatabasesHub-Data Extraction,Transformation,loadWarehouseAdmin.ToolsExtract,Transformand LoadDataModelingToolCentralMetadataArchitectedData MartsData Accessa
19、nd AnalysisCentral Data Ware-house and ODSCentral DataWarehouseMid-TierRDBMSDataMartMid-TierRDBMSDataMartLocal MetadataLocal MetadataLocal MetadataMetadataExchangeODSOLTPToolsDataCleansingToolRelationalAppl.PackageLegacyExternalMDBEnd-UserDW Tools现实环境现实环境异质性异质性 Douglas Hackney,2001Douglas Hackney,20
20、01 CustomCustomMarketingMarketingData Data WarehouseWarehousePackagedPackagedOracle Oracle FinancialFinancialData Data WarehouseWarehousePackagedPackagedI2 Supply ChainI2 Supply ChainNon-ArchitectedNon-ArchitectedData MartData MartSubsetSubsetData MartsData MartsOracle FinancialsOracle Financialsi2
21、Supply Chaini2 Supply ChainSiebel CRMSiebel CRM3 3rd Partyrd Partye-Commercee-Commerce联合型数据仓库联合型数据仓库/数据集市体系结构数据集市体系结构Real TimeReal TimeODSODSFederatedFederatedFinancialFinancialData Data WarehouseWarehouseSubsetSubsetData MartsData MartsCommonCommonStagingStagingAreaAreaOracle FinancialsOracle Finan
22、cialsi2 Supply Chaini2 Supply ChainSiebel CRMSiebel CRM3 3rd Partyrd PartyFederatedFederatedPackagedPackagedI2 SupplyI2 SupplyChainChainData MartsData MartsAnalyticalAnalyticalApplicationsApplicationse-Commercee-CommerceReal TimeReal TimeData MiningData Miningand Analyticsand AnalyticsReal TimeReal
23、TimeSegmentation,Segmentation,Classification,Classification,Qualification,Qualification,Offerings,etc.Offerings,etc.FederatedFederatedMarketingMarketingData Data WarehouseWarehouseETL tools&DW ETL tools&DW templatestemplatesData profiling&Data profiling&reengineering toolsreengineering toolsDemand-d
24、riven data Demand-driven data acquisition&analysisacquisition&analysisMetadata InterchangeMetadata InterchangeFederated data Federated data warehouse and data warehouse and data mart systemsmart systemsDecision engine Decision engine models,rules and models,rules and metricsmetricsOLAP&data mining O
25、LAP&data mining tools,tools,Analysis templatesAnalysis templatesAnalytic application Analytic application development tools&development tools&componentscomponentsAnalytic applicationsAnalytic applicationsFront-and back-Front-and back-office OLTPoffice OLTPe-Business e-Business systemssystemsExternal
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 综述 35832
限制150内