大数据仓库教程培训课件13588.pptx
1数据仓库Data Warehouse赵*博士上海交通大学软件学院2事务型处理n 事务型处理:即操作型处理,是指对数据库的联机操作处理OLTP。事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。它是事件驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单查询等(大量、简单、重复和例行性)。n 在事务型处理环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。3分析型处理n 分析型处理:用于管理人员的决策分析,例如DSS、EIS和多维分析等。它帮助决策者分析数据以察看趋向、判断问题。n 分析型处理经常要访问大量的历史数据,支持复杂的查询。n 分析型处理过程中经常用到外部数据,这部分数据不是由事务型处理系统产生的,而是来自于其他外部数据源。4事务型处理数据和分析型处理数据的区别特性 OLTP OLAP特征面向用户功能DB 设计数据汇总视图工作单位存取关注操作访问记录数用户数DB规模优先度量操作处理事务办事员、DBA、数据库专业人员日常操作基于E-R,面向应用当前的;确保最新原始的,高度详细详细,一般关系短的、简单事务读/写数据进入主关键字上索引/散列数十个数千100MB到GB高性能,高可用性事务吞吐量信息处理分析知识工人(如经理、主管、分析员)长期信息需求,决策支持星形/雪花,面向主题历史的;跨时间维护汇总的,统一的汇总的,多维的复杂查询大多为读信息输出大量扫描数百万数百100GB到TB高灵活性,端点用户自治查询吞吐量,响应时间5数据库系统的局限性n 数据库适于存储高度结构化的日常事务细节数据,而决策型数据多为历史性、汇总性或计算性数据,多表现为静态数据,不需直接更新,但可周期性刷新。n 决策分析型数据是多维性,分析内容复杂。n 在事务处理环境中,决策者可能并不关心具体的细节信息,在决策分析环境中,如果这些细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者的注意力。DB2OracleSQLServerExcelspreadsheetXMLdocumentInternetSSLclientapplicationsBrowsersData managementlayerApplicationlayerWebservers6数据库系统的局限性(续)n 当事务型处理环境和分析型处理环境在同一个数据库系统中,事务型处理对数据的存取操作频率高,操作处理的时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量的系统资源。n 决策型分析数据的数据量大,这些数据有来自企业内部的,也有来自企业外部的。来自企业外部的数据又可能来自不同的数据库系统,在分析时如果直接对这些数据操作会造成分析的混乱。对于外部数据中的一些非结构化数据,数据库系统常常是无能为力。7多库系统的限制n 可用性:源站点或通信网络故障将导致系统瘫痪,源站点不能通过网络在线联入多库系统。n 响应速度:全局查询多级转换和通信传输,延迟和低层效率影响响应速度。n 系统性能:总体性能取决于源站点中性能最低的系统,影响系统性能的发挥;n 系统开销:每次查询要启动多个局部系统,通信和运行开销大。8实施数据仓库的条件n 数据积累已达到一定规模n 面临激烈的市场竞争n 在IT方面的资金能得到保障 9数据仓库的发展n 自从NCR公司为Wal Mart建立了第一个数据仓库。n 1996年,加拿大的IDC公司调查了62家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。n 早期的数据仓库大都采用当时流行的客户/服务器结构。近年来分布式对象技术飞速发展,整个数据仓库体系结构从功能上划分为若干个分布式对象,这些分布式对象不仅可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口。n IBM的实验室在数据仓库方面已经进行了10多年的研究,并将研究成果发展成为商用产品。n 其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。10数据仓库(Data Warehouse)n 数据仓库用来保存从多个数据库或其它信息源选取的数据,并为上层应用提供统一 用户接口,完成数据查询和分析。支持整个企业范围的主要业务来建立的,主要特点是,包含大量面向整个企业的综合信息及导出信息。n 数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需要的信息。n 数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。n 以1992年W H Inmon出版Building the Data Warehouse为标志,数据仓库发展速度很快。W H Inmon被誉为数据仓库之父。n W H Inmon对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。11面向主题n 数据仓库中的数据是按照各种主题来组织的。主题在数据仓库中的物理实现是一系列的相关表,这不同于面向应用环境。如保险公司按照应用组织可能是汽车保险、生命保险、伤亡保险,而数据仓库是按照客户、政策、保险金和索赔来组织数据。n 面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系,从而适应企业各个部门的业务活动特点和企业数据的动态特征,从根本上实现数据与应用的分离。12集成性n 数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不同的应用逻辑相关。为了创建一个有效的主题域,必须将这些来自不同数据源的数据集成起来,使之遵循统一的编码规则。13稳定性n 数据仓库内的数据有很长的时间跨度,通常是5-10年。n 数据仓库中的数据反映的是一段时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于撰写快照进行统计、综合和重组的导出数据。主要供企业高层决策分析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作.n 数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。14时变性n 时变性:许多商业分析要求对发展趋势做出预测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉OLTP数据库中变化的数据,生成数据库的快照,经集成后增加到数据仓库中去;另外数据仓库还需要随时间的变化删去过期的、对分析没有帮助的数据,并且还需要按规定的时间段增加综合数据。15支持管理决策n 数据仓库支持OLAP(联机分析处理)、数据挖掘和决策分析。OLAP从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。数据挖掘则以数据仓库和多维数据库中的数据为基础,发现数据中的潜在模式和进行预测。因此,数据仓库的功能是支持管理层进行科学决策,而不是事务处理。16BI系统VS决策盲点n 某大型国有企业老总当他查看近十年企业的生产和运营数据时,手边得到了各种各样不同的数据报表。这些数据报表大致可以分成两种类型:一种是两年前、即ERP上线之前的,这是一些简单、杂乱而又枯燥的数字;另一种是有了ERP以后的,数据变得清楚而有条理起来,同时还有来自ERP、CRM、SCM以及计费业务等不同应用的数据和各种分析报告。在仔细查看这些报表之后,这位国企老总惊讶地发现,不同的系统可以得出截然相反的两种结论。例如某一产品,它的动态成本反映在ERP系统和CRM、SCM系统里面相差很大,如果引用ERP和CRM里面的数据,它就是一款很成功、销量很好的产品,但在SCM里面来看,它的采购和物流成本过高,导致了这款看起来很成功的产品实际上是一笔赔钱的买卖。17BI系统VS决策盲点(续)n 其实从这些来自不同系统的数据基础产生不同的判断很正常,因为这些系统并不会去周密地“思考”在自己“职责”之外的事情。这样就给企业的领导提交了相当多顾此失彼的分析报告,结果就是导致了许多市场决策上的混乱和失误。n 把企业的内部数据和外部数据(企业内部数据就是指上述通过业务系统SCM、ERP、CRM等收集到的数据,这些数据可能在不同的硬件、数据库、网络环境中,为不同的业务部门服务。外部数据是市场信息和外部竞争对手的信息)。进行有效的集成,形成直观的、易于理解的信息,再进行分析和思考,为企业的各层决策及分析人员使用。18数据仓库的技术要求n 复杂分析的高性能体现:涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作。n 对提取出来的数据进行集成:数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域和不同的数据库系统中都有不同的结构和形式,所以如何对数据进行集成也是构建数据仓库的一个重要方面。n 对进行高层决策的最终用户的界面支持:提供各种分析应用工具。19数据仓库系统的结构20数据仓库系统的结构(2)21数据仓库系统的结构(3)22数据仓库流程23Tivoli Storage ManagerFile Edit View Help ToolsBack Forward Stop Home Search RefreshxHistory Mail PrintAddress:http:/my_InternetWelcome Welcome Carol Jones Carol Jones Customize Home Page Edit Logout x!My Weather My Weatherclick on city for extended forecast click on city for extended forecastor search by city or zip code or search by city or zip codeParis ParisNew York New York73F 73F91F 91Fget forecastPast Due Service Requests Past Due Service Requests Sales cost analysis Sales cost analysis200001500010000 50002Q00 3Q00 4Q00 1Q01Central next prior?Banco Azul-Todays News Banco Azul-Todays NewsCorporate NewsCompetitor News?CEO Christoph Dermond comments on CEO Christoph Dermond comments on stock split stock split?Minimizing risk in B2B relations Minimizing risk in B2B relations?Special employee credit offers Special employee credit offers?New Privacy Executive Post named New Privacy Executive Post named?SomeCo talks with EvilEmpire Bank SomeCo talks with EvilEmpire Bank sparks merger rumors sparks merger rumors?ToughCo loses fight with Banco Azul for ToughCo loses fight with Banco Azul for$821M industrial loan$821M industrial loan?Asian invasion into retail securities Asian invasion into retail securitiesBanco azul Banco azul07/02/2001 19:29:20WPS v1.2-The Cutting WPS v1.2-The Cutting Edge EdgeWebSphere Portal ServerContent ManagerFederatedSearchKPIsIntelligent IntelligentMiner MinerQMF,BO,QMF,BO,Brio,etc.Brio,etc.DB2 DB2 OLAP OLAPDB2DB2Data DataWarehouse Warehousevirtual tablesReports&ContentMarts MartsIBM IBMDB2 DB2Warehouse WarehouseManager ManagerProduction Productiondata datasource sourcePurchased PurchasedData DataERP,CRM,ERP,CRM,SCM,data SCM,datasources sourcesRedBrickIBM 信息分析框架