大数据仓库教程培训课件13588.pptx
《大数据仓库教程培训课件13588.pptx》由会员分享,可在线阅读,更多相关《大数据仓库教程培训课件13588.pptx(59页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1数据仓库Data Warehouse赵*博士上海交通大学软件学院2事务型处理n 事务型处理:即操作型处理,是指对数据库的联机操作处理OLTP。事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。它是事件驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单查询等(大量、简单、重复和例行性)。n 在事务型处理环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。3分析型处理n 分析型处理:用于管理人员的决策分析,例如DSS、EIS和多维分析等。它帮助决策者分析数据以察看趋向、判断问题。n 分析型处理经常要访问大量的历史数据,支持复杂的
2、查询。n 分析型处理过程中经常用到外部数据,这部分数据不是由事务型处理系统产生的,而是来自于其他外部数据源。4事务型处理数据和分析型处理数据的区别特性 OLTP OLAP特征面向用户功能DB 设计数据汇总视图工作单位存取关注操作访问记录数用户数DB规模优先度量操作处理事务办事员、DBA、数据库专业人员日常操作基于E-R,面向应用当前的;确保最新原始的,高度详细详细,一般关系短的、简单事务读/写数据进入主关键字上索引/散列数十个数千100MB到GB高性能,高可用性事务吞吐量信息处理分析知识工人(如经理、主管、分析员)长期信息需求,决策支持星形/雪花,面向主题历史的;跨时间维护汇总的,统一的汇总的
3、,多维的复杂查询大多为读信息输出大量扫描数百万数百100GB到TB高灵活性,端点用户自治查询吞吐量,响应时间5数据库系统的局限性n 数据库适于存储高度结构化的日常事务细节数据,而决策型数据多为历史性、汇总性或计算性数据,多表现为静态数据,不需直接更新,但可周期性刷新。n 决策分析型数据是多维性,分析内容复杂。n 在事务处理环境中,决策者可能并不关心具体的细节信息,在决策分析环境中,如果这些细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者的注意力。DB2OracleSQLServerExcelspreadsheetXMLdocumentInternetSSLclienta
4、pplicationsBrowsersData managementlayerApplicationlayerWebservers6数据库系统的局限性(续)n 当事务型处理环境和分析型处理环境在同一个数据库系统中,事务型处理对数据的存取操作频率高,操作处理的时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量的系统资源。n 决策型分析数据的数据量大,这些数据有来自企业内部的,也有来自企业外部的。来自企业外部的数据又可能来自不同的数据库系统,在分析时如果直接对这些数据操作会造成分析的混乱。对于外部数据中的一些非结构化数据,数据库系统常常是无能为力。7多库系统的限制n 可用性:源站点或通信网
5、络故障将导致系统瘫痪,源站点不能通过网络在线联入多库系统。n 响应速度:全局查询多级转换和通信传输,延迟和低层效率影响响应速度。n 系统性能:总体性能取决于源站点中性能最低的系统,影响系统性能的发挥;n 系统开销:每次查询要启动多个局部系统,通信和运行开销大。8实施数据仓库的条件n 数据积累已达到一定规模n 面临激烈的市场竞争n 在IT方面的资金能得到保障 9数据仓库的发展n 自从NCR公司为Wal Mart建立了第一个数据仓库。n 1996年,加拿大的IDC公司调查了62家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。n 早期的数据仓库大都采用当时流行的客户/服务器结构
6、。近年来分布式对象技术飞速发展,整个数据仓库体系结构从功能上划分为若干个分布式对象,这些分布式对象不仅可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口。n IBM的实验室在数据仓库方面已经进行了10多年的研究,并将研究成果发展成为商用产品。n 其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。10数据仓库(Data Warehouse)n 数据仓库用来保存从多个数据库或其它信息源选取的数据,并为上层应用提供统一 用户接口,完成数据查询和分析。支持整个企业范围的主要业务来建立的,主要特点是,包含大量面向整个企业的综合信息及导出信息。n 数据仓库是作为DSS服务基础的分析型D
7、B,用来存放大容量的只读数据,为制定决策提供所需要的信息。n 数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。n 以1992年W H Inmon出版Building the Data Warehouse为标志,数据仓库发展速度很快。W H Inmon被誉为数据仓库之父。n W H Inmon对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。11面向主题n 数据仓库中的数据是按照各种主题来组织的。主题在数据仓库中的物理实现是一系列的相关表,这不同于面向应用环境。如保险公司按照应用组织可能
8、是汽车保险、生命保险、伤亡保险,而数据仓库是按照客户、政策、保险金和索赔来组织数据。n 面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系,从而适应企业各个部门的业务活动特点和企业数据的动态特征,从根本上实现数据与应用的分离。12集成性n 数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不同的应用逻辑相关。为了创建一个有效的主题域,必须将这些来自不同数据源的数据集成起来,使之遵循统一的编码规则。13稳定性n 数据仓库内的数据有很长的
9、时间跨度,通常是5-10年。n 数据仓库中的数据反映的是一段时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于撰写快照进行统计、综合和重组的导出数据。主要供企业高层决策分析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作.n 数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。14时变性n 时变性:许多商业分析要求对发展趋势做出预测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉OLTP数据库中变化的数据,生成数据库的快照,经集成后增加到数据仓库中去;另外数据仓库还需要随时间的变化删去过期的、对分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 教程 培训 课件 13588
限制150内