数据仓库及其BI概念.pptx
《数据仓库及其BI概念.pptx》由会员分享,可在线阅读,更多相关《数据仓库及其BI概念.pptx(136页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1数据仓库概念数据仓库概念数据仓库概念数据仓库概念2知识模块分解知识模块分解知识模块分解知识模块分解此次课程涵盖下面的模块:此次课程涵盖下面的模块:模块模块1:数据仓库数据仓库-概述概述 以及以及 数据仓库和数据仓库和 OLTP(联机事务处理)的对比(联机事务处理)的对比模块模块2:数据仓库架构数据仓库架构模块模块3:ETL 过程过程模块模块4:数据仓库和数据集市的对比,以及数据仓库概念模型数据仓库和数据集市的对比,以及数据仓库概念模型模块模块5:OLAP(联机分析处理)概述(联机分析处理)概述模块模块6:数据仓库成功的诀窍数据仓库成功的诀窍33数据仓库概念数据仓库概念数据仓库概念数据仓库概念
2、模块模块114包含的主题包含的主题包含的主题包含的主题本模块提供需要数据仓库的原因什么是数据仓库数据仓库的发展过程数据仓库架构数据挖掘如何和数据仓库共同工作的使用数据仓库的好处为什么需要一个分离的数据仓库?OLTP和数据仓库之间的区别55什么是什么是什么是什么是 BI?BI?商务智能(BI)包含的应用系统和技术较宽泛,通过收集、存储、分析和提供对数据的访问,来帮助企业用户做出更好的商务决策。BI 应用包括决策支持、查询和报表、联机分析处理OLAP、统计分析、预测和数据挖掘等活动。例如:Business Objects:66BI-BI-简而言之简而言之简而言之简而言之77Raw Data哪些人是
3、带给我们最低/最高利润的客户?哪些人是我们的客户以及他们买什么产品?哪些客户最有可能流失到竞争对手那里?新产品/服务会对收入和利润有什么影响?什么产品促销方式最能影响收入?什么是最有效的分销渠道?一个厂商想知道一个厂商想知道一个厂商想知道一个厂商想知道.8数据数据数据数据,数据无处不在。然而数据无处不在。然而数据无处不在。然而数据无处不在。然而 我找不到我所需要的数据数据分散在网络上的各个地方数据存在多个版本,其中有细小的差别我不能获取我所需要的数据需要一个专家来获取数据我无法理解所找到的数据可得到的数据,但对应的文档说明很糟糕我无法使用所找到的数据结果不是期望的数据需要从一种形式转换到另外一
4、种形式9什么是数据仓库什么是数据仓库什么是数据仓库什么是数据仓库?“单一的、完整的和一致的数据存储,这些数据从多个数据源获取,经过加工成在一定程度上为最终用户可理解的形式,以用于业务管理。”Barry Devlin10什么是数据仓库什么是数据仓库什么是数据仓库什么是数据仓库?数据仓库的目标,是利用组织里的数据,更加有效地辅助决策过程.数据仓库是收集组织后的数据集合。它容易通过分析、抽取、合并,进而被用来进一步理解数据。它可以与收集数据来进行即时处理的业务系统进行对比,如订单和付款事务处理,尽管其数据也可能成为数据仓库的一部分。数据仓库是一个集成的中央数据库,包含来自于组织内的所有操作型数据源和
5、归档系统。它包含了事务处理系统数据的拷贝、特别是用于查询分析的结构化数据。1111用户要说的是用户要说的是用户要说的是用户要说的是.应该整合整个企业内的数据汇总数据对整个组织具有价值 历史数据有重要作用灵活的决策支持能力12什么是数据仓库什么是数据仓库什么是数据仓库什么是数据仓库?是一个将数据转换成信息、使其能及时供最终用户使用的过程。DataInformation13演变过程演变过程演变过程演变过程60年代:批处理报表难于查找和分析信息缺乏灵活性,成本昂贵,对于每个新需求都要重新编程70年代:基于终端的DSS 和and EIS(主管信息系统)仍然缺乏灵活性,没有和桌面工具集成起来80年代:桌
6、面级数据访问和分析工具查询工具,电子表格,图形界面易于使用,但是只能访问操作型数据库90年代至今:带有集成OLAP引擎和工具的数据仓库,实时数据仓库14数据仓库数据仓库数据仓库数据仓库数据仓库是 面向主题的集成的时变的(随时间变化的)非易失的易得到的 数据集合,主要用于组织里的决策制定。-Bill Inmons,Building the Data Warehouse 199615数据仓库架构数据仓库架构数据仓库架构数据仓库架构数据仓库引擎优化加载抽取清洗分析查询元数据管理元数据管理RelationalDatabasesLegacyDataPurchased DataERPSystems16数据
7、挖掘和数据仓库数据挖掘和数据仓库数据挖掘和数据仓库数据挖掘和数据仓库数据仓库是企业的数据存储数据挖掘是挖掘出企业数据中的知识17什么使数据挖掘成为可能什么使数据挖掘成为可能什么使数据挖掘成为可能什么使数据挖掘成为可能?如下领域的发展,使得数据挖掘的运用成为可能:数据仓库更好和更多的数据(如,操作型数据,行为数据,以及人口统计学数据)易于部署的数据挖掘工具的出现新的数据挖掘技术的出现.-Gartner Group18为什么要分离出数据仓库为什么要分离出数据仓库为什么要分离出数据仓库为什么要分离出数据仓库?性能性能操作型数据库设计,应用于已知事务和工作量的场合对于操作型系统来说,进行复杂的OLAP
8、查询会使其性能下降。对多维视图和查询,需要特殊的数据组织方式,读取方法,实施方案。功能功能遗失数据:决策支持需要历史数据,而操作型数据库并不保存它数据整合:决策支持需要整合(聚合,汇总)来自多个异构数据源(操作型数据库,外部数据源)的数据数据质量:不同数据源经常使用不一致的数据表现形式、代码、格式,需要统一它们19数据仓库的好处数据仓库的好处数据仓库的好处数据仓库的好处可靠的报表可靠的报表快速得到数据快速得到数据集成的数据集成的数据灵活的数据展示方式灵活的数据展示方式更好的决策制定更好的决策制定20那么那么那么那么,二者的区别是什么二者的区别是什么二者的区别是什么二者的区别是什么?21面向应用
9、的面向应用的面向应用的面向应用的 vs vs 面向主题的面向主题的面向主题的面向主题的面向应用的操作型数据库操作型数据库贷款信用卡信托存款面向主题的数据仓库数据仓库客户供应商产品活动22对比对比对比对比OLTP OLTP 和和和和 数据仓库数据仓库数据仓库数据仓库OLTP面向应用的用来运行事务处理详细的数据当前最新数据孤立的数据重复访问操作人员数据仓库(DSS)面向主题的用来分析业务汇总和精炼的数据快照数据集成的数据即席查询知识用户(管理者)23OLTP Vs OLTP Vs 数据仓库数据仓库数据仓库数据仓库OLTP对性能敏感同时访问少量的记录(数十条)可以读和更新没有数据冗余DB大小:100
10、MB-100 GB用户:数百个-数千个数据仓库对性能不敏感同时访问大量的数据(数百万条)主要是读(批量更新)存在数据冗余DB大小:100 GB-TB用户:数个-数百个24总的来说总的来说总的来说总的来说.OLTP 系统用来“运行”事务处理数据仓库用来帮助“优化”业务25来自多个数据源的单一的,完整的一致的数据存储。什么是BI?什么是数据仓库?数据仓库架构数据挖掘如何同数据仓库共同工作数据仓库的好处数据仓库和OLTP的区别需要分离出数据仓库的原因要点概述要点概述要点概述要点概述可靠的报表快速读取数据集成数据更好的进行决策 BI集成了挖掘数据,分析,报表的功能。数据挖掘提供从企业数据仓库中挖掘的知
11、识。用来分析业务用来运行业务26测验测验测验测验1._是数据仓库的面向一个主题的视图是数据仓库的面向一个主题的视图 OLTP 系统系统/Data Staging Area/Data Mart/None 2.数据挖掘意味着数据挖掘意味着_ Modeling/Forecasting/Explanatory Analysis 3.订单输入系统是一个订单输入系统是一个OLTP 系统的例子系统的例子 True/False4.数据仓库的并发用户数量不是很多数据仓库的并发用户数量不是很多 False/True5.数据抽取是数据抽取是_过程过程 A.从数据源获取信息从数据源获取信息/数据,并将其变成可用于数据
12、仓库数据,并将其变成可用于数据仓库B.将抽取的数据加载到数据仓库将抽取的数据加载到数据仓库C.Both Data MartForecastingTrueTrueBoth27数据仓库架构数据仓库架构数据仓库架构数据仓库架构模块模块模块模块2228架构架构架构架构,设计设计设计设计&构造构造构造构造数据仓库架构加载及更新结构/模型integration*intelligence*insight29涵盖的主题涵盖的主题涵盖的主题涵盖的主题这个部分包括下列内容:数据仓库架构基本的两个层次架构-独立的数据集市-数据集市及数据存储ETL过程数据质量保证数据质量保证工具ETL 工具元数据及其重要性3030i
13、ntegration*intelligence*insight 数据仓库架构数据仓库架构数据仓库架构数据仓库架构业务系统业务系统信息转换/集成架构外部系统外部系统企业数据仓库财务数据集市财务数据集市独立的独立的销售数据集市销售数据集市非独立的非独立的市场数据集市市场数据集市非独立的非独立的网络服务器网络服务器外部客户外部客户备份服务局域网客户局域网客户31数据仓库架构数据存储介质数据存储介质遗留系统遗留系统元数据存储元数据存储临时存储区临时存储区抽取抽取/转换服务器转换服务器往数据仓库往数据仓库/数据集市数据集市 元数据设计元数据设计/管理管理 清洗工具清洗工具 映射工具映射工具 抽取管理工具
14、抽取管理工具 转换工具转换工具 移植管理工具移植管理工具32数据仓库架构数据仓库架构数据仓库架构数据仓库架构通用的两类架构独立的数据集市数据集市和操作型数据存储 这两个层次的架构都会涉及到数据的抽取,转换及加载(ETL)33通用的两类架构通用的两类架构ETLOne,company-wide warehouse周期性抽取数据仓库的数据并不全都是最新的数据34独立数据集市独立数据集市数据集市数据集市数据集市数据集市:小型数据仓库,范围有所限制ETL每个独立的数据集市必须单独进行ETL数据获取复杂是由于存在多个数据集市造成的35非独立数据集市和操作型数据存储非独立数据集市和操作型数据存储ETL对于企
15、业数据仓库的单一对于企业数据仓库的单一ETL过过程程(EDW)数据访问将变得简单ODS提供获取当前最新数据的渠道非独立数据集市可以通过企业数据仓库加载数据36数据和维度可在多个数据集市之间共享 通用的两类架构 独立数据集市 非独立数据集市简要概述简要概述简要概述简要概述各个数据集市之间数据存储相互独立37测验测验测验测验1.对于自顶向下的方法,下面那个表述是错的?对于自顶向下的方法,下面那个表述是错的?a.数据仓库中保存着从源系统抽取出来的原子数据,在那里,数据被分派到单个或者多个不同的数据集市中去 b.它的实施比别的方法花费较少的成本和时间c.它强制各个数据集市之间数据的一致性和标准性2.数
16、据仓库设计的主要目标是:数据仓库设计的主要目标是:a.高效的查询处理 b.高效的事务处理 c.None3.在独立的数据集市中,数据和维度可在多个数据集市之间共享。在独立的数据集市中,数据和维度可在多个数据集市之间共享。True/False 4.ODS可提供当前最新数据可提供当前最新数据 True/False 5.非独立数据集市中的数据获取更为复杂。非独立数据集市中的数据获取更为复杂。True/False OPTION BNONEFalseTrueTrue38ETL ETL 过程过程过程过程模块模块模块模块3339构建数据仓库构建数据仓库抽取,转换,加载数据(ETL)抽取数据抽取技术抽取工具构建
17、数据仓库的步骤 40抽取阶段抽取阶段抽取阶段抽取阶段分析源数据,选择抽取工具抽取数据一般要用源系统的语言编写代码(例如 PL/SQL,VB Script,或者 COBOL)。抽取工具能够自动生成源系统的代码。使用抽取工具比手工编写简单的多。需要预处理和在加工过程。例如,在抽取阶段前,可能需要对数据排序或者调用一个含有某种规则的函数处理数据。41转换阶段转换阶段转换阶段转换阶段数据质量的重要性创建业务规则使用工具创建可复用的转换模块或对象简单数据转换包括包含日期,数字和字符转化的转换增加代理键整合的数据源集验证1对1 和1对多的关系42加载阶段加载阶段加载阶段加载阶段插入语句会生成日志建议批量加
18、载 全量刷新数据前应清空目标表 索引管理 删除,重建索引43数据刷新阶段数据刷新阶段 处理缓慢变化维自动抽取-转换-加载周期.增量事实表抽取.清理和归档数据.44抽取数据抽取数据抽取过程从遗留数据系统或其他数据源系统抽取数据。完成抽取后,数据被放在临时存储区,在临时存储区将做数据的清洗。源数据可能来自单个的数据源或多个数据源。如果源数据是多个数据源,那么需要使用专门连接多个数据源的连接器。如果数据来自单个数据源,那么它可以是OLTP系统或文本文件。详细抽取过程详细抽取过程 45抽取数据抽取数据工具有规范化的方法和文档.工具提供了一种非常简易的方法来执行数据的抽取,往往就是用鼠标拖放操作就可以完
19、成。数据抽取过程,可通过手工代码或使用抽取工具来完成。定制代码抽取(如PL/SQL脚本)和使用抽取工具的优缺点46抽取数据抽取数据手工编码可以节省成本,因为PL/SQL是数据库系统已经提供的只有当程序员很了解数据的体系结构的时候,才使用手工编码方式抽取数据47抽取技术抽取技术全量抽取.用从源系统抽取的数据定期的更新整个数据仓库。应用系统所有的数据从源系统抽取来,然后加载到数据仓库中。这种方式从数据源到数据仓库的网络负担沉重。但是这种机制是比较容易实现和维护的。抽取方法.48抽取技术抽取技术变化数据抽取仅仅新近插入或者修改的源系统数据才被抽去或者加载到仓库中。由于传输的数据少,这种方法使用的网络
20、负载很小。这种方法需要复杂的代码来确定,什么时候新数据记录要被插入到数据仓库,和什么时候数据仓库数据记录需要被更新。抽取方法49integration*intelligence*insight抽取技术抽取技术手工代码开发经验代码中创建头以及字段注释坚持命名标准 测试所有代码-包括单元测试和系统测试为所有的工作建立文档50抽取数据抽取数据源系统平台和数据库.工具能在所有类型的计算机平台上,访问所有的数据源可调用的抽取组件或可重用功能使用可调用的抽取模块或可重用功能,可降低数据抽取过程里的技术难度。选择抽取工具的标准 51integration*intelligence*insightintegr
21、ation*intelligence*insight抽取工具抽取工具抽取工具包括Apertus Carleton公司的 PassportEvolutionary Technologies公司的 ETL Extract.Platinum公司的InfoPump52integration*intelligence*insight数据转换数据转换53数据转换数据转换-数据质量的重要性数据质量的重要性.-转换转换-数据转换数据转换:问题和解决方法问题和解决方法-转换技术转换技术-转换工具转换工具54integration*intelligence*insight数据质量的重要性数据质量的重要性数据质量数
22、据质量:在数据转换阶段之前,数据的质量问题就应该被关注。一旦完成数据转换之后,目标数据仓库中的数据应该尽可能少地进行改动,这样可以减少源数据和目标数据的不一致性。55确保数据质量确保数据质量确保数据质量确保数据质量 高质量数据特点高质量数据特点-精确精确-完整完整-一致一致-唯一唯一-及时及时56确保数据质量确保数据质量确保数据质量确保数据质量数据质量工具,可以帮助数据仓库开发团队定位和更正数数据质量工具,可以帮助数据仓库开发团队定位和更正数据错误据错误.源数据或目标库数据都可以更正。但是当仅仅对数据仓库里的数据进行更正时,容易发生数据的不一致,这属于数据的同步问题。57数据质量工具数据质量工
23、具数据质量工具数据质量工具尽管脏数据是数据仓库建造中存在的最大问题,但是一些研究表明,数据质量投资一直在整个仓库开销中占据较小的份额。下面是一些数据质量工具:DataFlux.Data Quality Workbench.Pine Cone Systems.Content Tracker.Prism.Quality Manager.Vality Technology.Integrity Data Reengineering58转换转换转换转换:数据抽取完成后,需要将数据进行转换。抽取的数据放在数据准备区,在这里将完成数据的转换,如数据清洗操作等。在转换阶段,使用清洗工具完成数据的转换。转换后,
24、数据将放到传输区。59integration*intelligence*insightintegration*intelligence*insight数据转换:问题数据转换:问题数据转换:问题数据转换:问题来自遗留系统的数据通常存在的问题是:来自遗留系统的数据通常存在的问题是:某些代码或特殊字符不一致或不正确的使用单个字段被用于非官方或非文档的目的重复代码.数据进化.遗漏的,错误的,重复的值,60integration*intelligence*insight数据转换的问题和解决方法数据转换的问题和解决方法数据转换的问题和解决方法数据转换的问题和解决方法为了确保数据被正确加载,有如下几种解决方
25、法交叉统计检查-一种数据质量的标准模板,可通过比较模版中的规范,确定数据正确与否。.人工检查-选择某种取样方式对数据进行采样,之后对样例进行人工检查。过程验证-生成验证脚本,这些脚本可以确定错误数据,将错误数据隔离开来。61转换技术转换技术字段拆分和合并字段拆分和合并:源系统的某单个物理字段有时候需要拆分到目标库中的几个字段。几个源系统的字段有时候需要在目标库中合并为1个字段。Address field#123 ABC Street,DEF City,Republic of GHNo:123 Street:ABC STREETCity:DEFCountry:GH62integration*in
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 及其 BI 概念
限制150内