欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    02 数据仓库 第二章 数据仓库组成部分.ppt

    • 资源ID:77412699       资源大小:90.50KB        全文页数:20页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    02 数据仓库 第二章 数据仓库组成部分.ppt

    Chapter Two 数据仓库组成部分p本章学习目标n数据仓库的定义n区分数据仓库和数据集市n学习数据仓库的每一个组成部分n介绍元数据的概念和它的重要性p提纲2.1 定义的特点2.2 数据仓库和数据集市2.3 数据仓库的组成部分2.4 元数据MetaDatap数据仓库的创始者 Bill Inmon:“A Data Warehouse is a subject oriented,integrated,nonvolatile,and time variant collection of data in support of managements decisions.”“数据仓库是为支持管理决策建立的,面向主题的,综合的,数据仓库是为支持管理决策建立的,面向主题的,综合的,稳定的,随时间变化的数据集合稳定的,随时间变化的数据集合”p数据仓库的开拓者Sean Kelly,认为数据仓库中的数据是:n彼此分离n可利用的n综合的n包含时间标记的n面向主题的n非易失性的n能访问的2.1 定义的特点p“面向主题”的数据n在操作型系统中,各行业的数据集合都是围绕单独的应用程序进行组织的n在数据仓库中p数据是按主题而不是按照应用程序存储的。p数据是跨应用程序的订单处理客户贷款顾客帐单可接收帐款索赔处理储蓄帐目销售产品客户帐户索赔政策操作型应用程序数据仓库主题储蓄帐户支票帐户贷款帐户主题帐户来自应用程序的数据数据仓库主题p“综合”的数据n数据仓库中的数据来自不同的数据库、文件、数据段。(内部或者外部,不同的平台)n数据进入数据仓库前,需要进行的标准化工作:p命名规则 p编码p数据特性p度量单位p数据的“时间特性”n数据仓库中的每一个数据结构都包含了时间要素。n数据仓库中的数据是和时间变化相关的数据p可以对过去进行分析p与当前的信息相关p可以对未来进行预测p数据的非易变性n操作型系统的数据实时地进行更新,每次交易发生都要更新;数据仓库中的数据非实时性更新n数据仓库中的数据用来进行查询和分析的p不能在数据仓库中实时地删除数据p不能在数据仓库中修改数据决策支持系统决策支持系统操作型系统操作型系统OLTP数据库数据库数据仓库数据仓库 读取 增加 修改 删除 读取Data Granularityp数据粒度:数据的细节程度n在操作型系统中,数据粒度一般都很细。一般不保存加和的数据。n在数据仓库中,保存加和这一个数据项。一般来说,按不同层次组织数据,用户是从高层次向低层次的细节过渡。n根据需求的不同,需要不同层次的数据细节。每日数据每日数据帐户交易日期数额存款取款月汇总月汇总帐户月份交易数取款存款期初结余期末结余季度汇总季度汇总帐户月份交易数取款存款期初结余期末结余银行数据仓库的三个层次数据粒度2.2 数据仓库和数据集市p数据仓库和数据集市是一个混淆不清的概念。是学术界争论的话题pBill Inmon(1998):“今年IT经理面对的最重要的问题就是到底先建数据仓库还是先建立数据集市”,今天依然如此。p在建立数据仓库前,我们需要考虑下列这些问题:n采取自上而下还是自下而上的方法n企业范围还是部门范围n先建立数据仓库还是数据集市n数据集市是否相互独立数据仓库 vs.数据集市(Data Mart)数据仓库数据仓库数据集市数据集市p完整的,从企业整体考虑的p部门的p所有数据集市的集合p一个单独的商业处理过程p从阶段区域得到的数据p星型结构p通过展示的方式进行查询p适合数据连接和分析技术p基于公司数据视角的结构p基于适合部门数据视角的结构p通过实体关系模式进行组织p自上而下的方法n优点p可以从整个企业的角度看待数据p有机的结合,不是彼此分离的数据集市组成p数据内容唯一、集中存储p集中控制和集中的规则p对反复的查询能够做出快速的反映n缺点p需要花费较多的时间建造p失败风险很大p需要高水平的总和技能p费用很高p自下而上的方法n优点p实施快速而方便p良好的投资回报p失败的风险较小p可以先建立重要的数据集市p项目团队可以从中学习和成长n缺点p每个数据集市对数据的视角都较窄p每个数据集市都有多余的数据p总有矛盾和不一致的数据p增加无法管理的接口p折中的思想,主要推崇者为著名的数据库专家Ralph Kimball,主要步骤如下:n从整个企业的角度来计划和定义需求n为完整的仓库创造一个体系结构n使数据内容一致而且标准化n将数据仓库作为一组超级数据集市来实施,每次一个2.3 数据仓库的组成部分p数据仓库:各个功能块或组件2.3.1 源数据部分n主要类别p生产数据:多个系统多种数据的标准化、转换、整合p内部数据:表格、文档p存档数据:旧的历史的数据p外部数据:社会的企业,社会的人2.3.2 数据准备部分pETL(ETCL)n数据抽取(Extract):多源、异构数据的抽取n数据转换(Transform):清洗、标准化等过程 n数据装载(Load)p这个过程需要很多的时间p最初的装载工作需要载入大量的数据p更新周期的决定(年、季、月、日)2.3.3数据存储部分n数据仓库的数据存储器是一个独立的部分p与操作型的数据库分开存储n大多数数据仓库都采用关系数据库管理系统2.3.4 信息传递部分p多种信息传递方式n特别的报表n复杂的查询n多维分析n统计分析n主管信息系统的需求n数据挖掘2.4 元数据MetaDatan描述数据的数据n数据仓库内容的一本字典n元数据是数据仓库数据本身信息的数据n元数据的类型p操作型元数据包含了所有操作型数据源的信息p抽取和转换元数据包含了源数据系统的数据抽取信息(抽取方法、抽取商业规则)p最终用户元数据允许最终用户使用自己的商业术语和自己一般认可的方式来找寻信息n元数据对于数据仓库极其重要小结p数据仓库定义的特点是:面向主题的、完整的、包含时间变量的、非易变的p我们可以自上而下建立数据仓库或者自下而上建立数据集市,但各有优缺点p数据仓库的组成部分包括:源数据、ETL、数据存储、信息传递、元数据和管理控制p元数据非常重要,它负责连接数据仓库的所有部分并为最终用户提供向导。

    注意事项

    本文(02 数据仓库 第二章 数据仓库组成部分.ppt)为本站会员(s****8)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开