欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    2、数据仓库设计1102.pptx

    • 资源ID:87640689       资源大小:1.46MB        全文页数:44页
    • 资源格式: PPTX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    2、数据仓库设计1102.pptx

    数据仓库是面向主题的、集成的、稳定的、随时间不断变化的数据库系统。它介于数据源与多维数据库之间,起到承上启下的作用。数据仓库是通过对来自不同的数据源进行统一处理及管理,通过灵活的展现方法来帮助决策支持。数据源数据仓库决策在设计仓库数据库之初在设计仓库数据库之初把用户的分析需求纳入把用户的分析需求纳入考虑范围是十分有必要考虑范围是十分有必要的。同时,数据仓库的的。同时,数据仓库的构建必需基于业务数据构建必需基于业务数据库,业务数据源的结构库,业务数据源的结构也是不得不考虑的问题。也是不得不考虑的问题。因此在设计数据仓库的因此在设计数据仓库的时候,应该坚持用户驱时候,应该坚持用户驱动与数据驱动相结合的动与数据驱动相结合的设计理念。设计理念。1NF如果一个表中没有重复组(即行与列的交叉点上只有一个值,而不是一组值),且定义了关键字、所有非关键属性都依赖于关键字,则这个表属于第一范式(常记成1NF)2NF如果一个表属于1NF,且不包含部分依赖性,既没有任何属性只依赖于关键字的一部分,则这个表属于第二范式(常记成2NF)。3NF如果一个表属于2NF,且不包含传递依赖性(即没有一个非关键属性依赖于另一个非关键属性,或者说没有一个非关键属性决定另一个非关键属性),则这个表是第三范式(常记成3NF)。ER模型(实体联系模型)简称ER图。它是描述概念世界,建立概念模型的实用工具。ER图包括三个要素:实体、属性、实体之间的联系联系归结为三种类型:一对一联系(1:1)设A、B为两个实体集。若A中的每个实体至多和B中的一个实体有联系,反过来,B中的每个实体至多和A中的一个实体有联系,称A对B或B对A是1:1联系。一对多联系(1:n)如果A实体集中的每个实体可以和B中的几个实体有联系,而B中的每个实体至我和A中的一个实体有联系,那么A对B属于1:n联系。多对多联系(m:n)若实体集A中的每个实体可与和B中的多个实体有联系,反过来,B中的每个实体也可以与A中的多个实体有联系,称A对B或B对A是m:n联系。多对多对多联系举例多联系举例统计特征统计特征统计特征统计特征FatFatLeanLeanUglyUglyWealthyWealthy统计特征客户客户统计特征销售Fact客户客户客户客户统计特征统计特征统计特征统计特征JohnJohnFatFatRichardRichardLeanLeanJohnJohnUglyUglyRichardRichardWealthyWealthy客户客户客户客户JohnJohnRichardRichardCristianCristian客户客户客户客户销售额销售额销售额销售额JohnJohn1.01.0RichardRichard3.03.0CristianCristian10.010.0每个统计特征对销售人员来说是怎么样的呢?统计特征统计特征统计特征统计特征销售额销售额销售额销售额All DemographicsAll Demographics14.014.0FatFat1.01.0LeanLean3.03.0UglyUgly1.01.0WealthyWealthy3.03.0数据仓库模型设计主要分数据仓库模型设计主要分三个阶段:三个阶段:1、概念设计、概念设计2、逻辑设计、逻辑设计3、详细设计、详细设计并分别产生三类设计模型并分别产生三类设计模型1、主题域模型、主题域模型2、业务数据模型、业务数据模型3、物理模型、物理模型8数据仓库模型设计采用迭代式开发,这一点也符合数据仓库数据仓库模型设计采用迭代式开发,这一点也符合数据仓库系统迭代开发的特点。它具有较好的灵活性和易变性,适应系统迭代开发的特点。它具有较好的灵活性和易变性,适应于主题不明确或不确定的需求。于主题不明确或不确定的需求。数据仓库是面向主题来组织数据仓库是面向主题来组织数据,一个数据仓库有若干个主题,数据,一个数据仓库有若干个主题,而每个主题又有一个数据集合体做而每个主题又有一个数据集合体做支撑,这个数据集合称为主题域。支撑,这个数据集合称为主题域。概念设计的中心工作是在需概念设计的中心工作是在需求分析基础上设计的主题域模型。求分析基础上设计的主题域模型。主体域模型是客观到主观之间的桥主体域模型是客观到主观之间的桥梁,是与硬件环境、软件选择无关梁,是与硬件环境、软件选择无关的数据抽象模型,是为下一步建立的数据抽象模型,是为下一步建立业务数据模型、物理模型服务的概业务数据模型、物理模型服务的概念性工具。念性工具。主题主题域具有两个域具有两个特性特性1、独立性,即主题域具有明确的边界与独立的内涵,虽然主题间可以有交、独立性,即主题域具有明确的边界与独立的内涵,虽然主题间可以有交叉,但不影响其独立性叉,但不影响其独立性。2、完备性,即每个主题的分析要求所需的数据均应能在主题域中得到。采、完备性,即每个主题的分析要求所需的数据均应能在主题域中得到。采用概念数据模型设计就是要设计主题域的数据结构。用概念数据模型设计就是要设计主题域的数据结构。逻辑设计设计到的知识点包括:逻辑设计设计到的知识点包括:业务数据模型设计的建模对象应包含实体、属性、关键字业务数据模型设计的建模对象应包含实体、属性、关键字和联系。和联系。业务数据模型设计应该遵守规范化准则:即第三范式设计业务数据模型设计应该遵守规范化准则:即第三范式设计准则。准则。业务数据模型的业务数据模型的ER图表示法。图表示法。逻辑设计的中心工作是逻辑设计的中心工作是设计业务数据模型,业务数设计业务数据模型,业务数据模型是用具体的软件结构据模型是用具体的软件结构来实现概念数据模型。来实现概念数据模型。目前数据仓库一般是建目前数据仓库一般是建立在关系数据库基础上,因立在关系数据库基础上,因此数据仓库的设计中采用的此数据仓库的设计中采用的业务数据模型就是关系模型。业务数据模型就是关系模型。实体我们把客观存在并且可以相互区别的事物称为实体。实体可以是实际事物,也可以是抽象事件。属性描述实体的特性称为属性。关键字如果某个属性值能唯一地标识出实体集中的每一个实体,可以选作关键字。联系实体集之间的对应关系称为联系,它反映现实世界事物之间的相互关联。联系分为两种,一种是实体内部各属性之间的联系。另一种是实体之间的联系。主题域主题域主题主题实体实体粒度粒度类型类型说明说明生皮分选物料物料物料代码,唯一标识每种物料维度物料分类物料分类代码,唯一标识每种物料分类维度分选结果分选结果物料代码*仓库*供应商*产地*皮种量度组日月季年物料物料分类供应商主题域主题域量度组量度组量度量度聚合聚合计算公式计算公式说明说明生皮分选分选结果分选结果数量累加财务员工员工工资平均 主题实体采购分选结果预算日期日*月*季年物料物料*物料分类粒度特例物理模型是从业务数据模物理模型是从业务数据模型创建而来的,建立物理型创建而来的,建立物理模型通过扩展业务数据模模型通过扩展业务数据模型,使模型中包含关键字型,使模型中包含关键字和物理特性。和物理特性。物理模型设计包括:物理模型设计包括:设计存储结构创建实体设计索引策略创建索引设计存储策略创建分区创建物理实体创建物理实体表表视图视图约束约束只包括主键、外键和度量一个OLAP模型可以有多个事实表事实表经常有millionsofrows事实往往是数字量度有些事实可以被累加,另一些不能最小粒度原则不欢迎描述性属性(瘦高vs.矮胖)维度描述事实逻辑上通过key关联维度表往往包含相当多的属性典型的属性是文本的、离散的维度往往含有层次主键往往是系统产生的primarykey很可能是共享的常规维度主键代理键(可选)名称排序键(可选)自定义汇总公式(可选)父子维度父键一元运算符(可选)Employee_DimEmployee_DimEmployeeKeyEmployeeID.EmployeeKeyEmployeeKeyTime_DimTime_DimTimeKeyTheDate.TimeKeyTimeKeyProduct_DimProduct_DimProductKeyProductIDProduceNameProductBrandProductCategory.ProductKeyProductKeyCustomer_DimCustomer_DimCustomerKeyCustomerID.CustomerKeyCustomerKeyShipper_DimShipper_DimShipperKeyShipperID.ShipperKeyShipperKeySales_FactSales_FactTimeKeyEmployeeKeyProductKeyCustomerKeyShipperKeyUnitsPrice.TimeKeyTimeKeyCustomerKeyCustomerKeyShipperKeyShipperKeyProductKeyProductKeyEmployeeKeyEmployeeKey多个外键多个外键多个外键多个外键事实事实事实事实维度键维度键维度键维度键二级维度表二级维度表二级维度表二级维度表Sales_FactSales_FactTimeKeyEmployeeKeyProductKeyCustomerKeyShipperKeyUnitsPrice.Product_Brand_IdProduct_Brand_IdProduct BrandProduct Category IDProduct_Category_IdProduct_Category_IdProduct CategoryProduct Category IDProduct_DimProduct_DimProductKeyProduct NameProduct SizeProduct Brand ID主维度表主维度表主维度表主维度表节省存储空间一定程度上的范式Whichoneisbetter?长期以来的争论两种观点各有支持者争论在继续目前看来,大部分更加倾向于星型事实表总会是很大的,在维度表上节省的空间相对来说是很小的增加了数据模型的复杂度查询操作概念上更复杂了从数据仓库到多维数据库的加载时间会更长因此,只有当维度表极大,存储空间是个问题时,才考虑雪花型维度简而言之,最好就用星型维度即可从数据仓库到多维数据库的加载过程中,雪花型维度的效率更高。雪花型维度描述了更清晰的层次概念。只有当最终用户可能直接访问数据仓库时才考虑星型。(而这是不被建议的)。Primary KeyPrimary KeykeykeyNameNameColorColorSizeSizeDescriptionDescription1 1A001A001捷达捷达银灰银灰2 2B003B003宝马宝马火红火红.3 3C010C010切诺基切诺基宝石蓝宝石蓝本身已经有了本身已经有了Key的标识以后,是否还需要的标识以后,是否还需要Primary Key?数字之间的比较永远比字符比较快得多。物理存储时,数字简单得多,因为它们长度一样。字符则不同。内存中,字符占的空间大得多。(4byte的指针+文本长度*2(Unicode)+2。数字则仅有4bytes支持变化维度维度表与事实表不是绝对的同一个表,可以同时是维度表与事实表同一个表,可以有时是维度表,有时是事实表EmployeeManagerThe BoardSteveBThe BoardBillGThe BoardJimAllSteveBPaulMaSteveBBobMuSteveBTodNPaulMaDavidVPaulMaPaulFleDavidV不变化更新新增举例:当某销售人员从一个部门调至另一个部门,他的历史业绩该如何核算?主键:PK_,整型自增外键:FK_排序键:Sort_字符类型:nvarchar量度类型:float、numeric视图尽量少用或不用视图,以避免意想不到的逻辑陷阱约束尽量使用约束,以确保数据的完整性。正确的数据所带来的益处会远远大于ETL性能的损失。创建索引用以提高查询速度避免索引对ETL的不良影响分区存储后的数据单元分区存储后的数据单元易于:易于:重构索引重组恢复监控数据提取是捕获源数据的过程。有两种捕获数据的主要方法(1)完全刷新:对移入中间数据库的数据进行完全复制。该复制可能替换数据仓库中的内容,及时在新的时间点上添加完整的新副本,或者与目标数据进行比较,以便在目标中生成一条修改记录。(2)增量更新:只捕获源数据中修改的数据,如何捕获数据修改与数据源本身是密切相关的,实际上是逐个实现的问题。主题:分选分析分析需求:根据分选前后数据,分析各分选点的不同产品产出结构情况。分析角度:日期,分选前物料,分选后物料,物料分类,分选点,供应商,国家,产地,皮种,分选前数量,分选后数量演讲完毕,谢谢观看!

    注意事项

    本文(2、数据仓库设计1102.pptx)为本站会员(muj****520)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开