欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    商务智能理论与应用4-数据仓库34650.pptx

    • 资源ID:90061056       资源大小:982.77KB        全文页数:46页
    • 资源格式: PPTX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    商务智能理论与应用4-数据仓库34650.pptx

    大数据与数据挖掘-数据仓库一、决策支持系统二、商务智能 人们对商务智能的理解如同那七个印度盲人对大象的理解:有人认为它是高级管理人员信息系统(EIS),有人认为它是管理信息系统(MIS),有人认为它是决策支持系统(DSS);有人说它是数据库技术,有人说它是数据仓库,有人说它是数据集市,有人说它是数据整合与清洗工具,有人说它是查询和报告工具,有人说它是在线分析处理工具,有人说它是数据挖掘,有人说它是统计分析;有人把它当做分析性ERP,有人把它当做分析性CRM,有人把它当做分析性SCM,有人把它当做企业绩效管理,有人把它当作平衡记分卡 商业智能技术,它以数据仓库(Data Warehousing)、在线分析处理(OLAP)、数据挖掘(Data Mining)3种技术的整合为基础,建立企业数据中心和业务分析模型,以提高企业获取经营分析信息的能力,从而提高企业经营和决策的质量与速度。三、商务智能组 成1、关系型数据库2、数据仓库(数据系统整合,收集,清洗)3、多维分析 (不同维度之间的剖析,自定义)4、数据挖掘 (灵魂,产生价值的地方)5、展示 (可视化界面)在线分析处理技术(OLAP:Online Online Analytical ProcessingAnalytical Processing)数据挖掘技术(Data Mining)数据仓库技术(Data Warehousing)数据整合集成各系统的历史数据,建立面向主题的企业数据中心数据分析灵活、动态、快速的多维分析、随机查询、即席报表知识发现通过数学模型发现隐藏的、潜在的规律,以辅助决策三、商务智能体系四、关系型数据库关系型数据库就是由二维表及其之间的联系组成的一个数据组织,关系数据库中的数据结构就是一张二维表,以表格(关系)的形式存放数据。比如:订单数据库包括一个用列表示的描述一个客户信息的表格:名字、住址、电话号码,等等。另外的一个表格会描述一个订单:产品、客户、日期、销售价格,等等。报表:是关系型数据库时代将数据转化为信息的主要手段,但是报表是需要事先由开发人员定制的。比如:2013年5月份的废单报表五、数据仓库我们可以从多个菜市场,挑选我们做需要的蔬菜,肉类等。当然,我们处在一个选择的过程。如果菜不新鲜,我们完全可以不要它.六、多维分析 OALP掌握数据仓库先要了解OLAP多维数据分析OLAP是以海量数据为基础的复杂数据分析技术。侧重于对决策人员和高层管理人员的决策支持,可以快速、灵活地进行大数据量的复杂处理,并且以一种直观易懂的形式将结果提供给决策人员。OLAP的特性:的特性:快速性:系统能在数秒内对用户的多数分析要求做出反应可分析性:用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户所希望的方式给出报告多维性:提供对数据分析的多维视图和分析信息性:能及时获得信息,并且管理大容量信息大家知道数据透视表吗?对于数据的查询,可以有以下两种形式产品名称销售地区销售数量电器电器电器电器服装服装服装服装汇总汇总汇总汇总江苏上海北京汇总江苏上海北京汇总江苏上海北京汇总9404503401730830350270145017708006103180 关系数据库的汇总 查询时除了查询销售量外,有时还查询涉及多个数据项求和,若采取临时进行汇总计算,会使查询效率大大降低。多维数据库的OLAP,多维数据库(MDDB)是以多维方式组织数据,即以维作为坐标系,采用类似于数组形式存储数据。多维数据库中的元素具有形同类型的数值,如销售量。例,多维数据库存储数据如表所示:反映不同产品在不同地区的销售情况江江江江苏苏上海上海上海上海北京北京北京北京电电器器器器服装服装服装服装940940830830450450350350340340270270 江江江江苏苏上海上海上海上海北京北京北京北京汇总汇总电电器器器器服装服装服装服装汇总汇总94094083083017701770450450350350800800340340270270610610173017301450145031803180 多维数据库的汇总在多维数据库中只需要按行或列进行求和,增加汇总的维成员即可。2023/5/1216假设以假设以“产品、城市、时间产品、城市、时间”三维数据为例三维数据为例以上关系可简单的抽象成多维数据分析模式以上关系可简单的抽象成多维数据分析模式 比较发现多维数据比关系数据库表达的关系更加清晰明了,而且所消耗的存贮容量更少,查询处理也格外简单,若要查某地区的销售量,只要按列统计一下即可,若要查某个产品的销售量,则只要按行统计即可。多维数据的表示方法星型模式星型模式雪花型模式雪花型模式星型模式的关系数据星型模式的关系数据库库表示表示产品品ID销售商售商ID地址地址ID时间ID销售数量售数量销售成本售成本总收入收入地理位置地理位置维表表时间维表表产品品维表表产品品ID时间ID销售商售商ID地址地址ID销售售商商维度表度表v雪花模式在关系数据雪花模式在关系数据库中的表示中的表示 地理地理位置位置维表表时间维表表产品品ID产品名称品名称公司公司ID公司名称公司名称产品品颜色色ID产品品颜色色产品商品商标ID商商标名称名称产品品类型型ID产品品类型名型名销售售商商维度表度表产品品ID销售商售商ID地址地址ID时间ID销售数量售数量销售成本售成本总收入收入产品品ID公司公司ID产品品颜色色ID产品商品商标ID产品品类型型ID产品品维表表产品品ID销售商售商ID时间ID地址地址ID图图雪花模式的关系数据雪花模式的关系数据库库表示表示OLAP中的常用术语切片/切块上卷/下钻穿透赚取旋转维度事实在多维分析过程中,如果对多维数据集的某个维选定一维成员,这种选择操作就称为切片。也即:如有(维1,维2,维i,维n,观察变量)多维数据集,对维i选定了某个维成员,则(维1,维2,维i成员,维n,观察变量)就是多维数据集(维1,维2,维i,维n,观察变量)在维i上的一个切片。这种切片的数量完全取决于维i上的维成员个数,如果维数越多,可以做的切片也就越多。例:对时间维的切片操作,它对中心数据立方体使用条件:时间=“Q1”选择销售数据。1、切片Q1Q2Q3Q4计算机算机安全安全家庭家庭娱乐电话南京南京北京北京上海上海广州广州605825144003951560440地区地区(城市城市)时间(季季)类型型切片切片广州广州上海上海北京北京南京南京计算机算机安全安全家庭家庭娱乐电话605 825 14 400类型型城市城市在切片的概念中,有以下两个重要的概念必须掌握:多维数据集的切片数量多少是由所选定的那个维的维成员数量的多少所决定的。进行切片操作的目的是使人们能够更好地了解多维数据集,通过切片的操作可以降低多维数数据集的维度,可使人们将注意力集中在较少的维度下进行观察。在一个多维数据集中对两个(及其以上的)维选定维成员的操作可以称为切块。即在(维1,维2,维i,维k,维n,观察变量)多维数据集上,对维i,维k,选定了维成员,则(维1,维2,维i成员,维k成员,维n,观察变量)就是多维数据集(维1,维2,维i,维k,维n,观察变量)在维i,维k上的一个切块。显然,当i=k时,切块操作就退化成切片操作。例:涉及三个维的切块。条件为:(地点=“南京”OR“北京”)AND(时间=“Q1”OR“Q2”)AND(类型=“家庭娱乐”OR“计算机”)2、切块Q1Q2Q3Q4计算机算机安全安全家庭家庭娱乐电话南京南京北京北京上海上海广州广州608214403950156440地区地区(城市城市)时间(季季)类型型切切块计算机算机家庭家庭娱乐Q1Q2南京南京北京北京605395在对数据仓库的多维数据集进行显示操作过程中,用户常常希望能将多维数据集改变其显示的维方向,也就是说进行多维数据集的旋转操作。旋转操作可将多维数据集中的不同维进行交换显示,以使用户更加直观地观察数据集中不同维之间的关系。例:类型和地区在一个2-D切片上转动。3、旋转 北京市北京市北京市北京市上海市上海市上海市上海市天津市天津市天津市天津市 20022002年年年年1 1季度季度季度季度1231231341346767 2 2季度季度季度季度56561031037373 3 3季度季度季度季度454598985959 4 4季度季度季度季度66668787969620032003年年年年1 1季度季度季度季度1341341021027373 2 2季度季度季度季度56561391396969 3 3季度季度季度季度232397976262 4 4季度季度季度季度55558282949420022002年年年年20032003年年年年1 1季度季度季度季度2 2季度季度季度季度3 3季度季度季度季度4 4季度季度季度季度1 1季度季度季度季度2 2季度季度季度季度3 3季度季度季度季度4 4季度季度季度季度北京市北京市北京市北京市123123565645456666134134565623235555上海市上海市上海市上海市1341341031039898878710210213913997978282天津市天津市天津市天津市67677373595996967373696962629494广州广州上海上海北京北京南京南京计算机算机安全安全家庭家庭娱乐电话60582514400类型型城市广州广州上海上海北京北京南京南京计算机算机安全安全家庭家庭娱乐电话类型型城市城市40014825605旋旋转通通过一个一个维的概念分的概念分层向上攀升或者通向上攀升或者通过维归约,在数据立方体上在数据立方体上进行聚集,称行聚集,称为上卷操作。上卷操作。例:例:在地区在地区维层次向上攀升,在中心数据立方体次向上攀升,在中心数据立方体执行上卷操作。(行上卷操作。(这个分个分层被定被定义为全序:全序:县城市城市州或省州或省国家)国家)4、上卷Q1Q1Q2Q2Q3Q3Q4Q4计算机计算机安全安全家庭娱乐家庭娱乐电话电话南京南京北京北京上海上海广州广州605825144003951560440地区地区(城市城市)Q1Q1Q2Q2Q3Q3Q4Q4计算机计算机安全安全家庭娱乐家庭娱乐电话电话江苏省江苏省广东省广东省地区(省)地区(省)上卷上卷从城市到省从城市到省 下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。下钻可以通过沿维的概念分层向下或引入新的维来实现。例:沿着年季月天定义的时间维的概念分层向下,在中心数据立方体执行下钻操作的结果。5 5、下钻、下钻150北京北京南京南京上海上海广州广州1 1月月2 2月月3 3月月4 4月月5 5月月6 6月月7 7月月8 8月月9 9月月1010月月1111月月1212月月时间时间(月月)地区地区(城市城市)150100150计算机计算机安全安全家庭娱乐家庭娱乐电话电话下钻下钻从季到月从季到月OLAP的其它操作的其它操作还有有统计表中最高表中最高值和最低和最低值的的项数,数,计算平均算平均值、增、增长率、率、利利润、投、投资回回报率等率等统计计算。算。OLAP提供了分析建模机制,包括推提供了分析建模机制,包括推导比率、比率、变差等以及跨越多差等以及跨越多维计算度量的算度量的计算引擎。它算引擎。它能在每一粒度能在每一粒度级和在所有和在所有维的交叉的交叉产生生汇总、聚集和分聚集和分层。OLAP也支持也支持预报、趋势分析和分析和统计分析的函数模型。分析的函数模型。在在这种意种意义下,下,OLAP是一种是一种强有力的数据有力的数据分析工具。分析工具。多维分析-维度维度在数据仓库中主要对用户要读取的指标进行过滤和重新组织。可以将用户对事实的查询结果按照维度指标进行筛选,只允许与维度指标相关的数据返回给用户。维度层级用来描述维度的各个层级。根据维度细节程度的不同,划分数据在逻辑上的等级关系,例如,时间维度包括年、季度、月、日等层次,地区维度包括国家、省、市等层次。用维表来记录多维数据库中的维度,将多维数据立方体的坐标轴上的各个取值记录在一张维表中,这样对于一个n维数据立方体就存在n张维表。多维分析维度表事实是各个维度的交点,是对某个特定事件的度量。比如客户打电话,可能选择的度量有通话时长、通话次数和通话费用等;客户购买商品,可能选择的度量有购买的次数、购买商品的金额和购买商品的数量等。六、多维分析事实事实表用来记录多维数据立方体各个维度的交点的度量值。这样,多维数据立方体各个坐标轴上的刻度以及立方体各个交点的取值都被记录下来,因而多维数据立方体的全部信息就被记录下来。多维数据立方体中所有的度量信息均可记录在同一事实表中,因此事实表的体积要比维表大得多。多维分析事实表事实表设计事实表中包含2部分:一是由主键和外键所组成的键部分。事实表设计另一部分是用户希望在数据仓库中所了解的数值指标,这些指标是为每个派生出来的键而定义和计算的,称为事实或指标。维度和事实的区别:来自数据源的数值数据字段到底是一个已度量的事实还是一个维度的属性是比较容易混淆的。一般情况下,在每次抽样时,如果数值数据字段的度量都改变,那么它就是事实,如果它是某种东西的离散值描述,并几乎保持为常数,那么它就是维属性。多维分析 OALP六、多维分析4546

    注意事项

    本文(商务智能理论与应用4-数据仓库34650.pptx)为本站会员(jix****n11)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开