BI基础概念培训教材4291.pptx
让 数 据 变 为 财 富 商务智能平台交流目录商务智能(BI)简介介绍术语OLTP和OLAP的区别OLAP的整体框架数据仓库的内部结构数据立方和数据仓库的关系多维数据集组成数据仓库的维度表在OLAP里的表现形式。查询立方什么是商务智能(BI)?现代化的业务操作,通常会产生大量的数据,如何从如此繁多的业务数据中提取有用的信息,然后根据这些信息来采取明智的行动,这是决策者面临的最大问题,这也就是商务智能解决的问题。什么是商务智能(BI)?商业智能能够辅助业务经营决策,既可以是操作层的,也可以是战术层和战略层的决策。商业智能是对商业信息的搜集、管理和分析过程,目的是使企业的各级决策者获得知识或洞察力(insight),促使他们做出对企业更有利的决策。理解商务智能目标:数据信息 转化为商务价值方法:转储、监控、分析和展现海量数据过程:知识决策价值数据信息分析提炼指导创造行动落实什么是商务智能(BI)?商业智能的关键:是根据企业发展需要,建立业务模型,从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性.然后对数据经过抽取(Extraction)、转换(Transformation)和装载(Loading),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图.在此基础上利用合适的查询和分析工具、数据挖掘工具、联机分析处理(OLAP)工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。BI的基本框架什么是商务智能(BI)?所需技术:ETL数据仓库、联机分析处理(OLAP)工具数据挖掘等技术。商务智能的实现涉及到软件、硬件、咨询服务及应用 商务智能发展历程1964年,一个叫Michael S.Scott Morton的研究员在哈佛商业学院提出了“决策支持系统”的想法,这便是BI商务智能萌芽。20世纪70年代之后,当企业建立了大量的IT系统,信息已经不再缺乏而是泛滥,而企业国际化、消费者需求的多样化与苛刻、竞争对手数量的增加和竞争层次的提高,无不要求企业更加关注对企业内部知识、外部信息的提炼和洞察,以保证企业决策的快速与准确。80年代,“商业智能”的标准是能容易地获得想要的数据和信息。90年代是商业智能真正起步的阶段。商务智能发展当前,商务智能(当前,商务智能(BI)市场正处于一个重要)市场正处于一个重要的转型期的转型期进入二十一世纪,进入二十一世纪,“应用应用”成为关键词之一,成为关键词之一,商务智能的深入应用也成为业界关注的焦点商务智能的深入应用也成为业界关注的焦点2003年起,商务智能领域掀起并购热潮年起,商务智能领域掀起并购热潮BI受市场关注的原因如何利用大量数据进行决策:ERP/SCM/CRM等产生大量地数据,刺激了BI投资,其目的应用数据进行决策绩效管理成为BI市场增长重要因素:绩效管理是驱动商业智能市场增长的重要因素之一,绝大多数公司希望在该领域做出成绩 日益严格的行业规范要求:例如萨班斯-奥克斯利(Sarbanes-Oxley)法等法案的颁布,也推动了BI工具的接受和认同商务智能的热点应用财务绩效评估盈利分析预算风险控制欺诈识别市场客户关系管理市场促销市场细分品牌管理客户忠诚度分析客户流失分析产品及服务目录管理销售销售分析客户管理销售漏斗管理需求预测关联销售分析Web点击流和销售分析运营供应链优化IT运营优化分销商评估质量控制内部管理流程优化BI国内应用l企业信息化整体上处理基础建设阶段 数据整合,规划基础体系架构,实施基础应用l多数企业BI应用处于较低的层次 报表查询+初步分析l金融、电信、保险等企业起步早些BI应用的大好时期正在到来BI主要用途BI具有三方面的主要用途:对组织的财务和运营健康状况进行监视。报告、分析工具、关键性能指标(KPI)和仪表板规范 组织的运营从数据中挖掘出新的信息同运营系统、信息反馈系统的双向集成BI 对现有系统的整合基于现有业务系统和历史数据通过对数据的充分运用提升现有系统价值可以同时支持多种不同的数据库平台面向数据分析而非过程跟踪可以基于实时数据也可以基于非实时数据商务智能系统如何辅助决策通过数据的整合提供更加全面的信息通过预先计算提供更快捷的速度通过OLAP技术可以非常灵活的以多种形式展现数据,以使管理者发现问题通过数据挖掘模型(以历史数据为基础)预测商务的未来走势,为管理者提供决策支持商务智能应用的范围不局限于某一个行业或局限于具体的业务面向的是数据,不是过程使用通用的分析方法和模型不局限于特定的使用人Information worker、Knowledge Worker领导层和决策层任何其他需要使用数据和报表的人受行业发展冷热的影响不大IT行业发展的时候需要商务智能IT行业冬天的时候仍然需要商务智能市场份额主要由国际BI厂商占领为什么我们需要商务智能?我们在未来的三年中将会制造出比过去三十万年更多的数据资料!加州大学信息管理学院 统计,54%的人认为很难找到他们想得到的信息.43%的人认为不知道这些内部的信息是否正确.77%的人认为由于信息的缺乏,很多决定是不正确的.61%的人认为50%的决定是拍脑袋来的.为什么我们需要商务智能?在过去的几十年里,各种机构已经花费了大量的财力和资源去构建联机事务处理系统(OLTP)和资源计划系统(ERP)等各种系统.不断累计的信息和存储在数据仓库中的数据达到了令人惊讶的规模。当这些系统极大地改善了信息的自动处理能力时,也造就了很多“信息孤岛”(information silos)-大量只有很有限的获取和分析能力的数据。一项IBM的调查表明,大部分机构只利用了其存储信息的2%-4%。北京市管委IT状况应急事件处理数据应急事件处理数据基础地理信息数据基础地理信息数据视频监控数据视频监控数据城管通平台数据城管通平台数据井盖数据井盖数据市政设施数据市政设施数据环卫信息数据环卫信息数据户外广告数据户外广告数据 视频监控数据应急事件处理数据基础地理信息数据城管通平台数据环卫信息数据户外广告数据市政设施数据井盖数据?为什么我们需要商务智能?传统的方案不能提供一个经过整合的,功能强大的分析工具给最终用户。特别是给那些非技术的商业用户。由于下图中所示的两个主要原因,传统系统不能满足商务层面的分析需要。难以获得的信息未经整合的信息获得性和整合性的空缺传统分析系统常见问题 术语介绍数据仓库:面向主题的、集成的、与时间相关且不可修改的数据集合。维度:维度是分析中描述性的分类,通过它可以将度量值分离出来进行分析 度量:在多维数据集中,度量值是一组值,这些值基于多维数据集的事实数据表中的一列,而且通常为数字。此外,度量值是所分析的多维数据集的中心值。即,度量值是最终用户浏览多维数据集时重点查看的数字数据。您所选择的度量值取决于最终用户所请求的信息类型。一些常见的度量值有 sales cost、和 production count 等 术语介绍粒度:数据汇总的层次或深度。聚合:聚合是预先计算好的数据汇总,由于在问题提出之前已经准备了答案,聚合可以改进查询响应时间。切片:由一个维的一个成员限定的分区数据,称为一个切片。数据钻取:最终用户从常规多维数据集、虚拟多维数据集或链接多维数据集中选择单个单元,并从该单元的源数据中检索结果集以获得更详细的信息,这个操作过程就是数据钻取。级别:级别是维度层次结构的一个元素。级别描述了数据的层次结构,从数据的最高(汇总程度最大)级别直到最低(最详细)级别。OLTP 与OLAP的区别OLTP(On-Line Transaction Processing)联机事务处理OLAP(On-Line Analysis Processing)联机分析处理OLTP 与OLAP的区别 OLTP 系统的特征处理实时业务包含了为数据录入和编辑进行优化的数据结构提供有限的决策支持能力OLTP 系统的例子 订单系统客户服务 l库存管理 l财务 OLTP 与OLAP的区别OLTP原始数据细节性数据当前值数据可实时更新一次处理的数据量小面向应用,事务驱动业务操作人员 支持日常操作简单的事务100MB-GBOLAP整理后的数据综合性和提炼性数据历史数据周期性刷新更新一次处理大量的数据面向主题,分析驱动决策人员,高级管理人员分析决策复杂的查询100GB-TB数据仓库的特征为商业分析过程展示数据 提供一致的历史数据存储把数据储存为抽取和查询而优化的结构整合异构的数据统一有效的数据源把数据整理为稳定、面向主题的结构数据仓库系统的创建数据仓库数据仓库终端用户终端用户原始业务数据原始业务数据数据集结区数据集结区 数据的提取,转换,加载(数据的提取,转换,加载(ETL)了解数据仓库数据仓库终端用户终端用户数据集市数据集市OLAP数据仓库数据仓库维度表维度是分析中描述性的分类,通过它可以将度量值分离出来进行分析。主键主键 唯一性 关联事实表与维度表两个选择应用主键(app suffix):原业务系统的主键代理键(key suffix)数据仓库系统产生的数字键product_id_appproduct_dim_key在维度中分不同的层次定义层次结构的好处 允许用户从不同的层次展示数据在分析中采用不同的路径进行钻取举例:日期 分为,年半年季度月日期星型模型Employee_DimEmployee_DimEmployeeKeyEmployeeID.Time_DimTime_DimTimeKeyTheDate.Product_DimProduct_DimProductKeyProductID.Customer_DimCustomer_DimCustomerKeyCustomerID.Shipper_DimShipper_DimShipperKeyShipperID.Sales_FactTimeKeyEmployeeKeyProductKeyCustomerKeyShipperKeySales AmountUnit Sales.雪花模型在多维表中定义层次节省存储空间存取效率较低 事实表的组成维度表维度表customer_dimcustomer_dim201 ALFI Alfreds product_dimproduct_dim 25 123 Chai 事实表事实表customer_key product_key time_key quantity_sales amount_sales外键外键外键外键2012513440010,789事实表中的粒度就是维度表与事实表中相关联的最小事实表中的粒度就是维度表与事实表中相关联的最小级别的数据级别的数据134 1/1/2000 time_dimtime_dim度量值度量值度量值度量值事实表库存数库存数,入库数,出库数入库数,出库数产品的销售数量产品的销售数量,成本成本,销售额,订单数销售额,订单数度量值:业务数据度量值:业务数据外键 time_dim_keyproduct_dim_keycustomer_dim_keyproduct_keycustomer_keyorder_date_key外键约束外键约束与维度表中的主键的联系使事实表的数据与维度表发生关联外键外键 约束约束外键约束外键约束数据仓库和多维立方 终端用户终端用户数据存取数据存取数据集市数据集市OLAP数据仓库数据仓库多维数据集的组成度量值用户分析的业务数据维度度量值的事实记录的特性来源于维度表Cubes综合维度和度量值的数据模型 OLAP 数据的逻辑存储介质维度表OLAP 维度YearQuarterMonth1999Q1Jan1999Q1Feb时间维时间维MonthQuarterYear关系表关系表OLAP立方重庆重庆杭州杭州北京北京上海上海地区地区产品维产品维Q4Q3Q2时间维时间维苹果苹果樱桃樱桃葡萄葡萄Q1西瓜西瓜地区维地区维Products DimensionQ4Q3Q2时间维时间维苹果苹果樱桃樱桃葡萄葡萄Q1西瓜西瓜查询立方重庆重庆杭州杭州北京北京上海上海1000销售量设计数据仓库设计数据仓库的步骤和注意点步骤:1.确定主题 2.确定分析模型 3.建立数据仓库 4.建立ETL过程 5.建立数据立方注意点:1.尽量采用星型模型 2.事实表里的代理键在维度表里必须存在演讲完毕,谢谢观看!