《BI商业智能简介4310.pptx》由会员分享,可在线阅读,更多相关《BI商业智能简介4310.pptx(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、BI/DW IntroductionJames ChenPSO Sr.Consultant程序=算法+数据结构-Niklaus Wirth 数据结构 离散结构 线形结构-数组链表栈队列 树 图算法 空间复杂度 时间复杂度用户内存中数据结构物理数据结构E-R业务流程二者相辅相成,不同应用侧重不同经典业务系统模型Skill set数据库C+/J2EE/.netPowerDesignerER_WINOOUML面向过程OO Design WorkflowDevelop Business Type ModelIdentify Business InterfacesIdentify System Inte
2、rfaces&OpsCreate Initial Comp Specs&ArchitectureDiscover Business OperationsRefine Interfaces&OpsRefine Component Specs&ArchitectureDefine Interface Information ModelsSpecify Operation Pre/PostconditionsSpecify Component Interface ConstraintsBusiness Concept ModelUse Case ModelBusiness InterfacesSys
3、tem InterfacesInterfacesInterfacesComponent Specs&ArchitectureComponent Specs&ArchitectureComponent Specs&ArchitectureBusiness Type ModelArchitecture PatternsExisting InterfacesExisting AssetsComponent Identification Component InteractionComponent Specification笑一笑笑一笑数据仓库初学者:数据仓库与数数据仓库初学者:数据仓库与数据库有什么
4、区别?据库有什么区别?某专家:一个有仓一个没仓!某专家:一个有仓一个没仓!BI/DW的引出统计报表需求数字越来越重要报表越来越多效率越来越差数据仓库的定义u数据仓库(Data Warehouse)是一种专为联机分析应用和决策支持系统提供数据源的结构化的数据环境u数据仓库要解决的问题是从数据库中获取信息的问题。数据数据数据数据信息信息信息信息INFORMATIONINFORMATIONINFORMATIONINFORMATION影响数据仓库的几个人物Bill Inmon -数据仓库Ralph Kimball-数据仓库工具箱 Bernard Liautaud-商业智能OLTP与数据仓库系统RDBM
5、S关系数据库关系数据库SAP/ERPVSAM主机系统主机系统EXCELWeb/XMLOLTP业务系统业务系统数据仓库系统数据仓库系统 数据是当前的数据是当前的数据是当前的数据是当前的数据总在实时变化中数据总在实时变化中数据总在实时变化中数据总在实时变化中存储明细数据存储明细数据存储明细数据存储明细数据优化是针对即时更新的事务处理优化是针对即时更新的事务处理优化是针对即时更新的事务处理优化是针对即时更新的事务处理支持日常的业务支持日常的业务支持日常的业务支持日常的业务支持办事人员或行政人员支持办事人员或行政人员支持办事人员或行政人员支持办事人员或行政人员 数据是历史的数据是历史的数据是历史的数据
6、是历史的数据是静态的,除数据刷新外数据是静态的,除数据刷新外数据是静态的,除数据刷新外数据是静态的,除数据刷新外数据是汇总的数据是汇总的数据是汇总的数据是汇总的优化是针对大批量查询而不是更新优化是针对大批量查询而不是更新优化是针对大批量查询而不是更新优化是针对大批量查询而不是更新支持长远的业务战略决策支持长远的业务战略决策支持长远的业务战略决策支持长远的业务战略决策支持决策人员和管理人员支持决策人员和管理人员支持决策人员和管理人员支持决策人员和管理人员面向事务面向事务面向事务面向事务面向决策面向决策面向决策面向决策5-10 年年数据集市数据集市分析型分析型CRM业务指标分析业务指标分析数据仓库
7、数据仓库数据仓库数据仓库BI系统建设方法(1)直接建立BI应用OLTP数据源数据源 各种前端应用KPI指标报表多维分析即席查询数据挖掘数据仓库环境数据仓库环境 业务智能层业务智能层中央数据仓库中央数据仓库数据仓库数据仓库数据集结数据集结数据源数据源 公司数据源外部数据源BIW数据集市数据集市数据仓库管理子系统数据仓库管理子系统 数据仓库元数据目录数据仓库元数据目录信息访问和信息访问和 引用部件引用部件 BI系统建设方法(2)企业数据仓库体系架构RelationalPackageLegacyExternalsourceDataCleanToolSource DataDataStagingWare
8、HouseAdmin.ToolsEnterprise DataWarehouse Data Extraction,Transformationand loadDatamartDatamartEnterprise/Central DataWarehouseRDBMSROLAPRDBMSRDBMSArchitectedDatamartsCentralMetadata Data Modeling ToolEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserToolLocal MetadataLocal Metadata典型物理架构典型物理架构ETL_DM1E
9、TL_DM2BAS_DW1BAS_DW2BAS_OP1BAS_OP2Bas_sw01Bas_sw02Dx_sp01Dx_sp02Dx_sp03元数据管理服务器元数据管理服务器BAS_SM1BAS_SM270T!企业数据仓库的目的数据整合-建立一个企业统一的信息平台建立统一的业务数据定义建立唯一的统计分析数据源快速访问采用适合企业BI应用的数据组织方式新需求的开发快数据获取的效率快业务管理层业务操作层战略层底层数据低粒度汇总高粒度汇总建设数据仓库的主要任务数据仓库建模数据仓库建模ETL前端展现组数据挖掘元数据数据仓库引擎NCR TeredataORACLE 9以上DB2 EEESybase IQ
10、MS SQL Server维模型的设计每个维可以由一个或多个维层次或聚合路径组成Dimension 1事实Dimension 2Dimension 4measure 1measure 2.supportive attributes.Dimension 3aggregation path or dimension hierarchydimension key 1dimension key 2.aggregation levelsIWS模型的特点模型的特点简单视图实例仓库底层设计考量(一)仓库底层设计考量(一)慢速变化维问题慢速变化维问题快速变化和慢速变化仓库底层设计考量(二)仓库底层设计考量(二
11、)粒度问题粒度问题一天变化多次入库时间仓库中间层设计考量仓库中间层设计考量基于用户标识基于用户标识多个粒度汇总多个粒度汇总综合各个数据集市综合各个数据集市效率考虑效率考虑仓库集市层设计考量仓库集市层设计考量面向应用面向应用报表集市报表集市挖掘集市挖掘集市主题集市主题集市KPIKPI集市集市维模型维模型以最细粒度数据为主以最细粒度数据为主表加物化视图表加物化视图数据仓库与数据集市数据仓库与数据集市数据源CUBE报表事实表维表维表维表维表数据仓库事实视图维视图维视图维视图维视图业务驱动数据驱动数据集市设计技巧星型还是雪花?组合代理键慢速变化维维度的不同层次处理聚合表的设计.ETL过程源表结构 -目
12、标结构工具?自己编码?-业务逻辑的任务已经很大实时任务和批量任务CDC的处理ODS的处理?BO Date IntegratorInformatica PowerCenterDatastageSagent数据源数据源大数据量大数据量变化数据变化数据关联数据关联数据手工数据手工数据抽取时机和最迟到达时间!抽取时机和最迟到达时间!数据源考量数据源考量-大数据量大数据量二十余种清单二十余种清单上万个文件,大小不一上万个文件,大小不一一天几十一天几十GBGB的数据的数据数据源考量数据源考量-变化数据变化数据实时变化实时变化未存历史未存历史数据源考量数据源考量-关联数据关联数据没有没有transactio
13、ntransaction几个文件不一致怎么办?几个文件不一致怎么办?数据源考量数据源考量-手工数据手工数据外部录入?外部录入?OLTPOLTP系统?系统?天气天气社会指标社会指标集团客户信息集团客户信息操作型操作型CRMCRM数据源考量数据源考量-历史数据更新历史数据更新修改昨日数据修改昨日数据批错价批错价/延迟话单等延迟话单等ETLETL抽取抽取/转换转换/加载加载源数据的理解源数据的理解加载时间加载时间4 4小时小时ETLETL实现实现工具工具LoaderLoader汇总(数据库汇总还是文件汇总)汇总(数据库汇总还是文件汇总)调度调度ETL-ETL-调度调度一天几十一天几十GBGB的数据的
14、数据并行度并行度/任务大小任务大小/资源资源/优先级优先级调度调度清单类(大数据量)清单类(大数据量)-文件的拆分和合并文件的拆分和合并/实时实时处理处理业务类(实体之间的关系复杂)业务类(实体之间的关系复杂)-稽合稽合帐务类(数据准确)帐务类(数据准确)-验证验证参数类(变化影响其他实体)参数类(变化影响其他实体)-告警告警/事先处理事先处理其他任务其他任务月末处理月末处理前端展现固定报表多维分析即席查询仪表盘数据挖据BO(CR)Hyperion(Brio)CognosMicrostrategy仪表盘OLAP分析报表,即席查询固定报表格式灵活多变Crystal ReportMSTRBrioR
15、eportNet多维分析MOLAP -Cognos PowerPlay,Hyperion EssbaseROLAP -BOE,MSTRHOLAP -BO-MS OLAP切片旋转切块钻取OLAP分析多角度、多层次对同一主题进行分析通过旋转、钻取、切片等技术探察数据旋转:按不同顺序组织各个维,对结果进行考察钻取:在一个维内部沿着从高到低或从低到高的方向考察数据(有上钻和下钻两种)切片:在确定某些维数据的情况下对其他维进行观察有MOLAP、ROLAP、HOLAP三种实现方式OLAPOLAP设计设计-指标还是维度指标还是维度性别年龄长途类型通话时段客户数通话时长性别年龄客户数通话时长 长途类型通话时长
16、 通话时段通话时长 1-2点通话时长即席查询语义层效率很关键BO语义层仪表盘仪表盘、KPI-EPM整合了企业的整个绩效、把告警、报表、分析穿在了一起BO EPMHyperion BPM数据挖掘机器学习数理统计数据库预测、特征分析、客户分类SASSPSS数据挖掘实施的体系结构数据挖掘实施的体系结构数据仓库数据挖掘引擎算法数据选择知识库评价修改知识建模分析员领域知识元数据元数据管理元数据管理什么是元数据?什么是元数据?元数据和开发文档有何区别?元数据和开发文档有何区别?为什么单单在数据仓库中如此重视为什么单单在数据仓库中如此重视元数据?元数据?文档语音计费GPRS计费文档帐务文档结算营业文档文档客
17、服文档MIS网管HR文档文档文档元数据管理元数据管理(续续)业务元数据业务元数据业务元数据用业务名称、定义、描述和别名业务元数据用业务名称、定义、描述和别名来表示数据仓库和业务系统中的各种属性,来表示数据仓库和业务系统中的各种属性,直接供业务分析人员使用。直接供业务分析人员使用。技术元数据技术元数据技术元数据描述了数据源、数据转换、抽取技术元数据描述了数据源、数据转换、抽取过程、加载策略以及目标数据库的定义等。过程、加载策略以及目标数据库的定义等。元数据管理元数据管理(续续)CWM 1.0CWM 1.0数据源数据源ETLETL数据仓库数据仓库数据集市数据集市OLAP CUBEOLAP CUBE元数据管理元数据管理(续续)能分析什么?能分析什么?Where UsedDepends On事先还是事后?事先还是事后?自动化修改?自动化修改?典型的项目组织架构典型的项目组织架构 项目经理 首席业务分析师ETL组组长;设计师、软件工程师项目管理组开发组首席架构设计师 项目经理助理 项目管理数据仓库组组长;设计师、软件工程师数据展现组组长;设计师、软件工程师数据挖掘库组组长;设计师、软件工程师项目领导小组客户代表 公司领导 质量经理 支持组系统组培训组客户代表 测试组组长;测试工程师项目组织架构项目组织架构配置管理组演讲完毕,谢谢观看!
限制150内