电信数据仓库设计.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《电信数据仓库设计.ppt》由会员分享,可在线阅读,更多相关《电信数据仓库设计.ppt(76页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、陕陕 西西 省省 电电 信信 有有 限限 公公 司司电信数据仓库设计 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望陕陕 西西 省省 电电 信信 有有 限限 公公 司司议程议程概述功能架构数据架构ETL架构集成架构安全架构平台架构实施方法论陕陕 西西 省省 电电 信信 有有 限限 公公 司司总体架构总体架构EDWODS数数据据总总线线ADB使用使用人员人员CIF语义层语义层综合综合统计统计分析分析平台平台EDACIFCRM计费业业务务及及管管理理系系统统。数据总线
2、数据总线业务操作数据客户资料业务运营数据业务运营数据统一经营数据共享统一经营数据共享业务分析结果统计分析数据源统计分析数据源统计分析数据源统计分析数据源决策信息业务查询结果业务分析结果业务操作数据客户资料业务运营数据业务运营数据业务运营数据业务分析结果业务分析结果陕陕 西西 省省 电电 信信 有有 限限 公公 司司整体目标整体目标打破信息孤岛,实现数据共享数据共享,构建企业数据全集企业数据全集综合统计分析平台的数据支撑综合统计分析平台的数据支撑,建立从数据转换为价值的体系,让数据发挥出企业核心资源的效用,实现数据的增值,彻底改善彻底改善IT对于业务的支撑能力,尤其是对分析决策的支持对分析决策的
3、支持能力能力提供统一的数据支撑和标准规范的对外接口统一数据管理,保证数据准确和可追踪管理,支持内控,构建企业统一的数据管理平台企业统一的数据管理平台 陕陕 西西 省省 电电 信信 有有 限限 公公 司司系统定位系统定位按照陕西电信规划模型,整合各业务系统按照陕西电信规划模型,整合各业务系统的数据,实现企业范围的数据统一视图的数据,实现企业范围的数据统一视图通过技术和管理手通过技术和管理手段,实现面向经营段,实现面向经营分析决策的分析决策的企业级企业级统一共享的数据管统一共享的数据管理平台理平台通过对数据的组织加工,实现从数通过对数据的组织加工,实现从数据到信息的转变;提供对综合统计据到信息的转
4、变;提供对综合统计分析平台和其它系统的数据支撑分析平台和其它系统的数据支撑综合数据仓库平台(综合数据仓库平台(EDW)定位:)定位:打破信息孤岛,实现数据共享。打破信息孤岛,实现数据共享。数据支撑与价值提升。数据支撑与价值提升。构建企业级数据管理平台。构建企业级数据管理平台。EDAEDW陕陕 西西 省省 电电 信信 有有 限限 公公 司司建设范围建设范围数据范围数据范围:企业级数据整合和组织,以支撑综合统计分析平台中各主题分析、分析查询、报表统计等和其它系统的数据需求。功能范围功能范围:数据组织管理、ETL管理、元数据管理、数据质量管理、数据整合等。陕陕 西西 省省 电电 信信 有有 限限 公
5、公 司司与综合统计分析平台与综合统计分析平台-分工界面分工界面UniverseUniverseUniverseUniverse综综合合统统计计分分析析平平台台细节数据层细节数据层细节数据层细节数据层汇总数据层汇总数据层汇总数据层汇总数据层应用集市层应用集市层应用集市层应用集市层数数据据管管理理综综合合数数据据仓仓库库平平台台数据整合数据整合CubeCubeCubeCube企业仪表盘企业仪表盘企业仪表盘企业仪表盘即席查询即席查询即席查询即席查询企业报表企业报表企业报表企业报表预警预测预警预测预警预测预警预测OLAPOLAPOLAPOLAP分析分析分析分析 业务应用业务应用 业务分析业务分析分工界
6、面分工界面临时区临时区临时区临时区陕陕 西西 省省 电电 信信 有有 限限 公公 司司议程议程概述功能架构数据架构ETL架构集成架构安全架构平台架构实施方法论陕陕 西西 省省 电电 信信 有有 限限 公公 司司功能架构功能架构数数据据处处理理数数据据管管理理数据数据数据数据获取获取获取获取数据数据数据数据提供提供提供提供数据数据数据数据整合整合整合整合文件完整文件完整性检验性检验接口文件接口文件管理管理接口文件接口文件异常处理异常处理 数据数据 获取获取 清洗转换清洗转换合并合并细节数据细节数据生成生成汇总数据汇总数据生成生成数据数据异常处理异常处理 集市数据集市数据生成生成ETL调度调度和监
7、控和监控 数据数据 备份备份 数据数据 检验检验 数据数据 提供提供数据模型数据模型管理管理元数据元数据管理管理数据质量数据质量管理管理安全性安全性管理管理系统系统监控监控系统备份系统备份和恢复和恢复陕陕 西西 省省 电电 信信 有有 限限 公公 司司逻辑架构逻辑架构综合结算系统统一客户资料智能网计费帐务系统10000号手工录入数据数据源财务系统 综合受理预处理抽取清洁转换装载ETL-1 细节细节数据层数据层 汇总汇总数据层数据层 临时区临时区错误数据数据仓库接口数据采集接口文件格式管理ETL规则管理 商业元数据管理数据仓库元数据管理 报表元数据管理系统监测/告警安全管理日志管理接口管理元数据
8、管理系统管理统计报表立方体数据生成抽取转换汇总装载ETL-2格式检查和转换 应用应用集市层集市层综合统计分析平台 XX系统陕陕 西西 省省 电电 信信 有有 限限 公公 司司外部数据数数据据获获取取细节数据层CRM、计费帐务、结算、10000号、财务等系统数据文件临时存放区数据文件临时存放区通知重传通知重传读取读取数据格式转换数据格式转换数据获取数据获取临时区临时区错误数据错误数据陕陕 西西 省省 电电 信信 有有 限限 公公 司司ETL-1细节数据层细节数据层汇总汇总数据层数据层ETL-2数据提供模块数据仓库连接控制数数据据整整合合元数据系统管理ETL-1抽取规则ETL-2抽取规则ETL-1
9、日志ETL-2日志数据仓库元数据商业元数据ETL-1/2/3规则管理ETL-1/2/3日志管理商业元数据管理数据仓库元数据查看ETL-1/2/3过程监控数据仓库数据访问日志管理数据仓库数据更新调度管理数据整合数据整合临时区应用集市层应用集市层ETL-3ETL-3抽取规则ETL-3日志ETL-3陕陕 西西 省省 电电 信信 有有 限限 公公 司司抽取数据抽取数据元数据系统管理根据转换规则根据转换规则转换数据转换数据确定数据格式确定数据格式按既定方式按既定方式提供数据提供数据EDW网络传送地址及安全数据数据传送日志数据抽取、转换规则传送目录及格式抽取、转换规则管理传送格式管理传送日志管理传送目录及
10、安全管理提供的数据数据提供数据提供数据提供陕陕 西西 省省 电电 信信 有有 限限 公公 司司议程议程概述功能架构数据架构ETL架构集成架构安全架构平台架构实施方法论陕陕 西西 省省 电电 信信 有有 限限 公公 司司数据分层设计数据分层设计业务需求的满足从上到下是分析逐步深入、数据需求细化的过程数据处理的过程从下到上是粒度加粗、更加面向应用的过程数据分层是根据数据处理、需求满足过程的特点,并考虑系统效率、数据稳定性而设计的。细节数据层细节数据层细节数据层细节数据层(按企业模型整合(按企业模型整合(按企业模型整合(按企业模型整合的当前细节数据)的当前细节数据)的当前细节数据)的当前细节数据)汇
11、总数据层汇总数据层汇总数据层汇总数据层(轻度汇总数据)(轻度汇总数据)(轻度汇总数据)(轻度汇总数据)应用集市层应用集市层(高度汇总数据)(高度汇总数据)临时区临时区临时区临时区(原始细节数据)(原始细节数据)(原始细节数据)(原始细节数据)业务业务业务业务数据数据数据数据业务需求满足的过程数据处理的过程陕陕 西西 省省 电电 信信 有有 限限 公公 司司临时区临时区以表的形式存放生产系统传送过来的数据以表的形式存放生产系统传送过来的数据生产系统包括:统一客户资料、综合受理、计费帐务、综合结算、10000号、财务、IN等用于进行数据整合的过程处理和异常处理用于进行数据整合的过程处理和异常处理原
12、则:原则:采用同生产系统相同的表结构去掉与分析无关的属性字段增加时间属性字段陕陕 西西 省省 电电 信信 有有 限限 公公 司司细节数据层的主题域细节数据层的主题域陕陕 西西 省省 电电 信信 有有 限限 公公 司司ER概念模型总图概念模型总图资源资源市场营销市场营销 产品产品 事件事件 服务服务 帐务帐务 客户客户 企业企业 供应商供应商/合作伙伴合作伙伴企业发起市场营销客户接受市场营销企业提供产品客户购买产品客户发起/经历事件营销类事件产品付费关系客户指定帐务关系,为产品付费产品提供相应服务客户使用服务产品类事件帐务类事件服务类事件服务使用产生帐务企业提供服务服务使用资源产品使用资源企业拥
13、有资源供应商提供资源企业与供应商合作供应商帐务企业帐务通用实体通用实体陕陕 西西 省省 电电 信信 有有 限限 公公 司司细节数据层建模细节数据层建模数据仓库数据仓库数据源数据源陕西规划数据模型陕西规划数据模型 源系统模型 源系统数据分析 陕西电信规划数据模型适合数据仓库的 主题域 层面 实体 属性 关系建模原则:建模原则:去掉与分析无关的实体、属性 将影响效率的竖表(如属性表等)变为横表 增加时间属性 记录变更历史 增加映射字段或映射表 反正则化处理,增加冗余信息陕陕 西西 省省 电电 信信 有有 限限 公公 司司第三范式(第三范式(ER图)图)第三范式要求第三范式要求1、每个属性的值唯一,
14、不具有多义性;2、每个非主属性必须完全依赖于整个主键,而非主键的一部分;3、每个非主属性不能依赖于其他关系中的属性,因为这样的话,这种属性应该归到其他关系中去。不满足第三范式的举例不满足第三范式的举例class(class_id,class_name,teacher_id,teacher_name)规范化后规范化后class(class_id,class_name,teacher_id)teacher(teacher_id,teacher_name)总结总结确定主键和非主键属性的关系关注逻辑层面上的实体和关系,不考虑可用性问题需物化为表后,方可在DW创建、使用陕陕 西西 省省 电电 信信 有有
15、 限限 公公 司司反正则化处理反正则化处理处理方法处理方法增加冗余列增加冗余列避免查询时进行表连接操作增加派生列增加派生列避免查询时连接和使用聚合函数重新组表重新组表提高性能和效率处理策略处理策略对订单,增加“市场活动ID”对产品实例,增加“订单ID”对话单、帐单,除原有的“产品实例ID”,增加“客户ID”对话单,增加“帐务周期ID、时段ID、开始时间”等对客户/用户/帐户,分为当前信息表和历史信息表对话单、帐单,采用按“业务本地网”分表的方式对客户,分为“社会属性ID、自然属性ID、消费属性ID”其它陕陕 西西 省省 电电 信信 有有 限限 公公 司司汇总数据层汇总数据层存放数据存放数据资料
16、汇总、清单汇总、关联汇总、宽表等用途用途提高性能,防止大量的细节数据访问数据沉淀,粒度较粗的数据可以保存更长时间承上启下,连接数据驱动的3NF细节数据和需求驱动的Star-Schema数据原则原则将客户基础资料变更的时间粒度增粗对清单/帐单类数据在客户/用户/帐户级别上汇总对经常使用的关联操作,提前进行关联汇总,以表的形式存放单条记录包括用户基本信息、产品选择和使用量、费用信息,方便业务人员使用陕陕 西西 省省 电电 信信 有有 限限 公公 司司应用集市层应用集市层以多维模型、宽表、3NF等方式存放高度汇总数据直接支持前端分析应用应用集市设立的原则:按相同处理功能:如KPI集市、报表集市等按业
17、务分析主题:如市场竞争集市、市场营销集市等按特定分析目的:如数据挖掘集市、收入保障集市等其它陕陕 西西 省省 电电 信信 有有 限限 公公 司司雪花模式雪花模式是对星型模式的扩展(维度)日期、地区等多层次的维度均可类似扩展优点:在每个维中最小的数据冗余;增加建模的灵活性(维层次结构可以增加,无需改变事实表);对复杂的维是非常有用的缺点:复杂的查询,包含很多连接;性能可能会较差陕陕 西西 省省 电电 信信 有有 限限 公公 司司星型模式星型模式优点:强调容易使用和性能;消除或降低雪花模型的缺点不足:数据准备慢,随业务变化的能力差一种多维的数据关系,由一个事实表和一组维表组成。每个维表表达一个维度
18、维度,所有维度字段组成事实表的复合主键。事实表的非主属性称为事实事实,都是汇总出来的数值型数据。维大都是文字、时间等类型的数据 陕陕 西西 省省 电电 信信 有有 限限 公公 司司平衡星型和雪花的方法平衡星型和雪花的方法StoreSalesTimeProductCustomer对仅牵涉到简单的单层维度的事实表,采用星型模式对牵涉到多层维度但纬度深度仅在一个方向增加的事实表,采用星型模式;在纬度深度超过3层的情况下,采用雪花模式对牵涉到多层维度且纬度深度在多个方向增加的事实表,采用星型和雪花混合模式陕陕 西西 省省 电电 信信 有有 限限 公公 司司应用集市层建模应用集市层建模需求建模需求建模时
19、间变化建模 MDDM模型优化和增强容量估计确定维度、指标建立事实和维R-OLAP 设计优化多维模型多维模型业务分析模型业务分析模型面向过程的需求面向信息的需求用户需求用户需求数据仓库模型数据仓库模型StoreSalesTimeProductCustomer陕陕 西西 省省 电电 信信 有有 限限 公公 司司议程议程概述功能架构数据架构ETL架构集成架构安全架构平台架构实施方法论陕陕 西西 省省 电电 信信 有有 限限 公公 司司ETL架构与流程架构与流程陕陕 西西 省省 电电 信信 有有 限限 公公 司司根据业务和数据情况,采用不同的数据整合路线根据业务和数据情况,采用不同的数据整合路线细节数
20、据层细节数据层细节数据层细节数据层汇总数据层汇总数据层汇总数据层汇总数据层应用集市层应用集市层临时区临时区临时区临时区T1F1S1T2D1F2S2业务业务数据数据数据建模数据建模数据建模数据建模数据建模数据建模数据建模数据建模D2“急用先行”ETLDW正常ETL数据建模陕陕 西西 省省 电电 信信 有有 限限 公公 司司DFD顶层图顶层图陕陕 西西 省省 电电 信信 有有 限限 公公 司司数据抽取策略数据抽取策略源源数数据据分分类方方式式数据数据操作操作分分类类数据特征数据特征主要数据内容主要数据内容流水型增长(INSERT)数据按增量方式产生,不涉及对已有数据的更新操作清单、帐单、定单等变化
21、更新(UPDATE)对已有数据进行更新资源配置信息等两者结合(INSERT/DELETE+UPDATE)按增量方式产生新数据的同时,还对已有数据进行更新客服记录等数据数据量量大清单、帐单等相对较小资源管理、系统管理类数据陕陕 西西 省省 电电 信信 有有 限限 公公 司司数据清理过程数据清理过程数据分析和业务逻辑理解数据分析和业务逻辑理解通过通过ETL过程进行数据整合过程进行数据整合 错误数据反馈回业务系统错误数据反馈回业务系统业务系统数据问题整改业务系统数据问题整改分析数据源理解业务规则格式处理、统一编码字段取舍和上下文处理数据校验和稽核对问题数据导出:a、数据重复 b、属性值错误 c、数据
22、不一致数据质量的管控陕陕 西西 省省 电电 信信 有有 限限 公公 司司数据整合原则数据整合原则“基础资料(三户、产品实例等)基础资料(三户、产品实例等)”的统一的统一确定主系统、数据流向和逻辑关系以统一客户资料为准对计费帐务、综合结算、10000号、IN等系统的基础资料进行整合系统冗余数据的处理:以主系统为主,其它系统做为补充,按照数据流向和逻辑关系进行整合,确保数据的一致性和完整性“产品、商品产品、商品”等关键业务编码的统一等关键业务编码的统一以综合受理为准对各系统的业务编码域标准编码之间进行映射“产品实例到达数、计费时长产品实例到达数、计费时长”等统计指标的统一等统计指标的统一统一统计指
23、标的含义、单位、周期、统计方法等建立不同主题域之间的关联关系建立不同主题域之间的关联关系建立不同域之间的关联关系,如客户域与产品域、事件域、帐务域、资源域、市场营销域等之间的关联关系业务系统的中间汇总结果会纳入综合数据仓库平台,用于快速支持分析应用的开发和进行数据稽核。陕陕 西西 省省 电电 信信 有有 限限 公公 司司ETL开发开发创建Repository创建Project创建Data Store创建Job创建Data Flow创建Work FlowJob部署Job执行运行监控RepositoryProject:XX平台 Job执行Job部署运行监控 Project:综合数据仓库平台Data
24、 Store:源和目标定义计费帐务/统一客户资料EDWJob1:用户整合Work Flow1:用户清洗转换Data Flow1:用户清洗Data Flow2:用户转换Work Flow2:记录合并Job2:产品整合Data Flow:产品整合示例:示例:陕陕 西西 省省 电电 信信 有有 限限 公公 司司ETL开发考虑的几个方面开发考虑的几个方面文件接口格式的统一制订与正确性校验文件接口格式的统一制订与正确性校验采用增量、全量等灵活的抽取时机与策略,减少对业务系统采用增量、全量等灵活的抽取时机与策略,减少对业务系统的影响的影响分段并行处理,提高系统性能分段并行处理,提高系统性能负载均衡,提高可
25、靠性和系统性能负载均衡,提高可靠性和系统性能合理合理ETLETL在专业工具和数据库之间的分配,大数据量汇总利用在专业工具和数据库之间的分配,大数据量汇总利用数据库性能数据库性能合理设计合理设计ETLETL时机和策略,确保数据产生的准时性和可用性时机和策略,确保数据产生的准时性和可用性统一的统一的ETLETL流程调度、监控和维护,实现流程调度、监控和维护,实现ETLETL的集中管理的集中管理陕陕 西西 省省 电电 信信 有有 限限 公公 司司数据质量原则数据质量原则完整性完整性:对一个业务,一个客户,一个产品,一个营销活动,一个客户的性质等进行缺失考察。有效性有效性:数据包含了一个有效的数据格式
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 电信 数据仓库 设计
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内