企业竞争的利器数据仓库和数据挖掘.ppt
《企业竞争的利器数据仓库和数据挖掘.ppt》由会员分享,可在线阅读,更多相关《企业竞争的利器数据仓库和数据挖掘.ppt(59页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、企业竞争的利器数据企业竞争的利器数据仓库和数据挖掘仓库和数据挖掘电信企业参与竞争的利器-数据仓库和数据挖掘提要提要市场竞争-竞争技术数据仓库的基本认识数据仓库设计数据挖掘数据融合动力系统研究我们的实践2电信企业参与竞争的利器-数据仓库和数据挖掘市场竞争市场竞争-竞争技术竞争技术随着电信市场的开放,竞争将越来越激烈利润的降低使得必须从粗放的经营转变到集约的经营经营决策需要尽可能多的定量的依据经营决策需要尽可能快的速度所有这些需要技术上的支持-数据仓库和数据挖掘3电信企业参与竞争的利器-数据仓库和数据挖掘数据仓库的基本认识数据仓库的基本认识4电信企业参与竞争的利器-数据仓库和数据挖掘统一认识:什么
2、是数据仓库技术(Data Warehousing)?l是一个处理过程,而不仅仅代表一组产品l是一个从大量的企业数据中发现有价信息的过程l是充分利用现有资源,而不是摒弃重构l是提供系统及数据的多种访问形式电信企业参与竞争的利器-数据仓库和数据挖掘统一认识:什么是数据仓库(Data Warehouse)?数据仓库是在企业管理和决策中面向主题的,集成的,与时间相关的和不可修改的数据集合Bill Inmon电信企业参与竞争的利器-数据仓库和数据挖掘统一认识:数据仓库体系结构图电信企业参与竞争的利器-数据仓库和数据挖掘统一认识:数据仓库应用体系结构数据集成数据集成数据集成数据集成数据转换数据转换数据转换
3、数据转换数据发布数据发布数据发布数据发布Warehouse Process ManagementWarehouse Process Management数据存取数据存取数据存取数据存取MetadataMetadatan数据集成数据集成:集成不同业务系统中的数据集成不同业务系统中的数据n数据转换数据转换:全部数据被转换成统一的数据格式全部数据被转换成统一的数据格式n数据发布数据发布:数据被存储在靠近用户的地方数据被存储在靠近用户的地方n数据存取数据存取:满足数据分析等应用需求满足数据分析等应用需求nMetadata:元数据.即数据仓库的数据字典.nWarehouse Process Manage
4、ment 保证数据仓库的正确实施电信企业参与竞争的利器-数据仓库和数据挖掘统一认识:建设数据仓库的十二步1.定义项目范围,制定项目开发计划2.确定在企业决策中至关重要的数据3.用数据语言描述企业需求4.建立并修正企业的逻辑数据模型5.建立数据仓库数据模型6.定义数据集市数据模型7.定义可操作的数据源(OLTP数据)8.详细设计9.设计数据仓库的物理数据库10.准备高层次的应用结构设计11.定义各种技术规范12.准备项目实施计划电信企业参与竞争的利器-数据仓库和数据挖掘统一认识:数据仓库建设取得成功的关键因素从项目建设的角度出发:有一个坚实的数据仓库数据模型 有一个专职的数据仓库分析小组 有一个
5、经过深思熟虑的执行计划 各方紧密配合 资金保证 好的自动化工具,支持设计过程和元数据管理 最终用户好用 各种工具齐全,易得 正确的期望值 有专家支持从用户的角度出发:数据准确 数据易于管理 数据可以随时刷新 数据容易访问 数据表现通俗易懂 有利于正确的企业决策电信企业参与竞争的利器-数据仓库和数据挖掘数据量估算 一般情况下,数据空间=数据量估算*2索引空间=数据空间*0.5估算数据量时要考虑:现有数据日,月,季和年的增长率.数据仓库中保留多长时间的历史数据:数据仓库中一般保留几年数据.操作型系统中一般只保留当前数据注意:数据仓库系统和OLTP系统不同,它需要更大的临时空间,用于排序操作和数据求
6、和汇总数据仓库系统也需要较大的缓存空间,用于驻留经常被访问的数据.电信企业参与竞争的利器-数据仓库和数据挖掘模型选择:Inmon 的数据分布式体系结构数据源系统ODS:操作型数据存储集中式数据仓库数据集市OLTP系统时实数据实时/准时实数据数据以批方式修改数据日期:1秒-2 天历史数据数据以批方式修改数据日期:1天-5 年历史和汇总数据数据以批方式修改数据日期:1天-10 年n 数据源系统也可以直接给数据仓库和数据集市提供数据 电信企业参与竞争的利器-数据仓库和数据挖掘模型选择:集中式数据仓库模型OLTP数据源系统集中式数据仓库最终用户n数据被不断地从数据源系统累积到数据仓库中n数据格式和数据
7、的取舍规则与OLTP系统独立n数据仓库中存放的是企业的数据,可以跨业务领域nOLTP 系统 与数据仓库系统彼此独立,OLTP的性能不受影响电信企业参与竞争的利器-数据仓库和数据挖掘模型选择:集中分布式数据仓库模型OLTP数据源系统集中式数据仓库按地域发布的数据集市地域性最终用户n 数据更靠近最终用户电信企业参与竞争的利器-数据仓库和数据挖掘模型选择:分布式累积型数据仓库模型按地域发布的数据集市各地区的OLTP数据源系统集中式数据仓库n 集中定义数据的集成与转换规则 n 数据传递从下往上n 此模型适用于敺植际綌企业电信企业参与竞争的利器-数据仓库和数据挖掘硬件与软件选择:硬件选择数据库服务器的选
8、择取决于数据库的大小和查询的复杂度电信企业参与竞争的利器-数据仓库和数据挖掘硬件与软件选择:硬件选择(续)网络服务器:Single CPU Pentium-based serversUp to 10 GB DatabasesSingle processor UNIX platforms10 to 40 GB Databases适用于高度汇总(Highly Summaried)型数据仓库适用于做网关(Gateway)SMP 数据库服务器:2 to 64 CPUs (通常 4 to 8)共享内存/硬盘大容量内存适用于中型和大型数据库SMP 供应商:Digital,HP,Pyramid,Sequen
9、t,Sun,Cray,IBM电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段:数据仓库数据的多级模型OlderatomicdataCurrentatomicdataLightlysummarizedHighlysummarizedMETADATA85-90%of analysis10%of analysis电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段:数据仓库数据建模的一般方法1.获取最终用户的业务需求2.定义业务规则3.建立主题(SA)数据视图4.建立企业逻辑数据模型5.定义操作型的数据源6.建立数据仓库数据模型7.必要的话,把数据仓库模型分割成几个子模型,分别建设,以满足不同用户和
10、不同工具的需要.注意注意:数据仓库建设的每一步都要严格质量检查数据仓库建设的每一步都要严格质量检查,每一步的实施每一步的实施可能要经过多次反复可能要经过多次反复.电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段:数据建模的基本概念 模型模型-对主题的抽象表示.数据模型数据模型-对一定范围的数据的定义,特征和关系的表示.主题视图主题视图-高层主题及其关系的表示.逻辑数据模型逻辑数据模型-从最终用户的角度出发,对企业中的信息的数学描述.这里并不考虑数据的功能和物理属性.数据仓库数据模型数据仓库数据模型-是反映在决策支持分析活动中对数据的使用的数据模型 实体实体(Entity)-代表 人,物,地点
11、和事件.实体在数据模型中是唯一的.关系关系(Relationship)-两个实体之间的企业规则.元素元素(Element)-表现实体的低级属性.也称为属性(Attribute)键键(Key)-唯一识别一个实体的元素.属性属性(Attribute)-实体中的非键元素.递归递归(Recursion)-与自身相关的实体关系.电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段:主题视图模型,逻辑数据模型与数据仓库数据模型之间的关系主题视图主题视图逻辑数据模型逻辑数据模型操作型数据模型操作型数据模型数据仓库数据仓库数据模型数据模型物理模型物理模型数据集市数据集市数据模型数据模型电信企业参与竞争的利器-数
12、据仓库和数据挖掘设计阶段:什么是主题?主题代表企业中数据的自然归类范畴主题代表企业中数据的自然归类范畴.主题也称为高层实体主题也称为高层实体.主题视图包含主题视图包含:数据被归类成为广义的,功能上独立的,没有重叠的主题.表现数据之间的主要关系.表现模型之间的数据共性.主题视图中的主题数目一般不超过 12 个 可以先构造局部主题视图,然后合并成全局主题视图.电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段:局部主题视图CustomerOrderProductOrderPartProductCustomerOrderEmployeesPartSupplierUser View 1User Vie
13、w 2User View 3User View 4电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段:全局主题视图CustomerOrderEmployeesPartProductSupplier电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段:建立逻辑数据模型的基本方法l基于主题视图基于主题视图,把主题视图中的数据定义转入到逻辑把主题视图中的数据定义转入到逻辑数据模型中数据模型中.l删除重复数据项删除重复数据项l识别某些数据共性识别某些数据共性,比如比如:数据类型数据类型,.l识别主题间的关系识别主题间的关系l分解多对多的关系分解多对多的关系l用范式理论检验逻辑数据模型用范式理论检验逻辑数
14、据模型l由用户审核逻辑数据模型由用户审核逻辑数据模型l命名规则审核命名规则审核电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段:主题视图与逻辑数据模型ProductOrderHigh-level主题视图主题视图Mid-level逻辑数据模型逻辑数据模型Customer IDCustomer NameCredit RatingCustomer IDCustomer Address TypeAddress Line 1Address CityAddress StateAddress Zip-codeOrderCustomer IDSIC CodeNo.EmployeesCommercialCus
15、tomer IDNo.KidsIncome LevelResidentialCustomerCustomerSelectedSubject Area电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段:逻辑数据模型与数据仓库数据模型的区别逻辑数据模型逻辑数据模型 数据仓库数据模型数据仓库数据模型范式化范式化 非范式化非范式化详细数据详细数据详细和汇总数据详细和汇总数据企业运作角度企业运作角度 企业决策和战略角度企业决策和战略角度可能含有时间键可能含有时间键 必须含有时间属性必须含有时间属性没有派生数据没有派生数据 含有派生的战略数据含有派生的战略数据无数据数组无数据数组 有数据数组有数据数组以企
16、业规则为中心以企业规则为中心 以数据的使用和稳定性为中心以数据的使用和稳定性为中心 电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段:数据粒度分析数据粒度数据粒度(Data Granularity)-代表数据的细节化程度.粒度越大,数据的汇总程度越高.事务级数据的粒度最小,它是汇总型数据的数据源.数据仓库中数据的粒度取决于数据仓库的类型.数据仓库中数据的粒度可以和操作型系统的数据粒度一样,也可以不一样.当粒度发生改变时,数据仓库数据模型要反映出这种变化.如果仅仅存储汇总型数据,那么数据的细节型分析就无法做到电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段:数据粒度分析在数据仓库中,多层(M
17、ulti-tier)体系结构表达的是数据的汇总程度.每一层并不一定彼此独立并非每个数据仓库项目都含有多层汇总.电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段:数据汇总模型 简单累加简单累加:如如,求和每天各种商品的销售额求和每天各种商品的销售额 滚动型累计滚动型累计:如如,求和每周各种商品的销售额求和每周各种商品的销售额 清单型汇总清单型汇总:类似于做台账类似于做台账 连续汇总连续汇总:形如多级汇总形如多级汇总 纵向汇总纵向汇总:按特定的问题进行汇总按特定的问题进行汇总,以获取最佳的性能以获取最佳的性能.电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段:数据稳定性分析数据仓库中数据的最好
18、组织原则是数据仓库中数据的最好组织原则是:变化慢的数据存放在一张表中.变化快的数据存放在另一张表中.关键是要根据数据的稳定性关键是要根据数据的稳定性,对数据元数进行分离对数据元数进行分离下列数据应该按其稳定性来组织下列数据应该按其稳定性来组织:数据的修改时间完全不同.最终用户习惯于频繁地修改数据.下列数据可以不按其稳定性来组织下列数据可以不按其稳定性来组织:系统性能不好.大部分时间总是被一起使用.电信企业参与竞争的利器-数据仓库和数据挖掘数据集市数据模型设计数据集市是数据仓库中数据的一个子集数据集市是数据仓库中数据的一个子集,用于解决某个用于解决某个业务部门特定的应用需求业务部门特定的应用需求
19、.电信企业参与竞争的利器-数据仓库和数据挖掘数据集市数据模型设计数据集市数据集市:从数据仓库中派生出来可以和数据仓库存放在同一平台上,也可以分开.应该把它作为数据仓库的一部分 来建设ArchiveddetailEnterprise-wideIndividualMETADATAData MartIndividualData Mart电信企业参与竞争的利器-数据仓库和数据挖掘多维模型n多维模型是人们观察数据多维模型是人们观察数据的形象表示 n可以是可以是 2,3,4或更多维或更多维 n可以对多维模型进分析可以对多维模型进分析-即:选择哪维作为查询条件.Product LinesRegionsTim
20、en传统的数据模型比较复杂传统的数据模型比较复杂,最终用户难于理解最终用户难于理解n多表联结多表联结(Join)查询查询(尤其是大表尤其是大表),既费时既费时,又占用大量资源电信企业参与竞争的利器-数据仓库和数据挖掘多维模型:基本概念8维:是人们观察数据的特定角度8维成员:维的取值.8维层次:代表维的细节程度.比如:时间维的层次可以是年,季,月,周,日,等等.8类:维成员互不相交的一个子集.8多维分析:指对以维形式组织的数据采取切片,切块和旋转等动作,以求全面深刻地分析数据.8切片(Slice):按照某一维取值做查询.8切块(Dice):按照一维或多维取值做查询.8旋转:改变一个报告或页面显示
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 企业 竞争 利器 数据仓库 数据 挖掘
限制150内