《数据仓库的基本特征.ppt》由会员分享,可在线阅读,更多相关《数据仓库的基本特征.ppt(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、聊城大学数学科学学院周书锋1第2章 数据仓库的基本特征聊城大学数学科学学院周书锋2内容、业务系统和决策支持系统、数据仓库的数据源、数据仓库的事实数据、数据仓库的多维数据模型、数据仓库中的关键名词、数据仓库的数据组织、数据仓库建立的典型过程聊城大学数学科学学院周书锋31.业务系统和决策支持系统业务系统:推动企业日常运作的系统,保证业务的正常开展例如:王先生的1012号包裹何时到达?今天,小李是否报到?小王数据结构成绩是多少?查看每个同学的选课情况?本月手机帐单是多少?欧洲的销售怎样?4决策支持系统的演化信息需求的改变 从信息检索到知识发现What is the sum ofsales in Va
2、ncouverthis year?Clerks and ClientsWhat caused theincrease in salesthis year?Business users聊城大学数学科学学院周书锋What are myprojected salesnext year?Analysts聊城大学数学科学学院周书锋5决策支持系统的演化淹没于数据,但饥饿于知识VLDBKnowledgediscoveryToo much dataValuableknowledge6报告聊城大学数学科学学院周书锋决策者决策支持系统的演化自然演化体系结构对于决策者的即时信息需求,直接从OLTP系统中产生报告 使
3、DBA忙乱不堪也使OLTP负载太重!Ad hoc 存取需求生成平台7决策支持系统的演化自然演化体系结构从OLTP中将决策者常用的数据抽取出来,单独物理存放,解决了OLTP系统负载太重的问题。抽取数据聊城大学数学科学学院周书锋OLTP决策者8决策支持系统的演化自然演化体系结构抽取的数据太多和太多层次,产生了蜘蛛网问题,由此导致了一系列问题。抽取数据聊城大学数学科学学院周书锋OLTP决策者聊城大学数学科学学院周书锋9决策支持系统的演化自然演化体系结构的问题忙碌的IT人员蜘蛛网问题数据缺乏可信性生产率问题从数据到信息的转换的不可行性10决策支持系统的演化数据仓库的产生为决策者建立一个集成的数据源 数
4、据仓库数据仓库聊城大学数学科学学院周书锋内部数据和外部数据决策者聊城大学数学科学学院周书锋11业务系统和决策支持系统决策支持系统采取更广泛、更综合的视角,在更长的时间内比较以及采取更有利的决策;例如:本年度东部区域,每个产品每周的出货量是多少?2005年每季度的销售金额是多少?三种套餐,哪种销量最好?2005年与2004年相比,哪种商品的销售数量最多?下一季度如何进货?明年的原材料购买计划?122.数据仓库的数据源传统业务系统ERP系统电子商务系统数据仓库聊城大学数学科学学院周书锋决策支持聊城大学数学科学学院周书锋13ERP系统Enterprise Resource Planning,企业资源
5、计划是20世纪90年代初由美国著名的计算机技术咨询和评估集团Garter Group Inc.提出的一整套企业管理系统体系标准,是指建立在信息技术基础上,以系统化的管理思想为企业决策层及员工提供决策运行手段的管理平台。ERP系统也是事务系统,但它们的数据结构非常标准、规范。与使用ERP系统的贸易伙伴之间处理效率会更高,改善企业内部供应链的上下纵向通信(XML)聊城大学数学科学学院周书锋14电子商务系统Electronic Commerce企业对企业(B2B)的电子商务系统包括:企业内部网(Intranet)和Internet;并且这些系统都是建立在电子数据交换(EDI,Electronic D
6、ata Interchange)基础上的。XML文档(eXtensible Markup Language,可扩展标记语言)聊城大学数学科学学院周书锋15聊城大学数学科学学院周书锋3.数据仓库的事实数据维表事实16表聊城大学数学科学学院周书锋17维表和事实表维表:就是将多维模型映射到关系模型中,用于记录纬度信息的关系表。这些维组成了业务事务的基本实体。事实表:将多维模型映射到关系模型中,用于记录纬度交叉点处的度量信息的关系表。聊城大学数学科学学院周书锋184.数据仓库的多维数据模型数据立方体:又称多维数据集,是维的交叉点;经典的立方体有产品、时间、地点三维;可以用一个多维数组(纬度1,纬度2,
7、纬度3,纬度n,度量值)表示;超立方体:当纬度值n3时称为超立方体;数据立方体1998 1999 2000聊城大学数学科学学院周书锋广州上海时间(年)19产品计算机电冰箱电视机地点聊城大学数学科学学院周书锋20维表事实表多维数据聊城大学数学科学学院周书锋21产品纬度时间纬度地理纬度销售事实数据聊城大学数学科学学院周书锋225.数据仓库中的关键名词1、数据提取(Data Extraction)从DW的角度来看,并不是业务数据库中所有的数据都是决策支持所必需的。通常,按照分析的主题来组织数据。例如:某超市确定以分析客户的购买行为为主题建立DW,则只需将与客户购买行为相关的数据提取出来,而超市服务员
8、工的数据就没必要;提取方式:一般通过SELECT、INSERT等语句聊城大学数学科学学院周书锋23数据提取要经过许多步骤获取:从外部或内部源数据系统中获取对决策支持系统用户有用的数据。过滤:过滤掉不需要的内容。验证:从DSS用户的角度验证数据的质量。融合:将本次抽取的数据仓库中的数据进行融合。综合:对数据进行综合,生成概要级数据。装载:把新数据装入到数据仓库中。存档:把新装入的数据单独存为一个文件,以减少更新操作的数据量。聊城大学数学科学学院周书锋24注意:现有的数据仓库方案中都有数据提取功能;但是,抽取和转换过分复杂时,需要用户自己编写抽取程序。SQL 2008中能接受第三方的抽取程序(程序
9、按OLE DB规定格式编写)聊城大学数学科学学院周书锋25数据仓库中的关键名词(续)2、数据清洗(Data Cleaning)和转换清洗:就是将错误的、不一致的数据在进入DW之前予以更正或删除,以免影响决策支持系统的正确性;由于企业常常为不同的应用对象建立不同的业务数据库,如电信公司:计费数据库、帐务数据库、客户数据库、客户投诉数据库等;不同的数据库可能使用不同数据库公司的产品,这样同一数据在不同数据库就会有不一致现象,在转入到DW之前必须进行转换。聊城大学数学科学学院周书锋26数据仓库中的关键名词(续)3、外部数据源(External Source)指从系统外部获取的同分析主题相关的数据;对
10、于一个好的决策,不但需要系统内部的信息,还需要来自系统外部的相关信息。例如:超市的采购部门要确定采购货单,不但要了解超市内部产品的销售情况,还要了解市场上各种商品的价格水平、质量水平、竞争对手的采购信息等。因此,一个好的决策支持系统必须要综合考虑系统内部和外部的相关数据。聊城大学数学科学学院周书锋27数据仓库中的关键名词(续)4.数据:内部数据和外部数据5.元数据:描述数据的数据,提供了有关数据的环境。DW元数据包含两类:一种:为了从操作型环境向DW环境转换而建立的二种:用来与最终用户的多维商业模型和前端工具之间建立映射的;6.提取日志(Extraction Log)提取日志详细记录了数据的来
11、源,数据的转化过程等,是DW元数据的重要组成部分。聊城大学数学科学学院周书锋286.数据仓库的数据组织1、虚拟存储方式没有专门的数据仓库数据存储,数据仓库中的数据仍然在源数据库中。只是根据用户的多维需求及形成的多维视图临时在源数据库中找出所需要的数据,完成多维分析。优点:组织方式简单、花费少、使用灵活;缺点:只有当源数据库的数据组织比较规范、没有数据不完备及冗余,同时又比较接近多维数据模型时,虚拟数据仓库的多维语义才容易定义。而在一般的数据库应用中,这很难做到。聊城大学数学科学学院周书锋296.数据仓库的数据组织2、基于关系表的存储方式将数据仓库中的数据存储在关系表中,在元数据的管理下完成数据
12、仓库的功能。3、多维数据库组织直接面向OLAP分析操作的数据组织形式。这种数据库产品比较多,其实现方法不尽相同。数据组织采用多维数组结构进行数据存储,并有维索引及相应的元数据管理文件与数据相对应。聊城大学数学科学学院周书锋306.数据仓库的数据组织数据仓库的数据组织结构元数据后备数据后备数据后备数据后备数据高度综合级轻度综合级当前细节级早期细节级聊城大学数学科学学院周书锋31最近3个月2005年1月3月客户呼叫详细数据20002005年按月统计的客户呼叫信息20002005年按季统计的客户呼叫信息20002005年按年统计的客户呼叫信息2005年1月以前 2005/3数据仓库中数据的状态的呼叫
13、详细数据最近3个月2005年2月4月客户呼叫详细数据20002005年按月统计的客户呼叫信息20002005年按季统计的客户呼叫信息20002005年按年统计的客户呼叫信息2005年2月以前 2005/4数据仓库中数据的状态的呼叫详细数据当前细节级轻度综合级高度综合级聊城大学数学科学学院周书锋32数据颗粒度粒度问题是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级别越小。粒度问题是设计数据仓库的一个最重要的方面。粒度的设计问题:粒度的大小影响存放在数据仓库中的数据量的大小,同时,影响数据仓库所能回答的查询类型。粒度细:数据分析灵活,但存储空间大计算量大粒度粗:存储空间
14、小,但有时无法回答一些比较细节的问题。聊城大学数学科学学院周书锋33例如:销售数据库存储了每一笔业务的细节,在分析时对每一笔分析是无意义的。因此,可以考虑数据仓库的粒度级别以星期为单位,即在数据从数据库装入数据仓库时,按星期汇总。由星期通过计算能得到月、季度、年的汇总。可以认为,该数据仓库在时间上有多重粒度。聊城大学数学科学学院周书锋34数据颗粒度数据颗粒度DW是面向OLAP和DM的,为此数据颗粒度有不同含义OLAP:重要功能是向最终用户呈现不同综合程度的数据。第一种粒度就是对DW中数据综合程度高度的一个度量。数据的综合程度不同,其数据量相差很大。数据粒度越小,信息越细节,数据量越大;数据粒度
15、越大,忽略了众多的细节,数据量越小。聊城大学数学科学学院周书锋35数据颗粒度(续)例如:电信部门呼叫数据为每字段8个字节,每天通话5次,每月呼叫汇总一次细节数据:865307200 B综合数据:8432 B聊城大学数学科学学院周书锋36客户呼叫记录表客户标识号客户呼叫时间客户呼叫地点客户呼叫号码呼叫时长呼叫费率客户呼叫记录按月汇总表客户标识号月份呼叫总时长呼叫总次数3058684按“月”统计的客户呼叫数据和按每次呼叫记载的客户呼叫数据聊城大学数学科学学院周书锋37高度细节-低粒度级例如:一个客户一个月内的每个电话的细节记录。低细节-高粒度级例如:一个客户一个月内的电话的综合记录。粒度-细节级别
16、聊城大学数学科学学院周书锋38高速磁盘3个月内的客户呼叫细节数据5年内按月综合的呼叫数据10年内按年综合的呼叫数据低速磁盘3个月以前的客户呼叫细节数据39数据仓库数据挖掘算法数据颗粒度(续)DM:粒度的第二种形式是针对数据挖掘。DM常常会使用非常复杂的算法(如神经元网络),其计算的复杂度较高,如果巨量数据直接参加运算,则计算时间和空间复杂度将会相当高。以一定抽样率进行抽样样本数据库使用样本数据库进行数据挖掘聊城大学数学科学学院周书锋数据仓库样本数据库数据挖掘算法(1)以一定抽样率行抽样(2)通过挖掘建立模型(3)使用源数据进行校验(4)再次进行循环数据挖掘的循环聊城大学数学科学学院周书锋分析模
17、型40聊城大学数学科学学院周书锋417、数据仓库建立的典型过程建立数据仓库只能采用有序地反复和一次一步的方式,进行设计和载入数据,即它是进化性的,而非革命性的。聊城大学数学科学学院周书锋42聊城大学数学科学学院周书锋43其他问题数据仓库数据的累加方式数据仓库数据清理聊城大学数学科学学院周书锋44数据仓库数据的累加方式简单堆积文件最简单、最常用的数据组织形式。从操作型环境中取出每天的事务处理(更新操作),然后综合成数据仓库记录,这个综合可根据任何组织到数据仓库的主题领域来进行,这里的事务处理是以天来进行综合。例:对一个顾客的一个帐号的每天的所有活动进行合计,并在一天一天的基础上输入数据仓库。聊城
18、大学数学科学学院周书锋45每日综合1月2月3月4月123456712345。操作型数据每日事物处理1.需要许多存储空间2.无细节丢失3.许多处理与数据有关数据仓库中最简单的数据组织形式是以逐个记录为基础的数据堆积-简单堆积文件聊城大学数学科学学院周书锋46数据仓库数据的累加方式轮转综合文件是简单逐日堆积数据的一个变种。与前面相同的处理方法从操作型环境输入到数据仓库环境中,只是输入到不同的结构形式中。第一周的七天中的活动被逐一综合到七个每日相应的位置,到第八天,将七个每日位置的数据加到一起,并放入第一周的数据位置中。月底将每周位置的数据加到一起,并放入当月相应的数据位置处聊城大学数学科学学院周书
19、锋47每日综合天周月年123456712345。操作型数据每日事物处理1.非常紧凑2.一些细节丢失3.提取越久的数据越不详细轮转综合文件是简单堆积文件的变种聊城大学数学科学学院周书锋48数据仓库数据清理数据是有生命周期的休眠数据:是那些存在于数据仓库中的、当前并不使用、将来也很少使用或者根本就不会使用的数据。造成休眠数据的原因由于概括表格的创建由于错误估计实际上所需要的历史数据的年限由于时间的推移,需求的现实性逐渐明显由于坚持让详细数据驻留在数据仓库中聊城大学数学科学学院周书锋49数据仓库数据清理休眠数据的处理查找休眠数据选择删除的数据:数据仓库管理员查看已访问或不访问的数据,确定哪些数据应该从数据仓库中删除。可以使用一个活动监视器跟踪数据仓库用户过去的活动。确定访问的可能性:根据数据的访问可能性来安全地从数据仓库中删除数据。删除休眠数据聊城大学数学科学学院周书锋50数据仓库数据清理数据清理其它方法将数据加入到一个轮转综合文件中将数据从高性能介质转移到大容量介质上将数据从系统中实际清除将数据从一个体系结构层次转到另一个层次聊城大学数学科学学院周书锋51小结数据仓库的定义数据仓库数据来源将客户、产品、服务、地点等抽象出来“维”维的交叉点事实数据立方体(多维数据集)数据组织方式数据仓库中的数据需要定期做数据清理聊城大学数学科学学院周书锋52谢谢大家
限制150内