数据仓库的基本原理.ppt
《数据仓库的基本原理.ppt》由会员分享,可在线阅读,更多相关《数据仓库的基本原理.ppt(114页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据仓库系统的功能和构成业务数据库提取、清洗、转换数据存储OLAP数据挖掘企业决策层数据仓库决策支持多维查询预测数据挖掘分析系统/数据展现系统数据市场数据市场数据市场数据市场数据 元数据数据仓库存储数据清洗/转换数据提取提取仓库外部系统业务操作型系统数据提取数据提取业务数据库中并不是所有的数据都是决策支持所必需的。所以要把必需的那部分提取出来。例子:某超市确定以分析客户的购买行为为主题建立数据仓库。需要提取的数据:与客户购买行为相关的关于员工的数据没有必要提取。Data Extraction数据清洗数据不完整性数据中的错误数据的不同步按缺失的内容分别写入不同Excel文件向客户提交,要求在规定
2、的时间内补全。补全后才写入数据仓库。错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,可用SQL语句进行查找和改进Data Cleaning例子:客户基本信息表 客户咨询信息表客户号:100 客户号:100姓名:张山 姓名:张三年龄:23 咨询问题:两个表中,客户姓名不同。这是常见的错误客户基本信息表 客户业务变更信息表客户号:100 客户号:100姓名:张山 姓名:张山年龄:23 业务变更:停机手机服务状态:正常由于不同数据库之间的数据刷新不是实时的,所以数据不同步。在ETL开发的初期可以每天向业务单位发送过滤数据的邮件,促使他们尽快地修正错误,同时也可以做
3、为将来验证数据的依据。数据数据转化化不同的数据库厂商,提供的数据类型可能不同。例子:不同的时间表达方式2000-2-3 2/3/2000 2000/2/3不同的坐标系统WGS84 西安803 度带 北京543度带Data Transformation提取提取仓库正是因为业务数据库系统中的数据和数据格式存在不一致的问题。将数据放进数据仓库前要先放进提取仓库,等待清洗和转换。数据提取清洗 转换提取日志提取日志记录了仓库中数据的来源,数据的转化过程。便于保证和验证数据的质量数据管理数据管理员不同于数据库管理员或系统管理员。在数据导入时负责管理数据质量的专业人员。查阅提取日志,发现数据提取中出现的错误
4、有时还要检测源于业务系统的错误。外部数据源外部数据源从系统外部获取的,与分析主题相关的数据。例子:超市采购部门确定采购货单既要了解超市内部产品的销售情况,还要了解市场上的信息,后者即为外部数据源。外部数据源越来越多地采用服务的技术ArcGis rest 服务OGC WMSOGC WFS数据数据仓库存存储多维数据库关系型数据库两者的结合Data Repository数据数据仓库中的原始数据是由业务系统提取的或外部数据源导入,经过清洗、转化而来。为了完成OLAP分析和数据挖掘,必需在原始数据基础上增加冗余信息与预运算。元数据元数据数据仓库的元数据是主要包含两类数据:为了从操作型环境向数据仓库环境转
5、换而建立的元数据,包含所有源数据项的名称、属性及其转化。用来在多维商业模型和前端工具之间建立映射的,叫做决策支持系统元数据。具体包括数据仓库中信息的种类、存储位置、存储格式;信息之间的关系、信息和业务的关系、数据使用的业务规则;数据模型;数据模型和数据仓库的关系。元数据元数据数据系统数据系统元数据Polygon的例子的例子数据集市数据集市数据仓库中的信息按照不同的主题来组织。举例:市场发展趋势的分析主题,由市场部门的人使用。为避免在全部的巨量数组中检索,把某主题的数据逻辑上或物理上分离出来,可称为数据集市。数据集市面向某个部门。数据集市数据集市数据仓库数据的安全性本地数据的安全性:数据加密、访
6、问权限设置。网络访问数据库:网络安全机制、网络传输中的数据加密和鉴权、防止监听和口令泄漏。数据处理的并发性加锁解锁实现同步与互斥多线程,多进程技术,磁盘的存储优化,合适的索引提高并发访问的效率。事务处理的可靠性原子操作不能分开执行,如果某步骤失败,系统必须返回并更改操作。数据的一致性和完整性数据库设计、应用的开发、系统的维护方面共同努力。操作型数据的特点操作型数据的特点 分析型数据的特点分析型数据的特点细节的 综合的、经过提炼的在存取的瞬间是准确的 代表过去的数据可更新 不更新操作需求通常事先可知 分析需求通常不知道生命周期符合SDLC 生命周期不同于SDLC对性能(如操作时延)要求高 对性能
7、要求较宽一个时刻操作一个数据单元 一个时刻操作一个数据集合事务驱动 分析驱动面向应用 面向分析一次操作数据量小 一次操作数据量很大支持日常操作需求 支持管理需求把数据仓库定义为“用于管理决策支持的面向主题、集成、稳定、随时间变化的数据集合”。面向主题、集成、稳定、随时间变化是4个最重要特征。面向主面向主题业务系统一般是以优化事务处理的方式构造数据结构的,因此某个主题数据常常分布在不同的业务数据库中,对于决策支持不利。计费数据库账务数据库客户服务数据库市场信息数据库业务系统面向主题分析集成集成计费数据库账务数据库客户服务数据库市场信息数据库现有业务系统面向主题的数据仓库收益数据 客户数据 市场数
8、据为了解决上述问题,数据仓库把上述数据集中。客客户基本信息表基本信息表 客客户呼叫呼叫记录表表客户标识号 客户标识号客户姓名 客户呼叫时间客户年龄 客户呼叫地点客户地址 客户呼叫号码 呼叫时长 呼叫费率 客客户话费表表客户标示号 客客户咨咨询表表客户本月总话费 客户标识号本月通话费 客户咨询内容本月短信费 咨询答案 数据在数据仓库中还是以数据表的形式存储,但数据的组织方式和建模方法有大的变化现有业务数据库系统中的数据是分散的。而决策支持需要集成的数据。实际上,要对分散的数据进行集成,首先要完成对数据的清洗和转化。而数据转化会遇到如下问题:数据格式:比如电话号码在不同数据库中采用char(10)
9、、varchar(50)、integer格式,没有统一。测量单位:不同的数据库中对于统一属性的测量单位可能不同,比如时间使用微妙、秒、分钟、小时数据代码含义混乱:比如用定义H高、M中、L低分别表示收入级别。有的数据库设计者可能定义1高、2中、3低分别表示收入级别。数据名称混乱:比如客户名称,有的设计者定义为user_name,有的定义为name,有的定义为USERNAME 等。下图实例了实际问题中可能遇到的数据转化工作:进一步考虑,数据仓库必须能够使集成数据以一定的周期进行刷新,使决策者能够使用新增的数据。刷新周期取决于需要分析的问题。数据库中的数据是不稳定的,记录系统中每一个变化的瞬态。而决
10、策分析必须与历史数据为依托。在数据仓库中,定期增加记录,而从不删除。不必投入过多精力于并发控制等环节。访问全部是只读方式。例子:在3 月23 日,100 号客户的消费金额为200 元,当时间推移到3 月24 日,100 号客户的消费金额变成250 元,这一信息在业务系统中被更新了。但是在数据仓库中(假定数据仓库每天进行一次数据提取),3 月23 日的数据提取结果是在数据仓库中增加了记录XXX,说明100 号客户在3 月23 日的消费金额为200 元,在执行3 月24 日的数据提取工作后,原先的记录XXX 并没有发生任何的改变,而是在数据仓库中增加了一条新的记录YYY,说明100 号客户在3 月
11、24 日的消费金额为250元。可见,数据仓库实际上是为100 号客户的消费行为进行了定期的拍照。由于在数据仓库中数据只增不删,这使得数据仓库中的数据总是拥有时间维度。数据仓库实际上就是记录系统的各个瞬态,并通过将各个瞬态连接起来形成动画,从而在数据分析的时候再现系统运动的全过程数据仓库中的数据不再像数据库中的数据具有严格规范化的特点。数据仓库为了能够在尽量短的时间内将数据呈现给使用人员,使用所谓的“空间换时间”的技术,牺牲了数据的规范化,增加了数据的冗余度,从而减小系统的响应时间。数据库系统和数据仓库系统在硬件的利用模式上具有很大的区别。在数据库环境下,硬件资源利用率总是保持在一个相对稳定的状
12、态。而在数据仓库环境下,系统的硬件资源常常在高用率和低利用率之间切换。由于数据库系统和数据仓库系统在硬件利用率上的差异,难于在同一台服务器上既优化操作型处理,又优化分析型处理因此数据库系统和数据仓库系统在物理上应当由不同的服务器来运行。数据数据仓库的数据的数据组织结构构在数据仓库中,数据被分成 4 种级别,分别是:高度综合级轻度综合级当前细节级早期细节级 当前的数据总是首先进入当前细节级,然后根据应用的需求,通过预运算将数据聚合成轻度综合和高度综合级。在数据仓库中,细节数据可以聚合成轻度和高度综合级别的数据,比如按“月”“季度”“年”统计,需要说明的是轻度和高度是一种相对的概念,而没有绝对的边
13、界,并且在数据仓库中数据的综合程度常常有很多的级别。过期的老化数据被导出到备份设备上。实际上综合数据也可能被导出系统。比如企业的管理者认为企业的决策只同企业近 15年来的运营数据有关,则 15 年之前的综合数据也可以导出。对于高度综合的数据,由于其数据量已经很少,所以一般可以不考虑它们的导出问题。总的来说,数据仓库的这种组织方式的核心思想是在系统中保留最有可能被用户使用的数据,而用户很少使用的数据则备份出系统。数据颗粒度是数据仓库中极其重要的概念。我们知道数据仓库是面向 OLAP(联机分析处理)和DM(数据挖掘)的,对于OLAP 和DM 数据颗粒度有不同的含义。OLAP 的一个重要的功能就是向
14、最终用户呈现不同综合程度的数据。第一种粒度就是对数据仓库中数据综合程度高度的一个度量。数据的综合程度不同,其数据量将相差很大。数据粒度越小,信息越细节,数据量越大。数据粒度越大,忽略了众多的细节,数据量越小。按照每“月”统计的客户呼叫数据和按照每次呼叫记载的客户呼叫数据,两者的数据量相差极大。每个字段为8 个字节,每个用户一天进行5 次通话,则一个客户1 个月的呼叫细节数据的数据量为:863057200 字节。而一个客户1 个月的呼叫汇总数据的数据量为8432字节。数据的综合程度还会影响数据的用途。对于多维查询来说,可能使用的是细节数据,例子:回答“王五在 2001/3/21 号是否在北京给赵
15、六发送了短信”这样非常细致的问题,细节数据非常合适,而综合数据不可能回答,因为数据的综合使得细节信息丢失。例子:回答“王五在2001/3 到2001/7 间的总话费是多少”,使用细节数据将需要进行统计运算后才能回答,这将增加用户的等待时间,而使用综合数据则可以迅速地回答这个问题。综合程度不同的数据其用途不同,在数据仓库中多多重的数据粒度重的数据粒度是必不可少的。但是,由于数据仓库最主要的目的是反映企业整体信息和DSS 分析,回答综合程度较高的问题。粒度的第二种形式是针对数据挖掘的。数据挖掘计算的复杂度较高,如果将数据仓库中存放的巨量数据直接运算,系统难于承受。进行数据挖掘时,需要对数据仓库中的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 基本原理
限制150内