数据仓库与联机分析处理技术综述(共9页).doc
《数据仓库与联机分析处理技术综述(共9页).doc》由会员分享,可在线阅读,更多相关《数据仓库与联机分析处理技术综述(共9页).doc(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上科技信息2010年第35期SCIENCE&TECHNOLOGY INFORMATION0引言数据仓库(Data Warehouse,DW1是信息领域中近年来迅速发展起来地数据库新技术。数据仓库的建立,能充分利用已有地数据资源,把数据转换为信息,从中挖掘出知识,提炼成智慧,最终创造出效益。所以,越来越多地企业开始认识到数据仓库应用所带来地好处。计算机系统中存在着两类不同地数据处理工作:操作型处理和分析型处理,也称作OLTP(联机事务处理和OLAP(联机分析处理。操作型处理也叫事务处理,是指对数据库联机地日常操作,通常是对一个或一组记录地查询和修改,例如火车售票系统、银行
2、通存通兑系统等。这些系统要求快速响应用户请求,对数据地安全性、完整性以及事务吞吐量要求很高。分析型处理,是指对数据地查询和分析操作,通常是对海量地历史数据查询和分析,例如金融风险预测预警系统、证券股市违规分析系统。这些系统要访问地数据量非常大,查询和分析地操作十分复杂。两者之间地差异,使得数据仓库技术就应运而生了。1数据仓库技术数据仓库和数据库2只有一字之差,似乎是一样地概念,但实际则不然。数据仓库是为了构建新的分析处理环境而出现地一种数据存储和组织技术。由于分析处理和事务处理具有极不相同地性质,因而两者对数据也有着不同的要求。数据仓库概念地创始人W.H.Inmon在其Building the
3、 Data Warehouse一书中,列出了操作型数据与分析型数据之间地区别,基于这些区别,可以给出数据仓库的定义:数据仓库是一个用以更好地支持企业(或组织决策分析处理的、面向主题的、集成的、不可更新的,随时间不断变化的数据集合。数据仓库本质上和数据库一样,是长期储存在计算机内的、有组织、可共享地数据集合。数据仓库和数据库主要的区别是数据仓库中地数据具有面向主题的、集成的、不可更新的和随时间不断变化的等四个基本特征。1.1主题与面向主题数据仓库中的数据是面向主题进行组织的。主题是一个抽象地概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用地抽象;在逻辑意义上,它对应企业中某一宏
4、观分析领域所涉及的分析对象。比如一家商场,概括分析领域的对象,应有地主题包括供应商、商品、顾客等。面向主题地数据组织方式是根据分析要求将数据组织成一个完备的分析领域,即主题域。主题域应该具有以下两个特点:(1独立性,如针对商品地分析所要求的是“商品”主题域,它必须具有独立内涵。(2完备性,任何对商品地分析处理要求,应该能在“商品”这一主题域内找到该分析处理所要求的内容;如果对商品的某一分析处理要求涉及现存“商品”主题之外地数据,那么就应当将这些数据增加到“商品”主题中来,从而逐步完善“商品”主题。或许有人担心,要求主题地完备性会使得主题包含有过多的数据项而显得过于庞大。1.2数据仓库是集成的数
5、据仓库的数据是从原有的分散的数据库数据中抽取来的,因此数据在进入数据仓库之前,必然要经过加工与集成,统一与综合。这一步实际是数据仓库建设中最关键、最复杂的一步。首先,要统一原始数据中所有矛盾之处;然后将原始数据结构作一个从面向应用到面向主题的大转变;最后还要进行数据综合和计算;1.3数据仓库是不可更新的数据仓库主要是供决策分析之用的,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。1.4数据仓库是随时间变化的数据仓库中的数据不可更新3,是指数据仓库的用户进行分析处理时是不进行数据更新操作的,但并不是说,在数据仓库的整个生命周期中数据集合是不变的。数据仓库的数据是随时间变化不断变化的
6、,这一特征表现在以下三个方面:(1数据仓库随时间变化不断增加新的数据内容。(2数据仓库随时间变化不断删去旧的数据内容。(3数据仓库中包含大量的综合数据,这些综合数据中很多与时间有关,一次,数据仓库数据的键码都包含时间项,以表明数据的历史时期。2联机分析处理技术OLAP(On-Line Analytical Processing即联机分析处理4,是以海量数据为基础的复杂分析技术。OLAP支持各级管理决策人员从不同的角度、快速灵活地对数据仓库中的数据进行复杂查询和多维分析处理,辅助各级领导进行正确决策,提高企业的竞争力。2.1多维数据模型多维数据模型是数据分析时用户的数据视图,是面向分析的数据模型
7、,用于给分析人员提供多种观察的视角和面向分析的操作。2.2多维分析操作常用的OLAP多维分析操作有切片(slice、切块(dice、旋转(pivot、向上综合(roll-up、向下钻取(drill-down等。通过这些操作,使用户能从多个角度多侧面观察数据、剖析数据,从而深入地了解包含在数据中的信息与内涵。3数据挖掘技术面对日益激烈的市场竞争,客户对迅速应答各种业务问题的能力的要求不断提高,不仅要求回答发生什么,为何发生,还要回答将发生什么。数据挖掘技术正是支持回答“将发生什么”这类业务问题的。3.1数据挖掘的概念数据挖掘5是从大量数据中发现并提取隐藏在内的、人们事先不知道的但又可能不用的信息
8、和的一种新技术。数据挖掘技术涉及数据库技术、人工智能技术、机器学习、统计分析等多种技术,它使决策支持系统(DSS跨入一个新阶段。3.2数据挖掘的数据源数据挖掘的数据主要有两种来源6,可以从数据仓库中来的,也可以直接从数据库中来。这些实际的应用数据往往是不完全的、有噪声的、模糊的、随机的,因此要根据不同的需求在挖掘之前进行预处理。3.3数据仓库的功能数据仓库的功能7主要有以下几种:(1概念描述:就是指归纳总结出数据的某些特性。(2关联分析:若两个或多个变量的取值之间存在某种规律性,就称为关联。(3分类和预测:找到一定的函数或者模型来描述和区分数据类之间的区别,用这些函数和模型对未来进行预测。(4
9、聚类:将数据分为多个类,使得类内部数据之(下转第764页数据仓库与联机分析处理技术综述李大志1张阿红2(1.南阳理工学院后勤处河南南阳;2.南阳理工学院软件学院河南南阳【摘要】本文针对数据仓库DW,OLAP和数据挖掘DM三种技术进行了分析综述。【关键词】DW;OLAP;数据挖掘Data Warehouse and O n-line Analytical Processing Technology Overview【Abstract】Based on data warehouse DW,OLAP and data mining DM three technology to carry on th
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 联机 分析 处理 技术 综述
限制150内