最新Sybase数据仓库解决方案指南DW-whitepaper.doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《最新Sybase数据仓库解决方案指南DW-whitepaper.doc》由会员分享,可在线阅读,更多相关《最新Sybase数据仓库解决方案指南DW-whitepaper.doc(219页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-dateSybase数据仓库解决方案指南DW-whitepaperSybase交易市场的成功用户目 录Sybase数据仓库解决方案指南2Sybase IQ技术白皮书8PowerDesignor WarehouseArchitect 6.025PowerDimensions实现动态OLAP31Sybase IQ为数据仓库应用带来的经济利益37Sybase IQ的性能测试44Sy
2、base数据仓库解决方案指南数据仓库的概念 任何一个公司和企业,在订货、存货清单、票据清单、帐目清算、客户服务以及财务报告等方面都存在大量的业务应用和技术环节。数据仓库的作用在于:从这些应用系统中获取信息并转换到一个新的数据库,通过对新库中的历史信息和面向主题的信息进行分析,为决策提供支持。以往的产品系统,如订货或购置系统,则很难从中获得有关商业发展状况的信息。 数据仓库是企业决策支持的一部分。在做出下一个决定前,每个商业机构中的行政人员和分析人员都需要将许多关键商业问题搞清楚,例如:哪些产品最有利可图?哪些客户会为我们带来最大利益?哪些环节需要花费很高的费用?哪些市场活动运行得最好,为什么?
3、我们有可能会失去哪些客户,为什么?这些都是数据仓库要回答的“百万利润”问题,也同时是一个最大的市场。据Gartner估计,60%的关系数据库管理系统被用作决策支持系统的应用开发。数据仓库与数据集市的比较 在二十世纪八十年代中期,Bill Inmon首次提出“数据仓库”这一名词。它最初被设计为一个商业数据库,具有稳定性(主要成分不变)、历史性(包含历史信息)和面向主题(信息由客户、产品和市场等组成)等特点。这些最初的“数据仓库”根据对客户、产品、销售情况和财务状况等信息的分析,得到对企业活动的整体认识。要建立一个数据仓库,一般分为四个步骤:第一步:数据库设计,即设计出一个包含商业数据和信息的数据
4、库,为商业实体所用;第二步:开发数据抽取和转换程序,从产品系统中将数据取出后放入数据仓库中;第三步:开发数据加载和更新技术,使得在产品数据发生变化时,数据仓库得到动态实时的更新;第四步:购置查询和报表生成工具,令使用者通过企业内部网和个人计算机很方便地获取信息。 多年以来客户发现:尽管企业级数据仓库很有吸引力,但是具体操作起来有些难度。1996年“IDC研究”调查结果表明:尽管为建立数据仓库平均投入了三年多时间和近320万美元,50%没有达到应有的效果。从项目开始算起,三年后,大多数商人发现所面临的商业问题已经不再是开始建立时的样子,发生了很大变化。另外,尽管开发进度被延长了一年又一年,仍然做
5、不到让所有感兴趣的客户对想看到什么信息给出明确的需求定义。因而“企业数据模型”的确立如同练习一样进行了一年又一年。 在最近的18-24个月的时间里,出现了一种新的解决办法,那就是数据集市。数据集市也是一种数据仓库,只是它更精练,更面向主题。Sybase公司自创立以来,便确立了在数据集市技术上的领导地位。目前,使用Sybase产品的2万多家客户中的大多数已经建立了运行在SQL Server上的数据集市,尽管通常也称为数据仓库,却几乎没有一个是企业级的。 数据集市的优势在于建设周期的缩短和费用上的大大降低。其中周期以月代替了年,费用从几百万下降到一百万。由于整个企业的数据很庞大,真正将它们集中到一
6、个数据库中几乎是不可能的。有人便对很多大数据仓库实质上是不是数据集市产生了怀疑。使用数据集市后。设计、抽取、转换、加载和查询等环节变得更加简单,因为客户中的一部分人能够更精确地知道他们自己所需要的信息是什么。 然而,如果有很多的数据集市却不能使它们保持同步,数据集市解决方案就会遇到困难。一旦一个单位创建了两个或两个以上的数据集市,最大的问题就是如何使它们之间协调一致,如何使它们实时操作,以及如何维护所有的数据抽取和转换。另外,当一个单位要创建两个或两个以上的数据集市时,会发现每一个都要经过一个重新的设计、抽取、加载和查询步骤。于是,在面对多个数据集市的开发时,如何共享设计和结构成为一个有现实意
7、义和挑战性的问题。运作型数据存储与合并式数据仓库 针对上述问题,一种解决方案是采用一种全新的数据仓库概念“运作型数据存储(Operational Data Store,ODS)”。在ODS方式下,数据被从业务数据库中复制到一个中心位置,再从这里被抽取到多个数据集市中。ODS是从客户、产品和其他商业角度来组织的,被称为商业状况的“实时快照”。它不包含历史信息,但可以很容易地满足一个历史数据库或一组面向主题的数据集市的需要。我们一般称之为“合并式数据仓库”,因为它在进入决策支持数据库以前是一个信息的结合点。ODS虽小,却能被经常地修改,因而非常适合于建立在Adaptive Server Enter
8、prise和Replication Server上。多维或OLAP(联机分析处理)市场 作为数据仓库应用环节中的一部分,OLAP在市场份额上得到快速增长,变得越来越大。简单来说,OLAP是从商业角度进行信息组织,而不象通常的由行、列和表构成。例如,在一个类似Arbor 或Oracle Express的OLAP数据中,信息是通过客户、产品、日期、销售部门和地域等属性来存取的,这对于数据理解和信息获取来说都显得非常直观。 OLAP产品取得关系数据后,将它放入一个非常简单的表格中,使之很容易分析。OLAP数据库和一个OLAP产品可被看做一个多维表格。这个市场相当热门,Arbor、Oracle的Exp
9、ress 和Microstrategy在此领域中各占一席之地,而Sybase的PowerDimentions(原名whitelight),Cognos的Impromptu和Powerplay,Brio Technology的BrioQuery处于优势地位。竞争对手与合作伙伴一览RDBMS公司:Sybase,Oracle,IBM,Teradata/NCR,Informix,Microsoft硬件公司:IBM,Teradata,Sun,Digital/Compaq,HP转换工具:VMARK,Infomatica,Carleton/Apertus,ETZ,Prism SolutionsOLAP:Sy
10、base/PowerDimentions,Arbor,Oracle/Express,Microstrategy,Infomation Advantage。Sybase 的解决方案及其组成 Sybase拥有一个独特而强有力的点对点方案,用来设计、建立和管理数据仓库和数据集市。各个部门之间通过集中的元数据进行交互,这便具有了完整性、集中性和灵活性等特点。我们的工具也具有很多优越性能。下表列出了各个组成部分:(1)PowerDesigner Warehouse ArchitectPowerDesigner不但是业界知名的数据库设计工具,也是数据仓库模型设计工具。其中的Warehouse Archit
11、ect模块支持多种数据仓库模型,包括星型模式、雪花模式、以及雪暴模式。这是同行业中最优秀、最灵活的开发工具,可用来设计一个关系的或OLAP的软件仓库。PowerDesigner在数据仓库设计工具市场中占有最大份额。它能从已有的数据库进行反向工程,从运行系统中将现存的数据结构抽取出来形成数据模型,使设计变得简单。(2) PowerStage强大的数据抽取和数据转换产品。它是领导市场的客户/服务器转换方法,使数据仓库模型用PowerDesigner实现起来更加容易,更加直观。PowerStage真正是安全并基于引擎的。它有一个简单的面向处理的图形用户接口,使得用户可以快速启动,重复利用以往的工作,
12、从任何源中获得数据。(3)适用于数据仓库的Adaptive Server for the WarehouseAdaptive Server for the Warehouse (ASW),是一个包含Adaptive Server Enterprise (ASE)和Adaptive Server IQ (ASIQ)的新关系数据库管理系统。它具有一项新的数据库查询技术直接英文查询。该产品使得高性能的OLAP和高性能的DSS在同一服务器上得到集成。Adaptive Server IQ,是服务于数据仓库的最优秀关系数据库管理系统,可以对数据库进行压缩,也可以以传统关系数据库管理系统的10至100倍的速
13、度执行快速查询,使得数据规模可以达到并超过十亿行数据。(4)PowerDimensions快速、可扩展的联机分析工具。 这是业界中最新的OLAP解决方案,对建立于ASIQ和ASW数据库的数据可以提供快速灵活的多维模型建立和分析。区别于多维数据库,Powerdimensions能支持几百千兆以至万亿字节的原始数据和多个角度。(5)Intellidex Control Center对元数据和分布式数据集市提供点对点集中管理的产品。它是业界中管理分布式数据集市的唯一的完全点对点的解决方案。作为一个新产品,它提供了建立分布式数据集市的点对点方案,并且从一个中心位置上管理它们,它同时解决了业界中在元数据
14、管理方面的问题。(6)SAFE/DW建立数据仓库的一套完整的测试方法,在世界上得到广泛应用。(7)Sybase专业服务是一个全球范围的数据仓库协作组织,可快速、可靠地设计和提供数据仓库解决方案。Sybase方案的主要好处1、快速实现由于Sybase的解决方案是集成的,客户只需要挑选一套最适合的产品集,即可使它们无缝地工作。这样,一方面可以快速实现,另一方面只需要面对一个厂商就可以获得全部的支持和服务。2、数据集市与中心仓库的无缝集成在市场上,Sybase方案唯一地能够将多个数据集市和中心仓库管理集成在一起。我们的方案是为企业提供的“唯一的可行方案”,对进入数据集市的数据移动、安全和元数据管理进
15、行调度。3、极高的查询速度ASIQ是世界上用于决策支持(DSS)的最快速数据库。由于具有先进的Bit-wise索引技术,它能够以10至100倍于其竞争对手的速度查询,这些对手包括Oracle,RedBrack,Informix和Teradata。这更有利于最终用户的特殊的、重复的分析,也支持了在以前根本做不到的应用开发。4、高效的数据压缩ASIQ和ASE的数据压缩结果是传统RDBMS方法的三分之一至七分之一。在一个典型的ASIQ实现上,如果以五年左右时间来计算,一个Sybase方案可以做到每增加100GB数据节省大约41.5万美元(包括磁盘购置、维护和操作)。5、无限的可扩展性区别于传统的RD
16、BMS解决方案,ASIQ和ASE将共同支持客户存放更多的历史和详细数据。客户经常会关心对VLDB的支持。采用Sybase解决方案后,数据库规模比用非Sybase解决方案要小得多。今天,我们的用户已经可以利用ASIQ数据库来存取万亿字节(TB级)的数据。6、面向不同数据库环境Sybase解决方案也可以适用在混合的非Sybase环境中。在数据库网关方面,Sybase是世界上的先驱者,可以直接访问25种不同的主机,以及其它的客户机/服务器数据库系统,通过其DirectConnect系列产品。我们同时为基于软件的数据仓库和数据集市提供了具有数据变化捕捉能力的复制服务器Replication Serve
17、r,它可以反映Sybase、Oracle、DB2、VSAM、IMS以及其它关系型数据库中的数据变化。7、安全性和易管理性利用intellidex,我们的方案使IT用户仅通过一个简单的承诺模式,就可以管理分布的数据集市,具有高度的安全性、用户可控制性。除此之外,我们还有一个管理整个企业元数据的解决方案,这样既可以使用户创建自己的数据集市,也可以得到一个“唯一可行的方案”。intellidex能自动告诉用户哪些数据是在他们的数据集市中,这些数据从哪里来,以及到哪里去取等附加信息。8、提供强大的、可扩展的OLAP集成业务分析人员希望通过利用数据仓库中的数据做一些复杂分析。利用PowerDimensi
18、ons,用户可以快速建立简单或复杂的多角度模型,直接访问数据仓库中的数据。而这些模型可以被成百上千的用户共享,允许分析人员建立一些能为最终用户的决策者所使用的业务模型。9、Web上的基于软件的数据仓库解决方案Sybase的PowerDimensions包含一个用来分析和查询的基于Java的浏览器。它支持图形、主元选择和表格模型。Sybase的PowerDynamo自动将数据仓库并入Web,产生简单的基于HTML的查询。10、丰富的经验Sybase在数据仓库和数据集市的实现方面经验丰富,涉及金融服务、电讯、医疗保健、公用事业、交通运输、媒体和娱乐业。正由于在业务和技术上的特长,我们可以快速地为客
19、户建立实用可行的高效的解决方案。Sybase IQ技术白皮书数据库背景知识SQL数据库长期以来,数据库管理系统一直被用于在线事务处理(Online Transaction Processing,简称OLTP),也就是将日常事务处理中的数据以表的形式存放在数据库里。为了在数据库中“加入”数据,OLTP系统通常要发出查询一个记录或少量几个记录的命令,比如OLTP系统中的一个查询可能会查找某一个客户的数据记录,如在一个航空订票系统中查找订票号为35的记录。由此可以看出,OLTP系统查询数据的用途主要为满足即时性的事务处理需求,在这种需求中,查询比较简单,查询获得的数据列的数量(相对于整个数据表的大小
20、)也较少。换句话说,OLTP系统是被优化用来执行“大海捞针”类型的任务的,即在大量的数据中寻找符合给定查询条件的少量记录。最近一段时间,人们对数据仓库的兴趣越来越浓。数据仓库是应用于决策支持系统(Decision Support System,简称DSS),对于这类应用来说,数据库系统的主要任务并不是“加入”信息,而是“提取”信息。提供DSS的作法通常是将基于SQL的OLTP数据库引擎(如Sybase SQL Server、Oracle或Informix)加以扩展以用来处理DSS应用。但是,这样构造出的DSS功能性能普遍较差,原因非常简单:这些数据库的底层物理结构都是专门为事务处理而设计和优化
21、的,并不适用于DSS的分析性处理,所以这些数据库在OLTP应用中的性能非常好,而在DSS应用中的性能则出现明显差异。为了说明这一点,让我们来做个比喻。十年前,如果你想要买一辆自行车,你只要到商店去买一辆即可,你虽然可以在不同的颜色和式样中做选择,但自行车还是自行车。而现在,我们有山地车、赛车和特技用车等不同种类的自行车。之所以有这么多种自行车的原因是不同任务对自行车的物理要求也不同,例如山地车轮胎所必需的物理结构就与赛车完全不同。你虽然可以在山地环境中凑合使用赛车,但效果一定不会好。 对于数据库也是一样,让OLTP数据库来做DSS的工作,就象骑着赛车翻山越岭,原因是OLTP与DSS的基本物理结
22、构的不同导致解决方案的不同。在一条非常平坦的山路上,你可以若无其事地骑几次赛车,但当骑行的次数增加或山路变得陡峭时,采用山地车这样专门解决方案就会显得非常明智。数据库结构大多数现代关系型数据库由五个主要部件组成,即句法分析/语言层(Parser/Language layer)、SQL节(SQL Catalog)、查询优化(Query Optimization)、查询运行库(Query Runtime)和数据库存储管理系统(Database Storage Management System)。以下是一个典型的数据库结构的示意图:典型的数据库结构句法分析/语言层SQL节查询优化查询运行库存储管理
23、系统 让我们再回到自行车的比喻上。山地车和赛车都有车把、车座和脚蹬,这其中的一些部件是相同的,有些则是不同的,其不同之处是为了更有利于不同的用途。对于数据库也是一样,我们发现有利于提供DSS性能的数据库结构与原始数据库结构的不同之处主要在于数据库存储管理系统。一个专门为DSS编写的数据库存储管理器(Storage Manager)在处理DSS方面要远远优于为OLTP编写的存储管理器。多维数据库为了提供更多的解决方案,一些厂商实施了具有DSS功能的非SQL系统。这些非SQL或“多维数据库(Multi-Dimensional Database,简称MDDB)”有PilotTM和ComshareTM
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 Sybase 数据仓库 解决方案 指南 DW whitepaper
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内