sas数据仓库与数据挖掘7867.docx
《sas数据仓库与数据挖掘7867.docx》由会员分享,可在线阅读,更多相关《sas数据仓库与数据挖掘7867.docx(83页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、SAS数据仓库与数据挖掘-从业务数数据中提炼决决策支持信息息的解决方案案目 录SAS研究所和和SAS系统1利用SAS技术术建立你的数数据仓库2SAS数据仓库库的组成4SAS数据仓库库的体系结构构6SAS数据仓库库的开发9SAS的数据仓仓库产品-SSAS/WAA12SAS帮助你进进行数据挖掘掘15SAS的数据挖挖掘的方法论论-SEMMMA17SAS数据挖掘掘的集成软件件工具-SAAS/EM(Enterrprisee Mineer)21决策支持智能化化24企业级的报表制制作工具-SSAS/ERR+SAS/MDDB+SAS/IIntrNeet27在网上展开SAAS功能31SAS研究所和和SAS系统S
2、AS系统是用用于严肃数据据分析和决策策支持的大型型集成式模块块化软件包。六六十年代末到到八十年代初初以统计分析析及线性数学学模型为主,并并以此闻名于于世。故其早早期名为“Statiisticaal Anaalysiss Systtem”。“SAS”即成为SASS软件研究所所(SAS Instiitute Inc.)产产品的总商标标。SAS软件研究究所跨国公司司成立于19976年,总总部设在美国国北卡州凯瑞瑞市(Carry Norrth Caarolinna)。SAS保持了了20年连续不不断的两位数数的业务收入入增长率,现现已是全球最最大的私人软软件公司和全全球排名第九九位的独立软软件商。缘其其
3、是私人独立立软件商,免免受股市和公公众股东资本本的操纵和影影响,按自主主意志把收益益的很大部分分再投入于研研究和发展,使使其研发投资资比重一直保保持了全球软软件业的领先先地位。凭借借这一技术优优势,遍布世世界的45000多名SAS员工为为120多个国国家的三百五五十多万SAAS用户提供供了行业公誉誉的高质量技技术服务和支支持。面对当今竞争日日趋激烈、瞬瞬息万变的世世界市场经济济,从国家机机关到企业界界的各类人员员都要面对各各种机遇迅速速作出抉择。计计算机系统支支持人们能做做出迅即反应应业务处理的的能力已满足足不了当今的的需求,要信信息技术对各各个层次和各各种类型决策策进行支持已已是IT行业发展
4、展必然趋势。SAS以其具有前瞻性的技术开拓,在决策支持工具数据仓库和数据挖掘(Data Warehouse与Data Mining)方面已连年被评为“年度最佳产品”、“最佳决策支持工具”。公司卓著的业绩使之被评为“全美国人们最乐意为之工作的100家公司”之一及“最佳决策支持工具的供应商”。Interneet已成为世世界信息的通通衢大道,IIntrannet也已成成为先进企业业的信息经脉脉。SAS技术也也与之有着同同步的发展。SAS的IntrNet产品使全部的SAS技术最大限度的实现了Web-Enable。这使得SAS原来跨多平台应用的开放机制扩展到了网络计算环境和网际应用。这不仅使SAS使用更
5、加方便,而且使那些以Thin-client运行的系统在使用SAS时节省了投资,并减少了系统维护的工作量。在这里将按下面面五个脉络向向你系统的介介绍SAS技术:l SAS世界领先先的数据仓库库技术l SAS获最佳决决策支持工具具褒奖的数据据挖掘技术l SAS的业务智智能化技术l SAS的企业级级报表制作工具具l SAS的Webb-Enabblemennt你可以通过htttp:/www.ssas.coom/查到SAS研究所所最新的技术术信息。你还还可以通过美美国SAS研究所所设立在北京京(Tel:010-662351228(0-3),上上海(Tell:021-635822288)和和广州(Teel
6、:0200-875554490)的的办事处得到到直接的咨询询和技术支持持。利用SAS技术术建立你的数数据仓库由于使用SASS系统成功地地建立了许多多卓有成效的的数据仓库,SAS系统的数据仓库产品已连续两年(1996-1997)被美国著名的“Datamation”评为“当年度最佳产品”。销售额也占据了SAS产品的首位。98年又在DCI全球数据仓库大会荣获“Excellence in Business Information”大奖。正象数据仓库虽然是个较新的词语,但它是计算机技术发展的必然结果一样;SAS获此殊荣也非一日之功,正是它顺合计算机技术发展规律的渊源所致。为什么在有了这这么多数据库库产品
7、之后,人人们又要用数数据仓库技术术。业界的各各路诸侯又如如此趋之若骛骛。这正是计计算机技术应应用需求的推推动。当年数数据库技术大大发展的过程程是伴随着OOLTP(On Linne Traansacttion PProcesss联机业务务处理)应用用需求的推动动。联机业务务处理最迫切切的技术要求求就是快速响响应。数据库库技术,特别别是基于E. F. CCodd提出出的关系理论论的数据库的的技术,将数数据集分成了了甚少冗余的的实体(Enntity),然然后又将它们们按一定的关关系(Rellationnship)编编织成一个有有机的整体,比比较完美地满满足了OLTTP的应用需需求。对于每每个业务处理
8、理最好只须涉涉及一个实体体,业务处理理对于实体的的Add或Updatte也只涉及及数据媒体的的可能最小的的空间(如记记录级封锁技技术),对于于其它实体的的相关更新通通过关系保持持了一致性和和完整性。这这个切合当时时OLTP应用用实际需求的的理论和技术术的成功,推推动了关系数数据库产品风风靡世界。象计算机技术的的迅速发展一一样,激烈竞竞争的市场也也激发了各行行各业对计算算机应用的更更多样的需求求。计算机用用户早已不满满足于计算机机能帮助他迅迅速地处理具具体业务,他他们要从这大大量业务数据据中探索业务务活动的规律律性,市场的的运作趋势,并并从中为他们们参与市场竞竞争作出重要要的决策。由此而来产生了
9、了对DSS(Decission SSupporrt Sysstem)决策支持持系统的需求求。支持决策策就要进行数数据,信息的的分析,这就就产生了OLLAP(On Liine Annalysiis Proocess)联联机数据分析析处理的需要要。决策支持持所依据的数数据从哪里来来,当然是成成功运行着的的业务处理数数据库中的数数据。所以最最早的决策支支持所进行的的数据处理就就是直接使用用数据库中的的数据。可称称之为ROLLAP,即利利用关系数据据库的数据进进行联机分析析处理。SAAS系统早就就具有最强有有力的数据分分析处理能力力,再加上SSAS的SAS/AACCESSS对几乎所有有数据库和数数据文
10、件的强强大的读取能能力,以及SSAS跨多平平台的运作能能力,SASS系统就成了了最完善的RROLAP工工具。当ROLAP只只使用很少的的关系数据库库表时,这一一操作是可行行的。这种操操作往往是针针对局部性问问题进行的决决策支持数据据分析。但面面对市场的决决策往往是涉涉及整个企业业范畴的数据据和信息。这这就要同时启启动大量的数数据库表,并并且要将众多多表中的数据据按一定的规规律拟合起来来,形成恰好好针对所支持持决策问题的的数据内容。这这样一个过程程或许是十分分复杂,且耗耗费大量资源源。或许企业业的数据是分分布在若干个个系统中的,这这样的数据整整合过程几乎乎是难以完成成的。除此之外,在一一个数据库
11、表表中的每一条条记录也并不不是某项决策策都需要的,这这要按决策支支持的需要编编制专用的数数据筛选程序序。再者,联联机业务处理理系统中的数数据有一个特特性:即每一一条记录都有有产生,反复复的变更、修修改,直至数数据记录不再再变化的过程程,称之为“数据到位”。例如:一一个物料在一一个工厂中产产生了,联机机业务处理系系统中就要添添加一条相应应的记录;这这个物料不断断地进行加工工,就要在它它的记录中记记入加工的参参数;当这个个物料加工成成产品,被发发货出厂,就就要再登录这这些出厂信息息,此后,记记录其生产过过程的数据就就再也不能修修改了。如果果要进行产品品生产周期的的分析,就只只使用发货出出厂后的那些
12、些物料的数据据,而不能使使用同一表中中的正在加工工的物料的数数据。由此可见,直接接使用联机业业务处理系统统中的数据进进行决策支持持数据的分析析处理是会产产生许多麻烦烦的,甚至是是实现不了的的。这时候,人人们就会问为为什么系统中中有我需要的的数据,而我我却无法运用用呢!这不是是说关系数据据库不好,而而是老产品遇遇到了新任务务。E-R型的数数据结构能完完美地执行联联机业务处理理,但不适应应较大规模的的决策支持数数据分析,尤尤其不适应企企业级的决策策支持数据分分析处理的需需要。适应这这一需求,应应运而生的就就是数据仓库库技术。在W.H.Innmon所著著“Buildding tthe Daata W
13、aarehouuse”一书中给出出了数据仓库库的定义:“数据仓库是是面向主题的的、整合的、稳稳定的,并且且时变的收集集数据以支持持管理决策的的一种数据结结构形式。”这一定义指指出了数据仓仓库和事务处处理系统之间间的主要差异异。数据仓库库的目标是为为了制定管理理的决策提供供支持信息,这这显著的与OOLTP系统统的快速响应应需要不同。正正象企业为了了发展要进行行业务重组一一样,为了支支持管理决策策需要也要按按决策业务科科目的要求重重组OLTPP系统中的数数据,并要按按不同决策,分分析内容分别别组织使之方方便使用。这这种基于主题题的模式从用用户角度来看看就是多重的的数据重组结结构。在把数据装载到到数
14、据结构重重组后的数据据仓库之前,先先要进行数据据转换,或称称“整合”处理。这一一处理包括几几个必不可少少的操作步骤骤,做到使数数据完整、统统一,这就确确保了在使用用数据仓库时时其中的数据据是有质量保保证的,对此此后文有详述述。简而言之之,整合就是是保证数据准准确,到位,没没有超出应有有的数值范围围,没有重复复等。数据仓仓库中的数据据不象事务处处理系统中的的数据那样频频繁的修改,所所以它是比较较稳定的(不不必实时修改改)。在一次次数据分析的的执行过程中中使用的数据据不得变更,这这才能保证两两次在使用同同一组信息进进行分析时不不会得出不同同的答案。数数据仓库一般般是按周、月月或隔月从OOLTP系统
15、统周期性的批批次更新数据据。由于具有有数据的时段段稳定性,对对数据仓库来来说就可以减减少许多传统统RDBMSS必须的资源源消耗,如:记录的锁机机制、参照完完整性的检查查、数据操作作的日志、以以及检查点/回退(Rolll bacck)等。和OLTP的“实际事件”相比,SASS数据仓库的的数据组织可可呈多维时间间段结构(时时变的例如:19997年各个月月份的销售数数据),这一一数据结构供供进行某一时时间段众多事事件的定量分分析用,并产产生相应的结结论。从本质质上说,数据据仓库的目标标是从联机业业务处理系统统中筛选出某某项决策所需需的支持数据据,再在分析析处理过程中中得出进行决决策时有用的的信息。供
16、分分析使用的这这种时变数据据亦可预先归归纳出若干层层次的汇总数数据以利决策策支持使用,这这样,在常规规决策操作时时就不必临时时进行基础数数据的汇总处处理了。SAS系统提供供的数据仓库库模型是包括括了数据仓库库管理、组织织和信息展现现的整体解决决方案。这是是由一族有机机组合产品构构成的阵容强强大的模型。在在下图中表示示了SAS数据仓仓库的模型。总之,数据仓库库是当今社会会的人们参与与市场竞争等等各项活动,要要进行决策时时的最适合的的数据结构形形式。是适应应企业重组(Re-Engineering)时,进行企业数据、信息重组的工具。SAS在数据仓库技术上的成功例证和经验也必然能帮助中国的企业更卓有成
17、效的走向市场经济的大潮。SAS数据仓库库的组成提醒您:在购买买数据仓库产产品时注意其其必不可少的的技术环节数据仓库是适应应决策支持系系统的需要而而产生的,所所以人们希望望所采用的软软件产品能支支持决策过程程的全部工作作内容。SAAS的数据仓仓库技术就是是可以支持决决策全过程的的整体解决方方案。包括:l 从任何业务处理理系统或数据据源中取出决决策所需数据据l 对源数据进行清清理和整合l 按计划或规则进进行数据仓库库的装载和更更新l 按支持决策的需需要,以多种种形式进行数数据和信息的的组织l 最丰富的决策数数据分析处理理能力l 灵活多样的结果果展现方式如果您想建立决决策支持系统统的话,您就就应当检
18、查您您所采用的软软件工具是否否具备上述全全面的能力。SAS系统的数数据存取能力力从早期的SASS技术来看,它它就是一个十十分通用,且且又十分开放放的软件产品品。唯有这样样SAS才会在在如此广泛的的各种不同类类型计算机系系统平台和各各种各样的环环境中得到充充分的运用。SAS有一个SAS/ACCESS产品,利用它可对众多不同格式的数据进行查询、访问和分析。SAS/ACCESS提供了与目前许多流行数据库软件和老的数据文件的接口,用SAS/ACCESS可建立对应外部异构数据的一个统一的共用数据界面。所提供的与外部数据的接口是透明和动态的。用户可不必将数据真的读到SAS系统中来,而只需在SAS系统中建立
19、对外部数据的描述(亦即所谓View),便可把这些外部数据当作真正存储在SAS系统中的数据集一样使用。这时,用户即可使用这些数据进行所谓ROLAP式的数据分析和决策工作。对一些经常反复使用的外部数据,亦可利用SAS/ACCESS将其真正提取放入SAS系统中,并进一步经过整理放进数据仓库。SAS/ACCESS提供的接口是双向的,既可将数据读入SAS系统,亦可在SAS系统中更新外部数据,或将数据加载到外部数据载体中去。这使数据仓库系统和原有的运行数据体系更加沟通。目前SAS/ACCESS支持的数据库主要有:DB2,Oracle,Sybase,Rdb,CA-Ingres,CA-Datacom,Info
20、rmix,ADABAS,NCR-Teradata,AS/400.等数据库。SAS/ACCESS还能支持一些老的数据文件系统,如有名的IBM/VSAM等。通过ODBC使SAS系统和更广泛的开放型数据库建立了沟通。另外,通过SAS编程中的DATA STEP可与任何知道其结构的数据进行联结。在数据仓库的宣宣传中曾报道道用一个数据据库产品作数数据仓库使用用。但这个数数据库对原有有数据载体没没有存取能力力,就又买了了第三方的软软件作为它们们取出数据的的工具。这种种选择显然是是不妥当的。SAS与众多软软/硬件厂商长长期友好合作作所形成的跨跨平台的数据据存取能力决决非一日之功功。数据的清理和整整合在SAS的
21、数据据仓库系统中中有专门的机机制进行引入入数据的检查查、核对和将将不同来源数数据进行整合合的技术环节节。在一个企企业或其它大大型的组织中中,各种数据据可能有不同同的类型,格格式可能也不不尽统一,在在原来不同的的应用场合亦亦可能采用了了不同的单位位、制式,要要想将它们放放在一起进行行有效的处理理,首先的要要求就是统一一。从业务操作系统统中引入的数数据必须进行行其完整性的的检查。在一一条记录中的的各个数据项项应保持完整整的存在关系系。若有缺项项,且又没有有检查,这必必然导致统计计的错误,决决策也会产生生偏差。数值的有效性也也是必须进行行核对的。防防止将数据源源中的错误带带入决策过程程之中。这些必要
22、的清理理工作保障了了决策支持所所使用数据的的质量。此外,还可以加加入用户自己己认为需要加加强的环节。系系统允许在数数据整理的各各个层次加上上用户自行强强化的环节。数据仓库的加载载和更新从数据源抓取数数据不仅有质质量问题,还还有有计划的的按一定时间间节奏从数据据源取出和装装入、更新数数据仓库的问问题。因为SSAS系统有有主动去取外外部数据的能能力,所以按按时间节奏从从数据源取出出数据的操作作在和其它系系统管理人员员协调好的基基础上,就可可完全在SAAS系统内制制定从各系统统取用数据的的计划了。在在此基础上,数数据仓库按照照数据和信息息使用的时间间要求,准时时的加载、更更新,就是完完全有保障的的了
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- sas 数据仓库 数据 挖掘 7867
限制150内