sas数据仓库与数据挖掘.docx
《sas数据仓库与数据挖掘.docx》由会员分享,可在线阅读,更多相关《sas数据仓库与数据挖掘.docx(49页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、SAS数据仓库与数据挖掘-从业务数据中提炼决策支持信息的解决方案目 录SAS研究所和SAS系统1利用SAS技术建立你的数据仓库2SAS数据仓库的组成4SAS数据仓库的体系结构6SAS数据仓库的开发9SAS的数据仓库产品-SAS/WA12SAS帮助你进行数据挖掘15SAS的数据挖掘的方法论-SEMMA17SAS数据挖掘的集成软件工具-SAS/EM(Enterprise Miner)21决策支持智能化24企业级的报表制作工具-SAS/ER+SAS/MDDB+SAS/IntrNet27在网上展开SAS功能31SAS研究所和SAS系统SAS系统是用于严肃数据分析和决策支持的大型集成式模块化软件包。六十
2、年代末到八十年代初以统计分析及线性数学模型为主,并以此闻名于世。故其早期名为“Statistical Analysis System”。“SAS”即成为SAS软件研究所(SAS Institute Inc.)产品的总商标。SAS软件研究所跨国公司成立于1976年,总部设在美国北卡州凯瑞市(Cary North Carolina)。SAS保持了20年连续不断的两位数的业务收入增长率,现已是全球最大的私人软件公司和全球排名第九位的独立软件商。缘其是私人独立软件商,免受股市和公众股东资本的操纵和影响,按自主意志把收益的很大部分再投入于研究和发展,使其研发投资比重一直保持了全球软件业的领先地位。凭借这
3、一技术优势,遍布世界的4500多名SAS员工为120多个国家的三百五十多万SAS用户提供了行业公誉的高质量技术服务和支持。面对当今竞争日趋激烈、瞬息万变的世界市场经济,从国家机关到企业界的各类人员都要面对各种机遇迅速作出抉择。计算机系统支持人们能做出迅即反应业务处理的能力已满足不了当今的需求,要信息技术对各个层次和各种类型决策进行支持已是IT行业发展必然趋势。SAS以其具有前瞻性的技术开拓,在决策支持工具数据仓库和数据挖掘(Data Warehouse与Data Mining)方面已连年被评为“年度最佳产品”、“最佳决策支持工具”。公司卓著的业绩使之被评为“全美国人们最乐意为之工作的100家公
4、司”之一及“最佳决策支持工具的供应商”。Internet已成为世界信息的通衢大道,Intranet也已成为先进企业的信息经脉。SAS技术也与之有着同步的发展。SAS的IntrNet产品使全部的SAS技术最大限度的实现了Web-Enable。这使得SAS原来跨多平台应用的开放机制扩展到了网络计算环境和网际应用。这不仅使SAS使用更加方便,而且使那些以Thin-client运行的系统在使用SAS时节省了投资,并减少了系统维护的工作量。在这里将按下面五个脉络向你系统的介绍SAS技术:l SAS世界领先的数据仓库技术l SAS获最佳决策支持工具褒奖的数据挖掘技术l SAS的业务智能化技术l SAS的企
5、业级报表制作工具l SAS的Web-Enablement你可以通过利用SAS技术建立你的数据仓库由于使用SAS系统成功地建立了许多卓有成效的数据仓库,SAS系统的数据仓库产品已连续两年(1996-1997)被美国著名的“Datamation”评为“当年度最佳产品”。销售额也占据了SAS产品的首位。98年又在DCI全球数据仓库大会荣获“Excellence in Business Information”大奖。正象数据仓库虽然是个较新的词语,但它是计算机技术发展的必然结果一样;SAS获此殊荣也非一日之功,正是它顺合计算机技术发展规律的渊源所致。为什么在有了这么多数据库产品之后,人们又要用数据仓库
6、技术。业界的各路诸侯又如此趋之若骛。这正是计算机技术应用需求的推动。当年数据库技术大发展的过程是伴随着OLTP(On Line Transaction Process联机业务处理)应用需求的推动。联机业务处理最迫切的技术要求就是快速响应。数据库技术,特别是基于E. F. Codd提出的关系理论的数据库的技术,将数据集分成了甚少冗余的实体(Entity),然后又将它们按一定的关系(Relationship)编织成一个有机的整体,比较完美地满足了OLTP的应用需求。对于每个业务处理最好只须涉及一个实体,业务处理对于实体的Add或Update也只涉及数据媒体的可能最小的空间(如记录级封锁技术),对于
7、其它实体的相关更新通过关系保持了一致性和完整性。这个切合当时OLTP应用实际需求的理论和技术的成功,推动了关系数据库产品风靡世界。象计算机技术的迅速发展一样,激烈竞争的市场也激发了各行各业对计算机应用的更多样的需求。计算机用户早已不满足于计算机能帮助他迅速地处理具体业务,他们要从这大量业务数据中探索业务活动的规律性,市场的运作趋势,并从中为他们参与市场竞争作出重要的决策。由此而来产生了对DSS(Decision Support System)决策支持系统的需求。支持决策就要进行数据,信息的分析,这就产生了OLAP(On Line Analysis Process)联机数据分析处理的需要。决策支
8、持所依据的数据从哪里来,当然是成功运行着的业务处理数据库中的数据。所以最早的决策支持所进行的数据处理就是直接使用数据库中的数据。可称之为ROLAP,即利用关系数据库的数据进行联机分析处理。SAS系统早就具有最强有力的数据分析处理能力,再加上SAS的SAS/ACCESS对几乎所有数据库和数据文件的强大的读取能力,以及SAS跨多平台的运作能力,SAS系统就成了最完善的ROLAP工具。当ROLAP只使用很少的关系数据库表时,这一操作是可行的。这种操作往往是针对局部性问题进行的决策支持数据分析。但面对市场的决策往往是涉及整个企业范畴的数据和信息。这就要同时启动大量的数据库表,并且要将众多表中的数据按一
9、定的规律拟合起来,形成恰好针对所支持决策问题的数据内容。这样一个过程或许是十分复杂,且耗费大量资源。或许企业的数据是分布在若干个系统中的,这样的数据整合过程几乎是难以完成的。除此之外,在一个数据库表中的每一条记录也并不是某项决策都需要的,这要按决策支持的需要编制专用的数据筛选程序。再者,联机业务处理系统中的数据有一个特性:即每一条记录都有产生,反复的变更、修改,直至数据记录不再变化的过程,称之为“数据到位”。例如:一个物料在一个工厂中产生了,联机业务处理系统中就要添加一条相应的记录;这个物料不断地进行加工,就要在它的记录中记入加工的参数;当这个物料加工成产品,被发货出厂,就要再登录这些出厂信息
10、,此后,记录其生产过程的数据就再也不能修改了。如果要进行产品生产周期的分析,就只使用发货出厂后的那些物料的数据,而不能使用同一表中的正在加工的物料的数据。由此可见,直接使用联机业务处理系统中的数据进行决策支持数据的分析处理是会产生许多麻烦的,甚至是实现不了的。这时候,人们就会问为什么系统中有我需要的数据,而我却无法运用呢!这不是说关系数据库不好,而是老产品遇到了新任务。E-R型的数据结构能完美地执行联机业务处理,但不适应较大规模的决策支持数据分析,尤其不适应企业级的决策支持数据分析处理的需要。适应这一需求,应运而生的就是数据仓库技术。在W.H.Inmon所著“Building the Data
11、 Warehouse”一书中给出了数据仓库的定义:“数据仓库是面向主题的、整合的、稳定的,并且时变的收集数据以支持管理决策的一种数据结构形式。”这一定义指出了数据仓库和事务处理系统之间的主要差异。数据仓库的目标是为了制定管理的决策提供支持信息,这显著的与OLTP系统的快速响应需要不同。正象企业为了发展要进行业务重组一样,为了支持管理决策需要也要按决策业务科目的要求重组OLTP系统中的数据,并要按不同决策,分析内容分别组织使之方便使用。这种基于主题的模式从用户角度来看就是多重的数据重组结构。在把数据装载到数据结构重组后的数据仓库之前,先要进行数据转换,或称“整合”处理。这一处理包括几个必不可少的
12、操作步骤,做到使数据完整、统一,这就确保了在使用数据仓库时其中的数据是有质量保证的,对此后文有详述。简而言之,整合就是保证数据准确,到位,没有超出应有的数值范围,没有重复等。数据仓库中的数据不象事务处理系统中的数据那样频繁的修改,所以它是比较稳定的(不必实时修改)。在一次数据分析的执行过程中使用的数据不得变更,这才能保证两次在使用同一组信息进行分析时不会得出不同的答案。数据仓库一般是按周、月或隔月从OLTP系统周期性的批次更新数据。由于具有数据的时段稳定性,对数据仓库来说就可以减少许多传统RDBMS必须的资源消耗,如:记录的锁机制、参照完整性的检查、数据操作的日志、以及检查点/回退(Roll
13、back)等。和OLTP的“实际事件”相比,SAS数据仓库的数据组织可呈多维时间段结构(时变的例如:1997年各个月份的销售数据),这一数据结构供进行某一时间段众多事件的定量分析用,并产生相应的结论。从本质上说,数据仓库的目标是从联机业务处理系统中筛选出某项决策所需的支持数据,再在分析处理过程中得出进行决策时有用的信息。供分析使用的这种时变数据亦可预先归纳出若干层次的汇总数据以利决策支持使用,这样,在常规决策操作时就不必临时进行基础数据的汇总处理了。SAS系统提供的数据仓库模型是包括了数据仓库管理、组织和信息展现的整体解决方案。这是由一族有机组合产品构成的阵容强大的模型。在下图中表示了SAS数
14、据仓库的模型。总之,数据仓库是当今社会的人们参与市场竞争等各项活动,要进行决策时的最适合的数据结构形式。是适应企业重组(Re-Engineering)时,进行企业数据、信息重组的工具。SAS在数据仓库技术上的成功例证和经验也必然能帮助中国的企业更卓有成效的走向市场经济的大潮。SAS数据仓库的组成提醒您:在购买数据仓库产品时注意其必不可少的技术环节数据仓库是适应决策支持系统的需要而产生的,所以人们希望所采用的软件产品能支持决策过程的全部工作内容。SAS的数据仓库技术就是可以支持决策全过程的整体解决方案。包括:l 从任何业务处理系统或数据源中取出决策所需数据l 对源数据进行清理和整合l 按计划或规
15、则进行数据仓库的装载和更新l 按支持决策的需要,以多种形式进行数据和信息的组织l 最丰富的决策数据分析处理能力l 灵活多样的结果展现方式如果您想建立决策支持系统的话,您就应当检查您所采用的软件工具是否具备上述全面的能力。SAS系统的数据存取能力从早期的SAS技术来看,它就是一个十分通用,且又十分开放的软件产品。唯有这样SAS才会在如此广泛的各种不同类型计算机系统平台和各种各样的环境中得到充分的运用。SAS有一个SAS/ACCESS产品,利用它可对众多不同格式的数据进行查询、访问和分析。SAS/ACCESS提供了与目前许多流行数据库软件和老的数据文件的接口,用SAS/ACCESS可建立对应外部异
16、构数据的一个统一的共用数据界面。所提供的与外部数据的接口是透明和动态的。用户可不必将数据真的读到SAS系统中来,而只需在SAS系统中建立对外部数据的描述(亦即所谓View),便可把这些外部数据当作真正存储在SAS系统中的数据集一样使用。这时,用户即可使用这些数据进行所谓ROLAP式的数据分析和决策工作。对一些经常反复使用的外部数据,亦可利用SAS/ACCESS将其真正提取放入SAS系统中,并进一步经过整理放进数据仓库。SAS/ACCESS提供的接口是双向的,既可将数据读入SAS系统,亦可在SAS系统中更新外部数据,或将数据加载到外部数据载体中去。这使数据仓库系统和原有的运行数据体系更加沟通。目
17、前SAS/ACCESS支持的数据库主要有:DB2,Oracle,Sybase,Rdb,CA-Ingres,CA-Datacom,Informix,ADABAS,NCR-Teradata,AS/400.等数据库。SAS/ACCESS还能支持一些老的数据文件系统,如有名的IBM/VSAM等。通过ODBC使SAS系统和更广泛的开放型数据库建立了沟通。另外,通过SAS编程中的DATA STEP可与任何知道其结构的数据进行联结。在数据仓库的宣传中曾报道用一个数据库产品作数据仓库使用。但这个数据库对原有数据载体没有存取能力,就又买了第三方的软件作为它们取出数据的工具。这种选择显然是不妥当的。SAS与众多软
18、/硬件厂商长期友好合作所形成的跨平台的数据存取能力决非一日之功。数据的清理和整合在SAS的数据仓库系统中有专门的机制进行引入数据的检查、核对和将不同来源数据进行整合的技术环节。在一个企业或其它大型的组织中,各种数据可能有不同的类型,格式可能也不尽统一,在原来不同的应用场合亦可能采用了不同的单位、制式,要想将它们放在一起进行有效的处理,首先的要求就是统一。从业务操作系统中引入的数据必须进行其完整性的检查。在一条记录中的各个数据项应保持完整的存在关系。若有缺项,且又没有检查,这必然导致统计的错误,决策也会产生偏差。数值的有效性也是必须进行核对的。防止将数据源中的错误带入决策过程之中。这些必要的清理
19、工作保障了决策支持所使用数据的质量。此外,还可以加入用户自己认为需要加强的环节。系统允许在数据整理的各个层次加上用户自行强化的环节。数据仓库的加载和更新从数据源抓取数据不仅有质量问题,还有有计划的按一定时间节奏从数据源取出和装入、更新数据仓库的问题。因为SAS系统有主动去取外部数据的能力,所以按时间节奏从数据源取出数据的操作在和其它系统管理人员协调好的基础上,就可完全在SAS系统内制定从各系统取用数据的计划了。在此基础上,数据仓库按照数据和信息使用的时间要求,准时的加载、更新,就是完全有保障的了。从数据源到数据仓库一气呵成的集成式的操作,这是SAS数据仓库技术的重要特点。按决策需要重组数据和信
20、息清理好的数据还要进行重组。按照决策的需要组织成不同的主题的数据仓库表。这是十分关键性的操作。在再小的企业或组织中,也总是有许多业务和技术环节的。一般来说,原来运行系统数据库的设计也总是针对这些业务和技术环节设置“实体”,即数据库的表。这样的设计使OLTP系统在线运行时,发挥了最大限度的工作效率。但在开拓决策支持的OLAP时,特别是对于全企业范围的数据进行操作时,这种数据结构效率极低。这是因为可能要从许多表中取出所需数据,而且还要进行数据的筛选,对不同表中的数据进行拟合等操作,这是极费时间和资源的。企业范围的决策是对各个环节分别进行业务处理的业务重组,这就需要有相应数据结构的重组,即按决策的需
21、要组织成不同主题的数据仓库表,以及相应的数据视图,汇总表等。SAS为此设置了交互式操作的界面,以最大的主动性帮你完成决策支持所需的数据重组。丰富的决策数据处理能力在有的所谓数据仓库产品的宣传中说:为了处理数据他们有各种函数功能供编程使用。这显然是极其不够的。为了更有效地支持决策,可能需要进行广泛、深入的数据挖掘(Data Mining)工作。SAS在这方面有世界领先的丰富的决策支持数据分析、处理软件。首先SAS/MDDB可帮你构造最适宜OLAP操作的多维数据结构。SAS/STAT覆盖了所有的实用数理统计分析方法,是国际上统计分析领域的标准软件。它提供了十多个过程可进行各种不同模型或不同特点的回
22、归分析;为多种试验设计模型提供了方差分析工具;在多变量统计分析方面,为主成分分析,相关分析,判别分析和因子分析提供了许多专用过程;还包括多种聚类准则的聚类分析方法.等。SAS/ETS提供了丰富的计量经济学和时间序列分析方法,是研究复杂系统和进行预测的有力工具。SAS/OR提供了全面的运筹学方法。SAS/IML提供了功能强大的面向矩阵运算的编程语言,帮助你研究新算法或解决SAS系统中没有现成算法的专门问题。SAS/INSIGHT是一个可视化的数据探索工具。它将统计方法与交互式图形显示融合在一起,为你展现了一种全新的使用统计分析方法的环境。还有SAS的人工神经元网络和SAS/ASSIST.等,具有
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- sas 数据仓库 数据 挖掘
限制150内