DATASTAGE的介绍及基本操作.pptx
《DATASTAGE的介绍及基本操作.pptx》由会员分享,可在线阅读,更多相关《DATASTAGE的介绍及基本操作.pptx(133页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、内容提要:一、datastage datastage 介绍二、如何安装datastagedatastage三、配置datastage datastage 工程四、设计并运行datastagedatastage的jobjob五、操作元数据六、操作关联数据七、操作约束条件及数据来源八、定义查找使用的哈希文件九、聚合数据十、jobjob的运行及调试十一、创建BasicBasic表达式第1页/共133页一,一,datastagedatastage的介绍的介绍 本章主要讲解ETL的概念,datastage的介绍、组成及主要功能。第2页/共133页ETL概要 ETL包括数据抽取(Extract)、数据转换
2、(Transform)以及数据加载(Load)3个阶段。一般而言,这三个过程中有二次落地(生成中间文件)。第3页/共133页Ascential DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据库的集成工具。DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统。包括Oracle,Sybase,DB2,SQL Server,Teradata,FTP文件系统,文本文件等等。数据清洗、转换、加载都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具
3、来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。DS介绍:第4页/共133页Datastage的组成:Datastage的服务器端和客户端第5页/共133页 Datastage是C/S软件,服务器端存储所有的ds项目和元数据,由关系型数据库(RDBMS)组成。客户端具有同服务端一样的软件接口。客户端运行于windows95或更高版本,服务端可运行于windowsNT4.0或windows2000 版本,datastage的很多版本都支持unix。第6页/共133页DS Administrator 在服务端管理ds的项目和服务端操作。主要用于工程的参数调整,变量设置,
4、及command操作。DS Designer 建立ds的job并且编译执行的程序。主要用于job的开发及编译。DS Director运行和监控ds的job。主要用于job调试。DS Manager允许编辑和查看在ds中存储的内容。主要用于项目管理或job的导入、导出、备份。第7页/共133页DataStage中的Administrator第8页/共133页 默认使用Administator来指定常规的服务端,用来增加或删除DataStage工程,并且可以设置工程的属性。Administator也对于总库提供命令接口。使用Administator的Project Propertities 工程属
5、性的窗口,可以进行 1、在General页框中,设置Job监控的一些限制信息和Director中的其他信息。2、在Permission页框中,设置并分配开发人员组的权限。3、在Tracing 页框中,设置或取消服务端进行跟踪。4、在Schedule 页框中,设置调度时运行Job所用到的用户名和口令。5、在Tunables页框中,指定Hash文件Stage的读写的缓存大小。在DataStage中的Administrator设置常用服务器的默认值:1、改变Licence信息。2、设置服务端连接超时时间。第9页/共133页DataStage中的Manager第10页/共133页使用DataStage
6、中的Manager来存储和管理Job的元数据,使之可以在DataStage中的Designer中再度被使用。元数据包括表单和文件结构和导出数据的Routines的转换等等。Manager是DataStage存储的一个重要的部分,可以用来加入表单和文件的结构,在左侧分支树中显示Routines、Transforms和Jobs。自定义的Routines和Transforms也在DataStage中的Manager里创建。第11页/共133页DataStage中的Designer第12页/共133页DataStage中的Designer允许使用熟练地拖拽图标和连线的方式来表示数据抽取、清洗、转换、整
7、合和加载的过程,并将数据导入数据仓库的表单之中。Designer提供一个数据流程的模式,轻松将设置和Job的设计有机的组成。使用Designer,可以:1、指定数据如何抽取。2、指定数据的转换规则和进行转换。3、使用参考性质的LookUp到数据集市中编辑数据。a)例如,如果销售的记录集包括CustomerID,可以在CustomerMaster表中使用LookUp查找到Customer的名称。b)当需要连接数据集市并使用查询,可以快速的进行访问。4、对数据进行整合。5、在定义的约束条件中将基础数据分割成为多个输出的连接。在Tools菜单中可以轻松的于Director,Designer和Mana
8、ger之间切换。第13页/共133页DataStage中的Director第14页/共133页使用Datastage的Director可以对设计的job进行验证、运行、任务调度和监控的工作。也 可以针对job 的运行查看运行的聚合统计情况。第15页/共133页在Datastage中进行开发在Administrator中定义全局的和项目属性。在Datastage中的Manager里导入定义源的元数据和目标的元数据。在Datastage中的Designer中验证和编译job。在Datastage中的Director中验证、运行、和监控job。第16页/共133页1、定义工程的属性在Administ
9、rator中。2、打开工程。3、导入元数据,在job中定义格式、读入或写入在Manager中。4、设计job在Designer中。a)定义数据的抽取(读取)。b)定义数据流程。c)定义数据的集合。d)定义数据的转换。e)定义数据的约束条件。f)定义数据的加载(写入)。g)定义数据的聚合。5、编译和调试job在Designer中。6、运行和监控job在Director中。第17页/共133页Datastage的工程管理所有的工作都在一个工程中。在安装过后,需要建立一个工程,这是安装必选的项目。在使用它工作之前,要登录这个工程。可以在工程间进行导入和导出Datastage的项目内容。多个用户可以在
10、同一时间使用同一工程,但是不能同时编辑同一个项目。第18页/共133页所有的工作都在Datastage的工程里进行。在做任何事之前,那些具有同样管理权限的人,都要先打开一个工程,即进行登录。在安装过程中,工程就要求创建,这是必须做的事情。可以在安装之后,在Administrator中的Project页框中另增加其它工程。一个工程关联着一个目录,这个工程目录用来存储jobs、Datastage项目和元数据。在做任何操作前都要先打开这个工程,即登录这个工程。工程是自包含的很多的工程可以在同一时间被打开,在各自单独的环境打开。可以在它们之间导入或导出项目。多用户可以在同一时间使用一个工程中工作,但是
11、Datastage禁止在同一时间由多个用户访问同一个job。第19页/共133页Datastage测试问题一:Datastage的Designer是用来建立和编译job、用来进行数据的抽取、转换和加载即ETL。(Yes/No)答案一:Yes,Designer使用拖拽的方式将设计元素(习惯上叫stage)拖拽到设计区域中,经过建立和编译,Job就可以执行,用来进行数据的抽取、转换和加载。问题二:Datastage的Manager用来执行编译通过的Jobs。(Yes/No)答案二:No,Datastage的Manager是用来管理元数据的,如表单结构,内置和自定义Routines等的,使Datas
12、tage用来管理资源存储的。第20页/共133页问题三:Datastage的Director用来执行编译通过的Jobs。(Yes/No)答案三:Yes,使用Director来对编译通过的job进行验证或者运行,也可以在jobs运行过程中对其进行监控。问题四:Datastage的Administrator是用来定义全局变量和设置工程属性的。(Yes/No)答案四:Yes,可以在Administrator中设置工程中使用的全局变量和必要属性,如连接数据库超时,登录者权限等等。第21页/共133页第二章 如何安装Datastage下面的讲解中,将可以了解到:在Windows系统中安装Datastag
13、e服务端。建立一个Datastage的工程。安装Datastage的客户端。第22页/共133页 Datastage 的服务端要首先安装,之后才可以安装Datastage 客户端,服务端能都安装在WinNT、Windows2000或者UNIX系统中,这个模块将介绍在Windows环境下进行安装。系统的具体配置依赖于所要安装的Datastage 版本,在安装盘上找到最接近的系统需求配置。安装Datastage 服务端需要有哪些安装盘和服务端的许可,这个许可包含以下信息:第23页/共133页1,注册号(序列号)。2,工程数量。在Datastage服务端可以建立的最大工程数量。包括新建的工程,也包括
14、对先前建立的工程进行加上升级。3,到期时间。4,授权代码。在许可信息中,这个信息必须被正确输入的。第24页/共133页安装向导会指导通过以下步骤进行:1,输入许可信息。2,指定服务器的路径。3,选择程序的文件夹。4,创建一个新的工程或升级已经存在的工程。第25页/共133页安装Datastage 第26页/共133页首先安装Datastage Server端,鼠标点击 软件会自动安装,安装过程中系统提示使用者选择安装路径和输入产品序列号。在Datastage Server安装的过程中会提示用户建立一个工程。在安装Datastage Server端以后,需要安装Datastage Client端
15、,鼠标点击软件会自动进行安装,安装过程中系统提示使用者选择安装路径和输入产品序列号。第27页/共133页安装有Datastage服务端的机器,必须运行着。需要运行Datastage的客户端。打开Datastage的控制面板,来停止或启动服务端。当再次安装Datastage的时候,会停止服务端。第28页/共133页为了保证Datastage客户端程序的正常运行,必须保证Datastage的服务器保持运行状态。在Windows2000的控制面板中打开Datastage的控制面板,可以启动或停止全部的Datastage服务。点击可以启动全部的服务或者停止全部的服务。在安装或重新安装Datastage
16、的时候,这些服务一定要全部停止。第29页/共133页安装Datastage客户端在安装Datastage服务端之后。可以安装在WinNT,Windows2000以及WinXP上。Datastage产品的许可用于安装Datastage的客户端。Datastage的操作许可只能用于安装Director和Administrator。第30页/共133页 Datastage的客户端必须在Datastage的服务端安装过后才可以进行安装,客户端能够安装在Windows95、Windows98、WindowsNT、Windows2000以及WindowsXP操作系统上。这里有俩个版本的Datastage:
17、1,开发版本的Datastage,包含了解所有的客户端应用程序。2,操作员版本的Datastage只包含了需要用到的运行和监控Job的应用程序,即Director和Administrator。第31页/共133页 安装开发版本的Datastage,需要有Datastage开发版的许可。安装操作员版本的Datastage,需要有Datastage的Director的许可。许可包括以下几个信息:1,序列号2,用户限制3,到期时间4,授权认可代码 这些信息必须是正确的数据。第32页/共133页第三章 配置 Datastage 工程下面的讲解中,将可以了解到。在Datastage的 Administr
18、ator中设置工程属性。在Datastage的Administrator中设置用户的权限。第33页/共133页Datastage工程属性建立或者删除Datastage工程。设置Datastage工程的默认属性。修改Datastage工程属性的方法。登录Datastage的Administrator。选择要修改属性的工程。第34页/共133页 Datastage中所有的开发工作都在一个Datastage的工程中,在安装Datastage服务端时,默认就已经建立了一个工程,可以使用Administrator进行工程的控制。每个工程都有其关联的目录,目录存储了在工程中建立的项目,如Jobs、元数据、
19、自定义的Routines等等。在一个工程中工作之前,必须要先打开它(即进行登录)。在使用Datastage的Administrator时,可以设置默认的工程属性。第35页/共133页设置Datastage工程属性选择要进行修改的工程,点击“Properties”第36页/共133页工程属性的“General”页框第37页/共133页点击Datastage的Administrator的“Properties”按钮,打开工程属性的窗口,这里有5个页框(“Mainframe”页框只有在许可支持大型机的Jobs的时候可用),默认打开的“General”页框。如果选择“Enable job admini
20、strator in Director”的选择项,那么在不打开Administrator的情况下在Datastage的Director中可以运行一些管理级别的函数。第38页/共133页在Director中运行一个Job的时候,事件被写入Jobs的运行的日志,例如:记录了何时开始运行Jobs,何时停止,何时终止。日志记录的事件增长量很大,“Auto-purpe of job log”选择框可以让指定用什么条件来筛选这些事件。可以限制记录时间的每天的数量或者运行Jobs运行的数量。第39页/共133页工程属性的“Permissions”页框第40页/共133页 使用这个页框可以设置访问和使用Dat
21、astage的用户组权限。所有的Datastage用户中,在登录Datastage之前,都必须拥有一个公认的,属于自己的用户角色,使之用来进行登录,这样可以用来防止匿名的方式使用Datastage工程。这里有三种Datastage用户角色:1,Datastage Developer,可以访问Datastage工程 全部的范围。2,Datastage Operator,可以运行、释放、Datastage的Jobs。3,Datastage Production Manager,可以管理Datastage 产品组件。第41页/共133页工程属性的“Tracing”页框第42页/共133页 在这个页面
22、设置是否在Datastage服务端进行跟踪处理。Datastage服务端进行跟踪处理默认是无效的。当使其有效,Datastage客户端运行项目的时候,所有的记录信息都要在Datastage服务端进行监控,并写入监控文件。使用这些底层系统知识可以帮助找到Datastage客户端的问题所在,如果跟踪设置为有效,当调用一个Datastage的客户端的时候,用户会收到一些警告的信息。警告:跟踪会消耗Datastage服务器大量的系统资源,除非用户需要诊断重大的问题,一般不建议设置跟踪有效。第43页/共133页 工程属性的“Schedule”页框 使用“Schedule”页框,来指定在选择的项目中运行计
23、划任务的jobs的用户名和口令,如果没有指定,Jobs会在当前系统的计划任务的用户名下运行。第44页/共133页 工程属性的“Tunables”页框 在“Tunable”页框中,可以指定当用来读取Hash文件记录时的缓存的大小,Hash文件大多数用于查找操作,这部分介绍会在下面的介绍中进行。第45页/共133页第四章 设计并运行Datastage的Job 下面的讲解中,将可以了解到:描述什么是Datastage的Job。一步步讲述如何建立Datastage Job。描述Link和Stage。识别不同类型的Stage。设计一个简单抽取和加载的Job。编译、验证和运行Job。监控Job的执行。第4
24、6页/共133页什么是Job第47页/共133页Job开发的浏览在Manager导入数据源和目标数据库的数据结构定义。在Designer加入Stage定义数据的抽取和加载。加入Transformer和其它的Stage来定义转换。从源数据到目的数据,加入Link来定义数据的流向。编译Job。在Director中,验证、运行和监控Job。在这个讲解中,将通过一个单一Job的过程第一步,着手定义元数据。第48页/共133页 Designer的工作区域第49页/共133页 中间偏右是Datastage的设计区域,可以将Stage和Link从工具的板块上拖动过来放在上面,左边是“Repository”(
25、存储)窗口,显示的是Manager中的分支。Manager中的分支,就像Jobs和表定义一样可以直接拖拽到设计区域,点击“ViewRepository”来显示“Repository”窗口。点击“ViewProperty Browser”来显示“Property Browser”窗口,显示在设计区选择的项目的属性。第50页/共133页Designer的工具栏 工具栏中的一些图标可以快捷的调用一些Datastage的内部函数,更加方便进行Jobs的设计工作。第51页/共133页Designer的Stage工具面板工具面板中包含描述的图标,可以将其加入到Jobs设计当中。第52页/共133页 当安装
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DATASTAGE 介绍 基本 操作
限制150内