2022年Kettle.安装部署及使用教程-贵在详细截图说明 .pdf
-
资源ID:39703010
资源大小:4.56MB
全文页数:31页
- 资源格式: PDF
下载积分:4.3金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
2022年Kettle.安装部署及使用教程-贵在详细截图说明 .pdf
1、Kettle概念Kettle 是一款国外开源的ETL工具,纯 java编写,可以在 Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle 这个 ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle 中有两种脚本文件,transformation和 job,transformation 完成针对数据的基础转换,job 则完成整个工作流的控制。2、下载和部署下载 kettle 压缩包,因 kettle 为绿色软件,解压缩到任意本地路径即可.下载 kettle 包,并解压http:/ Kettle6.1版本)解压:名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 31 页 -3、Kettle环境配置3.1 安装 JDK(略)3.2 测试 JDK安装成功(略)JDK安装步骤见 Jdk1.6_win7_64安装及配置环境变量.docx强调:kettle6.1 版本,必须配套使用JDK1.7及以上版本。3.3 运行 Kettle Windows 下找到$KETTLE_HOME/spoon.bat,双击运行.欢迎界面如下图所示:名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 31 页 -4、Kettle组件介绍与使用4.1 Kettle使用Kettle 提供了资源库的方式来整合所有的工作,;1)创建一个新的transformation,点击保存到本地路径,例如保存到D:/etltest 下,保存文件名为 Trans,kettle 默认 transformation 文件保存后后缀名为ktr;2)创建一个新的job,点击保存到本地路径,例如保存到D:/etltest 下,保存文件名为Job,kettle 默认 job 文件保存后后缀名为kjb;名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 31 页 -4.2 组件树介绍4.2.1Transformation 的主对象树和核心对象分别如下图:Transformation 中的节点介绍如下:Main Tree:菜单列出的是一个transformation 中基本的属性,可以通过各个节点来查看。DB连接:显示当前transformation中的数据库连接,每一个transformation 的数据库连接都需要单独配置。Steps:一个 transformation 中应用到的环节列表Hops:一个 transformation中应用到的节点连接列表核心对象 菜单列出的是transformation 中可以调用的环节列表,可以通过鼠标拖动的方式对名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 31 页 -环节进行添加:Input:输入环节Output:输出环节Lookup:查询环节Transform:转化环节Joins:连接环节Scripting:脚本环节4.2.2Job的主对象树和核心对象分别如下图:Main Tree 菜单列出的是一个Job 中基本的属性,可以通过各个节点来查看。DB连接:显示当前Job中的数据库连接,每一个Job的数据库连接都需要单独配置。Job entries/作业项目:一个 Job 中引用的环节列表核心对象 菜单列出的是Job 中可以调用的环节列表,可以通过鼠标拖动的方式对环节进行添加。每一个环节可以通过鼠标拖动来将环节添加到主窗口中。并可通过shift+鼠标拖动,实现环节之间的连接。4.2.3 kettle的简单使用DB连接我们可以看到转换的主对象树和核心对象区域,然后我们添加一个DB 连接。选择“主对象树”,双击“转换”标签下的“DB连接”会弹出一个配置窗口。填入连接名称,选择连接类型,配置数据库设置,然后测试下配置是否正确。由于 kettle 没有将所有数据库的Driver 文件集成,所以如果想连接指定的数据库,需要自己下载 JDBC驱动,放入指定的lib 目录下。添加完JDBC驱动后,必须重启kettle 才能正确加载驱动(添加oracle 数据库的jdbc 驱动,参见6、常见问题6.1【Kettle】JDBC连接 oracle报找不到驱动)。名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页,共 31 页 -注:在转换之前需要创建转换所需的表,原始表和转换的目标表。点击“核心对象”标签页中的“输入”,选择“表输入”拖到“转换”区域。双击“表输入”图标弹出表输入对话框,填入步骤名称,选择数据库连接,点击“获取SQL查询语句”,或者直接写入SQL语句,填写附件信息,点击“预览”按钮查看执行结果,没有错误,点击“确认”关闭对话框。点击“核心对象”“输出”,选择“Excel 输出”拖入到转换区,双击Excel 输出图标,弹出对话框,选择文件名和其它附加参数,点击确认。名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页,共 31 页 -点击输入表的图标,同时按下shift 键,再点击输出文件,将两者连接起来。然后双击Excel输出进行配置。最后一步就是执行kettle 脚本,点击工具栏的播放箭头即可。点击“启动”开始转换,在转换过程中会出现转换的信息,如下图所示。名师资料总结-精品资料欢迎下载-名师精心整理-第 7 页,共 31 页 -完成转换后,我们可以在Excel输出目录中查看转换结果。注:时间字段转换到Excel 为空,修改SELECT 语句中使用TO_CHAR转换成字符串,例如:to_char(start_time,yyyy-mm-dd HH24:MM:SS )as start_time.注:Excel(2007 之前版本)中的记录不能超过65535 条,否则会自动关闭文件,导致转换失败。至此,一个简单的数据迁移脚本,从oracle 数据库导出数据到EXCEL 文件中就大功告成了。4.3 使用举例 1 4.3.1 建立转换选中列表中的的“表输入”、“表输出”、“插入/更新”,拖拽到右侧工作区。鼠标选中节点键盘按shift 键,拖拽即可连线。下图是一个转换,有两个动作,一是直接从数据源表同步数据到目标表,一是检查源表的插入和更新,同步到目标表。黑色线为生效,灰色线为失效,节点和连接可双击进行编辑。名师资料总结-精品资料欢迎下载-名师精心整理-第 8 页,共 31 页 -可预览数据是否正确。名师资料总结-精品资料欢迎下载-名师精心整理-第 9 页,共 31 页 -双击编辑表输出动作。名师资料总结-精品资料欢迎下载-名师精心整理-第 10 页,共 31 页 -要获取的字段设置如下所示:操作的数据库名名师资料总结-精品资料欢迎下载-名师精心整理-第 11 页,共 31 页 -点击“Enter field mapping/输入字段映射”进行字段选择。选择要用的字段后点确定,注意字段的约束条件。名师资料总结-精品资料欢迎下载-名师精心整理-第 12 页,共 31 页 -编辑好后点击上面的执行即可。左侧参数暂不说明,执行完成后可以观看下方的日志。名师资料总结-精品资料欢迎下载-名师精心整理-第 13 页,共 31 页 -双击编辑“插入/更新”动作。名师资料总结-精品资料欢迎下载-名师精心整理-第 14 页,共 31 页 -然后点击运行。名师资料总结-精品资料欢迎下载-名师精心整理-第 15 页,共 31 页 -执行前,在源库里加条新纪录。确定作业执行正常后可以保存作业,如保存路径到本地磁盘地址C:etl2.ktr。4.3.2 建立执行的 JOB/作业建立 JOB的前提是有可以完整执行的作业,上面步骤定制的作业进行保存。名师资料总结-精品资料欢迎下载-名师精心整理-第 16 页,共 31 页 -从左侧列表拖拽“START”,“Success”,“转换”,“发送邮件”到工作区并连接,如下图。然后双击“START”动作进行编辑。名师资料总结-精品资料欢迎下载-名师精心整理-第 17 页,共 31 页 -然后双击编辑“Transformation”活动。转换文件名选择上一步编辑好的.ktr 文件名师资料总结-精品资料欢迎下载-名师精心整理-第 18 页,共 31 页 -双击发送邮件,参数设置如下:名师资料总结-精品资料欢迎下载-名师精心整理-第 19 页,共 31 页 -编辑完成后直接点击运行即可。名师资料总结-精品资料欢迎下载-名师精心整理-第 20 页,共 31 页 -运行后查看日志。名师资料总结-精品资料欢迎下载-名师精心整理-第 21 页,共 31 页 -当任务执行以后可以查看相对应的日志,也可自行配置日志。4.4 使用举例 2 本例是完成读取目录下的.log 文件,找出其中包含错误代码的行,并统计个数4.4.1 新建 Transformation 本例所用到的步骤和组件如下图所示:名师资料总结-精品资料欢迎下载-名师精心整理-第 22 页,共 31 页 -连接图如下所示:名师资料总结-精品资料欢迎下载-名师精心整理-第 23 页,共 31 页 -a)获取文件名设置如下:其中已选择的文件名称的变量都需要手写输入,可以点击显示文件名和预览记录检查是否配置正确。名师资料总结-精品资料欢迎下载-名师精心整理-第 24 页,共 31 页 -b)文本文件输入设置如下:文本文件输入选项中选择从上一步骤获取文件名,其中 在输入里的字段被当做文件名一栏输入 uri,步骤读取的文件名来自填写获取文件名2 内容选项卡的设置如下:文件类型选择CSV,分隔符自己定义,格式为mixed,编码方式选择UTF-8 名师资料总结-精品资料欢迎下载-名师精心整理-第 25 页,共 31 页 -字段选项可设置如下:需要手写输入str 名称,设置类型为String c)获取字符串设置如下:d)测试脚本设置如下其中可以点击获取变量和测试脚本来测试脚本的正确性名师资料总结-精品资料欢迎下载-名师精心整理-第 26 页,共 31 页 -点击测试脚本界面如下:脚本代码由JavaScript编写e)聚合记录聚合记录就是将上一步的结果进行聚合,这里的名称字段是点击获取字段获取的,而不是自己输入的,new name 一列是制定新名字,可以自己输入填写,名师资料总结-精品资料欢迎下载-名师精心整理-第 27 页,共 31 页 -f)文本文件输出文本文件的输出设置如下,其中字段属性的设置名称字段是点击获取字段自动获取的,不是输入的,设置如下g)运行日志显示如下:名师资料总结-精品资料欢迎下载-名师精心整理-第 28 页,共 31 页 -4.4.2 建立 Job Job的建立于4.3 中方法一样,用到的组件如下所示名师资料总结-精品资料欢迎下载-名师精心整理-第 29 页,共 31 页 -转换组件设置如下:将上一步保存的*.ktr 添加到转换名文件路径中点击运行按钮:生成日志如下所示:名师资料总结-精品资料欢迎下载-名师精心整理-第 30 页,共 31 页 -6、常见问题解决6.1【Kettle】JDBC 连接 oracle报找不到驱动初次接触kettle,环境都配置好以后,启动kettle 的 spoon,新建作业,配置jdbc 的 oracle数据源连接,报找不到驱动。解决办法:1、下载 OJDBC14.jar包2、将该包拷贝到kettle 的data-integrationlibswt或者 data-integrationlib路径下都可以。3、重启 kettle,重新配置数据源连接。问题解。名师资料总结-精品资料欢迎下载-名师精心整理-第 31 页,共 31 页 -