Kettle入门教程

news2024/11/25 3:18:46

目录

一、Kettle是什么

二、Kettle的两种设计

三、Kettle核心组件

四、安装与启动

五、使用

5.1 简单介绍

5.2 输入

5.3 输出

5.4 转换

5.5 脚本


一、Kettle是什么

        Kettle最早是一个开源的ETL(Extract-Transform-Load,数据仓库技术)工具,全称为KDE Extraction, Transportation, Transformation and Loading Environment。在2006年,Pentaho公司收购了Kettle项目,原Kettle项目发起人Matt Casters加入了Pentaho团队,成为Pentaho套件数据集成架构师;从此,Kettle成为企业级数据集成及商业智能套件Pentaho的主要组成部分,Kettle重命名Pentaho Data Integration(PDI)。Pentaho公司于2015年被Hitachi Data Systems收购。(Hitachi Data Systems于2017年改名为Hitachi Vantara)

        PDIJava开发,支持跨平台运行,其特性包括:支持100%无编码、拖拽方式开发ETL数据管道;可对接包括传统数据库、文件、大数据平台、接口、流数据等数据源;支持ETL数据管道加入机器学习算法。

        PDI分为商业版开源版,开源版的截止2021年1月的累计下载量达836万,其中19%来自中国。在中国,一般人仍习惯把PDI的开源版称为Kettle

二、Kettle的两种设计

  • Transformation (转换) :完成针对数据的基础转换。
  • Job (作业) :完成整个工作流的控制。

两者的主要区别如下:

  • (1) 作业是步骤流,转换是数据流。这是作业和转换最大的区别
  • (2) 作业的每一个步骤,必须等到前面的步骤都跑完了,后面的步骤才会执行;而转换会一次性把所有控件全部先启动(一个控件对应启动一个线程),然后数据流会从第一个控件开始,一条记录、一条记录地流向最后的控件;

三、Kettle核心组件

名称

功能

Spoon.bat / spoon.sh(重点)

通过图形接口,允许你通过图形界面来设计 ETL 转换过程(Transformation)

Pan.bat / pan.sh

运行转换的命令行工具

Kitchen.bat / kitchen.sh

运行作业的命令行工具

Carte.bat / Carte.sh

Carte 是一个轻量级别的 Web 容器,用于建立专用、远程的 ETL Server

四、安装与启动

官网各版本下载地址:Pentaho from Hitachi Vantara - Browse /Data Integration at SourceForge.net

Kettle是免安装的,解压即可使用,但Kettle是使用Java开发的,所以需要安装Java环境,解压之后,双击Spoon.bat即可运行

五、使用

5.1 简单介绍

首先我们创建一个转换

然后可以看到有很多组件,其中我们最常用的主要是输入、输出、转换、脚本、查询等,下面我们着重介绍一下这几种常用的组件

5.2 输入

可以看到输入的组件非常多,这里标记了一下比较常用的组件,然后用Excel输入举个例子,首先把Excel输入拖到右边的工作区,浏览、添加文件

选择Excel内容如下

选择完文件之后,再选择工作表

选择完工作表之后,再选择字段

以上是Excel输入组件的基本使用

5.3 输出

输出的前提是需要有一个输入(文本文件、Excel、数据库等等),输出的组件会比输入要少一些,下面就用表输出举一个例子

与输入一样,把表输出组件拖到工作区中

既然是表输出,那么第一步我们肯定是需要建立数据库连接,连接的过程与一般的数据库管理工具一致,除此之外还有两个注意的,提交记录数量(默认为1000)和指定数据库字段,提交记录数量就不多提了,这里主要说一下数据库字段映射,也就是上图右边这部分,其实说白了就是建立输入与输出的映射关系,虽然这里的案例输入和输出的字段名都一样,但是实际的场景中肯定会遇到字段名不一样的情况,就可以使用映射的方式建立关联关系。

5.4 转换

输入是起点,输出是终点,转换是中间处理

转换的组件也非常多,而且很多都比较常用,比如去重、字符串操作、增加常量、字段选择等等,这里就以增加常量举例,场景就是在输入源上增加一个常量,或者说增加一个默认值

转换是种流式处理,一个接着一个连接即可

5.5 脚本

有时候现有的组件无法满足我们的定制化需求,这个时候就可以使用脚本来更灵活的实现我们的需求,脚本的功能很强大,很多组件也可以直接通过脚本实现

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/48422.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[附源码]计算机毕业设计springboot基于Web的软考题库平台

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

8、多进程之间的通信

多进程之间的常用通信方法有两种,及Queue和Pipe 一、Queue Queue([maxsize]):创建共享的进程队列。maxsize是队列中允许的最大项数。如果省略此参数,则无大小限制。底层队列使用管道和锁定实现。另外,还需要运行支持线程以便队列中…

Docker网络模式之bridge-尚文网络xUP楠哥

~~全文共1572字,阅读需约5分钟。 进Q群11372462,领取专属报名福利,包含云计算学习路线图代表性实战训练大厂云计算面试题资料! 当docker已经启动后,会生成一个名字叫做docker0的虚拟网桥,给到一个默认的IP地址为172.1…

Databend 开源周报 #69

Databend 是一款强大的云数仓。专为弹性和高效设计,自由且开源。 即刻体验云服务:https://app.databend.com。 New Features multiple catalog 实现删除用户定义目录 (#8820) meta 新增用于删除 key 和使 key 过期的 cli 命令 (#8858) planner 支…

30组易混易错词汇辨析,柯桥成人英语培训哪家好

30组易混易错词汇辨析 1. clothes, cloth, clothing clothes统指各种衣服,谓语动词永远是复数, cloth指布,为不可数名词 clothing 服装的总称,指一件衣服用a piece of, an article of 2. amount, number amount后接不可数名词…

求Huffman树的带权路径长度

Huffman树的建立过程: 首先得到整个叶子结点的集合: 求Huffman树的带权路径长度算法: 书上讲常见的求Huffman树的带权路径长度算法为:从叶子结点权值乘路径长度: WPL7*25*25*23*32*349 另外一种求WPL的算法为&…

视频编解码学习之一:理论基础

1. 为什么要进行视频压缩? 未经压缩的数字视频的数据量巨大 存储困难 一张DVD只能存储几秒钟的未压缩数字视频。 传输困难 1兆的带宽传输一秒的数字电视视频需要大约4分钟。 \2. 为什么可以压缩 去除冗余信息 空间冗余:图像相邻像素之间有较强的相关性…

化工厂人员定位系统:以安全为出发点,助力企业安全生产管控数智化

化工厂人员定位系统采用先进的高精度时间同步技术和调度技术,可在复杂化工场景中精准锁定作业人员在多层空间内的实时位置,实现高精度人员定位。 如何管理好每个车间的作业人员? 如何监管作业人员是否按时到岗? 如何知晓当前人员…

阿里专家精心整理分享的Java程序员面试笔试通关宝典PDF

前言 学习是一种基础性的能力。然而,“吾生也有涯,而知也无涯。”,如果学习不注意方法,则会“以有涯随无涯,殆矣”。 学习就像吃饭睡觉一样,是人的一种本能,人人都有学习的能力。我们在刚出生…

MuLogin的WebRTC功能介绍与设置

WebRTC 协议可以绕过代理取到一些本机的网卡IP和真实的上网公网IP地址,那么我们可以使用替换模式来让网站取到我们指定的IP信息,或用禁用模式,让被访问的网站不能通过WebRTC协议来取我们的IP地址。这里如果你不知道公网IP是多少,建…

18.JVM

目录 1.编写源代码 2.JDK (Java Development Kit) 3.JRE(Java Runtime Environment) Java运行时环境 4.JVM 1.类名 2.类文件放在哪? 13JVM按需加载类,那么何时加载一个类? 4.类文件是怎么来的? 5…

WebRTC学习笔记五 SDP(Session Description Protocol)

SDP里面内容虽然很多,但是条理很清楚。SDP值为字符串,通过换行符生成一行一行的SDP报文,所有行可分为三类:全局行、音频行、视频行 v - Version,版本,版本,应等于0 o - Origin,源&a…

Github优秀项目-使用Python基于GPT2文本自动生成

基于 GPT2-Chinese 模型的中文文本生成项目,可用于中文生成任务。 当下市面上很多文本自动生成业务都是基于该模型二次开发的,可以很少有那种特定垂直领域的模型用于该领域的创作,也就导致大家在使用类似产品的时候会发现很多的问题,这种问题多数会导致写出来的文章前后逻…

工业大数据收集及预测建模方法(南京大学-宋哲博士分享)- 个人总结

获取工业大数据途径 Retrospective Study(回溯性研究):完全依赖于现有的历史数据,去数据挖掘、学习和建模;Observational Study(观察性研究):在一段时间内观察要研究的工业过程,微调相关的控制参数,看系统…

闲人闲谈PS之三十五——物资备货与提前采购

惯例闲话:又一年快过去了,回想刚刚开始在CSDN上写笔记,还是2年前的事情。闲人其实是一个拖延症十分严重的人,自从开始走上写作这条路之后,治疗拖延症找到了办法,每天总有一些事情让闲人去思考,然…

Banana Pi开源社区开源硬件瑞芯微RK3568/RK3588全国产化支持计划

随着国产芯片的崛起与电子供应链的国产化率越来越高,全国产替换从技术上成为了可能。加上近几年地缘政治的影响,全国产替换的呼声越来越高,已经提升到了国家战略层面。国产替换成为了一股技术前进的力量。 Banana Pi开源社区,全力…

操作系统_多线程笔记(二)

文章目录1.线程状态2.多线程在的意义是什么?1.线程状态 状态是针对当前线程调度的情况来描述的,因为线程是系统调度的基本单位,所以状态是属于线程的属性 线程的六种状态: 注意: 1.一旦内核里的PCB消亡了,此时代码中创建的thread也就没有用了,即内核里的线程释放的时候无…

终于有阿里p9架构师分享出困扰我多年的分布式系统开发实战文档

前言 都说程序员工资高、待遇好, 2022 金九银十到了,你的小目标是 30K、40K,还是 16薪的 20K?作为一名 Java 开发工程师,当能力可以满足公司业务需求时,拿到超预期的 Offer 并不算难。然而,提升…

ANR 触发、监控、分析 一网打尽

平时看博客或者学知识,学到的东西比较零散,没有独立的知识模块概念,而且学了之后很容易忘。于是我建立了一个自己的笔记仓库 (一个我长期维护的笔记仓库,感兴趣的可以点个star~你的star是我写作的巨大大大大的动力),将…

用VS软件开发“浪漫烟花“<笔记摘录>

此处主要讲:如何开发一个连续的烟花弹上升并进行烟花爆炸的程序. 第一步自然是创建窗口,设置窗口宽度为1200,高度为800(#include <graphics.h>) initgraph(1200, 800);//创建窗口,宽度1200,高度800 第二步我们需要为这个窗口添加背景音乐,这里我们添加了一首"周杰伦…