[Kettle] 认识Kettle

news2024/9/28 3:30:11

1.初识Kettle

Kettle是ETL数据整合与处理工具,翻译成中文是"水壶"的意思,可理解为希望把各种数据放到一个壶里,像水一样以一种指定的格式流出,表达数据流的含义

ETL(Extract - Transform - Load)是将数据从数据来源端经过抽取、转换、装载至目标端的过程,从海量数据中获得并抽取出有用的数据,为企业的决策提供分析依据

ETL的3个字母分别代表Extract(抽取)Transform(转换)Load(装载)

①数据抽取:从数据源端的系统中,抽取目标端系统所需要的数据

②数据转换:将从数据源端获取的数据按照业务需求,转换成目标端要求的数据形式,并对错误、不规范以及不一致的数据进行清洗和加工(可理解为清洗"脏"数据)

③数据装载:将转换后的数据装载到指定数据库或文件中 

Kettle的特点

1.开源软件,可以在多个常用的操作系统下运行

2.图形化操作,使用十分简单方便

3.支持多种常用数据库和文件的数据格式,适用范围广泛

4.具有完整的工作流控制,能够较好地控制复杂的数据转换工作

5.提供定时调度功能,方便用户及时处理数据

2.配置Kettle运行环境

Kettle是一款纯Java编写的开源ETL工具,需要在Java运行环境下才能正常使用。为了成功启动Kettle工具,需要配置完整的Kettle运行环境

具体安装步骤如下所示

2.1 安装Java JDK工具包

JDK是Java语言开发的基础工具包,是Java程序运行的基础

在JDK官网下载JDK,本文作者下载的JDK安装包版本是jdk-19_windows-x64_bin.exe

jdk-19-windows-x64-bin.zip icon-default.png?t=MBR7https://download.csdn.net/download/Hudas/87355631JDK下载完成后,双击下载的exe文件,开始安装JDK。安装时,可以修改安装JDK的目录,如"G:\Java"

2.2 设置Java环境变量

安装好JDK后,开始配置Java的环境变量

环境变量的作用是让操作系统知道执行程序和执行程序的位置,方便运行执行程序

本次操作以Windows10为例,点击设置,进入windows设置页面,搜索框中输入"高级系统"

弹出系统属性窗口,点击"环境变量"按钮,即可开始配置

新建并设置JAVA_HOME系统环境变量,将JAVA_HOME的变量值设置为Java JDK的安装路径,如下图所示

修改系统Path环境变量,将值";%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;"添加至当前Path环境变量值的后面

新建并设置CLASSPATH系统环境变量,将CLASSPATH环境变量的变量值设置为

".;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar"

成功安装Java JDK并设置环境变量后,按快捷键<Win + R> ,输入cmd弹出Windows命令行窗口,在命令行状态下,输入java -version,将会显示出Java的版本号等信息,表示成功安装Java JDK工具包

2.3 安装Kettle

在Kettle官方网站搜索Kettle工具包的下载链接,单击链接即可打开网页下载。本文作者下载的Kettle工具包为pdi-ce-9.3.0.0-428.zip

pdi-ce-9.3.0.0-428.zip icon-default.png?t=MBR7https://download.csdn.net/download/Hudas/87355669提示Tips:Kettle工具包是一个ZIP压缩包,因为Kettle工具是绿色软件,无须安装,所以下载完成后,使用解压软件将Kettle工具解压到计算机的文件夹下即可。对于Kettle工具包的解压路径,建议不要解压至操作系统所在的C盘上

2.4 启动Kettle工具

在Kettle解压安装的文件夹中,选择并双击Spoon.bat,即可启动Kettle图形化界面工具,就可以直接进行使用操作了

成功启动Kettle图形化界面工具

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/130824.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

centos7部署rancher2.5

一、 什么是 Rancher Rancher 是为使用容器的公司打造的容器管理平台。Rancher 简化了使用 Kubernetes 的流程&#xff0c;开发者可以随处运行 Kubernetes&#xff08;Run Kubernetes Everywhere&#xff09;&#xff0c;满足 IT 需求规范&#xff0c;赋能 DevOps 团队。 Ran…

单纯形法与对偶单纯形法的通俗理解

cigma<0,a>0 min cigma/(a) 决定出基变量 1对偶单纯形法 意思是看c就是所有货物的价值&#xff0c;去看一眼这些货物单价组合售卖的价值&#xff0c;这些价值肯定要都大于0&#xff0c;而且&#xff0c;组成这个c的系数也应该是都是正的&#xff0c; c最小证明对min&a…

港科夜闻|香港科大-越秀集团百万奖金国际创业大赛2022年度前8强20强项目评审结果公布...

关注并星标每周阅读港科夜闻建立新视野 开启新思维1、“香港科大-越秀集团”百万奖金国际创业大赛2022年度前8强&20强项目评审结果公布。2022年赛事中的各赛区前三名项目&#xff0c;共计23个项目自动入围年度总决赛&#xff0c;本轮评审在这23个项目中&#xff0c;评选出了…

Hudi学习02 -- Hudi核心概念

文章目录基本概念时间轴&#xff08;Timeline&#xff09;文件布局&#xff08;File Layout&#xff09;索引&#xff08;Index&#xff09;索引原理索引类型索引的选择策略表类型&#xff08;Table Types&#xff09;查询类型&#xff08;Query Types&#xff09;写操作&#…

Qt第五十二章:Qt Design Studio使用技巧。

一、运行项目和Debugging项目【快捷键&#xff1a;CtrR】 二、 预览单Qml文件 三、添加资源文件 &#xff08;使用资源&#xff1a;将资源拖动到Editor中的矩形中即可&#xff09; 四、多状态【正常状态、按下状态、划过状态、已点击状态...】 注意&#xff1a;多状态看起来像…

java短网址平台

git地址 Reduce: 短网址平台&#xff0c;Coody Framework首秀&#xff0c;自写IOC、MVC、ORM、TASK、JSON、DB连接池、服务器。百毫秒启动&#xff0c;全项目仅2.1M&#xff08;低配服可运行&#xff09; reduce短网址平台 测试站地址&#xff1a;http://dev.icoody.cn/ 技…

DOM事件

鼠标事件监听 键盘事件监听 表单事件监听 常见的页面事件监听 事件传播 事件传播顺序&#xff1a;从内到外&#xff08;冒泡阶段&#xff09;onxxx这样写法只能监听冒泡阶段 addEventListener()方法第三个参数如果为true监听捕获阶段&#xff0c;false监听冒泡阶段(默认) 最…

C语言及算法设计课程实验二:数据类型、运算符和简单的输入输出

C语言及算法设计课程实验二&#xff1a;数据类型、运算符和简单的输入输出一、实验目的二、实验内容2.1、输入并运行教材第3章第4题给出的程序&#xff1a;2.2、输入第3章第5题的程序2.3、输入以下程序&#xff1a;2.4、程序设计题&#xff1a;假如我国国民生产总值的年增长率为…

遗传算法解决函数优化问题

遗传算法解决函数优化问题 作者: Cukor丘克环境: MatlabR2020a vscode 为什么要学习遗传算法 为什么要学习遗传算法&#xff0c;或者说遗传算法有什么厉害的地方。例如求解以下函数优化问题&#xff1a;minf(x1,x2)x12x1225∗(sin2x1sin2x2),−10≤x1≤10,−10≤x2≤10.min…

【ACWING】【图的深度优先遍历】【846树的重心】

给定一颗树&#xff0c;树中包含 n个结点&#xff08;编号 1∼n&#xff09;和 n−1条无向边。 请你找到树的重心&#xff0c;并输出将重心删除后&#xff0c;剩余各个连通块中点数的最大值。 重心定义&#xff1a;重心是指树中的一个结点&#xff0c;如果将这个点删除后&…

js复习之正则表达式正向肯定与否定预查询

正则表达式(regular expression)描述了一种字符串匹配的模式&#xff08;pattern&#xff09;&#xff0c;可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。 正则表达式_百度百科 除开常用基本匹配模式&#xff0c;偶尔也会用到…

回顾艰难且不失温度的 2022 年 | 文中附「双12免单王」获奖名单

今天是 2022 年最后一天&#xff0c;回忆往昔&#xff0c;这一年经历了太多的不可思议和无可奈何之事。在年末的短短几周&#xff0c;寒气长驱直下以惊人的速度传给每一个人。我们真诚地希望大家都可以平安渡过这一难关。 即使步步难行&#xff0c;亦要踱步前行&#xff01;无…

力扣刷题记录——190. 颠倒二进制位、191. 位1的个数、202. 快乐数

本专栏主要记录力扣的刷题记录&#xff0c;备战蓝桥杯&#xff0c;供复盘和优化算法使用&#xff0c;也希望给大家带来帮助&#xff0c;博主是算法小白&#xff0c;希望各位大佬不要见笑&#xff0c;今天要分享的是——《190. 颠倒二进制位、191. 位1的个数、202. 快乐数》。 目…

Gradle学习笔记之依赖

文章目录依赖的方式直接依赖项目依赖本地jar包依赖依赖的类型api和implementation的区别依赖冲突及解决方案移除某个依赖不允许依赖传递强制使用某个版本依赖冲突时立刻构建失败依赖的方式 Gradle中的依赖方式有直接依赖、项目依赖和本地jar包依赖三种&#xff1a; dependenc…

【一起从0开始学习人工智能0x02】字典特征抽取、文本特征抽取、中文文本特征抽取

注&#xff1a;最后有面试挑战&#xff0c;看看自己掌握了吗 文章目录什么是特征工程&#xff1f;用什么做&#xff1f;1.特征提取特征值化&#xff1a;特征提取API字典特征提取---向量化---类别--》one-hot编码哑变量one-hot-------直接1234会产生歧义&#xff0c;不公平应用场…

Python 10k+ 面试试题,看看你是否掌握

前言 大家早好、午好、晚好吖 ❤ ~ 面试实战题&#xff1a;采集世界最大旅游平台Tripadvisor 另我给大家准备了一些资料&#xff0c;包括: 2022最新Python视频教程、Python电子书10个G &#xff08;涵盖基础、爬虫、数据分析、web开发、机器学习、人工智能、面试题&#xff…

Python GUI编程:音乐播放器(多线程、爬虫、进度条、文件)

文章目录1. 程序运行结果2.程序实现原理3. GUI布局4. 功能介绍5. 代码实现1. 程序运行结果 Python实现音乐播放器(爬虫、多线程、进度条、文件)2.程序实现原理 本音乐播放器GUI方面运用Python的tkinter实现&#xff0c;播放的音乐来自网络爬虫和本电脑已经有的。为了使整个程序…

Android studio设置全屏显示的两种方式

两种在Androidstudio中设置全屏的方式&#xff0c;推荐第二种 第一种&#xff08;Java文件中设置&#xff09; 直接在onCreate()函数中设置 getWindow().setFlags(WindowManager.LayoutParams.FLAG_FULLSCREEN,WindowManager.LayoutParams.FLAG_FULLSCREEN);package com.exa…

MARKETS AND MARKET LOGIC——The Market‘s Principles (6)_3

市场的组成——对行为观察的反思 制定市场理解 理解市场逻辑将有助于每个参与者提高其在市场上成功的可能性&#xff0c;因为他将能够阅读市场活动并接收市场生成的信息&#xff0c;这些信息很少有参与者承认或理解。这一信息特别涉及市场如何接受或拒绝随着时间的推移而升高或…

Linux用户标识符UID与GID和用户账号

1.用户标识符UID和GID UID 表示的是用户的标识&#xff08;User Identification&#xff09; GID 表示的是用户组的标识&#xff08;Group Identification&#xff09; 显示用户ID信息。 命令&#xff1a;id username 2.用户账号 用户和用户组的信息都存放在…