1.初识Kettle
Kettle是ETL数据整合与处理工具,翻译成中文是"水壶"的意思,可理解为希望把各种数据放到一个壶里,像水一样以一种指定的格式流出,表达数据流的含义
ETL(Extract - Transform - Load)是将数据从数据来源端经过抽取、转换、装载至目标端的过程,从海量数据中获得并抽取出有用的数据,为企业的决策提供分析依据
ETL的3个字母分别代表Extract(抽取)、Transform(转换)和Load(装载)
①数据抽取:从数据源端的系统中,抽取目标端系统所需要的数据
②数据转换:将从数据源端获取的数据按照业务需求,转换成目标端要求的数据形式,并对错误、不规范以及不一致的数据进行清洗和加工(可理解为清洗"脏"数据)
③数据装载:将转换后的数据装载到指定数据库或文件中
Kettle的特点
1.开源软件,可以在多个常用的操作系统下运行
2.图形化操作,使用十分简单方便
3.支持多种常用数据库和文件的数据格式,适用范围广泛
4.具有完整的工作流控制,能够较好地控制复杂的数据转换工作
5.提供定时调度功能,方便用户及时处理数据
2.配置Kettle运行环境
Kettle是一款纯Java编写的开源ETL工具,需要在Java运行环境下才能正常使用。为了成功启动Kettle工具,需要配置完整的Kettle运行环境
具体安装步骤如下所示
2.1 安装Java JDK工具包
JDK是Java语言开发的基础工具包,是Java程序运行的基础
在JDK官网下载JDK,本文作者下载的JDK安装包版本是jdk-19_windows-x64_bin.exe
jdk-19-windows-x64-bin.zip https://download.csdn.net/download/Hudas/87355631JDK下载完成后,双击下载的exe文件,开始安装JDK。安装时,可以修改安装JDK的目录,如"G:\Java"
2.2 设置Java环境变量
安装好JDK后,开始配置Java的环境变量
环境变量的作用是让操作系统知道执行程序和执行程序的位置,方便运行执行程序
本次操作以Windows10为例,点击设置,进入windows设置页面,搜索框中输入"高级系统"
弹出系统属性窗口,点击"环境变量"按钮,即可开始配置
新建并设置JAVA_HOME系统环境变量,将JAVA_HOME的变量值设置为Java JDK的安装路径,如下图所示
修改系统Path环境变量,将值";%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;"添加至当前Path环境变量值的后面
新建并设置CLASSPATH系统环境变量,将CLASSPATH环境变量的变量值设置为
".;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar"
成功安装Java JDK并设置环境变量后,按快捷键<Win + R> ,输入cmd弹出Windows命令行窗口,在命令行状态下,输入java -version,将会显示出Java的版本号等信息,表示成功安装Java JDK工具包
2.3 安装Kettle
在Kettle官方网站搜索Kettle工具包的下载链接,单击链接即可打开网页下载。本文作者下载的Kettle工具包为pdi-ce-9.3.0.0-428.zip
pdi-ce-9.3.0.0-428.zip https://download.csdn.net/download/Hudas/87355669提示Tips:Kettle工具包是一个ZIP压缩包,因为Kettle工具是绿色软件,无须安装,所以下载完成后,使用解压软件将Kettle工具解压到计算机的文件夹下即可。对于Kettle工具包的解压路径,建议不要解压至操作系统所在的C盘上
2.4 启动Kettle工具
在Kettle解压安装的文件夹中,选择并双击Spoon.bat,即可启动Kettle图形化界面工具,就可以直接进行使用操作了
成功启动Kettle图形化界面工具