1 概述
kettle 中文名称叫水壶,是纯 java 开发,开源的 ETL工具,用于数据库间的数据迁移 。可以在 Linux、windows、unix 中运行。有图形界面,也有命令脚本还可以二次开发。当然它也可以用来调用Restful API 来采集数据,本文讲述的就是如何用kettle 调用Restful API,采集数据。
2 控件介绍
首先介绍一下本项目中用到的组件:
※生成记录:主要设置一些ETL转换中用到的一些变量及其值。
※REST Client:访问Restful接口的控件。
※JSON input:主要是对JSON格式的数据源进行解析。
※字段选择:选择挑选ETL转换中一些字段,起到过滤的作用。
※生成随机数:生成随机数的控件。
※表输出:表输出控件是向数据库的表中写入数据的控件。
3 主要思路
基于组件REST Client 请求 Restful API ,先访问获取token的Restful API,在得到包含token的结果集后,再用组件JSON input 从中抽取token,然后再用另一个组件REST Client 携带得到的token,访问包含业务数据的Restful API,经组件字段选择过滤后,再经组件表输出,将数据写入目标数据库对应的表。
4 应用场景
在数据ETL过程中,需要调用对方接口来获取数据,并向自己的数据库中插入大量业务数据的场景。
5 准备工作
※建一个数据库,并建一个目标表,表中要包含抽取的字段。
※准备一个postman工具来配合接口测试,验证接口是否能正常调用。
以下为二个测试接口样例:
1) 获取token接口
※ URL: http://...:9080/auth/bizlogin
※ 请求方式:POST
※ 请求参数格式:JSON
※ 请求参数:
{
“username”:“134********”,
“password”:“123456”
}
※ 返回参数格式:JSON
※ 返回参数:
{
“code”:200,
“msg”:null,
“data”:{
“token”:“5092db2c-f126-40bd-b699-bfcc1634d9b6”,
“userid”:12,
“username”:“134********”,
}
}
2) 业务接口
※ URL: http://...:9080/biz/cocUser/userInfo?userId=12
※ 请求方式:GET
※ 请求参数格式:URL中携带请求参数
※ 请求参数:
userId
※ 返回参数格式:JSON
※ 返回参数:
{
“code”:200,
“msg”:“成功!”,
“data”:{
“userId”:11,
“userName”:“mx”,
“cellphoneNumber”:“134********”,
“email”:“hel**********@126.com”,
“createTime”:“2022-12-25 10:06:55”,
“updateTime”:null,
“auditing”:0,
“status”:0
}
}
如图:
6 最终页面效果图
7 操作步骤
7.1 第1步
启动spoon,新建一个转换,拖入1个生成记录,1个REST Client(命名为” REST Client获取token”),1个JSON input(命名为“JSON input_token”),1个字段选择(命名为“字段选择(token)”),再拖入一个REST Client(命名为” REST client(获取业务信息)”),再拖入一个JSON input(命名为“JSON input_userinfo”),再拖入1个字段选择(命名为“字段选择(过滤字段)”),拖入一个生成随机数,再拖入一个表输出,则完成全部控件的拖入。如图所示:
7.2 第2步
双击组件生成记录,然后填入下面三个参数,即前面的接口访问路径及接口参数:
如图:
将生成记录与REST client(获取token)关联,如图:
7.3 第3步
双击组件REST Client,然后填入下面参数,见下图:
将REST client(获取token)与JSON input _token关联,如图:
7.4 第4步
双击JSON input _token,输入如下参数,如图:
切换到“字段”页面,并填入相应参数,如图:
将JSON input _token 与字段选择(token)关联,如图:
7.5 第5步
双击组件字段选择(token),并填入相应参数,如图:
将字段选择(token)与REST client(获取业务信息)关联,如图:
7.6 第6步
双击组件REST client(获取业务信息),并填入相应参数,如图:
切换到Headers页面,输入Authorization 和 token,如图:
将组件REST client(获取业务信息)与JSON input_userinfo关联,如图:
7.7 第7步
双击组件JSON input_userinfo,并填入相应参数,如图:
切换到“字段”页面,并填入相应参数,如图:
注:如果上面图片看不太清楚,请参考下面例子,路径的输入要正确:
名称:userId 路径:$…data.userId 类型 :integer
将JSON input_userinfo 与字段选择(过滤字段)关联,如图:
7.8 第8步
双击组件字段选择(过滤字段),并填入相应参数,如图:
切换到元数据页面,并输入相应参数,如图:
将字段选择(过滤字段)与生成随机数关联,如图:
7.9 第9步
双击组件生成随机数,并输入相应参数,如图:
将组件生成随机数与组件表输出关联,如图:
7.10 第10步
双击组件表输出,并填入相应参数,如图:
先勾选“指定数据库字段”,并切换到“数据库字段”页面,点击“获取字段”,编辑或输入相应参数(注:要区分表字段和流字段),如图:
7.11 第11步
点击运行转换按钮,运行后,各个节点均绿色并打钩状态,如图:
打开数据库对应的表,发现数据已导入,如图:
至此,经过上面的11个步骤,完成了kettle对Restful API的调用。