ETL工具 - Kettle 查询、连接、统计、脚本算子介绍

news2026/2/12 7:50:31

一、 Kettle

上篇文章对 Kettle 流程、应用算子进行了介绍，本篇对查询、连接、统计、脚本算子进行讲解，下面是上篇文章的地址：

ETL工具 - Kettle 流程、应用算子介绍

二、查询算子

数据输入使用 MySQL 表输入，表结构如下：

CREATE TABLE `user` (
  `id` int NOT NULL AUTO_INCREMENT,
  `name` varchar(255) DEFAULT NULL,
  `age` int DEFAULT NULL,
  `type` int DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=13 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci;

INSERT INTO `test`.`user`(`id`, `name`, `age`, `type`) VALUES (1, '小明', 90, '1');
INSERT INTO `test`.`user`(`id`, `name`, `age`, `type`) VALUES (3, '小兰', 92, '1');
INSERT INTO `test`.`user`(`id`, `name`, `age`, `type`) VALUES (4, '小爱', 93, '1');
INSERT INTO `test`.`user`(`id`, `name`, `age`, `type`) VALUES (5, '张三', 94, '1');
INSERT INTO `test`.`user`(`id`, `name`, `age`, `type`) VALUES (6, '李四', 95, '1');
INSERT INTO `test`.`user`(`id`, `name`, `age`, `type`) VALUES (7, '王五', 96, '1');
INSERT INTO `test`.`user`(`id`, `name`, `age`, `type`) VALUES (8, '赵六', 97, '1');
INSERT INTO `test`.`user`(`id`, `name`, `age`, `type`) VALUES (9, 'xiao ai', 22, '2');
INSERT INTO `test`.`user`(`id`, `name`, `age`, `type`) VALUES (10, 'wang wu ', 23, '2');
INSERT INTO `test`.`user`(`id`, `name`, `age`, `type`) VALUES (11, '小王,小七', 22, '3');
INSERT INTO `test`.`user`(`id`, `name`, `age`, `type`) VALUES (12, '小八,小九', 23, '3');

表输入控件：

在这里插入图片描述

2.1 数据库查询

从数据库里面查询出数据，然后跟数据流中的数据进行左连接：

创建测试表：

CREATE TABLE `hobby` (
  `id` int NOT NULL AUTO_INCREMENT,
  `name` varchar(255) DEFAULT NULL,
  `hobby` varchar(255) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=3 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci;

INSERT INTO `test`.`hobby`(`id`, `name`, `hobby`) VALUES (1, '小明', '打篮球');
INSERT INTO `test`.`hobby`(`id`, `name`, `hobby`) VALUES (2, '小兰', '踢足球');

在这里插入图片描述

运行后效果：

在这里插入图片描述

2.2 流查询

查询两条数据流中的数据，然后按照指定的字段做等值匹配。在查询前会把数据都加载到内存中，并且只能做等值查询，结果只能展示其中一条连接的数据：

在这里插入图片描述

运行后效果：

在这里插入图片描述

2.3 模糊匹配

需要有两个输入流，一个主数据流一个匹配流，会根据主数据流找出一个最佳的匹配流中的数据，匹配算法可以有多种选择。

比如修改 hobby 表数据为如下数据：

在这里插入图片描述

在这里插入图片描述

下面的 匹配字段、值字段 表示匹配时命中的内容和匹配的置信度的列名，可以固定写成 match、measure value

运行后查看结果：

在这里插入图片描述

三、连接算子

连接算子一般将多个数据集通过关键字进行连接，类似 SQL 中的连接操作：

3.1 合并记录

将两个不同来源的数据合并，数据分别为旧数据和新数据，将旧数据和新数据按照指定的关键字匹配、比较、合并。注意旧数据和新数据需要按照关键字段排序，并且旧数据和新数据要有相同的字段名称。

合并后的数据将包括旧数据和新数据的所有数据，对于变化的数据，使用新数据代替旧数据，同时在结果里用一个标示字段，来指定新旧数据的比较结果。

下面创建 user2 表作为新数据：

CREATE TABLE `user2` (
  `id` int NOT NULL AUTO_INCREMENT,
  `name` varchar(255) DEFAULT NULL,
  `age` int DEFAULT NULL,
  `type` int DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=14 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci;

INSERT INTO `test`.`user2`(`id`, `name`, `age`, `type`) VALUES (1, '小明', 90, 1);
INSERT INTO `test`.`user2`(`id`, `name`, `age`, `type`) VALUES (3, '小兰', 92, 1);
INSERT INTO `test`.`user2`(`id`, `name`, `age`, `type`) VALUES (4, '小爱2', 93, 1);
INSERT INTO `test`.`user2`(`id`, `name`, `age`, `type`) VALUES (5, '张三2', 94, 1);
INSERT INTO `test`.`user2`(`id`, `name`, `age`, `type`) VALUES (6, '李四', 95, 1);
INSERT INTO `test`.`user2`(`id`, `name`, `age`, `type`) VALUES (7, '王五', 96, 1);