【数据预处理】基于Kettle的字符串数据清洗、Kettle的字段清洗、Kettle的使用参照表集成数据

news2026/2/11 20:47:41

文章目录

一.前言
- 1.1 实验内容
二.实验过程
- 2.1 实验内容一：掌握基于Kettle的字符串数据清洗
- 2.2 实验内容二：掌握基于Kettle的字段清洗
- 2.3 实验内容三：掌握基于Kettle的使用参照表集成数据
- 2.4 实验心得：

一.前言

需要本文章的源文件下链接自取：【ktr源文件】

https://download.csdn.net/download/weixin_52908342/87346930

1.1 实验内容

本次实验内容如下：

掌握基于Kettle的字符串数据清洗
掌握基于Kettle的字段清洗
掌握基于Kettle的使用参照表清洗

二.实验过程

2.1 实验内容一：掌握基于Kettle的字符串数据清洗

数据清理，就是试图检测和去除数据集中的噪声数据和无关数据，处理遗漏数据，去除空白数据域和知识背景下的白噪声，解决数据的一致性、唯一性问题，从而达到提高数据质量的目的。
基于Kettle的字符串数据清洗包括字符串替换（Replace in string）、字符串操作（String operations）和字符串剪切（Strings cut）。字符串替换和字符串剪切功能相对单一，但由于字符串替换支持正则表达式，所以真正的功能远比字面上表达的强大许多。字符串操作提供了字符串的常规操作，功能丰富
第一步，输入。可以使用“输入自定义常量数据（Data Grid）“步骤作为输入。

4.第二步，使用“字符串操作”步骤做初步清理。达到以下目标：

清除ID字段的前后空白字符
提取CODE字段的数字
转换CITY字段全部为大写

第三步，使用“字符串替换”步骤清理CODE字段。使CODE字段全部以一个数字0开始

第四步，使用“字符串剪切”步骤清理CITY字段。使CITY字段只包括城市名拼音

第五步，输出清理结果，选用Excel输出步骤

点击运行按钮，在弹出的对话框中点击启动按钮。

2.2 实验内容二：掌握基于Kettle的字段清洗

用拆分字段成多行步骤将城市字段拆分成多行
新建一个转换field_op，添加一个输入步骤Data Grid，输入如下数据：

新字段设置成“城市NEW”，示例中的数据以“，”分隔，这是一个中文逗号，分隔符可以设置成“，”但是如果既有中文逗号，又有英文逗号, 甚至还有中英文分号，或者顿号，这时怎么办？由于该步骤的分隔符支持正则表达式，不妨将分隔符设成正则形式[,，；;、]

预览拆分字段成多行步骤

点击运行按钮，在弹出的对话框中点击启动按钮。

2.3 实验内容三：掌握基于Kettle的使用参照表集成数据

不同系统的很多数据表示都不相同，数据集成时要有统一的表示方式。参照表中可以设置一列标识数据来源系统名的字段——SRC_SYS，但是各个源数据中没有这个标识自己系统名的字段。那么如何处理呢？一种方式是为源数据增加一个记录系统名的字段，只为查询而增加一个字段这一般是不可取的，另一种方式是根据源数据的系统名，过滤参照表。
使用参照表集成数据思路：

第一步，一个源数据输入，一个参照数据输入

第二步，过滤参照表，根据源数据的系统名过滤参照数据

第三步，查询过滤后的参照数据，获取性别的统一表示符

最后，预览查询步骤的结果，根据需要自行添加输出

第一步，新建转换ref_op_1。创建两个Data Grid，分别命名为“Data Grid”和”Data Grid Ref“：Data Grid：作为源数据，输入示例数据；Data Grid Ref：输入参照数据，如图：

第二步，过滤参照表。使用过滤记录（Filter rows）步骤过滤参照表的数据。过滤条件设“SRC_SYS = SystemB”，筛选出SystemB的参照数据

第三步，查询参照表。使用流查询（Stream lookup）步骤查询参照表

最后，预览查询结果：

2.4 实验心得：

本次实验收获很大，掌握了基于Kettle的字符串数据清洗，掌握基于Kettle的字段清洗，掌握基于Kettle的使用参照表清洗。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/115013.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

用零知识证明连接多链宇宙

用零知识证明连接多链宇宙

目录一、前言二、Bridges和Zero Knowledge Proofs 三、Succinct Verification of Proof of Consensus (Succinct Labs)

阅读更多...

【自然语言处理】【ChatGPT系列】ChatGPT的智能来自哪里？

【自然语言处理】【ChatGPT系列】ChatGPT的智能来自哪里？

相关博客【自然语言处理】【ChatGPT系列】ChatGPT的智能来自哪里？ 【自然语言处理】【ChatGPT系列】Chain of Thought：从大模型中引导出推理能力【自然语言处理】【ChatGPT系列】InstructGPT：遵循人类反馈指令来训练语言模型【自然语言处理…

阅读更多...

二叉搜索树与Mysql索引的亲密关系

二叉搜索树与Mysql索引的亲密关系

欢迎关注公众号：【离心计划】，一起逃离技术舒适圈二叉搜索树二叉搜索树大家应该多多少少听过，它有一个很重要的特征，就是父节点左子树所有结点的值小于父节点的值，右子树所有结点的值大于父节点的值，这个…

阅读更多...

详解vue中vuex的用法

详解vue中vuex的用法

前言说到 vuex 相信大家都不陌生，vuex 是一个专为 vue.js 应用程序开发的状态管理模式。vuex 背后的基本思想，就是单向数据流。今天我们就来好好聊聊 vuex。 vuex？ 用官方的话来说，vuex 是一个专为 vue.js 应用程序开发的状态管…

阅读更多...

【Linux】进程间通信之共享内存与信号量初识

【Linux】进程间通信之共享内存与信号量初识

目录🌈前言🌸1、System V共享内存🍡1.1、概念🍢1.2、原理🌺2、共享内存相关函数和指令🍡2.1、shmget函数（创建）🍢2.2、shmctl函数（控制）&#x1f…

阅读更多...

使用 DataAnnotations（数据注解）实现模型的通用数据校验

使用 DataAnnotations（数据注解）实现模型的通用数据校验

DataAnnotations 实现数据模型的通用校验参数校验的意义常用参数的校验.NET 中内置 DataAnnotations 提供的特性校验关于 DataAnnotations 中的特性介绍基于 DataAnnotations 的通用模型校验封装基于 DataAnnotations 的特性校验助手实现步骤如何使用 DataAnnotations 封装的特…

阅读更多...

某农业学校算法设计与分析-第五次实验-回溯算法

某农业学校算法设计与分析-第五次实验-回溯算法

1. 罗密欧与朱丽叶的迷宫问题问题描述罗密欧与朱丽叶的迷宫。罗密欧与朱丽叶身处一个mn的迷宫中，如图所示。每一个方格表示迷宫中的一个房间。这mn个房间中有一些房间是封闭的，不允许任何人进入。在迷宫中任何位置均可沿8 个方向进入未封闭的房间。罗…

阅读更多...

第二章：关系数据库

第二章：关系数据库

一、关系数据库结构及形式化定义 1、【单选题】下图中，关系D1、D2、D3笛卡尔积的目和基数分别为正确答案： B 2、【多选题】下图中能够作为候选码的属性组为正确答案： ABD 3、【多选题】关于关系数据库，说法正确的是正确答…

阅读更多...

二、栈和队列

二、栈和队列

二、栈和队列栈——后进先出应用：数制转换、括号匹配、行编辑程序、迷宫求解、表达式求值、八皇后问题、函数调用、递归调用的实现队列——先进先出应用：脱机打印输出多用户系统用户排队分时循环使用CPU和主存按用户优先级排队，每…

阅读更多...

编译gtest报错‘is_trivially_copy_constructible’ is not a member of ‘std’

编译gtest报错‘is_trivially_copy_constructible’ is not a member of ‘std’

编译gtest报错‘is_trivially_copy_constructible’ is not a member of ‘std’一、问题描述二、原因分析三、升级gcc版本四、验证一、问题描述在一个新的Redhat7.6 linux虚拟机上，将gtest clone下来之后编译，一堆报错： /opt/googletest/…

阅读更多...

多线程问题（二）（安全问题）

多线程问题（二）（安全问题）

目录一、多线程不安全引例二、线程不安全的原因 1、线程是抢占式执行 2、多线程共享同一变量 3、对变量的操作不是原子性 4、内存可见性 5、指令重排序三、线程不安全问题的解决方案 1、使用synchronized关键字进行加锁 a、 synchronized修饰普通方法 b、sy…

阅读更多...

Maleimide-PEG-Biotin,Biotin-PEG-MAL,生物素PEG马来酰亚胺用于生物分子检测

Maleimide-PEG-Biotin,Biotin-PEG-MAL,生物素PEG马来酰亚胺用于生物分子检测

化学试剂生物素聚乙二醇马来酰亚胺，其英文名为Maleimide-PEG-Biotin，Biotin-PEG-MAL，它所属分类为Biotin PEG Multi-arm PEGs。该试剂质量控制为95%，试剂的储存条件为： -20℃长期保存，避光，干…

阅读更多...

数据结构---图

数据结构---图

（一） 相关知识点图（graph）：图是由顶点的有穷非空集合和顶点之间边的集合组成，通常表示为：G(V,E)，其中，G表示一个图，V是图G中的顶点的集合，E是图G…

阅读更多...

SpringBoot系列之自动装配原理详解

SpringBoot系列之自动装配原理详解

文章目录前言一、SpringBoot自动配置-Condition-11、观察spring自动创建bean过程2、创建自定义bean对象3、根据条件创建自定义bean二、 SpringBoot自动配置-Condition-2三、SpringBoot自动配置-切换内置web服务器1、查看继承关系图2、shiftdelete 排除Tomcat四、SpringBoot自动…

阅读更多...

Win10启动Pycharm报错

Win10启动Pycharm报错

Win10启动Pycharm报错报错信息解决方法报错信息 Internal error. Please report to http://jb.gg/ide/critical-startup-errors java.net.BindException: Address already in use: bind at java.base/sun.nio.ch.Net.bind0(Native Method) at java.base/sun.nio.ch.Net.bind(U…

阅读更多...

如何在3个月内写出博士论文

如何在3个月内写出博士论文

在阅读本文之前，请注意：我花了三年半的时间进行全职研究，为我的博士论文收集数据；这三个月只涉及写作，我在最后很快就完成了。我并不是说每个人都能写得那么快，如果你没有做过研究，那是不可能的…

阅读更多...

全国各省368个地级市河流密度数据（工具变量）

全国各省368个地级市河流密度数据（工具变量）

数据来源：国家基础地理信息中心时间跨度：-- 区域范围：全国各省市指标说明： 根据河流矢量和中国城市行政边界矢量地理信息，计算每个城市河流的总长度；根据各城市的行政区划面积，计算中国各城…

阅读更多...

第三章：关系数据库标准语言SQL

第三章：关系数据库标准语言SQL

一、sql概述和数据定义 1、【单选题】 create user A identified by B default tablespace C temporary tablespace D； 上述oracle数据库查询语句中A、B、C、D分别代表： 正确答案： A 2、【单选题】下表为患者缴费记录，现需…

阅读更多...

2023跨年烟花3D最炫烟花，html最酷炫动态烟花源码分享，点击即可直接运行

2023跨年烟花3D最炫烟花，html最酷炫动态烟花源码分享，点击即可直接运行

📋 前言 🖱 博客主页：在下马农的碎碎念✍ 本文由在下马农原创，首发于CSDN📆 首发时间：2022/12/25📅 最近更新时间：2022/12/25🤵 此马非凡马，房星本是星。向前…

阅读更多...

lambda表达式，函数式接口，链式编程，Stream流式计算

lambda表达式，函数式接口，链式编程，Stream流式计算

新时代的程序员：lambda表达式，函数式接口，链式编程，Stream流式计算函数式接口函数式接口：只有一个方法的接口(简化编程模型，在新版本框架底层中大量应用！) 只要是函数型接口就可以使用lambd…

阅读更多...

推荐文章

最新文章