【数据预处理】基于Kettle的字符串数据清洗、Kettle的字段清洗、Kettle的使用参照表集成数据

news2024/12/25 11:02:37

文章目录

  • 一.前言
    • 1.1 实验内容
  • 二.实验过程
    • 2.1 实验内容一:掌握基于Kettle的字符串数据清洗
    • 2.2 实验内容二:掌握基于Kettle的字段清洗
    • 2.3 实验内容三:掌握基于Kettle的使用参照表集成数据
    • 2.4 实验心得:

一.前言

需要本文章的源文件下链接自取:【ktr源文件】

https://download.csdn.net/download/weixin_52908342/87346930

1.1 实验内容

本次实验内容如下:

  1. 掌握基于Kettle的字符串数据清洗

  2. 掌握基于Kettle的字段清洗

  3. 掌握基于Kettle的使用参照表清洗

二.实验过程

2.1 实验内容一:掌握基于Kettle的字符串数据清洗

  1. 数据清理,就是试图检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据域和知识背景下的白噪声,解决数据的一致性、唯一性问题,从而达到提高数据质量的目的。

  2. 基于Kettle的字符串数据清洗包括字符串替换(Replace in string)、字符串操作(String operations) 和字符串剪切(Strings cut)。字符串替换和字符串剪切功能相对单一,但由于字符串替换支持正则表达式,所以真正的功能远比字面上表达的强大许多。字符串操作提供了字符串的常规操作,功能丰富

  3. 第一步,输入。可以使用“输入自定义常量数据(Data Grid)“步骤作为输入。

img

img

4.第二步,使用“字符串操作”步骤做初步清理。达到以下目标:

  1. 清除ID字段的前后空白字符

  2. 提取CODE字段的数字

  3. 转换CITY字段全部为大写

img

img

  1. 第三步,使用“字符串替换”步骤清理CODE字段。使CODE字段全部以一个数字0开始

img

  1. 第四步,使用“字符串剪切”步骤清理CITY字段。使CITY字段只包括城市名拼音

img

  1. 第五步,输出清理结果,选用Excel输出步骤

img

  1. 点击运行按钮,在弹出的对话框中点击启动按钮。

img

2.2 实验内容二:掌握基于Kettle的字段清洗

  1. 用拆分字段成多行步骤将城市字段拆分成多行

  2. 新建一个转换field_op,添加一个输入步骤Data Grid,输入如下数据:

img

img

  1. 新字段设置成“城市NEW”,示例中的数据以“,”分隔,这是一个中文逗号,分隔符可以设置成“,”但是如果既有中文逗号,又有英文逗号, 甚至还有中英文分号,或者顿号,这时怎么办?由于该步骤的分隔符支持正则表达式,不妨将分隔符设成正则形式[,,;;、]

img

  1. 预览拆分字段成多行步骤

img

  1. 点击运行按钮,在弹出的对话框中点击启动按钮。

2.3 实验内容三:掌握基于Kettle的使用参照表集成数据

  1. 不同系统的很多数据表示都不相同,数据集成时要有统一的表示方式。参照表中可以设置一列标识数据来源系统名的字段——SRC_SYS,但是各个源数据中没有这个标识自己系统名的字段。那么如何处理呢?一种方式是为源数据增加一个记录系统名的字段,只为查询而增加一个字段这一般是不可取的,另一种方式是根据源数据的系统名,过滤参照表。

  2. 使用参照表集成数据思路:

第一步,一个源数据输入,一个参照数据输入

第二步,过滤参照表,根据源数据的系统名过滤参照数据

第三步,查询过滤后的参照数据,获取性别的统一表示符

最后,预览查询步骤的结果,根据需要自行添加输出

  1. 第一步,新建转换ref_op_1。创建两个Data Grid,分别命名为“Data Grid”和”Data Grid Ref“:Data Grid:作为源数据,输入示例数据;Data Grid Ref:输入参照数据,如图:

img

img

  1. 第二步,过滤参照表。使用过滤记录(Filter rows)步骤过滤参照表的数据。过滤条件设“SRC_SYS = SystemB”,筛选出SystemB的参照数据

img

  1. 第三步,查询参照表。使用流查询(Stream lookup)步骤查询参照表

img

  1. 最后,预览查询结果:

img

2.4 实验心得:

本次实验收获很大,掌握了基于Kettle的字符串数据清洗,掌握基于Kettle的字段清洗,掌握基于Kettle的使用参照表清洗。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/115013.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

用零知识证明连接多链宇宙

目录 一、前言 二、Bridges和Zero Knowledge Proofs 三、Succinct Verification of Proof of Consensus (Succinct Labs)

【自然语言处理】【ChatGPT系列】ChatGPT的智能来自哪里?

相关博客 【自然语言处理】【ChatGPT系列】ChatGPT的智能来自哪里? 【自然语言处理】【ChatGPT系列】Chain of Thought:从大模型中引导出推理能力 【自然语言处理】【ChatGPT系列】InstructGPT:遵循人类反馈指令来训练语言模型 【自然语言处理…

二叉搜索树与Mysql索引的亲密关系

欢迎关注公众号:【离心计划】,一起逃离技术舒适圈 二叉搜索树 二叉搜索树大家应该多多少少听过,它有一个很重要的特征,就是父节点左子树所有结点的值小于父节点的值,右子树所有结点的值大于父节点的值,这个…

详解vue中vuex的用法

前言 说到 vuex 相信大家都不陌生,vuex 是一个专为 vue.js 应用程序开发的状态管理模式。vuex 背后的基本思想,就是单向数据流。今天我们就来好好聊聊 vuex。 vuex? 用官方的话来说,vuex 是一个专为 vue.js 应用程序开发的状态管…

【Linux】进程间通信之共享内存与信号量初识

目录🌈前言🌸1、System V共享内存🍡1.1、概念🍢1.2、原理🌺2、共享内存相关函数和指令🍡2.1、shmget函数(创建)🍢2.2、shmctl函数(控制)&#x1f…

使用 DataAnnotations(数据注解)实现模型的通用数据校验

DataAnnotations 实现数据模型的通用校验参数校验的意义常用参数的校验.NET 中内置 DataAnnotations 提供的特性校验关于 DataAnnotations 中的特性介绍基于 DataAnnotations 的通用模型校验封装基于 DataAnnotations 的特性校验助手实现步骤如何使用 DataAnnotations 封装的特…

某农业学校 算法设计与分析-第五次实验-回溯算法

1. 罗密欧与朱丽叶的迷宫问题 问题描述 罗密欧与朱丽叶的迷宫。罗密欧与朱丽叶身处一个mn的迷宫中,如图所示。每一个方格表示迷宫中的一个房间。这mn个房间中有一些房间是封闭的,不允许任何人进入。在迷宫中任何位置均可沿8 个方向进入未封闭的房间。罗…

第二章:关系数据库

一、关系数据库结构及形式化定义 1、【单选题】 下图中,关系D1、D2、D3笛卡尔积的目和基数分别为 正确答案: B 2、【多选题】下图中能够作为候选码的属性组为 正确答案: ABD 3、【多选题】关于关系数据库,说法正确的是 正确答…

二、栈和队列

二、栈和队列 栈——后进先出 应用:数制转换、括号匹配、行编辑程序、迷宫求解、表达式求值、八皇后问题、函数调用、递归调用的实现 队列——先进先出 应用:脱机打印输出 多用户系统用户排队分时循环使用CPU和主存 按用户优先级排队,每…

编译gtest报错‘is_trivially_copy_constructible’ is not a member of ‘std’

编译gtest报错‘is_trivially_copy_constructible’ is not a member of ‘std’一、问题描述二、原因分析三、升级gcc版本四、验证一、问题描述 在一个新的Redhat7.6 linux虚拟机上,将gtest clone下来之后编译,一堆报错: /opt/googletest/…

多线程问题(二)(安全问题)

目录 一、多线程不安全引例 二、线程不安全的原因 1、线程是抢占式执行 2、多线程共享同一变量 3、对变量的操作不是原子性 4、内存可见性 5、指令重排序 三、线程不安全问题的解决方案 1、使用synchronized关键字进行加锁 a、 synchronized修饰普通方法 b、sy…

Maleimide-PEG-Biotin,Biotin-PEG-MAL,生物素PEG马来酰亚胺用于生物分子检测

化学试剂生物素聚乙二醇马来酰亚胺,其英文名为Maleimide-PEG-Biotin,Biotin-PEG-MAL,它所属分类为Biotin PEG Multi-arm PEGs。 该试剂质量控制为95%,试剂的储存条件为: -20℃长期保存,避光,干…

数据结构---图

(一) 相关知识点 图(graph):图是由顶点的有穷非空集合和顶点之间边的集合组成,通常表示为:G(V,E),其中,G表示一个图,V是图G中的顶点的集合,E是图G…

SpringBoot系列之自动装配原理详解

文章目录前言一、SpringBoot自动配置-Condition-11、观察spring自动创建bean过程2、创建自定义bean对象3、根据条件创建自定义bean二、 SpringBoot自动配置-Condition-2三、SpringBoot自动配置-切换内置web服务器1、查看继承关系图2、shiftdelete 排除Tomcat四、SpringBoot自动…

Win10启动Pycharm报错

Win10启动Pycharm报错报错信息解决方法报错信息 Internal error. Please report to http://jb.gg/ide/critical-startup-errors java.net.BindException: Address already in use: bind at java.base/sun.nio.ch.Net.bind0(Native Method) at java.base/sun.nio.ch.Net.bind(U…

如何在3个月内写出博士论文

在阅读本文之前,请注意:我花了三年半的时间进行全职研究,为我的博士论文收集数据;这三个月只涉及写作,我在最后很快就完成了。我并不是说每个人都能写得那么快,如果你没有做过研究,那是不可能的…

全国各省368个地级市河流密度数据(工具变量)

数据来源:国家基础地理信息中心 时间跨度:-- 区域范围:全国各省市 指标说明: 根据河流矢量和中国城市行政边界矢量地理信息,计算每个城市河流的总长度;根据各城市的行政区划面积,计算中国各城…

第三章:关系数据库标准语言SQL

一、sql概述和数据定义 1、【单选题】 create user A identified by B default tablespace C temporary tablespace D; 上述oracle数据库查询语句中A、B、C、D分别代表: 正确答案: A 2、【单选题】下表为患者缴费记录,现需…

2023跨年烟花3D最炫烟花,html最酷炫动态烟花源码分享,点击即可直接运行

📋 前言 🖱 博客主页:在下马农的碎碎念✍ 本文由在下马农原创,首发于CSDN📆 首发时间:2022/12/25📅 最近更新时间:2022/12/25🤵 此马非凡马,房星本是星。向前…

lambda表达式,函数式接口,链式编程,Stream流式计算

新时代的程序员:lambda表达式,函数式接口,链式编程,Stream流式计算 函数式接口 函数式接口:只有一个方法的接口(简化编程模型,在新版本框架底层中大量应用!) 只要是 函数型接口 就可以使用lambd…