kettle 筛选数据 并根据关键字段去重 设计

news2025/1/21 0:55:00

文章目录

  • 前言
      • kettle 筛选数据 并根据关键字段去重 设计
        • 实现:
          • 1、配置sqlite 数据库链接
          • 2、先从test表里抽取数据
          • 3、将表输入查询的数据插入到excel里
          • 4、将筛选出来的数据根据id去重
          • 5、插入本地excel
          • 6、ETL 整体效果:
          • 7、测试:

前言

  如果您觉得有用的话,记得给博主点个赞,评论,收藏一键三连啊,写作不易啊^ _ ^。
  而且听说点赞的人每天的运气都不会太差,实在白嫖的话,那欢迎常来啊!!!


kettle 筛选数据 并根据关键字段去重 设计

需求:
1)筛选test表 code=A 且delete_flag=0 和 code =B 且delete_flag=1 的数据
2)将筛选出来的数据存到本地excel_1
3)将筛选出来的数据根据id去重
4)将去重后的数据存到本地excel_2
设计整体效果:
在这里插入图片描述
数据:
在这里插入图片描述

实现:

1、配置sqlite 数据库链接

选择下面链接类型
在这里插入图片描述
填写下面url和驱动
自定义URL:jdbc:sqlite:D:\soft\sqliet\test.db
自定义驱动类名称:

在这里插入图片描述

测试通过,并确定
在这里插入图片描述

2、先从test表里抽取数据

在这里插入图片描述
抽取code=A 且delete_flag=0的数据

在这里插入图片描述

抽取code =B 且delete_flag=1 的数据
在这里插入图片描述

3、将表输入查询的数据插入到excel里

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4、将筛选出来的数据根据id去重

1)设置排序组件
----排序组件一定要用,要不然可能会有bug

在这里插入图片描述
2)使用复制类型节点链接
在这里插入图片描述
3)排序组件:
在这里插入图片描述

4)合并行标记 【合并记录组件】
在这里插入图片描述
在这里插入图片描述
Flag fieldname为标记比较结果的字段,结果有四种: identical、 changed、 new、 deleted,分别对应:完全相同、key相同value不同、key在旧数据源找不到、key在新数据源找不到

5)过滤重复的ID
在这里插入图片描述
在这里插入图片描述

5、插入本地excel

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
6)引入写日志组件
在这里插入图片描述
作用:
在这里插入图片描述
在这里插入图片描述

6、ETL 整体效果:

在这里插入图片描述

7、测试:

源数据:
在这里插入图片描述

执行后excel:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/151983.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

安全轻量化股票看盘盯盘软件需要实现的功能和基本要求是什么?

有很多投资者是上班族的,因此是不能无时无刻盯盘看盘的,那么为了解决这个问题就需要用上轻量化股票看盘盯盘软件,那么一个安全的轻量化股票看盘盯盘软件需要具备哪些功能和基本要求呢?接下来小编为大家分析分析! 1.一定…

小试跨平台局域网文件传输工具NitroShare,几点感想

随着电脑系统国产化的推进,单位用的OA系统已转移到国产电脑上了,但是国产电脑上的操作系统基于Linux,软件商店里可选的应用软件还不够多,功能也还有待提高。为了提高处理效率,经常需要把文件从国产电脑传到Windows平台…

信息收集过程WAF绕过详解

今天继续给大家介绍渗透测试相关知识,本文主要内容是信息收集过程WAF绕过详解。 免责声明: 本文所介绍的内容仅做学习交流使用,严禁利用文中技术进行非法行为,否则造成一切严重后果自负! 再次强调:严禁对未…

浅析数据中心机架配电母线的应用及监控

摘要:本文先分析配电母线槽创新点和优势,然后结合湛江数据中心302机房母线槽建设对配电母线槽和列头柜两种供电方式进行经济效益对比,最后总结推广应用建议,以期为相关工程技术人员提供参考。 关键词:机架配电母线&a…

【动态路由和导航守卫】一.动态路由;二.路由中的查询参数;三.命名路由;四.命名视图;五.声明式导航 编程式导航;六.导航守卫

目录 一.动态路由 1.什么是动态路由? 2.动态路由如何进行参数的传递: (1)如何设置URL地址中的参数:/url/:参数名 (2)在组件中接收参数:this.$route.params.参数名 3.$route和$r…

最新版android-studio无法安装Lombok插件?魔改后可任意安装版本教程(附已魔改下载地址)

🤵‍♂️ 个人主页: 奇怪的守护神 👨‍💻 作者简介:十年全栈开发经验,团队负责人。喜欢钻研技术,争取成为编程达人 🎖️! 🗺️学海无涯苦作舟,🛤️…

【自学Python】Python字符串(string)

Python字符串(string) Python字符串(string)教程 字符串是一个不可改变的字节序列。字符串可以包含任意的数据,但是通常是用来包含可读的文本。 Python字符串(string) Python 字符串定义有五种形式,使用单引号、双引号、三个单引号 、三个双引号以及…

胡凡 《算法笔记》 上机实战训练指南 chap3 入门模拟: 3.2 查找元素

胡凡 《算法笔记》 上机实战训练指南 chap3 入门模拟: 3.2 查找元素 文章目录胡凡 《算法笔记》 上机实战训练指南 chap3 入门模拟: 3.2 查找元素【PAT B1041】考试座位号【PAT B1004】成绩排名【PAT B1028】人口普查解决过程(cpp)AC代码python实现AC代码pycode1pycode2未AC代码…

代码随想录算法训练营第7天 383.赎金信、454. 四数相加II、15.三数之和、18.四数之和

代码随想录算法训练营第7天 383.赎金信、454. 四数相加II、15.三数之和、18.四数之和 赎金信 力扣题目链接(opens new window) 给定一个赎金信 (ransom) 字符串和一个杂志(magazine)字符串,判断第一个字符串 ransom 能不能由第二个字符串 magazines 里面的字符构…

ERP系统到底能做什么?

ERP是什么?ERP即企业资源计划,ERP系统主要是优化企业内部的业务流程,用信息化管控的方式进行采购管理、库存管理、销售管理和财务管理等板块。它可以看作是进销存系统的进阶版,主要针对供应链中下游。 一、ERP系统怎么产生的&…

SpringBoot(项目创建使用+配置文件+日志文件)

目录 1. Spring Boot 项目创建 2. 写一个 Hello World 并运行 3. 配置文件的作用及格式 4. properties 配置文件的基本语法 5. 读取配置文件 6. yml 配置文件说明 7. properties 和 yml 的区别 8. SpringBoot 日志文件 8.1 日志的作用 8.2 自定义日志打印 8.3 日志…

低代码:全力构筑企业数字转型新生态

数字转型企业处于数字经济大潮的风口浪尖,既是创新主体也是数字技术广泛运用的重要平台,主动调整企业发展战略以顺应数字化转型是其明智抉择。企业经营决策者应深刻认识数字化转型的发展特点及本质要求,看到数字化转型是企业战略的迭代升级&a…

C#,图像二值化(19)——全局阈值的香巴拉算法( Shanbhag Thresholding)及源程序

1 算法描述(凑数)thresholdShanbhag由Robert Haase基于G.Landini和W.Rasband的工作。自动阈值器利用ImageJ中实现的Shanbhag阈值方法,使用GPU上确定的直方图创建尽可能类似于ImageJ“应用阈值”方法的二进制图像。thresholdShanbhag By Rober…

「精致店主理人」:青年敢有所为,梦想掷地有声

第三期「精致店主理人」青年创业孵化营于12月16日在周大福顺德匠心智造中心,完美收官!「精致店主理人」青年创业孵化营是在共青团深圳市委员会的指导下,由深圳市青少年发展基金会与周大福珠宝集团联合主办,郑家纯青年发展专项基金…

CPU基本结构和运行原理

1 CPU的基本结构 1.1 CPU是一个计算系统的核心 Control Unit,负责控制。如指令计数器,指令跳转。 Logic Unit,负责计算。如加减,比较大小等。 1.2 南北桥芯片将CPU与外设连接 北桥:CPU和内存、显卡等部件进行数据交…

Python解题 - CSDN周赛第22期 - 取数字

又是大放水的一期,连我都可以10分钟解决战斗了。得益于Python,前面三题5分钟内就pass了,而最后一题也是之前刷过类似的。。。于是相应地,这期的题解也会简短一些。 这次的好成绩代表不了实力,但也希望这样的好运气能一…

自然语言处理 概览理解 NLP specialization - Supervised ML

自然语言处理 概览理解 NLP specialization - Supervised ML Remember that understanding the data is one of the most critical steps in Data Science 自然语言处理可以实现语义识别,情感识别,文本翻译等等功能,当然最近情况下最火的便…

Java支付宝沙箱环境支付,官方Demo远程调试【内网穿透】

文章目录1. 下载当面付demo2. 修改配置文件3. 打包成web服务4. 局域网测试5. 内网穿透6. 测试公网访问7. 配置二级子域名8. 测试使用固定二级子域名访问在沙箱环境调试支付SDK的时候,往往沙箱环境部署在本地,局限性大,在沙箱环境中有多种支付…

MATLAB-一维插值运算

一维插值是指对一维函数进行插值。已知n1个结点(x,y,),其中x,互不相同(j0,1,2,... n),求任意插值点x*处的插值y*。求解一维插值问题的主要思想是:设结点由未知的函数g(x)产生,函数g(x)为连续函数且g(x)y;(j0,1,...,n);…

北大硕士LeetCode算法专题课---算法复杂度介绍

算法复杂度中大O的含义 推荐教程:北大硕士带你手撕Leetcode算法题 大O复杂度表示法 算法面试中, 经常会被问到,你写的算法复杂度是多少, 或者设计一个复杂度为 O(nlogn) 的算法复杂度分析是估算算法执行效率的方法,…