kettle经验篇:MongoDB-delete插件问题

news2025/1/16 13:50:23

目录

项目场景

问题分析

解决方案

MongoDB Delete插件使用总结


项目场景

项目使用的ODS层数据库是MongoDB;在数据中心从DB层向ODS层同步数据过程中,发现有张ODS表在同步过程中,数据突然发生锐减,甚至于该ODS表数据清0。

同步技术使用的是kettle,在该ODS表的同步转换中,只有两个控件用来处理MongDB数据:一个是kettle本身自带的MongoDB output,一个是使用的插件MongoDB Delete。

MongoDB Delete删除是按照条件删除MongoDB数据库中指定集合的数据,此转换是有两个条件:一个常量,一个主键ID。

 

kettle的MongoDB Delete 插件资源在我的资源列表中,需要的可以去下载。

问题分析

从项目场景来分析,ODS表数据锐减,甚至清0。很明显是有删除操作导致的,而kettle转换中有删除MongoDB数据功能的控件只有MongoDB Delete。

所以现在怀疑大概率是MongoDB Delete插件存在bug。

锁定了MongoDB Delete后,在转换中加了【调试】日志,想要看下同步过程中到底发生了什么。

以下是对项目上的ETL转换的日志分析 【为避免项目隐私,关键内容已打马塞克】

1、项目场景中的ETL转换中涉及MongoDB Delete的日志片段

这里的逻辑撤销删除就是在转换中给MongoDB Delete插件定义的名字;

由项目场景中的介绍已知,删除条件是两个,但这里只有一个条件;

且这里的删除条件是个常量,按照此条件删除,肯定是大批量的删了;

2、为什么删除条件变成一个了呢?

根据日志的上下内容,发现该条数据中的ID为空,经过测试发现:

当两个条件中的某个字段为NULL时,

MongoDB Delete插件就会只按照不NULL的那个字段进行查询删除。

3、两个字段都不为NULL时的正常日志片段

4、当只有一个条件,且为NULL时的日志

此时发现查询条件中什么也没有,而测试结果却是将对应的MongoDB集合数据全部删除了。

5、当将过滤空值时的日志

此时发现MongoDB Delete插件不会产生任何的查询删除操作

解决方案

在MongoDB Delete插件前加个非空过滤,即可解决该问题。经过测试,ODS数据锐减问题解决。

 

MongoDB Delete插件使用总结

经过上述的日志分析,可以将MongoDB Delete的使用总结为以下几点:

  • 当删除条件为单个时

如果条件字段为NULL,则删除全表,相当于Oracle中的truncate。

  • 当删除条件为多个时

如果某个条件字段为NULL,此时删除条件减1,按照非NULL的字段进行删除;如果这多个字段全部为NULL,则删除全表,相当于Oracle中的truncate。

  • 非空过滤

在使用MongoDB Delete插件时,应该将删除用到条件字段全部进行非空过滤,不让空值流下去,才能保障数据不会因BUG删除。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1668407.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

dragonbones 5.6.3不能导出的解决办法

问题描述 使用dragonbones 5.6.3导出资源时无反应。 解决方法 第一步安装node.js,我这里使用的是V18.16.0第二步进入到DragonBonesPro\egretlauncher\server\win目录,然后把里面的node.exe替换为刚刚下载的node文件夹即可,如下图&#xff…

GD32用ST-Link出现internal command error的原因及解决方法

一、GD32 F407烧录时出现can not reset target shutting down debug session 搜寻网上资料,发现解决方式多种多样,做一个简单的总结: 1.工程路径包含中文名 2.需更改debug选项 3.引脚冲突 4.杜邦线太长 而先前我的工程路径包含中文名也仍…

Shell编程之循环语句之for

一.for循环语句 读取不同的变量值,用来逐个执行同一组命令 for 变量名 in 取值列表 do命令序列 done 示例: 1.计算从1到100所有整数的和 2.提示用户输入一个小于100的整数,并计算从1到该数之间所有整数的和 3.求从1到100所有整数的偶数和…

【Android】Kotlin学习之Kotlin方法的声明和传参

方法声明 普通类的方法 静态类的方法 不需要构建实例对象, 可以通过类名直接访问静态方法 : NumUtil.double(1) companion object 伴生类的方法 使用companion object 在普通类里定义静态方法 参数 括号内传入方法 : 当参数是方法时, 并且是最后一个参数 , 可以使用括号外…

QX---mini51单片机学习---(8)8*8点阵屏

目录 1LED点阵屏简绍 2 8*8点阵屏电路图74 3 74HC595芯片 4实践编程 1LED点阵屏简绍 2 8*8点阵屏电路图74 怎么点亮,正极给高负极给低 不能同时静态显示,跟数码管动态显示一样,反复横跳,利用视觉效果 3 74HC595芯片 …

涉案财物管理系统|DW-S405系统全国都有案例

涉案财物管理系统(智财物:DW-S404)是一套成熟系统,依托互3D技术、云计算、大数据、RFID技术、数据库技术、AI、视频分析技术对涉密载体进行统一管理、分析的信息化、智能化、规范化的系统。 涉案财物管理系统主要实现对涉案物品进…

第三步->手撕spring源码之基于Cglib实现实例化策略

为什么深入研究spring源码? 其实每一个程序员每天的工作都是一贯的CRUD 实现业务和需求完成的操作。几年这样的操作让我感觉在这方面要提神能力 光靠CRUD是绝对不可能的事情 CRUD只是满足你作为一个搬砖人而已。编程能力提升?其实更多的编程能力的提升是…

Rpcx (一):详解【介绍、基础示例 demo】

一.rpcx介绍 1.1 rpc是什么 远程过程调用的通信协议。该协议允许运行于一台计算机的程序调用另一台计算机的子程序,而程序员无需额外地为这个交互作用编程。如果涉及的软件采用面向对象编程,那么远程过程调用亦可称作远程调用或远程方法调用。简单地说就是能使应用像调用本地…

事务-MYSQL

目录 1.事务操作演示 2.事务四大特性ACID 3.并发事务问题 4. 并发事务演示及隔离级别​编辑​编辑​编辑​编辑​编辑​编辑​编辑 1.事务操作演示 默认MySQL的事务是自动提交的,也就是说,当执行一条DML语句,MySQL会立即隐式的提交事务。 方式二 2.事务四大特性ACID 原子…

璩静事件,后生可畏

时下网络上沸沸扬扬的璩静事件,笔者认为这应当是事先策划好的,为她自己的新公司扩大声势的一种炒作方式。聪明而胆大。年轻人,尤其是年轻女性,让人深感“后生可畏”。 来百度APP畅享高清图片 【附件】 《百度副总裁璩静言论引争…

Redis系列-3 Redis缓存问题

1.缓存的作用 数据库(如Mysql)的持久化特点带来了较低的性能,高并发的场景下,连接池很快被耗尽而出现宕机或DOS,无法继续对外提供服务。相对于数据库的硬盘IO,缓存中间件基于内存进行读写,从而具备较大的吞吐量和高并…

Electron学习笔记(六)

文章目录 相关笔记笔记说明 七、系统5、托盘图标(1)、设置托盘图标(2)、托盘图标闪烁(3)、托盘图标菜单 6、剪切板(1)、写入剪切板(2)、读取剪切板 7、系统通知8、其他(1)、使用系统默认应用打开文件(2)、接收拖拽到窗口中的文件(3)、使用系统字体 相关笔记 Electron学习笔记&…

异常处理/CC++ 中 assert 断言 应用实践和注意事项

文章目录 概述assert 本质浅析Release版本下的assert是否生效默认设置下 QtCreator环境 assert 过程默认配置下 VS环境 assert 过程配置VS发布模式下的断言生效VS环境Release版本的UI程序Release下请当我不生效 请勿滥用assert导致逻辑错误再强调不要在assert内执行逻辑功能怎敢…

华为交换机配置导出备份python脚本

一、脚本编写思路 (一)针对设备型号 主要针对华为(Huawei)和华三(H3C)交换机设备的配置备份 (二)导出前预处理 1.在配置导出前,自动打开crt软件或者MobaXterm软件&am…

IEEE 802.11标准

在IEEE 802.11标准中使用了扩频通信技术,主要作用是使得抗干扰性更强。 IEEE 802.11在MAC层采用了CSMA/CA协议。 IEEE 802.1x是一种基于端口认证协议。

【数据分析面试】41.如何分析处理Netflix流失用户?(业务分析)

题目 假设有一百万 Netflix 用户在过去六个月内没有登录到 Netflix。 你会如何确定原因?以及你会如何处理这些用户? Netflix 是一家总部位于美国的全球性流媒体娱乐服务公司,提供在线视频点播服务。通过其网站和移动应用,用户可…

内容检索(2024.05.12)

随着创作数量的增加,博客文章所涉及的内容越来越庞杂,为了更为方便地阅读,后续更新发布的文章将陆续在此汇总并附上原文链接,感兴趣的小伙伴们可持续关注文章发布动态! 本期更新内容: 1. 信号仿真类话题-…

C++笔记(体系结构与内核分析)

1.OOP面向对象编程 vs. GP泛型编程 OOP将data和method放在一起,目的是通过封装、继承、多态提高软件的可维护性和可扩展性GP将data和method分开,可以将任何容器与任何算法结合使用,只要容器满足塞饭所需的迭代器类型 2.算法与仿函数的区别 …

Android性能:高版本Android关闭硬件加速GPU渲染滑动卡顿掉帧

Android性能&#xff1a;高版本Android关闭硬件加速GPU渲染滑动卡顿掉帧 如果在Androidmanifest.xml配置&#xff1a; <application android:hardwareAccelerated"false" > 或者某个特点View使用代码&#xff1a; myView.setLayerType(View.LAYER_TYPE_SOFT…

【Python-爬虫】

Python-爬虫 ■ 爬虫分类■ 1. 通用网络爬虫&#xff1a;&#xff08;搜索引擎使用&#xff0c;遵守robots协议&#xff09;■ robots协议&#xff08;君子协议&#xff09; ■ 2. 聚集网络爬虫&#xff1a;自己写的爬虫程序 ■ urllib.request&#xff08;要导入的模块&#x…