kettle开发-Day39-超好用AI+算力组合-算力提升器

news2026/2/13 1:42:39

前言：

上一节我们提到采用标记新旧数据的数据状态来快速整理需对比的数据，再选择性插入更新来保证数据的完整性。强强联合，保证了数据的高效和可用。

但是日常中，也存在部分场景，我们表输入是没有唯一性主键的，我们无法判断哪些数据有更新和插入，但我们又不能用裁剪表来直接删除后再更新，这时候我们该如何是好。很多人会想到，那就提高算力，提高数据处理速度就好，在1秒时间内完成100万数据的处理。理论上是可行，但是正如ChatGpt的发展会受到算力的制约一样，我们来分析下，怎么通过调整数据处理策略来提高效率并保证数据的可用性。

一、AI转移

1、极简数据源

因为我们没办法去提高主键，导致我们只能采用全量更新的方式来处理数据，因此我们需要将数据表输入的时间转移，我们只能在极端的时间内完成数据的更新，通常在1s内，因此表输入的读取时间是不允许超过0.2秒的，此时我们需保证表输入的SQ是select * from table。

其中的table而且数据量不能太大，只能保存需插入更新的数据，并且表输入不能包含任何where条件加字段计算等来增加耗时。因此此时的数据源是极简的。

2、AI转移

我们知道在数据处理还有一个江湖必杀技叫“空间换时间”。所谓的空间换时间，就是将整个数据步骤进行拆分，将每个步骤的数据都保存下来，保证每一步都是最高效的。因此也叫做1+1>2。此时的整体思路就是将我们需要更新的数据，保存至另外一个表里面。然后我们删除更新时间段的数据，然后再进行数据的插入。

因此整个过程变成了，更新数据输入+更新时间段数据删除+更新数据输出。因为不涉及数据的更新操作，操作效率还是非常高的，下面我们详细讲解下实现过程。

二、多线程算力分解

1、历史数据输入

如下图所示，我们表输入是个很复杂的SQ逻辑，此时单单数据读取耗时都会在5-10分钟左右，因此在这种超复杂的应用场景下。我们保证数据的高效和完整体现的特别重要。

如下图所示我们只需要更新近90天的数据即可，根据实际要求来调整，即一般业务一个月以后就会关账，就不允许修改历史数据了。如何所示将需更新数据保存至oa_gcpycll_csh表中。

2、更新时间段数据删除

如下图所示，将更新时间数据从目标表删除，在此次转换中，表名为oa_gcpycll，对应参考代码如下所示，其中id是一个主表中的id并不是唯一的。

delete from  oa_gcpycll  where id in (
select distinct ID  from  oa_gcpycll_csh);
commit; --清除历史数据再插入历史数据

3、更新数据输出

最后我们将更新数据输出至目标表oa_gcpycll，对应操作如下图所示。

三、总结

这种自定义组合的方式，可以解决因计算复杂的表输入逻辑，导致我们更新数据时，找不到合适主键的场景，通过一个中间表来存储更新的数据，从而将数据处理时间封闭至另外一个空间，不再影响目标表的性能。因此我们可以根据我们实际业务场景来是否选择这种方式来处理复杂的数据处理场景。

通过拆分步骤不仅解决了性能问题，而且极大的降低了对算力的要求，希望你能喜欢。下一节将介绍，使用kettle处理接口文件，欢迎持续关注，一起学习~

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/671867.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

kettle开发-Day39-超好用AI+算力组合-算力提升器

前言：

一、AI转移

1、极简数据源

2、AI转移

二、多线程算力分解

1、历史数据输入

2、更新时间段数据删除

3、更新数据输出

三、总结

相关文章

计算机服务器数据库中了Devos后缀勒索病毒怎么办，记住以下步骤！

【计算机组成原理】RV32I指令集

css基础知识六：谈谈你对BFC的理解？

5个可以白嫖PPT模板的网站，不允许你们不知道

Linux文件基础IO的理解1

华为OD机试之阿里巴巴找黄金宝箱(V)（Java源码）

【好书精读】网络是怎样连接的之客户端与服务器之间是如何收发数据

GreasyFork+Github

CesiumJS使用详细，在vue中使用Cesium.js（WebGIS中的Cesium地图可视化应用）

K 个一组翻转链表（leetcode 25）

Linux-＞线程互斥

C++进阶—继承(上)简单特性

OpenSSL生成SSL证书，受浏览器信任吗？

【U8+】取消用友U8软件登录界面记住密码功能

Springboot 核心注解和基本配置解读

Python基础语法2（超详细举例）

读营销策划心得

Redis【入门篇】---- 初始 Redis

2023年最新企业网盘排名！一文掌握各大企业网盘优缺点

赚钱的底层模式和破局思路