kettle开发-Day39-超好用AI+算力组合-算力提升器

news2024/9/26 1:19:34

前言:

        上一节我们提到采用标记新旧数据的数据状态来快速整理需对比的数据,再选择性插入更新来保证数据的完整性。强强联合,保证了数据的高效和可用。

        但是日常中,也存在部分场景,我们表输入是没有唯一性主键的,我们无法判断哪些数据有更新和插入,但我们又不能用裁剪表来直接删除后再更新,这时候我们该如何是好。很多人会想到,那就提高算力,提高数据处理速度就好,在1秒时间内完成100万数据的处理。理论上是可行,但是正如ChatGpt的发展会受到算力的制约一样,我们来分析下,怎么通过调整数据处理策略来提高效率并保证数据的可用性。

一、AI转移

        1、极简数据源

        因为我们没办法去提高主键,导致我们只能采用全量更新的方式来处理数据,因此我们需要将数据表输入的时间转移,我们只能在极端的时间内完成数据的更新,通常在1s内,因此表输入的读取时间是不允许超过0.2秒的,此时我们需保证表输入的SQ是select * from table。

        其中的table而且数据量不能太大,只能保存需插入更新的数据,并且表输入不能包含任何where条件加字段计算等来增加耗时。因此此时的数据源是极简的。

        2、AI转移

        我们知道在数据处理还有一个江湖必杀技叫“空间换时间”。所谓的空间换时间,就是将整个数据步骤进行拆分,将每个步骤的数据都保存下来,保证每一步都是最高效的。因此也叫做1+1>2。此时的整体思路就是将我们需要更新的数据,保存至另外一个表里面。然后我们删除更新时间段的数据,然后再进行数据的插入。

        因此整个过程变成了,更新数据输入+更新时间段数据删除+更新数据输出。因为不涉及数据的更新操作,操作效率还是非常高的,下面我们详细讲解下实现过程。

二、多线程算力分解

        1、历史数据输入

        如下图所示,我们表输入是个很复杂的SQ逻辑,此时单单数据读取耗时都会在5-10分钟左右,因此在这种超复杂的应用场景下。我们保证数据的高效和完整体现的特别重要。

        如下图所示我们只需要更新近90天的数据即可,根据实际要求来调整,即一般业务一个月以后就会关账,就不允许修改历史数据了。如何所示将需更新数据保存至oa_gcpycll_csh表中。

        

         2、更新时间段数据删除

         如下图所示,将更新时间数据从目标表删除,在此次转换中,表名为oa_gcpycll,对应参考代码如下所示,其中id是一个主表中的id并不是唯一的。

                 

delete from  oa_gcpycll  where id in (
select distinct ID  from  oa_gcpycll_csh);
commit; --清除历史数据再插入历史数据

        3、更新数据输出

        最后我们将更新数据输出至目标表oa_gcpycll,对应操作如下图所示。

 三、总结

        这种自定义组合的方式,可以解决因计算复杂的表输入逻辑,导致我们更新数据时,找不到合适主键的场景,通过一个中间表来存储更新的数据,从而将数据处理时间封闭至另外一个空间,不再影响目标表的性能。因此我们可以根据我们实际业务场景来是否选择这种方式来处理复杂的数据处理场景。

        通过拆分步骤不仅解决了性能问题,而且极大的降低了对算力的要求,希望你能喜欢。下一节将介绍,使用kettle处理接口文件,欢迎持续关注,一起学习~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/671867.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机服务器数据库中了Devos后缀勒索病毒怎么办,记住以下步骤!

近期,我接到许多企业的求助,企业的用友财务软件遭受了Devos后缀勒索病毒的攻击,导致企业的用友财务账套被加密,许多重要的数据都无法正常读取,给公司的正常运营和数据安全带来了严重威胁。一旦企业被devos勒索病毒攻击…

【计算机组成原理】RV32I指令集

目录 一、RISC-V架构概述 二、RV32I指令集概述 三、RV32I指令格式 四、21条运算指令 五、8条访存指令 六、8条转移指令 七、10条其他指令 八、RV32I的寻址方式 一、RISC-V架构概述 RISC-V指令集起源: 全新的、具有典型RISC特征的指令集架构,20…

css基础知识六:谈谈你对BFC的理解?

一、是什么 我们在页面布局的时候,经常出现以下情况: 这个元素高度怎么没了?这两栏布局怎么没法自适应?这两个元素的间距怎么有点奇怪的样子? 归根究底是元素之间相互的影响,导致了意料之外的情况&#…

5个可以白嫖PPT模板的网站,不允许你们不知道

本期分享5个超好用的免费PPT模板网站,真的免费,建议收藏! 菜鸟图库 https://www.sucai999.com/search/ppt/0_0_0_1.html?vNTYwNDUx 菜鸟图库网有非常丰富的免费素材,像设计类、办公类、自媒体类等素材都很丰富。PPT模板种类很多…

Linux文件基础IO的理解1

目录 一.Linux中文件的特性 二.C语言部分库文件相关函数 2.1在C语言的文件底层原理中: 2.打开与关闭函数 fopen:打开文件函数 2.1参数理解: fclose:关闭文件函数 实验案例: w方式: r方式的案例&…

华为OD机试之 阿里巴巴找黄金宝箱(V)(Java源码)

文章目录 阿里巴巴找黄金宝箱(V)题目描述输入描述输出描述示例代码 阿里巴巴找黄金宝箱(V) 题目描述 一贫如洗的樵夫阿里巴巴在去砍柴的路上,无意中发现了强盗集团的藏宝地,藏宝地有编号从0~N的箱子,每个箱子上面贴有一个数字。 阿里巴巴念…

【好书精读】网络是怎样连接的 之 客户端与服务器之间是如何收发数据

( 该图由AI制作 学习AI绘图 ) 目录 将 HTTP 请求消息交给协议栈 对较大的数据进行拆分 使用 ACK 号确认网络包已收到 根据网络包平均往返时间调整 ACK 号等待时间 返回 ACK 号的等待时间(这个等待时间叫超时时间) 使用窗口…

GreasyFork+Github

GreasyForkGithub 好长时间没用 GreasyFork 了,最近在刷 Spring Boot 的各种知识点,其中很大时间都在学习 baeldung.com 这个站点。不知道是因为最近刷的勤了还是怎么的,这个网站经常会弹出一个“让我关闭广告阻拦插件”的提示框&#xff0c…

CesiumJS使用详细,在vue中使用Cesium.js(WebGIS中的Cesium地图可视化应用)

简述:Cesium是一种基于WebGL开源的虚拟地球技术,可以用于构建高性能、跨平台的三维地球应用程序,它支持多种数据格式和地图服务,可以实现地球表面的高精度渲染、地形分析、数据可视化等功能。Cesium还提供了丰富的API和插件&#…

K 个一组翻转链表(leetcode 25)

文章目录 1.问题描述2.难度等级3.热门指数4.解题思路思路复杂度分析 5.实现示例参考文献 1.问题描述 给你链表的头节点 head ,每 k 个节点一组进行翻转,请你返回修改后的链表。 k 是一个正整数,它的值小于或等于链表的长度。如果节点总数不…

Linux->线程互斥

目录 前言: 1 线程互斥 1.1 多线程并发问题 1.2 线程锁 1.3 锁的接口 2 线程安全与可重入函数 3 死锁 前言: 本篇文章主要讲解了线程互斥的实现方式,还有原理,并附上代码讲解。并且讲解了锁的概念,问题等。 1 线…

C++进阶—继承(上)简单特性

目录 1.继承的概念及定义 1.1继承的概念 1.2 继承定义 1.2.1定义格式 1.2.2继承关系和访问限定符 1.2.3继承基类成员访问方式的变化 2.基类和派生类对象赋值转换 3.继承中的作用域 4.派生类的默认成员函数 5.继承与友元 6. 继承与静态成员 1.继承的概念及定义 1.1继承…

OpenSSL生成SSL证书,受浏览器信任吗?

OpenSSL是用于传输层安全(TLS)协议的开源工具包,OpenSSL生成SSL证书能受到浏览器信任吗?OpenSSL生成SSL证书能不能用于网站HTTPS加密呢? OpenSSL是什么? OpenSSL是基于密码学的用于传输层安全(TLS)协议的开源工具包,可…

【U8+】取消用友U8软件登录界面记住密码功能

【需求描述】 由于用友U8结合远程软件使用, 并且为了简化操作,远程用户建立一个公用账户, 所有的U8用户都使用同一个远程用户登录, 但是各自有U8的账号,登录账套的时候,有操作员记录密码后,别的…

Springboot 核心注解和基本配置解读

目录 1. Springboot 入门与原理 1.1 Springboot 简介 1.1.1 什么是Springboot 1.1.2 Springboot 主要优点 1.2 Springboot 相关注解 1.2.1 元注解 1.2.1.1 Target 1.2.1.2 Retention 1.2.2 Configuration 1.2.3 Import 1.2.3.1 直接注入 1.2.3.2 实现 ImportSelector…

Python基础语法2(超详细举例)

生活就是这样,有的时候即便你尽了最大努力,但依然无法得偿所愿 但是,难道向上攀爬的那条路不是比站在顶峰更令人热血澎湃吗? 文章目录 一、转义符 二、变量的赋值规则 三、数据类型 四、操作符 1.除法 2.幂运算 3.布尔运算…

读营销策划心得

读营销策划心得篇1 过去的一年可算是我工作上另一个转折点,更是一个新的开始。特别是自今年6月份接手营销策划工作,不知不觉,已有半年。回忆这一年的工作经历,有艰辛、有成长、有收获、更有前景。这一年既包含了太多的艰辛与不易&…

Redis【入门篇】---- 初始 Redis

Redis【入门篇】---- 初始 Redis 1. 认识NoSQL1. 结构化与非结构化2. 关联与非关联3. 查询方式4. 事务5. 总结 2. 认识Redis3. 安装Redis1. 依赖库2. 上传安装包并解压3. 启动4. 默认启动5. 指定配置启动6. 开机自启动 4. Redis桌面客户端1. Redis命令行客户端2. 图形化桌面客户…

2023年最新企业网盘排名!一文掌握各大企业网盘优缺点

近年来,企业网盘已经成为一个越来越流行的工具,为企业寻求简化他们的文件协作过程。由于团队成员分散在不同的位置和设备上,网盘提供了一种安全有效的方式来存储、共享和协作文件,为企业提供了一系列的好处,包括&#…

赚钱的底层模式和破局思路

赚钱的逻辑是什么,哪些价值观念的区别,让不同人在赚钱这件事情上产生巨大的差别? 如果从第一性原理出发,个体赚钱有哪些模式,以及如何优化? 一、出卖时间 本质上所有的赚钱方式都是出卖时间,…