ETL中双流合并和多流合并的区别

news2024/12/23 14:20:54

一、ETL工具

ETLCloud数据集成平台集实时数据集成和离线数据集成以及API发布为一体的数据集成平台。与其他开源数据集成工具相比,采用轻量化架构、具有更快的部署速度、更快的数据传输速度、更低的运维成本,同时支持多租户的团队协作能力,能够满足企业各种复杂的数据处理需求。含有丰富的ETL操作相关的组件,通过拉取的方式来搭建流程,对于小白和非开发人员来说非常的友好。

image

image

今天我们要介绍两个在ETL过程中经常使用的组件,双流join合并组件和多流UnionAll合并组件。

二、组件演示

1、双流join合并组件

首先创建好流程,在数据运算组件中找到双流合并组件,顾名思义这个组件是将两边的数据流合并在一起,join就是我们sql语法中的内连接和外连接了,所以我们需要拉取两个输入组件,这里我们拉取库表输入组件,流程设计如下:

image

库表输入配置,只需要配置好相关数据源,选择库表,设置输入字段即可

image

双流join组件,点击组件打开配置页面,需要理解了sql语法中的join操作即可上手。

image

在join模式中有三个选项,分别是左连接,内连接,笛卡尔积,

  • LEFT JOIN 会返回左边表(左表)的所有行,以及右边表(右表)中与左表匹配的行。如果右表中没有匹配的行,则会返回 NULL 值。

  • INNER JOIN 是最常用的连接操作,它根据两个表之间的共同列的值将两个表进行连接。只返回符合连接条件的行,即两个表中通过连接条件关联起来的行。

  • 笛卡儿积是指将两个表中的每一行都与另一个表中的每一行进行组合,返回的结果集大小为两个表行数的乘积。

image

通过leftjoin举例说明,根据自己的需求决定左右表对应的数据流,

image

关联条件配置,即符合条件的数据就保留

image

字段配置可以决定哪些字段保留哪些去掉,A表合并后的数据将以此字段配置为准,没有配置在本字段列表中的字段将被删除

image

指定B表需要加入到A表中的字段,不需要加入的字段请删除

image

点击保存,运行结果如下,数据会根据我们所配置的输出。

image

2**、多流合并组件**

拉取多流Uinon合并组件,创建如下流程,多流合并组件相比双流join组件有两个不同点,一个是把多个流合并成一个流的数据,将不同节点的数据组合为新的数据。

image

打开多流Union合并配置页,可以发现就是单纯把需要的字段保留不需要的去掉,然后把多条流的数据合并输出。

image

字段配置中,我们选择我们需要的字段。

image

合并运行查看日志可以看出

image

双流join是会根据join条件而合并的,多流union会对每条流的数据进行字段合并,然后统一输出成新的数据。

image

三、总结

在ETL过程中经常使用的两个组件是双流join合并组件和多流UnionAll合并组件。

双流join合并组件:用于将两边的数据流合并在一起,支持左连接、内连接和笛卡尔积。用户可以根据需要选择左连接保留左表所有行、内连接返回符合条件的数据行,或笛卡尔积返回两表所有可能组合的行。配置简单直观,根据关联条件和字段配置进行数据合并,并输出结果。

多流UnionAll合并组件:用于将多个数据流合并成一个流的数据,将不同节点的数据组合为新的数据。用户可以选择需要的字段进行保留,然后将多条流的数据合并输出。在字段配置中选择所需字段,然后合并运行查看日志即可输出合并后的数据。

总的来说,双流join合并组件适用于根据条件合并数据流,而多流UnionAll合并组件适用于将多条流数据合并成一个新的数据流。这些组件在ETLCloud中提供了强大的数据处理功能,方便用户进行数据集成和处理操作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1631473.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IDM下载器安装cmd注册

一、下载注册 安装包去IDM官网下载最新的试用版即可 或者直达百度网盘下载(担心被河蟹,放在txt中了)包含IDM下载器安装包和注册软件 IDM下载器安装包和注册软件下载地址链接 https://download.csdn.net/download/qq_31237581/89215452 如果…

一个自卑的人怎么变得自信

一个自卑的人怎么变得自信 自卑感是一种常见的心理状态,它可能源于个人对自己能力、外貌、价值等方面的负面评价。自卑感不仅会影响一个人的情绪状态,还可能阻碍其在生活、学习和工作中的表现。然而,自信并非一蹴而就的品质,它需要…

Elsevier——投稿系统遇到bug时的解决方法

重要:找期刊客服!!! 一、方法: 1. 点击进入与官方客服的对话 2. 按要求输入个人信息 3. 输入遇到的问题 比如: 主题:The Current Status is jammed. 详细描述:The Current State o…

Flask框架进阶-Flask流式输出和受访配置--纯净详解版

Flask流式输出🚀 在工作的项目当中遇到了一种情况,当前端页面需要对某个展示信息进行批量更新,如果直接将全部的数据算完之后,再返回更新,则会导致,前端点击刷新之后等待时间过长,开始考虑到用进…

ESP32-S3如何用socket通信

实验目的: 通过 Socket 编程实现 pyWiFi-ESP32-S3 与电脑服务器助手建立连接,相互收 发数据。 首先先来简单了解一下Socket 我们先来看看网络层级模型图,这是构成网络通信的基础: 我们看看 TCP/IP 模型的传输层和应用层&…

内网安全【1】——域信息收集/应用网络凭证/CS插件/Android/BloodHound

内容大纲: 概念名词: 局域网 (自己家) 工作组 (网吧) 内网域 (公司) 比如一家公司有1000台机器 运维人员去管理1000 不可能每台上去都进行软件的安装 环境的部署 密码的设置…

Vue+Echarts 实现中国地图和飞线效果

目录 实现效果准备 实现效果 在线预览:https://mouday.github.io/vue-demo/packages/china-map/dist/index.html 准备 高版本的echarts,不包含地图数据,需要自己下载到项目中 1、地图数据下载 https://datav.aliyun.com/portal/school/at…

大田场景下的路径检测论文汇总

文章目录 2020Visual Servoing-based Navigation for Monitoring Row-Crop Fields 2020 Visual Servoing-based Navigation for Monitoring Row-Crop Fields code: https://github.com/PRBonn/visual-crop-row-navigation 摘要: 自主导航是野外机器人执行精确农业…

vue-quill-editor富文本插件控制字数显示

最终效果 富文本编辑框&#xff0c;只统计内容&#xff0c;不包含标签以及样式&#xff0c;超出最大字数限制提示。 具体代码 html <div class"relative"><quillEditorv-model"form.nutriSuggestion"ref"myQuillEditor7":options&quo…

【Python数据库】MongoDB

文章目录 [toc]数据插入数据查询数据更新数据删除 个人主页&#xff1a;丷从心 系列专栏&#xff1a;Python数据库 学习指南&#xff1a;Python学习指南 数据插入 from pymongo import MongoClientdef insert_data():mongo_client MongoClient(hostlocalhost, port27017)co…

【网络原理】数据链路层 及 DNS域名系统

系列文章目录 【网络通信基础】网络中的常见基本概念 【网络编程】网络编程中的基本概念及Java实现UDP、TCP客户端服务器程序&#xff08;万字博文&#xff09; 【网络原理】UDP协议的报文结构 及 校验和字段的错误检测机制&#xff08;CRC算法、MD5算法&#xff09; 【网络…

为什么使用ZigBee技术开发智能家居产品?

随着智能家居市场的蓬勃发展&#xff0c;各种智能设备层出不穷&#xff0c;其中Zigbee技术因其独特的优势在这些智能设备中得到了广泛应用。那么&#xff0c;zigbee技术究竟具备哪些令人瞩目的优势&#xff0c;为什么能够得到如此广泛的应用呢&#xff1f; 什么是Zigbee协议&am…

Docker 容器操作

容器创建 就是将镜像加载到容器的过程。 新创建的容器默认处于停止状态&#xff0c;不运行任何程序&#xff0c;需要在其中发起一个进程来启动容器。 格式&#xff1a;docker create [选项] 镜像 常用选项&#xff1a; -i&#xff1a;让容器开启标准输入 -t&#xff1a;让…

电商架构:系统设计+表设计

如有不对&#xff0c;请指正 欢迎评论区交流 需要哪些系统 商品系统、订单系统、权限系统、审核系统等。 商品系统 订单系统 审核系统 权限系统 参考 基于电商中台架构-商品系统设计(一) 附件

APQC是美国生产力与质量中心

APQC简介 APQC是美国生产力与质量中心( American Productivity and Quality Center)的简称。该中心自1991年开始研究开发流程分类框架&#xff08;简称PCF&#xff09;&#xff0c;1992年发布PCF1.0。PCF将运营与管理等流程汇总成12项企业级流程类别&#xff0c;每个流程类别包…

win10安装pytorch + cuda

1&#xff1a;下载cuda工具cuda-toolkit 地址&#xff1a;https://developer.nvidia.com/cuda-toolkit-archive 2&#xff1a;一路向下&#xff1a;安装 3&#xff1a;配置环境变量 path 环境变量中添加&#xff1a; 4&#xff1a;验证cuda是否安装成功&#xff1a; nvcc -…

计算机网络——初识网络

一、局域网与广域网 1.局域网&#xff08;LAN&#xff09; 局域网&#xff1a;即Local Area Network&#xff0c;简称LAN。Local即标识了局域⽹是本地&#xff0c;局部组建的⼀种私有⽹络。局域⽹内的主机之间能⽅便的进⾏⽹络通信&#xff0c;⼜称为内⽹&#xff1b;局域⽹和…

idea No versioned directories to update were found

idea如何配置svn以及svn安装时需要注意什么 下载地址&#xff1a;https://112-28-188-82.pd1.123pan.cn:30443/download-cdn.123pan.cn/batch-download/123-820/3ec9445a/1626635-0/3ec9445a25ba365a23fc433ce0c16f34?v5&t1714358478&s171435847804276f7d9249382ba512…

RCE复习(ctfhub上)

一、rce漏洞概述 在Web应用开发中为了灵活性、简洁性等会让应用调用代码执行函数或系统命令执行函数处理&#xff0c;若应用对用户的输入过滤不严&#xff0c;容易产生远程代码执行漏洞或系统命令执行漏洞。 二、常见RCE漏洞函数 1.系统命令执行函数 system()&#xff1a;能将…

LeetCode 94.二叉树的中序遍历

题目描述 给定一个二叉树的根节点 root &#xff0c;返回 它的 中序 遍历 。 示例 1&#xff1a; 输入&#xff1a;root [1,null,2,3] 输出&#xff1a;[1,3,2]示例 2&#xff1a; 输入&#xff1a;root [] 输出&#xff1a;[]示例 3&#xff1a; 输入&#xff1a;root [1] …