datax关系数据库插件设计和实现解释

news2024/9/29 5:35:43

背景

     DataX是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQLOracle)HDFSHiveODPSHBaseFTP等各种异构数据源之间稳定高效的数据同步功能。解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。

   《SETL基于规则的转换组件设计说明书.docx》介绍了RBT组件的设计,以及基于RBT的关系/图转换实现,本文介绍基于RBT的关系数据插件,datax自带关系数据库插件,本组件有以下特性:

  • rbt组件

转换配置,以写入库未目标,配置数据查询和规则,配置支持序列化为xml/json

转换配置支持配置中心,zookeepernacos,数据库等,可扩展框架

支持基于规则的转换,规则修改和新建 column/record

  • 两阶段转换,支持数据转换和关系的转换
  • insert/upsert模式
  • setl-data组件,无缝切换不同的数据库

参考和术语

RBT 基于规则的转换

ETL Extract-Transform-Load的缩写, 数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端

关系数据库 oracle,sqlserver,pgsql,mysql

datax原理介绍

*官方图,Transport处是Channel,本人觉得不太准确,应为Transport

> 作业分解为任务,任务分组,最后调度器调度任务(组)

*作业分片和任务分组没有在高可用中

> 调度器负责分派资源执行任务(组),TaskEecutor执行任务

> transport包括数据交换(exchanger),数据转换(transformer),交换数据字节数/记录数的统计(channel)

setl整体功能架构

rb-transformer 转换组件

setl-data 类似springboot-data的组件,无缝切换不同的数据库访问

setl-rbt datax插件,目前支持neo4j和jdbc

setl-cdc 基于debezium的流失数据同步

scanner schema扫描器,生成数据库schema,包括表结构和约束

配置中心  转换配置中心,支持zk,nacos,数据库,支持扩展

checkpoint (TBD) 检查点,记录channel内处理点,故障恢复的手段,目前实现了mq channel,借助mq的消息状态实现故障恢复

分布式 分布式datax,可参看《分布式SETL详细(落地)设计说明书》

技术架构

过程分两个阶段同步,行数据和关系

sql/规则 sql查询数据,依托数据库也有强大的数据处理能力;规则强大的自定义处理能力

数据架构:

  • 源dao  使用setl-data组件,源数据读取,sql/jpql,SPI机制,支持mysql,oracle,pgsql等,支持扩展
  • Record  源dao读取数据,构建Record,调用转换规则,转换规则链式执行,输出新的Record
  • 目标Dao  接收Record,构建insert/upsert/关系查询,执行写入目标数据库

 转换设计

> 左:以目标库数据/关系构建转换,每转换项有xql和规则设置

> 中:转换设置,sql是源数据的查询,以写入库数据和关系为目标;

    转换规则,编写基于规则的转换,类似UDF

> 右:规则内置工具类, 通过别名调用,如 su, nu引用,可以修改recored和column

下图是转换设计

关系数据库扫描

扫描组件负责扫描数据库模式,包括表字段和约束

关系schema模型

jdbc读写插件

rdb转换是基于RBT组件的应用,这里介绍一下数据insert/upsert设计,外键插入的设计

insert/upsert设计

上图是pg的insert/upsert sql模板,写入器根据目标库schema构建inert/upsert语句

外键插入

下图插入关系的sql模板

下图是外键转换配置,key分3段,分别是关系的两端,第三段是key名称

_fromId,to_Id对应数据转换时插入的_origId,用于在目标库找到原有关系

写入器读取schema的外键关系,填入模板构造上图的update语句,完成外键插入

示例

本节介绍RBT-关系数据库组件使用

示例场景

场景使用sakila库,mysq到pgsql,为了场景覆盖,修改目标库,演示异构转换

数据/关系转换场景  rental+payment 合成 trade节点,相应地,关系变更 

规则转换场景  合并rental和payment的last_update,取最新的的,这里只是示例规则,实际使用case when实现更方便

下图是目标模式

trade表合并了rental和payment,两表的外键关系连接到新的trade表,其中与staff有两个外键关系,payment_staff_id, rental_staff_id,对应原有rental和payment与staff的连接;customer关系保留原payment

扫描目标库rdb schema

组件提供rdb scanner工具,扫描关系数据库schema,并序列化存储于xml或json

上图是xml格式的schema,包括外键(fks),关系构建依赖外键定义

转换配置

以trade为示例,转换(Transform)由两部分组成,数据转换和关系转换,每个转换也有两部分,sql和规则

规则语法类似js脚本,可引用工具类处理record和column

上图是trade的转换配置,包括查询配置和规则的配置

上图是关系的转换配置,每个关系转换(rtransform)对应一个外键关系

效果

数据传输

trade 交易表,聚合了rental和payment的属性,trade_id是数据库自动生成的新的id,_origId是源payment的Id,用于构建关系和溯源;lastUpdate是源有rental和payment 较新的lastUpdate

外键关系字段为空,等待关系转换插入

关系传输

下图是执行了staff两个外键转换的效果

sakila示例库有两个staff数据,业务上表示两个职员

NEXT

本组件数据写入(writer)需要数据库屏蔽约束,若数据库不能满足屏蔽约束的要求,可以使用如下思路

  • 构建表拓扑图,确定表的依赖关系
  • 遍历表拓扑,拉取数据,特别地,若拓扑存在循环,需整个循环拉取写入,然后转换关系
  • 写入数据前增加会话级别的约束屏蔽,写入后还原

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1386711.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JVM-JVM支持高并发底层原理精讲

一、透彻掌握高并发-从理解JVM开始 二、从线程的开闭看JVM的作用 1.run方法 启动start方法,会调用底层C方法,告诉操作系统当前线程处于可运行状态,而如果直接调用run方法,则就不是以线程的方式来运行了,只是当做一个普…

从“精益思想“看机器人的开发与应用:一场科技与效率的完美融合

在科技飞速发展的今天,机器人已经深入到我们的生活和工作之中,成为了提高效率、提升质量的重要工具。然而,如何让机器人的开发和利用更有效率、更精细,这是摆在我们面前的一道难题。此时,"精益思想"的出现&a…

课设:NFA确定化和最小化程序的设计与实现(html+css+js实现)

文章目录 问题描述待解决问题1、如何存储NFA或者是DFA2、NFA多初态问题3、子集化过程思路4、分割法过程思路 使用方法:下载链接 问题描述 NFA确定化和最小化程序的设计与实现(参考教材3.4节) 目的:设计一个应用程序,将…

我们公司都用哪些软件?强烈推荐这些

大家好,我是鱼皮。周末给大家分享一些轻松的干货吧,聊聊我们公司在用的软件,说不定能帮大家提高学习工作效率呢~ 我把软件分为四大类:团队协作、内容创作、文件共享、效率提升,分别介绍,便于大家选取。 团队…

Java实战之每日海报

前言 使用java生成每日海报。 项目起因是巧合下遇到了一篇很棒的文档,说的是用程序来实现每日生成一个海报。如果之后加上自动发布的功能,简直就是太棒了啊! 样例图如下: 每日海报 思路 访问某词站的API获取网络图片&#…

HTML--CSS--超链接样式以及鼠标样式自定义

超链接伪类 再复习一下,超链接的定义方式如下&#xff1a; <!DOCTYPE html> <html> <head> <title>这是一个标题</title><meta charset"utf-8"/><style></style> </head> <body><a href"http…

c语言题目之斐波那契数列

文章目录 题目一、什么叫斐波那契数列1&#xff0c;由来2&#xff0c;定义 二、代码编写总结 题目 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一、什么叫斐波那契数列 1&#xff0c;由来 在数学历史上&#xff0c;欧洲黑暗时期过后&#xff0c;第…

服务器机房上架交付流程

服务器上架交付 服务器到货验收后&#xff0c;会进行机房机房上架&#xff0c;完成重装系统、网络配置后交付使用 1、到货验收 采购服务器到货后&#xff0c;会联合多部门进行SN、配置、数量等多方面验收&#xff0c;如数量是否匹配&#xff0c;配置是否相符等也会拆开机箱看看…

高精度磁导航传感器MGS系列RS232|RS485|CANBUS通讯连线方法

高精度磁导航传感器MGS系列&#xff0c;包含&#xff1a;CNS-MGS-080N、CNS-MGS-160N等&#xff0c;具有1mm的检测精度&#xff0c;特别适应于⾼精度磁条导航。利⽤检测磁场相对位置来进⾏AGV的辅助定位对接&#xff0c;获得更⾼的导航、定位、驻⻋精度。 MGS系列磁导航传感器⽀…

Linux进程【2】进程地址空间(+页表详解哦)

fork 引言&#xff08;程序地址空间&#xff09;进程地址空间进程地址空间mm_struct 虚拟地址到物理地址的转化总结 引言&#xff08;程序地址空间&#xff09; 在之前的学习过程中&#xff0c;我们认识了内存与地址&#xff0c;并且了解了在程序地址空间中的基本分区&#xf…

AI语音机器人的发展

第一代AI语音机器人具体投入研发的开始时间不太清楚&#xff0c;只记得2017年的下半年就已经开始接触到成型的AI语音机器人&#xff0c;并且正式商用。语音识别效果还不多&#xff0c;大多都是接入的科大讯飞或者百度的ASR。 2018年算是AI语音机器人的“青春期”吧&#xff0c;…

如何在网上赚取零花钱?真实靠谱的六个方法

现如今&#xff0c;时代的不断进步和发展。网赚这个词对我们来说已经不再陌生&#xff0c;随着互联网的发展&#xff0c;许多朋友都希望在空闲时间利用上网多赚一份收入&#xff0c;但因为不懂又经常有人被骗&#xff0c;造成大部分对很多可以赚钱的项目都不敢相信了&#xff0…

二叉树简介

二叉树 二叉树是每个节点最多有两个子树的树结构&#xff0c;通常子树被称作“左子树”和“右子树”。 二叉树的遍历 二叉树的遍历主要有三种方式&#xff1a;前序遍历、中序遍历和后序遍历。 前序遍历&#xff1a;访问根节点 --> 遍历左子树 --> 遍历右子树中序遍历&…

OS进程管理

进程 文章目录 进程概念组成特征状态与转换组织方式链接方式索引方式 进程控制实现进程控制如何实现原语的“原子性” 进程通信(IPC)共享存储基于存储区共享基于数据结构的共享 消息传递直接通信方式间接通信方式 管道通信 线程实现方式用户级线程内核级线程 多线程模式状态与转…

RT-Thread: eeprom存储芯片 at24cxx软件包使用流程

说明&#xff1a;介绍 i2c 通讯接口的 eeprom at24cxx 读写测、试代码&#xff0c;代码基于 at24cxx 软件包实现。 使用步骤&#xff1a; * 1&#xff1a;在 RT-Thread Settings 中开启 【软件模拟I2C】 * 2&#xff1a;在 RT-Thread Settings 软件包中搜索 at24cxx 添加软件…

数据结构学习 jz38 字符串的排列

关键词&#xff1a;字典序排列 dfs 回溯 哈希 这种全排列题目可以考虑用下一个排列的方法做&#xff0c;这是最优解&#xff08;方法四&#xff09; 题目&#xff1a;套餐内商品的排列顺序 我的&#xff1a;[ 用时: 21 m 11 s ] 回溯 dfs 哈希表 方法一&#xff1a;我写的 …

Maven 基础安装配置及使用

大家好我是苏麟 , 今天聊聊Maven . Maven Maven , 是Apache公司下基于Java开发的开源项目 . 我们构建一个项目需要用到很多第三方的类库&#xff0c;需要引入大量的jar包。一个项目Jar包的数量之多往往让我们瞠目结舌&#xff0c;并且Jar包之间的关系错综复杂&#xff0c;一…

海外云手机助力企业拓展海外市场

在当前全球化的商业环境中&#xff0c;由于政策限制&#xff0c;许多企业面临着无法顺利将产品推广到国外的困境&#xff0c;使得海外市场的机遇白白流失。而随着科技的不断创新&#xff0c;一种解决企业海外拓展困境的工具应运而生&#xff0c;那就是海外云手机。本文将深入探…

手撕乘积(**Multiplication** **Product**): 穷举和图示(2) 点积的几何意义

手撕乘积(Multiplication & Product): 穷举和图示(2) 点积的几何意义 点乘 x 3 y 5 xNda np.arange(x) >>> array([0, 1, 2]) x2Nda xNda*21 >>> array([1, 3, 5]) yNda np.arange(1, y) >>> array([1, 2, 3, 4]) xyNda np.meshgrid(xN…

Linux系统使用docker部署Geoserver(简单粗暴,复制即用)

1、拉取镜像 docker pull kartoza/geoserver:2.20.32、创建数据挂载目录 # 统一管理Docker容器的数据文件,geoserver mkdir -p /mydata/geoserver# 创建geoserver的挂载数据目录 mkdir -p /mydata/geoserver/data_dir# 创建geoserver的挂载数据目录&#xff0c;存放shp数据 m…