Apache SeaTunnel数据处理引擎适配的演进和规划

news2024/11/25 12:22:49

file

作者 | Chao Tian (tyrantlucifer),Apache SeaTunnel PMC Member

摘要

Apache SeaTunnel作为一个高性能数据同步工具,以其高效的数据处理能力,为数据集成领域带来了创新。在引擎上,Apache SeaTunnel除了支持自身的Zeta引擎外,还支持Spark和Flink。在2024年的CommunityOverCode Asia,Apache SeaTunnel PMC Member 田超在论坛上为大家介绍了Apache SeaTunnel基于Flink的演进历程、架构设计、核心特性,以及社区的当前进展和未来规划。以下为演讲核心内容整理:

Apache SeaTunnel基于Flink的演进历程

Apache SeaTunnel的演进主要体现在两个API版本上:

  • Flink API V1:SeaTunnel的初始API版本,与Flink的计算引擎紧密耦合,connector紧密依赖Flink接口。

file

  • Flink API V2:SeaTunnel的新一代API,所有的插件还是继承了plug-in的形式,但实现了与计算引擎的解耦;支持更多Flink版本;不依赖于Flink原生连接器,Sink增加了Writer、Committer和Aggregated Committer,Source增加了Reader、Split和Split Enumerator;降低了Flink升级的成本;并提供了更细粒度的接口,增强了系统的可扩展性,满足更多元化的数据源的同步需求。

file

基于Flink的架构设计

从Job运行的角度,Apache SeaTunnel的架构设计紧密依托于Flink的数据处理能力。

在Common API层,SeaTunnel做了插件的抽象化,基于插件的抽象化,SeaTunnel可以对接不同的计算引擎。

file

对接层在SeaTunnel中统称翻译层(Translation Layer)。针对Flink,SeaTunnel实现了Flink代理的Source、Sink和Transform,生成Flink引擎的Job graph后,以实现数据在Flink上高效转换和同步。

file

基于Flink好用的核心特性

市面上的数据同步工具很多,比如Apache Flink CDC、Chunjun等。

file

相比之下,Apache SeaTunnel展现了以下特点:

  • 支持的Flink版本:SeaTunnel支持1.13及以上版本,提供更广泛的兼容性。
  • Flink连接器:SeaTunnel不依赖于Flink原生连接器,提供了更高的灵活性。
  • 用户自定义指标:SeaTunnel允许用户定义自己的指标,增强了监控和分析能力。
  • 数据转换支持:SeaTunnel支持数据的转换操作,包括但不限于映射、过滤等。
  • Flink-SQL:尽管目前SeaTunnel不支持Flink-SQL,但这是社区未来工作的重点之一。

Apache SeaTunnel基于Flink的特性和好用的功能,我们也来总结一下:

  1. 支持Flink原生的poll-push架构,可以实现实时获取分片数据,有效解决多并行度下的问题,最大化利用资源
  2. 支持 Flink原生的两阶段提交功能
  3. 支持Flink原生的用户自定义指标能力
  4. 支持使用Flink原生的global-accumulator记录数据同步作业详情
  5. 支持所有Flink作业提交模式(应用模式/会话模式)
  6. 支持枚举器和读取器之间用户定义的事件通信
  7. 支持Flink 1.13–1.18之间的所有版本

社区进展与未来规划

目前,Apache SeaTunnel社区正在积极推进以下工作:

  • 多表读写支持:正在开发在Flink引擎上支持多表同时读写的功能,以支持一库多表读写,多表路由等场景,提高数据处理的效率和灵活性。目前,这一功能已在SeaTunnel Zeta引擎上实现。

file

  • Flink Proxy Source & Sink重构:当前,Flink Proxy数据的同步需要在Flink proxy Row和SeaTunnel Row数据格式之间进行多次转换,这样的转换不但会有数据精度损失的风险,还极大地降低了数据转化的性能。为此,社区正在进行源和接收器的重构工作,以优化性能和稳定性。

file

未来,社区还计划实现以下特性:

  • 模式演化(Schema Evolution):目前,SeaTunnel仅在Spark和Zeta引擎上支持模式演化功能,未来,社区计划在Flink上支持数据模式的动态变化,以适应不断变化的数据需求。

file

  • SQL转换支持:计划在Flink上支持SQL转换,包括选择投影、用户定义函数(UDF)、用户定义表函数(UDTF)和过滤条件等,以提供更丰富的数据处理能力。

file

结语

Apache SeaTunnel作为数据同步领域的一个创新工具,其基于Flink的高效数据处理能力,为数据集成带来了新的解决方案。社区的不断努力和创新,将使Apache SeaTunnel在未来的数据同步任务中发挥更大的作用。如需进一步了解或参与Apache SeaTunnel项目,欢迎加入社群参与讨论。

本文由 白鲸开源科技 提供发布支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2063550.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

UVa1668/LA6039 Let’s Go Green

UVa1668/LA6039 Let’s Go Green 题目链接题意分析AC 代码 题目链接 本题是2012年icpc亚洲区域赛雅加达(Jakarta)赛区的题目 题意 输入一棵n(2≤n≤100000)个结点的树,每条边上都有一个权值。要求用最少的路径覆盖这些边,使得每条…

JAVA家政服务独立多端平台服务系统小程序源码

解锁现代生活新方式✨ —— "家政服务独立用户多端平台系统"全攻略🏠 🚀【开篇:告别繁琐,拥抱智能家政新时代】 在这个快节奏的时代,谁不想回家就能享受一份宁静与舒适呢?但忙碌的工作、琐碎的…

算法日记day 45(单调栈之每日温度|接雨水)

一、每日温度 题目: 给定一个整数数组 temperatures ,表示每天的温度,返回一个数组 answer ,其中 answer[i] 是指对于第 i 天,下一个更高温度出现在几天后。如果气温在这之后都不会升高,请在该位置用 0 来…

基本数据类型 --- 浮点型

float的机器码表示: 一个float数据 (pow(-1, sign) fraction) * pow(2, exponent - 127) 由上图,可得: (pow(-1, sign) fraction) * pow(2, exponent - 127) ( 1 2^(-2) ) * pow(2, 124-127) 0.15625 其他文章: https://b…

Go第一个程序

package mainimport "fmt"func main() {str : "hello go"fmt.Println(str) }上述很简单,如何使用os包获取命令行参数呢? package mainimport ("fmt""os" )func main() {fmt.Println(os.Args)str : "hello…

typora激活流程

1.安装typora Typora中文官网:Typora 官方中文站 Typora官网:https://typora.io/releases/all 2.打开软件安装位置 找到路径Typora\resources\page-dist\static\js的js文件,使用记事本编辑打开 替换 CtrlF查找 e.hasActivated"true&…

python-逆序数(赛氪OJ)

[题目描述] 在一个排列中,如果一对数的前后位置与大小顺序相反,即前面的数大于后面的数,那么它们就称为一个逆序。一个排列中逆序的总数就称为这个排列的逆序数。比如一个元素个数为 4 的数列,其元素为 2,4,3,1,则 (2,…

ubuntu20 vmware硬盘空间不够,进行扩容,实操成功!

背景 在编译mysql源码之前只给虚拟机分配了20G的空间,但是实际编译过程中,发现很快20G空间就被用完了,于是需要对已分配空间的虚拟机进行扩容至50G。 如何进行扩容? 注意首先需要在extended那一块先resize,把unloca…

H3C M-LAG与双活网关接口结合应用场景实验

H3C M-LAG与双活网关接口结合应用场景实验 实验拓扑 ​​ 实验需求 此实验需要在模拟器中使用交换机型号 S6850SW3 为接入交换机,连接 PC1 在 VLAN 10,连接 PC2在 VLAN 20,SW3 双上行连接到两台核心交换机SW1 和 SW2 为核心交换机,配置 M-LAG,并作为 VLAN 10 和 VLAN 2…

《Cloud Native Data Center Networking》(云原生数据中心网络设计)读书笔记 -- 07数据中心的边缘

本章将帮助你回答以下问题 可以用哪些方式将 Clos 拓扑连接到外部网终?边缘部署路由协议的最佳实践是什么?企业应如何处理混合云中的连接? 连接模型 为什么要连接到外部世界? 数据中心连接到外部世界的原因很多。如果你要对外提供某种服务(例如搜索服务广告推荐系统或内…

C语言:深入理解文件操作

目录 1. 为什么使用文件? 2. 什么是文件? 2.1 程序文件 2.2 数据文件 2.3 文件名 3. 二进制文件和文本文件? 3.1测试代码: 4. 文件的打开和关闭 4.1 流和标准流 4.1.1 流 4.1.2 标准流 4.2 文件指针 4.3 文件的打开…

【刷题笔记】二叉树2

1 二叉树的层序遍历 上一期我们讲了关于二叉树的前序、中序以及后序遍历的相关内容。然而,还存在一种遍历方式,这种方式非常符合我们人类的正常思维,可以求解很多树相关的问题,比较暴力——二叉树的层序遍历。 二叉树的层序遍历与…

股票买卖的思路与代码

题目 1302:股票买卖 时间限制: 1000 ms 内存限制: 65536 KB 提交数:8660 通过数: 4290 【题目描述】 最近越来越多的人都投身股市,阿福也有点心动了。谨记着“股市有风险,入市需谨慎”,阿福决定先来研究一下简化版的股…

文华软件自动画线 参数自调 多空波段变色线(源码自取)

编写思路 想要随意输入一个点位,即可按照这个点位自动画线,此线可以多空变色,上下突破线时箭头提示并发出声音预警。 代码函数重点解析 A、DRAWSL 绘制直线(段)。 用法: DRAWSL(COND,DATA,SLOPE,LEN,E…

【OpenCV】111

1 新建项目 新建项目,路径不要出现中文 文件夹名称 添加解释器,添加本地解释器 这样就创建好了一个文件夹,然后像我这样一级一级向下分,细分文件夹

TinyC编译器5—词法分析

1.词法分析的基本概念 词法分析也称为分词,此阶段编译器从左向右扫描源文件,将其字符流扫描分割成一个个的词(记号、token)。所谓token,就是源文件中不可再进一步分割的一串字符,类似英语中的单词&#xf…

Transformer大模型在训练过程中所需的计算量

目录 简介计算需求参数与数据集的权衡计算成本的工程意义内存需求推理模型权重总推理内存训练模型参数优化器状态梯度激活值和批大小总训练内存分布式训练分片优化器3D 并行分片优化器 + 3D 并行参考简介 许多关于Transformer语言模型的基本且重要的信息都可以用相当简单的方式…

基于微信小程序的大用户心理咨询系统设计与实现---附源码99040

目录 1 绪论 1.1 研究背景 1.2研究现状 1.3论文结构与章节安排 2 基于微信小程序的大用户心理咨询系统设计与实现分析 2.1 可行性分析 2.2 系统功能分析 2.3 系统用例分析 2.4 系统流程分析 2.5本章小结 3 基于微信小程序的大用户心理咨询系统设计与实现总体设计 3.…

网站首页配置-记录部分错误

目录 错误问题1: 解决方案: 错误问题2: 解决方案: 错误问题3: 解决方案: 错误问题4: 解决方案: EL的作用: 错误问题1: 解决方案: 里面的代码写错,cateSecond应该写成categorySecond 错误问题2: 解…

toRef 与 toRefs

在 ref函数与reactive函数的对比 这一篇博文中,我们从使用角度对比了 ref 与 reactive 的区别,最终得出结论是, 通过 ref 定义的数据,在 js脚本中使用需要 xxx.value ,在模板中会自动解包,可以直接使用通过…