Docker镜像、Spark支持多表...Apache SeaTunnel 2.3.8版本将带来的惊喜

news2024/9/27 11:48:57

file

Apache SeaTunnel 2.3.8版本即将于大家见面,近日,Apache SeaTunnel PMC Member 范佳在社区的交流会上为大家提前透露了关于这个新版本即将进行的功能与特性更新概况,详细内容如下:

SeaTunnel 简介

SeaTunnel是一个高性能的开源分布式数据集成系统,支持各种数据源的实时流式和离线批处理,适用于海量数据的集成。它具有以下特点:

  • 海量连接器:支持100+种数据源和存储系统。
  • 多引擎支持:兼容多种数据处理引擎,包括SeaTunnel Zeta Engine、Spark和Flink。
  • HTTP支持:可以通过HTTP接口进行数据集成。
  • 流批一体:同时支持流处理和批处理。
  • 流速控制:能够控制数据流的速率。
  • 自动建表功能:自动根据数据结构创建表。

2.3.8 版本新功能与特性

在即将发布的2.3.8版本中,社区将对SeaTunnel进行以下功能和特性的更新:

Docker 镜像

新版本将提供官方版本的 Docker 镜像,将包含几乎所有的 Connector,用户无需下载安装包,通过直接通过拉取镜像,可以更快地运行 SeaTunnel,减轻 SeaTunnel 部署的复杂度。

file

  • 通过命令构建镜像:对于本地部署,并且有定制化需求的用户,可以通过命令行构建镜像;

file

  • 通过命令启动服务:支持通过命令启动服务进行分布式部署,以及提交任务和查询任务状态等;当然。也可以通过 rest-API 提交任务。

file

  • 通过命令提交服务

file

Spark 支持多表

目前,SeaTunnel 仅支持 Zeta Engine 对多表的支持,新版本将增加 Spark 引擎对多表的支持,可以自动识别并自动运行多表任务。

file

另外,Flink 对于多表的支持已经在推进之中,感兴趣的朋友欢迎来 GitHub 参与共建。

Config 参数支持默认值

目前,SeaTunnel 允许在 config 参数进行变量配置,但每个变量需要手动配置。新版本则将允许在配置参数中使用默认值,提高了配置的灵活性。

file file

适配 Prometheus 进行集群监控

此前,SeaTunnel 提供了接口来获取任务运行的指标,新版本将支持适配 Prometheus 进行集群监控。Prometheus 将定期拉取 SeaTunnel 的集群任务状态,并以可视化界面展示出来,以更便利地监控集群的状态,及时发现问题。

file

file Dashboard展示

添加 Embedding transform

通过 Embedding transform,支持将机器学习模型嵌入到数据转换过程中,把原始字段转换成向量值,再存储到相应的机器学习数据库。目前,SeaTunnel 支持的机器学习模型提供商包括豆包、千帆、OpenAI。

file file

Job 级别日志过滤查看

增加了Job级别的日志过滤和查看功能,可以通过三种方式实现日志过滤。

第一种是通过把 Job ID 打印到日志的最前面,用户可以通过搜索 Job ID 来找到属于此 Job 的所有日志,这样可以把日志过滤出来,解决当多任务并发时,一旦其中一项任务出错,通过日志来排查问题相对比较困难的难题。

file

第二种是根据 Job ID 拆分文件,通过修改 log 配置文件,很多文件都是配置好的,只需要简单修改,任务就会在每一个 Job 打一个日志文件。相同的 Job ID 会被归类到同一个文件下,这样就方便大家查找日志文件。

file

修改log4j2.properties配置文件示例:

...
rootLogger.appenderRef.file.ref = routingAppender
...

appender.file.layout.pattern = %d{yyyy-MM-dd HH:mm:ss,SSS} %-5p [%-30.30c{1.}] [%t] - %m%n
...

Kafka 支持读取/写入 Protobuf 类型数据

增强了 Kafka 连接器对 Protobuf 数据格式的支持,在 Kafka 连接器下增加对 Protobuf 数据类型的定义,进行数据读取和写入。

file

文件支持读取压缩包

增加了对压缩文件格式的读取支持,省去了解压缩的步骤。

file

其他功能

此外,新版本还将移除对系统表的过滤,允许用户读取系统表;增强对Paimon流式读取和动态桶写入的支持。

如何获取最新版本和参与贡献

下载

SeaTunnel 2.3.8 版本预计将于 10 月初发布,届时可关注 SeaTunnel 官网下载页面 获取最新版本的SeaTunnel。

参与贡献

  • 邮件列表 通过发送邮件到 dev-subscribe@seatunnel.apache.org 订阅SeaTunnel开发邮件列表,参与社区讨论和发版投票。

  • GitHub 访问 Apache SeaTunnel GitHub 仓库 追踪社区最新动态,提交bug报告和功能请求。

结语

SeaTunnel 2.3.8 版本的发布将带来一系列新功能和改进,使得数据集成更加高效和灵活。感谢所有贡献者的努力,让 SeaTunnel 成为一个更加强大的数据集成工具。

更多信息请访问 SeaTunnel 官网。

本文由 白鲸开源科技 提供发布支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2169885.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【生物服务器】DAP-seq与H3K4me3 ChIP-seq服务,推动表观遗传学研究的创新工具

查看全文>>>探索基因调控新维度:汇智生物的DAP-seq与H3K4me3 ChIP-seq服务,推动表观遗传学研究的创新工具与合作案例 北京汇智精研生物科技由毕业于中国科学院、北京大学肿瘤医院、中国农科院、中国农业大学等科研院所的国家高精尖人才发起&…

计算机网络--HTTP协议

1.TCP,UDP的对比图 TCP:面向连接的,可靠的,字节流服务; UDP:无连接的,不可靠的,数据报服务; 2.补充网络部分的其他知识点 1).复位报文段 在某些特殊条件下, TCP 连接的一端会向另一端发送携带 RST 标志的报文段,即复位报文段,已通知对方…

【通知】“长三角档案数字资源长期保存与数据安全治理”专题培训

关注我们 - 数字罗塞塔计划 - 为加强长三角地区档案数字资源长期安全管理,提升档案管理人员档案信息化水平和实务技能,推动长三角地区档案数字化转型向纵深发展,上海市档案服务和教育中心将于近期举办“长三角档案数字资源长期保存与数据安全…

【裸机装机系列】16.kali(ubuntu)-安装linux和win双系统-重装win11步骤

推荐阅读: 1.kali(ubuntu)-为什么弃用ubuntu,而选择基于debian的kali操作系统 注意: 要先装windows,再装linux,不然linux的启动分区会被覆盖掉。为什么双系统要先装windows呢? 在一个新硬盘上&#xff0…

旺店通ERP集成金蝶K3(金蝶K3主供应链)

源系统成集云目标系统 金蝶K3介绍 金蝶K3是一款ERP软件,它集成了供应链管理、财务管理、人力资源管理、客户关系管理、办公自动化、商业分析、移动商务、集成接口及行业插件等业务管理组件。以成本管理为目标,计划与流程控制为主线,通…

原生APP与其他类型APP的对比

移动应用主要分为原生APP、混合APP和Web APP三种。每种类型都有其独特的优势和局限性。 原生APP 优点:性能卓越: 直接调用设备硬件,运行流畅,用户体验最佳。用户界面定制化程度高: 可以充分利用平台的UI组件&#xff…

SD卡认识——SDIO协议入门与实践(一)

最初是三年前,接手开发sdio裸机驱动和测试用例的工作,内容很多,一开始就是各种在官网、各大论坛以及开源的驱动和例程里学习,简单浏览了sdio控制器、SD卡、MMC、SDIO卡等协议,然后就是开干;鉴于sdio协议还是…

Java GC:GC算法、GC回收器、GC日志

文章目录 基本概念垃圾回收类型垃圾回收算法垃圾回收器 VM参数设置控制vm参数内存参数GC参数 GC实例分析 基本概念 垃圾回收类型 Minor GC:对新生代进行的垃圾回收,所以也叫Young GCMajor GC:对老年代进行的垃圾回收,所以也叫Old GCFull GC:对整个Java…

无人机的作战指挥中心-地面站!

无人机与地面站的关系 指挥与控制:地面站是无人机系统的核心控制部分,负责对无人机进行远程指挥和控制。无人机根据地面站下达的任务自主完成飞行任务,并实时向地面站反馈飞行状态和任务执行情况。 任务规划与执行:地面站具备任…

Laravel部署后,CPU 使用率过高

我在部署 Laravel 应用程序时遇到严重问题。当访问量稍微大一点的时候,cpu马上就到100%了, 找了一大堆文档和说明,都是说明laravel处理并发的能力太弱,还不如原生的php。最后找到swoole解决问题。 1、php下载swoole插件&#xff0…

智能监控,守护绿色能源:EasyCVR在电站视频监控中心的一站式解决方案

随着科技的飞速发展,视频监控技术在社会安全、企业管理及智慧城市建设等领域中扮演着越来越重要的角色。特别是在电力行业中,电站作为能源供应的关键设施,其安全性和稳定性至关重要。传统的人工监控方式已难以满足现代电站复杂多变的运行需求…

Sql Server时间转换之查询时间格式不对--CONVERT(NVARCHAR,CreateTime,23) 转换出来有时分秒

错误:CONVERT(NVARCHAR,CreateTime,23) 转换出来有时分秒 SELECT TOP 10 CONVERT(NVARCHAR,CreateTime,23) FROM table A 解决办法:限制转换的字符串长度 SELECT TOP 10 CONVERT(NVARCHAR(10),CreateTime,23) FROM table A

Android 通过自定义注解实现Activity间跳转时登录路由的自动拦截

应用场景 在Android 中部分软件需要登录才能使用,但是有的页面又不需要登录,Android不同于Web可以直接拦截重定向路由,因此如果在Android中如果需要检测是否登录,如果没登录跳转登录的话就需要再每个页面中判断,当然也…

不会写SD WebUI 的负面提示词?用这几款Embedding模型一键搞定!效果好到爆炸!

文章目录 一、Embedding 模型简介二、负面提示词 Embedding三、Embedding 资源下载四、Embedding 安装与使用关于AI绘画技术储备零基础AI绘画学习资源介绍👉stable diffusion新手0基础入门PDF👈👉AI绘画必备工具👈👉AI…

MySQL重点,面试题

一、 聚合函数 分类 COUNT:统计行数量SUM:获取单个列的合计值AVG:计算某个列的平均值MAX:计算列的最大值MIN:计算列的最小值 二、SQL关键字 分页:limit SELECT * FROM student limit 100,6; 倒序 desc s…

数据结构 ——— 移除 nums 数组中的 val 元素(快慢指针)

目录 题目要求 代码实现(快慢指针) 题目要求 编写函数,给你一个数组 nums 和一个值 val,你需要在 nums 数组 原地 移除所有数值等于 val 的元素,并且返回移除后数组的新长度 不能使用额外的数组空间,要…

11.全面学习面向对象技术

面向对象开发 相关概念 对象:由数据及其操作所构成的封装体,是系统中用来描述客观事务的一个实体,是构成系统的一个基本单位。一个对象通常可以由对象名、属性和方法3个部分组成。类:现实世界中实体的形式化描述,类…

MySQL_插入、更新和删除数据

课 程 推 荐我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈虚 拟 环 境 搭 建 :&#x1…

如何禁止电脑蓝牙?五个有效方法教给你!小白必看!

在生活和工作中,蓝牙是一种非常方便的无线技术,可以连接鼠标、键盘、耳机等设备。 然而,蓝牙同时也是信息泄露的潜在渠道,特别是在公共场所或公司内部环境中,可能会带来安全隐患。 想要保护隐私或防止电脑与未经授权…

基于YOLOv8目标检测与chef-transformer(T5)从图像创建食谱

前言 在本文中,将演示如何使用从Roboflow获得的开源产品数据来训练我的YOLOv8模型,然后将其与从Hugging Face获得的chef-transformer(T5)模型集成。应用程序的主要目标是将检测到的对象参数化地发送到语言模型,并在NL…