Apache SeaTunnel 2.3.7发布:全新支持大型语言模型数据转换

news2024/12/29 10:55:30

file

我们欣喜地宣布,Apache SeaTunnel 2.3.7 版本现已正式发布!作为一个广受欢迎的下一代开源数据集成工具,Apache SeaTunnel 一直致力于为用户提供更加灵活、高效的数据同步和集成能力。此次版本更新不仅引入了如 LLM(大型语言模型)数据转换支持、增强的 SQL 支持和新连接器支持等多个新特性,还对现有功能进行了优化和改进,并修复了多个发现的问题。本文将详细介绍 Apache SeaTunnel 2.3.7 版本中的关键更新内容,并邀请更多的开发者和用户参与到我们的开源社区中来。

  • 2.3.7版本下载:https://seatunnel.apache.org/download/
  • Release Note:https://github.com/apache/seatunnel/releases/tag/2.3.7

新增功能亮点

  1. LLM 数据转换支持:2.3.7 新版本中增加了对 LLM(大语言模型)数据转换的支持。这一特性将显著提升 Apache SeaTunnel 在处理复杂文本数据和自然语言处理任务中的应用能力,为前沿数据处理领域的用户提供了更大的便利。 值得一提的是,我们在 2.3.6 版本添加了向量类型支持向量数据库写入,可加速人工智能应用程序的开发,并简化由 AI 驱动的应用程序工作负载的运作,已成为大模型时代的得力助手。为更好地支持 AI 开发,Apache SeaTunnel 2.3.6 版本添加了对向量数据库 Milvus的支持。这是 Apache SeaTunnel 支持的首个向量数据库,后续将扩展对其他向量数据库的支持,具体可参考《2.3.6版本发布!Apache SeaTunnel Zeta引擎迎来新架构!》。

  2. 增强的 SQL 支持:此次版本为 SQL 增加了 CAST TO BYTES 功能,使数据类型转换更加灵活,用户在处理不同数据格式时,将拥有更多的选择,提升了数据处理的灵活性和可操作性。

  3. 阿里云 SLS 连接器支持: 此次更新新增了阿里云 SLS(阿里云日志服务)连接器。通过此功能,用户可以将数据直接导入到阿里云日志服务中,利用其强大的日志管理和分析能力。这一特性特别适用于需要实时日志监控和分析的用户场景。

  4. ActiveMQ Sink 连接器支持:支持 ActiveMQ 作为 Sink,进一步扩展了 SeaTunnel 的消息队列集成能力。ActiveMQ 是一个高性能的消息代理系统,此次新增的支持使得 Apache SeaTunnel 用户能够更方便地与 ActiveMQ 进行数据交换,尤其适合于数据流处理和实时数据分析的场景。

改进和优化

在功能优化方面,Apache SeaTunnel 2.3.7 同样带来了诸多改进,旨在提升系统的性能和稳定性。

  • Flink API 方法命名优化:改进了 Flink API 的方法命名规范,使得代码更加易读、易理解。这项优化不仅提升了开发体验,也减少了开发人员在使用 Flink 时可能遇到的困惑。

  • 增强的 API 合法性检查:新版增加了对 API 输入参数的合法性检查,确保了用户输入的配置和参数符合预期要求。这一改进减少了因配置错误导致的运行时异常,提升了系统的整体稳定性。

  • 多表 Sink 配置优化:对于需要处理多表输出的场景,2.3.7 进一步优化了 Sink 选项配置,使得用户在配置多表输出时更加便捷和高效。

  • OceanBase 支持优化:修复了 OceanBase 相关的兼容性问题,提升了 Apache SeaTunnel 在处理 OceanBase 数据库时的性能和稳定性。

    关键问题修复

    本次版本更新修复了多个关键问题,显著提升了系统的稳定性和用户体验。

  • MySQL-CDC 连接器修复:修复了在特定情况下,MySQL-CDC 连接器无法正常同步数据的问题。这个修复确保了使用 MySQL 数据源的用户能够更加可靠地进行数据同步操作。

  • Doris 连接器修复:解决了 Doris 连接器的一些关键性问题,增强了 Apache SeaTunnel 与 Doris 数据库的兼容性和性能,为使用 Doris 作为数据存储的用户提供了更好的支持。

  • Zeta 引擎任务停止问题修复:此次更新解决了 Zeta 引擎在某些情况下无法正常停止任务的 bug。这一改进防止了资源泄漏问题的发生,提高了系统的整体稳定性。

文档和社区贡献

我们深知,优秀的文档是用户成功使用 Apache SeaTunnel 的关键。在 2.3.7 版本中,我们对多个模块的文档进行了更新和修正,确保用户能够获得最准确和易懂的使用指南。

  • 文档更新和修正:此次版本更新对多个文档进行了修正,特别是 Oracle-CDC 等模块的使用文档。我们不仅修复了之前版本中存在的错误描述,还增加了更多的使用案例和操作指南,帮助用户更好地理解和使用 SeaTunnel。

  • 感谢社区贡献者:此次版本更新离不开社区的支持和贡献。我们特别感谢所有为 SeaTunnel 2.3.7 版本提交代码、报告问题和提出建议的贡献者。正是因为你们的无私奉献,Apache SeaTunnel 才能不断进步和成长。

本次具体更新如下:

新功能

Transforms-V2

  • [Feature] 拆分变换并将 JAR 移动到 connectors 目录 (#7218)
  • [Feature][LLM] 添加 LLM 变换 (#7303)
  • [Feature][SQL] 支持 SQL 的 cast to bytes 函数 (#7284)

Connector-V2

  • [Feature][Aliyun SLS] 添加阿里云 SLS 连接器 (#3733) (#7348)
  • [Feature][Activemq] 添加 ActiveMQ 连接器 (#7251)

功能改进

Core

  • [Improve][Flink] 优化方法名称 (#7372)
  • [Improve][API] 在发送到下游之前检查 catalog 表字段名的合法性 (#7358)
  • [Improve][Flink] 重构 Flink 代理源/汇 (#7355)
  • [Improve][API] 确保 TablePath 中的表名不为 null (#7252)
  • [Improve][Core] 基于插件名称改进查找策略 (#7278)

Connector-V2

  • [Improve][multi-table] 增加多表汇的选项检查 (#7360)
  • [Improve][Console] 更新 ConsoleSinkFactory.java (#7350)
  • [Improve][Jdbc] 自动创建表时跳过所有索引以提高写入性能 (#7288)
  • [Improve][Doris] 改进 Doris 错误信息 (#7343)
  • [Improve][Jdbc] 删除 JdbcDialect 中的 MysqlType 引用 (#7333)
  • [Improve][Jdbc] 创建表时合并用户配置的主键 (#7313)
  • [Improve][Jdbc] 优化检查数据库和表是否存在的方式 (#7261)

Transforms-V2

  • [Improve][DynamicCompile] 改进 DynamicCompile 变换 (#7319)
  • [Improve][SQL] 从输出字段中移除转义标识符 (#7297)
  • [Improve][DynamicCompile] 改进 DynamicCompile 变换 (#7264)

E2E

  • [Improve][Improve] 启用 Spark/Flink 的 fakesource E2E 测试 (#7325)
  • [Improve][Improve] 启用 JdbcPostgresIdentifierIT (#7326)
  • [Improve][Improve] 支持 Windows 上的 Paimon E2E 测试 (#7329)

Bug 修复

Connector-V2

  • [Hotfix][MySQL-CDC] 修复 MySQL binlog 读取时的 ArrayIndexOutOfBoundsException 异常 (#7381)
  • [Fix][Doris] 修复 Doris 主键顺序与字段顺序不一致的问题 (#7377)
  • [Bugfix][Doris] 修复 JSON 序列化时,空值导致的数据错误问题 (#7379)
  • [Hotfix][Jdbc] 修复 JDBC 编译错误 (#7359)
  • [Fix][OceanBase] 移除 OceanBase catalog 对 MySQL 驱动的依赖 (#7311)
  • [Fix][Tdengine] 修复连接 Taos 读取数据时的 SQL 异常和 ConcurrentModifyException 异常 (#6088)
  • [Hotfix][Kafka] 修复 Kafka 消费者日志的下次启动偏移量问题 (#7312)
  • [Fix][Doris] 修复 CDC 场景下删除数据的异常问题 (#7315)
  • [Hotfix][Hbase] 修复和优化 HBase 源问题 (#7148)
  • [Fix][Iceberg] 修复无法为标识符 'Iceberg' 创建源的问题 (#7182) (#7279)

Zeta(ST-Engine)

  • [Fix][Zeta] 修复由于锁定指标失败导致任务无法结束的问题 (#7357)
  • [Hotfix][Zeta] 修复系统繁忙时任务无法停止的问题 (#7292)
  • [Hotfix][Zeta] 修复系统繁忙时任务无法停止的问题 (#7280)

E2E

  • [Fix][Http] 修复 HTTP E2E 测试用例 (#7356)

文档

  • [Docs] 在 setup.md 中更改弃用的连接器名称 (#7366)
  • [Docs] 修复 SFTP 汇文档中的用户名参数错误 (#7334)
  • [Docs] 修复选择 OSS 作为检查点时的配置问题 (#7332)
  • [Docs] 修复 sidebars 中缺失的 sink-options-placeholders.md (#7310)
  • [Docs] 更新 Oracle-CDC.md (#7285)
  • [Docs] 修复混合集群部署文档显示错误 (#7306)
  • [Docs] 将事件监听器文档翻译成中文 (#7274)

其他

  • 更新 org.apache.activemq:activemq-client (#7323)
  • [Improve] 移除未使用的代码 (#7324)
  • [Improve] 更新快照版本至 2.3.7 (#7305)

贡献者名单

特别感谢 wuchunfu 的主持发版工作,感谢下列社区成员对本次发版工作的贡献:

Carl-Zhou-CN Hisoka-X Jarvis OswinWu TyrantLucifer XenosK alextinng asapekia chaos-cn corgy-w dailai dependabot[bot] gdliu3 hailin0 hawk9821 jackyyyyyssss liugddx luzongzhu q3356564 virvle whhe wuchunfu xxsc0529 zhangshenghang

总结

Apache SeaTunnel 2.3.7 的发布,是我们持续提升产品性能和用户体验的重要一步。通过新增功能、优化现有功能以及修复已知问题,我们希望为用户提供更好的数据集成和处理体验。同时,我们也期待有更多的用户和开发者加入到 SeaTunnel 社区中来,共同推动这个开源项目的发展。

欢迎下载 SeaTunnel 2.3.7 版本,体验最新功能和改进。如果您在使用过程中有任何问题或建议,欢迎随时与我们联系。让我们一起,共同构建一个更加开放、强大、灵活的数据集成工具!

  • 如何参与贡献:您可以通过提交代码、报告问题、撰写文档等多种方式参与到 SeaTunnel 的开源社区中来。我们的 GitHub 页面上有详细的贡献指南,帮助您快速入门。

  • 加入我们的讨论:我们非常重视社区的声音,并鼓励大家在 GitHub Issue 页面、邮件列表和其他讨论渠道中分享您的想法和建议。您的每一个建议,都是我们改进和提升 Apache SeaTunnel 的宝贵财富。

本文由 白鲸开源科技 提供发布支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2098308.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python-pptx - Python 操作 PPT 幻灯片

文章目录 一、关于 python-pptx设计哲学功能支持 二、安装三、入门1、你好世界!例子2、Bullet 幻灯片示例3、add_textbox()示例4、add_picture()示例5、add_shape()示例6、add_table()示例7、从演示文稿中的幻灯片中提取所有文本 四、使用演示文稿1、打开演示文稿2、…

心觉:潜意识精准显化(二)赚不到钱的困境根源是什么

上一篇文章我讲到了关于潜意识精准显化系列文章,我会以财富的精准显化为例讲解 财富广义的讲有很多,智慧,能力,人生阅历,苦难,高质量的人际关系,金钱等等都算财富 这么多财富类型,…

Pinia 使用(一分钟了解)

Pinia 使用(一分钟了解) Pinia 官网地址:Pinia 官方文档 文章目录 Pinia 使用(一分钟了解)一、Pinia是什么二、Vue中如何使用Pinia1. 安装Pinia2. 创建Pinia实例3. 定义一个Store4. 在组件中使用Store5. 模块化和插件 …

C++红黑树的底层原理及其实现原理和实现

小编在学习完红黑树之后,发现红黑树的实现相对于AVL树来说会简单一点,并且大家在学了C中的set和map容器之后,会明白set和map的容器的底层就是运用的红黑树,因为相对于AVL树,红黑树的旋转次数会大大减少,并且…

MySQL笔记(大斌)

乐观锁和悲观锁是什么? 数据库中的并发控制是确保在多个事务同时存取数据库中同一数据时不破坏事务的隔离性和统一性以及数据库的统一性。乐观锁和悲观锁是并发控制主要采用的技术手段。 悲观锁:假定会发生并发冲突,会对操作的数据进行加锁&a…

好的渲染农场应该具备哪些功能?

对于3D艺术家和工作室来说,渲染往往是制作过程中最耗时的部分。这一关键阶段需要强大的计算资源和高效的工作流程,以确保生产时间表得以满足。一个好的渲染农场对于提高生产力和确保项目在不牺牲质量的情况下按时完成至关重要。随着对详细3D视觉效果的需…

UEFI——PCD的简单使用

一、PCD的定义及概念 在UEFI固件接口中,PCD(Platform Configuration Database)是一个用于存储和访问平台特定配置信息的机制。PCD允许UEFI驱动程序和应用程序在运行时获取和设置平台相关的参数,而无需硬编码这些值。PCD变量可以被…

计算机毕业设计推荐-基于Java的网上电子图书管理系统【Java-python-大数据定制】

💖🔥作者主页:毕设木哥 精彩专栏推荐订阅:在 下方专栏👇🏻👇🏻👇🏻👇🏻 实战项目 文章目录 实战项目 一、基于Java的网上电子图书管理…

魏牌蓝山智驾版,长城的智能化「大反攻」

‍作者 |老缅 编辑 |德新 8月下旬,魏牌全新蓝山上市,定位「长城首款NOA智能六座旗舰SUV」。 新车分智驾Max和智驾Ultra两个版本,售价分别为29.98万元和32.68万元。 魏建军为蓝山的上市,时隔6年再度回到了发布会的舞台&#xff…

时序预测基础模型又中顶会!真心建议各位往这个方向发论文

时序领域又有新突破啦!谷歌最新提出TimesFM,仅需200M参数,零样本预测性能超越有监督!成功入选ICML 2024! TimesFM是一种全新的时间序列通用基础模型,这类模型相比传统时序模型,拥有整合和利用广…

HDLC 和 PPP 原理与配置

HDLC简介 HDLC协议是一种通用的协议,工作在OSI参考模型的数据链路层。数据报文加上头开销和尾开销后封装成HDLC帧。 HDLC具有以下特点: •HDLC协议只支持点到点链路,不支持点到多点。 •HDLC协议不支持IP地址协商,不支持认证。 •…

【数据结构-二维前缀和】【列维护优化】力扣3212. 统计 X 和 Y 频数相等的子矩阵数量

给你一个二维字符矩阵 grid,其中 grid[i][j] 可能是 ‘X’、‘Y’ 或 ‘.’,返回满足以下条件的 子矩阵 数量: 包含 grid[0][0] ‘X’ 和 ‘Y’ 的频数相等。 至少包含一个 ‘X’。 示例 1: 输入: grid [[“X”,“…

用相图分析 bbr,inflight 守恒的收敛速度

以下的代码绘制了 bbr 的收敛相图: #!/opt/homebrew/bin/python3import numpy as np import matplotlib.pyplot as plt from scipy.integrate import odeintdef model(vars, t, C, g):x, y varsdxdt C * (g * x) / (g * x y) - xdydt C * (g * y) / (g * y x)…

读懂以太坊源码(1)-目录结构说明

要了解一个软件工程项目的代码,必须从代码的目录结构入手,从而大致了解软件实现的功能模块,使用了哪些相关的技术,大概的框架是怎么样的? 源码网址:https://github.com/ethereum/go-ethereum 以下是以太坊…

如何提升网站在Google的排名?

事实上,常规提升排名的方法无非就那么几种,关键词优化,高质量内容,网站结构优化,外链,确保网站没问题,这些都是常规的提升排名的方法,只能说没什么特别的,而除了这些常规…

流量焦虑?随身WiFi来救场!2024好的随身WiFi怎么挑,看这一篇文章就够了!包教会你识别随身WiFi哪个好!

相信大家买随身WiFi肯定是想要网速快,并且多用几年,那么在全网铺天盖地的广告、水军、好评的情况下,随身WiFi的品质好坏,我们该如何辨别呢? 主要看三个指标就能轻松分别,记得先收藏再观看!一篇…

HIS系统|HIS系统开发源码

在数字医疗时代,医院信息系统(HIS)的开发至关重要。本文将深入探讨在开发HIS系统时需要关注的主要事项,从系统架构到数据安全,为医疗机构提供实用的开发指南。 1、需求分析与系统规划 在开发HIS系统的初期&#xff0c…

rknntoolkitlite2环境搭建

目录 前言 0、要下载的软件包 一、环境搭建步骤 1.1 安装Miniconda 1.2创建RKNN虚拟环境 1.3 安装rknntoolkitlite2软件包 1.4 安装opencv 前言 RKNN Toolkit Lite2 工具支持运行在 RK3568: Debian10/Debian11(aarch64)、Ubuntu20/22(…

【微信小程序】自定义 tabBar

一、自定义 tabBar 1、案例效果 首先来看一下页面演示效果,页面中有下方标签栏是自定义 tabBar。自定义 tabBar 可以让开发者更加灵活地设置 tabBar 样式,以满足更多个性化的场景。 在此案例中,用到的主要知识点如下: 自定义组…

Spring 事务传播和自调用行为

为了方便讲解,这里的A、B、C类都是Spring管理的Bean。 自调用行为 自调用行为示例 import org.springframework.beans.factory.annotation.Autowired; import org.springframework.context.ApplicationContext; import org.springframework.stereotype.Component…