WhaleStudio 2.6正式发布,WhaleTunnel同步性能与连接器数量再创新高!

news2024/7/6 2:58:51

file

在这个数据驱动的大模型时代,数据集成的作用和意义愈发重要。数据不仅仅是信息的载体,更是推动企业决策和创新的关键因素。作为全球最流行的批流一体数据集成工具,WhaleTunnel随着WhaleStudio 2.6版本正式发布,带来了多项功能增强和新特性,性能大幅提升,连接器和功能方面也有大量更新。

上周,关于数据调度平台WhaleScheduler的更新状况在《WhaleStudio 2.6重磅发布!调度模块WhaleScheduler更新78项核心功能》中已有介绍,点击链接了解详情。

WhaleTunnel

WhaleTunnel是基于白鲸开源主导的Apache SeaTunnel之上精心打磨的商业级的数据集成工具,拥有数据传输速度快、准确率高、稳定性强等技术特点,帮助企业完成内部EtLT中数据集成EtL部分,支持百余种连接器类型,满足用户离线全量同步、离线增量同步、实时增量同步、变化数据捕捉(即CDC)、数据库同步备份等需求。快速产品以代码形式面向数据开发工程师以及任何需要数据集成服务的用户,同时也提供可视化拖拽界面给数据科学家、数据分析师、产品经理等业务用户,支持全流程可视化的任务定义、调用、监控和管理。

数据源更新(部分)

2.6版本新增了多种数据源,数据源支持数量已经达到了188个,部分增加的数据源如下:

file

信创ARM CPU优化

在WhaleTunnel 2.6版本当中,Zeta Engine针对以ARM内核的CPU进行了引擎层面的深度优化,性能提升数倍(相关性能POC报告后续发布)。

  1. 内存映射文件和零拷贝技术: 为了最大限度地减少I/O开销,Zeta Engine采用了内存映射(mmap)技术和零拷贝(zero-copy)技术,直接在内存中操作文件数据。这样不仅加快了数据处理速度,还降低了系统资源的消耗。
  2. 内存对齐:Zeta Engine确保数据结构在内存中的对齐性,有效减少了内存访问的开销。内存对齐优化不仅提高了内存访问的效率,还提升了数据处理的整体性能。
  3. 高效算法: Zeta Engine使用了适合ARM架构的高效算法,减少不必要的计算和数据移动。通过高效的排序和过滤算法,显著提升数据转换和处理的效率。Zeta Engine算法优化确保了在数据密集型任务中,系统能够保持卓越的性能。
  4. 多核架构利用: Zeta Engine充分利用ARM CPU的多核架构,将ETL任务分解为更小的任务,进行多线程或多进程并行执行。通过并行化处理,显著缩短了数据处理的时间,提升了系统的吞吐量。

数据模型及自动建表能力加强

  1. 自动建表、已有数据处理: 除了文件类型的数据源外,所有数据源现支持自动建表。无论是已有表结构还是已有数据处理,WhaleTunnel都能轻松应对。同时,目标端支持自定义表名策略。无需手动处理复杂的表结构,极大地减少了数据集成的时间和人工成本。

file

  1. 数据模型推演: 在任务保存时自动触发,自动检查source、transform、sink中的配置是否合法;在任务重同步表发生表结构变化时,检查其变化可能导致的配置项非法问题。确保数据流的稳定性和一致性,减少因配置错误导致的数据同步失败。在运行数据集成任务之前,就可以自动识别潜在的问题并提前修复。 图片

  2. 数据类型自动映射: 数据源到目标端的数据类型自动映射。自动适配不同的数据类型,减少手动调整的麻烦。从不同数据库迁移数据时,无需担心类型不匹配的问题。

file

与WhaleScheduler全面集成

  1. 增量同步和参数传递: WhaleTunnel与WhaleScheduler紧密集成,根据调度中的日历、业务日期(牌)以及上下游参数进行增量同步或者参数传递来进行数据内容控制,进一步提高数据同步的灵活性和准确性。例如,在券商监管报表生成时,能够自动获取符合上报规则交易日期的数据,确保数据的准确性。

file

  1. 独立同步调度任务组件: WhaleTunnel拥有独立的CDC实时调度组件和批量调度组件,可以在WhaleScheduler成为独立任务组件被上下游进行触发等工作,实现更灵活的任务调度和管理。在数据集成之后,进行相关数据加工,或者自定义微批任务,实现微批任务的串行等待等。

file

  1. 增量数据参数传递: 离线全量Source支持根据自定义where条件读取,可以使用调度传递的参数变量实现增量数据参数传递,精准控制数据同步范围,实现增量/批量/微批的多场景控制,提升整体数据批量和CDC实时处理能力。

加强可观测性与监控告警

  1. 离线同步新增支持失败、超时告警, 提前预警潜在问题,减少数据同步失败带来的影响。举例来说,在夜间批处理任务中,能够及时发现并处理异常,确保数据同步的顺利进行。 file

  2. 实时同步新增失败告警、实时同步新增DDL变更事件告警:实时监控数据同步状态,快速响应和处理异常情况。例如,电商平台可以及时发现和修正订单数据同步中的问题,确保业务的连续性,可以让用户快速收到DDL变更情况,从而更早的手工干预。

file

通过虚拟表支持非结构化数据可视化转化

  1. 文件数据源: 新增支持 CSV文件类型以压缩格式读写,支持读取时跳过表头和写入时写入表头设置,支持新的文件格式:DBF, Debezium-Json, 更灵活地处理不同格式的文件数据,提高数据导入导出的效率。

  2. No-SQL数据源支持: 创建虚拟表时支持配置主键,且sink自动建表时使用该主键建表,提高数据一致性和查询效率。例如,在处理NoSQL数据时,可以更好地管理和索引数据。

file 3. 虚拟表支持设置索引

file 4. HTTP数据源虚拟表优化: 优化数据源和虚拟表配置,token、路径、请求参数等支持填写参数变量,更灵活地集成和管理HTTP数据源,提高数据获取的灵活性和效率。

CDC同步增强功能

  1. 唯一索引表同步: CDC同步源表现支持拥有唯一索引的表同步,确保数据的唯一性和完整性。例如,在用户信息同步时,可以确保用户ID的唯一性,避免数据重复和冲突。

  2. 无主键表同步: CDC同步源表支持无主键表的同步,提供更广泛的数据同步支持,适应更多样化的数据库设计。例如,在某些历史数据表中,可能没有主键的设计,但仍然可以实现高效的数据同步。

小结

WhaleTunnel 2.6版本功能非常强大,涵盖了从数据模型设计、自动化建表,到高效的数据同步和监控告警,以及多样化的数据源支持。无论您的数据集成需求是简单的数据传输还是复杂的实时分析,WhaleTunnel都能为您提供定制化的解决方案,帮助您实现数据驱动的业务成功。

我们期待与您一同迎接数据集成的新时代!如果您对WhaleTunnel 2.6版本有任何疑问或想了解更多信息,请随时联系我们的客户服务团队。感谢您对WhaleTunnel的信任和支持!

白鲸开源

白鲸开源是一家开源原生的DataOps商业公司,是国家高新技术企业,由多个Apache Foundation Member成立,80%员工都是 Apache Committer,运营2个全球Apache开源项目(DolphinScheduler, SeaTunnel)。白鲸开源已根据全球最佳实践发布商业版产品WhaleStudio(含白鲸数据调度平台WhaleScheduler和白鲸数据集成平台WhaleTunnel)。我们致力于打造下一代开源原生的DataOps 平台,助力企业在大数据和云时代,智能化地完成多数据源、多云及信创环境的数据集成、调度开发和治理,以提高企业解决数据问题的效率,提升企业分析洞察能力和决策能力。

联系方式

  • 公司网站: www.whaleops.com
  • 联系邮箱: service@whaleops.com

如果您希望深入了解我们的其他功能,或者讨论如何将 WhaleStudio 与你的业务流程相结合,我们非常愿意为你提供帮助。欢迎您首先试用白鲸调度系统(WhaleScheduler),开始您的大数据之旅。

本文由 白鲸开源科技 提供发布支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1883934.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

App测试技术(纯理论)

之前我们也学习过一些普通用例的设计, 如功能, 性能, 安全性, 兼容性, 易用性, 界面的测试用例设计, 之前我们讲的基本都是对于Web应用而言的, 这里我们来讲一下移动端的App测试用例设计. 功能方面 安装&卸载测试 这是只属于App的一类测试, 再平常我们使用移动设备(手机…

扩展学习|风险评估和风险管理:回顾其基础上的最新进展

文献来源:[1]Aven, T. (2016). Risk assessment and risk management: Review of recent advances on their foundation. European journal of operational research, 253(1), 1-13. 文章简介:大约30-40年前,风险评估和管理被确立为一个科学领…

Linux环境安装配置nginx服务流程

Linux环境的Centos、麒麟、统信操作系统安装配置nginx服务流程操作: 1、官网下载 下载地址 或者通过命令下载 wget http://nginx.org/download/nginx-1.20.2.tar.gz 2、上传到指定的服务器并解压 tar -zxvf nginx-1.20.1.tar.gzcd nginx-1.20.1 3、编译并安装到…

CCT技术

概念介绍 多个功能核心的集成可以通过片上系统(SOC)或封装中系统(SIP)设备的开发来实现。SOC器件将核心集成到单个集成电路中。SIP集成是将多个集成电路组合到单个封装中。核心数量 的增加可能导致必要的测试人员资源和/或测试时间的增加。这直接影响了与测试这些设备相关的…

【TB作品】打地鼠游戏,ATMEGA16单片机,Proteus仿真 打地鼠游戏

11个按键LCD1602显示器9个灯蜂鸣器打地鼠小游戏就是九个灯泡,对应九个按键,灯泡有红黄蓝,每间隔一会儿就会亮一个灯,代表地鼠冒出来,按一下按键让灯泡灭掉代表打地鼠,红的三分,黄的两分&#xf…

Java案例抢红包

目录 一:题目要求: 二:思路分析:(遇见问题先想出完整的思路逻辑再去动手事半功倍) 三:具体代码: 一:题目要求: 二:思路分析:&#x…

[无广告!纯干货]免费用CodeFlying自动化生成一个专属的AI机器人

前言: 真心话,花3分钟看文章,再花5分钟体验,你会回来给我点赞的。 随着AIGC(人工智能生成内容)行业的迅猛发展,人工智能正在以前所未有的速度和方式改变我们的生活。 它不仅在娱乐、教育、医疗…

Nomad Web 1.0.12还能这样

大家好,才是真的好。 前几天讲代码和开发,忽略了大家的真实感受,那就是不爱开。我也记起来我们很久没有讲Notes/Domino产品的更新,因为除了补丁程序外,确实没多少更新。 不过就在前两天,有一项产品得到了…

惠海100V 15A HC070N10L TO-252封装 N沟道MOS管 打火机/BMS电源板应用

MOS管的工作原理是基于在P型半导体与N型半导体之间形成的PN结,通过改变栅极电压来调整沟道内载流子的数量,从而改变沟道电阻和源极与漏极之间的电流大小。由于MOS管具有输入电阻高、噪声小、功耗低等优点,它们在大规模和超大规模集成电路中得…

【技术追踪】SegGuidedDiff:基于分割引导扩散模型实现解剖学可控的医学图像生成(MICCAI-2024)

它来了它来了,它带着 mask 做生成了~ SegGuidedDiff:提出一种用于解剖学可控医学图像生成的扩散模型,在每个采样步骤都遵循多类解剖分割掩码并结合了随机掩码消融训练算法,可助力乳房 MRI 和 腹部/颈部到骨盆 CT 等任务涨点。 论文…

基于pycharm对每个工程配置python环境

目录 1 生成环境2 配置pycharm 1 生成环境 设定一个存放虚拟环境的目录,比如可以放在如下目录下: /Users/Name/PycharmProjects/env 然后生成虚拟环境,执行如下操作: python3 -m venv /Users/Name/PycharmProjects/env/agent_pr…

AI基本概念(人工智能、机器学习、深度学习)

人工智能 、 机器学习、 深度学习的概念和关系 人工智能 (Artificial Intelligence)AI- 机器展现出人类智慧机器学习 (Machine Learning) ML, 达到人工智能的方法深度学习 (Deep Learning)DL,执行机器学习的技术 从范围…

视频转音频:怎样提取视频中的音频?6个提取音频的小技巧(建议收藏)

怎样提取视频中的音频?当我们想从视频中提取出声音时,通常会遇到很多问题。无论是想单独提取出视频里的音频,还是把它转成方便储存或者分享的音频格式,这都会涉及到视频转音频的一个需求。因此,在这篇指南里&#xff0…

网络变压器和RJ45接线的方法

网络变压器在以太网硬件电路设计中扮演着重要的角色,它主要用于信号电平耦合、隔离外部干扰、实现阻抗匹配以及增加传输距离。而RJ45接口则是以太网连接的标准化接口,它提供了与网络电缆的连接点。 网络变压器与RJ45的接线方法通常遵循以下步骤&#xf…

Android- Framework 非Root权限实现修改hosts

一、背景 修改system/etc/hosts,需要具备root权限,而且remount后,才能修改,本文介绍非root状态下修改system/etc/hosts方案。 环境:高通 Android 13 二、方案 非root,system/etc/hosts只有只读权限&…

Linux源码阅读笔记08-进程调度API系统调用案例分析

kthread_create_on_node kthread_create_on_node函数功能&#xff1a;指定存储节点创建新内核线程。源码如下&#xff1a; 操作实战 #include <linux/module.h> #include <linux/pid.h> #include <linux/sched.h> #include <linux/kthread.h> #inclu…

Docker 镜像导出和导入

docker 镜像导出 # 导出 docker 镜像到本地文件 docker save -o [输出文件名.tar] [镜像名称[:标签]] # 示例 docker save -o minio.tar minio/minio:latest-o 或 --output&#xff1a;指定导出文件的路径和名称[镜像名称[:标签]]&#xff1a;导出镜像名称以及可选的标签 dock…

一招解决 | IP地址访问怎么实现https

没有域名的情况下&#xff0c;使用IP地址实现HTTPS访问是可以的&#xff0c;但相比使用域名会有些许限制&#xff0c;需要通过部署专用于IP地址的SSL/TLS证书来实现。 IP地址实现HTTPS访问的过程与使用域名类似&#xff0c;但有几个关键的区别。以下是使用IP地址实现HTTPS访问…

CrimsonEDR:一款恶意软件模式识别与EDR策略评估工具

关于CrimsonEDR CrimsonEDR是一个功能强大的开源项目&#xff0c;该项目旨在帮助广大研究人员识别特定的恶意软件模式&#xff0c;以此来优化终端检测与响应&#xff08;EDR&#xff09;的策略方案。通过使用各种不同的检测方案&#xff0c;可以加深开发人员与研究人员加深对安…

Nginx 配置文件

Nginx的配置文件的组成部分&#xff1a; 主配置文件&#xff1a;nginx.conf子配置文件&#xff1a;include conf.d/*.conf 全局配置 nginx 有多种模块 核心模块&#xff1a;是 Nginx 服务器正常运行必不可少的模块&#xff0c;提供错误日志记录 、配置文件解析 、事件驱动机…