Tapdata 和 Databend 数仓数据同步实战

news2024/10/2 10:44:49
作者:韩山杰
https://github.com/hantmac
Databend Cloud 研发工程师

基础架构在云计算时代也发生着翻天地覆的变化,对于业务的支持变成了如何能利用好云资源实现降本增效,同时更好的支撑业务也成为新时代技术人员的挑战。 本篇文章通过:借助 Tapdata Cloud 实现从阿里云 RDS 到云原生数仓 Databend 的数据同步,给大家展示一下 Tapdata Cloud 和 Databend cloud 在数仓领域的实践。

Tapdata Cloud 是由 Tapdata 提供的集数据复制、数据开发为一体的实时数据服务,能够在跨云、跨地域、多类型数据源的场景下,提供毫秒级的实时数据同步服务和数据融合服务。

Databend 是基于 Rust 开发的一个开源、弹性、负载感知的现代云数仓,赋能企业降本增效。在之前的文章中介绍了如何快速部署 Databend。Databend Cloud 是基于 Databend 实现的云上大数据解决方案。

  1. 体验 Tapdata 到 Databend Cloud 数据迁移

部署架构如下

  • 数据源上部署 Tapdata Agent

  • Tapdata Agent 从 Tapdata Cloud 上获取任务执行

  • apdata Agent 获取的数据写入 Databend Cloud

具体操作如下:

1.1 部署 Tapdate Agent

Tapdata Agent 是数据同步、数据异构、数据开发场景中的关键程序。以上场景对数据的流转有着极高的实时性要求,因此,通过下载Tapdata Agent并将其部署在你的本地环境,基于低延迟的本地网络,Tapdata Agent能够发挥最佳性能以确保数据流转的实时性。

可以参考 Agent下载及安装 。

1.2 数据同步 (From MySQL to Databend )

这里假设用户已经创建阿里云 MySQL RDS并在 RDS 中存储了一定量的数据,准备把数据同步到 Databend。

1.2.1 创建 MySQL 连接

在 Tapdata Cloud 中创建 MySQL 连接,

填写相应的连接参数,连接测试通过后保存。

1.2.2 创建 Databend 连接

在 Beta 数据源中选择 Databend 连接并填写相关连接参数,测试通过后保存。

1.2.3 创建数据复制任务

将 MySQL RDS 数据源和 Databend 数据源拖到画布中连接起来,表示准备从 MySQL 同步数据到 Databend。同步模式选择为 `全量同步`(增量同步的模式正在开发中),启动任务。

开始从 MySQL 同步数据到 Databend,下面展示了同步过程中的信息和数据。

1.2.4 查看结果

首先看一下 MySQL 中的表:

同时我们也可以在 Databend 中查询出已经同步过来的表和数据:

1.3 小结

上面的例子是通过 Tapdata Cloud 跑通一个 MySQL 表以及数据同步到 Databend 。Tapdata非常强大,能够支持多种异构数据源之间的同步,大家可以到 Tapdata Cloud 上继续探索。

  1. Databend 生态介绍

  • Databend: 是新一代基于对象存储的弹性云数仓产品。 地址: https://github.com/datafuselabs/databend

  • OpenDAL :是 Databend 中负责和底层存储打交道的一个组件,目前被 Rust 多数据库产品及 Rust sccache 中大量使用,估计不远的将来会成为一个多云对象存储支持最好的产品。地址: https://github.com/datafuselabs/opendal

  • Openraft: 是 Databend 中负责 Databend Meta 中的集群组件,目前被 SAP 及 许多交易所使用。地址: https://github.com/datafuselabs/openraft

  • Databend k8s operator : Databend 开源了 helm 基于 k8s 部署的 operator。 地址:https://github.com/datafuselabs/helm-charts

  • 文档网站: https://databend.rs/

  • Databend Cloud: Databend Cloud 是基于 Databend 实现的云 SAAS 的数仓项目,希望把底层的运维及生态全部封状好,对用户提供一站式 SAAS 数仓服务。目前 Databend Cloud 分为: 海外和国内两个版本。 海外版本主要部署在 AWS上,地址: https://databend.com, 国内版本主要部署在阿里云和国内 AWS 上: https://databend.cn , 使用 Databend Cloud 的优势:

  • 基于 Databend 提供云上一站式数仓服务,有相应的安全和降本最佳实践

  • 基于 Databend 存储使用 Parquet 格式,同时支持update, delete, alter table 操作,简化数据维护和 ETL 过程

  • 基于 Databend Cloud 可以打造内部的数据集市

  1. 使用 Databend 的场景及优势

目前适用场景:

  • 海量日志存储及分析

  • 部分 ES 场景

  • 订单及商品销售情况分析

  • 数据审计场景

使用 Databend 的优势:

  • 基于 Rust + 对象存储 及 k8s 架构,真正实现了存算分离

  • 基于对象存储成本及 Databend 的压缩技术,使存储有 10 倍左右的优化,同时也可以让存储实现按需付费

  • 计算节点无状态,可以让计算实现按需扩缩容

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/369873.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

含泪推荐5款小体积,超实用的工具

大家好,我又来啦,今天给大家带来的5款软件,共同特点都是体积小、无广告、超实用,大家观看完可以自行搜索下载哦。 1.文字自动验证工具——LanguageTool LanguageTool是一款文字自动验证工具,不仅支持中英文&#xff…

如何将虚拟机ubuntu设置网路连接为桥接模式

当将虚拟机的网络适配器设置为NAT模式时,一切正常,可以ping通所有ip, 但是当设置为桥接模式时,ping命令会提示ubuntu connect: Network is unreachable 这是因为桥接模式没有设置正确,通过下面的步骤可以将桥接模式配置正确。 1…

iOS 生命周期 (最新最完整)

要知道APP的生命周期,首先要了解一下生命周期的5种状态,结合状态理解生命周期的使用。 一、应用的状态 应用的状态包括: 1.1 未运行(Not running) 程序没启动 1.2 未激活(Inactive) 程序在…

尚医通 (二十一)预约挂号功能

目录一、预约挂号详情1、需求2、预约挂号详情接口3、预约挂号详情前端二、预约确认1、需求2、预约确认接口3、预约确认前端一、预约挂号详情 1、需求 接口分析 (1)根据预约周期,展示可预约日期数据,按分页展示 (2&…

JAVA设计模式之工厂模式讲解

目录 前言 开始表演 前言 Java中使用工厂模式的主要原因是为了实现代码的灵活性和可维护性。工厂模式是一种创建型设计模式,它提供了一种将对象的创建和使用进行分离的方式。具体来说,工厂模式可以将对象的创建过程封装在一个独立的工厂类中&#xff…

自动微分记录

计算图(数据流图):AI系统化问题 - 计算图的提出 计算图和自动微分 单算子切分、图的切分和调度 前端->统一表示->优化层->运行时态->底层库 语言 计算网络模型中间表示 计算图 自动微分 计算图优化 内存管理、计算图调度和执行 内核代码优化与编译 多硬件支持…

ip-guard如何在控制台上判断策略是否下发成功?

方法1.看控制台策略设置是否带*号,一般带*,然后刷新控制台依旧带*,说明策略没下发。可以点击刷新按钮进行刷新。 方法2.运行cmd,将控制台程序拖入命令行中,加参数-ad,回车运行。 然后,选中指定客户端,在维护-命令行,输入policy,

骨传导耳机是怎么发声的,骨传导耳机值得入手嘛

现在市面上除了我们平时比较常见的有线耳机、头戴耳机、真无线耳机,近两年还涌现出了一种有着黑科技之称的特别耳机——骨传导耳机,并且因其在运动场景下的优势过于明显而得到了众多运动爱好者的大力追捧。那么今天我们就来聊聊这款所谓的黑科技骨传导耳…

webform如何升级mvc

1.创建项目 给项目起名字然后指定存储位置 选择asp.net 空项目 2.新建model namespace WebFormToMvc {/// <summary>/// 用户模型/// </summary>public class UserModel{/// <summary>/// id/// </summary>public int Id { get; set; }/// <sum…

解决Chrome浏览器内置翻译无法使用的问题

hosts文件 hosts是一个没有扩展名的系统文件&#xff0c;可以用记事本等工具打开&#xff0c;主要作用是定义IP地址和主机名的映射关系&#xff0c;是一个映射IP地址和主机名的规定。当用户在浏览器中输入一个需要登录的网址时&#xff0c;系统会首先自动从hosts文件中寻找对应…

上海亚商投顾:沪指收跌0.62% 东数西算板块逆势领涨

上海亚商投顾前言&#xff1a;无惧大盘涨跌&#xff0c;解密龙虎榜资金&#xff0c;跟踪一线游资和机构资金动向&#xff0c;识别短期热点和强势个股。市场情绪三大指数今日震荡调整&#xff0c;盘中集体跌超1%&#xff0c;随后沪指跌幅有所收窄。东数西算概念午后走强&#xf…

【FLASH存储器系列二十一】如何评估固态硬盘的性能?

我们以三星消费级SSD 990 PRO为例进行介绍&#xff0c;下图为其产品配置&#xff1a; 简单说明一下产品配置&#xff1a;990 pro容量有1T和2T两种规格&#xff0c;固态硬盘容量计算一般是1T1000GB1000000MB&#xff0c;与操作系统容量计算1T1024GB不一样&#xff0c;使用M.2外形…

Editor工具开发基础三:自定义组件菜单拓展 CustomEditor

一.创建脚本路径 创建脚本路径不再限制 一般写在自定义组件类的下边二.特性CustomEditor 定义主设计图面由自定义代码实现数组的编辑器。两个构造函数1.public CustomEditor(Type inspectedType);2.public CustomEditor(Type inspectedType, bool editorForChildClasses);参数意…

[架构之路-118]-《软考-系统架构设计师》-软架构设计-11-可靠性相关设计

第11节 可靠性相关设计11.1 可靠性基本概念可靠性工程是研究产品生命周期中故障的发生、发展规律&#xff0c;达到预防故障&#xff0c;消灭故障&#xff0c;提高产品可用性的工程技术。信息系统的可靠性是指系统在满足一定条件的应用环境中能够正常工作的能力&#xff0c;可以…

如何理解「数据驱动业务」?

“数据驱动”描述了一种业务状态&#xff0c;在这种状态中&#xff0c;数据被用于实时有效地推动决策和其他相关活动。对于企业来说&#xff0c;达到数据驱动的状态就像是开车和骑马旅行的区别。数据驱动的业务能够更快、更高效地达到目标。 数据驱动特征包括质量良好的数据整…

高品质运动耳机哪款更好用、运动耳机最好的牌子推荐

在运动的时候大家都会选择戴上耳机&#xff0c;用音乐来”调味“&#xff0c;让跑步的过程不那么枯燥乏味。说到运动耳机&#xff0c;除了老生常谈的音质以外&#xff0c;耳机的材质、耳机的工艺&#xff0c;耳机的佩戴稳固性等&#xff0c;也都在影响着用户的体验&#xff0c;…

181、【动态规划】leetcode ——72. 编辑距离(C++版本)

题目描述 原题链接&#xff1a;72. 编辑距离 解题思路 动态规划五步曲&#xff1a; &#xff08;1&#xff09;dp[i][j]含义&#xff1a; 以word1[i - 1]和word2[j - 1]结尾子串&#xff0c;经过最少次增删改后&#xff0c;可让word1变为word2的步数。dp中的i对应word1中的i…

命令执行漏洞多种写入webshell方式总结

命令行写shell注意事项&#xff1a;1.注意单引号和双引号的区别&#xff1a;单引号用单引号 ’ 括起来的字符会保留引号内每个字符的字面值简而言之&#xff0c;shell 将逐字解释单引号内的封闭文本&#xff0c;并且不会插入任何内容&#xff0c;包括变量、反引号、某些 \ 转义…

内存管理框架---Slab(二)

站在Arnold Lu南京大佬的肩膀&#xff0c;俯瞰内存管理之slab 文章目录slab层的由来slab/slub/slobslab层的设计思想slab相关数据结构创建slab描述符分配slab对象释放slab对象销毁缓存在内核栈上的静态分配高端内存的映射永久映射临时映射每个CPU的分配新的每个CPU接口编译时的…

自动驾驶仿真测试介绍

作者 | 楼泽如 上海控安可信软件创新研究院研发工程师 来源 | 鉴源实验室 01 引 言 自动驾驶汽车的兴起&#xff0c;正在重新定义汽车行业。随着自动驾驶技术的发展&#xff0c;自动驾驶汽车将会大大提升交通安全、减少事故发生、减少交通拥堵、提高公路容量等等&#xff0…