Tapdata Cloud 场景通关系列:数据入湖仓之 MySQL → Doris,极简架构,更实时、更简便

news2024/11/20 2:36:42

【前言】作为中国的 “Fivetran/Airbyte”, Tapdata Cloud
自去年发布云版公测以来,吸引了近万名用户的注册使用。应社区用户上生产系统的要求,Tapdata Cloud 3.0
将正式推出商业版服务,提供对生产系统的 SLA 支撑。Tapdata 目前专注在实时数据同步和集成领域,核心场景包括以下几大类:

  • 实时数据库同步,如 Oracle → Oracle, Oracle → MySQL, MySQL → MySQL 等
  • 数据入湖入仓,或者为现代数据平台供数,如:
    • 常规 ETL 任务(建宽表、数据清洗、脱敏等)
    • 为 Kafka/MQ/Bitsflow 供数或下推

具体场景则数不胜数,值此之际,我们将以系列文章形式,为大家盘点 Tapdata Cloud 可以支撑的业务场景和 3.0
版本新特性,以便大家更好在业务中应用 Tapdata。本期为系列文章第四弹,将以 MySQL → Doris 的数据同步任务为例,介绍
Tapdata Cloud
如何简化数据实时入湖入仓,让业务系统的数据变动稳定连续地实时复制到数据湖或数仓,为实时分析提供新鲜的原始数据。(点击申请产品内测,抢先体验
→)

数据量走向爆炸的这些年,企业通过对业务数据的采集与分析使用,逐步将其转化为可用的信息和可操作的见解,反哺业务优化的方方面面。但如果直接从业务数据库中抽取数据进行分析,则往往需要面临结构复杂、数据脏乱、难以理解、缺少历史,以及大规模查询缓慢等实际操作问题。在这样的背景下,搭建面向分析需求的数据仓库也就成了非常常见的解决方案,并发展为数据整合及处理的核心。

然而随着数据体量越来越庞大,时效性要求越来越高,业务侧、运营侧的需求也日趋多样,传统数仓的技术架构已然无法满足企业真实场景下的应用需要。新型数据仓库平台架构、数据湖技术、湖仓一体的新数据平台,以及云数仓等更多选型不断涌现。其中,基于 Apache Doris 构建的湖仓架构设计方案,凭借其灵活的查询模型、极低的运维成本、短平快的开发链路以及优秀的查询性能等优势,成为众多企业探索或优化湖仓建设更加青睐的选择。

一、Apache Doris:数据湖、仓场景下的核心优势

作为一款基于 MPP 架构的高性能、实时的分析型开源数据库,Apache Doris 主打极速易用,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景,例如报表分析、即时查询、统一数仓构建、数据湖联邦查询加速等。在湖仓场景下,具备以下核心优势:

  • 性能突出:依托列式存储引擎、现代的 MPP 架构、向量化查询引擎、预聚合物化视图、数据索引的实现,在低延迟和高吞吐查询上,都达到了极速性能
  • 简单易用:部署只需两个进程,不依赖其他系统;在线集群扩缩容,自动副本修复;兼容 MySQL 协议,并且使用标准 SQL
  • 统一数仓:单一系统,可以同时支持实时数据服务、交互数据分析和离线数据处理场景
  • 联邦查询:支持对 Hive、Iceberg、Hudi 等数据湖和 MySQL、Elasticsearch 等数据库的联邦查询分析
  • 多种导入:支持从 HDFS/S3 等批量拉取导入和 MySQL Binlog/Kafka 等流式拉取导入;支持通过 HTTP 接口进行微批量推送写入和 JDBC 中使用 Insert 实时推送写入

二、Tapdata Cloud:如何优化数据入湖入仓架构?

在这里插入图片描述

传统数据入湖入仓架构,一般存在全量、增量链路分离;链路长且复杂,维护困难;依赖离线调度分析,延时较大等缺陷。面对这些问题,作为一款开箱即用的实时数据服务,Tapdata Cloud 基于自身技术优势,为新一代数据入湖入仓架构提供了更具实践价值的解题思路——链路更短、延迟更低、更易维护和排查。(功能体验指路:Tapdata Cloud 3.0 现已开放内测通道)

借助 Tapdata Cloud 全量增量一体的实时同步能力,可以实现极简的数据入湖入仓架构——读取源库的全量和增量数据,直接复制并更新入数据仓库。这一优化一方面极大降低了对源库的影响,保障了企业自身业务的稳定性;另一方,极大提升了数据交付速度,助力企业以连续的方式将业务系统的数据变动实时复制到数据湖或数仓,为实时分析提供新鲜的原始数据。在这个过程中,Tapdata 展现出的核心亮点包括:

  • 全链路实时
    基于 Pipeline 流式数据处理,以应对基于单条数据记录的即时处理需求,如数据库 CDC、消息、IoT 事件等。不同于传统 ETL,每一条新产生并进入到平台的数据,会在秒级范围被响应,计算,处理并写入到目标表中。同时提供了基于时间窗的统计分析能力,适用于实时分析场景。

  • 对源库几乎无影响
    基于自研的 CDC 日志解析技术,0入侵实时采集数据,对源库几乎无影响。

  • 可视化任务运行监控和告警
    实时监控在运行任务的最新运行状态、日志信息等,支持任务告警。

  • 数据一致性保障
    通过多种自研技术,保障目标端数据与源数据的高一致性,并支持通过多种方式完成一致性校验,保障生产要求。

  • 内置 50+ 数据连接器,稳定的实时采集和传输能力
    以实时的方式从各个数据来源,包括数据库、API、队列、物联网等数据提供者采集或同步最新的数据变化。支持多源异构数据双向同步,自动映射关系型到非关系型。一键实现实时捕获,毫秒内更新。已内置50+连接器且不断拓展中,覆盖大部分主流的数据库和类型,并支持您自定义数据源。

三、操作演示:以 MySQL → Doris 为例

👆👆戳这里, 查看完整操作流程演示

① 创建数据源 MySQL 的连接

在这里插入图片描述

② 创建数据目标 Doris 的连接

在这里插入图片描述

③ 创建数据复制任务

在这里插入图片描述

④ 任务监控

在这里插入图片描述

Tapdata Cloud 3.0:限量内测报名中

全新升级的 Tapdata Cloud 3.0 拥有更加全面的链路可观测性的可视化操作界面、增强的数据复制能力,以及数据开发beta 等多重功能特性上新。

内测权益

将您的应用场景在最新的 Tapdata Cloud 上得到验证,帮助您解决切实的技术/业务痛点,您的内测反馈和宝贵建议,将第一时间在 Tapdata Cloud 上得到实现。

  • 使用及技术支持:当您遇到使用问题或疑问时,将获得快速响应和支持。
  • 专享订阅折扣:新版 Tapdata Cloud 将推出收费版本,用户可获得 SLA 级服务,保障生产使用的要求。内测用户将获得优惠订购特权。
  • 成为产品共创贡献者:您将成为 Tapdata Cloud 产品的共创贡献者,内测提出的功能需求及优化建议,将有机会纳入产品路线图。

目前,Tapdata Cloud 3.0 已开放内测报名通道:https://tapdata.net/tapdata-cloud/closed-beta-version.html ←戳这里即可参与哦

原文链接:https://tapdata.net/real-time-data-entry-into-the-lake-and-warehouse.html

【相关阅读】

  • Tapdata Cloud 场景通关系列:Oracle → MySQL 异构实时同步
  • Tapdata Cloud 场景通关系列:集成阿里云计算巢,实现一键云上部署真正开箱即用
  • Tapdata Cloud 场景通关系列:将数据导入阿里云 Tablestore,获得毫秒级在线查询和检索能力

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/163143.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RNN从理论到实战【理论篇】

来源:投稿 作者:175 编辑:学姐 要深入理解深度学习,从零开始创建的经验非常重要,从自己可以理解的角度出发,尽量不使用外部完备的框架前提下,实现我们想要的模型。本系列文章的宗旨就是通过这样…

【JavaSE】数据类型与变量

数据类型与变量数据类型与变量1. 字面常量2. 数据类型3. 变量3.1 变量概念3.2 语法格式3.3.1 整型变量3.3.2 长整型变量3.3.3 短整型变量3.3.4 字节型变量3.3 浮点型变量3.4.1 双精度浮点型3.4.2 单精度浮点型3.4 字符型类型3.5 布尔型变量3.6 类型转换3.7.1 自动类型转换&…

TensorFlow 实战案例: ResNeXt 交通标志图像多分类,附Tensorflow完整代码

各位同学好,今天和大家分享一下如何使用 Tensorflow 构建 ResNeXt 神经网络模型,通过 案例实战 ResNeXt 的训练以及预测过程。每个小节的末尾有网络、训练、预测的完整代码。 ResNeXt 是 ResNet 的改进版,在 bottleneck卷积块 结构上进行了较…

阿里高级技术专家方法论:如何写复杂业务代码?

阿里妹导读:张建飞是阿里巴巴高级技术专家,一直在致力于应用架构和代码复杂度的治理。最近,他在看零售通商品域的代码。面对零售通如此复杂的业务场景,如何在架构和代码层面进行应对,是一个新课题。结合实际的业务场景…

ECM工业能耗管理云平台

在我国的能源消耗中,工业企业是能源消耗的主要群体,能源消耗量占全国能源消耗总量的70%左右,传统方式进行各类工厂能耗的计量,造成能耗数据不完整、不准确、不全面,因而无法进行能耗分析与诊断,造成普遍在各…

DFS初入门

目录 一、前言 二、搜索与暴力法 1、概念 2、搜索的基本思路 3、BFS:一群老鼠走迷宫 4、DFS:一只老鼠走迷宫 三、DFS 1、DFS访问示例 2、DFS的常见操作 3、DFS基础:递归和记忆化搜索 4、DFS的代码框架(大量编码后回头体…

一个真正的鳗,他清楚自己每天都要刷《剑指offer》(第九天)

跟着博主一起刷题 这里使用的是题库: https://leetcode.cn/problem-list/xb9nqhhg/?page1 目录剑指 Offer 57 - II. 和为s的连续正数序列剑指 Offer 59 - I. 滑动窗口的最大值剑指 Offer 60. n个骰子的点数剑指 Offer 57 - II. 和为s的连续正数序列 剑指 Offer 57 …

文旅元宇宙热潮来袭,天下秀用“科技之钥”解锁三大价值

让未来照进现实,让现实走进虚拟,元宇宙正成为通往下个时代的船票。2018年上映的电影《头号玩家》,让大部分人首次感触到元宇宙里的沉浸式体验——男主角带上VR头盔后,瞬间就能进入另一个极其逼真的虚拟世界。随着VR、AR、区块链、…

系统回顾MyBatis体验这一优秀的持久层框架

文章目录1.MyBatis2.Mapper代理3.MyBatis配置升级4.配置文件CRUD5.多条件查询6.多条件动态查询7.单条件动态条件查询8.添加数据并主键返回9.更新数据10.删除数据11.参数传递12.注解开发1.MyBatis MyBatis基本上取消了所有的JDBC硬编码,对于单独使用这样的ORM框架&a…

1585_AURIX_TC275_SMU的部分内核寄存器

全部学习汇总: GreyZhang/g_TC275: happy hacking for TC275! (github.com) 继续看SMU的资料,这次看一部分SMU的内核相关寄存器。这一次整理的内容比较少,而且优点断篇,因此按照序号来分没有保持10页的对齐。 调试相关的寄存器不…

详解外网访问内网DDNS作用 及ddns解析软件使用方法

导语:随着互联网的成熟,家庭宽带的提速,大家对外网访问家庭内网电脑,监控,服务器,存储NAS等设备的需求倍增。目前外网访问内网可以用DDNS动态域名解析的方式,以下本文就来介绍一下原理和实现工具…

ELK日志(3)

EFK日志收集 Elasticsearch: 数据库,存储数据 javalogstash: 日志收集,过滤数据 javakibana: 分析,过滤,展示 javafilebeat: 收集日志,传输到ES或logstash go redis:缓冲数据,等待logstash取数据…

高并发多级缓存架构解决方案 OpenResty、canal搭建及使用流程

高并发多级缓存架构解决方案1、缓存的常规使用方式2、请求流程拆分1、搭建tomcat集群2、搭建OpenRestyOpenResty的目录结构nginx的配置文件lua脚本的执行流程http请求反向代理到tomcat服务器3、OpenResty、Redis的单点故障问题4、防止缓存穿透java中通过redisson实现布隆过滤器…

Mac 下配置 go语言环境

Mac 下配置 go语言环境两种方法安装Go通过Homebrew安装(不太推荐)通过官网安装 (推荐)方法一安装Homebrew通过Homebrew安装Go方法二 通过官网进行安装配置go环境配置go环境国内镜像Vscode环境配置Helloworld.go两种方法安装Go 通…

LabVIEW中的VI脚本

LabVIEW中的VI脚本用户可使用VI脚本选板上的VI、函数和相关的属性、方法,通过程序创建、编辑和运行VI。通过VI脚本,可减少重复的VI编辑所需的时间,例如:创建若干类似VI对齐和分布控件显示或隐藏控件标签连接程序框图对象注: 必须先…

【13】Docker_DockerFile | 关键字

目录 1、DockerFile的定义 2、DockerFile内容基本知识 3、Docker执行DockerFile的大致流程 4、DockerFile的关键字 5、举例: 1、DockerFile的定义 Dockerfile是用来构建Docker镜像的文本文件,是由一条条构建镜像所需的指令和参数构成的脚本。 2、Do…

[前端笔记——HTML介绍] 2.开始学习HTML

[前端笔记——HTML介绍] 2.开始学习HTML1什么是HTML?2剖析一个HTML元素3块级元素和内联元素4空元素5属性6为一个元素添加属性7布尔属性8省略包围属性值的引号9单引号或双引号?10剖析HTML文档11实体引用:在 HTML 中包含特殊字符1什么是HTML? …

LeetCode 17. 电话号码的字母组合

🌈🌈😄😄 欢迎来到茶色岛独家岛屿,本期将为大家揭晓LeetCode 17. 电话号码的字母组合,做好准备了么,那么开始吧。 🌲🌲🐴🐴 一、题目名称 17.…

文件操作中的IO流——字节流与字符流

一,IO流1.什么是IO流IO流是存取和读取数据的解决方案2.IO流的作用IO流用于读写数据,这些数据包括本地文件和网络上的一些数据;比如读写本地文件的时候需要用到文件读写的IO流,读写网络上的数据时需要通过Socket套接字来调用数据流…

机器学习:公式推导与代码实现-监督学习单模型

线性回归 线性回归(linear regression)是线性模型的一种典型方法。 回归分析不再局限于线性回归这一具体模型和算法,更包含了广泛的由自变量到因变量的机器学习建模思想。 原理推导 线性回归学习的关键问题在于确定参数w和b,使得拟合输出y与真实输出yi尽可能接近 为了求…