【数据中台】开源项目(4)-BitSail

news2025/2/27 4:32:35

介绍

BitSail是字节跳动开源的基于分布式架构的高性能数据集成引擎, 支持多种异构数据源间的数据同步,并提供离线、实时、全量、增量场景下的全域数据集成解决方案,目前服务于字节内部几乎所有业务线,包括抖音、今日头条等,每天同步数百万亿数据。

开源地址:GitHub - bytedance/bitsail: BitSail is a distributed high-performance data integration engine which supports batch, streaming and incremental scenarios. BitSail is widely used to synchronize hundreds of trillions of data every day.

为什么我们要使用BitSail

BitSail目前已被广泛使用,并支持数百万亿的大流量场景。同时在火山引擎云原生环境、客户私有云环境等多种场景下得到验证。

我们积累了很多经验,并做了多项优化,以完善数据集成的功能

  • 全域数据集成解决方案, 覆盖离线、实时、增量场景

  • 分布式以及云原生架构, 支持水平扩展

  • 在准确性、稳定性、性能上,成熟度更好

  • 丰富的基础功能,例如类型转换、脏数据处理、流控、数据湖集成、自动并发度推断等

  • 完善的任务运行状态监控,例如流量、QPS、脏数据、延迟等

BitSail使用场景

  • 异构数据源海量数据同步

  • 流批一体数据处理能力

  • 湖仓一体数据处理能力

  • 高性能、高可靠的数据同步

  • 分布式、云原生架构数据集成引擎

BitSail主要特点

  • 简单易用,灵活配置

  • 流批一体、湖仓一体架构,一套框架覆盖几乎所有数据同步场景

  • 高性能、海量数据处理能力

  • DDL自动同步

  • 类型系统,不同数据源类型之间的转换

  • 独立于引擎的读写接口,开发成本低

  • 任务进度实时展示,正在开发中

  • 任务状态实时监控

BitSail架构

Source[Input Sources] -> Framework[Data Transmission] -> Sink[Output Sinks]

数据处理流程如下,首先通过 Input Sources 拉取源端数据,然后通过中间框架层处理,最后通过 Output Sinks 将数据写入目标端

在框架层,我们提供了丰富的基础功能,并对所有同步场景生效,比如脏数据收集、自动并发度计算、流控、任务监控等

在数据同步场景上,全面覆盖批式、流式、增量场景

在Runtime层,支持多种执行模式,比如yarn、local,k8s在开发中

支持的连接器

DataSource

Sub Modules

Reader

Writer

Assert

-

ClickHouse

-

-

Doris

-

Druid

-

Elasticsearch

-

Fake

-

FTP/SFTP

-

Hadoop

-

HBase

-

Hive

-

Hudi

-

JDBC

MySQL

Oracle

PostgreSQL

SqlServer

Kafka

-

Kudu

-

LarkSheet

-

MongoDB

-

Print

-

Redis

-

RocketMQ

-

SelectDB

-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1278532.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CleanMyMac X2024Macos强大的系统优化工具

都说苹果的闪存是金子做的,这句话并非空穴来风,普遍都是256G起步,闪存没升级一个等级,价格都要增加上千元。昂贵的价格让多数消费者都只能选择低容量版本的mac。而低容量的mac是很难满足用户的需求的,伴随着时间的推移…

初始数据结构(加深对旋转的理解)

力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台备战技术面试?力扣提供海量技术面试资源,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode.cn/problems/rotate-array/submissions/ 与字…

《堆》的模拟实现

目录 前言: 模拟实现《堆》: 1.自定义数据类型 2.初始化“堆” 3.销毁“堆” 4.进“堆” 关于AdjustUp() 5.删除堆顶元素 关于AdjustDown() 6.判断“堆”是否为空 7.求“堆”中的数据个数 8.求“堆”顶元素 总结: 前言&#xf…

锐捷RG-UAC应用网关 前台RCE漏洞复现

0x01 产品简介 锐捷RG-UAC系列应用管理网关是锐捷自主研发的应用管理产品。 0x02 漏洞概述 锐捷RG-UAC应用管理网关 nmc_sync.php 接口处存在命令执行漏洞,未经身份认证的攻击者可执行任意命令控制服务器权限。 0x03 复现环境 FOFA:app"Ruijie-R…

软著项目推荐 深度学习手势识别算法实现 - opencv python

文章目录 1 前言2 项目背景3 任务描述4 环境搭配5 项目实现5.1 准备数据5.2 构建网络5.3 开始训练5.4 模型评估 6 识别效果7 最后 1 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 深度学习手势识别算法实现 - opencv python 该项目较为新颖…

宝塔面板:轻松玩转linux系统,实现服务器状态监控和运维部署!

. linux安装 安装命令概述基本设置软件安装设置安全设置文件管理日志模块终端模块计划任务卸载命令windows服务器安装 下载卸载遗留user.ini文件删除报错 宝塔面板是一款服务器管理软件,旨在提升运维效率。它支持一键安装LAMP/LNMP/集群/监控/网站/FTP/数据库/JAVA等…

【代码】计及碳捕集电厂低碳特性及需求响应的综合能源系统多时间尺度调度模型matlab/yalmip代码

程序名称:计及碳捕集电厂低碳特性及需求响应的综合能源系统多时间尺度调度模型 实现平台:matlab-yalmip-cplex/gurobi 代码简介:代码主要做的是一个虚拟电厂/微网多时间尺度电热综合能源系统低碳经济调度模型,源侧在碳捕集电厂中…

2024年美国大学生数学建模竞赛(MCM/ICM)论文写作方法指导

一、前言 谈笑有鸿儒,往来无白丁。鸟宿池边树,僧敲月下门。士为知己者死,女为悦己者容。吴楚东南坼,乾坤日夜浮。剪不断,理还乱,是离愁,别是一番滋味在心头。 重要提示:优秀论文的解…

Linux 匿名页反向映射

1. 何为反向映射 正向映射: 用户进程在申请内存时,内核并不会立刻给其分配物理内存,而是先为其分配一段虚拟地址空间,当进程访问该虚拟地址空间时,触发page fault异常,异常处理流程中会为其分配物理页面&am…

哪一款台灯适合学生考研用?热门学生护眼台灯推荐

近些年近视人数持续升高,我们越来越注意个人的健康问题,而对于视力健康,尤其是儿童青少年们,在3-14岁这个年龄段近视机率更高,儿童青少年近视率高达52.7%,随着市面上护眼台灯的种类越来越多,各种…

OpenTelemetry系列 - 第1篇 相关概念

目录 一、背景二、概念2.1 Traces & Span2.2 Metrics2.3 Logs2.4 Baggage2.5 OTel2.6 OTLP2.7 Resources2.8 Instrumentation Scope2.9 Sampling 三、核心组件 一、背景 OpenTelemetry是一个可观察性框架和工具包,旨在创建和管理遥测数据,如跟踪、指…

运维 | 关于IP网络相关的概念和原理

关注:CodingTechWork IP地址 IP介绍 概述 IP是TCP/IP协议族的核心,IP地址是电脑在网络中的唯一标识,全球唯一(G公网IP)。IP地址(Internet Protocol Address)是互联网协议地址,也…

LabVIEW在不同操作系统上使VI、可执行文件或安装程序

LabVIEW在不同操作系统上使VI、可执行文件或安装程序 LabVIEW可以在多个操作系统上运行,主要支持以下几种操作系统: Windows: LabVIEW在各个版本的Windows操作系统上都能运行,包括Windows 7、Windows 8和Windows10。LabVIEW为Wi…

【数据中台】开源项目(5)-Amoro

介绍 Amoro is a Lakehouse management system built on open data lake formats. Working with compute engines including Flink, Spark, and Trino, Amoro brings pluggable and self-managed features for Lakehouse to provide out-of-the-box data warehouse experience,…

海外之路,英语相助:我的雅思考试之旅(成功以此申请到了港科大硕士)

文章目录 背景注册过程 雅思考试之旅全程记录2023年2月14日 - 报名补充2023年2月15日 - 模拟考试2023年2月16日 - 在线考试失利2023年2月20日 - 线下考试再战成功2023年2月23日 - 成绩出来了 考试经验寄送成绩问题请求额外的IELTS成绩寄送 结语 背景 在新加坡Shopee工作了两年…

【面试经典 150 | 二分查找】搜索插入位置

文章目录 写在前面Tag题目来源题目解读解题思路方法一:二分查找闭区间左闭右开区间开区间总结 知识总结写在最后 写在前面 本专栏专注于分析与讲解【面试经典150】算法,两到三天更新一篇文章,欢迎催更…… 专栏内容以分析题目为主&#xff0c…

【Python 训练营】N_14 文件查找和替换

题目 新建一个test3.txt文件,内容如下图,然后从中查找字符串’five’,并统计出现的次数;替换其中的’five’字符串为’python’。 分析 类似Excel中的查找和替换,查找相应内容需用到正则,还考察文件打开、…

持续集成交付CICD:CentOS 7 安装 Sonarqube9.6

目录 一、实验 1.CentOS 7 安装 Sonarqube9.6 二、问题 1.安装postgresql13服务端报错 2.postgresql13创建用户报错 一、实验 1.CentOS 7 安装 Sonarqube9.6 (1)下载软件及依赖包 ①Sonarqube9.6下载地址 https://binaries.sonarsource.com/Dis…

欧洲各国及发达国家经济支柱和第一出口商品是什么

工业在欧洲各国经济支柱中的表现 一般发达国家,像西欧的国家第三产业即服务业占GDP70%甚至更高,从业人数比重也最大,只是越发达的国家服务业的知识性和科技含量会更高,如商业咨询、律师、医疗卫生、科技服务、商业服务。服务业的…

布隆过滤器,Redis之 bitmap,场景题【如果微博某个大V发了一条消息,怎么统计有多少人看过了】

学习文档 文章目录 一、什么是 Bitmap1-1、Bitmap 相关命令 二、Bitmap 和 Set 对比2-1、数据准备2-2、内存对比2-3、性能对比 三、布隆过滤器3-1、理论3-2、代码实现 四、Java中的 Hash 函数 最近面试时,遇到了一个场景题,面试官问如何统计一条微博大V的…