@开源爱好者,字节跳动这项技术,正式宣布开源了

news2024/12/23 16:14:50

告诉大家一个好消息,字节跳动的云原生数据仓库 ByConity 正式宣布开源了。

ByConity 是一个云原生数据仓库,由字节跳动数据平台团队在国际知名开源数据库管理系统 ClickHouse 社区版本基础上开发。

早期,字节跳动的数据存储使用的是 ClickHouse 的开源版本。但由于业务体量大、业务场景复杂,数据平台团队对此进行了大量的深度优化和自研改进,用以支撑字节跳动业务中各类与数据相关的功能模块,现在正式宣布开源,回馈社区。此前,字节跳动还发布过云原生数据仓库的商业化版本 ByteHouse。

ByConity 开源之前,字节跳动数据平台团队也曾考虑将自研修改合并回 ClickHouse 社区,与 ClickHouse 核心研发团队、ClickHouse 创业公司负责人沟通后,得到的反馈是架构差异过大、合并难度和代价大、无法联合开发。按照 ClickHouse 社区给到的建议,数据平台团队决定独立开源。

ByConity 具有读写分离弹性扩缩容租户资源隔离数据读写的强一致性等特点,其计算-存储分离的架构,结合主流的 OLAP 引擎优化,确保了优异的读写性能。

今年 1 月,ByConity Beta 版本发布后,得到了来自华为、电子云、展心展力、天翼云、唯品会、传音控股等十几家企业开发者的支持,他们帮助 ByConity 在各自的场景下进行了测试与验证,并反馈出不错的效果。

话不多说,先上 GitHub 地址:

GitHub - ByConity/ByConity: ByConity is an open source cloud-native data warehouse

ByConity:三层架构的数据仓库

ByConity 的整体架构分为三层,包括服务接入层计算层数据存储层

ByConity 三层技术架构图

服务接入层:

接受用户的查询,由一个或者多个 server 构成,并支持水平扩张,充当的是响应用户服务和协调调度的角色。除了用户作业之外,在 ByConity 里还有后台任务,例如 compaction/gc 等等,这些后台任务由 Daemon manager 管理,调度到相应的 server 进行执行。

计算层

由一个或者多个计算组(Virutual Warehouwe,VW)构成,不同的租户可以使用不同的计算组实现物理资源隔离。资源管理器负责对计算资源进行统一的管理和调度,能够收集各个计算组的性能数据、资源使用量,为查询、写入和后台任务动态分配资源并进行动态扩缩容,提高资源使用率。

数据存储层

用于存放用户数据。ByConity 的元数据和数据都实现了存储计算分离,元数据存储在分布式 key-value store 里,数据存储在分布式文件系统或者对象存储里。

ByConity 内部组件交互图

目前,ByConity 支持单机 Docker、K8s 集群部署、物理机部署和源代码编译四种获取和部署模式。

五年时间,从 ClickHouse 到 ByConity

2018 年,字节跳动开始在内部使用 ClickHouse,因为业务发展迅速、用户体量大,数据规模变得越来越巨大。

由于 ClickHouse 是 Shared-Nothing 架构,每个节点相互独立,不会共享存储资源等,因而计算资源和存储资源紧耦合,这使它在字节跳动的应用过程中产生了一些不便之处。

比如扩缩容的成本比较高,且会涉及到数据迁移,不能实时按需扩缩容,导致资源浪费;比如多租户在共享集群环境相互影响,同时由于读写在同一个节点完成,导致读写相互影响;此外,ClickHouse 在复杂查询上例如多表 Join 等操作的性能支持并不是很好。

因此,字节跳动于 2020 年在内部启动了 ByConity 项目,在原有的 ClickHouse 架构基础上进行了升级,将原本计算和存储分别在每个节点本地管理的架构,转换为在分布式存储上统一管理整个集群内所有数据的架构,使得每个计算节点成为一个无状态的单纯计算节点,并利用分布式存储的扩展能力和计算节点的无状态特性实现动态的扩缩容。

这种改进使得升级后的架构具有以下重要特性:

  • 资源隔离:对不同的租户进行资源的隔离,租户之间不会受到相互影响;
  • 读写分离:计算资源和存储资源解耦,确保读操作和写操作不会相互影响;
  • 弹性扩缩容:支持弹性的扩缩容,能够实时、按需的对计算资源进行扩缩容,保证资源的高效利用;
  • 数据强一致:数据读写的强一致性,确保数据始终是最新的,读写之间没有不一致;
  • 高性能:采用了主流的 OLAP 引擎优化,例如列存、向量化执行、MPP 执行、查询优化等提供优异的读写性能。

随着对自研表引擎、查询优化器、存储计算架构的优化与自研改造,字节跳动内部有越来越多的场景逐步使用新架构,也在不同的场景中进行了验证与优化,慢慢沉淀出了一个云原生版本的数仓 ByConity。

加入字节跳动,一起做开源

字节跳动还将继续增强 ByConity 的功能、性能和易用性,其中开发新的存储引擎支持更多的数据类型与其他数据管理工具的集成是重点关注的领域。

具体包含以下几个方向:

  • 性能提升:使用索引进行加速,包含 Skip-index 优化、新的 Zorder-index 和倒排索引等支持、外表索引的构建和加速、以及索引的自动推荐和转换;查询优化器的持续优化;分布式缓存机制等。
  • 稳定性提升:支持更多维度的资源隔离,提供更好多租户能力;丰富 Metrics,提升可观察性和问题诊断能力。
  • 企业级特性增强:实现更细粒度权限控制;完善数据安全性相关的功能(备份、恢复和数据加密);持续探索数据的深度压缩,节约存储成本。
  • 生态兼容性提升:支持 S3、TOS 等对象存储;提升生态兼容性方便集成;支持数据湖联邦查询如 Hudi、Iceberg等。

除开源版本之外,ByConity 产研团队还同时支持商业化版本 ByteHouse 和字节内部产品线,ByConity 即为 ByteHouse 的内核。团队相关负责人表示,开源版和商业版融合度非常高,未来 ByConity 会朝更加开放的引擎开发模式发展,后续对 ByteHouse 的改动会基于 ByConity 源代码用开源的方式来开发,开源先行,同步发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/568482.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Axure教程】通过文本框维护下拉列表选项

下拉列表(Dropdown List)是一种常见的用户界面元素,用于提供一组选项供用户选择。它通常以一个展开的列表形式出现,用户可以点击或选择列表中的一个选项。一般来说,他的选项值是由系统代码组成的,所以一般是…

leecode每日一题 1080 根到叶路径上的不足节点

题目描述 给你二叉树的根节点 root 和一个整数 limit ,请你同时删除树中所有 不足节点 ,并返回最终二叉树的根节点。 假如通过节点 node 的每种可能的 “根-叶” 路径上值的总和全都小于给定的 limit,则该节点被称之为 不足节点 &#xff0…

接口测试神器, ApiKit ,亲测好用

自己关注的公众号比较多,之前有收到过有关 ApiKit 的文章,自己也是大致看看,还没有用过它! 最近看到比较多有关 ApiKit 的文章,所以自己就花了点时间去研究它,使用完后发现确实比Postman功能更强大,界面也…

Redis7实战加面试题-基础篇(Redis复制(replica),Redis哨兵(sentinel),Redis集群(cluster))

Redis复制(replica) 就是主从复制,master以写为主,Slave以读为主。当master数据变化的时候,自动将新的数据异步同步到其它slave数据库。 能干嘛:读写分离,容灾恢复,数据备份,水平扩容支撑高并发…

【阿里云】阿里云OSS对象存储— 开通OSS服务、搭建OSS环境、快速入门

目录 一、开通OSS服务 二、搭建OSS环境 1、创建Bucket存储空间 2. 创建文件夹上传图片 3. RAM 访问控制 三、快速入门 1.下载SDK 2.创建存储空间[可选] 3.上传图片 一、开通OSS服务 二、搭建OSS环境 1、创建Bucket存储空间 选择 Bucket列表,进行Bucket创建…

LeetCode54 螺旋矩阵

给你一个m行n列的矩阵matrix,请按照顺时针螺旋顺序,返回矩阵中的所有元素。 示例1 输入: matrix [[1,2,3],[4,5,6],[7,8,9] 输出: [1,2,3,6,9,8,7,4,5] 示例2 输入: matrix [[1,2,3,4],[5,6,7,8],[9,10,11,12]] 输出…

新冠又临“涨潮”期,看我AI显身手

#疫情#北京时间5月24日,北京市卫生健康委发布2023年第20周疫情周报。报告显示,2023年第20周全市共报告法定传染病14种25544例,死亡1例。报告病例数居前5位的病种依次为:新型冠状病毒感染、其它感染性腹泻病、流行性感冒、肺结核和病毒性肝炎&…

chatgpt赋能python:Python的shutil模块:探讨删除文件和目录的方法

Python的shutil模块:探讨删除文件和目录的方法 Python是一种高级编程语言,拥有大量的标准库,其中shutil模块是处理文件的一种非常强大的模块。shutil提供了多种方式来复制、移动和删除文件和目录。 在本文中,我们将探讨Python的…

英特尔13代桌面CPU平台安装ubuntu20.04LTS记录

安装环境一: i7-13700K 华硕Z790-P 16X2GB内存 华硕 TUF 3070 O8G安装环境二: i5-13400 华硕B760M-A D4 8x2GB内存 UHD730核显安装系统: ubuntu20.04LTS(首先用光驱安装失败,后面用U盘更换ubuntu22.04.2LTS成功) 因为…

用工业显微镜来观察生物细胞

尝试用工业显微镜来观察生物细胞,成像质量不是很好,但感觉还是能看一下。专业生物用显微镜真的太贵了。 软件:JCameraPro可以在这下载:www.jfirmware.com 摄像机:OPLENIC Cam的某个OEM版。 OPLENIC Cam很多OEM版&am…

SocketException: 由于目标计算机积极拒绝,无法连接。

本文只有解决思路没有具体方法(因为错误不一定是因为这个)。 在做.NETWebService的时候遇到了个问题,这是在用本地提供WebService服务以后出现的错误。 我的解决办法是把连接的服务删了在重连就好了,挺奇怪的。在网上查的方法各式…

Vue + Axios - HTTP POST 请求示例 (外网地址)

从 npm 安装 axios 使用npm CLI&#xff1a;npm install axios 使用yarn CLI&#xff1a;yarn add axios app.vue文件: <template><Postrequest/> </template><script> import Postrequest from ./components/Postrequest.vue; export default {nam…

Helm部署高可用rabbitmq k8s 镜像集群

前提条件&#xff1a;k8s集群、harbor私服、helm、storage Class 安装部署 添加bitnami仓库并查找redis helm repo add bitnami https://charts.bitnami.com/bitnami ​ helm repo update [kmningk8s-register-node ~]$ helm search repo rabbitmq NAME …

Linux第一节

linux用的分区格式是 XFS EXT4 nmtui //网络使用文字显示的命令 //进去后修改IP信息 常用SSH管理工具 PC端: Mobaxterm、PuttyWinSCP、XshellXftp、SecureCRT等手机端:iTerminal、华为云APP、阿里云APP等 LINUX中补全命令&#xff0c;按两次tab键 在登录界面&#xff0c;al…

40G QSFP+ LR4光模块两种类型的概述:CWDM4 vs PSM4

40G QSFP LR4光模块被广泛用于40G网络中&#xff0c;它包含40G QSFP LR4 CWDM4光模块和40G QSFP LR4 PSM4光模块两种类型。前者用来连接波分复用链路&#xff0c;后者用来连接并行单模光纤链路&#xff0c;但是这两种模块之间有什么区别呢&#xff1f;下文易天光通信&#xff0…

线程的状态,多线程带来的风险,synchronized关键字及死锁问题

目录 状态 线程的意义 多线程带来的风险——线程安全✅ 线程安全的概念 线程不安全的原因 抢占式执行&#xff0c;随机性调度 修改共享数据 原子性->加&#x1f512; 可见性 指令重排序 解决线程不安全问题&#xff08;学完线程再总结&#xff09; synchronized关键字——监…

使用electron套壳vue实现跨平台桌面应用

electron和vue是什么就不用多说了&#xff0c;前端都知道 先展示一波demo 传送门 前提条件 要有一个vue项目&#xff0c;老项目跳过 vue create hello-world改造vue项目 在根目录新建一个background.js文件&#xff0c;也可以叫其他名字&#xff0c;作为package.json的main…

C Primer Plus第五章编程练习答案

学完C语言之后&#xff0c;我就去阅读《C Primer Plus》这本经典的C语言书籍&#xff0c;对每一章的编程练习题都做了相关的解答&#xff0c;仅仅代表着我个人的解答思路&#xff0c;如有错误&#xff0c;请各位大佬帮忙点出&#xff01; 1.编写一个程序&#xff0c;把用分钟表…

微信小程序---表格的制作并展示云数据库中的数据

微信小程序并没有表格组件&#xff0c;可能是官方考虑到&#xff0c;在前端开发中&#xff0c;表格的嵌套性太多&#xff0c;用DIV代码会比较简洁就没有实现吧。没有现成的组件可以使用&#xff0c;针对这个问题&#xff0c;目前有两种解决方案&#xff1a; 1&#xff09;内嵌…

怎么发表CCF期刊?CCF期刊有什么不同之处? - 易智编译EaseEditing

发表CCF期刊&#xff0c;可以参考一下步骤&#xff1a; 选择目标期刊&#xff1a; 首先选择一个适合自己的目标期刊&#xff0c;可以是CCF推荐的高水平期刊&#xff0c;也可以是其他被广泛认可的期刊。 撰写论文&#xff1a; 根据目标期刊的要求&#xff0c;撰写论文。确保论…