火山引擎ByteHouse:分析型数据库如何设计并发控制?

news2024/11/17 3:52:41

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

分析型数据库设计并发控制的主要原因是为了确保数据的完整性和一致性,同时提高数据库的吞吐量和响应速度。并发控制可以防止多个事务同时对同一数据进行修改,导致数据不一致的情况发生。通过合理的并发控制策略,分析型数据库可以在保证数据一致性的前提下,最大限度地提高数据库的并发处理能力,从而提高整体性能。

此外,并发控制也可以有效减少事务因等待锁释放而造成的延迟,确保数据库能够快速响应用户的查询和更新操作。因此,设计合理的并发控制机制是分析型数据库中非常重要的一个环节,它能够确保数据库系统高效、稳定地运行,为数据分析、查询等应用提供强有力的支持。

作为火山引擎推出的一款分析型数据库,ByteHouse 通过并发控制,让多个用户或应用程序可以同时访问和操作数据库,而不会产生冲突或破坏数据,提高数据库的利用率和响应速度,为用户提供更好的数据分析服务。

事务和并发控制

事务概览

在 ByteHouse 里,为了保证数据质量,我们提供了事务语义的支持。每条 SQL 语句都会转换为一个事务去执行,事务提供了原子性、一致性、隔离性和持久性 (ACID) 属性的保证,旨在在并发读写,软件异常,硬件异常等各种情况下仍然可以保证数据的正确性和完整性。

原子性(Atomicity)保证每一个事物被视为一个单元,事物要么完全成功要么彻底失败。在事务成功之前,写入的数据不可见,不会出现部分数据可见的情况。事务失败之后,会把写入的部分数据自动清理掉,不会导致垃圾数据的残留。ByteHouse 在各种情况下等会保证原子性,包括掉电,错误和宕机等各种异常情况。

一致性(consistency)保证数据库只会从一个有效的状态变成另外一个有效的状态,任何数据的写入必须遵循已经定义好的规则。

隔离性(isolation)确保数据库 SQL 并发执行(例如,同一时刻读写同一张表)的正确性,确保数据库的状态在并发场景下能等价于某种顺序执行的状态,事务之间互不影响。隔离性是并发控制的目标,可以有多种隔离级别的实现,ByteHouse 为用户提供的是 read committed(rc)隔离级别的支持。未完成的事务的写入对于其他事务是不可见的。

持久性(Durability)保证数据的高可用性。一旦事务成功提交,其写入的数据会被持久化,及时在出现各种系统 failure 的情况下不丢失。ByteHouse 采取的存储计算分离结构,利用了成熟的高可用分布式文件系统或者对象存储(例如 hdfs,S3),保证成功事务所提交数据的高可用。

技术选型

ByteHouse 是一款分析型数据库(OLAP),跟事务型数据库(OLTP)在事务上的需求是不同。分析型在事务上针对高吞吐低延迟的场景,相反,事务性数据库针对的是高 QPS 实时的场景。除了基本的 ACID 属性需要保证,ByteHouse 在事务实现选型上主要有 3 个特别的需求。首先,ByteHouse 单个事务可能涉及到海量数据(例如,上亿行级别),事务对数据吞吐和写入性能有较高要求,并且需要保证其原子性。其次,分析型数据库的 workload 中读的比例高于写,事务需要保证读 workload 不会被写 workload 影响和阻塞。最后,事务需要具备灵活可控的并发控制的功能,ByteHouse 里除了需要处理用户侧并发的 workload,还需要处理并发的后台任务。

ByteHouse 事务处理主要是对用户数据的元数据进行管理,元数据包括用户的 db,table 和 part(part 是数据文件的元数据,包括了 part 名字,columns,行数,状态,版本,提交时间等信息)。随着数据的增长,元数据本身数量级也会线性增长,不能丢失并且需要高可用,所以需要一个分布式存储/数据库的方案。我们选择了成熟的分布式 key-value 数据库的作为 ByteHouse 的元数据的存储方案,通过抽象元数据读写 API,后端适配了字节自研的 ByteKV 和苹果公司开发的 FoundationDB。

分布式时钟

事务在分布式系统中的执行需要在分布式不同节点中进行时钟同步。ByteHouse 采取了简单实用的 Timestamp Oracle(TSO)方案。其优点首先简单易懂,采取中心授时,能够确定唯一时间。然后是性能好,通常一个 tso 节点能支持 1m+的 QPS。缺点是不适合跨数据中心的场景,所有事务从 tso 获取时间延迟较高。由于 TSO 是中心化授时方案,ByteHouse 为其提供了高可用服务。

TSO 使用混合逻辑时钟,时钟由物理部分和逻辑部分组成,64 位表示一个时间。为了避免 TSO 宕机导致的时间戳丢失,需要对时间戳持久化。但是如果每次授时都持久化将会降低性能,所以 TSO 会预申请一个可分配的时间窗口(例如 3s)申请成功之后,TSO 可以在内存中直接分配 3 秒窗口之内的所有时间戳。客户端请求时间戳,逻辑时钟部分随着请求递增。如果出现逻辑部分溢出情况,会睡眠 50ms 等待物理时钟被推进。TSO 会每 50ms 检查时钟,如果当前 TSO 的物理时钟已经落后于当前时间,需要更新 TSO 的物理时钟部分为当前物理时间。如果逻辑时钟部分过半,也会增加 TSO 的物理时钟,一旦物理时钟增长,逻辑时钟清零。如果当前时间窗口已经用完,需要申请下一个时间窗口。同时更新持久化的窗口上界。

事务处理

  • Atomicity(原子性)

ByteHouse 单个事务在元数据管理上有高吞吐读写的需求,由于分布式 key-value 数据库(例如 ByteKV,FoundationDB)对单次原子写入的 value 都有大小限制(例如 10MB),ByteHouse 自己在分布式 key-value 存储之后实现了 2 阶段,使得单次写入大小不受限并且更加灵活可控。在第一阶段可以分批多次写入任意数据,并且不可见。第二阶段对事务进行提交,提交成功之后所有写入的数据同时可见。下面以一个 insert sql 为例,描述了 2 阶段原子提交的一个详细流程。

  • 阶段 1

    1. a: 在 kv 里写入事务记录(txn record),唯一标识当前事务;

    1. b: 解析 insert sql 并执行;

    1. c: 在远端文件系统或者对象存储写入数据之前,先把要写入数据的位置信息写入 undo buffer(供失败情况下清理使用);

    1. d: 把数据写入到远端文件系统或者对象存储;

    1. e: 提交数据的元信息 part,写入到 kv 中;

  • 阶段 2

    提交事务,并更新事务记录的提交时间;

    异步更新 part 数据的提交时间为事务的提交时间(part 未更新提交时间之前,需要反查事务记录的提交时间);

事务提交详细流程图

  • Consistency(一致性)

ByteHouse 选择的分布式 key-value 存储系统,ByteKV 和 Foundation 已经提供了一致性的支持,直接复用即可。

  • Isolation(隔离性)

ByteHouse 对用户提供 Read Committed(RC)隔离级别的支持。每个事务初始化的时候会从 TSO 服务获取一个 timestamp 作为其 id 和开始时间,提交的时候会再从 TSO 服务获取一个提交时间,在事务提交的时候更新 kv 里事务记录的提交时间并异步更新 part 的提交时间。读事务可以读取到已经提交成功(对应事务提交即成功)并且提交时间小于读事务开始时间的 part 元数据信息,从而实现 RC 语意。相比更加严格的隔离级别,RC 隔离级别可以最大化读性能。而更严格的隔离级别例如 Serializable Snapshot Isolation(SSI),读可能会被写入 block。

  • Durability(持久性)

ByteHouse 元数据持久到 ByteKV 或者 FoundationDB 中,2 个分布式 key-value 存储提供了持久化和高可用的保障。

并发控制

ByteHouse 利用多版本和锁来保证并发读写场景下数据的正确性。ByteHouse 除了来自用户的 workload,内部还有后台任务(merge/alter 任务和唯一键表的去重任务)的并发读写需要处理。ByteHouse 选择了 RC 隔离级别,对于新的写入(例如 insert),由于不可见,可以无锁执行。对于已有数据,在并发读写时,需要进行并发控制。对于并发读和写这种场景,ByteHouse 利用多版本解决了读和写冲突,提供了读写性能。对于并发写写的场景(例如 merge 和唯一键表的去重任务),利用了加锁来保证数据的正确性。

多版本

每个 part 的元数据除去其原有基本信息之外,都有一个对应的版本(version),每次对已有数据进行变更,都会产生一个新的版本,而不是直接在原有数据上进行更新。对于 RC 隔离级别,已经开始的读事务,仍然继续读取旧的版本,新版本对其不可见,这样读和写互相不影响,最大化读写性能。

  • 分布式 KV 锁

ByteHouse 对于 DDL 提供了全局 KV 排他锁避免并发的对 table schema 进行变更,分布式 kv 锁是全局共享,不同的节点都可以共享。

  • 内存读写锁

    支持共享锁和排他锁

    支持等待

    支持不同粒度

ByteHouse 提供了多级细粒度 DML 读写锁的支持,DML 相关的任务可以根据需求在不同粒度持不同类型的锁。

        Table       /      \      bucket   \      /         \   partition   partition

复制代码

垃圾回收

ByteHouse 对于不可见的 part 和版本会定期进行回收,例如 merge 任务生成新的 part 之后,对于旧的 part,当不再被查询引用之后,就会进行回收,释放空间,降低成本。

点击跳转ByteHouse了解更多

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1423544.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ICMPv6报文解析及NAT处理

ICMPv6报文概述 参考RFC4443和RFC2460 ICMPv6报文是IPv6在internal control management protocol(ICMP)的基础之上做了一些改动,得到了ICMPv6协议,IPv6的next_header为58。 Message general format 每条ICMPv6消息之前都有一个…

从零开始的OpenGL光栅化渲染器构建6-PBR光照模型

前言 PBR,或者基于物理的渲染(Physically Based Rendering),它指的是一些在不同程度上都基于与现实世界的物理原理更相符的基本理论所构成的渲染技术的集合。正因为基于物理的渲染目的便是为了使用一种更符合物理学规律的方式来模拟光线,因此…

Mybatis 源码系列:领略设计模式在 Mybatis 其中的应用

文章目录 一、Builder模式二、工厂模式三、单例模式四、代理模式五、组合模式六、模板方式模式七、适配器模式八、装饰器模式九、迭代器模式 虽然我们都知道有23种设计模式,但是大多停留在概念层面,真实开发中很少遇到,Mybatis源码中使用了大…

代理IP技术在云函数中的创新应用与拓展空间

目录 前言 一、代理IP技术的基本概念和原理 二、云函数的基本原理和优势 1. 弹性伸缩 2. 省时省力 3. 按需计费 三、代理IP技术在云函数中的创新应用 1. 反爬虫技术 2. 访问安全性和隐私保护 3. 地理定位和访问控制 四、代理IP技术在云函数中的拓展空间 1. 代理IP池…

力扣hot100 跳跃游戏 贪心

Problem: 55. 跳跃游戏 文章目录 思路复杂度Code 思路 👨‍🏫 参考 挨着跳,记录最远能到达的地方 复杂度 时间复杂度: O ( n ) O(n) O(n) 空间复杂度: O ( 1 ) O(1) O(1) Code class Solution {public boolean canJump(int[] nums)…

AI大模型专题:大模型安全与伦理研究报告2024

今天分享的是AI大模型系列深度研究报告:《AI大模型专题:大模型安全与伦理研究报告2024》。 (报告出品方:腾讯研究院) 报告共计:76页 大模型具有不同于传统模型的特点和优势 第一,大模型和传统…

页面通过Vue进行整体页面不同语言切换 i18n库

目录 引入 如何做到 下载i18n库 构建整体翻译文件结构 语言包文件 i18n配置文件 把i18n挂载到vue实例上 添加按钮点击事件切换语言 引入 我们现在有这样一个要求,我们想要对我们开发的网页进行国际化操作,也就是我们不仅要有中文,还要有英文等。用户可以随时进行不同语言…

langchain+xray:prompt控制漏洞扫描

写在前面 xray是长亭推出的一款漏洞扫描工具。 langchain是调用LLM大模型完成自动化任务的框架。 本篇文章是对langchain自定义工具的探索,通过编写一个xray调用的工具,联合ChatGPT对xray进行调用,实现对目标的漏洞扫描。 xray功能分析 …

洛谷-P4124题-手机号码-Java

题目 题目链接: https://www.luogu.com.cn/problem/P4124 分析 给定两个长度为11位的数字,代表两个区间 [L,R] 需要编写程序来计算出,这两个区间内满足要求的数字个数。这样的题一般来说就是数位dp题。首先我们可以根据容斥原理 [0,R]中满…

第一批 Apple Vision Pro 开箱和佩戴体验新鲜出炉!!!

注: 本文转自微信公众号 BravoAI (专注AI资讯和技术分享), 原文网址:第一批 Apple Vision Pro 开箱和佩戴体验新鲜出炉!!!, 扫码关注公众号 编者按: 整个AR/VR行业都在等AVP, 期待它能带来ChatGPT般的冲击 AVP(Apple Vision Pro) 是苹果公司研发的第一款"空间计算 (Spa…

跟着pink老师前端入门教程-day11

3、CSS 三角 网页中常见一些三角形,使用CSS直接画出来即可,不必做成图片或字体图标 4、CSS 用户界面样式 4.1 什么是界面样式 界面样式:更改一些用户操作样式,以便提高更好的用户体验(更改用户的鼠标样式、表单轮廓…

Redis简单阐述、安装配置及远程访问

目录 一、Redis简介 1.什么是Redis 2.特点 3.优势 4.数据库对比 5.应用场景 二、 安装与配置 1.下载 2.上传解压 3.安装gcc 4.编译 5.查看安装目录 6.后端启动 7.测试 8.系统服务配置 三、Redis远程访问 1.修改访问IP地址 2.设置登录密码 3.重启Redis服务 …

《QDebug 2024年1月》

一、Qt Widgets 问题交流 1. 二、Qt Quick 问题交流 1.Repeator 的 delegate 在 remove 移除时的注意事项 Qt Bug Tracker:https://bugreports.qt.io/browse/QTBUG-47500 Repeator 在调用 remove 函数之后,对应的 Item 会立即释放,后续就…

RabbitMQ之死信队列、延迟队列和懒队列

目录 死信队列 何时会产生死信 死信队列的配置方式 参数x-dead-letter-routing-key 如何确定一个消息是不是死信 延迟队列 懒队列 声明懒队列的两种方式 参数声明 策略指定 死信队列 死信队列是RabbitMQ中非常重要的一个特性。简单理解,他是RabbitMQ对于未…

第九节HarmonyOS 常用基础组件20-Divider

1、描述 提供分割器组件,分割不同内容块或内容元素。 2、接口 Divider() 3、属性 名称 参数类型 描述 vertical boolean 使用水平分割线还是垂直分割线。 false:水平分割线 true:垂直分割线 color ResourceColor 分割线颜色 默认…

数字图像处理(实践篇)三十七 OpenCV-Python 使用SIFT和BFmatcher对两个输入图像的关键点进行匹配实践

目录 一 涉及的函数 二 实践 三 报错处理 使用SIFT(尺度不变特征变换)算法

【Midjourney】AI绘画案例(1)龙年吉祥神兽

说明: 1、文中图片版权均为Midjourney所有,请勿用作商业用途。 2、文中图片均经过 Upscale x 4 处理。 3、由于模型原因,某些图片存在暇玼。 1、吉祥神兽——天马(独角兽) 天马消灾星。 提示词 Prompt: Sky Unicor…

力扣(LeetCode)227. 基本计算器 II

给你一个字符串表达式 s ,请你实现一个基本计算器来计算并返回它的值。 整数除法仅保留整数部分。 你可以假设给定的表达式总是有效的。所有中间结果将在 [-231, 231 - 1] 的范围内。 注意:不允许使用任何将字符串作为数学表达式计算的内置函数&#…

Java在网络通信中应该如何选择合适的序列化框架?

前言 说到网络通信就会牵涉到数据的序列化与反序列化,现如今序列化框架也是层出不穷,比如FST、Kryo、ProtoBuffer、Thrift、Hessian、Avro、MsgPack等等,有的人可能会有疑问,为什么市面上有这么多框架,JDK不是已经有自…

LeetCode刷题日志-117填充每个节点的下一个右侧指针II

二叉树的题目,我认为二叉树必须要掌握递归的三种遍历算法,以及层序遍历算法才能做二叉树题目。这道题目我的想法是: 因为在二叉树每一层中,next指针指向的是的当前节点的右边的节点,所以,使用层序遍历&…