大规模块存储 EC 系统构建

news2025/1/16 1:38:51

本文整理自 2023 年 7 月 DataFunSummit 2023 数据基础架构峰会——大规模存储架构分论坛的同名主题分享。


非常欢迎大家的到来,今天由我来分享百度智能云块存储 EC 系统的构建。块存储系统在百度智能云的产品名叫 CDS,底层 EC 系统由 Aries 承担。

今天主要介绍的内容如下,首先会比较一下各种容错方式,介绍一下我们选择 EC 容错方式的必然性;然后给大家介绍一下在块存储产品下构建 EC 引擎的挑战,并逐步展开对这些挑战进行分析和解决的方法;最后,我们介绍一下基于这个解决方案的一些优化。

1. 数据容错方式比较

首先介绍一下常见的数据容错方式。

数据容错在单机和分布式系统下,有着不同的选择。

单机情况下,比较直接的方式是选用 RAID 卡。在 BIOS 中配置,一般支持 RAID5 就够了。如果没有 RAID 卡,也可以用软 RAID,创建带有 RAID 功能的逻辑卷。

分布式的情况,比较直接的方式是采用多副本的形式,将数据复制成多份,存在不同的机器。实际上,最好将每份数据保存到不同的交换机下。另外一种方式是采用分布式纠删码的方式。这种方式其实就是分布式的 RAID。只不过,单机用奇偶校验的 RAID5 基本可以保证数据安全,而分布式系统中,由于磁盘规模庞大,纠删码的复杂度要高一些。

图片

这里介绍一下分布式容错方式的实现。多副本方式容错,每个副本的数据相同,所以,一般采用分布式的一致性协议对数据进行同步,主流的协议为 Paxos 和 Raft。有的系统也会自研一些分发写的协议。最终目的是保证多份数据相同。多副本情况下,假设是 N 副本,则最多允许 N-1 份数据损坏。

纠删码则是将用户的原始数据进行切分,形成 K 个大小相等的分片,然后对这些分片进行编码,形成 M 个校验分片。校验分片的大小和数据分片相同。K+M 个分片会被分布在不同的机器上。一般情况下,纠删码允许最多 M 个分片数据损坏。最常用的纠删码是 Reed-Solomon 编码(RS 码);

图片

从成本考虑,3 副本将数据存储 3 份,因此是 3 倍的存储成本。而纠删码,是 K+M 的形式,K 份的数据,编码形成 M 份校验。通常情况下,M 比 K 要小。因此存储成本一般为 1.x 倍。

但是,纠删码也有自己缺点。多副本将数据无修改地复制到另外节点,不需要计算参与,数据恢复则是将数据重新复制一遍,方法比较简单。而纠删码则涉及到编码和解码,除了计算以外,编码和解码同样会带来额外的 I/O 开销。

现代 CPU 已经支持 RS 编码的硬件加速,能够提升编码/解码速度,极大减少计算压力。而 I/O 放大,则是我们重点要解决的问题。

磁盘通常具有 1%~2% 的年化故障率。由于分布式系统规模都比较大,大的集群都会有千台机器,万块磁盘的规模,一定会同时出现多块磁盘同时故障。因此,一般分布式系统都采用 2 个以上的备份或者校验。一般采用 3 副本或者 RS 编码才能保证数据的可靠性。基于目前的集群规模和成本,纠删码是必然的选择。

图片

2. 大规模块存储 EC 的技术挑战

既然选择了纠删码,下面那必须解决 EC 系统中面临的各种问题。

系统面临的挑战主要来自几个方面。一个是产品访问特性,块存储存储的是动态数据,用户会随时对数据进行修改。而 EC 修改代价高,原地修改需要引入额外计算和 I/O 放大。

另外就是用户下发给磁盘的数据大小不一,而小写不适合 EC。如何解决小 I/O 的 EC,是另外一个问题。

应用场景上,用户对大小写的要求是不一样的。因此,我们的设计需要一个合理的系统开销,减少资源占用,使得用户有比较好的 I/O 表现。

图片

对比一下对象存储。它对外的接口是 put、get、delete。写入时,将一个对象的整体数据整体写入和整体删除,不涉及到重新编码的问题。因此,除了写入时产生的校验数据需要保存,没有其他写放大问题。

图片

块存储,主要接口是读写和删除。与对象存储不同,这里的写绝大部分是对原有数据的修改。

对于部分数据修改,如果重新计算校验,需要将剩余数据从其余节点读到内存中,重新计算校验值,然后将校验再次写回。这里涉及到了「读-修改-写」,I/O 放大比较严重。

图片

这里是线上 I/O 次数统计,小 I/O 的次数远远多于大 I/O。块存储 CDS 中,4K 大小的 I/O 占据了半数以上的写次数。但是小 I/O 不太适合 EC。

举个例子:我们如果采用 K 为 4,M 为 2 的编码,需要将分片切成 1K 大小,而一般情况下,文件系统对于 4K 倍数的 I/O 支持比较友好,1K 的 I/O size,相对来说,不是很合理的 I/O size。如果 K 值更大,会产生更细碎的分片。我们需要解决这些小 I/O 的 EC。

图片

现代软件已经对磁盘访问有比较多的优化。当程序追求吞吐时会下发大 I/O,减少磁盘寻道时间。当程序对延时有需求时,通常会下发尽量小的 I/O,减少不必要的数据对 I/O 带宽的占用。

因此,总体看来,对于小 I/O用户需要的是小的延时,对于用户大的 I/O 用户需要的是高的吞吐。

硬件的物理带宽是有限的,提供高性能的存储引擎,系统本身占用的资源应该尽量小。对于存储引擎来说,主要就是写放大问题。

图片

3. 百度沧海的实现方案

针对以上问题,我们看一下百度沧海的解决方案。

这里我们重新看一下修改,I/O 放大的主要原因是需要对原有存量数据进行修改操作,如果不做特殊优化,这些操作需要将原有数据读出来,用于计算新的校验。

CDS 的选择是构建一个索引层,索引指向 EC 后的数据,数据的修改不在原地进行。

这里给了个例子,用户第一次写的数据,EC 并且存储后,建立了一个索引指向这块数据。后续在中间的修改将作为一个新数据进行 EC 并且存储。然后构建新的索引指向新的数据,之前的索引分裂成 2 部分。

图片

这样做后,我们实际上建立了一个基于 EC 数据的 Append 引擎。EC 后的数据,对应的就是 Append 引擎中的 segment。所有的修改采用追加写的形式,等同于 append 引擎的单路追加写。

实际上,CDS 并未从头开始设计一个 EC 系统,而是采用了公司内成熟的 EC 系统 Aries 作为底层储存介质,Aries 是百度沧海提供的特别优秀的 EC 系统和数据底座。写入 Aries 的数据将作为一个 slice 存储,而一个 slice 可以对应到逻辑层的一个 segment。

图片

我们前面提到了需要处理用户小写 EC 的问题。可以采用的一个方案是建立一个三副本的存储层,用来缓存用户 I/O。当用户写满一定规模的数据时(比如:1GB),将这些数据 EC 后进行存储。

这样的好处是所有写数据混在一起进行存储,分片的切分可以根据 EC 规模进行选择,可以做到分片对 I/O 友好。其中,EC 层基本可以假设分片是固定大小的。

图片

但是,这么做的缺点也很明显。数据会被先写到 3 副本层,再写到 EC 层。一定会有多于 4 倍的 I/O 放大。我们也统计了线上数据的写入量,数据量占据比较多的是大 I/O。这些大 I/O 对 EC 相对比较友好,可以采用直接 EC 的方式进行。

图片

百度沧海的方案是将大写和小写进行分别处理。大写直接进行 EC,小写采用 3 副本形式存储。

这样做的好处是,大写的数据不经过 3 副本层,规避了缓存带来的绝大多数 I/O 放大。3 副本主要存储小 I/O,因为占比小,所以对成本的压力增长不是很大,I/O 放大也不是很严重。

图片

系统实现时,预留了 10% 作为 3 副本存储空间。3 副本也采用 append 引擎进行存储。数据 compaction 时,直接将数据存储到 EC 层。

这种设计,当 3 副本层空间紧张时,数据仍然会被进行 EC 存储,能够在用户都是小 I/O 的极端情况下,仍然有不错的成本表现。

图片

内部交流时,经常会被问到数据是否会从 EC 层转移到 3 副本层。如果是同种介质,我们假设访问延时没有变化。因此,不将 3 副本层作为缓存层。

图片

大 I/O 并不是固定大小,系统选择将大 I/O 直接 EC 的情况下,对于底层 EC 的存储引擎有新的要求。它必须能够处理不同大小的分片。

设计难点是,释放的空间如何被回收利用。图中给了个例子,当数据比空洞大时,无法将数据放入;当数据比空洞小时,造成空间浪费。因此,下层存储应该采用能够很好适应变长分片的引擎。

图片

EC 存储引擎层仍然采用 append 写的方式。新数据 append 写,紧密排列在存储系统的后端。这样,新数据的空间分配变的简单。

相对于原地写,append 写无论是对于 ssd 还是 hdd,性能都更好,这也为高性能存储打下了基础。

图片

因此,总体架构是一个双层 append 架构。第一层有一个逻辑的 append 引擎,每个 EC 数据对应一个逻辑 segment。下层物理层存储 EC 的分片,也采用 append 的方式,数据只进行追加写。

我们通过两层架构解决了修改放大,大小写如何 EC 的问题。但是,仍然需要进一步提高系统性能,提升用户体验。

图片

目前采用 2 层 append 引擎的方式构建系统。Append 的性能必然会对系统产生比较大的影响。存储系统,一般的瓶颈都是 I/O。Append 引擎天然存在写放大,主要来源为 compaction。

由于系统总带宽固定,如果 compaction 占用的带宽过大,留给用户使用的带宽就会降低,影响用户体验。

Append 引擎的一个重要评价指标,就是 I/O 放大,即系统总的物理 I/O 除以用户的 I/O。

图片

要实现比较低的 I/O 放大,我们需要了解用户数据的访问特征。根据用户数据的访问特征,进行有效优化。

一般来说,用户的数据访问都存在热点情况。即最近写过的数据,被再次写的概率更大,也符合齐夫分布的特征。

齐夫分布,如公式所示,r 为访问频率的排名。C 和 ⍺ 为常数。即排名越往后,访问频率越低。对这个公式同时取对数的情况下,是一个下降的直线。我们也对线上数据的写频率进行了统计。除了长尾外,前半部分排名的数据,基本符合齐夫分布。

如果按照访问时间进行统计,那么 1 天内有写的热数据,只占总数据的 5% 左右。

图片

既然数据有冷热,那么当我们选择 segment 进行 compaction,就可以利用数据的这种访问特点进行。

一般的选择方法是贪心算法,即选择最空的 segment 进行 compaction。如图中的例子,在贪心算法的情况下,由于 segment B 的空洞率更高,会选择 segment B 进行 compaction。但是,由于 B 中的数据比较新,很有可能是热数据,则这些数据过很小的一段时间就可能被覆盖写。这次数据搬迁就显得多余。

考虑到 segment A 中数据比较老。按照用户访问特点,更老的数据被更新的可能性更小。Segment A 会被长期占用,空洞空间无法释放。实际上,这些空洞更有价值,因为一旦释放,能够被利用很长时间。所以,cost-benefit 算法兼顾了空洞率和数据年龄。它的 pick 算法如公式所示,其中 u 代表有效数据率,age 表示 segment 中最新数据的年龄。这样,空洞率比较高的的 segment 会被选中,老的 segment 也有大概率被选中,释放出更有价值的空洞。

图片

另外,compaction 的数据和用户的写入数据同样有不同的冷热。通常 compaction 的数据为长时间没有写到的数据。将这些数据单独分流,能够形成较为稳定的 segment。而用户的写入的数据短时间内被写的可能性比较大,也单独放置。这样进行分类后,能够形成一些致密的 segment,存放老数据。频繁的写入形成一些稀疏的 segment,这些 segment 可以被反复利用。

如果想要更好的效果,可以将数据流划分更细,更多地减少写放大。

图片

我们统计了线上统计访问,进行回放,控制不同物理空间使用情况下,验证了写放大的优化效果。

从图中可以看出,cost-benefit 与贪心算法相比,能够有效减少写放大。在高空间占用率的情况下(如 95%),cost-benefit 方式,能够达到 1.5 以下的写放大。而贪心算法则要达到 4 倍以上。

另外,更多的分流能够减少写放大。在贪心算法的情况下,能够节省较多的 I/O。cost-benefit 情况下,4 路到 6 路收益不太明显。

另外可以看出,空间使用率对写放大也有影响,即较低的空间使用率的情况下,写放大更好。这也符合直觉,compaction 越晚发生,segment 形成的空洞越多。

图片

对于多层 append 系统,每一层都期望把本层能用的空间尽量用满,然后再做 compaction。但是这么做会导致下一层的空间持续紧张,导致下层写放大比较严重。例如,如果逻辑层写的比较满,迟迟不做 compaction,那么物理层则需要频繁做 compaction 为逻辑层提供充足写空间。

系统的整体写放大,应该是每一层的写放大的乘积。那么,总体写放大并不是追求单独一层低写放大,而是一个均衡的写放大,使得整体写放大较低。

图片

因此,我们结合自己的系统特征,设计了一个均衡 compaction 的点。最上层是用户数据空间,下层是 EC 系统能够提供的物理空间,中间是写入 EC 层的数据。

我们选择一个中间点进行 compaction 的选择,如果这个点偏左,说明上层数据比较致密,空洞较少,则下层进行 compaction。如果这个点偏右,则说明下层致密,上层空洞率较多,触发上层的 compaction。

这样,我们就形成了一个动态可调节的 compaction 点,使得上下层的 compaction 都不太大,动态维护一个较低的整体 compaction。

图片

总结下来,系统有低成本的需求,大规模场景下多副本由于成本问题,不能满足需求。因此,我们必要采用纠删码的形式组织数据。

而纠删码本身修改代价比较大,系统设计当中,利用追加写的方式进行修改。并且采用大小写分离的方式存储数据。分离后,大写部分产生的 EC 数据为变长,采用 append 的引擎,为这种变长分片提供更好的空间分配机制,同时能够充分利用硬件追加写的性能优势。

综上,百度沧海的块存储采用了 2 层 append 方案,规避了 EC 的修改代价。通过大小写分离情况,解决了小写不适合 EC 的情况。同时选择了合适 pick 算法、数据分流、合适的 compaction 点的方式,优化了系统的写放大,能够达到低成本下较高的系统性能。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1439804.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

04-Java建造者模式 ( Builder Pattern )

建造者模式 摘要实现范例 建造者模式(Builder Pattern)使用多个简单的对象一步一步构建成一个复杂的对象 一个Builder 类会一步一步构造最终的对象,该 Builder 类是独立于其他对象的 建造者模式属于创建型模式,它提供了一种创建对…

[当人工智能遇上安全] 11.威胁情报实体识别 (2)基于BiGRU-CRF的中文实体识别万字详解

您或许知道,作者后续分享网络安全的文章会越来越少。但如果您想学习人工智能和安全结合的应用,您就有福利了,作者将重新打造一个《当人工智能遇上安全》系列博客,详细介绍人工智能与安全相关的论文、实践,并分享各种案…

Spring 的奇幻起源:从 IoC 容器到 Bean 的魔法世界 ✨

目录 什么是 Spring?为什么它如此流行? IoC 容器:从“依赖倒置”到“控制反转” Bean:IoC 容器中的基本组件 Spring 中的配置方式:XML、注解和 JavaConfig Bean 的作用域和生命周期管理 Bean 的属性装配和自动装配…

[大厂实践] Netflix容器平台内核panic可观察性实践

在某些情况下,K8S节点和Pod会因为出错自动消失,很难追溯原因,其中一种情况就是发生了内核panic。本文介绍了Netflix容器平台针对内核panic所做的可观测性增强,使得发生内核panic的时候,能够导出信息,帮助排…

Java ieda 抽风报错导致无法正常启动项目

Java ieda 抽风报错导致无法正常启动项目 问题描述:新建模块运行时出现下面报错,不能正常启动程序。 Error:Module 你的项目名 production: java.lang.ClassCastException: class org.jetbrains.jps.builders.java.dependencyView.TypeRepr$PrimitiveT…

适用于 Windows 11/10/8.1/8/7 的最佳 SD 卡恢复软件

丢失了 SD 卡中的一些重要照片或文档,并且不知道如何恢复?好吧,别担心!!以下是一些适用于 Windows 的最佳 SD 卡恢复工具,可增加您检索意外删除、丢失或丢失数据的机会。 什么是 SD 卡恢复软件?…

华为配置访客接入WLAN网络示例(MAC优先的Portal认证)

配置访客接入WLAN网络示例(MAC优先的Portal认证) 组网图形 图1 配置WLAN MAC优先的Portal认证示例组网图 业务需求组网需求数据规划配置思路配置注意事项操作步骤配置文件 业务需求 某企业为了提高WLAN网络的安全性,采用MAC优先的外置Portal认…

JVM-运行时数据区程序计数器

运行时数据区 Java虚拟机在运行Java程序过程中管理的内存区域,称之为运行时数据区。《Java虚拟机规范》中规定了每一部分的作用。 程序计数器的定义 程序计数器(Program Counter Register)也叫PC寄存器,每个线程会通过程序计数器…

从Unity到Three.js(安装启动)

发现在3D数字孪生或模拟仿真方向,越来越多的公司倾向使用Web端程序,目前一直都是使用的Unity进行的Web程序开发,但是存在不少问题,比如内存释放、shader差异化、UI控件不支持复制或输入中文等。虽然大多数问题都可以找到解决方案&…

什么是制动电阻器?工作及其应用

电梯、风力涡轮机、起重机、升降机和电力机车的速度控制是非常必要的。因此,制动电阻器是这些应用不可或缺的一部分,因为它们是电动机驱动器中最常用的高功率电阻器,用于控制其速度,在运输、海事和建筑等行业中。 电动火车主要比柴…

【蓝桥杯冲冲冲】Invasion of the Milkweed G

【蓝桥杯冲冲冲】Invasion of the Milkweed G 蓝桥杯备赛 | 洛谷做题打卡day30 文章目录 蓝桥杯备赛 | 洛谷做题打卡day30[USACO09OCT] Invasion of the Milkweed G题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 题解代码我的一些话 [USACO09OCT] Invasion of the Mi…

NIS服务器搭建(管理账户密码验证)

理解:新进100台服务器,通过nis服务器设置各个服务器的用户和密码,而不是分别到100台机器前设置用户名密码,服务器可以统一管理用户名密码,更新等操作 第一:服务器端设置 1.域名设置:dongfang …

(每日持续更新)信息系统项目管理(第四版)(高级项目管理)考试重点整理第10章 项目进度管理(三)

博主2023年11月通过了信息系统项目管理的考试,考试过程中发现考试的内容全部是教材中的内容,非常符合我学习的思路,因此博主想通过该平台把自己学习过程中的经验和教材博主认为重要的知识点分享给大家,希望更多的人能够通过考试&a…

格子表单GRID-FORM | 文档网站搭建(VitePress)与部署(Github Pages)

格子表单/GRID-FORM已在Github 开源,如能帮到您麻烦给个星🤝 GRID-FORM 系列文章 基于 VUE3 可视化低代码表单设计器嵌套表单与自定义脚本交互文档网站搭建(VitePress)与部署(Github Pages) 效果预览 格…

【芯片设计- RTL 数字逻辑设计入门 11.1 -- 状态机实现 移位运算与乘法 1】

文章目录 移位运算与乘法状态机简介SystemVerilog中的测试平台VCS 波形仿真 阻塞赋值和非阻塞赋值有限状态机(FSM)与无限状态机的区别 本篇文章接着上篇文章【芯片设计- RTL 数字逻辑设计入门 11 – 移位运算与乘法】 继续介绍,这里使用状态机…

LeetCode 0993. 二叉树的堂兄弟节点:深度优先搜索(BFS)

【LetMeFly】993.二叉树的堂兄弟节点:深度优先搜索(BFS) 力扣题目链接:https://leetcode.cn/problems/cousins-in-binary-tree/ 在二叉树中,根节点位于深度 0 处,每个深度为 k 的节点的子节点位于深度 k1 处。 如果二叉树的两个…

使用SM4国密加密算法对Spring Boot项目数据库连接信息以及yaml文件配置属性进行加密配置(读取时自动解密)

一、前言 在业务系统开发过程中,我们必不可少的会使用数据库,在应用开发过程中,数据库连接信息往往都是以明文的方式配置到yaml配置文件中的,这样有密码泄露的风险,那么有没有什么方式可以避免呢?方案当然是有的,就是对数据库密码配置的时候进行加密,然后读取的时候再…

25、数据结构/二叉树相关练习20240207

一、二叉树相关练习 请编程实现二叉树的操作 1.二叉树的创建 2.二叉树的先序遍历 3.二叉树的中序遍历 4.二叉树的后序遍历 5.二叉树各个节点度的个数 6.二叉树的深度 代码&#xff1a; #include<stdlib.h> #include<string.h> #include<stdio.h> ty…

生物——文献笔记

生物——文献笔记 文章目录 前言藻类群体遗传学研究和进展&#xff08;综述&#xff09;海洋动物群体遗传学的研究进展1. 影响群体基因频率的因素2. 根据自然群体的繁殖体系&#xff0c;海洋动物群体遗传类型可分为以下几类3. 海洋动物群体遗传研究中常用的遗传标记4. 研究展望…

UML 2.5图形库

UML 2.5图形库 drawio是一款强大的图表绘制软件&#xff0c;支持在线云端版本以及windows, macOS, linux安装版。 如果想在线直接使用&#xff0c;则直接输入网址drawon.cn或者使用drawon(桌案), drawon.cn内部完整的集成了drawio的所有功能&#xff0c;并实现了云端存储&#…