万字长文!对比分析了多款存储方案,KeeWiDB最终选择自己来

news2025/1/24 22:39:52

大数据时代,无人不知Google的“三驾马车”。“三驾马车”指的是Google发布的三篇论文,介绍了Google在大规模数据存储与计算方向的工程实践,奠定了业界大规模分布式存储系统的理论基础,如今市场上流行的几款国产数据库都有参考这三篇论文。

  • 《The Google File System》,2003年
  • 《MapReduce: Simplified Data Processing on Large Clusters》,2004年
  • 《Bigtable: A Distributed Storage System for Structured Data》,2006年

其中,Bigtable是数据存储领域的经典论文,这篇论文首次对外完整、系统的叙述了Google是如何将LSM-Tree架构应用在工业级数据存储产品中的。熟悉数据库的朋友,一定对LSM-Tree不陌生。LSM-Tree起源于上世纪70年代,1996年被正式提出,之后Google成功实现商业化应用。

LSM-Tree的核心思想是“Out-of-Place Update”,可以将离散随机写转化为批量顺序写,这对机械硬盘作为主流存储介质的时代而言,能大幅度提升系统吞吐。现如今,已经有一大批成熟的KV存储产品采用了LSM-Tree架构,例如DynamoDB, HBase, Cassandra和AsterixDB等。然而,工程实践往往存在一种取舍,几乎很难找到一个完美契合所有应用场景的设计。LSM-Tree在带来优秀的写入性能的同时,也带来了读写放大和空间放大问题。

随着硬件技术的发展,固态硬盘逐渐替代机械硬盘成为存储的主流,曾经的核心因素(随机写和顺序写的性能差异)现在也不再那么核心。那么现在存储系统设计的核心是什么呢?KeeWiDB倒是可以给你答案图片

高性能、低成本!如何减小固态硬盘擦除次数?如何延长使用寿命?这些都是KeeWiDB研发团队重点突破的地方。基于此,本文将重点阐述KeeWiDB中存储引擎的设计概览,详细介绍数据如何存储、如何索引,给读者提供一些KeeWiDB的思考和实践。

一、存储层

图1 展示的是存储在磁盘上的数据文件格式,数据文件由若干个固定大小的Page组成,文件头部使用了一些Page用于存储元信息,包括和实例与存储相关的元信息,元信息后面的Page主要用于存储用户的数据以及数据的索引,尾部的Chunk Page则是为了满足索引对连续存储空间的需求。Page至顶向下分配,Chunk Page则至底向上,这种动态分配方式,空间利用率更高

file 图1 KeeWiDB的存储层架构

和主流涉盘型数据库相似,我们使用Page管理物理存储资源,那么Page大小定为多少合适呢?

我们知道OS宕机可能产生Partial Write,而KeeWiDB作为一个严格的事务型数据库,数据操作的持久性是必须满足的核心性质之一,所以宕机不应该对数据的可用性造成影响

针对Partial Write问题,业界主流的事务型数据库都有自己的解决方案,比如MySQL采用了Double Write策略,PostgreSQL采用了Full Image策略,这些方案虽然可以解决该问题,但或多或少都牺牲了一定的性能。得益于SSD的写盘机制,其天然就对物理页写入的原子性提供了很好的实现基础,所以利用这类硬件4K物理页写入的原子特性,便能够在保证数据持久性的同时,而不损失性能。此外,由于我们采用的索引相对稳定,其IO次数不会随着Page页大小改变而显著不同。故权衡之下,我们选择4K作为基本的IO单元

至此,我们知道KeeWiDB是按照4K Page管理磁盘的出发点了,那么是否数据就能直接存储到Page里面呢?

如你所想,不能。针对海量的小值数据,直接存储会产生很多内部碎片,导致大量的空间浪费,同时也会导致性能大幅下降。解决办法也很直观,那就是将Page页拆分为更小粒度的Block

图2 展示了Page内部的组织结构,主要包括两部分:PageHeaderData和BlockTable。PageHeaderData部分存储了Page页的元信息。BlockTable则是实际存储数据的地方,包含一组连续的Block,而为了管理方便和检索高效,同一个BlockTable中的Block大小是相等的。通过PageHeaderData的BitTable索引BlockTable,结合平台特性,我们只需要使用一条CPU指令,便能够定位到页内空闲的Block块

file 图2 Page组成结构

而为了满足不同用户场景的数据存储,存储层内部划分了多个梯度的Block大小,即多种类型的Page页,每种类型的Page页则通过特定的PageManager管理。

图3 展示了PageManager的主要内容,通过noempty_page_list可以找到一个包含指定Block大小的Page页,用于数据写入;如果当前noempty_page_list为空,则从全局Free Page List中弹出一个页,初始化后挂在该链表上,以便后续用户的写入。当Page页变为空闲时,则从该链表中摘除,重新挂载到全局Free Page List上,以便其它PageManager使用。

file 图3 PageManager组成结构

想必大家已经发现上面的数据块分配方式,和tcmalloc,jemalloc等内存分配器有相似之处。不同的是,作为磁盘型空间分配器,针对大块空间的分配,KeeWiDB通过链表的方式将不同的类型的Block链接起来,并采用类似Best-Fit的策略选择Block。如图4所示,当用户数据为5K大小时,存储层会分配两个Block,并通过Block头部的Pos Info指针链接起来。这种大块空间的分配方式,能够较好的减小内部碎片,同时使数据占用的Page数更少,进而减少数据读取时的IO次数

file 图4 Block链式结构

以上便是用户数据在KeeWiDB中存放的主要形式。可以看出,用户数据是分散存储在整个数据库文件中不同Page上的,那么如何快速定位用户数据,便是索引的主要职责

二、索引层

2.1 选型

KeeWiDB定位是一个KV数据库,所以不需要像关系型数据库那样,为了满足各种高性能的SQL操作而针对性的建立不同类型的索引。通常在主索引上,对范围查询需求不高,而对快速点查则需求强烈。所以我们没有选择在关系型数据库中,发挥重要作用的B-Tree索引,而选择了具有常数级等值查询时间复杂度的hash索引

hash索引大体上存在两类技术方案Static Hashing和Dynamic Hashing。前者以Redis的主索引为代表,后者以BerkeleyDB为代表。如图5所示,Static Hashing的主要问题是:扩容时Bucket的数量翻倍,会导致搬迁的数据量大,可能阻塞后续的读写访问。基于此,Redis引入了渐进式Rehash算法,其可以将扩容时的元素搬迁平摊到后续的每次读写操作上,这在一定程度上避免了阻塞问题。但由于其扩容时仍然需要Bucket空间翻倍,当数据集很大时,可能导致剩余空间无法满足需求,进而无法实现扩容,最终使得Overflow Chain过长,导致读写性能下降。

file 图5 Static Hashing扩容示意图

Dynamic Hashing技术旨在解决Overflow Chain过长的问题,核心思想是在Bucket容量达到阈值时,进行单个Bucket的分裂,实现动态扩容,而不是当整个hash table填充率达到阈值时才扩容。这样可以避免数据倾斜时,导致某个桶Overflow Chain过长,影响处理延迟。同时动态扩容每次只需一个Bucket参与分裂,扩容时搬迁数据量小。Dynamic Hashing通常有两种选型:Extendible Hashing和Linear Hashing。这两种算法都实现了上述动态扩容的特性,但实现方式有所不同。

如图6所示,Extendible Hashing使用Depth来表达参与运算的hashcode的最低有效位的长度。Local Depth和Bucket绑定,表示其中元素指定的最低有效位相等,等价于hash取模。Global Depth则表示全局参与运算的最低有效位长度的最大值,即代表当前逻辑Bucket的个数。Directory是指针数组,用于指代逻辑Bucket的物理位置信息,和物理Bucket存在多对一的映射关系,当Bucket的Local Depth等于Global Depth时,映射关系为一对一。

file 图6 Extendible Hashing扩容示意图

我们看看Extendible Hashing是怎么处理扩容的。若插入元素后,Bucket容量达到阈值,首先将该Bucket的Local Depth加1,然后分情况触发扩容:

  1. 当前Bucket的Local Depth < Global Depth,则只需要将该Bucket分裂,重设Directory指针即可。
  2. 当前Bucket的Local Depth == Global Depth,则不仅需要分裂该Bucket,同时还需要将Directory翻倍,并重设指针。

以图6为例,Bucket 2中的元素在扩容前,参与运算的最低有效位为10(Local Depth等于2);在扩容时,首先将Local Depth加1,然后最低有效位为010的元素保持不动,而其余有效位为110的元素,便被搬迁到物理Bucket 6中。由于Global Depth小于Local Depth,所以需要对Directory数组翻倍扩容,然后将逻辑Bucket 6的位置信息,指向物理Bucket 6。其余逻辑Bucket 4,5和7,则分别指向现存的物理Bucket 0,1,和3。

Extendible Hashing可以完全避免Overflow Chain的产生,使元素的读取效率很高,但也存在弊端:Directory需要翻倍扩容,同时重设指针代价高。虽然Directory存储的只是位置信息,和Static Hashing相比空间利用率更高,但仍然无法避免当Bucket数量很大时,扩容对大块空间的需求。同时扩容需要重设的Directory指针数据量,可能会随着数据集的增大而增大。这对涉盘型数据库来说,需要大量的磁盘IO,这会极大增加处理的长尾延迟。

Linear Hashing和Extendible Hashing相似,若插入操作导致Bucket容量达到阈值,便会触发分裂。不同的是,分裂的Bucket是next_split_index指向的Bucket,而不是当前触发分裂的Bucket。这种按顺序分裂的机制,弥补了Extendible Hashing需要重设指针的缺点。如图7所示,当Bucket 1插入元素17后达到了容量限制,便触发分裂,分裂next_split_index指代的Bucket 0,最低有效位为000的元素保持不动,把最低有效位为100的元素搬迁到新建的Bucket 4中,并将next_split_index向前递进1。

file 图7 Linear Hashing扩容示意图

Extendible Hashing通过Directory指针数组索引Bucket位置信息,而Linear Hashing则通过两个hash表来解决定位问题。如图8所示,和采用渐进式Rehash的Redis相似,可以将hash table看作同时存在一小一大两个表,分别以low_mask和high_mask表征。当定位元素所属Bucket时,主要分为以下几步:

  • 通过散列函数计算得到元素的hashcode;
  • 通过low_mask计算元素的候选bucket_index,bucket_index = hashcode & low_mask;
  • 若bucket_index >= next_split_index,则其为目标Bucket;
  • 若bucket_index < next_split_index,说明其对应的Bucket已经被分裂,那么参与运算的最低有效位数应该增加1位,即需要通过high_mask计算元素的目标bucket_index,bucket_index = hashcode & high_mask。

file 图8 Linear Hashing访问示意图

当然Linear Hashing也存在一个缺点:如果数据不均匀,则可能导致某个Bucket无法及时分裂,进而产生Overflow Chain。但相比Static Hashing而言,其长度要短很多。同时工程实践中,可以通过预分配一定数量的Bucket,缓解数据倾斜的问题。如果再适当调小触发Bucket分裂的容量阈值,几乎可以做到没有Overflow Chain。结合Extendible Hashing存在扩容时磁盘IO不稳定的问题,我们最终选择了Linear Hashing作为KeeWiDB的主索引。

2.2 详细设计

2.2.1 基础架构

接下来我们将走近KeeWiDB,看看Linear Hashing的工程实践。如图9所示,整个索引可以概括为三层:HashMetaLayer,BucketIndexLayer和BucketLayer。下面我们将分别对每个层次的内容和作用作一个概述。

file 图9 Linear Hashing实现架构图

HashMetaLayer

HashMetaLayer主要用于描述hash table的元信息。如图10所示,主要包括以下内容:

  • current_size: 当前hash table存储的元素个数;
  • split_bucket_index: 下次需要分裂的Bucket逻辑编号;
  • current_bucket_count: 当前使用的Bucket数量;
  • low_mask: 用于映射hash table的小表,high_mask =(low_mask << 1) | 1;
  • index_page_array: 用于存储分段连续的IndexPage的起始页的位置信息;

file 图10 hash meta组成结构

BucketIndexLayer

BucketIndexLayer表示一组分段连续的IndexPage页面。IndexPage主要用于存储物理Bucket的位置信息,其作用类似于Extendible Hashing的Directory数组。通过引入BucketIndexLayer,可以使物理Bucket离散分布于数据库文件中,避免对连续大块存储空间的需求。引入额外的层次,不可避免的会导致IO和CPU的消耗,我们通过两个方面来减小消耗。

首先,通过hash meta存储的index_page_array,将定位目标Bucket的时间复杂度做到常数级,减小CPU消耗。由于每个IndexPage所能容纳的Bucket位置信息数量是固定的,所以如果将IndexPage看作逻辑连续的Page数组时,就可以在O(1)时间复杂度下计算出Bucket所属的IndexPage逻辑编号,以及其在IndexPage内部的偏移。再把分段连续的IndexPage的第一个页的物理位置信息记录在index_page_array数组中,定位到IndexPage的物理位置便也为常数级。如图11所示,连续的IndexPage的页面个数与index_page_array的数组索引的关系为分段函数。采用分段函数主要基于以下考虑:

  • 减小空间浪费。使每次分配的IndexPage数量,随着数据量的增大而增大,而不是维持固定值,避免小数据量时造成空间浪费。特别是在多DB场景下(索引相互独立),用户数据倾斜时,这种空间浪费会被放大;
  • 增加空间使用的灵活性。每次分配IndexPage的数量也不能无限增大,避免无法分配大块的连续空间。

再者,我们通过内存缓存避免IndexPage的额外IO消耗,KeeWiDB通过10MB的常驻内存,便可以索引数十亿个元素

file 图11 indexpagearray 结构示意图

读者可能有疑问,既然IndexPage可以做到分段连续,那为何不直接将BucketPage做到分段连续,这样可以避免引入IndexPage,似乎还能减少IO次数。不这么做,是因为相同大小的连续空间,前者能索引的元素个数是后者的数百倍,所以在多DB场景下,前者更具有优势。与此同时,如果采用相似的索引策略,后者也并不能减小IO次数,因为bucket_page_array是index_page_array的数百倍大,这会导致hash meta无法存放在一个Page中,导致IO次数增加。所以,最终我们选择牺牲少量内存空间,以提高磁盘空间使用的灵活性。

BucketLayer

BucketLayer则是最终存储hash元素,即用户数据索引的地方。每一个逻辑Bucket由一组物理BucketPage链接而成,即采用开链法解决hash冲突,只是链接的单位是Page页而不是单个元素。BucketPage链表头称为PrimaryBucketPage,其余则为OverflowBucketPage。

如图12所示,BucketPage主要包括两方面内容:代表元信息的Header和存储数据的Blocks。Header存储的内容又可以分为两部分:表征Bucket结构和状态的Normal Meta,以及表征BucketPage内部Blocks存储状态的blocks map。Blocks数组是实际存储元素的地方,其和元素一一对应。

file 图12 Bucket Page组成结构

BucketPage可以看作是一个按照元素hashcode排序的有序数组。元素查找主要分为三步:

  • 首先通过blocks_sort_map,二分查找与待查键hashcode相等的index;
  • 通过index内记录的block_index,找到其对应的Blocks数组中的元素,即为候选索引;
  • 通过该候选索引读取存储的用户数据,若存储的数据健与待查健二进制相等,则该索引即是目标索引。

更新操作只需要将查找到的Blocks数组中对应的Block替换为新的元素。而元素插入操作在查找无果的基础上,还需要以下几步:

  • 通过blocks_alloc_map找到Blocks数组的空位,并将对应的bit位置1;
  • 将元素插入到该Blocks数组指定的空位中;
  • 构建index,更新blocks_sort_map。

同样,元素删除操作在查找成功后,也需要额外几步:

  • 通过blocks_alloc_map找到指定的bit位,将其置为0;
  • 删除index,更新blocks_sort_map。

除了用户触发的读写操作,hash table自身还存在分裂和合并操作。如图13所示,展示了Bucket分裂和合并时的状态转化图,Bucket主要存在五种状态:

  • Normal:常规状态;
  • BeingSplitted:分裂状态。触发分裂时,源端Bucket的状态;
  • BeingMerged: 合并状态。触发合并时,源端Bucket的状态;
  • BeingFilled:填充状态。触发分裂(合并)时,目的端Bucket的状态;
  • BeingCleanup:清理状态。分裂(合并)完成时,源端Bucket的状态。

file 图13 Bucket状态转换图

如图14所示,Bucket分裂操作主要分为三个阶段:

  • Prepare阶段:创建目的Bucket物理页,更新hash table结构,分别设置源端和目的端Bucket状态为BeingSplitted和BeingFilled;
  • Split阶段:将源端Bucket的数据,按照high_mask重新rehash,将不再属于该Bucket的数据拷贝至目的Bucket;
  • Cleanup阶段:将不再属于源端Bucket的数据清理掉。

和分裂操作相似,Bucket的合并操作也分为三个阶段:

  • Prepare阶段:分别设置源端和目的端Bucket状态为BeingMerged和BeingFilled。
  • Merge阶段:将源端Bucket数据,拷贝至目的端Bucket。
  • Cleanup阶段:清理源端Bucket,更新hash table结构。

file 图14 Bucket分裂和合并示意图

那么,正常读写场景下,用户访问延迟有多大呢?现在我们梳理下,用户写入数据时典型的IO路径:

  • 存储层分配数据Block,用于存放用户数据,并构建用户数据索引信息;
  • 查找主索引的元数据HashMetaBlock;
  • 通过用户数据键的hashcode值,计算得到目标Bucket逻辑编号,并定位IndexPage;
  • 通过IndexPage找到对应的BucketPage,插入用户数据索引。

由于HashMetaBlock和IndexPage数据量很小(亿级数据集只需几兆空间),可以直接缓存在内存中。那么一次典型的小值写入,平均只需要两次IO:一次数据写入,一次索引写入,这样平均处理延迟就能维持在较低的水平。随着数据集的增大,写入可能触发分裂式扩容,而大多数场景下,扩容只会涉及2个BucketPage,即只需要额外两次IO,且IO次数不会随着数据量的增大而增大,这样处理的长尾延迟就相对稳定可控。

2.2.2 并发控制

读者通过架构篇可以了解到,KeeWiDB采用了Shared-Nothing的架构设计,宏观上将数据集按Slot进行了拆分,每个线程独立负责部分Slot数据的读写,即发挥了多核并发的优势。而对于线程内部的读写访问,则引入了协程机制,来提高单核处理能力。协程级并发意味着可能存在多个协程同时访问系统资源,与主流关系型数据库相似,KeeWiDB通过两阶段锁实现事务serializable级别的隔离性要求,关于事务的相关内容,后续我们会有专题进行详细介绍。这里我们主要讨论的是,存储引擎层是如何保障数据访问的并发安全。

hash索引的并发控制,其核心是需要满足以下要求:

  • 读取保障:不会读取到中间状态的值,记作R-1;
  • 读取保障:不会因为分裂(合并),导致读取不到原本应该存在的值,记作R-2;
  • 写入保障:并发写入不会互相干扰,即写入满足原子性,记作W-1;
  • 写入保障:不会因为分裂(合并),导致丢失更新,记作W-2;
  • 自恢复保障:不会因为中途宕机,导致hash table结构被破坏,无法恢复服务,记作SR。

总体上,hash索引主要采用了三种锁确保并发安全:

  • Page锁:读写物理锁,确保物理页访问的原子性;
  • Bucket锁:Bucket级别读写逻辑锁,确保分裂(合并)时,写入的并发正确性;
  • Exclusive锁:特殊的Page写锁,该Page无他人引用。

什么是引用计数呢?如图15所示,Page从磁盘加载上来之后,存储在Cache模块的Buffer数组中,并通过PageDesc索引。每当用户请求相关Page,便使其引用计数加1,释放Page则引用计数减1,后台协程会通过算法周期性的选择引用计数为0的页淘汰。Exclusive锁的含义就是除了请求者之外,无他人引用,即引用计数为1。

file 图15 Page Cache模块示意图

下面将分别从内部hash table resize和外部用户读写两个典型场景,简要描述我们是如何做到并发安全的。为了后续行文方便,现在对部分简写的含义作如下说明:

  • PageWriteLock(X),PageReadLock(X):持有X资源的Page写锁或读锁。
  • PageWriteUnlock(X),PageReadUnlock(X):释放持有的X资源的Page写锁或读锁。
  • ExclusiveLock(X),ExclusiveUnlock(X):持有或释放X资源的Exclusive锁。
  • BucketWriteLock(X),BucketReadLock(X):持有编号为X的Bucket的写锁或读锁。
  • BucketWriteUnlock(X),BucketReadUnlock(X):释放持有的编号为X的Bucket的写锁或读锁。
  • LoadFromDisk(X):从磁盘加载X表征的物理页,存放在Cache模块中。若已经成功加载,则只将引用计数加1。
  • HMB:代表HashMetaBlock。
  • IP-X:代表逻辑编号为X的IndexPage。
  • B-X: 代表逻辑编号为X的Bucket。
  • PBP-X:代表B-X对应的PrimaryBucketPage。
  • OBP-X:代表B-X对应的OverflowBucketPage。

hash table resize

由于合并操作和分裂操作,几乎互为相反操作。所以下面将主要以分裂为例,分析加入并发控制之后的分裂操作是如何处理的。

file 图16 hash分裂并发控制示意图

如图16所示,Prepare阶段的主要操作步骤如下:

  • LoadFromDisk(HMB),PageReadLock(HMB);
  • 根据meta信息,定位目标Bucket及其所属IndexPage(此例为B-0和IP-0);
  • 尝试按序获取B-0的Bucket读锁和B-1的Bucket写锁,PageReadUnlock(HMB);
  • 若B-0或B-1的Bucket锁未成功锁定,则释放已持有的锁,直接返回;
  • LoadFromDisk(IP-0),PageReadLock(IP-0)。获取PBP-0位置信息,PageReadUnlock(IP-0);
  • LoadFromDisk(PBP-0),LoadFromDisk(PBP-1);
  • WriteLock(HMB),WriteLock(IP-0),PageWr iteLock(PBP-0),PageWriteLock(PBP-1);
  • 更新PBP-0的状态为BeingSplitted,更新PBP-1的状态为BeingFilled;
  • 将PBP-1的位置信息记录在IP-0中;
  • 更新HMB元信息字段:next_split_index,current_Bucket_count;
  • 写入表示数据修改的WAL日志;
  • WriteUnlock(IP-0),WriteUnlock(HMB)。

同时持有所有待修改页面Page锁的目的是:确保多页修改的原子性。极小部分场景下,WAL日志写入可能引起协程切换,而后台Page刷脏协程可能获得执行权,如果此时不对所有页加锁,则可能导致部分页的修改持久化,而索引通常无法记录回滚日志,所以最终可能导致hash table结构的错乱。

Split阶段的主要操作步骤如下:

  • 遍历PBP-0中元素,按照high_mask进行rehash,将不再属于PBP-0的元素拷贝至B-1链中;
  • 若B-0还存在Overflow Page,则PageWriteUnlock(PBP-0);
  • LoadFromDisk(OBP-0),PageReadLock(OBP-0)。遍历OBP-0中元素,按照high_mask进行rehash,将不再属于PBP-0的元素拷贝至B-1链中;
  • 若B-0还存在Overflow Page,则PageReadUnlock(OBP-0),从步骤3开始重复执行,直到遍历完B-0整个链表;
  • WriteLock(PBP-0),WriteLock(PBP-1);
  • 更新PBP-0的状态为BeingCleanup,更新PBP-1的状态为Normal;
  • WriteUnlock(PBP-0),WriteUnlock(PBP-1);
  • BucketReadUnlock(0),BucketWriteUnlock(1)。

在Split阶段数据拷贝过程中,若B-1当前BucketPage写满,则需要增加Overflow Page用于后续写入,而此操作涉及页面分配,可能让出执行权,所以为了避免影响B-1的并发读取操作,会首先将当前BucketPage的写锁释放。

Cleanup阶段的主要操作步骤如下:

  • LoadFromDisk(PBP-0);
  • 尝试获取PBP-0的Exclusive锁,若获取失败,直接退出;
  • 遍历PBP-0中元素,按照high_mask进行rehash,将不再属于PBP-0的元素清理掉;
  • 若B-0还存在Overflow Page,则PageWriteUnlock(PBP-0);
  • LoadFromDisk(OBP-0),PageWriteLock(OBP-0)。遍历OBP-0中元素,按照high_mask进行rehash,将不再属于OBP-0的元素清理掉;
  • 若B-0还存在Overflow Page,则PageWriteUnlock(OBP-0),从步骤5开始重复执行,直到遍历完B-0整个链表;
  • WriteLock(PBP-0),更新PBP-0的状态为Normal,WriteUnLock(PBP-0)。

通过将分裂操作拆分为三个阶段,主要是为了提高等待磁盘IO时的并发度。当Prepare阶段完成时,新的hash table结构便对后续读写可见,不论是用户读写还是hash table resize操作都可以基于新的结构继续执行,即可能同时存在多个Bucket的并发分裂操作,这样就能有效避免某次Bucket分裂耗时过长(等待磁盘IO),导致其余Bucket无法及时分裂,进而影响访问延迟的问题。同时,将Split操作和Cleanup操作分开,也是为了能在等待新页分配的时候,可以释放Page锁,避免影响并发读写。

read && write

如图17所示,加入并发控制后,典型的写入流程主要分为以下几步:

  • LoadFromDisk(HMB),PageReadLock(HMB)。根据meta信息,定位目标Bucket及其所属IndexPage(此例为B-0和IP-0),PageReadUnlock(HMB);
  • LoadFromDisk(IP-0),PageReadLock(IP-0)。读取PBP-0的位置信息,PageReadUnlock(IP-0);
  • 获取B-0的Bucket读锁;
  • 遍历B-0的链表,直到结束或找到待查元素,然后写入或更新相关元素。遍历过程中,在访问BucketPage前,先加写锁,访问完后立即解锁;
  • 释放B-0的Bucket读锁。

file 图17 hash写入并发控制示意图

如图18所示,典型的读取流程主要分为以下几步:

  • LoadFromDisk(HMB),PageReadLock(HMB)。根据meta信息,定位目标Bucket及其所属IndexPage(此例为B-1和IP-0),PageReadUnlock(HMB);
  • LoadFromDisk(IP-0),PageReadLock(IP-0)。读取PBP-1的位置信息,PageReadUnlock(IP-0);
  • LoadFromDisk(PBP-1),PageReadLock(PBP-1);
  • 若PBP-1当前状态为BeingFilled,则PageReadUnlock(PBP-1),同时LoadFromDisk(PBP-0),持有PBP-0引用;
  • 遍历B-1的链表,直到结束或找到待查元素。遍历过程中,在访问BucketPage前,先加读锁,访问完后立即解锁;
  • 若B-1链表无法找到对应元素,且已经持有PBP-0的引用。则以遍历B-1链表相同的方式,遍历B-0链表;
  • B若持有PBP-0的引用,则释放它。

file 图18 hash读取并发控制示意图

以上便是加入并发控制之后,hash读写的主要流程,限于篇幅上述流程简化了部分故障恢复和冲突检测逻辑。现在我们来回顾下,前文提到的并发安全保障是否得到了满足。由于我们在读取Page前,都获取了该Page的读或写锁,所以保证了读写的原子性,即R-1和W-1得到保障。读取操作则通过事先持有待分裂Bucket的引用,避免了分裂过程中,无法读取到已存在的元素,即R-2也得到保障。写入操作通过事先获取Bucket逻辑读锁,保证了不会因为分裂操作,导致丢失更新的问题,即满足了W-2要求。最后通过保证hash结构变化的原子性,满足了故障重启后的自恢复性,即SR得到保障。

在保障了并发安全的前提下,hash索引的并发度究竟如何呢?

在回答这个问题之前,我们先来回顾下这里使用的锁。由于我们探讨的是线程内多协程的并发,所以使用的并不是系统锁,而是简单的计数器,也就是说产生锁冲突之后,开销主要在于用户空间的协程上下文切换。那么锁冲突概率高吗?由于我们采用了非抢占式调度,所以除非当前协程主动让出执行权限,其他协程不会投入运行,也就不会产生冲突。

那什么时候让出执行权呢?绝大多数情况下,是在等待IO的时候。也就是说,在持有锁而让出执行权的情况下,可能会产生锁冲突。不管是读写操作还是分裂合并操作,对Page锁的应用都是:先加载页,再锁定资源。故一般不会出现Page锁冲突的情况,极少数情况下可能需要等待重做日志就绪,从而产生Page锁冲突。对处于BeingFilled状态Bucket的写入操作,会导致Bucket锁冲突,冲突概率随着hash表的增大而减小,且冲突时间和相关Page锁的冲突时间几乎相等。Exclusive锁的冲突概率和Bucket锁类似。所以,工程实践中,我们会预分配一定数量的桶,以分散并发操作的Page页,进而减小锁冲突的概率,最终达到减小协程切换消耗的目的

总结

本文主要介绍了KeeWiDB存储引擎的设计细节。首先,通过介绍存储层的基本组织结构,知道了我们使用4K Page作为管理整个存储文件的基本单元,而用户数据则是存储于Page内的Block中。接着,通过对比分析各类索引的特点,简述了我们选择Linear Hashing作为用户数据索引的主要原因。最后,深入分析了Linear Hashing在KeeWiDB中的工程实践,包括具体的组织架构,增删查改的大致流程,以及在协程架构下,如何做到并发安全的。

目前,KeeWiDB 正在公测阶段,现已在内外部已经接下了不少业务,其中不乏有一些超大规模以及百万 QPS 级的业务,线上服务均稳定运行中。

后台回复“KeeWiDB”,试试看,有惊喜。

关于作者

章俊,腾讯云数据库高级工程师,拥有多年的分布式存储、数据库从业经验,现从事于腾讯云数据库KeeWiDB的研发工作。

本文由博客一文多发平台 OpenWrite 发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/40047.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Fama-French三因子和五因子模型和Stata代码(内附原始数据)

一、Fama-French三因子模型数据和Stata代码&#xff08;2000-2020年&#xff09; 1、数据来源&#xff1a;原始数据在分享文件中 2、时间跨度&#xff1a;2000-2020年 3、区域范围&#xff1a;全国 5、原始数据&#xff1a; 4、指标说明&#xff1a; 部分指标如下&#xff…

Linux虚拟机的克隆

文章目录&#x1f68f; Linux虚拟机的克隆&#x1f680; 克隆虚拟机&#x1f6ac; 1、虚拟机在未开启的状态下&#x1f6ac; 2、选择创建完整克隆&#x1f6ac; 3、选择虚拟机的名称和位置&#x1f684; 修改 克隆虚拟机的设置&#x1f6ac; 1、mac地址&#x1f6ac; 2、主机名…

RocketMQ安装部署

RocketMQ的物理部署结构图如下&#xff1a; Producer和Consumer对应的是我们的应用程序&#xff0c;多个NameServer实例组成集群&#xff0c;但相互独立&#xff0c;没有信息交换&#xff0c;所以对于NameServer来说部署两个或两个以上即可保证高可用&#xff0c;对于Broker来…

AWS Skill Builder - 练习 ACF 认证的第一站

AWS Skill Builder - 练习 ACF 认证的第一站 AWS Skill Builder https://explore.skillbuilder.aws/learn 是 AWS 针对要想要自学 AWS 云计算技术所提供的网站&#xff0c;里面提了很多自学的课程&#xff0c;今天要展示的是在学习完 AWS Academy Cloud Foundations 课程后&am…

车牌识别停车场智能管理系统

摘 要 本论文主要论述了如何使用JSP技术开发一个车牌识别停车场智能管理系统 &#xff0c;本系统将严格按照软件开发流程进行各个阶段的工作&#xff0c;采用B/S架构&#xff0c;面向对象编程思想进行项目开发。在引言中&#xff0c;作者将论述车牌识别停车场智能管理系统的…

【Paraview教程】第一章安装与基础介绍

1 Paraview介绍 1.1基本介绍 ParaView是一个开源的&#xff0c;跨平台的数据处理和可视化程序。ParaView用户可以迅速的建立起可视化环境利用定量或者是定性的手段去分析数据。利用它的批量处理能力可以在三维空间内在工具栏和展示界面中进行交互操作&#xff0c;从而实现“数…

PDF中的某个图或表想几乎无损的插入ppt或者word里的方法

要使用ps打开pdf并另存为tiff或者&#xff0c;其他方法存储的tiff可能不如这种方法高清 0. 参考方法网址&#xff1a;PS导出符合投稿规范的图片 1. pdf可能很多页&#xff0c;一页内有很多图像文字&#xff0c;要先使用福昕阅读器(破解版本的)裁剪到想保留tiff的那张图或那个表…

四、nginx反向代理

一、反向代理 解释&#xff1a;nginx反向代理如正向代理原理类似&#xff0c;只是实现了不同的功能。客户端将请求发给服务端&#xff08;代理服务器&#xff09;后&#xff0c;服务端&#xff08;代理服务器&#xff09;并没有自己处理请求&#xff0c;而是交给被代理服务器&…

P4用软件实现和硬件实现的区别

摘要&#xff1a;我们目前看到从可配置性有限的固定功能网络设备向具有完全可编程处理流水线的网络设备的转变。这种发展的一个突出例子是P4&#xff0c;它提供了一种语言和参考架构模型来设计和编程网络设备。这个参考模型的核心元素是可编程匹配动作表&#xff0c;它定义了网…

[附源码]Python计算机毕业设计高校餐厅评价系统

项目运行 环境配置&#xff1a; Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术&#xff1a; django python Vue 等等组成&#xff0c;B/S模式 pychram管理等等。 环境需要 1.运行环境&#xff1a;最好是python3.7.7&#xff0c;…

Java多线程编程【一文全解】

文章目录01 线程简介02 进程的创建> 继承 Thread 类> 实现 Runnable 接口> 实现 Callable 接口※ Lambda表达式 λ※ 静态代理模式03 线程状态04 线程方法> 停止线程 stop( )> 线程休眠 sleep( )> 线程礼让 yield( )> 线程强行执行 join( )> 线程状态观…

【疑难攻关】——XXE漏洞快速入门

作者名&#xff1a;Demo不是emo 主页面链接&#xff1a;主页传送门创作初心&#xff1a;舞台再大&#xff0c;你不上台&#xff0c;永远是观众&#xff0c;没人会关心你努不努力&#xff0c;摔的痛不痛&#xff0c;他们只会看你最后站在什么位置&#xff0c;然后羡慕或鄙夷座右…

Redis快速上手神册,17W字详解其实Redis也就那么一回事!

开始使用Redis Redis是一个开源的数据库&#xff0c;经常被用来构建高性能的可扩展网络应用。它使用内存数据库&#xff0c;这使得它比其他数据库更快。 Redis用于我们的应用程序中的短期数据。它经常被用于会话或网页头数。 通过使用内存数据库&#xff0c;我们不需要有大的…

表空间的空间管理算法

存储结构 逻辑结构 物理结构 database tablespace --> datafile segment extent oracle --> os block block 表空间的空间管理&#xff1a; DMT(dictionary management tablespace): LMT(local management tablespace): SQL>…

[计算机毕业设计]远程监督的跨语言实体关系抽取

前言 &#x1f4c5;大四是整个大学期间最忙碌的时光,一边要忙着准备考研,考公,考教资或者实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过…

代码随想录算法训练营day57 | 647. 回文子串,516.最长回文子序列

647. 回文子串: 暴力解法&#xff1a;两层for循环&#xff0c;遍历区间起始位置和终止位置&#xff0c;然后判断这个区间是不是回文。时间复杂度&#xff1a;O(n^3). Output Limit Exceeded class Solution:#时间复杂度&#xff1a;O(n^3)def countSubstrings(self, s: s…

线程与进程

目录 1.为什么使用线程&#xff1f; 2.什么是线程&#xff1f; 3.进程和线程的工作原理 3.1 进程 3.2 线程 4.线程安全问题 5.总结&#xff1a;线程和进程的区别&#xff08;面试题&#xff09; 1.为什么使用线程&#xff1f; 线程与进程都是用来解决并发编程问题的&…

推荐 5 个不错的 React Native UI 库

最近在做一个 React Native 的项目&#xff0c;调研了下 UI 库&#xff0c;下面列举 5 个&#xff1a; React Native Elements React Native Element 是相当闻名的 UI 库&#xff0c;它遵循 Material 设计规范&#xff0c;同时你还可以精细地控制每一个组件。 TL;DR 22.2k G…

朴素贝叶斯——垃圾邮件过滤

文章目录利用朴素贝叶斯进行文档分类1、获取数据集2、切分文本3、构建词表和分类4、构建分类器5、测试算法利用朴素贝叶斯进行垃圾邮件过滤1、导入数据集2、垃圾邮件预测总结利用朴素贝叶斯进行文档分类 1、获取数据集 下载数据集&#xff0c;获取到一些邮件文档。其中ham文件…

Intersoft WebUI Studio for asp.net/asp.mvc

企业 Web 开发的终极工具集。WebUI 建立在坚实的框架之上&#xff0c;为 ASP.NET 提供创新和先进的 40 多个优质 UI 组件&#xff0c;让您轻松及时地构建强大的业务 Web 应用程序。 不仅仅是全面的 UI 工具集。 在提供业界最佳网络体验的愿景的支持下&#xff0c;WebUI 提供了前…