大数据必回之LSM树

news2024/12/25 1:14:10

LSM树(Log-Structured-Merge-Tree)并不像B+、红黑树一样是一颗严格的树状数据结构,它其实是一种存储结构,像HBase、RocksDB这些NoSQL存储都是采用LSM树。它是一种分层、有序、面向磁盘的数据结构,核心思想是顺序写性能远高于随机写性能,将批量随机写转化为一次性的顺序写。

一、核心思想

LSM树的核心特点是利用顺序写来提高写性能,但因为分层(分层是指分位内存和文件两部分)的设计会稍微降低读性能,但是通过牺牲小部分读性能换来高性能写,在一些场景中的收益仍然是非常大的。

0

1)MemTable

MenTable是在内存中的数据结构,用于保存最近更新的数据,会按照Key有序地组织这些数据,LSM树对于具体如何有序地组织数据并没有明确的数据结构定义,例如HBase使用跳跃表来保证内存中Key的有序。因为数据保存在内存中,内存并不是可靠的存储,存在数据丢失风险,因此通常会通过WAL(Write-ahead logging预写日志)的方式来保证数据的可靠性。

2)Immutable MemTable

当MemTable达到一定大小后,会转化成Immutable MemTable。Immutable MemTable是将MemTable转变为SSTable的一种中间状态。写操作由新的MemTable处理,在转存过程中不阻塞数据更新操作。

3)SSTable(Sorted String Table)

有序键值对集合,是LSM树在磁盘中的数据结构。为了加快SSTable的读取,可以通过建立Key的索引以及布隆过滤器来加快Key的查找。

 

LSM正如它的名字一样,会将所有的数据插入、修改、删除等操作记录保存在内存中,当此类操作达到一定数据量后,再批量顺序写入到磁盘中。这与B+树不同,B+树数据的更新会直接在原数据所在处修改对应的值,但是LSM树的数据更新是日志式的,当一条数据更新是直接append一条更新记录完成的。这样设计的目的是为了顺序写,不断地将Immutable MemTable flush到持久化存储中,而不用去修改之前的SSTable中的key,保证了顺序写。
因此当MemTable达到一定大小flush到持久化存储变成SSTable后,在不同的SSTable中,可能存在相同的key的记录,最新的记录才是准确的。虽然多大提高了写性能,但同时也带来了一些问题:
①冗余存储:对于某个Key而言,实际除了最新的记录外,其他的记录都是冗余的,但是仍然占用着存储空间。因此需要进行compact操作来清理冗余的记录。
②读取时需要从最新的倒序查询,直到找到某个key的记录。最坏情况需要查询完所有的SSTable,在这里可以通过索引和布隆过滤器来优化查找效率。

二、compact策略

从上可以看到,compact是十分关键的操作,否则SSTable数量会不断膨胀。compact存在不同的策略,不同的策略都是在以下3个概念中进行权衡和取舍。

重要概念

①读放大:读取数据时,实际读取的数据量大于真正的数据量。例如在LSM树中需要先在MemTable查看当前key是否存在,不存在继续从SSTable中寻找。

②写放大:写入数据时,实际写入的数据量大于真正的数据量。例如在LSM树中写入时可能触发compact操作,导致实际写入的数据量远大于该key的数据量。

③空间放大:数据实际占用的磁盘空间比数据真正的大小多。上面提到的冗余存储,对于一个key来说,只有最新的那条记录是有效的,而之前的记录都是可以被清理会受到 。

1)size-tiered体积阶梯式压缩策略,类似Minor

size-tiered策略保证每一层SSTable的大小相近,同时限制每一层SSTable的数量。每一层限制SSTable的数量为N,当每层达到N后,则触发compact合并这些SSTable,并将合并后的结果写入到下一层成为一个更大的SSTable。

 

由此可见,当层数达到一定数量时,最底层的单个SSTable的大小会变得非常大。并且size-tiered策略会导致空间放大比较严重。即便对于同一层的SSTable,每个key的记录是可能存在多份的,只有当该层的SSTable执行compact才会消除这些key的冗余记录。

2)leveled层级式压缩策略,类似Major

leveled也是采用分层的思想,每一层限制总文件大小。但是跟size-tiered不同的是,leveled会将每一层切分成多个大小相近的SSTable。这些SSTable是这一层全局有序的,意味着一个key在每一层至多只有一条记录,不存在冗余记录。之所以可以保持全局有序,是因为合并策略和size-tiered不同。

① L1的总大小超过L1本身大小限制

 ② 此时会从L1中选择至少一个文件,然后把它跟L2有交集的部分进行合并。生成的文件会存放在L2

 

此时L1第二SSTable的key的范围覆盖了L2中前三个SSTable,那么就需要将L1中第二个SSTable与L2中前三个SSTable执行compact操作。

③如果L2合并后的结果,仍然超出L5的阈值大小,需要重复之前的操作,选至少一个文件将它合并到下一层。多个不相干的合并是可以并发进行的!

相较于size-tiered策略来说,每层内key是不会重复的,即使是最坏的情况,除最外层外,其余层都是重复key,按照相邻层大小比例为10来算,冗余占比也很小,因此空间放大问题得到缓解。但是写放大问题会比较突出。最坏场景,如果LevelN层每个SSTable的key的方为跨度很大, 覆盖了LevelN+1层所有key的范围,那么进行compact时将涉及LevelN+1层的全部数据。

三、对LSM的点查

0

 

0

0

0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/877112.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Leetcode链表篇 Day3

.24. 两两交换链表中的节点 - 力扣(LeetCode) 1.构建虚拟结点 2.两两一组,前继结点一定在两两的前面 3.保存结点1和结点3 19. 删除链表的倒数第 N 个结点 - 力扣(LeetCode) 1.双指针:快慢指针 两个指针的差…

初步认识OSI/TCP/IP一(第三十八课)

1 初始OSI模型 OSI参考模型(Open Systems Interconnection Reference Model)是一个由国际标准化组织(ISO)和国际电报电话咨询委员会(CCITT)联合制定的网络通信协议规范,它将网络通信分为七个不…

React antd tree树组件 - 父子节点没有自动关联情况下 - 显示半选、全选状态以及实现父子节点互动

实现的效果图如下: 如Ant Design Vue 中所示,并没有提供获取半选节点的方法,当设置checked和checkStrictly时,父子节点也不再自动关联了 前提:从后端可以获取的数据分别是完整的树型数据、所有选中的节点数据&#…

在pycharm中对使用脚本文件运行的程序进行调试

在github中下载的许多项目都可以使用给出的脚本文件运行,本文介绍如果在pycharm中对使用脚本文件运行的程序进行调试的方法。 1.点击 edit configurations 2.选择要debug的py文件,并且填写参数 3.点击运行旁边的debug按钮

odoo16 tree视图没有导出按钮

odoo16 tree视图没有导出按钮 做了一个odoo应用,很奇怪,同样的角色,不同的用户,有些有导出按钮,有些没有,一直没搞清楚为啥, 今天刚好有时间,好好研究一下. 1 先按浏览器F12,导出按钮对应的html: <button type"button" class"btn btn-secondary fa fa-dow…

理解持续测试,才算理解DevOps

软件产品的成功与否&#xff0c;在很大程度上取决于对市场需求的及时把控&#xff0c;采用DevOps可以加快产品交付速度&#xff0c;改善用户体验&#xff0c;从而有助于保持领先于竞争对手的优势。 作为敏捷开发方法论的一种扩展&#xff0c;DevOps强调开发、测试和运维不同团队…

使用BP插件captcha-killer识别图片验证码绕过系统验证码机制

使用BP插件captcha-killer绕过验证码 前置条件 1、下载安装插件 burp2020前使用&#xff1a;https://github.com/c0ny1/captcha-killer/tree/0.1.2 burp2020后使用&#xff1a;https://github.com/Ta0ing/captcha-killer-java8 2、导入插件 分为三个部分&#xff1a;上面为验…

【Sklearn】基于朴素贝叶斯算法的数据分类预测(Excel可直接替换数据)

【Sklearn】基于朴素贝叶斯算法的数据分类预测&#xff08;Excel可直接替换数据&#xff09; 1.模型原理2.模型参数3.文件结构4.Excel数据5.下载地址6.完整代码7.运行结果 1.模型原理 模型原理&#xff1a; 朴素贝叶斯分类是基于贝叶斯定理的一种分类方法。它假设特征之间相互…

【一定要会】为ChatGPT插上翅膀的5个常用插件!

自从ChatGPT接入插件功能后&#xff0c;便不再受限于预训练数据中的知识&#xff0c;第三方开发者也可以基于ChatGPT增强自家应用程序的功能。自此 ChatGPT更像是一个开放的平台甚至是生态了。 截止的今年的7月20日&#xff0c;ChatGPT已经接入了700多个插件&#xff08;当然&…

智能驾驶系列报告之一:智能驾驶 ChatGPT时刻有望来临

原创 | 文 BFT机器人 L3 功能加速落地&#xff0c;政策标准有望明确 L2 发展日益成熟&#xff0c;L3 功能加速落地。根据市场监管总局发布的《汽车驾驶自动化分级》与 SAE发布的自动驾驶分级标准&#xff0c;自动驾驶主要分为 6 个级别&#xff08;0 级到 5 级&#xff0c;L0 …

五、linux系统下创建新目录的mkdir命令

mkdir命令 在Linux系统中&#xff0c;如果想要创建一个新目录&#xff0c;即文件夹&#xff0c;可以使用mkdir命令&#xff1a; 1、语法&#xff1a;mkdir [-p](可以不存在) Linux路径(必须存在) 2、基础操作&#xff1a;mkdir 目录名 &#xff08;1&#xff09;方法一&…

pytest数据驱动(最简单)

目录 第一种&#xff1a;通过yaml文件获取数据&#xff08;一维列表&#xff09; 第二种&#xff1a;通过yaml文件获取数据&#xff08;二维列表&#xff09; 第三种&#xff1a;通过yaml文件获取数据&#xff08;pytest.fixture&#xff09; 资料获取方法 第一种&#xff…

【Vue-Router】别名

后台返回来的路径名不合理&#xff0c;但多个项目在使用中了&#xff0c;不方便改时可以使用别名。可以有多个或一个。 First.vue <template><h1>First Seciton</h1> </template>Second.vue&#xff0c;Third.vue代码同理 UserSettings.vue <tem…

【需求输出】流程图输出

文章目录 1、什么是流程图2、绘制流程图的工具和基本要素3、流程图的分类和应用场景4、如何根据具体场景输出流程图 1、什么是流程图 2、绘制流程图的工具和基本要素 3、流程图的分类和应用场景 4、如何根据具体场景输出流程图

ARTS 挑战打卡的第9天 --- 如何知道一个数是否为2的若干次幂(Algorithm)

前言 &#xff08;1&#xff09;今天看到一个有意思的问题&#xff0c;如何判断一个数字是否为2的若干次幂。这个问题并不难&#xff0c;但是对于我们的C语言功底还是有一点点的考验的。 &#xff08;2&#xff09;希望各位可以先自行思考&#xff0c;实在想不出来再看后面的讲…

WPF 本地化的最佳做法

WPF 本地化的最佳做法 资源文件英文资源文件 en-US.xaml中文资源文件 zh-CN.xaml 资源使用App.xaml主界面布局cs代码 App.config辅助类语言切换操作类资源 binding 解析类 实现效果 应用程序本地化有很多种方式&#xff0c;选择合适的才是最好的。这里只讨论一种方式&#xff0…

Sencha Ext.NET Crack,构建Blazing快速应用

Sencha Ext.NET Crack,构建Blazing快速应用 Sencha Ext.NET是一个高级的ASP.NET核心组件框架&#xff0c;它包含了强大的跨浏览器Sencha Ext JS库。通过140多个预构建和专业测试的UI组件实现企业级性能和生产效率。Sencha Ext.NET使用尖端的Web技术创建功能强大的Web应用程序&a…

【Spring专题】Bean的生命周期流程图

目录 前言阅读指引 流程图一、之前推测的简单流程图&#xff08;一点点参考&#xff09;*二、Bean生命周期流程图&#xff08;根据Spring源码自结&#xff09;*三、阶段源码流程图&#xff08;不断更新&#xff09; 前言 我向来不主张【通过源码】理解业务&#xff0c;因为每个…

Ubuntu18.04 GitHub提交代码

一、准备工作 1.1安装 git sudo apt-get install git安装完成后&#xff0c;检查git版本&#xff0c;一般自带2.17.1版本 git --version 1.2 注册github SSH keys 1.2.1 github 进入注册github SSH keys 如图&#xff0c;到GitHub上右上角圆形图标进入Settings 左侧点击S…

Vue.js快速入门指南:零基础也能轻松上手,开启前端开发之旅!

目录 MVC设计模式与MVVM设计模式选项式API的编程风格与优势声明式渲染及响应式数据实现原理指令系统与事件方法及传参处理计算属性与侦听器区别与原理条件渲染与列表渲染及注意点class样式与style样式的三种形态表单处理与双向数据绑定原理生命周期钩子函数及原理分析 MVC设计模…