【HBase高级】5. HBase数据结构(上)跳表、二叉搜索树、红黑树、B、B+树

news2024/11/22 10:39:42

4. HBase事务

HBase 支持特定场景下的 ACID,即当对同一行进行 Put 操作时保证完全的 ACID。可以简单理解为针对一行的操作,是有事务性保障的。HBase也没有混合读写事务。也就是说,我们无法将读操作、写操作放入到一个事务中。

5. HBase数据结构

在讲解HBase的LSM合并树之前,我们需要来了解一些常用的数据结构知识。

5.1 跳表

在这里插入图片描述
上图是一个有序链表,我们要检索一个数据就挨个遍历。如果想要再提升查询效率,可以变种为以下结构:
在这里插入图片描述
现在,我们要查询11,可以跳着来查询,从而加快查询速度。

5.2 常见树结构(扩展了解)

二叉搜索树(Binary Search Tree)
1、什么是二叉搜索树?
二叉搜索树也叫二叉查找树。它是一种比较特殊的二叉树。
在这里插入图片描述
2、树的高度、深度、层数
深度:节点的深度是根节点到这个节点所经历的边的个数,深度是从上往下数的
高度:节点的高度是该节点到叶子节点的最长路径(边数),高度是从下往上数的
层数:根节点为第一层,往下依次递增

上图:

节点12的深度为0,高度为4,在第1层
节点15的深度为2,高度为2,在第3层

3、二叉搜索树的特点
树中的每个节点,它的左子树中所有关键字值小于该节点关键字值,右子树中所有关键字值大于该节点关键字值

4、二叉搜索树的查询方式

1.首先和根节点进行比较,如果等于根节点,则返回
2.如果小于根节点,则在根节点的左子树进行查找
3.如果大于根节点,则在根节点的右子树进行查找

5、二叉搜索树的缺点
因为二叉搜索树是一种二叉树,每个节点只能有两个子节点,但有较多节点时,整棵树的高度会比较大,树的高度越大,搜索的性能开销也就越大

平衡二叉树(Balance Binary Tree)
1、简介
平衡二叉树也称为AVL树,它是一颗空树,或者它的任意节点左右两个子树的高度差绝对值不超过1。
平衡二叉树很好地解决了二叉查找树退化成链表的问题
在这里插入图片描述
上图:

1.两棵树都是二叉查找树
2.左边的不是平衡二叉树
节点6的子节点:节点2的高度为:2,节点7的高度为:0,| 2 – 0 | = 2 > 1)
3.右边的是平衡二叉树
节点6的子节点:节点3的高度为:1,节点7的高度为:0,| 1 – 0 | = 1 = 1 )

2、平衡二叉树的特点
AVL树是高度平衡的(严格平衡),频繁的插入和删除,会引起频繁的rebalance,导致效率下降,它比较使用与插入/删除较少,查找较多的场景

红黑树
1、简介
红黑树是一种含有红黑节点并能自平衡的二叉搜索树,它满足以下性质:

  • 每个节点要么是黑色,要么是红色
  • 根节点是黑色
  • 每个叶子节点(NIL)是黑色
  • 每个红色结点的两个子结点一定都是黑色
  • 任意一结点到每个叶子结点的路径都包含数量相同的黑结点
    在这里插入图片描述
    2、红黑树的特点
    和AVL树不一样,红黑树是一种弱平衡的二叉树,它的插入/删除效率更高,所以对于插入、删除较多的情况下,就用红黑树,而且查找效率也不低。例如:Java中的TreeMap就是基于红黑树实现的。

B树
1、什么是B树
B树是一种平衡多路搜索树;与二叉搜索树不同的是,B树的节点可以有多个子节点,不限于最多两个节点;它的子节点可以是几个或者是几千个
在这里插入图片描述
2、B树的特点

  • 所有节点关键字是按递增次序排列,并遵循左小右大原则
  • B-树有个最大的特点是有多个查找路径,而不像二叉搜索树,只有两路查找路径。
  • 所有的叶子节点在同一层
  • 逐层查找,找到节点后返回

3、B-树的查找方式

  1. 从根节点的关键字开始比较,例如:上图为13,判断大于还是小于
  2. 继续往下查找,因为节点可能会有多个节点,所以需要判断属于哪个区间
  3. 不断往下查找,直到找到为止或者没有找到返回Null

B+树结构
1、B+树简介
B+树是B树的升级版。B+树常用在文件系统和数据库中,B+树通过对每个节点存储数据的个数进行扩展,可以让连续的数据进行快速访问,有效减少查询时间,减少IO操作。它能够保持数据稳定有序,其插入与修改拥有较稳定的对数时间复杂度
例如:Linux的Ext3文件系统、Oracle、MySQL、SQLServer都会使用到B+树。
在这里插入图片描述

  • B+ 树是一种树数据结构,是一个n叉树
  • 每个节点通常有多个孩子
  • 一颗B+树包含根节点、内部节点和叶子节点
  • 只有叶子节点包含数据(所有数据都是在叶子节点中出现)

2、B+树的特点

  • 所有关键字都出现在叶子结点的链表中(稠密索引),且链表中的关键字恰好是有序的
    如果执行的是:select * from user order by id,要全表扫描数据,那么B树就比较费劲了,但B+树就容易了,只要遍历最后的链表就可以了。
  • 只会在叶子节点上搜索到数据
  • 非叶子结点相当于是叶子结点的索引(稀疏索引),叶子结点相当于是存储
  • 数据库的B+树高度大概在 2-4 层,也就是说查询到某个数据最多需要2到4次IO,相当于0.02到0.04s

3、稠密索引和稀疏索引

稠密索引文件中的每个搜索码值都对应一个索引值
稀疏索引文件只为索引码的某些值建立索引项

稠密索引:
在这里插入图片描述
稀疏索引:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/193257.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CMMI高效落地 4大关键点要注意

CMM对企业降本增效、增强竞争力方面,优势明显。那么如何顺利进行CMMI认证?我们在CMMI认证时,需要注意哪些方面? 1、公司高层的支持 一个公司过程改进 工作的顺利施行,首先需要公司高层的支持。公司的商业目标、公司高层…

45_API接口漏洞

API接口漏洞 一、概念 api > application interface 应用接口 向特定的接口发送一个请求包 返回一个类似于json格式的字符串 二、REST型web service 可以从网上去搜索下api接口去理解,下面有个我找到的网址,给出api接口的分类 https://blog.csdn.net/t79036912/article…

【顺序表和链表的对比】

前言: 我们已经学习过了顺序表和链表的一些知识,在实际运用中我们不能笼统的说哪种存储结构更好,由于它们各有优缺点,选择哪种存储结构,则应该根据具体问题作出具体的分析,通常从空间性能和时间性能上作比较…

Day14【元宇宙的实践构想03】—— 元宇宙的资产观(NFT、数字资产、虚拟地产、与现实世界资产关系)

💃🏼 本人简介:男 👶🏼 年龄:18 ✍今日内容:《元宇宙的实践构想》03——元宇宙的资产观 ❗❗❗从1.31日开始,阿亮每天会查阅一些元宇宙方面的小知识,和大家一起分享。一是…

cobaltstrike的shellcode免杀

基础概念 shellcode是一段用于利用软件漏洞而执行的代码,也可以认为是一段填充数据,shellcode为16进制的机器码,因为经常让攻击者获得shell而得名。shellcode常常使用机器语言编写。 可在暂存器eip溢出后,塞入一段可让CPU执行的s…

vue入门到精通(七)

6、依赖注入 祖先组件向后代组件传值 6.1 provide() 提供一个值,可以被后代组件注入。 provide() 接受两个参数:第一个参数是要注入的 key,可以是一个字符串或者一个 symbol,第二个参数是要注入的值。 与注册生命周期钩子的 AP…

百趣代谢组学文献分享埃博拉病毒发病机制及组合生物标志物的发现

百趣代谢组学文献分享,今天我们分享的文献就是通过多组学技术研究埃博拉病毒发病机制及组合生物标志物的发现。该文献的研究思路也可以给我们开展新型冠状病毒肺炎相关研究提供借鉴。 代谢组学文献分享,2013-2016年西非埃博拉病毒病(EVD&…

(面经三,技术面)——时间:2022-11-11 地点:线上

面试经历(三)——时间:2022-11-11 地点:线上 1.什么是抽象类 有抽象方法的类,用来表征对问题领域进行分析、设计中得出的抽象概念。 2.抽象类和接口的区别 继承关系:类只能单继承。接口可以实现多个接口 构…

智慧物业管理系统的设计与实现

项目描述 临近学期结束,还是毕业设计,你还在做java程序网络编程,期末作业,老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。这里根据疫情当下,你想解决的问…

【大数据】第二章:搭建Hadoop集群(送尚硅谷大数据笔记)

尚硅谷Hadoop3.x官方文档大全免费下载 搭建集群没什么好讲的,跟着视频和笔记出不了什么问题。 唯一遇到的问题就是安装好VmWare后打不开,发现是老师给的VmWare版本不适配本机的WIN11。 解决办法就是下载最新版本的VmWare。新版已经修复了与WIN11的兼容性…

计算机网络基础(三)

前言: 在计算机网络基础(二)中,我们着重学习了应用层,传输层的知识。在 本文,就要介绍网络层,数据链路层,这两块内容细节也很多。这是计算机网络基础篇的最后一文,系统的学习后,就可…

基于php、Thinkphp5的共享电动车管理系统

摘 要当前共享单车在社会上广泛使用,但单车骑行的短距离仍旧不能完全满足广大用户的需求。共享电动车管理系统可以为用户提供账户信息、押金信息、充值信息、租车信息等功能,拥有较好的用户体验.能实时动态显示车辆位置提供更加快捷方便的租车方式,解决了常见共享电动车管理较为…

英雄互娱|提升 300% !一次性能优化实战记录

案例背景 英雄互娱是国内知名游戏研发商和发行商,经常遇到热门线上游戏,在某瞬间出现大量登录请求,需要临时扩容资源的场景。为了让服务更好的应对突增并发请求压力,客户尝试通过把应用服务容器化部署,能通过 HPA&…

Android 屏幕刷新机制 VSync+Choreographer

1.显示系统基础知识 一个典型的显示系统一般包括CPU、GPU、Display三部分,其中CPU负责计算帧数据,并把计算好的数据交给GPU,GPU会对图形数据进行渲染,渲染好后放到图像缓冲区buffet里存起来,然后Display(屏幕或显示器)负责把buffer里的数据呈现到屏幕上。如下图: 这里…

npm发布封装的公共组件

一.新建vue项目项目目录结构如下:二.修改项目文件夹1.创建一个packages文件夹(用于存放编写的组件)2.把src修改为examples3.新建一个vue.config.js文件,并修改由于修改了src文件夹,启动vue项目后,找不到入口(main.js)会报错,所以需要重新指定启动入口module.exports {// 将 ex…

大数据实时多维OLAP分析数据库Apache Druid入门分享-下

文章目录架构核心架构外部依赖核心内容roll-up预聚合列式存储Datasource和Segments位图索引数据摄取查询集群部署部署规划前置条件MySQL配置HDFS配置Zookeeper配置启动集群导入HDFS示例架构 核心架构 Druid servers建议将它们组织为三种服务器类型:Master主服务器、Query查询服…

word高效技巧:这几个表格操作让工作更快速

说到表格,都说Excel制表功能更强大。但是,表格在Word排版中的应用同样非常广泛。比如,在制作简历表、求职表和登记表等一些不规则且不需要做复杂统计分析、有大量文字的表格,我们都会用Word文档来制作。因此,熟练掌握W…

ERR_CONNECTION_REFUSED 解决方法

解决对部分网站请求ERR_CONNECTION_REFUSED问题问题描述可能一:在项目中设置了接口的代理可能二:接口a所在的服务器确实是拒绝了我的ip请求可能三:电脑设置了对其的代理为127.0.0.1由此,接口不再行不通了,问题得到进一…

VisualStudio—Remote Debug

主要用来解决本地调试没问题发布到远端后却报错的项目。一、Windows Debug Windows本文叙述采用的VS2022。①远端(windows服务器)安装远程调试器远端(windows服务器)安装过程省略,详见官方参考链接中设置远程调试器。②…

LightningChart .NET 10.3.2.3 2023-01-20 Crack

GPU 加速图表控件 LightningChart .NET 和 JavaScript 解决方案旨在通过彻底的图表优化、最小的延迟和流畅的呈现来满足行业最苛刻的数据可视化要求。 最佳渲染性能 LightningChart for .NET 具有超过 1,000,000,000,000(超过 1 万亿)个数据点的出色渲染…