数据结构之跳表SkipList、ConcurrentSkipListMap

news2024/9/20 20:18:35

概述

SkipList,跳表,跳跃表,在LevelDB和Lucene中都广为使用。跳表被广泛地运用到各种缓存实现当中,跳跃表使用概率均衡技术而不是使用强制性均衡,因此对于插入和删除结点比传统上的平衡树算法更为简洁高效。

Skip lists are data structures that use probabilistic balancing rather than strictly enforced balancing. As a result, the algorithms for insertion and deletion in skip lists are much simpler and significantly faster than equivalent algorithms for balanced trees.

传统意义的单链表是一个线性结构,在一个有序链表里,查询、插入、删除一个结点的算法时间复杂度都是O(n)

跳表示意图
在这里插入图片描述
跳表是在链表之上加上多层索引构成的:

  • 表头(head):负责维护跳跃表的结点指针
  • 跳跃表结点:保存着元素值,以及多个层
  • 层:保存着指向其他元素的指针,这个层数是随机的

每一个结点不单单只包含指向下一个结点的指针,可能包含很多个指向后续结点的指针,这样就可以跳过一些不必要的结点,从而加快查找、删除等操作。对于一个链表内每一个结点包含多少个指向后续元素的指针,这个过程是通过一个随机函数生成器得到,这样子就构成一个跳跃表。通过随机生成一个结点中指向后续结点的指针数目。所有操作都以对数随机化的时间进行。

优点,跟红黑树、AVL等平衡树一样,做到比较稳定地插入、查询与删除,支持顺序操作。插入查询删除的算法时间复杂度理论值为O(logn),最坏情况下O(n)

跳表性质:

  1. 由很多层结构组成,每一层都是一个有序的链表
  2. 最底层(Level 1)的链表包含所有元素,最底层数据结构退化为一个普通的有序链表
  3. 如果一个元素出现在Level i的链表中,则它在Level i之下的链表也都会出现
  4. 每个结点包含两个指针,一个指向同一链表中的下一个元素,一个指向下面一层的元素
  5. 搜索过程是逐层进行,不能越两级搜索
  6. 在每一层中,-1和1两个元素都出现(分别表示INT_MIN和INT_MAX)
  7. Top指针指向最高层的第一个元素
  8. 跳表是一种以牺牲更多的存储空间换取查找速度,即空间换时间

Skip List构造步骤

  • 给定一个有序的链表
  • 选择链表中最大和最小的元素,然后从其他元素中按照一定算法随机选出一些元素,将这些元素组成有序链表。这个新的链表称为一层,原链表称为其下一层
  • 为刚选出的每个元素添加一个指针域,这个指针指向下一层中值同自己相等的元素。Top指针指向该层首元素
  • 重复2、3步,直到不再能选择出除最大最小元素以外的元素

跳表的插入
先确定该元素要占据的层数K(随机),然后在Level 1…Level K各个层的链表都插入元素。K大于链表层数,则需要添加新层。跳表的插入需要三个步骤:

  • 需要查找到在每层待插入位置
  • 随机产生一个层数
  • 从高层至下插入,插入时算法和普通链表的插入完全相同

删除结点操作和插入差不多,找到每层需要删除的位置,删除时和操作普通链表完全一样。如果该结点的level是最大的,则需要更新跳表的level。

理论

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

跳表 vs B+树

相同:都是用空间来换取时间,用额外的空间来保存链表或者目录页,来提升查询性能

区别:

  • 层高:B+树三层就能支持千万级别的数据,但跳表存储相同的数据量需要更高的层级。InnoDB索引用B+树而不用跳表的原因,InnoDB强依赖于磁盘IO,层级越高,IO次数也就越多;Redis的zset是用的跳表,因为Redis是基于内存操作,没有磁盘IO概念,跳表更简单
  • 操作数据:跳表比B+树快,B+树在数据操作时需要维护B+树,所以会有树的分裂与合并;跳表是随机一个层次,实现相对简单

跳表 vs 平衡树

类似于平衡树,用来快速查找。区别是平衡树的插入和删除可能需要一次需要全局调整,而跳表只需对整个数据结构进行局部操作。所以在高并发下,需要对平衡树进行全局锁,而跳表只需部分加锁。
本质是维护多个分层的链表,最底层的链表维护表内所有元素,每上面一层是下面一层的子集。表内所有元素的链表都是排序的。查找时,先从最顶层开始查找,当发现查找元素大于链表中取值就进入下一行,用空间换时间。

插入
插入时,先查询,然后从最底层开始,插入被插入的元素。然后看看从下而上,是否需要逐层插入。可是到底要不要插入上一层呢?想每层的跳跃都非常高效,越是平衡就越好(第一层1级跳,第二层2级跳,第3层4级跳,第4层8级跳)。但是用算法实现起来,确实非常地复杂的,并且要严格地按照2地指数次幂,我们还要对原有地结构进行调整。所以跳表的思路是抛硬币,听天由命,产生一个随机数,50%概率再向上扩展,否则就结束。这样子,每一个元素能够有X层的概率为0.5^(X-1)次方。反过来,第X层有多少个元素的数学期望大家也可以算一下。

删除
同插入一样,删除也是先查找,查找到之后,再从下往上逐个删除。

跳表 vs 红黑树

为什么Redis要使用跳表而不使用红黑树呢?跳表相对于红黑树的优点:

  1. 代码相对简单
  2. 如果要查询一个区间里面的值,用平衡树在实现和理解上可能会麻烦些,虽然可以实现
  3. 删除一段区间,用平衡二叉树则涉及到树的平衡问题而相当困难,跳表没有这个问题

应用

JDK

在JDK里也有跳表的实现,如ConcurrentSkipListMap和ConcurrentSkipListSet。

ConcurrentSkipListMap

JDK22版本下,ConcurrentSkipListMap属性如下:

/**
 * 指定全局比较器,用于比较两个元素的关键字大小并进行排序,如果在构造器中没有显式传入指定比较器,则默认对key按照自然顺序排序
 */
@SuppressWarnings("serial") // Conditionally serializable
final Comparator<? super K> comparator;
/** 最上层索引链表的头结点,延迟加载(包括下面几个属性),即在使用时才会初始化 */
private transient Index<K,V> head;
/** 元素计数器 */
private transient LongAdder adder;
/** 保存key的set集合 */
private transient KeySet<K,V> keySet;
/** 保存value的集合 */
private transient Values<K,V> values;
/**  保存key-value的EntrySet集合 */
private transient EntrySet<K,V> entrySet;
/** 保存key-value结点的逆序排序的Map集合 */
private transient SubMap<K,V> descendingMap;

内部类有Node、Index、,省略构造方法(下同):

static final class Node<K,V> {
	final K key; // currently, never detached
	V val;
	Node<K,V> next;
}

Node表示链表结点,用于保存数据,包括三个属性:key-键、volatile的value-值、volatile的next-后继结点。

static final class Index<K,V> {
	final Node<K,V> node;  // currently, never detached
	final Index<K,V> down;
	Index<K,V> right;
}

Index表示基于链表的索引结点,用于保存索引关系和索引相关操作。包括三个属性:指向的链表数据结点node,指向下一层索引链表的索引结点down,指向同一层索引链表的当前结点的后继索引结点right。

抽象内部类Iter,见名知意,用于迭代:

abstract class Iter<T> implements Iterator<T> {
	/** next()方法返回的最后一个节点 */
	Node<K,V> lastReturned;
	/** next()方法返回的下一个节点 */
	Node<K,V> next;
	/** 缓存下一个值字段以保持弱一致性 */
	V nextValue;
	
	/** 初始化整个范围的升序迭代器 */
	Iter() {
		advance(baseHead());
	}
	
	public final boolean hasNext() {
		return next != null;
	}
	
	/** Advances next to higher entry. */
	final void advance(Node<K,V> b) {
		Node<K,V> n = null;
		V v = null;
		if ((lastReturned = b) != null) {
			while ((n = b.next) != null && (v = n.val) == null)
				b = n;
		}
		nextValue = v;
		next = n;
	}
	
	public final void remove() {
		Node<K,V> n; K k;
		if ((n = lastReturned) == null || (k = n.key) == null)
			throw new IllegalStateException();
		// It would not be worth all of the overhead to directly
		// unlink from here. Using remove is fast enough.
		ConcurrentSkipListMap.this.remove(k);
		lastReturned = null;
	}
}

基于Iter抽象类,有3个实现类分别用于Key、Value、Key和Value的遍历,即KeyIterator、ValueIterator、EntryIterator这3个内部类。

核心方法

  • put:插入结点,调用doPut方法,使用到VarHandle的acquireFence、compareAndSet两个方法,以及ThreadLocalRandom.nextSecondarySeed()方法,源码还是挺复杂的
  • remove:删除结点,有多个重载方法,最后调用doRemove方法
  • get:查找结点,调用doGet方法,也是使用到VarHandle的acquireFence、compareAndSet两个方法,和双层循环。基于doGet方法,还提供有用的getOrDefault方法
  • replace:有两个方法
    • public V replace(K key, V value),如果指定key对应的结点存在,那么使用指定value替换旧value。返回以前与指定键关联的值;如果没有该键的映射关系,则返回null
    • public boolean replace(K key, V oldValue, V newValue):如果指定key-value对应的结点存在,则使用newValue替换oldValue。如果该值被替换成功,则返回true。
  • contains:来自Map的方法,用于判断是否包括某个Key或Value,包括:
    • containsKey:直接使用doGet来判断即可
    • containsValue:通过一层循环来遍历
  • size:判断大小
  • isEmpty:判断是否为空,判断头结点是否为空即可:return findFirst() == null;
  • clear:清空

doRemove方法使用两层嵌套循环,默认情况下使用break关键词只会跳出一层循环体。为了实现一次性跳出两层(多层也可以)循环,在最外层定义一个outer:,注意冒号不能省略,然后使用break outer实现:

final V doRemove(Object key, Object value) {
	if (key == null)
	    throw new NullPointerException();
	Comparator<? super K> cmp = comparator;
	V result = null;
	Node<K,V> b;
	outer: while ((b = findPredecessor(key, cmp)) != null &&  result == null) {
	    for (;;) {
	        Node<K,V> n; K k; V v; int c;
	        if ((n = b.next) == null)
	            break outer;
	        else if ((k = n.key) == null)
	            break;
	        else if ((v = n.val) == null)
	            unlinkNode(b, n);
	        else if ((c = cpr(cmp, key, k)) > 0)
	            b = n;
	        else if (c < 0)
	            break outer;
	        else if (value != null && !value.equals(v))
	            break outer;
	        else if (VAL.compareAndSet(n, v, null)) {
	            result = v;
	            unlinkNode(b, n);
	            break; // loop to clean up
	        }
	    }
	}
	if (result != null) {
	    tryReduceLevel();
	    addCount(-1L);
	}
	return result;
}

另外outer标志字段可以使用其他非Java保留关键词都行,如flag

有2个参数的replace方法源码:

public V replace(K key, V value) {
	if (key == null || value == null)
		throw new NullPointerException();
	for (;;) {
		Node<K,V> n; V v;
		if ((n = findNode(key)) == null)
			return null;
		if ((v = n.val) != null && VAL.compareAndSet(n, v, value))
			return v;
	}
}

有3个参数的replace方法源码:

public boolean replace(K key, V oldValue, V newValue) {
	if (key == null || oldValue == null || newValue == null)
		throw new NullPointerException();
	for (;;) {
		Node<K,V> n; V v;
		if ((n = findNode(key)) == null)
			return false;
		if ((v = n.val) != null) {
			if (!oldValue.equals(v))
				return false;
			if (VAL.compareAndSet(n, v, newValue))
				return true;
		}
	}
}

用于判断Value是否存在的containsValue方法:

public boolean containsValue(Object value) {
	if (value == null)
		throw new NullPointerException();
	Node<K,V> b, n; V v;
	if ((b = baseHead()) != null) {
		while ((n = b.next) != null) {
			if ((v = n.val) != null && value.equals(v))
				return true;
		else
				b = n;
		}
	}
	return false;
}

size方法最大为Integer.MAX_VALUE

public int size() {
	long c;
	return ((baseHead() == null) ? 0 : ((c = getAdderCount()) >= Integer.MAX_VALUE) ? Integer.MAX_VALUE : (int) c);
}

getAdderCount方法如下:

final long getAdderCount() {
    LongAdder a; long c;
    do {} while ((a = adder) == null && !ADDER.compareAndSet(this, null, a = new LongAdder()));
    return ((c = a.sum()) <= 0L) ? 0L : c; // ignore transient negatives
}

VarHandle

JDK 9引入的概念。TODO。

Kafka

Kafka的每个日志对象中使用ConcurrentSkipListMap来保存各个日志分段,每个日志分段的baseOffset作为key,这样可以根据指定偏移量来快速定位到消息所在的日志分段。

LevelDB

memtable用于存储在内存中还未落盘到sstable中的数据,这部分使用跳表做为底层的数据结构。

Lucene

占用内存小,且可调,但是对模糊查询支持不好。Lucene3.0之前使用的也是跳跃表结构,后换成FST,但跳跃表在Lucene其他地方还有应用如倒排表合并和文档号索引。

基于lucene-core-9.10.0版本,可以看到两个抽象类MultiLevelSkipListReader和MultiLevelSkipListWriter。前面的分析讲过,普通的快表只能从最上层往下一层层搜索,不能越两级搜索,因为没有维护越级的指针。

以MultiLevelSkipListReader为例,看看其属性有哪些:

public abstract class MultiLevelSkipListReader implements Closeable {
	/** the maximum number of skip levels possible for this index */
	protected int maxNumberOfSkipLevels;

	/** number of levels in this skip list */
	protected int numberOfSkipLevels;
	
	private int docCount;
	
	/** skipStream for each level. */
	private IndexInput[] skipStream;
	
	/** The start pointer of each skip level. */
	private long[] skipPointer;
	
	/** skipInterval of each level. */
	private int[] skipInterval;
	
	/**
	 * Number of docs skipped per level. It's possible for some values to overflow a signed int, but this has been accounted for.
	 */
	private int[] numSkipped;
	
	/** Doc id of current skip entry per level. */
	protected int[] skipDoc;
	
	/** Doc id of last read skip entry with docId &lt;= target. */
	private int lastDoc;
	
	/** Child pointer of current skip entry per level. */
	private long[] childPointer;
	
	/** childPointer of last read skip entry with docId &lt;= target. */
	private long lastChildPointer;
	
	private final int skipMultiplier;
}

TODO

Redis

zset数据结构,由zskiplist和zskiplistNode两个结构组成:前者用于保存跳跃表信息(如头结点、尾结点、长度等),后者用于表示跳跃表结点

参考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1933175.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ROS参数服务器理论模型

ROS参数服务器理论模型 参数服务器角色实现参数服务器流程参数可以使用的类型 参数服务器角色 参数服务器实现是最为简单的&#xff0c;该模型如下图所示,该模型中涉及到三个角色: ROS Master (管理者)Talker (参数设置者)Listener (参数调用者) 实现参数服务器流程 整个流…

“论企业集成平台的理解与应用”,软考高级论文,系统架构设计师论文

论文真题 企业集成平台&#xff08;Enterprise Imtcgation Plaform,EIP)是支特企业信息集成的像环境&#xff0c;其主要功能是为企业中的数据、系统和应用等多种对象的协同行提供各种公共服务及运行时的支撑环境。企业集成平台能够根据业务模型的变化快速地进行信息系统的配置…

业务能力构建设计规划咨询项目(48页PPT)

业务能力构建设计规划咨询项目旨在为企业提供全面系统的指导与支持&#xff0c;通过48页PPT详细阐述如何从零开始建立起一套高效的业务体系。该项目将首先识别企业的核心竞争力&#xff0c;分析市场需求和内部资源配置&#xff0c;制定出切实可行的战略规划。 从流程优化、技术…

图片如何去水印,PS 图片去水印的几种常见方法

在数字图像的世界里&#xff0c;水印常常被用来标识版权或防止未经授权的使用&#xff0c;但有时它们却成为了美观的障碍。无论是出于个人偏好还是专业需求&#xff0c;去除图片上的水印已经成为一项常见的任务。 Adobe Photoshop 作为行业标准的图像编辑软件&#xff0c;提供…

Golang | Leetcode Golang题解之第240题搜索二维矩阵II

题目&#xff1a; 题解&#xff1a; func searchMatrix(matrix [][]int, target int) bool {m, n : len(matrix), len(matrix[0])x, y : 0, n-1for x < m && y > 0 {if matrix[x][y] target {return true}if matrix[x][y] > target {y--} else {x}}return f…

卸载linux 磁盘的内容,磁盘占满

Linux清理磁盘 https://www.cnblogs.com/siyunianhua/p/17981758 当前文件夹下&#xff0c;数量 ls -l | grep "^-" | wc -l ls -lR | grep "^-" | wc -l 找超过100M的大文件 find / -type f -size 100M -exec ls -lh {} \; df -Th /var/lib/docker 查找…

【简单介绍Gitea】

&#x1f3a5;博主&#xff1a;程序员不想YY啊 &#x1f4ab;CSDN优质创作者&#xff0c;CSDN实力新星&#xff0c;CSDN博客专家 &#x1f917;点赞&#x1f388;收藏⭐再看&#x1f4ab;养成习惯 ✨希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出…

第十四届蓝桥杯省赛C++C组A题【求和】题解(AC)

法一 用 for 循环计算序列和。 法二 使用等差数列求和公式。 #include <iostream> #include <algorithm> #include <cstring>using namespace std;typedef long long LL;int main() {LL res 0;for (int i 1; i < 20230408; i )res i;cout <<…

自定义View(8)View的绘制流程

安卓UI的重点之一就是View的绘制流程&#xff0c;经常出现在面试题中。熟悉View的绘制流程&#xff0c;不仅能轻松通过View相关的面试&#xff0c;也可以让我们更加方便的使用自定义View以及官方View。此篇先以常见面试题为切入点&#xff0c;说明自定义View的重要性&#xff0…

Qt Style Sheets-设计器集成

设计器集成 Qt Designer&#xff08;Qt Designer&#xff09;是一个出色的工具&#xff0c;用于预览样式表。您可以在 Designer 中右键单击任何小部件&#xff0c;并选择“更改样式表...”来设置样式表。 在 Qt 4.2 及更高版本中&#xff0c;Qt Designer 还包括一个样式表语法…

Unity Apple Vision Pro 开发(四):体积相机 Volume Camera

文章目录 &#x1f4d5;教程说明&#x1f4d5;教程内容概括&#x1f4d5;体积相机作用&#x1f4d5;创建体积相机&#x1f4d5;添加体积相机配置文件&#x1f4d5;体积相机配置文件参数&#x1f4d5;体积相机的边界盒大小&#x1f4d5;体积相机边界盒大小和应用边界盒大小的区别…

Redis 教程:从入门到入坑

目录 1. Redis 安装与启动1.1. 安装 Redis1.1.1. 在Linux上安装1.1.2. 在Windows上安装 1.2. 启动 Redis1.2.1. 在Linux上启动1.2.2. 在Windows上启动 1.3. 连接Redis1.3.1. 连接本地Redis1.3.2. 连接远程Redis1.3.2.1. 服务器开放端口1.3.2.2. 关闭防火墙1.3.2.3. 修改配置文件…

内网对抗-隧道技术篇防火墙组策略ICMPDNSSMB协议出网判断C2上线解决方案

知识点&#xff1a; 1、隧道技术篇-网络层-ICMP协议-判断&封装&建立&穿透 2、隧道技术篇-传输层-DNS协议-判断&封装&建立&穿透 3、隧道技术篇-表示层-SMB协议-判断&封装&建立&穿透0、不是有互联网才叫出网 1、C2常见上线采用的协议 2、常…

Android:将自定义视图设为互动式

一、简介 点击查看将自定义视图设为互动式官网文档 绘制界面只是创建自定义视图的一个部分。您还需要让视图以非常类似于您模仿的真实操作的方式响应用户输入。 让应用中的对象的行为方式与真实对象相似。例如&#xff0c;不要让应用中的图片消失后重新出现在其他位置&#x…

1.厦门面试

1.Vue的生命周期阶段 vue生命周期分为四个阶段 第一阶段&#xff08;创建阶段&#xff09;&#xff1a;beforeCreate&#xff0c;created 第二阶段&#xff08;挂载阶段&#xff09;&#xff1a;beforeMount&#xff08;render&#xff09;&#xff0c;mounted 第三阶段&#…

基于Transformer模型的谣言检测系统的实现

新书速览|PyTorch深度学习与企业级项目实战-CSDN博客 谣言检测系统项目背景 1938年10月30日的晚上&#xff0c;哥伦比亚广播公司照例安排了广播剧&#xff0c;当晚的节目是根据HG威尔斯《世界之战》改编的“火星人进攻地球”。为提升吸引力&#xff0c;制作团队选择以类纪实风…

C# 智慧大棚nmodbus4

窗体 &#xff1a;图表&#xff08;chart&#xff09;&#xff1a; 下载第三方&#xff1a; nmodbus4:可以实现串口直连&#xff0c;需要创建串口对象设置串口参数配置Serialport 如果需要把串口数据表通过tcp进行网口传递 需要创建tcpclient对象 ModbusSerialMaster master; /…

秋招突击——7/17——复习{二分查找——搜索插入位置、搜索二维矩阵,}——新作{链表——反转链表和回文链表,子串——和为K的子数组}

文章目录 引言新作二分模板二分查找——搜索插入位置复习实现 搜索二维矩阵复习实现 新作反转链表个人实现参考实现 回文链表个人实现参考实现 和为K的子数组个人实现参考实现 总结 引言 今天算法得是速通的&#xff0c;严格把控好时间&#xff0c;后面要准备去面试提前批了&a…

Camera Raw:首选项

Camera Raw 首选项 Preferences提供了丰富的配置选项&#xff0c;通过合理设置&#xff0c;可以显著提升图像处理的效率和效果。根据个人需求调整这些选项&#xff0c;有助于创建理想的工作环境和输出质量。 ◆ ◆ ◆ 打开 Camera Raw 首选项 方法一&#xff1a;在 Adobe Bri…

nginx 编译安装与配置

一、安装 官网下载合适的版本&#xff0c;建议选择稳定版本。 官网地址&#xff1a;https://nginx.org wget https://nginx.org/download/nginx-1.26.1.tar.gz -C /opt/ 解压后&#xff0c;进入源码目录 cd /opt/nginx-1.26.1tar -zxvf nginx-1.20.1.tar.gz cd nginx-1.26.1源…