Redis Hash(散列表)实现原理看这篇就够了

news2025/1/11 6:38:51

1. 是什么

Redis Hash(散列表)是一种 field-value pairs(键值对)集合类型,类似于 Python 中的字典、Java 中的 HashMap。一个 field 对应一个 value,你可以通过 field 在 O(1) 时间复杂度查 field 找关联的 field,也可以通过 field 来更新或者删除这个键值对。

Redis 的散列表 dict 由数组 + 链表构成,数组的每个元素占用的槽位叫做哈希桶,当出现散列冲突的时候就会在这个桶下挂一个链表,用“拉链法”解决散列冲突的问题

简单地说就是将一个 key 经过散列计算均匀的映射到散列表上。

图 2-18

图 2-18

2. 修炼心法

Hash 数据类型底层存储数据结构实际上有两种。

  1. dict 结构。

  2. 在 7.0 版本之前使用 ziplist,之后被 listpack 代替。

通常情况下使用 dict 数据结构存储数据,每个 field-value pairs 构成一个 dictEntry 节点来保存。

只有同时满足以下两个条件的时候,才会使用 listpack(7.0 版本之前使用 ziplist)数据结构来代替 dict 存储, 把 key-value 键值对按照 field 在前 value 在后,紧密相连的方式放到一次把每个键值对放到列表的表尾

  • 每个键值对中的 field 和 value 的字符串字节大小都小于hash-max-listpack-value 配置的值(默认 64)。

  • field-value pairs 键值对数量小于 hash-max-listpack-entries配置的值(默认 512)。

每次向散列表写数据的时候,都会调用 t_hash.c 中的hashTypeConvertListpack()函数来判断是否需要转换底层数据结构。

当插入和修改的数据不满足以上两个条件时,就把散列表底层存储结构转换成 dict结构。需要注意的是,不能由 dict 退化成 listpack

虽然使用了 listpack 就无法实现 O(1) 时间复杂度操作数据,但是使用 listpack 能大大减少内存占用,而且数据量比较小,性能并不是有太大差异。

为了对上层屏蔽散列表底层使用了不同数据结构存储,所以抽象了一个 hashTypeIterator 迭代器来实现散列表的查询。

Hashes 数据类型使用 listpack 作为存储数据时的情况,如图 2-19 所示。

图 2-19

图 2-19

listpack 数据结构在之前的已经介绍过, 接下来带你揭秘 dict 到底长啥样。

Redis 数据库就是一个全局散列表。正常情况下,我只会使用 ht_table[0]散列表,图 2-20 是一个没有进行 rehash 状态下的字典。

图 2-20

图 2-20

dict 字典在源代码 dict.h中使用 dict 结构体表示。

struct dict {
    dictType *type;
  // 真正存储数据的地方,分别存放两个指针
    dictEntry **ht_table[2];
    unsigned long ht_used[2];

    long rehashidx;

    int16_t pauserehash;
    signed char ht_size_exp[2];
};
  • dictType *type,存放函数的结构体,定义了一些函数指针,可以通过设置自定义函数,实现 dict 的 key 和 value 存放任何类型的数据。

  • 重点看 dictEntry **ht_table[2],存放了两个 dictEntry 的二级指针,指针分别指向了一个 dictEntry 指针的数组。

  • ht_used[2],记录每个散列表使用了多少槽位(比如数组长度 32,使用了 12)。

  • rehashidx,用于标记是否正在执行 rehash 操作,-1 表示没有进行 rehash。如果正在执行 rehash,那么其值表示当前 rehash 操作执行的 ht_table[0] 散列表 dictEntry 数组的索引。

  • pauserehash 表示 rehash 的状态,大于 0 时表示 rehash 暂停了,小于 0 表示出错了。

继续看 dictEntry,数组中每个元素都是 dictEntry 类型,就是这玩意存放了键值对,表示字典的一个节点。

typedef struct dictEntry {
    void *key;
    union {
        void *val;
        uint64_t u64;
        int64_t s64;
        double d;
    } v;
    struct dictEntry *next;
} dictEntry;
  • *key指针指向键值对中的键,实际上指向一个 SDS 实例。

  • v是一个 union 联合体,表示键值对中的值,同一时刻只有一个字段有值,用联合体的目是节省内存。

    • *val 如果值是非数字类型,那就使用这个指针存储。

    • uint64_t u64,值是无符号整数的时候使用这个字段存储。

    • int64_t s64,值是有符号整数时,使用该字段存储。

    • double d,值是浮点数是,使用该字段存储。

  • *next指向下一个节点指针,当散列表数据增加,可能会出现不同的 key 得到的哈希值相等,也就是说多个 key 对应在一个哈希桶里面,这就是哈希冲突。Redis 使用拉链法,也就是用链表将数据串起来。

MySQL:“为啥 ht_table[2] 存放了两个指向散列表的指针?用一个散列表不就够了么。”

默认使用 ht_table [0] 进行读写数据,当散列表的数据越来越多的时候,哈希冲突严重会出现哈希桶的链表比较长,导致查询性能下降。

我为了唯快不破想了一个法子,当散列表保存的键值对太多或者太少的时候,需要通过 rehash(重新散列)对散列表进行扩容或者缩容。

扩容和缩容

  1. 为了高性能,减少哈希冲突,我会创建一个大小等于 ht_used[0] * 2的散列表 ht_table[1],也就是每次扩容时根据散列表 ht_table [0]已使用空间扩大一倍创建一个新散列表ht_table [1]。反之,如果是缩容操作,就根据ht_table [0]已使用空间缩小一倍创建一个新的散列表。

  2. 重新计算键值对的哈希值,得到这个键值对在新散列表 ht_table [1]的桶位置,将键值对迁移到新的散列表上。

  3. 所有键值对迁移完成后,修改指针,释放空间。具体是把 ht_table[0]指针指向扩容后的散列表,回收原来小的散列表内存空间,ht_table[1]指针指向NULL,为下次扩容或者缩容做准备。

MySQL:“什么时候会触发扩容?”

  1. 当前没有执行 BGSAVE或者 BGREWRITEAOF命令,同时负载因子大于等于 1。也就是当前没有 RDB 子进程和 AOF 重写子进程在工作,毕竟这俩操作还是比较容易对性能造成影响的,就不扩容火上浇油了。

  2. 正在执行 BGSAVE或者 BGREWRITEAOF命令,负载因子大于等于 5。(这时候哈希冲突太严重了,再不触发扩容,查询效率太慢了)。

负载因子 = 散列表存储 dictEntry 节点数量 / 散列表桶个数。完美情况下,每个哈希桶存储一个 dictEntry 节点,这时候负载因子 = 1。

MySQL:“需要迁移数据量很大,rehash 操作岂不是会长时间阻塞主线程?”

为了防止阻塞主线程造成性能问题,我并不是一次性把全部的 key 迁移,而是分多次,将迁移操作分散到每次请求中,避免集中式 rehash 造成长时间阻塞,这个方式叫渐进式 rehash

在执行渐进式 rehash 期间,dict 会同时使用 ht_table[0] 和 ht_table[1]两个散列表,rehash 具体步骤如下。

  1. 将 rehashidx设置成 0,表示 rehash 开始执行。

  2. 在 rehash 期间,服务端每次处理客户端对 dict 散列表执行添加、查找、删除或者更新操作时,除了执行指定操作以外,还会检查当前 dict 是否处于 rehash 状态,是的话就把散列表ht_table[0]上索引位置为 rehashidx 的桶的链表的所有键值对 rehash 到散列表 ht_table[1]上,这个哈希桶的数据迁移完成,就把 rehashidx 的值加 1,表示下一次要迁移的桶所在位置。

  3. 当所有的键值对迁移完成后,将 rehashidx设置成 -1,表示 rehash 操作已完成。

MySQL:“rehash 过程中,字典的删除、查找、更新和添加操作,要从两个 ht_table 都搞一遍么?”

删除、修改和查找可能会在两个散列表进行,第一个散列表没找到就到第二个散列表进行查找。但是增加操作只会在新的散列表上进行。

MySQL:“如果请求比较少,岂不是会很长时间都要使用两个散列表。”

好问题,在 Redis Server 初始化时,会注册一个时间事件,定时执行 serverCron 函数,其中包含 rehash 操作用于辅助迁移,避免这个问题。

serverCron 函数除了做 rehash 以外,主要处理如下工作。

  • 过期 key 删除。

  • 监控服务运行状态。

  • 更新统计数据。

  • 渐进式 rehash。

  • 触发 BGSAVE / AOF rewrite 以及停止子进程。

  • 处理客户端超时。

  • ......

是不是很贴心,既能保证性能,又能避免内存浪费。好了,今天散列表底层数据结构实现原理就到这里。后面我将给大家分享如何使用 Hash 实现购物车功能。

如果感觉本文对你有帮助,点赞关注支持一下,想要了解更多Java后端,大数据,算法领域最新资讯可以关注我公众号【架构师老毕】私信666还可获取更多Java后端,大数据,算法PDF+大厂最新面试题整理+视频精讲

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/582150.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Qt+QtWebApp开发笔记(四):http服务器使用Session和Cookie实现用户密码登录和注销功能

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/130921152 红胖子网络科技博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV、OpenGL、ffmpeg、OSG、单片机、软硬…

信号量对象没有所有者

相较于互斥对象(Mutex)和临界区对象(Critical Section) ,信号量没有所有者,它们只有计数。 ReleaseSemaphore 函数将会以指定的数量增加对应信号量对象的计数。 (增加计数这个动作,可能会释放正在等待的线程)但是释放信号量的线程…

metaIPC2.0 SDK实现webRTC对讲IPC

概述 metaRTC新推出P2P版metaIPC2.0 sdk版本,基于mqtt通信,同时支持windows/linux/android操作系统,支持国内如海思/君正/瑞芯微/MSTAR等主流芯片。 metaIPC2.0支持linux/android/windows IPC,客户端支持浏览器/APP/windows和li…

【JavaSE】Java基础语法(二十七):Set集合和 TreeSet

文章目录 1. Set集合1.1Set集合概述和特点【应用】1.2Set集合的使用【应用】 2.TreeSet集合2.1TreeSet集合概述和特点【应用】2.2TreeSet集合基本使用【应用】2.3自然排序Comparable的使用【应用】2.4比较器排序Comparator的使用【应用】2.4两种比较方式总结 1. Set集合 1.1Se…

数据库必备知识:脏读和幻读的定义及应对策略

随着数据库应用的广泛使用,数据库并发性和一致性的问题成为了引起重视的问题之一。其中,脏读(Dirty Read)和幻读(Phantom Read)是常见的并发访问问题,本文将对脏读、幻读进行详细介绍&#xff0…

炸裂!GPT-4 开始自主进化,打造一个虚拟世界!

公众号关注 “GitHubDaily” 设为 “星标”,每天带你逛 GitHub! 此前 GitHub 曾诞生过一个名为 Auto-GPT 的开源项目,让 AI 能够根据人类给出的目的,自动设定任务的优先级,尝试自行优化代码、自动改 Bug 等操作。不得不…

2024考研408-计算机组成原理第一章-计算机系统概述

文章目录 起步:认识计算机一、计算机发展历程1.1、什么是计算机系统1.2、计算机硬件的发展1.2.1、总览四代发展1.2.2、四代发展详细介绍1.2.3、计算机硬件的发展历史1.2.4、摩尔定律介绍 1.3、计算机软件的发展1.3.1、软件的发展1.3.2、目前的发展趋势 知识回顾与重…

Redis中的Reactor模型和执行命令源码探索

文章目录 摘要1、 了解Linux的epoll2、了解Reactor模型 一、Redis初始化1.1、配置初始化1.2、服务初始化1.3、网络监听初始化1.4、Reactor线程池初始化1.5、Reactor事件主循环 二、Reactor2.1、Reactor事件处理器2.2、读事件2.2.1、第一次读事件(accept)…

基于MATALB编程的深度信念网络DBN的01分类编码三分类预测,DBN算法详细原理

目录 背影 DBN神经网络的原理 DBN神经网络的定义 受限玻尔兹曼机(RBM) DBN的语音分类识别 基本结构 主要参数 数据 MATALB代码 结果图 展望 背影 DBN是一种深度学习神经网络,拥有提取特征,非监督学习的能力,是一种非常好的分类算法,本文将DBN算法对数据采用01编码分析…

【数据湖仓架构】数据湖和仓库:Azure Synapse 视角

是时候将数据分析迁移到云端了。我们将讨论 Azure Synapse 在数据湖和数据仓库范式规模上的定位。 在本文中,我们将讨论 Microsoft 的 Azure Synapse Analytics 框架。具体来说,我们关注如何在其中看到数据仓库和数据湖范式的区别。为了熟悉这个主题&…

【Linux】Linux环境基础工具的基本使用及配置(yum、vim)

​ ​📝个人主页:Sherry的成长之路 🏠学习社区:Sherry的成长之路(个人社区) 📖专栏链接:Linux 🎯长路漫漫浩浩,万事皆有期待 文章目录 Linux软件包管理器 - y…

60分钟吃掉detectron2

本范例演示使用非常有名的目标检测框架detectron2 🤗🤗 在自己的数据集(balloon数据)上训练实例分割模型MaskRCNN的方法。 detectron2框架的设计有以下一些优点: 1,强大:提供了包括目标检测、实例分割、全景分割等非常…

Spring Boot启动流程

1 Springboot 启动流程 创建一个StopWatch实例,用来记录SpringBoot的启动时间。 通过SpringFactoriesLoader加载listeners:比如EventPublishingRunListener。 发布SprintBoot开始启动事件(EventPublishingRunListener#starting()&#xff0…

性能测试——基本性能监控系统使用

这里写目录标题 一、基本性能监控系统组成二、环境搭建1、准备数据文件 type.db collectd.conf2、启动InfluxDB3、启动grafana4、启动collectd5、Grafana中配置数据源 一、基本性能监控系统组成 Collectd InfluxdDB Grafana Collectd 是一个守护(daemon)进程,用来…

【数据结构】时间复杂度与空间复杂度

目录 前言一、算法效率1. 算法效率的定义 二、时间复杂度1. 时间复杂度的定义2. 时间复杂度的计算 三、空间复杂度1. 空间复杂度的定义2. 空间复杂度的计算 四、时间复杂度曲线图结尾 前言 在学习C语言的时候,大多数的小伙伴们并不会对算法的效率了解,也…

视频采集到录制 - 音频采集到降噪

继续上篇的视频采集到录制 视频采集相对来说还是算正常,如果资源够用,使用第三方库也是种解决办法 但音频采集网上资料相对也少,走了一遍,也发现存在很多坑 1. 音频采集 一般来说,采用MIC采集,采集出来的格…

内存泄露的循环引用问题

内存泄漏一直是很多大型系统故障的根源,也是一个面试热点。那么在编程语言层面已经提供了内存回收机制,为什么还会产生内存泄漏呢? 这是因为应用的内存管理一直处于一个和应用程序执行并发的状态,如果应用程序申请内存的速度&…

希尔伯特旅馆里,住着AI的某种真相

“无穷”和“无穷1”,哪个更大? 已经吸收了不知道多少数据的AI模型,和比他多学习一条数据的模型,哪个更智能? 想聊聊这个问题,出于一个偶然的机会。很早之前我在测试ChatGPT的时候,突然想问他个…

简单工厂、工厂方法、抽象工厂模式-这仨货的区别

要想明白这三玩意的区别就需要知道这三玩意的优缺点; 之所以有三种工厂模式,就说明它们各有所长,能解决不同场景的问题; 一、简单工厂模式 UML图 代码 public class MobileFactory {public static Mobile getMobile(String brand)…

【Linux】线程概述、创建线程、终止线程

目录 线程概述1、创建线程函数解析代码举例 2、终止线程函数解析代码举例 橙色 线程概述 与进程类似,线程是允许应用程序并发执行多个任务的一种机制。一个进程可以包含多个线程。 进程是 CPU 分配资源的最小单位,线程是操作系统调度执行的最小单位。…