深度图解 Redis Hash(散列表)实现原理

news2024/11/26 16:43:36

1. 是什么

Redis Hash(散列表)是一种 field-value pairs(键值对)集合类型,类似于 Python 中的字典、Java 中的 HashMap。一个 field 对应一个 value,你可以通过 field 在 O(1) 时间复杂度查 field 找关联的 field,也可以通过 field 来更新或者删除这个键值对。

Redis 的散列表 dict 由数组 + 链表构成,数组的每个元素占用的槽位叫做哈希桶,当出现散列冲突的时候就会在这个桶下挂一个链表,用“拉链法”解决散列冲突的问题

简单地说就是将一个 key 经过散列计算均匀的映射到散列表上。

1ca2500ad28ae6d0933bbbb4c92510d3.png
图 2-18

图 2-18

2. 修炼心法

Hash 数据类型底层存储数据结构实际上有两种。

  1. dict 结构。

  2. 在 7.0 版本之前使用 ziplist,之后被 listpack 代替。

通常情况下使用 dict 数据结构存储数据,每个 field-value pairs 构成一个 dictEntry 节点来保存。

只有同时满足以下两个条件的时候,才会使用 listpack(7.0 版本之前使用 ziplist)数据结构来代替 dict 存储, 把 key-value 键值对按照 field 在前 value 在后,紧密相连的方式放到一次把每个键值对放到列表的表尾

  • 每个键值对中的 field 和 value 的字符串字节大小都小于hash-max-listpack-value 配置的值(默认 64)。

  • field-value pairs 键值对数量小于 hash-max-listpack-entries配置的值(默认 512)。

每次向散列表写数据的时候,都会调用 t_hash.c 中的hashTypeConvertListpack()函数来判断是否需要转换底层数据结构。

当插入和修改的数据不满足以上两个条件时,就把散列表底层存储结构转换成 dict结构。需要注意的是,不能由 dict 退化成 listpack

虽然使用了 listpack 就无法实现 O(1) 时间复杂度操作数据,但是使用 listpack 能大大减少内存占用,而且数据量比较小,性能并不是有太大差异。

为了对上层屏蔽散列表底层使用了不同数据结构存储,所以抽象了一个 hashTypeIterator 迭代器来实现散列表的查询。

Hashes 数据类型使用 listpack 作为存储数据时的情况,如图 2-19 所示。

57f3613aa1961b98d50aff0f11b71388.png
图 2-19

图 2-19

listpack 数据结构在之前的已经介绍过, 接下来带你揭秘 dict 到底长啥样。

Redis 数据库就是一个全局散列表。正常情况下,我只会使用 ht_table[0]散列表,图 2-20 是一个没有进行 rehash 状态下的字典。

5c167c2437e7a1448d0d29277d8835a5.png
图 2-20

图 2-20

dict 字典在源代码 dict.h中使用 dict 结构体表示。

struct dict {
    dictType *type;
  // 真正存储数据的地方,分别存放两个指针
    dictEntry **ht_table[2];
    unsigned long ht_used[2];

    long rehashidx;

    int16_t pauserehash;
    signed char ht_size_exp[2];
};
  • dictType *type,存放函数的结构体,定义了一些函数指针,可以通过设置自定义函数,实现 dict 的 key 和 value 存放任何类型的数据。

  • 重点看 dictEntry **ht_table[2],存放了两个 dictEntry 的二级指针,指针分别指向了一个 dictEntry 指针的数组。

  • ht_used[2],记录每个散列表使用了多少槽位(比如数组长度 32,使用了 12)。

  • rehashidx,用于标记是否正在执行 rehash 操作,-1 表示没有进行 rehash。如果正在执行 rehash,那么其值表示当前 rehash 操作执行的 ht_table[0] 散列表 dictEntry 数组的索引。

  • pauserehash 表示 rehash 的状态,大于 0 时表示 rehash 暂停了,小于 0 表示出错了。

继续看 dictEntry,数组中每个元素都是 dictEntry 类型,就是这玩意存放了键值对,表示字典的一个节点。

typedef struct dictEntry {
    void *key;
    union {
        void *val;
        uint64_t u64;
        int64_t s64;
        double d;
    } v;
    struct dictEntry *next;
} dictEntry;
  • *key指针指向键值对中的键,实际上指向一个 SDS 实例。

  • v是一个 union 联合体,表示键值对中的值,同一时刻只有一个字段有值,用联合体的目是节省内存。

    • *val 如果值是非数字类型,那就使用这个指针存储。

    • uint64_t u64,值是无符号整数的时候使用这个字段存储。

    • int64_t s64,值是有符号整数时,使用该字段存储。

    • double d,值是浮点数是,使用该字段存储。

  • *next指向下一个节点指针,当散列表数据增加,可能会出现不同的 key 得到的哈希值相等,也就是说多个 key 对应在一个哈希桶里面,这就是哈希冲突。Redis 使用拉链法,也就是用链表将数据串起来。

MySQL:“为啥 ht_table[2] 存放了两个指向散列表的指针?用一个散列表不就够了么。”

默认使用 ht_table [0] 进行读写数据,当散列表的数据越来越多的时候,哈希冲突严重会出现哈希桶的链表比较长,导致查询性能下降。

我为了唯快不破想了一个法子,当散列表保存的键值对太多或者太少的时候,需要通过 rehash(重新散列)对散列表进行扩容或者缩容。

扩容和缩容

  1. 为了高性能,减少哈希冲突,我会创建一个大小等于 ht_used[0] * 2的散列表 ht_table[1],也就是每次扩容时根据散列表 ht_table [0]已使用空间扩大一倍创建一个新散列表ht_table [1]。反之,如果是缩容操作,就根据ht_table [0]已使用空间缩小一倍创建一个新的散列表。

  2. 重新计算键值对的哈希值,得到这个键值对在新散列表 ht_table [1]的桶位置,将键值对迁移到新的散列表上。

  3. 所有键值对迁移完成后,修改指针,释放空间。具体是把 ht_table[0]指针指向扩容后的散列表,回收原来小的散列表内存空间,ht_table[1]指针指向NULL,为下次扩容或者缩容做准备。

MySQL:“什么时候会触发扩容?”

  1. 当前没有执行 BGSAVE或者 BGREWRITEAOF命令,同时负载因子大于等于 1。也就是当前没有 RDB 子进程和 AOF 重写子进程在工作,毕竟这俩操作还是比较容易对性能造成影响的,就不扩容火上浇油了。

  2. 正在执行 BGSAVE或者 BGREWRITEAOF命令,负载因子大于等于 5。(这时候哈希冲突太严重了,再不触发扩容,查询效率太慢了)。

负载因子 = 散列表存储 dictEntry 节点数量 / 散列表桶个数。完美情况下,每个哈希桶存储一个 dictEntry 节点,这时候负载因子 = 1。

MySQL:“需要迁移数据量很大,rehash 操作岂不是会长时间阻塞主线程?”

为了防止阻塞主线程造成性能问题,我并不是一次性把全部的 key 迁移,而是分多次,将迁移操作分散到每次请求中,避免集中式 rehash 造成长时间阻塞,这个方式叫渐进式 rehash

在执行渐进式 rehash 期间,dict 会同时使用 ht_table[0]ht_table[1]两个散列表,rehash 具体步骤如下。

  1. rehashidx设置成 0,表示 rehash 开始执行。

  2. 在 rehash 期间,服务端每次处理客户端对 dict 散列表执行添加、查找、删除或者更新操作时,除了执行指定操作以外,还会检查当前 dict 是否处于 rehash 状态,是的话就把散列表ht_table[0]上索引位置为 rehashidx 的桶的链表的所有键值对 rehash 到散列表 ht_table[1]上,这个哈希桶的数据迁移完成,就把 rehashidx 的值加 1,表示下一次要迁移的桶所在位置。

  3. 当所有的键值对迁移完成后,将 rehashidx设置成 -1,表示 rehash 操作已完成。

MySQL:“rehash 过程中,字典的删除、查找、更新和添加操作,要从两个 ht_table 都搞一遍么?”

删除、修改和查找可能会在两个散列表进行,第一个散列表没找到就到第二个散列表进行查找。但是增加操作只会在新的散列表上进行。

MySQL:“如果请求比较少,岂不是会很长时间都要使用两个散列表。”

好问题,在 Redis Server 初始化时,会注册一个时间事件,定时执行 serverCron 函数,其中包含 rehash 操作用于辅助迁移,避免这个问题。

serverCron 函数除了做 rehash 以外,主要处理如下工作。

  • 过期 key 删除。

  • 监控服务运行状态。

  • 更新统计数据。

  • 渐进式 rehash。

  • 触发 BGSAVE / AOF rewrite 以及停止子进程。

  • 处理客户端超时。

  • ......

是不是很贴心,既能保证性能,又能避免内存浪费。好了,今天散列表底层数据结构实现原理就到这里。后面我将给大家分享如何使用 Hash 实现购物车功能。

2. 好文推荐

  • Redis Set 底层数据结构实现原理与实战

  • Redis List 底层三种数据结构原理剖析

  • 图解 Redis String 底层数据结构 SDS 与计数器实战

最后,原创不易,免费的点赞来一个。关注我,并设置星标,以免接收不到我的技术文章推送。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/587299.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

更换Mysql数据库-----基于Abo.io 的书籍管理Web应用程序

之前公司一直使用的是ASP.NET Boilerplate (ABP),但是当解决方案变得很大时,项目启动就变得非常慢,虽然也想了一些办法,将一些基础模块做成Nuget包的形式,让整个解决方案去引用。但是整个项目还是很臃肿,各…

双轴高精度倾角传感器安装方式和485协议

倾角安装注意事项 在安装传感器时,不正确安装会导致测量角度误差偏大。安装时请注意以下两点: 1.“两面”指安装面与被测物体的安装面紧靠(被测物体的安装面要尽可能水平),不能有夹角产生(如A图中的角a&a…

【靶场】vulfocus搭建和场景编排

前言 Vulfocus 是一个漏洞集成平台,将漏洞环境 docker 镜像,放入即可使用,开箱即用,这里我们搭建在云服务器上,需要高一点的配置,搭建可以按需搭建本地和自己的服务器上,我们主要使用场景编排功…

【系统学习】Java基础1之多线程

前言 被公司换岗一年多了,从Linux C换到了java开发,奈何大环境不好,半吊子经验找不到好工作。 接触了spring cloud, spring boot k8s等许多新的知识。已经开发Java生态相关项目已一年半,但都止步于用的阶段,自知毫无竞…

小航编程题库蓝桥杯stem科技素养模拟练习试卷(初级第2套)(含题库教师学生账号)

需要在线模拟训练的题库账号请点击 小航助学编程在线模拟试卷系统(含题库答题软件账号)_程序猿下山的博客-CSDN博客 25. 百度公司是一家于 2000 年创立的互联网公司,其业务范围十分广泛。以下选 项中,( )不…

v4L2应用开发学习!

一.什么是V4L2框架? V4L2英文全称是Video for Linux2,它是专门为视频设备设计的内核驱动。在做视频的开发中,一般我们操控V4L2的设备节点就可以直接对摄像头进行操作。通常V4L2在Linux的设备节点是**/dev/video0**。无论是MIPI摄像头还是UVC摄…

SpringBoot项目快速添加新依赖框架的插件---->EditStarters

在SpringBoot项目中,我们往往会因为项目的需要经常需要添加一些新的依赖来支持项目的运行,此时可能会有人去Maven中央仓库去下载相关依赖,再来导入pom.xml。 但是可以有另外一种更快速的方法:那就是IDEA已经提供了一种快速的插件&…

HTB PC

HTB PC 链接:https://qing3feng.github.io/2023/05/29/HTB%20PC/ 今天又学一招,配置好/etc/hosts​文件: ​[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 如图所示,这样子就可以直接ping pc​了&#x…

Mongodb 为什么提起处理JSON 就是MOGNODB 的,因为我没得选

开头还是介绍一下群,如果感兴趣polardb ,mongodb ,mysql ,postgresql ,redis 等有问题,有需求都可以加群群内有各大数据库行业大咖,CTO,可以解决你的问题。加群请联系 liuaustin3 ,在新加的朋友会分到2群(共…

ChatGPT时代情感分析还存在吗?一份真实调查

深度学习自然语言处理 原创作者:qazw 引言 最近几年,GPT-3、PaLM和GPT-4等LLM刷爆了各种NLP任务,特别是在zero-shot和few-shot方面表现出它们强大的性能。因此,情感分析(SA)领域也必然少不了LLM的影子,但是哪种LLM适用…

结束了

阅读本文大概需要 1.29 分钟。 帅张读书会,结束了。 这里也简单记录一下这件事,毕竟是自己做了两年的产品。 经过两年的时间,自 2021 年 5 月 27 日至 2023 年 5 月 27 日,帅张读书会这个项目持续了两期,第二期现在结束…

配置wxworks6.9系统移植到xilinx zynq ps端

一,创建bootrom 打开打开Workbench,目录在C:\WindRiver\workbench-3.3\wrwb\platform\x86-win32\eclipse\eclipse-x86-win32 在菜单栏,点击 File->New->Project。The New Project Wizard opens。 在 VxWorks 6.x中,选择 Vx…

音乐驱动虚拟人——娱乐场景下虚拟人的AI驱动实践

元宇宙时代的娱乐场景下,通过高精度的AI驱动模型还原真人的歌舞表演,有着更低成本、更多创造性、精彩度、实时互动性的综合优势,是虚拟数字人驱动的最终形态。LiveVideoStackCon 2022北京站邀请到腾讯音乐天琴实验室计算机视觉负责人——董治…

动画图解程序?这个可视化运行环境太方便了

入门教程、案例源码、学习资料、读者群 请访问: python666.cn 大家好,欢迎来到 Crossin的编程教室 ! 了解代码的执行过程是编程的基本要求。 一个熟练的编程老手只需要用肉眼看着代码,就能对其运行的过程有所了解。然而对于刚接触…

权限维持-SSP-DLL 加载

前言 继续学习中,今天是权限维持的东西,大家永远不要忘记初心,要一起奋斗哦! 注:单机环境和域环境都可以使用 复现 一.进程注入lsass.exe 使用mimikatz将伪造的SSP注入内存,这样用户在注销重新登录的时候就…

机器学习库Scikit-learn

本文目录 3.1 背景知识3.2 Scikit-learn概述3.3 Scikit-learn主要用法 3.3.1 基本建模流程3.3.2 数据预处理3.3.3 监督学习算法3.3.4 无监督学习算法3.3.5 评价指标3.3.6 交叉验证及超参数调优3.4 Scikit-learn总结参考文献 Scikit-learn是基于NumPy、SciPy和Matplotlib的开源P…

全国流体力学盛会召开,飞桨AI4S携最新科研进展亮相西湖大学

‍‍‍‍ 5月20-21日,第四届全国智能流体力学研讨会暨第二届智能流体力学产业联合体大会在西湖大学召开。此次会议由中国力学学会、中国空气动力学会、《水动力学研究与进展》编委会、西湖大学、浙江大学、上海交通大学、中国船舶集团第七〇八研究所主办&#xff1b…

nsis制作windows安装包-修改安装目录读写权限

目录 1. 背景2. 使用AccessControl修改权限2.1 AccessControl下载安装2.2 修改脚本 1. 背景 使用nsis制作的windows安装包在安装时,将安装目录设置到非系统盘里,安装完成后一般不会出现读写权限的异常问题。但是,安装时选择在系统盘里安装&a…

envi随机森林分类5.3版本

在App Store中搜索随进森林工具,进行下载并重启envi软件 含有三个模块 Train Random Forest Model 1. Input Raster:输入影像。选择图像时不能进行空间、光谱裁剪或掩膜(ENVI 5.5及以上版本已经禁止显示这些按钮) 2. Random Sam…

无需租云服务器,Linux本地搭建web服务,并内网穿透发布公网访问

文章目录 前言1. 本地搭建web站点2. 测试局域网访问3. 公开本地web网站3.1 安装cpolar内网穿透3.2 创建http隧道,指向本地80端口3.3 配置后台服务 4. 配置固定二级子域名5. 测试使用固定二级子域名访问本地web站点 转载自cpolar文章:Linux CentOS本地搭建…