Go常见数据结构的实现原理——map

news2025/1/12 22:49:15

(一)基础操作

版本:Go SDK 1.20.6

1、初始化

map分别支持字面量初始化和内置函数make()初始化。

字面量初始化:

	m := map[string] int {
		"apple": 2,
		"banana": 3,
	}

使用内置函数make()初始化:

	m := make(map[string]int,10)	// 指定容量可以有效减少内存分配次数,有利于提升程序性能
	m["apple"] = 2
	m["banana"] = 3

注意:未初始化的map变量的默认值为nil,向值为nil的map添加元素时会触发panic:assignment to entry in nil map(赋值给空的map),如:

	var m map[string]int
	m["apple"] = 2					// 触发panic	

在这里插入图片描述

2、增删改查

map的增删改查比较随意…

	m := make(map[string]int,10)
	
	m["apple"] = 2			// 添加
	
	m["apple"] = 3			// 修改
	
	delete(m,"apple")		// 删除
	
	v := m["apple"]			// 查询
	v,exist := m["apple"]	// 查询
	if exist {
		fmt.Println(v)
	}
	

这里有几个需要注意的地方:

  1. 在上面的修改操作中,如果键"apple"不存在,则会直接执行添加操作。
  2. 删除元素使用内置函数delete()完成,delete()没有返回值,在map为nil或指定的键不存在的情况下,delete()也不会报错,相当于空操作。
  3. 如果使用的是第一种方式查询,当key不存在时,会返回value对应的零值,比如上面会返回0。当使用第二种时,第一个变量为值,第二个为bool类型的变量,用于指示是否存在指定的键,如果键不存在,那么第一个值为同样为对应零值。
  4. map操作不是原子的,当多个协程同时操作map时有可能会产生读写冲突,读写会触发panic

内置函数len()可以查询map的长度,该长度反应map中存储的键值对数。

(二)实现原理

1、数据结构

Go语言的map使用Hash表作为底层实现,一个Hash表里可以有多个bucket,而每个bucket保存了map中的一个或一组键值对。

(1)map的数据结构

map的数据结构由 runtime/map.go:hmap 定义:

type hmap struct {
	count     int	 	// 当前保存的元素个数
	flags     uint8		// 状态标志
	B         uint8  	// bucket 数组的大小
	noverflow uint16 	// 溢出桶的大概数量
	hash0     uint32 	// 哈希种子

	buckets    unsafe.Pointer // bucket 数组,数组的长度为2^B
	oldbuckets unsafe.Pointer // 老旧bucket数组,用于扩容
	nevacuate  uintptr        // 表示扩容进度,小于此地址的buckets代表已搬迁完成

	extra *mapextra // optional fields
}

下图展示了一个hmap.B=2t的map。

在这里插入图片描述

(2)bucket的数据结构

bucket(桶)数据结构由runtime/map.go:bmap定义

type bmap struct {
	tophash [bucketCnt]uint8	// 长度为8的数组
}
// 底层定义的常量
const (
	bucketCntBits = 3
	bucketCnt     = 1 << bucketCntBits		// 一个桶最多有8个位置
)

这是我在书上看到的bucket数据结构,并做出了如下解释:
bucket数据结构中的data和overflow成员并没有显示地在结构体中声明,运行时在访问bucket时直接通过指针的偏移量来访问这些虚拟成员

type bmap struct {
	tophash [8]uint8	// 存储Hash值的高8位
	data	[]byte		// key value 数据:key/key/key/.../value/value/value...
	overflow *bmap		// 溢出bucket的地址
}

每个bucket可以存储8个键值对

  • tophash 是一个长度为8的整型数组,Hash值低位相同的键存入当前bucket时会将Hash值的高位存储在数组中,以方便后续匹配。
  • data 区存放的是key-value数据,存放顺序是 key/key/key/…/value/value/value,如此存放是为了节省字节对齐带来的空间浪费。
  • overflow 指针指向的是下一个bucket,据此将所有冲突的键连接起来。
    在这里插入图片描述

所以tophash到底有什么用?

具体来说,如果两个键的哈希值的低位相同,但高位不同,它们可能会被映射到同一个桶位置。为了区分它们,可以将高位存储在 tophash[i] 数组中。这样,在查找时,可以首先比较低位哈希值,如果相等,再比较高位,以确保正确地匹配到相应的键。

在这种情况下,当添加元素时,如果 tophash[i] 中存储的哈希值与当前 key 的哈希值不相等,可能表示哈希冲突。这时,可能需要通过线性搜索或其他冲突解决方法在当前桶中查找匹配的键。在查找的过程中,可以利用 tophash[i] 数组中的高位信息来进一步确保正确匹配。

总体而言,这种做法是一种提高哈希表性能的优化策略,通过更多的信息来区分相同低位哈希值的键,以减少哈希冲突的影响。在实现哈希表时,具体的优化方法可能会因语言或库的不同而有所不同。

2、哈希冲突

当有两个或以上数量的键被“Hash”到同一个bucket时,我们称这些键发生了冲突。Go使用链地址法来解决冲突。
关于哈希冲突的详细解释可以移步我的这篇博客哈希表是什么
在这里插入图片描述

3、负载因子

负载因子用于衡量一个Hash表冲突情况,公式为:

负载因子 = 键数量/bucket数量

负载因子过小或过大都不理想:

  • 负载因子过小,说明空间利用率低。
  • 负载因子,说明冲突严重,存取效率低

当Hash表的负载因子过大时,需要申请更多的bucket,并对所有的键值对重新组织,使其均匀地分布到这些bucket中,这个过程称为rehash。

4、扩容

(1)扩容条件
为了保证访问效率,降低负载因子,常用的手段是扩容,当新元素将要添加进map时,会判断是否需要扩容。
触发扩容需要满足以下任一条件:

  • 平均负载因子大于6.5
  • overflow的数量达到2^min(15,B)

(2)增量扩容
当负载因子过大时,就新建一个bucket数组,新的bucket数组的长度为原来的2倍,然后旧bucket数组中的数据逐步搬迁到新的bucket数组中。

增量扩容的具体过程是这样的:

1、新建桶数组: 当触发增量扩容时,Go 会创建一个新的、更大的桶数组。

2、元素迁移: 然后,它会逐步将旧桶中的元素重新分配到新的桶数组中,避免一次性大规模的重新哈希。

3、渐进迁移: 在元素逐步迁移的过程中,新添加的元素会直接被放入新的桶数组中,而不会立即迁移。这保证了新元素的添加不会在迁移期间导致性能下降。

4、逐步替换: 最终,当所有元素都成功迁移到新的桶数组后,旧的桶数组会被废弃,新桶数组取而代之,完成了增量扩容的过程。

5、这种增量方式的扩容避免了在添加元素时出现大规模的哈希冲突或性能下降,因为它避免了在一次性扩容中发生的大量元素重新哈希的操作。这种方法相对于整体性地重新哈希整个 map 来说,更加有效和高效。

扩容后示意图:

在这里插入图片描述

搬迁完成后示意图:

在这里插入图片描述

5、增删改查

无论是元素的添加还是查询操作,都需要现根据键的Hash值确定一个bucket,并查询该bucket中是否存在指定的键。

  • 对于查询操作而言,查到指定的键后获取值后就返回,否则返回类型的空值。
  • 对于添加操作而言,查到指定的键意味着当前添加操作实际上是更新操作,否则在bucket中查找一个空余位置并插入。

(1)查找过程

查找过程简述如下:

  1. 计算 Hash 值: 对于给定的 key,通过哈希函数计算其对应的哈希值。
  2. 确定桶位置: 将计算得到的哈希值与当前 map 的桶数量 hmap.B 取模,以确定 key 应该放置在哪个桶中。这个桶就是存储相应 key-value 对的地方。
  3. 查找 TopHash: 从 tophash 数组中获取与当前桶位置对应的 tophash[i],其中 i 是 hash & (hmap.B - 1)。
  4. 比较 Hash 值: 如果 tophash[i] 中存储的哈希值与当前 key 的哈希值相等,那么表示可能找到了对应的桶,需要进一步检查。
  5. 比较实际值: 如果 tophash[i] 中存储的哈希值相等,接下来会比较实际的 key 值。如果找到了匹配的哈希值,但实际 key 不相等,这可能是碰撞,需要继续查找。
  6. 从桶中查找: 如果在当前桶中没有找到匹配的 key,就需要从溢出的桶中继续查找。溢出桶是因为哈希冲突导致多个 key 映射到同一个桶的情况。
  7. 返回结果: 如果找到匹配的 key,就返回对应的 value。如果遍历完所有相关的桶仍然没有找到匹配的 key,则返回相应类型的零值。

如果当前map处于搬迁过程中,则优先从oldbuckets数组中查找,查找到不再从新的buckets数组中查找。

(2)添加过程

新元素的添加过程简书如下:

  1. 根据key值算出Hash值
  2. 取Hash值低位与hmap.B取模来确定bucket位置
  3. 查找该key是否已经存在,如果存在则直接更新值
  4. 如果该key不存在,则从该bucket中寻找空余位置并插入

如果当前map出于搬迁过程中,则新元素会直接添加到新的buckets数组中,但查找过程仍从oldbuckets数组中开始

(3)删除操作

删除元素实际上是先查找元素,如果元素存在则把元素从相应的bucket中清除,如果不存在则什么也不做

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1198263.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深度学习模型基于Python+TensorFlow+Django的垃圾识别系统

欢迎大家点赞、收藏、关注、评论啦 &#xff0c;由于篇幅有限&#xff0c;只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 要使用Python、TensorFlow和Django构建一个垃圾识别系统&#xff0c;您可以按照以下步骤进行操作&#xff1a; 安装…

ArcGIS进阶:栅格计算器里的Con函数使用方法

本实验操作为水土保持功能重要性评价&#xff1a; 所用到的数据包括&#xff1a;土地利用类型数据&#xff08;矢量&#xff09;、植被覆盖度数据&#xff08;矢量&#xff09;和地形坡度数据&#xff08;栅格&#xff09;。 由于实验数据较少&#xff0c;其思路也较为简单&a…

【中间件篇-Redis缓存数据库04】Redis底层原理持久化、分布式锁

Redis底层原理 持久化 Redis虽然是个内存数据库&#xff0c;但是Redis支持RDB和AOF两种持久化机制&#xff0c;将数据写往磁盘&#xff0c;可以有效地避免因进程退出造成的数据丢失问题&#xff0c;当下次重启时利用之前持久化的文件即可实现数据恢复。 RDB RDB持久化是把当…

基于python+TensorFlow+Django卷积网络算法+深度学习模型+蔬菜识别系统

欢迎大家点赞、收藏、关注、评论啦 &#xff0c;由于篇幅有限&#xff0c;只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 介绍了TensorFlow在图像识别分类中的应用&#xff0c;并通过相关代码进行了讲解。通过TensorFlow提供的工具和库&am…

Jenkins 质量扫描

代码质量扫描工具&#xff08;SonarQube&#xff09; 质量评审 SonarQube有四个关键组件 ◼ SonarQube Server运行有三个组件 ◆ Web Server&#xff1a;UI ◆ Search Server&#xff1a;为UI提供搜索功能&#xff0c;基于ElasticSearch ◆ Compute Engine Server&#xff1a…

druid连接池异常GetConnectionTimeoutException(原创)

问题描述 有天&#xff0c;测试同学突然反馈系统页面查询缓慢&#xff0c;影响使用&#xff0c;我查了日志报&#xff1a; druid 连接池异常 GetConnectionTimeoutException wait millis 9120, active 20, maxActive 20 creating 0 结论先行 经一系列排查&#xff0c;得出数…

时序预测 | MATLAB实现WOA-CNN-BiGRU-Attention时间序列预测(SE注意力机制)

时序预测 | MATLAB实现WOA-CNN-BiGRU-Attention时间序列预测&#xff08;SE注意力机制&#xff09; 目录 时序预测 | MATLAB实现WOA-CNN-BiGRU-Attention时间序列预测&#xff08;SE注意力机制&#xff09;预测效果基本描述模型描述程序设计参考资料 预测效果 基本描述 1.MATLA…

【黑客】学习笔记(小白自学)

一、黑客是什么 原是指热心于计算机技术&#xff0c;水平高超的电脑专家&#xff0c;尤其是程序设计人员。但后来&#xff0c;黑客一词已被用于泛指那些专门利用电脑网络搞破坏或者恶作剧的家伙。 二、学习黑客技术的原因 其实&#xff0c;网络信息空间安全已经成为海陆空之…

Lenovo联想小新Air-14笔记本2021款AMD锐龙ALC版(82LM)原装出厂Win10镜像和Windows11预装OEM系统

下载链接&#xff1a;https://pan.baidu.com/s/1akLkXM2HIg3eO76jqM-LVA?pwdxvo6 提取码&#xff1a;xvo6 系统自带所有驱动、出厂主题壁纸、系统属性专属LOGO标志、Office办公软件、联想电脑管家等预装程序 所需要工具&#xff1a;16G或以上的U盘 文件格式&#xff1a;…

Haproxy实现七层负载均衡

目录 Haproxy概述 haproxy算法&#xff1a; Haproxy实现七层负载 ①部署nginx-server测试页面 ②(主/备)部署负载均衡器 ③部署keepalived高可用 ④增加对haproxy健康检查 ⑤测试 Haproxy概述 haproxy---主要是做负载均衡的7层&#xff0c;也可以做4层负载均衡 apache也可…

基于Python+OpenCV+SVM车牌识别系统-车牌预处理系统

欢迎大家点赞、收藏、关注、评论啦 &#xff0c;由于篇幅有限&#xff0c;只展示了部分核心代码。 文章目录 一项目简介简介系统流程系统优势 二、功能三、系统四. 总结 一项目简介 ## PythonOpenCVSVM车牌识别系统介绍 简介 PythonOpenCVSVM车牌识别系统是一种基于计算机视…

IIS前端服务和代理

前端服务可以用nginx和IIS开启&#xff0c;windows自带IIS方便管理一点。其实用docker的nginx更方便管理。 记录一下IIS的安装和开启服务过程 1、打开控制面板点击程序&#xff0c;再点击启用或关闭windows功能。 2、 点击左侧启用或关闭Windows功能。 3、把框框中全选上之后点…

快速走进通信世界 --- 基础知识扫盲

想不到吧&#xff0c;家人们&#xff0c;博主好久没来更新文章了&#xff0c;而且这次更新的是关于通信工程的文章。博主确实以前一直更新关于编程的文章&#xff0c;只不过最近在学习一些新的知识&#xff0c;以后有机会了我还是会继续更新一些编程技术文章的。不过每一门技术…

C++学习笔记(一):安装VisualStudio和Vcpkg

VisualStudio安装 error C4996: ‘scanf’: This function or variable may be unsafe. Consider using scanf_s instead. To disable deprecation, use _CRT_SECURE_NO_WARNINGS. See online help for details. #include <stdio.h>int main() {printf("hello"…

第一百六十八回 Navigation组件

文章目录 1. 概念介绍2. 使用方法3. 代码与效果3.1 示例代码3.2 运行效果 4. 内容总结 我们在上一章回中介绍了"如何修改按钮的形状"相关的内容&#xff0c;本章回中将 介绍NavigationBar组件.闲话休提&#xff0c;让我们一起Talk Flutter吧。 1. 概念介绍 我们在本…

idea配置tomcat参数,防止nvarchar保存韩文、俄文、日文等乱码

描述下我的场景&#xff1a; 数据库服务器在远程机器上&#xff0c;数据库使用的Oracle&#xff0c;字符集是ZHS16GBK&#xff0c;但保存韩文、俄文、日文等字段A的数据类型是nvarchar(120)&#xff0c;而nvarchar使用的是Unicode 编码&#xff0c;有点乱。。 遇到的问题&…

CSS特效006:绘制不断跳动的心形

css实战中&#xff0c;怎么绘制不断跳动的心形呢&#xff1f; 绘图的时候主要用到了transform: rotate(-45deg); transform-origin: 0 100%; transform: rotate(45deg); transform-origin: 100% 100%; 动画使用keyframes 时间上为infinite。 效果图 源代码 /* * Author: 大剑…

javaEE案例,前后端交互,计算机和用户登录

加法计算机,前端的代码如下 : 浏览器访问的效果如图 : 后端的代码如下 再在浏览器进行输入点击相加,就能获得结果 开发中程序报错,如何定位问题 1.先定位前端还是后端(通过日志分析) 1)前端 : F12 看控制台 2)后端 : 接口,控制台日志 举个例子: 如果出现了错误,我们就在后端…

C++学习---信号处理机制、中断、异步环境

文章目录 前言信号处理signal()函数关于异步环境 信号处理函数示例raise()函数 前言 信号处理 关于信号&#xff0c;信号是一种进程间通信的机制&#xff0c;用于在程序执行过程中通知进程发生了一些事件。在Unix和类Unix系统中&#xff0c;信号是一种异步通知机制&#xff0c…

MySQL Command Line Client 运行闪退问题解决,缺少my.ini文件

MySQL Command Line Client 运行闪退问题解决&#xff1a; 问题排查&#xff1a; 1.找到Command Line Client的路径位置&#xff0c;并查看属性&#xff0c;步骤截图&#xff1a; 查看属性&#xff1a; 查看属性中的目标路径&#xff1a; 2.进入属性中的目标路径&#xff0c;…