【C++练级之路】【Lv.18】哈希表(哈希映射,光速查找的魔法)

news2024/10/12 12:33:50



快乐的流畅:个人主页


个人专栏:《算法神殿》《数据结构世界》《进击的C++》

远方有一堆篝火,在为久候之人燃烧!

文章目录

  • 引言
  • 一、哈希
    • 1.1 哈希概念
    • 1.2 哈希函数
    • 1.3 哈希冲突
  • 二、闭散列
    • 2.1 数据类型
    • 2.2 成员变量
    • 2.3 默认成员函数
      • 2.3.1 constructor
    • 2.4 查找
    • 2.5 插入
    • 2.6 删除
  • 三、开散列
    • 3.1 结点
    • 3.2 成员变量
    • 3.3 默认成员函数
      • 3.3.1 constructor
      • 3.3.2 destructor
    • 3.4 查找
    • 3.5 插入
    • 3.6 删除
    • 3.7 哈希化
  • 总结

引言

之前学习的红黑树,增删查改都为O(logN),但是今天学习的哈希表,理论上可以达到增删查改都为O(1),让我们来看看是什么结构这么神奇吧~

一、哈希

1.1 哈希概念

在线性结构和树形结构中,元素键值key与其存储位置之间没有对应关系,因此在查找指定元素时,要经过key的多次对比

时间复杂度:顺序查找为O(N),二叉搜索平衡树查找为O(logN)。


理想的查找方式:不经过任何比较,直接通过key获取其存储位置

这就是哈希的本质,通过某种函数(称之为哈希函数)构建key与其存储位置的一一映射关系,从而达到查找为O(1)。而这种结构也称为哈希表(Hash Table),又称散列表。

1.2 哈希函数

哈希函数设计原则:

  • 哈希函数的定义域必须包括需要存储的全部key,而如果散列表允许有m个地址时,其值域必须在0到m-1之间
  • 哈希函数计算出来的地址能均匀分布在整个空间中
  • 哈希函数应该比较简单

那么,下面介绍两种常见的哈希函数:

  1. 直接定址法
    • Hash(key) = A*key + B

优点:简单、均匀
缺点:需要事先知道key的分布情况

  1. 除留余数法
    • Hash(key) = key % p (p<=m)
    • 其中m为地址数,p为最接近m的素数

优点:不需要事先知道key的分布情况
缺点:会产生哈希冲突

选择除数为素数的原因:减少哈希冲突
如果选择的除数包含多个正因数,那么哈希地址可能会集中在某些特定的值上,从而导致冲突概率增加。

1.3 哈希冲突

哈希冲突,又称哈希碰撞,即为不同key通过相同哈希函数计算出相同的哈希地址

数学表达:对于两个数据元素的关键字 k i k_i ki k j k_j kj(i != j),有 k i k_i ki != k j k_j kj,有:Hash( k i k_i ki) == Hash( k j k_j kj)


面对陌生数据,我们一般比较常用的除留余数法会产生哈希冲突,而哈希冲突则是影响哈希表效率的关键因素。

那么,如何解决哈希冲突呢?这里有两种方法:闭散列和开散列

二、闭散列

闭散列,又称开放定址法

当哈希冲突发生时,开放定址法尝试在哈希表内部找到一个空闲的单元来存放冲突的元素。这个空闲的单元被称为开放单元或空白单元。

2.1 数据类型

enum State
{
	EMPTY,
	EXIST,
	DELETE
};

template<class K, class V>
struct HashData
{
	pair<K, V> _kv;
	State _state = EMPTY;
};

细节:

  1. 每个哈希数据,都要设置状态变量,以便区分
  2. 状态分为空,存在和删除,数据状态初始化为空

2.2 成员变量

template<class K, class V>
class HashTable
{
public:
protected:
	vector<HashData<K, V>> _tables;
	size_t _n = 0;//有效数据个数
};

细节:

  1. 哈希表底层一般使用数组(vector)
  2. 哈希表的有效数据个数_n与vector的size不同

2.3 默认成员函数

2.3.1 constructor

HashTable()
{
	_tables.resize(10);
}

细节:这里vector提前开空间,可以避免后续为空的讨论

2.4 查找

HashData<K, V>* Find(const K& key)
{
	size_t hashi = key % _tables.size();
	size_t pos = hashi;
	size_t i = 1;
	while (_tables[pos]._state != EMPTY)
	{
		if (_tables[pos]._state == EXIST && _tables[pos]._kv.first == key)
		{
			return &_tables[pos];
		}

		pos = hashi + i;
		if (pos >= _tables.size())
		{
			return nullptr;
		}
		++i;
	}
	return nullptr;
}

细节:

  1. 先用key取模数组size,得到哈希地址hashi
  2. 然后沿当前位置向后找,直到该位置状态为空超出数组边界,才算找不到
  3. 如果该位置状态为存在且key相等,则找到了

2.5 插入

bool Insert(const pair<K, V>& kv)
{
	if (Find(kv.first))//保持key唯一
	{
		return false;
	}
	//...
	size_t hashi = kv.first % _tables.size();
	size_t pos = hashi;
	size_t i = 1;
	while (_tables[pos]._state == EXIST)
	{
		pos = hashi + i;//线性探测
		if (pos >= _tables.size())
		{
			return false;
		}
		++i;
	}
	_tables[pos]._kv = kv;
	_tables[pos]._state = EXIST;
	++_n;
	return true;
}

细节:

  1. 先查找当前是否存在该值,如果存在,则不插入
  2. 用key取模数组size,得到哈希地址hashi
  3. 然后沿当前位置向后找,直到状态为空或删除,才插入

但是,上述情况是哈希表未满时,如果满了如何扩容?还有,一定要满了才扩容吗?

这里,我们引入负载因子的概念:α = 有效数据个数 / 哈希表长度

当负载因子越大,哈希冲突的概率就越大,同时发生哈希踩踏的概率也越大,对于开放定址法,应该控制负载因子小于0.7,超过将扩容。

if (_n * 10 / _tables.size() >= 7)//负载因子大于等于0.7, 扩容
{
	size_t newsize = _tables.size() * 2;
	vector<HashData<K, V>> newtables(newsize);
	for (auto& cur : _tables)
	{
		size_t hashi = cur._kv.first % newsize;
		size_t pos = hashi;
		size_t i = 1;
		while (newtables[pos]._state == EXIST)
		{
			pos = hashi + i;//线性探测
			++i;
		}
		newtables[pos]._kv = kv;
	 _tables[pos]._state = EXIST;
	}
	_tables.swap(newtables);
}

细节:

  1. 判断时左右同乘以10,避免比较浮点数而带来误差
  2. newsize为原本的2倍(本来应该是接近2倍的素数,这里简单起见没实现)
  3. 将原哈希表中的元素一一映射到新表中
  4. 最后交换旧表和新表(类似于拷贝构造的现代写法)

2.6 删除

bool Erase(const K& key)
{
	HashData<K, V>* ret = Find(key);
	if (ret)
	{
		ret._state = DELETE;
		--_n;
		return true;
	}
	return false;
}

细节:

  1. 先查找当前是否存在该值,如果存在,则删除
  2. 这里的删除,只用将状态变量改为删除即可

以上讲解的查找和插入,它们所用的探测方法是线性探测(一个一个往后找),这种探测方法可能会造成大量的哈希冲突。

那么,有没有什么探测方法能缓解哈希冲突呢?有,那就是二次探测!

改法也很简单,以一小段代码举例:

while (newtables[pos]._state == EXIST)
{
	pos = hashi + i*i;//二次探测
	++i;
}

这样就是每次跨越 i 的二次方向后探测,中间间隔大,哈希冲突就可以得到缓解。

三、开散列

但是,闭散列(开放定址法)有一个致命的缺陷,那就是空间利用率低!它必须保留相当一部分的开放空间,才能不断插入。

所以,实际上,我们更常用另一种方式来实现哈希表——闭散列,又称为开链法

在开链法中,哈希表的每个槽位(bucket),又称为哈希桶通过一个单链表来存储所有散列到该槽位的元素。这意味着即使不同的key经过哈希函数映射到同一个槽位,它们也可以被存储在同一个单链表上,从而避免了冲突。

3.1 结点

template<class K, class V>
struct HashNode
{
	HashNode<K, V>* _next;
	pair<K, V> _kv;

	HashNode(const pair<K, V>& kv)
		: _next(nullptr)
		, _kv(kv)
	{}
};

细节:

  • 这里没有使用STL的list或者forward_list,而是自己设计结点,为了更方便操纵内部细节

3.2 成员变量

template<class K, class V, class Hash = HashFunc<K>>
class HashTable
{
protected:
	typedef HashNode<K, V> Node;
public:
protected:
	vector<Node*> _tables;
	size_t _n = 0;//有效数据个数
};

细节:

  1. 数组(vector)中存储单链表的头结点指针
  2. 模板参数的Hash,是为了任意类型都能转换为整型来取模

3.3 默认成员函数

3.3.1 constructor

HashTable()
{
	_tables.resize(10);
}

细节:这里vector提前开空间,可以避免后续为空的讨论

3.3.2 destructor

~HashTable()
{
	for (auto& cur : _tables)
	{
		while (cur)
		{
			Node* del = cur;
			cur = cur->_next;
			delete del;
		}
	}
}

细节:因为涉及链表结点空间的动态开辟,所以要手动释放

3.4 查找

Node* Find(const K& key)
{
	Hash hash;
	size_t hashi = hash(key) % _tables.size();
	Node* cur = _tables[hashi];
	while (cur)
	{
		if (cur->_kv.first == key)
		{
			return cur;
		}
		cur = cur->_next;
	}
	return nullptr;
}

细节:

  1. 先取模计算出哈希地址
  2. 再沿当前单链表向下查找

3.5 插入

bool Insert(const pair<K, V>& kv)
{
	if (Find(kv.first))//保持key唯一
	{
		return false;
	}

	Hash hash;
	//...
	size_t hashi = hash(kv.first) % _tables.size();
	Node* newnode = new Node(kv);
	//头插
	newnode->_next = _tables[hashi];
	_tables[hashi] = newnode;
	++_n;
	return true;
}

细节:

  1. 先查找当前是否存在该值,如果存在,则不插入
  2. 取模计算出哈希地址,再头插新节点

运用开链法后,虽然没有哈希冲突了,但是链表长度过长也会影响效率。所以,哈希表也需要通过扩容来使链表长度变短,理想的状态是负载因子为1时扩容。

悄悄说一句:链表过长,还有另一种解决方法,那就是在该哈希桶下改挂一棵红黑树~

if (_n == _tables.size())//负载因子为1时,扩容
	{
		size_t newsize = _tables.size() * 2;
		vector<Node*> newtables(newsize);
		for (auto& cur : _tables)
		{
			while (cur)
			{
				Node* next = cur->_next;
				//将旧表结点重新映射到新表上
				size_t hashi = hash(cur->_kv.first) % newsize;
				cur->_next = newtables[hashi];
				newtables[hashi] = cur;
				//跳回旧表的下一结点
				cur = next;
			}
		}
		_tables.swap(newtables);
	}

细节:

  1. 二倍扩容(本来应该是接近2倍的素数,这里简单起见没实现)
  2. 遍历旧表,将旧表结点重新映射到新表上(这里直接链接,而不是创建新节点)
  3. 最后交换旧表和新表

3.6 删除

bool Erase(const K& key)
{
	Hash hash;
	size_t hashi = hash(key) % _tables.size();
	Node* prev = nullptr;
	Node* cur = _tables[hashi];
	while (cur)
	{
		if (cur->_kv.first == key)
		{
			if (prev == nullptr)
			{
				_tables[hashi] = cur->_next;
			}
			else
			{
				prev->_next = cur->_next;
			}
			delete cur;
			--_n;
			return true;
		}
		prev = cur;
		cur = cur->_next;
	}
	return false;
}

细节:

  1. 单链表删除,设置prev前置指针
  2. 注意头删的情况,分类处理

3.7 哈希化

由于除留余数法涉及到取模运算,而只有整型才能取模。所以针对非整型的数据,需要将其转化为整型,这一过程称为哈希化

template<class K>
struct HashFunc
{
	size_t operator()(const K& key)
	{
		return key;
	}
};

template<>
struct HashFunc<string>
{
	size_t operator()(const string& s)
	{
		size_t hash = 0;
		for (auto& ch : s)
		{
			hash = hash * 31 + ch;
		}
		return hash;
	}
};

细节:

  1. 第一个哈希化函数,针对的是内置类型(整型或浮点型等),返回值设置为size_t,相近类型会进行隐式类型转换
  2. 第二个哈希化函数,针对的是字符串,运用了模板的特化。同时,为了防止字符串的异位串(对应字符数相同,而位置不同),并不是直接相加,而是每次相加后乘以31,保证肯定不重复。
  3. 同时,如果针对特殊的类,用户可以手写一个特定的哈希化函数进行模板传参

总结

相比闭散列,开散列看似增加了存储指针的空间开销,实际上闭散列要保证大量的空闲单元以降低哈希冲突,所以开散列反而更加节省空间,其空间利用率更高


哈希表与红黑树的对比:

  • 哈希表平均查找可达O(1),但最坏降到O(N)(哈希冲突)
  • 红黑树最坏查找也可保持O(logN),比较稳定

数据有序性:哈希表无序,而红黑树有序

适用场景:哈希表适合单点查找,红黑树适合范围查找


真诚点赞,手有余香

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1567360.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AMD Radeon™ PRO W7900安装要求

Radeon PRO W7900 Radeon PRO W7900是AMD于2023年4月13日推出的发卡级专业显卡。基于5nm工艺&#xff0c;基于Navi 31图形处理器&#xff0c;在其Navi 31变体中&#xff0c;该卡支持DirectX 12 Ultimate。Navi 31图形处理器的芯片面积为529mm2&#xff0c;拥有577亿个晶体管。…

YooAssets 使用相关

## 使用 YooAssets 动态加载原生文件时候 > 原生文件&#xff1a;txt&#xff1b;json&#xff1b;等需要直接保存文件内string字符的文件 需要将打包方式设置成为&#xff0c;PackRawFile 并且加载时候使用 API &#xff1a; YooAssets.LoadRawFileSync()YooAssets.LoadRa…

金三银四面试题(十三):Java基础问题(4)

这部分面试题多用于面试的热身运动&#xff0c;对很多找实习和准备毕业找工作的小伙伴至关重要。 ArrayList,Vector和LinkedList ArrayList 和 Vector 都是使用数组方式存储数据&#xff0c;此数组元素数大于实际存储的数据以便增 加和插入元素&#xff0c;它们都允许直接按序…

U盘弹不出?事件查看器

使用完U盘或者硬盘遇到弹不出&#xff0c;是直接拔掉还是关机再拔&#xff1f; no no no 看这&#xff01; 1、开始菜单&#xff0c;或者叫“windows” 2.右键&#xff0c;点击按键“V”; 3.看到了事件查看器&#xff1b; 是PDF阅读器在占用文件&#xff1b; 关闭就正常了&…

数据转换 | Matlab基于GASF格拉姆角和场一维数据转二维图像方法

目录 效果分析基本介绍程序设计参考资料获取方式 效果分析 基本介绍 基于GASF&#xff08;Gramian Angular Summation Field&#xff09;的方法&#xff0c;将一维数据转换为二维图像的步骤描述 标准化数据&#xff1a; 首先&#xff0c;对一维时序数据进行标准化处理&#xf…

JAVA 基础语法扫盲复习

一、转义字符与文档注释 1、1转义字符 public class ChangeChar {/*\t 制表符\n 换行\r 一个回车\\ 一个\\ 一个\" 一个“转义字符*/public static void main(String[] args) {// 制表符System.out.println("昆明海口北京");System.out.println("制表拉&…

即刻体验 | 使用 Flutter 3.19 更高效地开发

我们已隆重推出全新的 Flutter 版本——Flutter 3.19。此版本引入了专为 Gemini 设计的新 Dart SDK、一个能让开发者对 Widget 动画实现精细化控制的全新 Widget&#xff0c;Impeller 更新带来的渲染性能提升、有助于实现深层链接的工具和对 Windows Arm64 的支持&#xff0c;以…

3.5 CSS常用样式

3.5.1 CSS背景 3.5.1将介绍如何在网页上应用背景颜色和背景图像。和CSS背景有关的属性如表所示。 1. 背景颜色background-color CSS中的background-color属性用于为所有HTML元素指定背景颜色。例如&#xff1a; p{background-color:gray} /*将段落元素的背景颜色设置为灰色*…

人工智能|深度学习——基于Xception实现戴口罩人脸表情识别

一、项目背景 近年来&#xff0c;随着人工智能技术的不断发展&#xff0c;人脸表情识别已经成为了计算机视觉领域中的重要研究方向之一。然而&#xff0c;在当前的疫情形势下&#xff0c;佩戴口罩已经成为了一项必要的防疫措施&#xff0c;但是佩戴口罩会遮挡住人脸的部分区域&…

政安晨:【Keras机器学习实践要点】(十五)—— KerasTuner 简述

目录 导言 调整模型结构 定义搜索空间 开始搜索 查询结果 重新训练模型 调整模型训练 调整数据预处理 重新训练模型 指定调整目标 以内置指标为目标 以自定义指标为目标 调整端到端工作流程 将 Keras 代码分开 政安晨的个人主页&#xff1a;政安晨 欢迎 &#x1…

CVE-2021-30517:Type confusion bug in LoadSuperIC

前言 这个漏洞是一个比较老的洞&#xff0c;之所以分析这个漏洞&#xff0c;只要是想再学习一下 ICs 相关的知识。并该漏洞的利用是利用与 String/Function 之间的混淆&#xff0c;比较有意思。 环境搭建 sudo apt install python git checkout 7d5e5f6c62c3f38acee12dc4114…

端口映射如何测试?

端口映射是一项网络技术&#xff0c;用于将外部网络中的数据流量映射到内部网络中的特定端口或设备上。通过端口映射&#xff0c;可以实现远程访问内部网络中的设备或应用程序&#xff0c;使其能够在外部网络中得到访问。本文将介绍端口映射测试及其应用场景。 2. 【天联】组网…

【大数据存储】实验4 NoSQL数据库

实验4 NoSQL数据库 NoSQL数据库的安装和使用实验环境&#xff1a; Ubuntu 22.04.3 Jdk 1.8.0_341 Hadoop 3.2.3 Hbase 2.4.17 Redis 6.0.6 mongdb 6.0.12 mogosh 2.1.0 Redis 安装redis完成 新建终端启动redisredis-server新建一个终端redis-cli 建表操作 尝…

详细分析Vuex中的mapGetters

目录 1. 基本知识2. Demo13. Demo2 1. 基本知识 优势和用途 简化代码&#xff1a;用 mapGetters 和 mapState&#xff0c;可以简化组件中对于 Vuex 中状态和 getter 的映射工作&#xff0c;减少了重复的代码书写更易读&#xff1a;组件中直接使用映射的计算属性&#xff0c;使…

项目5-验证码案例

选择使用Google的开源项目Kaptcha来实现. 1.Kaptcha 插件介绍 Kaptcha 是Google的⼀个高度可配置的实⽤验证码⽣成⼯具. 代码: http://code.google.com/p/kaptcha/ ⽹上有很多⼈甚⾄公司基于Google的kaptcha进⾏了⼆次开发. 我们选择⼀个直接适配SpringBoot的 开源项目 htt…

吴恩达:AI 智能体的四种模式

一、背景 吴恩达在《What’s next for AI agentic workflows ft》分享中提出 AI 智能体的四种模式。 反思&#xff08;Reflection&#xff09;&#xff1a; LLM 检查自己的工作&#xff0c;以提出改进方法。 使用工具&#xff08;Tool use&#xff09;&#xff1a;LLM 拥有…

MySQL数据库 数据库基本操作(二):表的增删查改(上)

1. CRUD CRUD 即增加(Create)、查询(Retrieve)、更新(Update)、删除(Delete)四个单词的首字母缩写,就是数据库基本操作中针对表的一系列操作. 2. 新增(create) -->insert 语法: insert into 表名 [列名1,列名2…] values (val1,val2…) [注意] 列名可以没有,如果没有列名…

【深度学习|Pytorch】torchvision.datasets.ImageFolder详解

ImageFolder详解 1、数据准备2、ImageFolder类的定义transforms.ToTensor()解析 3、ImageFolder返回对象 1、数据准备 创建一个文件夹&#xff0c;比如叫dataset&#xff0c;将cat和dog文件夹都放在dataset文件夹路径下&#xff1a; 2、ImageFolder类的定义 class ImageFol…

大日志精选案例四:某省级大数据集团日志审计优化实战解析

“在集团日常运营中&#xff0c;数据安全始终是我们关注的重点。过去&#xff0c;数据量大、处理速度慢&#xff0c;导致日志数据难以迅速获取和分析&#xff0c;影响业务决策。但自从引入聚铭大日志解决方案后&#xff0c;系统日志和用户行为数据都得到了高效处理与存储。该方…

SpringCloud Hystrix 服务熔断、服务降级防止服务雪崩

文章目录 SpringCloud Hystrix 熔断器、服务降级防止服务雪崩需求背景引入依赖启动类加Hystrix注解接口配置熔断常规配置超时断开错误率熔断请求数熔断限流 可配置项HystrixCommand.Setter参数Command Properties 服务降级 SpringCloud Hystrix 熔断器、服务降级防止服务雪崩 H…