【C++】哈希闭散列

news2025/1/20 3:53:27

一.哈希的概念

在前面学习了二叉搜索树、AVL树、红黑树之后,我们得知顺序结构以及平衡树中,元素关键码与其存储位置之间没有对应的关系,因此在查找一个元素时,必须经过关键码的多次比较。顺序查找的时间复杂度为 O(N),平衡树中为树的高度,即(logN),搜索的效率取决于搜索过程中元素的比较次数。

理想的搜索方法:可以不经过任何比较,一次直接从表中得到要搜索的元素。

如果构造一种存储结构,通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立一一映射的关系,那么在查找时通过该函数可以很快的找到该元素。

当向该结构中:

  • 插入元素
    根据待插入元素的关键码,以此函数计算出该元素的存储位置并按此位置进行存放。

  • 搜索元素
    对元素的关键码进行同样的计算,把求得的函数当作元素的存储位置,在结构中按此位置取元素进行比较,若关键码相等,则搜索成功。

该方法即为哈希(散列)方法,哈希方法中使用的转换函数称为哈希(散列)函数,构造出来的结构称为哈希表(hash Table)(或称散列表)

在这里插入图片描述

使用以上方法插入直接进行映射插入,搜索时不必进行关键码的比较,因为搜索速度非常快。

1. 哈希冲突

对于两个数据元素的关键字,其 key1 != key2,但是存在 key1 % p == key2 % p,此时 key1 和key2 就会被映射到 hash Table 中相同的位置。

在这里插入图片描述
假设我们将需要存的数n,存的索引值 = n % 10
现在需要将20存入该表中,计算出的键值为0,但是该位置已经有数据了,即发生了哈希冲突.

此时:不同关键字通过相同的哈希函数计算处相同的哈希地址,该种现象称为哈希冲突或哈希碰撞。

把具有不同关键码而具有相同哈希地址的数据元素称为 “同义词” 。
发生哈希冲突该如何处理呢?

2. 哈希函数

引起哈希冲突的一个原因在于:哈希函数设计的不够合理。

哈希函数的设计原则:

  • 哈希函数的定义域必须包括需要存储的全部关键码,而如果散列表允许有 m 个地址时,其值域必须在 0 到 m-1 之间。
  • 哈希函数计算出来的地址能均匀的分布在整个空间中。
  • 哈希函数设计应足够简单。

常见的两种哈希函数

① 直接定址法

取关键字的某个线性函数为散列地址:hash(key) = A * Key + B

优点:简单、均匀

缺点:需要事先知道关键字的分布情况

使用场景:适合查找比较小且连续的情况。

题目举例:387. 字符串中的第一个唯一字符

②除留余数法(常用)

设散列表中允许的地址数为 m ,取一个不大于 m ,但最接近或者等于 m 的质数 p 作为除数,按照哈希函数:hash(key) = key % p(p<= m),将关键码转化为哈希地址。

就是以下这种方法

在这里插入图片描述

3. 负载因子

如果hash的插入,进行映射后如果找不到空位就要一直往后面检测查找空位,所以如果当哈希表中只有一个空位时,插入一个数据的时间复杂度很可能就变成了O(N),所以说再这种情况发生前我们就要对其进行扩容。

那什么情况下进行扩容呢?应该括多大呢?如果是除留余数法,那质数 p又应该是多少呢?

散列表的负载因子定义为:a = 填入表中的元素个数 / 散列表的长度

在这里插入图片描述

负载因子越小,冲突的概率越小,空间利用率低
负载因子越大,冲突的概率越大,空间利用率高。

而库中的做法是,负载因子如果大于0.7,就进行扩容。

二.闭散列

闭散列:也叫开放地址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,那么可以把 key 存放到冲突位置中的"下一个"空位置中去。

寻找下一个空位置方式有线性探测和二次探测,接下来我们结合理论并实现一下。

1. 线性探测

线性探测:从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置即可。

结构定义:

首先我们定义结构,我们定义每个位置有三种状态{存在,空位,删除},一个位置要么是已经有数据了,要么是没有数据,为什么有一个删除状态呢?

如果出现下面这种情况,20在3的后面进行插入,将3删除后,20便无法查找到,所以我们会再添加一个删除状态,防止以下这种情况发生。

在这里插入图片描述

使用一个数组进行存储,其中每一个位置位HashDate类型,该类型中会记录当前位置的状态。再添加一个size变量,用于记录当前存储的有效数据个数。结构如下:

enum State {EMPTY,EXIST,DELETE};   //每个位置有三种状态
 
template<class K,class V>
struct HashDate
{
	pair<K, V> _kv;
	State _state;
};
 
template<class K,class V>
class HashTable
{
public:
    //成员函数:
private:
	vector<HashDate<K, V>> _table;
	size_t _size=0;				 
};

2. Insert 插入

  • 通过哈希函数(除留余数法)获取待插入元素在哈希表中的位置
  • 如果该位置中没有元素则直接插入新元素,如果该位置中有元素发生哈希冲突,使用线性探测找到下一个空位置,插入新元素。

在这里插入图片描述

注意事项:

  1. 确定质数p,我们应该取vector的size()还是capacity()作为质数?
    使用size(),因为capacity()是vector开辟的总空间,超过size()的部分是不能直接使用的,只能使用size()以内的空间,而size要通过我们插入数据或resize进行改变。简而言之,vector中超过size(),小于capacity()的部分我们是不能直接访问的,尽管已经开辟。

  2. 如果线性探测一直探测到 i 下标超过hash_table.size(),我们应该如何做。
    如果一直探测超过数组的下标,应该绕回数组的开始处,所以每次 i++ 后,我们可以继续进行取模,如果超过了size(),会自动从数组0下标处开始探测;当然,使用if判断 i 超过size(),超过就置0也是可以的。

  3. 当装载因子超过0.7之后,我们应该怎么做。
    即_size / _table.size() >=7 时,我们要进行扩容,创建一个新哈希表,然后将旧表中的数据拷贝到新表中,此时我们可以复用 Insert 函数,因为新表是不存在扩容问题的,所以会使用 Insert 中插入逻辑的代码,然后将数据全部插入到新表中,最后我们将新表与旧表的进行swap一下,就将新表扩容指向的内容交换给了临时变量,临时变量调用析构函数,自动释放,这样,扩容问题就得到了解决。

bool Insert(const pair<K, V>& kv)
{
	//如果 size==0 或装载因子 >=0.7 进行扩容
	if (_table.size() == 0 || 10 * _size / _table.size() >= 7)
	{
		size_t newSize = _table.size() == 0 ? 10 : _table.size() * 2;
		HashTable<K, V> newHash;
		newHash._table.resize(newSize);
		//将旧表中的数据拷贝到新表中  --- 复用Insert继续拷贝数据
		for (auto e : _table)
		{
			if (e._state == EXIST)
			{
				newHash.Insert(e._kv);
			}
		}
		//进行交换  newHash自动调用其析构函数
		_table.swap(newHash._table);
	}
	size_t hashi = kv.first % _table.size();
	while (_table[hashi]._state == EXIST)   //如果存在数据就一直往后找
	{
		hashi++;
		//如果hashi++超过size(),需要绕回数组的开始
		hashi %= _table.size();
	}
	//找到位置,插入数据
	_table[hashi]._kv = kv;
	_table[hashi]._state = EXIST;
	++_size;
	return  true;
}

注意,如果插入的是负数,会发生整形提升,int类型会转变为我们的size_t 类型,此时负数再进行取模,就可以得到一个合法的映射位置,也可以被查找的。

接下来还有一个问题,如果数据发生冗余怎么办。就是如果插入的是已经存在的值,应该如何处理呢?

3. Find 查找

所以我们可以在插入之前编写一个find函数,如果该数据存在,则不进行插入

HashDate<K, V>* Find(const K& key)
{
	//判断表为空的情况
	if (_table.size() == 0)
		return nullptr;
	size_t hashi = key % _table.size();
	while (_table[hashi]._state != EMPTY)
	{
		//如果找到key了,并且状态不是DELETE
		if (_table[hashi]._kv.first == key && _table[hashi]._state != DELETE)
		{
			return &_table[hashi];
		}
		hashi++;
		//如果超过表的长度,则除以表的大小,让其回到表头。
		hashi %= _table.size();
	}
	return nullptr;
}

此时有一个问题, 我们的循环是_state !=EMPT,如果遍历重回到起点,这些遍历到的数据_state都为EMPTY,就可能导致死循环,所以我们还要保存起始位置的状态,如果重回起点则也返回false(当然,这是一种非常极端的情况,但是会出现)。

4. Erase删除

删除的思路非常简单,如果find查找到该值,直接将其对应的state改为DELETE即可。

bool Erase(const K& key)
{
	HashDate<K, V>* ret = Find(key);
	if (ret)
	{
		ret->_state = DELETE;
		--_size;
		return true;
	}
	return false;
}

5. 插入复杂类型

那如果我们想实现一个统计次数的哈希表,则 key 值是string类型的怎么办呢?string类型或字符串类型是无法被取模的。那再如果我们想插入一个自己定义的复杂类型呢?

我们先来看看STL库中是如何解决这个问题的。

在这里插入图片描述
所以我们要编写默认的hash取key的仿函数作为缺省参数。

在这里插入图片描述

但是在库中的unordered_map并不需要我们自己传入仿函数,因为string是一个挺常见的类型,库中使用了模板的特化,对string类型进行了特殊处理,我们接下来也将其进行改动为特化的形式。

template<>
struct HashFunc<string>
{
	size_t operator()(const string& key)
	{
		size_t val = 0;
		for (auto ch : key)
			val = val * 131 + ch;
		return val;
	}
};

6. 二次探测

二次探测不是指探测两次,而是 i 的指数方进行探测。

如下是使用线性探测和二次探测插入同一组数据的插入结果,如下:

在这里插入图片描述

然后我们在线性探测的方式上进行改动:

在这里插入图片描述

三.源码与测试用例

1. hash

enum State { EMPTY, EXIST, DELETE };   //每个位置有三种状态
 
template<class K, class V>
struct HashDate
{
	pair<K, V> _kv;
	State _state= EMPTY;
};
 
template<class K>
struct HashFunc
{
	size_t operator()(const K& key)
	{
		return (size_t)key;
	}
};
 
template<>
struct HashFunc<string>
{
	size_t operator()(const string& key)
	{
		size_t val = 0;
		for (auto ch : key)
			val = val * 131 + ch;
		return val;
	}
};
 
 
 
template<class K, class V,class Hash=HashFunc<K>>
class HashTable
{
public:
	bool Insert(const pair<K, V>& kv)
	{
		//如果表中已经存在该数据
		if (Find(kv.first))	return false;
		//如果 size==0 或装载因子 >=0.7 进行扩容
		if (_table.size() == 0 || 10 * _size / _table.size() >= 7)
		{
			size_t newSize = _table.size() == 0 ? 10 : _table.size() * 2;
			HashTable<K, V, Hash> newHash;
			newHash._table.resize(newSize);
			//将旧表中的数据拷贝到新表中  --- 复用Insert继续拷贝数据
			for (auto e : _table)
			{
				if (e._state == EXIST)
				{
					newHash.Insert(e._kv);
				}
			}
			//进行交换  newHash自动调用其析构函数
			_table.swap(newHash._table);
		}
 
		Hash hash;
		size_t hashi = hash(kv.first) % _table.size();
 
		while (_table[hashi]._state == EXIST)   //如果存在数据就一直往后找
		{
			hashi++;
			//如果hashi++超过size(),需要绕回数组的开始
			hashi %= _table.size();
		}
		//找到位置,插入数据
		_table[hashi]._kv = kv;
		_table[hashi]._state = EXIST;
		++_size;
		return  true;
	}
 
	HashDate<K,V>*  Find(const K& key)
	{
		//判断表为空的情况
		if (_table.size() == 0)
			return nullptr;
 
		Hash hash;
		size_t hashi = hash(key) % _table.size();
		while (_table[hashi]._state != EMPTY)
		{
			//如果找到key了,并且状态不是DELETE
			if (_table[hashi]._kv.first == key && _table[hashi]._state!=DELETE)
			{
				return &_table[hashi];
			}
			hashi++;
			//如果超过表的长度,则除以表的大小,让其回到表头。
			hashi %= _table.size();
		}
		return nullptr;
	}
 
	bool Erase(const K& key)
	{
		HashDate<K, V>* ret = Find(key);
		if (ret)
		{
			ret->_state = DELETE;
			--_size;
			return true;
		}
		return false;
	}
 
	void Print()
	{
		for(int i=0;i< _table.size();i++)
		{
			if (_table[i]._state == EXIST)
			cout <<"i:" <<i<<" [" << _table[i]._kv.first << " " << _table[i]._kv.second <<"]" << endl;
		}
	}
 
private:
	vector<HashDate<K, V>> _table;
	size_t _size=0;
};

2. 测试用例

void test_hash01()
{
	HashTable<int, int> Hash;
	int a[] = { 1,11,4,15,26,7};
	for (auto e : a)
	{
		Hash.Insert(make_pair(e, e));
	}
	Hash.Print();
	cout << endl;
}
void test_hash02()
{
	HashTable<int, int> Hash;
	int a[] = { 1,11,4,15,26,7,13,5,34,9 };
	for (auto e : a)
	{
		Hash.Insert(make_pair(e, e));
	}
	Hash.Print();
	cout << endl;
}
 
void test_hash03()
{
	HashTable<int, int> Hash;
	int a[] = { 1,11,4,15,26,7,13,5,34,9 };
	for (auto e : a)
	{
		Hash.Insert(make_pair(e, e));
	}
	Hash.Print();
	cout << endl<<"find:"<<endl;
	
	cout << (Hash.Find(11)->_kv).first << endl;
	cout << (Hash.Find(4)->_kv).first << endl;
	cout << (Hash.Find(5)->_kv).first << endl;
	cout << (Hash.Find(34)->_kv).first << endl;
	cout << "Erase:" << endl;
	Hash.Erase(11);
	cout << Hash.Find(11) << endl;
}
 
void test_hash04_string()
{
	string arr[] = { "苹果","西瓜","菠萝","草莓","菠萝","草莓" ,"菠萝","草莓" 
		, "西瓜", "菠萝", "草莓", "西瓜", "菠萝", "草莓","苹果" };
	HashTable<string,int> countHT;
	for (auto& str : arr)
	{
		auto ptr = countHT.Find(str);
		if (ptr)
			ptr->_kv.second++;
		else
			countHT.Insert({ str,1 });
	}
	countHT.Print();
}
 
void test_hash05_string()
{
	HashFunc<string> hash;
	cout << hash({ "abc" }) << endl;
	cout << hash({ "bac" }) << endl;
	cout << hash({ "cba" }) << endl;
	cout << hash({ "bbb" }) << endl;
}

本文到此结束, 码文不易, 还请多多支持哦 ! ! !

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/842966.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

0.CLIP

目录 前言背景缘起/摘要数据集拟解决问题 精读IntroductionModel2.1自然语言监督2.2 创建一个有效的大数据集选择一个有效的预训练方法2.4 选择模型&#xff08;选择Encoder&#xff09;2.5训练小结 实验 复现&#xff08;略&#xff09; 前言 本课程来自深度之眼《多模态》训…

找免费商用的图片素材就上这6个网站。

分享6个免费商用的高清图片素材库&#xff0c;你想要找到这里都能找到&#xff0c;赶紧收藏起来吧~ 菜鸟图库 https://www.sucai999.com/pic.html?vNTYwNDUx 网站主要是为新手设计师提供免费素材的&#xff0c;素材的质量都很高&#xff0c;类别也很多&#xff0c;像平面、UI…

Zhang-Suen骨架提取算法

前言 本专栏针对的目标物体为物体裂缝量化&#xff0c;提取裂缝的骨架有助于裂缝长度的求解&#xff0c;故这一篇也是本专栏的开篇。 细化算法选择与分析 裂缝骨架的提取是十分有必要&#xff0c;如果我们能够得到裂缝的骨架图那么就很容易获得整条裂缝的长度。在当前经典的…

机器学习深度学习——序列模型(NLP启动!)

&#x1f468;‍&#x1f393;作者简介&#xff1a;一位即将上大四&#xff0c;正专攻机器学习的保研er &#x1f30c;上期文章&#xff1a;机器学习&&深度学习——卷积神经网络&#xff08;LeNet&#xff09; &#x1f4da;订阅专栏&#xff1a;机器学习&&深度…

地理信息系统空间分析实验教程 第三版 第八章示例与练习 学校选址

学校选址 背景 合理的学校空间位置布局有利于学生的上课与生活。学校的选址问题需要考虑地理 E八位置、学生娱乐场所配套设施、与现有学校的距离等因素&#xff0c;从总体上把握这些国素能够确定出适宜性比较好的学校选址区 目的 通过练习&#xff0c;熟悉 ArcGIS 栅格数据…

无涯教程-Perl - endnetent函数

描述 此功能告诉系统您不再希望使用getnetent从网络列表中读取条目。 语法 以下是此函数的简单语法- endnetent返回值 此函数不返回任何值。 例 以下是显示其基本用法的示例代码- #!/usr/bin/perluse Socket;while ( ($name, $aliases, $addrtype, $net) getnetent() )…

VUE框架:vue2转vue3全面细节总结(3)路由组件传参

大家好&#xff0c;我是csdn的博主&#xff1a;lqj_本人 这是我的个人博客主页&#xff1a; lqj_本人_python人工智能视觉&#xff08;opencv&#xff09;从入门到实战,前端,微信小程序-CSDN博客 最新的uniapp毕业设计专栏也放在下方了&#xff1a; https://blog.csdn.net/lbcy…

element表格+表单+表单验证结合运用

目录​​​​​​​ 一、结果展示 二、实现代码 一、结果展示 1、图片 2、描述 table中放form表单&#xff0c;放输入框或下拉框或多选框等&#xff1b; 点击添加按钮&#xff0c;首先验证表单&#xff0c;如果存在没填的就验证提醒&#xff0c;都填了就向下添加一行表单表…

Redis中BigKey、HotKey的发现与处理

Redis中BigKey、HotKey的发现与处理 内容详情&#xff1a; 阿里云开发者社区(点击跳转) 参考自&#xff1a; https://developer.aliyun.com/article/788271?utm_contentm_1000291945#slide-1

【数据结构OJ题】删除有序数组中的重复项

原题链接&#xff1a;https://leetcode.cn/problems/remove-duplicates-from-sorted-array/ 目录 1. 题目描述 2. 思路分析 3. 代码实现 1. 题目描述 2. 思路分析 用双指针算法&#xff0c;定义两个变量src和dst&#xff0c;一开始让src和dst指向num[ ]数组的第一个元素&a…

Cadence学习

Cadence学习 Cadence内容涵盖Cadence主要功能Cadence功能模块Allegro Design Entry CIS 和 OrCAD Capture CIS 的区别Cadence 公司简介Allegro Design Entry CISOrCAD Capture CIS OrCAD中part和database part区别OrCAD中不同页面的连接关系应该怎么处理&#xff08;1&#xff…

Matlab之利用MarkerFaceColor来填充marker

matlab画图在加一些marker的时候, 有实心的圆圈, 比如: plot(x,y,.r,MarkerSize,20)但是如果想要一个很大的marker, 就需要把这个markersize调得很大, 比如MarkerSize20 但是也可以用空心的圆圈然后把中间涂上颜色, 这样调整起来更方便. 比如: plot(x,y,or,MarkerSize,5,Mar…

拆分PDBQT文件并将其转换为PDB格式

拆分PDBQT文件转为PDB格式 1. vina_split拆分PDBQT文件 假设你用AutoDock Vina做了对接&#xff0c;那么所有预测的结合构象都被放入一个多构象 PDBQT 文件中&#xff0c;如果需要拆分后进行可视化分析&#xff0c;那么Vina官方自带了vina_split来进行拆分。下面是vina_split…

TS协议之PES(ES数据包)

TS协议之PAT&#xff08;节目关联表&#xff09;TS协议之PMT&#xff08;节目映射表&#xff09;TS协议之PES&#xff08;ES数据包&#xff09; 该文档已上传&#xff1a;下载地址 1. 概要 1.1 TS数据包&#xff08;PES&#xff09;协议数据组成 TSTS头PES头ES。TS&#xf…

在 Ubuntu 上安装 Docker 桌面

Ubuntu 22.04 (LTS) 安装 Docker 桌面 要成功安装 Docker Desktop&#xff0c;您必须&#xff1a; 满足系统要求拥有 64 位版本的 Ubuntu Jammy Jellyfish 22.04 (LTS) 或 Ubuntu Impish Indri 21.10。对于非 Gnome 桌面环境&#xff0c;必须安装 gnome-terminal&#xff1a;…

springsecurity初稿

springsecurity 课程 课程目标 权限管理简介【了解】权限管理解决方案【掌握】初识Spring Security【了解】Spring Security 认证配置【掌握】Spring Security 鉴权配置【掌握】Spring Security 底层原理【掌握】Spring Security 退出操作【重点】Spring Security整合JWT【重…

参考RabbitMQ实现一个消息队列

文章目录 前言小小消息管家1.项目介绍2. 需求分析2.1 API2.2 消息应答2.3 网络通信协议设计 3. 开发环境4. 项目结构介绍4.1 配置信息 5. 项目演示 前言 消息队列的本质就是阻塞队列&#xff0c;它的最大用途就是用来实现生产者消费者模型&#xff0c;从而实现解耦合以及削峰填…

有什么好用的PNG素材网站吗?看看这6个

高品质PNG素材无疑能提升网站的质量&#xff0c;给用户带来更美好的使用体验&#xff0c;今天本文会与大家分享6个好用的PNG素材网站&#xff0c;一起来看看吧&#xff01; 1、即时设计资源广场 即时设计资源广场集成了多种大厂素材&#xff0c;不只是PNG素材&#xff0c;还有…

试用AI生成代码工具Fauxpilot,详细安装过程

设置服务 预先说明 需要预先安装支持NVIDIA的docker,docker compose > 1.28不能再容器里运行&#xff0c;否则出现以下报错&#xff1a; rootc536ca0dbd64:/test/fauxpilot-main# ./setup.sh Checking for curl ... /usr/bin/curl Checking for zstd ... /opt/conda/bin…

Java-认识String

目录 一、String概念及创建 1.1 String概念 1.2 String的创建 二、String常用方法 2.1 String对象的比较 2.2 字符串查找 2.3 转化 2.4 字符串替换 2.5 字符串拆分 2.6字符串的截取 2.7 其他操作方法 2.8 字符串修改 三、面试题 一、String概念及创建 1.1 String概念 Java中…