C++:哈希:闭散列哈希表

news2024/11/20 18:27:58

哈希的概念

哈希表就是通过哈希映射,让key值与存储位置建立关联。比如,一堆整型{3,5,7,8,2,4}在哈希表的存储位置如图所示:

插入数据的操作:

在插入数据的时候,计算数据相应的位置并进行插入。

查找数据的操作:

计算key值所在的位置,并判断该位置的值是否等于key,如果等于查找成功。

该方式即为哈希(散列)方法,哈希方法中使用的转换函数称为哈希(散列)函数,构造出来的结构称
为哈希表(Hash Table)(或者称散列表)

哈希冲突

所谓哈希冲突,就是前后插入的key值通过计算,得到的存储位置的地址是相同的,这种现象就是哈希冲突,也称为哈希碰撞。可以把具有不同关键码而具有相同哈希地址的数据元素称为“同义词”。比如在上面的图中,可以看到2和4都为哈希冲突现象。

哈希函数

引起哈希冲突的原因之一可能是哈希函数的设计不合理,即计算存储地址的算法出现了不合理。

哈希函数设计原则:

哈希函数的定义域必须包括需要存储的全部关键码,而如果散列表允许有m个地址时,其值域必须在0到m-1之间。哈希函数计算出来的地址能均匀分布在整个空间中。哈希函数应该比较简单。

常用的哈希函数:

①直接定址法:取关键字的某个线性函数为散列地址:Hash(Key)= A*Key + B。其优点是简单切数据分布均匀。其缺点是需要事先知道关键字的分布情况,因此直接定址法适用于数据小且连续的情况。

②除留余数法:设散列表中允许的地址数为m,取一个不大于m,但最接近或者等于m的质数p作为除数,按照哈希函数:Hash(key) = key% p(p<=m),将关键码转换成哈希地址。
 

闭散列

为了解决哈希冲突,有闭散列和开散列两种常见方法。接下来先介绍闭散列。

闭散列也叫做开放定址法,当哈希冲突的时候,如果哈希表没有被装满,说明哈希表中有其它位置,那么就把key值存放到冲突位置的下一个空位置上。(这里的下一个位置,并不是说真正的下一个位置,而是往后找,找到一个空位置)。

线性探测

线性探测就是:从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止。

插入步骤:①通过哈希函数获取待插入元素在哈希表中的位置。②如果该位置中没有元素则直接插入新元素,如果该位置中有元素发生哈希冲突,使用线性探测找到下一个空位置,插入新元素。

删除操作:采用闭散列处理哈希冲突时,不能随便物理删除哈希表中已有的元素,若直接删除元素会影响其他元素的搜索。因此线性探测采用标记的伪删除法来删除一个元素。

闭散列哈希表的简单代码实现:

定义哈希表存储的节点,使用状态来表示闭散列中元素的删除或空位置。

//定义状态。用于插入删除操作
	enum State
	{
		EMPTY,
		EXIST,
		DELETE,
	};

	//每一个数据的节点
	template<class K,class V>
	struct HashData
	{
		pair<K, V> _kv;
		State _state = EMPTY;
	};

插入操作:

插入操作的思路是拿着需要插入的数据进行取模,取模得到初步确认的下标。然后从这个下标开始寻找存储状态为EMPTY空的位置,然后插入数据。

负载因子:闭散列哈希表最好不能满,即留出一些空位置。因此我们通过负载因子来判断是否需要扩容。当负责因子大于等于0.7,即哈希表的位置已经使用了百分之七十的时候,就扩容。负责因子的计算方法是哈希表中有效数据个数/哈希表的大小。

扩容的方法:创建一个新的哈希对象,然后遍历旧的哈希表,根据旧的哈希表的数据来重新计算数据的位置。在新表插入数据的操作就是使用这个新的哈希对象调用insert函数即可。

bool Insert(const pair<K, V>& kv)
		{
			//如果存在了就直接返回false;
			if (Find(kv.first))
				return false;

			//负载因子如果大于0.7,则扩容
			if (_n * 10 / _tables.size() >= 7)
			{
				HashTable<K, V, Hash> newHt;
				//扩容原来的两倍
				newHt._tables.resize(_tables.size() * 2);
				//这一步是按照旧表中的数据插入到新表中
				for (auto& e : _tables)
				{
					//如果旧表中的数据存在,状态为EXIST,
					//那么让新表调用Insert函数,这不是递归哦!
					if (e._state == EXIST)
					{
						newHt.Insert(e._kv);
					}
				}
				//最后,让原本在vector中的旧表,与新表交换。

				_tables.swap(newHt._tables);
			}
			//不需要扩容
			Hash hf;
			//因为是泛型,不知道使用的类型是int还是char还是string
			//因此,需要获取该类型变量的值的整型,再去模size;
			size_t hashi = hf(kv.first) % _tables.size();
			while (_tables[hashi]._state == EXIST)
			{
				//线性探测
				++hashi;
				hashi %= _tables.size();
			}

			_tables[hashi]._kv = kv;
			_tables[hashi]._state = EXIST;
			++_n;

			return true;
		}

删除操作:

由于直接将哈希表中的数据删除,会影响后续的其它操作,因此对于闭散列哈希表使用伪善处。把要删除的数据的状态置为DELETE即可。

		bool Erase(const K& key)
		{
			Data* ret = Find(key);
			if (ret)
			{
				ret->_state = DELETE;
				--_n;
				return true;
			}
			else
			{
				return false;
			}
		}

查找操作:

若要查找key值的话,先计算出下标,然后从这个位置开始遍历查找,当这个位置上的数据与key值相同并且其状态为EXIT,那么就返回地址。如果找不到返空指针。

		Data* Find(const K& key)
		{
			Hash hf;
			size_t hashi = hf(key) % _tables.size();
			while (_tables[hashi]._state != EMPTY)
			{
				if ((_tables[hashi]._state == EXIST) && (_tables[hashi]._kv.first == key))
				{
					return &_tables[hashi];
				}
				++hashi;
				hashi %= _tables.size();
			}
			return nullptr;
		}

由于哈希表的数据类型是泛型,我们不知道要传入的数据类型是int还是string还是什么类型的,因此闭散列的难点之一是取模。因此我们要将key转化成整型,然后去取模。

如果原本就是整型,那么就直接返回这个值。如果是string类,那么就逐个将单个字符取出并累加起来,转为size_t类型做返回值。每获取一个字符,将其*31。因为对于字符串来说,冲突的可能很大,乘31减少冲突性。

代码如下:

template<class K>
struct HashFunc
{
	size_t operator()(const K& key)
	{
		return (size_t)key;
	}
};

//特化
template<>
struct HashFunc<string>
{
	size_t operator()(const string& key)
	{
		size_t hash = 0;
		for (auto ch : key)
		{
			hash *= 31;
			hash += ch;
		}
		return hash;
	}

};

整体代码如下:

#pragma once
#include <iostream>
#include <vector>
#include <string>
using namespace std;


template<class K>
struct HashFunc
{
	size_t operator()(const K& key)
	{
		return (size_t)key;
	}
};

//特化
template<>
struct HashFunc<string>
{
	size_t operator()(const string& key)
	{
		size_t hash = 0;
		for (auto ch : key)
		{
			hash *= 31;
			hash += ch;
		}
		return hash;
	}

};

namespace closehash
{
	//定义状态。用于插入删除操作
	enum State
	{
		EMPTY,
		EXIST,
		DELETE,
	};

	//每一个数据的节点
	template<class K,class V>
	struct HashData
	{
		pair<K, V> _kv;
		State _state = EMPTY;
	};

	template<class K,class V,class Hash = HashFunc<K>>
	class HashTable
	{
		typedef HashData<K, V> Data;
	public:
		//初始化
		HashTable()
			:_n(0)
		{
			_tables.resize(10);
		}

		bool Insert(const pair<K, V>& kv)
		{
			//如果存在了就直接返回false;
			if (Find(kv.first))
				return false;

			//负载因子如果大于0.7,则扩容
			if (_n * 10 / _tables.size() >= 7)
			{
				HashTable<K, V, Hash> newHt;
				//扩容原来的两倍
				newHt._tables.resize(_tables.size() * 2);
				//这一步是按照旧表中的数据插入到新表中
				for (auto& e : _tables)
				{
					//如果旧表中的数据存在,状态为EXIST,
					//那么让新表调用Insert函数,这不是递归哦!
					if (e._state == EXIST)
					{
						newHt.Insert(e._kv);
					}
				}
				//最后,让原本在vector中的旧表,与新表交换。

				_tables.swap(newHt._tables);
			}
			//不需要扩容
			Hash hf;
			//因为是泛型,不知道使用的类型是int还是char还是string
			//因此,需要获取该类型变量的值的整型,再去模size;
			size_t hashi = hf(kv.first) % _tables.size();
			while (_tables[hashi]._state == EXIST)
			{
				//线性探测
				++hashi;
				hashi %= _tables.size();
			}

			_tables[hashi]._kv = kv;
			_tables[hashi]._state = EXIST;
			++_n;

			return true;
		}

		Data* Find(const K& key)
		{
			Hash hf;
			size_t hashi = hf(key) % _tables.size();
			while (_tables[hashi]._state != EMPTY)
			{
				if ((_tables[hashi]._state == EXIST) && (_tables[hashi]._kv.first == key))
				{
					return &_tables[hashi];
				}
				++hashi;
				hashi %= _tables.size();
			}
			return nullptr;
		}

		bool Erase(const K& key)
		{
			Data* ret = Find(key);
			if (ret)
			{
				ret->_state = DELETE;
				--_n;
				return true;
			}
			else
			{
				return false;
			}
		}
	private:
		vector<Data> _tables;//将每个数据放到vector中
		size_t _n = 0;//哈希表中存储的有效数据的个数
	};
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/387991.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从企业数字化发展的四个阶段,看数字化创新战略

《Edge: Value-Driven Digital Transformation》一书根据信息技术与企业业务发展的关系把企业的数字化分为了四个阶段&#xff1a; 技术与业务无关技术作为服务提供者开始合作科技引领差异化优势以技术为业务核心 下图展示了这四个阶段的特点&#xff1a; 通过了解和分析各个…

[ant-design-vue] tree 组件功能使用

[ant-design-vue] tree 组件功能使用描述环境信息相关代码参数说明描述 是希望展现一个树形的菜单&#xff0c;并且对应的菜单前有复选框功能&#xff0c;但是对比官网的例子&#xff0c;我们在使用的过程中涉及到对半选中情况的处理&#xff1a; 半选中状态&#xff1a; 选中…

NodeJS安装

一、简介Node.js是一个让JavaScript运行在服务端的开发平台&#xff0c;Node.js不是一种独立的语言&#xff0c;简单的说 Node.js 就是运行在服务端的 JavaScript。npm其实是Node.js的包管理工具&#xff08;package manager&#xff09;&#xff0c;类似与 maven。二、安装步骤…

并发下的可见性、原子性、有序性还不懂?

CPU、内存、I/O速度大比拼CPU的读写速度是内存的100倍左右&#xff0c;而内存的读写速度又是I/O的10倍左右。根据"木桶理论"&#xff0c;速度取决于最慢的I/O。为了解决速度不匹配的问题&#xff0c;通常在CPU和主内存间增加了缓存&#xff0c;内存和I/O之间增加了操…

C语言学习之路--操作符篇,从知识到实战

目录一、前言二、操作符分类三、算术操作符四、移位操作符1、左移操作符2、右移操作符五、位操作符拓展1、不能创建临时变量&#xff08;第三个变量&#xff09;&#xff0c;实现两个数的交换。2、编写代码实现&#xff1a;求一个整数存储在内存中的二进制中1的个数。六、赋值操…

http客户端Feign

Feign替代RestTemplate RestTemplate方式调用存在的缺陷 String url"http://userservice/user/"order.getUserId();User user restTemplate.getForObject(url, User.class); 代码可读性差&#xff0c;变成体验不统一&#xff1b; 参数复杂的时候URL难以维护。 &l…

Gem5模拟器,一些运行的小tips(十一)

一些基础知识&#xff0c;下面提到的东西与前面的文章有一定的关系&#xff0c;感兴趣的小伙伴可以看一下&#xff1a; (21条消息) Gem5模拟器&#xff0c;全流程运行Chiplet-Gem5-SharedMemory-main&#xff08;十&#xff09;_好啊啊啊啊的博客-CSDN博客 Gem5模拟器&#xf…

深度学习|改进两阶段鲁棒优化算法i-ccg

目录 1 主要内容 2 改进算法 2.1 CC&G算法的优势 2.2 i-CCG算法简介 3 结果对比 1 主要内容 自从2013年的求解两阶段鲁棒优化模型的列和约束生成算法&#xff08;CC&G&#xff09;被提出之后&#xff0c;基本没有实质性的创新&#xff0c;都是围绕该算法在各个领…

静态路由复习实验

实验分析&#xff1a; 1 .R6为isp,接口IP地址均为公有有地址&#xff1b;该设备只能配置IP地址, 之后不能再对其进行任何配置; r6只能配置IP&#xff0c; 所以r1--r5上需要配置指向r6的缺省路由&#xff1b; 2 .R1—R5为局域网,私有P地址192.168.1.6/24,请合理分配; 图中骨干…

来说说winform和wpf异同,WPF对于新人上手容易吗?

这么问&#xff0c;可能还真不是很好回答&#xff0c;但WPF的特点决定了&#xff0c;他对于前端人员更容易上手。 首先&#xff0c;我们假定你已经安装了Visual studio 2017以上的版本&#xff08;如果你的VS打开没有WPF那就说明你没有安装.net桌面开发这项&#xff09;&#x…

【2023unity游戏制作-mango的冒险】-前六章API,细节,BUG总结小结

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;元宇宙-秩沅 hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! 本文由 秩沅 原创 收录于专栏&#xff1a;unity游戏制作 ⭐mango的冒险前六章总结⭐ 文章目录⭐mango的冒险前六章总结⭐&#x1f468;‍&a…

Eureka - 总览

文章目录前言架构注册中心 Eureka Server服务提供者 Eureka Client服务消费者 Eureka Client总结资源前言 微服务&#xff08;Microservices&#xff0c;一种软件架构风格&#xff09;核心的组件包括注册中心&#xff0c;随着微服务的发展&#xff0c;出现了很多注册中心的解决…

【项目精选】 塞北村镇旅游网站设计(视频+论文+源码)

点击下载源码 摘要 城市旅游产业的日新月异影响着村镇旅游产业的发展变化。网络、电子科技的迅猛前进同样牵动着旅游产业的快速成长。随着人们消费理念的不断发展变化&#xff0c;越来越多的人开始注意精神文明的追求&#xff0c;而不仅仅只是在意物质消费的提高。塞北村镇旅游…

Android事件分发机制

文章目录Android View事件分发机制&#xff1a;事件分发中的核心方法onTouchListener和onClickListener的优先级事件分发DOWN,MOVE,UP 事件分发CANCEL代码实践requestdisallowIntereptTouchEvent作用Android View事件分发机制&#xff1a; 事件分发中的核心方法 Android中事件…

一文让你彻底理解Linux内核多线程(互斥锁、条件变量、读写锁、自旋锁、信号量)

一、互斥锁&#xff08;同步&#xff09; 在多任务操作系统中&#xff0c;同时运行的多个任务可能都需要使用同一种资源。这个过程有点类似于&#xff0c;公司部门里&#xff0c;我在使用着打印机打印东西的同时&#xff08;还没有打印完&#xff09;&#xff0c;别人刚好也在…

【Tcp和Udp】

udp和tcpTcpTcp协议的断开与连接Tcp的状态转移复位报文段交互数据流与成块数据流流式服务特点应答确认与超时重传滑动窗口拥塞控制Udp协议特点Tcp Tcp协议的断开与连接 Tcp协议提供的是&#xff1a;面向连接&#xff0c;可靠的&#xff0c;字节流服务。 使用Tcp协议通信的双方…

java封装继承多态详解

1.封装 所谓封装&#xff0c;就是将客观事物封装成抽象的类&#xff0c;并且类可以把数据和方法让可信的类或者对象进行操作&#xff0c;对不可信的类或者对象进行隐藏。类就是封装数据和操作这些数据代码的逻辑实体。在一个类的内部&#xff0c;某些属性和方法是私有的&#…

自学大数据第三天~终于轮到hadoop了

前面那几天是在找大数据的门,其实也是在搞一些linux的基本命令,现在终于轮到hadoop了 Hadoop hadoop的安装方式 单机模式: 就如字面意思,在一台机器上运行,存储是采用本地文件系统,没有采用分布式文件系统~就如我们一开始入门的时候都是从本地开始的; 伪分布式模式 存储采用…

openpnp - 判断吸嘴是否指定了正确的旋转轴

文章目录openpnp - 判断吸嘴座是否指定了正确的旋转轴概述笔记吸嘴单独矫正的时候Calibrate precise camera ↔ nozzle N1 offsets.ENDopenpnp - 判断吸嘴座是否指定了正确的旋转轴 概述 如果没有指定吸嘴座的正确旋转轴, 会因为对应吸嘴该旋转时不旋转, 而是另外一个空闲的吸…

Linux学习记录——십삼 程序地址空间

文章目录1、了解程序地址测试代码2、理解程序地址空间3、程序地址空间存在的意义1、了解程序地址测试代码 1 #include <stdio.h>2 #include <assert.h>3 #include <unistd.h>4 5 int g_value 100;6 int main()7 {8 pid_t id fork();9 assert(id &g…