【C++】哈希表 | 闭散列 | 开散列 | unordered_map 和 unordered_set 的模拟实现

news2025/1/10 2:48:45

​🌠 作者:@阿亮joy.
🎆专栏:《吃透西嘎嘎》
🎇 座右铭:每个优秀的人都有一段沉默的时光,那段时光是付出了很多努力却得不到结果的日子,我们把它叫做扎根
在这里插入图片描述

目录

    • 👉unordered系列关联式容器👈
      • unordered_map
        • 1. unordered_map 的介绍
        • 2. unordered_map 的桶操作
        • 3. unordered_map 的使用
    • 👉底层结构👈
      • 哈希概念
      • 哈希冲突
      • 哈希冲突解决
        • 1. 闭散列
        • 2. 开散列
        • 3. 开散列与闭散列比较
    • 👉开散列实现 unordered_map 和 unordered_set👈
    • 👉总结👈

👉unordered系列关联式容器👈

在 C++98 中,STL 提供了底层为红黑树结构的一系列关联式容器,在查询时效率可达到 O( l o g 2 N log_2N log2N),即最差情况下需要比较红黑树的高度次,当树中的节点非常多时,查询效率也不理想。最好的查询是进行很少的比较次数就能够将元素找到。因此,在 C++11 中,STL 又提供了 4 个 unordered 系列的关联式容器,这 4 个容器与红黑树结构的关联式容器使用方式基本类似,只是其底层结构不同。本文中只对 unordered_map 和 unordered_set 进行介绍。

unordered_map

1. unordered_map 的介绍

  1. unordered_map 是存储 <key, value> 键值对的关联式容器,其允许通过 key 快速的索引到与其对应的 value。
  2. 在 unordered_map 中,键值通常用于唯一地标识元素,而映射值是一个对象,其内容与此键值关联。键值和映射值的类型可能不同。
  3. 在内部 unordered_map 没有对 <kye, value> 按照任何特定的顺序排序, 为了能在常数范围内找到 key 所对应的value,unordered_map 将相同哈希值的键值对放在相同的桶中。
  4. unordered_map 容器通过 key 访问单个元素要比 map 快,但它通常在遍历元素子集的范围迭代方面效率较低。
  5. unordered_map 实现了operator[],它允许使用 key 作为参数直接访问 value。
  6. 它的迭代器至少是前向迭代器。

2. unordered_map 的桶操作

函数声明功能介绍
size_t bucket_count()const返回哈希桶中桶的总个数
size_t bucket_size(size_t n)const返回 n 号桶中有效元素的总个数
size_t bucket(const K& key)返回元素 key 所在的桶号
size_type max_bucket_count() const返回哈希表最能用于多少个桶
float load_factor() const返回哈希表的负载因子
float max_load_factor() const / void max_load_factor ( float z )第一个接口是返回哈希表的最大负载因子,默认最大负载因子是 1;第二个接口可以设置哈希表的最大负载因子
rehash / reserve扩容,注:rehash 可能会缩容。

3. unordered_map 的使用

unordered_map、unordered_set 和map、set 的用法都是差不多的,现在我们来简单地使用一下 unordered_map。

在长度 2N 的数组中找出重复 N 次的元素

给你一个整数数组 nums ,该数组具有以下属性:

  • nums.length == 2 * n.
  • nums 包含 n + 1 个 不同的元素
  • nums 中恰有一个元素重复 n 次
  • 找出并返回重复了 n 次的那个元素。

在这里插入图片描述

思路:先用 unordered_map 统计数字出现的次数,然后就能找出出现 N 次的数字了。

class Solution 
{
public:
    int repeatedNTimes(vector<int>& nums) 
    {
        unordered_map<int, int> countMap;
        for(auto e : nums)
            ++countMap[e];

        for(auto& kv : countMap)
        {
            if(kv.second == nums.size() / 2)
                return kv.first;
        }

        return -1;
    }
};

在这里插入图片描述

unordered 系列的容器中的数据是无序的

void SetTest()
{
	unordered_set<int> s;
	s.insert(2);
	s.insert(3);
	s.insert(1);
	s.insert(5);
	s.insert(2);
	s.insert(6);

	for (auto e : s)
	{
		cout << e << " ";
	}
	cout << endl;
}

在这里插入图片描述

map / set 和 unordered 系列的对比

在这里插入图片描述

#include <unordered_map>
#include <unordered_set>
#include <map>
#include <set>
#include <iostream>
#include <vector>
using namespace std;

void SetTest()
{
	unordered_set<int> s;
	s.insert(2);
	s.insert(3);
	s.insert(1);
	s.insert(5);
	s.insert(2);
	s.insert(6);

	for (auto e : s)
	{
		cout << e << " ";
	}
	cout << endl;
}

void Test()
{
	int n = 10000000;
	vector<int> v;
	v.reserve(n);
	srand(time(0));
	for (int i = 0; i < n; ++i)
	{
		//v.push_back(i);
		v.push_back(rand() + i);  // 重复少
		//v.push_back(rand());	// 重复多
	}

	size_t begin1 = clock();
	set<int> s;
	for (auto e : v)
	{
		s.insert(e);
	}
	size_t end1 = clock();

	size_t begin2 = clock();
	unordered_set<int> us;
	for (auto e : v)
	{
		us.insert(e);
	}
	size_t end2 = clock();

	cout << "size:" << s.size() << endl;

	cout << "set insert:" << end1 - begin1 << endl;
	cout << "unordered_set insert:" << end2 - begin2 << endl;


	size_t begin3 = clock();
	for (auto e : v)
	{
		s.find(e);
	}
	size_t end3 = clock();

	size_t begin4 = clock();
	for (auto e : v)
	{
		us.find(e);
	}
	size_t end4 = clock();
	cout << "set find:" << end3 - begin3 << endl;
	cout << "unordered_set find:" << end4 - begin4 << endl;


	size_t begin5 = clock();
	for (auto e : v)
	{
		s.erase(e);
	}
	size_t end5 = clock();

	size_t begin6 = clock();
	for (auto e : v)
	{
		us.erase(e);
	}
	size_t end6 = clock();

	cout << "set erase:" << end5 - begin5 << endl;
	cout << "unordered_set erase:" << end6 - begin6 << endl;

}

int main()
{
	Test();
	return 0;
}

在这里插入图片描述

👉底层结构👈

哈希概念

顺序结构以及平衡树中,元素关键码与其存储位置之间没有对应的关系,因此在查找一个元素时,必须要经过关键码的多次比较。顺序查找时间复杂度为 O(N),平衡树中为树的高度,即 O( l o g 2 N log_2 N log2N),搜索的效率取决于搜索过程中元素的比较次数。

理想的搜索方法:可以不经过任何比较,一次直接从表中得到要搜索的元素如果构造一种存储结构,通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立一一映射的关系,那么在查找时通过该函数可以很快找到该元素。

当向该结构中插入元素时,根据待插入元素的关键码以此函数计算出该元素的存储位置并按此位置进行存放。当搜索元素时,对元素的关键码进行同样的计算,把求得的函数值当做元素的存储位置,在结构中按此位置取元素比较。若关键码相等,则搜索成功。

该方式即为哈希(散列)方法,哈希方法中使用的转换函数称为哈希(散列)函数,构造出来的结构称为哈希表(Hash Table)(或者称散列表)。

关于哈希的思想,其实我们在字符串中的第一个唯一字符这道题目里早就用到过了。

在这里插入图片描述

字符串中的第一个唯一字符中用到的是直接定址法,这种方法只能解决一些简单的场景。好比如:当数据的间隔较大时,就会很浪费空间了。

在这里插入图片描述
那为了解决上面的问题,我们可以除流余数法。

在这里插入图片描述

在这里插入图片描述

哈希冲突

对于两个数据元素的关键字 k i k_i ki k j k_j kj(i != j),有 k i k_i ki != k j k_j kj,但有:Hash( k i k_i ki) ==Hash( k j k_j kj),即:不同关键字通过相同哈希函数计算出相同的哈希地址,该种现象称为哈希冲突或哈希碰撞。把具有不同关键码而具有相同哈希地址的数据元素称为“同义词”。

哈希冲突解决

解决哈希冲突两种常见的方法是:闭散列和开散列(拉链法 / 哈希桶)。

1. 闭散列

闭散列:也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,那么可以把key存放到冲突位置中的下一个空位置中去。那如何寻找下一个空位置呢?

线性探测

线性探测:从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止。插入元素时,通过哈希函数获取待插入元素在哈希表中的位置。如果该位置中没有元素则直接插入新元素,如果该位置中有元素发生哈希冲突,使用线性探测找到下一个空位置,插入新元素。

在这里插入图片描述
在这里插入图片描述
删除元素时,采用闭散列处理哈希冲突时,不能随便物理删除哈希表中已有的元素,若直接删除元素会影响其他元素的搜索。比如删除元素 4,如果直接删除掉,44 查找起来可能会受影响。因此线性探测采用标记的伪删除法来删除一个元素,并没有将该元素真正的删除掉,而是采用标记的方式处理,但是不能直接将该位置标记为空,否则会影响从该位置产生冲突的元素的查找。。哈希表每个空间给个标记:EMPTY 表示此位置空,EXIST 表示此位置已经有元素,DELETE 表示元素已经删除。

vector快要满时,此时的哈希冲突已经出现比较多了,存在你占我的位置,我占用别人的位置的情况了。那么这时候哈希表就要扩容了。那什么时候要扩容呢?为了解决扩容问题,有大佬提出了负载因子(载荷因子)的概念。哈希表的负载因子等于填入表中的元素个数除以哈希表的长度。负载因子越小,哈希冲突的概率越小;负载因子越大,哈希冲突的概率越大。当负载因子到达一个基准值时,哈希表就需要扩容。基准越大,冲突越多,效率越低,空间利用率越高。哈希表扩容的代价比vector扩容的代价还有大,因为原来存在哈希冲突的数据,有可能就不冲突了,需要重新映射,并不能直接将数据拷贝到原来的位置上。

在这里插入图片描述

#pragma once

// 标识状态
enum State
{
	EMPTY,
	EXIST,
	DELETE
};

template <class K, class V>
struct HashData
{
	pair<K, V> _kv;
	State _state = EMPTY;
};

template <class K, class V>
class HashTable
{
public:
	HashData<K, V>* Find(const K& key)
	{
		if (_tables.size() == 0)
		{
			return nullptr;
		}

		size_t hashi = key % _tables.size();
		size_t start = hashi;
		while (_tables[hashi]._state != EMPTY)
		{
			// 状态不是删除才能找到,否则会有BUG
			if (_tables[hashi]._state != DELETE && _tables[hashi]._kv.first == key)
			{
				return &_tables[hashi];
			}

			++hashi;
			hashi %= _tables.size();

			// 找了一圈都没找到
			if (hashi == start)	// 防止插入又删除的场景
				break;
		}
		return nullptr;
	}

	bool Insert(const pair<K, V>& kv)
	{
		if (Find(kv.first))
			return false;

		// 负载因子到了就要扩容
		if (_tables.size() == 0 || 10 * _size / _tables.size() >= 7)
		{
			size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
			HashTable<K, V> newHT;
			newHT._tables.resize(newSize);
			// 旧表的数据映射到新表
			for (auto& e : _tables)
			{
				if (e._state == EXIST)
				{
					newHT.Insert(e._kv);
				}
			}

			_tables.swap(newHT._tables);
		}

		size_t hashi = kv.first % _tables.size();	// 注意模除的是_table.size()
		// 线性探测
		while (_tables[hashi]._state == EXIST)
		{
			++hashi;
			hashi %= _tables.size();
		}
		// 找到空位置就插入元素
		_tables[hashi]._kv = kv;
		_tables[hashi]._state = EXIST;
		++_size;

		return true;
	}

	bool Erase(const K& key)
	{
		HashData<K, V>* ret = Find(key);
		if (ret)	// 元素存在
		{
			ret->_state = DELETE;
			--_size;
			return true;
		}
		else
			return false;
	}

	void Print()
	{
		for (size_t i = 0; i < _tables.size(); ++i)
		{
			if (_tables[i]._state == EXIST)
			{
				printf("[%d:%d] ", i, _tables[i]._kv.first);
			}
			else
			{
				printf("[%d:*] ", i);
			}
		}
		cout << endl;
	}

private:
	vector<HashData<K, V>> _tables;
	size_t _size = 0;	// 有效数据的个数
};

void TestHT1()
{
	//int a[] = { 1, 11, 4, 15, 26, 7, 44, 9 };
	int a[] = { 1, 11, 4, 15, 26, 7, 44 };
	HashTable<int, int> ht;
	for (auto e : a)
	{
		ht.Insert(make_pair(e, e));
	}

	ht.Print();
	ht.Erase(4);
	ht.Print();

	ht.Insert(make_pair(-2, -2));	//负数也可以存在表中,整型提升
	ht.Print();

	cout << ht.Find(-2) << endl;
}

在这里插入图片描述
现在代码已经写得差不多了,那如果我们想用上面的代码统计出现次数可以吗?很明显不可以,因为字符串不能够取模。那么我们可以给HashTable增加一个仿函数Hash,其可以将不能取模的类型转成可以取模的类型。

在这里插入图片描述

template <class K>
struct HashFunc
{
	size_t operator()(const K& key)
	{
		return key;
	}
};

// 特化
template <>
struct HashFunc<string>
{
	size_t operator()(const string& key)
	{
		size_t val = 0;
		for (auto ch : key)
		{
			val += ch;
		}
		return val;
	}
};

在这里插入图片描述

注:要求 hashi 的地方都需要用仿函数Hash来求,也就是哈希函数。

上面写的仿函数HashFunc<string>写得并不是很好,因为其面对一些不相同的字符串,求出来的哈希值却是相同的,这样哈希冲突的概率就会上升了。

在这里插入图片描述
那我们参考该博客:字符串哈希算法改进一下。

// BKDRHash
template <>
struct HashFunc<string>
{
	size_t operator()(const string& key)
	{
		size_t val = 0;
		for (auto ch : key)
		{
			val += 131 * val + ch;
		}
		return val;
	}
};

在这里插入图片描述
以上就是闭散列的线性探测的内容,那我们来总结一下线性探测的优缺点。

线性探测优点:实现非常简单。

线性探测缺点:一旦发生哈希冲突,所有的冲突连在一起,容易产生数据堆积,即:不同关键码占据了可利用的空位置,使得寻找某关键码的位置需要许多次比较,导致搜索效率降低。

在这里插入图片描述

为了缓解这个问题,二次探测就登场了。(注:它也无法完全解决哈希冲突的问题)

二次探测
线性探测的缺陷是产生冲突的数据堆积在一块,这与其找下一个空位置有关系,因为找空位置的方式就是挨着往后逐个去找,因此二次探测为了避免该问题,找下一个空位置的方法为: H i H_i Hi = ( H 0 H_0 H0 + i 2 i^2 i2 )% m 或者: H i H_i Hi = ( H 0 H_0 H0 - i 2 i^2 i2 )% m。其中:i =1,2,3…, H 0 H_0 H0 是通过散列函数 Hash(x) 对元素的关键码 key 进行计算得到的位置,m 是表的大小。

在这里插入图片描述

bool Insert(const pair<K, V>& kv)
{
	if (Find(kv.first))
		return false;

	// 负载因子到了就要扩容
	if (_tables.size() == 0 || 10 * _size / _tables.size() >= 7)
	{
		size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
		HashTable<K, V, HashFunc<K>> newHT;
		newHT._tables.resize(newSize);
		// 旧表的数据映射到新表
		for (auto& e : _tables)
		{
			if (e._state == EXIST)
			{
				newHT.Insert(e._kv);
			}
		}

		_tables.swap(newHT._tables);
	}
	// 二次探测
	Hash hash;
	size_t i = 0;
	size_t start = hash(kv.first) % _tables.size();
	size_t hashi = start;
	while (_tables[hashi]._state == EXIST)
	{
		++i;
		hashi = start + i * i;
		hashi %= _tables.size();
	}
	// 找到空位置就插入元素
	_tables[hashi]._kv = kv;
	_tables[hashi]._state = EXIST;
	++_size;

	return true;
}

闭散列的完整代码

namespace CloseHash
{
	// 标识状态
	enum State
	{
		EMPTY,
		EXIST,
		DELETE
	};

	template <class K, class V>
	struct HashData
	{
		pair<K, V> _kv;
		State _state = EMPTY;
	};

	template <class K>
	struct HashFunc
	{
		size_t operator()(const K& key)
		{
			return key;
		}
	};

	// 特化
	template <>
	struct HashFunc<string>
	{
		size_t operator()(const string& key)
		{
			size_t val = 0;
			for (auto ch : key)
			{
				val += 131 * val + ch;
			}
			return val;
		}
	};

	template <class K, class V, class Hash = HashFunc<K>>
	class HashTable
	{
	public:
		HashData<K, V>* Find(const K& key)
		{
			if (_tables.size() == 0)
			{
				return nullptr;
			}

			Hash hash;

			size_t hashi = hash(key) % _tables.size();
			size_t start = hashi;
			while (_tables[hashi]._state != EMPTY)
			{
				// 状态不是删除才能找到,否则会有BUG
				if (_tables[hashi]._state != DELETE && _tables[hashi]._kv.first == key)
				{
					return &_tables[hashi];
				}

				++hashi;
				hashi %= _tables.size();

				// 找了一圈都没找到
				if (hashi == start)	// 防止插入又删除的场景
					break;
			}
			return nullptr;
		}

		bool Insert(const pair<K, V>& kv)
		{
			if (Find(kv.first))
				return false;

			// 负载因子到了就要扩容
			if (_tables.size() == 0 || 10 * _size / _tables.size() >= 7)
			{
				size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
				HashTable<K, V, HashFunc<K>> newHT;
				newHT._tables.resize(newSize);
				// 旧表的数据映射到新表
				for (auto& e : _tables)
				{
					if (e._state == EXIST)
					{
						newHT.Insert(e._kv);
					}
				}

				_tables.swap(newHT._tables);
			}

			//Hash hash;

			//size_t hashi = hash(kv.first) % _tables.size();	// 注意模除的是_table.size()
			 线性探测
			//while (_tables[hashi]._state == EXIST)
			//{
			//	++hashi;
			//	hashi %= _tables.size();
			//}
			 找到空位置就插入元素
			//_tables[hashi]._kv = kv;
			//_tables[hashi]._state = EXIST;
			//++_size;

			// 二次探测
			Hash hash;
			size_t i = 0;
			size_t start = hash(kv.first) % _tables.size();
			size_t hashi = start;
			while (_tables[hashi]._state == EXIST)
			{
				++i;
				hashi = start + i * i;
				hashi %= _tables.size();
			}
			// 找到空位置就插入元素
			_tables[hashi]._kv = kv;
			_tables[hashi]._state = EXIST;
			++_size;

			return true;
		}

		bool Erase(const K& key)
		{
			HashData<K, V>* ret = Find(key);
			if (ret)	// 元素存在
			{
				ret->_state = DELETE;
				--_size;
				return true;
			}
			else
				return false;
		}

		void Print()
		{
			for (size_t i = 0; i < _tables.size(); ++i)
			{
				if (_tables[i]._state == EXIST)
				{
					printf("[%d:%d] ", i, _tables[i]._kv.first);
				}
				else
				{
					printf("[%d:*] ", i);
				}
			}
			cout << endl;
		}

	private:
		vector<HashData<K, V>> _tables;
		size_t _size = 0;	// 有效数据的个数
	};
}

线性探测和二次探测都没有从本质上解决哈希冲突占用位置的问题,这时候就需要开散列的拉链法(哈希桶)

2. 开散列

开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子集合。每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中。

在这里插入图片描述
注:拉链法并不会出现所有元素都在同一个同中的情况,因为有负载因子的存在,也就不会出现O(N)的查找效率问题。如果还想进一步提高效率,桶中也可以挂红黑树。但是本人模拟实现的哈希桶是挂单向链表的,因为单向链表也够用了,相比双向链表更节省空间。

开散列增容

桶的个数是一定的,随着元素的不断插入,每个桶中元素的个数不断增多,极端情况下,可能会导致一个桶中链表节点非常多,会影响的哈希表的性能。因此在一定条件下需要对哈希表进行增容,那该条件怎么确认呢?开散列最好的情况是:每个哈希桶中刚好挂一个节点,再继续插入元素时,每一次都会发生哈希冲突,因此,在元素个数刚好等于桶的个数时,可以给哈希表增容。由于素数作为哈希表的长度可以产生最分散的余数,从而尽可能减小哈希冲突。所以,我们可以提前生成一个素数表就能知道下一次扩容的大小了。

namespace HashBucket
{
	// 哈希函数
	template <class K>
	struct HashFunc
	{
		size_t operator()(const K& key)
		{
			return key;
		}
	};

	// 特化
	template <>
	struct HashFunc<string>
	{
		size_t operator()(const string& key)
		{
			size_t val = 0;
			for (auto ch : key)
			{
				val += 131 * val + ch;
			}
			return val;
		}
	};

	template <class K, class V>
	struct HashNode
	{
		pair<K, V> _kv;
		HashNode<K, V>* _next;

		HashNode(const pair<K, V>& kv)
			: _kv(kv)
			, _next(nullptr)
		{}
	};

	template <class K, class V, class Hash = HashFunc<K>>
	class HashTable
	{
		typedef HashNode<K, V> Node;

	private:
		inline size_t __stl_next_prime(size_t n)
		{
			// 素数表中存储下一次扩容的容量
			static const size_t __stl_num_primes = 28;
			static const size_t __stl_prime_list[__stl_num_primes] =
			{
				53, 97, 193, 389, 769,
				1543, 3079, 6151, 12289, 24593,
				49157, 98317, 196613, 393241, 786433,
				1572869, 3145739, 6291469, 12582917, 25165843,
				50331653, 100663319, 201326611, 402653189, 805306457,
				1610612741, 3221225473, 4294967291
			};

			for (size_t i = 0; i < __stl_num_primes; ++i)
			{
				if (__stl_prime_list[i] > n)
				{
					return __stl_prime_list[i];
				}
			}

			return -1;
		}

	public:
		Node* Find(const K& key)
		{
			if (_tables.size() == 0)
				return nullptr;

			// 在对应的桶查找
			Hash hash;
			//size_t hashi = Hash()(key) % _tables.size();
			size_t hashi = hash(key) % _tables.size();
			Node* cur = _tables[hashi];
			while (cur)
			{
				if (cur->_kv.first == key)
					return cur;

				cur = cur->_next;
			}

			return nullptr;
		}

		bool Insert(const pair<K, V>& kv)
		{
			// 去重
			if (Find(kv.first))
				return false;

			// 负载因子到1扩容
			if (_size == _tables.size())
			{
				//size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
				vector<Node*> newTables(__stl_next_prime(_tables.size()), nullptr);
				// 旧表中的节点还有使用,旧表中的节点移动映射到新表中
				for (size_t i = 0; i < _tables.size(); ++i)
				{
					Node* cur = _tables[i];
					while (cur)
					{
						// 头插
						Node* next = cur->_next;

						Hash hash;
						size_t hashi = hash(cur->_kv.first) % newTables.size();
						cur->_next = newTables[hashi];
						newTables[hashi] = cur;

						cur = next;
					}

					_tables[i] = nullptr;
				}

				_tables.swap(newTables);
			}

			// 头插
			Hash hash;
			size_t hashi = hash(kv.first) % _tables.size();
			Node* newnode = new Node(kv);
			newnode->_next = _tables[hashi];
			_tables[hashi] = newnode;
			++_size;

			return true;
		}

		bool Erase(const K& key)
		{
			if (_tables.size() == 0)
				return false;

			Hash hash;
			size_t hashi = hash(key) % _tables.size();
			Node* prev = nullptr;
			Node* cur = _tables[hashi];
			while (cur)
			{
				if (cur->_kv.first == key)
				{
					// 头删
					if (prev == nullptr)
						_tables[hashi] = cur->_next;
					else    // 中间删
						prev->_next = cur->_next;

					delete cur;
					--_size;

					return true;
				}

				prev = cur;
				cur = cur->_next;
			}

			return false;	// 表中没有key
		}

		HashTable() = default;	// 强制生成默认构造函数

		// 拷贝构造采用的是尾插
		HashTable(const HashTable& ht)
		{
			_tables.resize(ht._tables.size(), nullptr);
			_size = ht._size;

			// 深拷贝
			for (size_t i = 0; i < ht._tables.size(); ++i)
			{
				Node* tail = nullptr;
				Node* cur = ht._tables[i];
				Node* next = nullptr;
				while (cur)
				{
					next = cur->_next;
					Node* newnode = new Node(cur->_kv);
					if (tail == nullptr)
						_tables[i] = newnode;
					else
						tail->_next = newnode;

					tail = newnode;
					cur = next;
				}
			}
		}

		// 析构函数
		~HashTable()
		{
			for (size_t i = 0; i < _tables.size(); ++i)
			{
				Node* cur = _tables[i];
				while (cur)
				{
					Node* next = cur->_next;
					delete cur;
					cur = next;
				}
				_tables[i] = nullptr;
			}
		}
		// 元素的个数
		size_t Size()
		{
			return _size;
		}

		// 表的长度
		size_t TablesSize()
		{
			return _tables.size();
		}

		// 桶的个数
		size_t BucketNum()
		{
			size_t num = 0;
			for (size_t i = 0; i < _tables.size(); ++i)
			{
				if (_tables[i])
				{
					++num;
				}
			}

			return num;
		}
		// 最长的桶的长度
		size_t MaxBucketLenth()
		{
			size_t maxLen = 0;
			for (size_t i = 0; i < _tables.size(); ++i)
			{
				size_t len = 0;
				Node* cur = _tables[i];
				while (cur)
				{
					++len;
					cur = cur->_next;
				}

				//if (len > 0)
				//	printf("[%d]号桶长度:%d\n", i, len);

				if (len > maxLen)
				{
					maxLen = len;
				}
			}

			return maxLen;
		}

	private:
		vector<Node*> _tables;
		size_t _size = 0;	// 有效数据的个数
	};

	void TestHT1()
	{
	
		int n = 1000000;
		vector<int> v;
		v.reserve(n);
		srand(time(0));
		for (int i = 0; i < n; ++i)
		{
			//v.push_back(i);
			v.push_back(rand() + i);  // 重复少
			//v.push_back(rand());  // 重复多
		}

		size_t begin1 = clock();
		HashTable<int, int> ht;
		for (auto e : v)
		{
			ht.Insert(make_pair(e, e));
		}
		size_t end1 = clock();

		cout << "数据个数:" << ht.Size() << endl;
		cout << "表的长度:" << ht.TablesSize() << endl;
		cout << "桶的个数:" << ht.BucketNum() << endl;
		cout << "平均每个桶的长度:" << (double)ht.Size() / (double)ht.BucketNum() << endl;
		cout << "最长的桶的长度:" << ht.MaxBucketLenth() << endl;
		cout << "负载因子:" << (double)ht.Size() / (double)ht.TablesSize() << endl;
	}
}

在这里插入图片描述

3. 开散列与闭散列比较

应用链地址法处理溢出,需要增设链接指针,似乎增加了存储开销。事实上:由于开地址法必须保持大量的空闲空间以确保搜索效率,如二次探查法要求装载因子 a <= 0.7,而表项所占空间又比指针大的多,所以使用链地址法反而比开地址法节省存储空间。

哈希表的插入只要是扩容和重新映射位置带来的消耗,而 set 是红黑树中节点的变色和旋转。如果提前知道哈希表的长度,我们可以通过 resize 或者 reserve 接口提前开好空间,减小扩容带来的消耗。

👉开散列实现 unordered_map 和 unordered_set👈

想要开散列实现 unordered_map 和 unordered_set,需要改造开散列FindInsert函数,再加上一个迭代器和取得类型的仿函数。

#pragma once

namespace Joy
{
	// 哈希函数
	template <class K>
	struct HashFunc
	{
		size_t operator()(const K& key)
		{
			return key;
		}
	};

	// 特化
	template <>
	struct HashFunc<string>
	{
		size_t operator()(const string& key)
		{
			size_t val = 0;
			for (auto ch : key)
			{
				val += 131 * val + ch;
			}
			return val;
		}
	};
	// 节点的改造
	template <class T>
	struct HashNode
	{
		T _data;
		HashNode<T>* _next;

		HashNode(const T& data)
			: _data(data)
			, _next(nullptr)
		{}
	};

	// 前置声明:因为__HashIterator需要使用HashTable*
	template <class K, class T, class Hash, class KeyOfT>
	class HashTable;
	// K是关键字key的的类型,T是节点数据的类型,Hash是哈希函数,KeyOfT是取出key值大小的仿函数
	template <class K, class T, class Hash, class KeyOfT>
	struct __HashIterator
	{
		typedef HashNode<T> Node;
		typedef HashTable<K, T, Hash, KeyOfT> HT;
		typedef __HashIterator<K, T, Hash, KeyOfT> Self;

		Node* _node;	// 节点指针
		HT* _pht;	// 指向哈希表的指针

		__HashIterator(Node* node, HT* pht)
			: _node(node)
			, _pht(pht)
		{}

		T& operator*()
		{
			return _node->_data;
		}

		T* operator->()
		{
			return &_node->_data;
		}

		Self& operator++()
		{
			if (_node->_next)
			{
				// 在当前桶中迭代
				_node = _node->_next;
			}
			else
			{
				// 找下一个桶
				Hash hash;
				KeyOfT kot;
				size_t i = hash(kot(_node->_data)) % _pht->_tables.size();
				++i;
				for (; i < _pht->_tables.size(); ++i)
				{
					// 找到第一个不为空的桶就break
					if (_pht->_tables[i])
					{
						_node = _pht->_tables[i];
						break;
					}
				}

				// 说明后面没有有数据的桶了
				if (i == _pht->_tables.size())
					_node = nullptr;
			}

			return *this;
		}

		bool operator!=(const Self& s) const
		{
			return _node != s._node;
		}

		bool operator==(const Self& s) const
		{
			return _node == s._node;
		}
	};

	template <class K, class T, class Hash, class KeyOfT>
	class HashTable
	{
		typedef HashNode<T> Node;
		friend struct __HashIterator<K, T, Hash, KeyOfT>;

	private:
		inline size_t __stl_next_prime(size_t n)
		{
			// 素数表中存储下一次扩容的容量
			static const size_t __stl_num_primes = 28;
			static const size_t __stl_prime_list[__stl_num_primes] =
			{
				53, 97, 193, 389, 769,
				1543, 3079, 6151, 12289, 24593,
				49157, 98317, 196613, 393241, 786433,
				1572869, 3145739, 6291469, 12582917, 25165843,
				50331653, 100663319, 201326611, 402653189, 805306457,
				1610612741, 3221225473, 4294967291
			};

			for (size_t i = 0; i < __stl_num_primes; ++i)
			{
				if (__stl_prime_list[i] > n)
				{
					return __stl_prime_list[i];
				}
			}

			return -1;
		}

	public:
		typedef __HashIterator<K, T, Hash, KeyOfT> iterator;

		iterator begin()
		{
			for (size_t i = 0; i < _tables.size(); ++i)
			{
				// 第一个不为空的桶就是begin()
				if (_tables[i])
					return iterator(_tables[i], this);
			}
			return end();
		}

		iterator end()
		{
			return iterator(nullptr, this);
		}


		iterator Find(const K& key)
		{
			if (_tables.size() == 0)
				return end();

			// 在对应的桶查找
			Hash hash;
			KeyOfT kot;
			//size_t hashi = Hash()(key) % _tables.size();
			size_t hashi = hash(key) % _tables.size();
			Node* cur = _tables[hashi];
			while (cur)
			{
				if (kot(cur->_data) == key)
					return iterator(cur, this);

				cur = cur->_next;
			}
			
			return end();	// key不在哈希表中
		}

		pair<iterator, bool> Insert(const T& data)
		{
			Hash hash;
			KeyOfT kot;

			// 去重
			iterator ret = Find(kot(data));
			if (ret != end())
				return make_pair(ret, false);

			// 负载因子到1扩容
			if (_size == _tables.size())
			{
				//size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
				vector<Node*> newTables(__stl_next_prime(_tables.size()), nullptr);
				// 旧表中的节点还有使用,旧表中的节点移动映射到新表中
				for (size_t i = 0; i < _tables.size(); ++i)
				{
					Node* cur = _tables[i];
					while (cur)
					{
						// 头插
						Node* next = cur->_next;

						size_t hashi = hash(kot(cur->_data)) % newTables.size();
						cur->_next = newTables[hashi];
						newTables[hashi] = cur;

						cur = next;
					}

					_tables[i] = nullptr;
				}

				_tables.swap(newTables);
			}

			// 头插
			size_t hashi = hash(kot(data)) % _tables.size();
			Node* newnode = new Node(data);
			newnode->_next = _tables[hashi];
			_tables[hashi] = newnode;
			++_size;

			return make_pair(iterator(newnode, this), true);
		}

		bool Erase(const K& key)
		{
			if (_tables.size() == 0)
				return false;

			Hash hash;
			size_t hashi = hash(key) % _tables.size();
			Node* prev = nullptr;
			Node* cur = _tables[hashi];
			while (cur)
			{
				if (cur->_kv.first == key)
				{
					// 头删
					if (prev == nullptr)
						_tables[hashi] = cur->_next;
					else    // 中间删
						prev->_next = cur->_next;

					delete cur;
					--_size;

					return true;
				}

				prev = cur;
				cur = cur->_next;
			}

			return false;	// 表中没有key
		}

		HashTable() = default;	// 强制生成默认构造函数

		// 拷贝构造采用的是尾插
		HashTable(const HashTable& ht)
		{
			_tables.resize(ht._tables.size(), nullptr);
			_size = ht._size;

			// 深拷贝
			for (size_t i = 0; i < ht._tables.size(); ++i)
			{
				Node* tail = nullptr;
				Node* cur = ht._tables[i];
				Node* next = nullptr;
				while (cur)
				{
					next = cur->_next;
					Node* newnode = new Node(cur->_data);
					if (tail == nullptr)
						_tables[i] = newnode;
					else
						tail->_next = newnode;

					tail = newnode;
					cur = next;
				}
			}
		}

		// 析构函数
		~HashTable()
		{
			for (size_t i = 0; i < _tables.size(); ++i)
			{
				Node* cur = _tables[i];
				while (cur)
				{
					Node* next = cur->_next;
					delete cur;
					cur = next;
				}
				_tables[i] = nullptr;
			}
		}

		size_t Size()
		{
			return _size;
		}

		// 表的长度
		size_t TablesSize()
		{
			return _tables.size();
		}

		// 桶的个数
		size_t BucketNum()
		{
			size_t num = 0;
			for (size_t i = 0; i < _tables.size(); ++i)
			{
				if (_tables[i])
				{
					++num;
				}
			}

			return num;
		}

		size_t MaxBucketLenth()
		{
			size_t maxLen = 0;
			for (size_t i = 0; i < _tables.size(); ++i)
			{
				size_t len = 0;
				Node* cur = _tables[i];
				while (cur)
				{
					++len;
					cur = cur->_next;
				}

				//if (len > 0)
				//	printf("[%d]号桶长度:%d\n", i, len);

				if (len > maxLen)
				{
					maxLen = len;
				}
			}

			return maxLen;
		}

	private:
		vector<Node*> _tables;
		size_t _size = 0;	// 有效数据的个数
	};
}

哈希表的迭代器中有节点的指针和指向哈希表的指针,因为迭代器是用来遍历的,所以需要哈希表才能找到下一个节点的指针。因为哈希表是在迭代器后面实现的,所以要在前面加一个哈希表的前置声明。注意:因为哈希表是私有的,所以可以将迭代器弄成哈希表的友元类,友元声明时也需要将模板参数带上。还需要注意的是,哈希表的 const 迭代器不能复用普通迭代器的代码。

实现 unordered_map 和 unordered_set

#pragma once
#include "HashTable.h"

namespace Joy
{
	template <class K, class V, class Hash = HashFunc<K>>
	class unordered_map
	{
		struct MapKeyOfT
		{
			const K& operator()(const pair<K, V>& kv)
			{
				return kv.first;
			}
		};

	public:
		// 加上typename告诉编译器这是类型声明
		typedef typename HashTable<K, pair<K, V>, Hash, MapKeyOfT>::iterator iterator;

		iterator begin()
		{
			return _ht.begin();
		}

		iterator end()
		{
			return _ht.end();
		}

		pair<iterator, bool> insert(const pair<K, V>& kv)
		{
			return _ht.Insert(kv);
		}

		V& operator[](const K& key)
		{
			pair<iterator, bool> ret = _ht.Insert(make_pair(key, V()));
			return ret.first->second;
		}

		unordered_map() = default;

		// 拷贝构造
		unordered_map(const unordered_map& m)
			: _ht(m._ht)
		{}

	private:
		HashTable<K, pair<K, V>, Hash, MapKeyOfT> _ht;
	};

	void MapTest()
	{
		string arr[] = { "苹果", "西瓜", "苹果", "西瓜", "苹果", "苹果", "西瓜", "苹果", "香蕉", "苹果", "香蕉" };
		unordered_map<string, int> countMap;
		for (auto& str : arr)
		{
			++countMap[str];
		}

		for (auto& kv : countMap)
		{
			cout << kv.first << ":" << kv.second << endl;
		}

		cout << endl;
	}
}
#pragma once
#include "HashTable.h"

namespace Joy
{
	template <class K, class Hash = HashFunc<K>>
	class unordered_set
	{
		struct SetKeyOfT
		{
			const K& operator()(const K& key)
			{
				return key;
			}
		};

	public:
		// 类型声明
		typedef typename HashTable<K, K, Hash, SetKeyOfT>::iterator iterator;

		iterator begin()
		{
			return _ht.begin();
		}

		iterator end()
		{
			return _ht.end();
		}

		pair<iterator, bool> insert(const K& key)
		{
			return _ht.Insert(key);
		}

		unordered_set() = default;

		// 拷贝构造
		unordered_set(const unordered_set& s)
			: _ht(s._ht)
		{}

	private:
		HashTable<K, K, Hash, SetKeyOfT> _ht;
	};

	void SetTest()
	{
		unordered_set<int> s;
		s.insert(2);
		s.insert(1);
		s.insert(3);
		s.insert(5);
		s.insert(4);

		for (auto e : s)
		{
			cout << e << " ";
		}
		cout << endl;
	}
}

unordered_map 和 unordered_set 的接口并没有全部实现,主要是理解它们实现的原理。

在这里插入图片描述

一道小小的面试题:一个类型K去做set和 unordered_set 的模板参数要什么要求?set 要求该类型能够支持小于比较或者显示提供比较的仿函数,unordered_set 要求该类型对象能够转换成整型或者提供转换成整型的仿函数,还要求该类型对象可以支持等于比较或者提供等于比较的仿函数(判断哈希表中是否已经存在该对象)。

👉总结👈

本篇博客主要介绍什么是哈希表、哈希表的使用、哈希冲突、闭散列和开散列的实现以及 unordered_map 和 unordered_set 的模拟实现等等。那么以上就是本篇博客的全部内容了,如果大家觉得有收获的话,可以点个三连支持一下!谢谢大家!💖💝❣️

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/174714.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ubuntu20.04/22.04 安装 Arduino IDE 2.x

这周收到两片基于LGT8F328P LQFP32的Arduino Mini EVB, 机器上没有 Arduino 环境需要新安装, 正好感受一下新出的 Arduino IDE 2.x, 记录一下 Ubuntu 20.04/22.04 下安装 Arduino IDE 2.x 的过程. 下载解压 下载 访问 Arduino 的官网下载 https://www.arduino.cc/en/softwar…

2021-04-12

今天在练习自定义标题栏&#xff08;Android初级开发&#xff08;四&#xff09;——补充3&#xff09;的过程中遇到了隐藏系统自带标题栏的问题&#xff0c;现将几种去掉系统自带标题栏的方式做一总结。大体上可以分为两种方式&#xff0c;一种是修改xml文件&#xff08;这种方…

第六层:继承

文章目录前情回顾继承继承的作用继承的基本语法继承方式公共继承保护继承私有继承继承中的对象模型继承中的构造和析构顺序继承中同名成员访问非静态成员静态成员多继承语法注意多继承中的对象模型多继承父类成员名相同菱形继承概念菱形继承出现的问题虚继承步入第七层本章知识…

【数据分析】(task3)数据重构

note 数据的合并&#xff1a;df自带的join方法是横向合并&#xff0c;append方法是纵向&#xff08;上下&#xff09;合并拼接&#xff1b;pd的merge方法是横向合并&#xff0c;然后用刚才的apend进行纵向合并。数据的重构&#xff1a;stack函数的主要作用是将原来的列转成最内…

Redis基本类型和基本操作

2.Redis常见命令 Redis是典型的key-value数据库&#xff0c;key一般是字符串&#xff0c;而value包含很多不同的数据类型&#xff1a; Redis为了方便我们学习&#xff0c;将操作不同数据类型的命令也做了分组&#xff0c;在官网&#xff08; https://redis.io/commands &…

阿里云轻量服务器下>安装宝塔面板>安装使用Tomcat服务器>通过公网ip地址>直接访问网站目录下文件

第一步 阿里云开放Tomcat 8080端口号 和宝塔面板 8888端口 第二步 如果你的应用镜像 一开始在阿里云购买服务器时候没有选择宝塔应用镜像 先打开如下界面 将系统中应用镜像 确定更换为 宝塔面板镜像 第三步 请在应用详情中 走完紫色所框选的步骤 第四步 将上一步获取到的…

cadence SPB17.4 - allegro - align component by pin

文章目录cadence SPB17.4 - allegro - align component by pin概述笔记实验备注补充 - 2023_0120_2337ENDcadence SPB17.4 - allegro - align component by pin 概述 allegro自带的元件对齐, 默认是对齐元件中心的, 对齐后的效果是中心对齐. 但是为了走线能走的最短, 拉线方便…

2023年春节祝福第二弹——送你一只守护兔(下),CSS3 动画相关属性图例实例大全(82种),守护兔源代码免费下载

2023年春节祝福第二弹——送你一只守护兔(下&#xff09; CSS3 动画相关属性图例实例大全&#xff08;82种&#xff09;、守护兔源代码免费下载 本文目录&#xff1a; 五、CSS3 动画相关属性实例大全 &#xff08;1&#xff09;、CSS3的动画基本属性 &#xff08;2&#xf…

TCP/IP OSI七层模型

作者简介&#xff1a;一名在校云计算网络运维学生、每天分享网络运维的学习经验、和学习笔记。 座右铭&#xff1a;低头赶路&#xff0c;敬事如仪 个人主页&#xff1a;网络豆的主页​​​​​​ 目录 前言 一.OSI七层模型 1.什么是OSI七层参考模型 2.七层每层分别的作用…

Spring热部署设置

手动热部署 热部署是指在不停止应用程序的情况下更新应用程序的功能。这样可以避免短暂的服务中断&#xff0c;并且可以更快地部署新的功能和修复问题。热部署通常适用于Web应用程序和服务器端应用程序。 在pom.xml中添加依赖&#xff1a; <dependency><groupId>…

cmake 02 hello_cmake

cmake 学习笔记 一个最小化的 cmake 项目 目录结构 F:\2023\code\cmake\hello_cmake>tree /f 卷 dox 的文件夹 PATH 列表 卷序列号为 34D2-6BE8 F:. │ CMakeLists.txt │ main.cpp │ └─.vscodelaunch.jsontasks.jsonF:\2023\code\cmake\hello_cmake>源码 main.c…

Java 集合 笔记

体系 Collection接口 List接口&#xff1a;按照顺序插入数据&#xff0c;可重复 ArrayList实现类&#xff1a;LinkedList实现类&#xff1a; Set接口&#xff1a;不可重复的集合 HashSet实现类 Queue接口&#xff1a;队列 LinkedList实现类ArrayBlockingQueue实现类PriorityQu…

Python CalmAn工具包安装及环境配置过程【Windows】

文章目录CalmAn简介安装要求我的设备1>CalmAn压缩包解压2>conda创建虚拟环境3>requirements依赖包配置&#xff08;包括tensorflow&#xff09;4>caiman安装(mamba install)5>caimanmanager.py install6>PyCharm添加解释器7>Demo演示8>遇到的问题CalmA…

DB SQL 转 ES DSL(支持多种数据库常用查询、统计、平均值、最大值、最小值、求和语法)...

1. 简介 日常开发中需要查询Elasticsearch中的数据时&#xff0c;一般会采用RestHighLevelClient高级客户端封装的API。项目中一般采用一种或多种关系型数据库(如&#xff1a;Mysql、PostgreSQL、Oracle等) NoSQL(如&#xff1a;Elasticsearch)存储方案&#xff1b;不同关系数…

【SAP Abap】X档案:SAP ABAP 中 AMDP 简介及实现方法

SAP ABAP 中 AMDP 简介及实现方法0、前言1、AMDP 简介1.1 代码下沉&#xff08;Code Pushdown&#xff09;1.2 AMDP 是托管数据库过程的容器1.3 AMDP 的优缺点1.4 几种数据库访问方式的区别1.5 几种数据库访问方式的选用1.6 使用的开发工具2、实现方法2.1 AMDP PROCEDURE&#…

Linux自带10种常用性能分析与监控工具

liunx的性能分析与监控这些问题是一个很重要的问题&#xff0c;我们需要解决这个问题就可以借助liunx中的一些工具来帮我们处理掉这个问题&#xff0c;以下将会讲一下目前liunx中常用自带的性能分析与监控工具 Linux自带10种常用性能分析与监控工具1.vmstat2.iostat3.iotop监控…

uniapp cli的使用

uniapp官方文档有很多地方写的不是很明白。写笔记还是非常有必要的。 cli入门 uniapp的cli分为两种&#xff1a;uni cli和hbuilder cli。下面是官方对于两者的定义。官方实际上是更推荐uni cli的。因为官方文档通篇都是介绍uni cli&#xff0c;也是优先介绍uni cli的。hbuild…

Linux系统之Bonding 网卡绑定配置方法

Linux系统之Bonding 网卡绑定配置方法一、检查本地系统环境1.检查系统版本2.查看服务器网卡二、创建网卡配置文件1.进入网卡配置文件目录2.拷贝eth0的网卡配置文件3.修改bond0网卡配置文件4.修改eth1网卡配置文件5.修改eth2网卡配置文件三、创建bonding的配置文件1.编辑bonding…

OneFlow v0.9.0正式发布

今天是 OneFlow 开源的第 903 天&#xff0c;OneFlow v0.9.0 正式发布。本次更新包含 640 个 commit&#xff0c;完整更新列表请查看链接&#xff1a;https://github.com/Oneflow-Inc/oneflow/releases/tag/v0.9.0&#xff0c;欢迎下载体验新版本&#xff0c;期待你的反馈。One…

Java补充内容(Junit 反射 注解)

1 Junit测试 测试分类&#xff1a; 1. 黑盒测试&#xff1a;不需要写代码&#xff0c;给输入值&#xff0c;看程序是否能够输出期望的值。 2. 白盒测试&#xff1a;需要写代码的。关注程序具体的执行流程。 Junit使用&#xff1a;白盒测试 步骤&#xff1a; 定义一个测试类(测试…