unordered系列关联式容器以及哈希表原理实现

news2025/1/17 5:54:10

Ⅰ. unordered 系列关联式容器

C++98中,STL提供了底层为红黑树结构的一系列关联式容器,在查询时效率可达到 l o g 2 n log_2 n log2n即最差情况下需要比较红黑树的高度次,当树中的节点非常多时,查询效率也不理想。最好的查询是,进行很少的比较次数就能够将元素找到,因此在C++11中,STL又提供了4个unordered 系列的关联式容器,这四个容器与红黑树结构的关联式容器使用方式基本类似,只是其底层结构不同,本文中只对unordered_map 进行介绍,unordered_setunordered_multimapunordered_multiset 可查看文档介绍。

Ⅱ. unordered_map 的使用

1、文档介绍

unordered_map在线文档说明

  1. unordered_map是存储 <key, value> 键值对的关联式容器,其允许通过 key 快速的索引到与其对应的 value

  2. unordered_map 中,键值通常用于惟一地标识元素,而映射值是一个对象,其内容与此键关联。键和映射值的类型可能不同。

  3. 在内部,unordered_map 没有对 <key, value> 按照任何特定的顺序排序, 为了能在常数范围内找到 key 所对应的 valueunordered_map 将相同哈希值的键值对放在相同的桶中。

  4. unordered_map 容器通过 key 访问单个元素要比 map 快,但它通常在遍历元素子集的范围迭代方面效率较低

  5. unordered_map 实现了直接访问操作符(operator[]),它允许使用key作为参数直接访问value。

  6. 它的迭代器至少是前向迭代器(也就是单向迭代器

2、unordered_map 的接口说明

①容量

函数声明功能介绍
bool empty() const检测 unordered_map 是否为空
size_t size() const获取 unordered_map 的有效元素个数

unordered_map 的迭代器(无反向迭代器)

函数声明功能介绍
begin()返回 unordered_map 第一个元素的迭代器
end()返回 unordered_map 最后一个元素下一个位置的迭代器
cbegin()返回 unordered_map 第一个元素的 const 迭代器
cend()返回 unordered_map 最后一个元素下一个位置的 const 迭代器

unordered_map 的元素访问

函数声明功能介绍
operator[]返回与 key 对应的 value 的引用

🏖 注意:该函数中实际调用哈希桶的插入操作,用参数 key 与 V() 构造一个默认值往底层哈希桶中插入,如果 key 不在哈希桶中,插入成功,返回 V(),插入失败,说明 key 已经在哈希桶中,将 key 对应的 value 返回。

unordered_map 的查询

函数声明功能介绍
iterator find(const K& key)返回 key 在哈希桶中的位置
size_t count(const K& key)返回哈希桶中关键码为 key 的键值对的个数

🏗 **注意:**unordered_map 中 key 是不能重复的,因此 count 函数的返回值最大为1。

unordered_map 的修改操作

函数声明功能介绍
insert向容器中插入键值对
erase删除容器中的键值对
void clear()清空容器中有效元素个数
void swap(unordered_map&)交换两个容器中的元素

unordered_map 的桶操作

函数声明功能介绍
size_t bucket_count() const返回哈希桶中桶的总个数
size_t bucket_size(size_t n) const返回 n 号桶中有效元素的总个数
size_t bucket(const K& key)返回元素 key 所在的桶号

3、map 和 unordered_map 的区别(set 与 unordered_set 也是)

  • map 是支持双向迭代器,且迭代的结果是有序的;而 unordered_map单向迭代器,且迭代的结果是无序的。
  • map 的底层是红黑树,而 unordered_map 的底层是哈希表
  • 如果数据是无序的,采用 unordered_map 效率高;如果数据是有序的,采用 map 的效率更高

Ⅲ. 哈希结构

unordered 系列的关联式容器之所以效率比较高,是因为其底层使用了哈希结构。

1、哈希的概念

顺序结构以及平衡树中,元素关键码与其存储位置之间没有对应的关系,因此在查找一个元素时,必须要经过关键码的多次比较顺序查找时间复杂度为 O(N) **,平衡树中为树的高度,即 O( l o g 2 n log_2 n log2n),搜索的效率取决于搜索过程中元素的比较次数。

理想的搜索方法:可以不经过任何比较,一次直接从表中得到要搜索的元素如果构造一种存储结构,通过某种函数 (hashFunc) 使元素的存储位置与它的关键码之间能够建立一一映射的关系,那么在查找时通过该函数可以很快找到该元素

当向该结构中:

  • 插入元素

    • 根据待插入元素的关键码,以此函数计算出该元素的存储位置并按此位置进行存放
  • 搜索元素

    • 对元素的关键码进行同样的计算,把求得的函数值当做元素的存储位置,在结构中按此位置取元素比较,若关键码相等,则搜索成功

该方式即为哈希(散列)方法,哈希方法中使用的转换函数称为哈希 ( 散列 ) 函数,构造出来的结构称为哈希表(Hash Table)( 或者称散列表 )

例如:数据集合{1,7,6,4,5,9};

哈希函数设置为:hash(key) = key % capacitycapacity为存储元素底层空间总的大小)

用该方法进行搜索不必进行多次关键码的比较,因此搜索的速度比较快 问题:按照上述哈希方式,向集合中插入元素44,会出现什么问题?答案是发生哈希冲突(或哈希碰撞)!

2、哈希冲突

🏗 不同关键字通过相同哈希哈数计算出相同的哈希地址,该种现象称为哈希冲突或哈希碰撞

把具有不同关键码而具有相同哈希地址的数据元素称为 同义词

❓ 发生哈希冲突该如何处理呢?哈希冲突可以被解决吗?

💡 答案是 哈希冲突是无法被完全解决的,就像生活中无法完全解决一些矛盾一样,但是如果我们的处理方法越好,那么产生的矛盾也就是哈希冲突就会越少!

下面在介绍解决哈希冲突的方法之前,先介绍一下哈希函数

3、哈希函数

引起哈希冲突的一个原因可能是:哈希函数设计不够合理哈希函数设计原则

  • 哈希函数的定义域必须包括需要存储的全部关键码,而如果散列表允许有 m 个地址时,其值域必须在 0 到 m-1 之间
  • 哈希函数计算出来的地址能均匀分布在整个空间中
  • 哈希函数应该比较简单

哈希函数作用:建立元素与其存储位置之前的对应关系的,在存储元素时,先通过哈希函数计算 元素在哈希表格中的存储位置,然后存储元素。好的哈希函数可以减少冲突的概率,但是不能够绝对避免,万一发生哈希冲突,得需要借助哈希冲突处理方法来 解决。

📧 常见哈希函数

  1. 直接定制法–(常用)

取关键字的某个线性函数为散列地址: Hash Key = A*Key + B 优点:简单、均匀 缺点:需要事先知道关键字的分布情况 使用场景:适合查找比较小且连续的情况 (基数排序的思想就是直接定制法)

  1. 除留余数法–(常用)

设散列表中允许的地址数为 m ,取一个不大于 m ,但最接近或者等于 m 的质数 p 作为除数,按照哈希函数: Hash(key) = key% p(p<=m), 将关键码转换成哈希地址
后面我们还会利用BKDR的方法对除留余数法进行优化一下!

  1. 平方取中法–(了解)

假设关键字为1234,对它平方就是1522756,抽取中间的3位227作为哈希地址; 再比如关键字为4321,对它平方就是18671041,抽取中间的3位671(或710)作为哈希地址 平方取中法比较适合:不知道关键字的分布,而位数又不是很大的情况

  1. 折叠法–(了解)

折叠法是将关键字从左到右分割成位数相等的几部分(最后一部分位数可以短些),然后将这几部分叠加求和,并按散列表表长,取后几位作为散列地址。折叠法适合事先不需要知道关键字的分布,适合关键字位数比较多的情况

  1. 随机数法–(了解)

选择一个随机函数,取关键字的随机函数值为它的哈希地址,即 H(key) = random(key),其中 random 为随机数函数。通常应用于关键字长度不等时采用此法

  1. 数学分析法–(了解)

设有n个d位数,每一位可能有r种不同的符号,这r种不同的符号在各位上出现的频率不一定相同,可能在某些位上分布比较均匀,每种符号出现的机会均等,在某些位上分布不均匀只有某几种符号经常出现。可根据散列表的大小,选择其中各种符号分布均匀的若干位作为散列地址。例如:

假设要存储某家公司员工登记表,如果用手机号作为关键字,那么极有可能前7位都是 相同的,那么我们可以选择后面的四位作为散列地址,如果这样的抽取工作还容易出现 冲突,还可以对抽取出来的数字进行反转(如1234改成4321)、右环位移(如1234改成4123)、左环移位、前两数与后两数叠加(如1234改 成12+34=46)等方法。数字分析法通常适合处理关键字位数比较大的情况,如果事先知道关键字的分布且关键字的若干位分布较均匀的情况

♻️ 还有其他的方法,比如如果存的是整数的话,那么根据32位比特位来进行存储:可以将这个整数的比特位分出来,如分为四个8位,那么我们可以建立四个数组,每个数组里面放8位比特位的大小也就是 0-255,然后每次查找该整数的时候,先去找该整数的前8位比特位,根据映射去数组中查找,然后后面的三个8位也是一样的,那么总共分下来只需要查找4次,并且非常省空间(分成几组这个是由自己决定的,不同的分组的效果是不一样的,查找的次数也不同)!

💡 注意:哈希函数设计的越精妙,产生哈希冲突的可能性就越低,但是无法避免哈希冲突

Ⅳ. 哈希冲突的解决

解决哈希冲突两种常见的方法是:闭散列开散列

我们先把闭散列哈希表的框架搭起来!

// 哈希表每个空间给个标记
// EMPTY此位置空, EXIST此位置已经有元素, DELETE元素已经删除
enum Status
{
    EXIST,
    EMPTY,
    DELETE
};

template<class K, class V>
struct HashData
{
    pair<K, V> _kv;
    Status _status = EMPTY; // 这里注意要给默认缺省值初始化,因为这里没有写构造函数,所以不会对枚举类型初始化
};

template<class K, class V>
class hashtable
{
public:
    bool insert(const pair<K, V>& kv);

    void _CheckCapacity();

    HashData<K, V>* find(const K& key);

    bool erase(const K& key);
    
private:
    vector<HashData<K, V>> _tables;
    size_t _n; // 有效数据个数
};

🏗 注:下面在实现闭散列的时候,我们先不会引入哈希函数,等到实现完闭散列后在指出问题的时候再用哈希函数进行问题处理!

1、闭散列

闭散列:也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,那么可以把 key 存放到冲突位置中的 下一个 **空位置中去。**那如何寻找下一个空位置呢?

① 线性探测

比如一下场景,现在需要插入元素44,先通过哈希函数计算哈希地址,hashAddr为4,因此44理论上应该插在该位置,但是该位置已经放了值为4的元素,即发生哈希冲突。

线性探测:从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止

  • 插入

    1. 先查找一下是否存在重复的元素,是的话直接返回false
    2. 然后判断一下容量负载因子,看看需不需要扩容(下面会讲)
    3. 通过哈希函数(这里采用除留余数法)获取待插入元素在哈希表中的位置
    4. 如果该位置中没有元素则直接插入新元素,如果该位置中有元素发生哈希冲突,使用线性探测找到下一个空位置,插入新元素
    bool insert(const pair<K, V>& kv)
    {
        // 进来先判断是否存在重复的元素
        HashData<K, V>* ret = find(kv.first);
        if (ret != nullptr)
    		return false;
    
        // 每次判断是否需要扩容(这个下面会讲)
        _CheckCapacity();
    
        // 采用除留余数法
        size_t start = kv.first % _tables.size(); 
        size_t i = 0;
        size_t index = start; // 这里多定义一个index是为了等会的二次探测的代码兼容性
    
        // 线性探测
        while (_tables[index]._status == EXIST)
        {
            i++;
            index = start + i;
            index %= _tables.size(); // 记得取模哈希表的长度,防止越界出去
        }
    
        // 插入新元素
        _tables[index]._kv = kv;
        _tables[index]._status = EXIST;
        _n++;
    
        return true;
    }
    
  • 删除

    • 采用闭散列处理哈希冲突时,不能随便物理删除哈希表中已有的元素,若直接删除元素会影响其他元素的搜索。比如删除元素4,如果直接删除掉,44查找起来可能会受影响。因此线性探测采用标记的伪删除法来删除一个元素简单点说,就是改变要删除元素的 _status 为 DELETE 即可!

      bool erase(const K& key)
      {
          HashData<K, V>* ret = find(key);
          if (ret == nullptr)
          {
              return false;
          }
          else
          {
              --_n;
              ret->_status = DELETE; // 直接改状态即可
              return true;
          }
      }
      
  • 查找

    • 查找其实就是按插入时候使用的探测方式进行查找。
    • 要注意的是查找的条件不只是 _tables[index]._kv.first == key,还得加个 _tables[index]._status == EXIST,因为有可能该点元素的是不算入有效数据的,且数据的状态是 DELETE,所以不加这个条件的话,就会将 DELETE 的节点也算入,所以我们得加入该条件,防止删除作用失效!
HashData<K, V>* find(const K& key)
{
    if (_tables.size() == 0)
        return nullptr;

    // 按insert的监测方式查找
    size_t start = key % _tables.size();
    size_t i = 0;
    size_t index = start + i;
    while (_tables[index]._status != EMPTY)
    {
        // 这里必须加_status == EXIST,因为不加的话在删除后还是能查到该值
        if (_tables[index]._kv.first == key && _tables[index]._status == EXIST)
            return &_tables[index];

        i++;
        //index = start + i * i;  // 这是二次探测
        index = start + i;
        index %= _tables.size();
    }
    // 没找到则返回空
    return nullptr;
}

线性探测优点:实现简单,

线性探测缺点:一旦发生哈希冲突,所有的冲突连在一起,容易产生数据 “ 堆积 ” ,即:不同关键码占据了可利用的空位置,使得寻找某关键码的位置需要许多次比较,导致搜索效率降低。如何缓解呢?就是通过二次探测!不过我们先介绍一下扩容的机制:

思考:哈希表什么时候扩容?如何扩容?

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wHyXqvaC-1671588684297)(../../img/image-20220916231601979.png)]

总结:在闭散列的线性探测中,0.7是负载因子区分冲突和元素个数的最优分水岭!而我们后面讲的闭散列的二次探测的话,0.5的负载因子是最好的分水岭!

🌵 注意事项:为什么在实现的时候扩容函数的时候不直接调用 vector 的扩容函数呢?
因为 vector 的扩容函数如 resize(),不管是在原地扩容还是异地扩容,它最后都只是将数据拷贝过去,如下图:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Rcel9pJC-1671588684298)(../../img/image-20220916232914743.png)]

但是其实我们需要的效果不是这样子的,我们需要的是这样子的

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nWZuHkg0-1671588684298)(../../img/image-20220916233437741.png)]

所以我们这里可以 定义一个新的哈希表 newTables,然后遍历原表,将原表中的数据按 newSize 映射到新表中去(调用哈希表自己的insert)

void _CheckCapacity()
{
    // 当表的大小为0 或者 负载因子超过0.7 则扩容

    // 负载因子越小,冲突的概率越小,效率越高,但是空间浪费就太大
    // 负载因子越大,冲突的概率越大,效率就越低,但是空间浪费就比较小
    if (_tables.size() == 0 || (_n * 10) / _tables.size() > 7)
    {
        // 扩容
        size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
        hashtable<K, V> newTables;
		newTables._tables.resize(newSize);

        // 这里不能直接调用vector的扩容函数,因为扩容后我们需要对表里的数据重新定位
        // 方法:遍历原表,把原表中的数据,重新按newSize映射到新表
        for (size_t i = 0; i < _tables.size(); ++i)
        {
            if (_tables[i]._status == EXIST)
                newTables.insert(_tables[i]._kv);
        }

        // 最后交换新表和旧表的内容
        _tables.swap(newTables._tables);
    }
}

② 二次探测

线性探测的缺陷是产生冲突的数据堆积在一块,这与其找下一个空位置有关系,因为找空位置的方式就是挨着往后逐个去找,因此二次探测为了避免该问题,找下一个空位置的方法为: H i H_i Hi= ( H 0 + i 2 H_0 + i^2 H0+i2 ) % m, 或者: H i H_i Hi= ( H 0 − i 2 H_0 - i^2 H0i2 ) % m 。其中: i = 1,2,3… ,是通过散列函数 Hash(x) 对元素的关键码 key 进行计算得到的位置, m 是表的大小。 对于2.1中如果要插入44,产生冲突,使用解决后的情况为:

简单的说,就是将线性探测中 i 的次数改为二次

这里以插入为例,其实就是改了一行的代码:

bool insert(const pair<K, V>& kv)
{
    HashData<K, V>* ret = find(kv.first);
    if (ret != nullptr)
        return false;

    _CheckCapacity();

    size_t start = kv.first % _tables.size(); 
    size_t i = 0;
    size_t index = start; // 这里多定义一个index是为了等会的二次探测的代码兼容性

    // 二次探测
    while (_tables[index]._status == EXIST)
    {
        i++;

        index = start + i * i; //只需要改动这行即可!
        //index = start + i;  这个是线性探测

        index %= _tables.size(); // 记得取模哈希表的长度,防止越界出去
    }

    _tables[index]._kv = kv;
    _tables[index]._status = EXIST;
    _n++;

    return true;
}

研究表明:当表的长度为质数且表装载因子 a 不超过 0.5 时,新的表项一定能够插入,而且任何一个位置都不会被探查两次。因此只要表中有一半的空位置,就不会存在表满的问题。在搜索时可以不考虑表装满的情况,但在插入时必须确保表的装载因子 a 不超过 0.5 **,**如果超出必须考虑增容。

🌓 因此:闭散列最大的缺陷就是空间利用率比较低,这也是哈希的缺陷。

这就引入了一个新问题:参数类型问题

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QAOUSfU0-1671588684298)(../../img/image-20220917002128702.png)]

这是什么情况?为什么会出现这种情况?我们看看下面的代码就明白了:

void Myhash1()
{
    // 这里我们把闭散列的哈希表放在了命名空间CloseHash中,所以要指定一下
	CloseHash::hashtable<string, string> hs;
	hs.insert(make_pair("liren", "利刃"));
}

可以发现,我们上面的代码中存的 Key 是 整形的时候是没问题的,但是如果是 string 呢?如下图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-awAq8fMk-1671588684299)(../../img/image-20220917003109483.png)]

对吧,这里出现了bug,我们就得实现让所有类型都能通用的方法!

💡 方法:通过哈希函数解决! 还记得我们上面讲的哈希函数吗,上面没有细讲如何在这里体现,这里它的价值就开始体现出来了!

并且我们之前不是说有优化的方法吗,现在先来看一下一些大佬是怎么做到优化的!

各种字符串Hash函数

上面贴的链接里面就是各种不同的哈希函数算法,这里我们使用BKDR的算法(数据表示BKDR是排名靠前的哈希函数算法):

🔺 注意:这里的 BKDR算法 还是其他的算法都好,都是为了避免字符串或者字符的哈希冲突问题,因为字符串的长度是不定的,而且就算不同长度的字符串,ASCII码值也可能是一样的,所以才采用这些哈希函数算法来尽量避免哈希冲突问题!

template <class K>
struct hash
{
    // 对于普通的类型,直接返回key即可
    size_t operator()(const K& key)
    {
        return key;
    }
};

// 特化
template<>
struct hash<string>
{
    size_t operator()(const string& s)
    {
        // 采用BKDR算法
        size_t value = 0;
        for (auto ch : s)
        {
            value *= 31;
            value += ch;
        }
        return value;
    }
};

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-voVGWIpN-1671588684299)(../../img/image-20220917100726100.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MUsPvvOW-1671588684299)(../../img/image-20220917100845637.png)]

并且这里我们运用的是模板的特化

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KN2lhqk6-1671588684299)(../../img/image-20220917101119481.png)]

🐛 这样子我们就得去 insertfind 函数里面去添加一些小细节也就是哈希函数啦:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-64k3upOy-1671588684300)(../../img/image-20220917105119408.png)]

问题:为什么上面哈希函数中的返回值都是 size_t 而不能是 int 呢?

💡 解答: 因为如果我们传过去的是一个负数比如 tmp.insert(make_pair(-999, 199)); 要知道负数也是可以取模的,但是结果是个负数,那么当我们后面在访问的时候,访问了负数下标位置的元素,那么就是越界访问了,所以这里我们返回值传的就是 size_t 比较合理!

🔺 纠错:上面图片中的insert的第二行判断时候是 if ( ret != nullptr ) 才对

2、开散列

① 开散列的概念

开散列法又叫链地址法 ( 开链法、拉链法、哈希桶 ) ,首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来各链表的头结点存储在哈希表中

从上图可以看出,开散列中每个桶中放的都是发生哈希冲突的元素

🚗 开散列的框架如下:

namespace LinkHash
{
	template <class K, class V>
	struct HashNode
	{
		pair<K, V> _kv;
		HashNode<K, V>* _next;

		HashNode(const pair<K, V>& kv, HashNode<K, V>* next = nullptr)
			:_kv(kv)
			, _next(next)
		{}
	};

	template <class K, class V, class HashFunc = Hash<K>>
	class hashtable
	{
		typedef HashNode<K, V> Node;
	public:
		bool insert(const pair<K, V>& kv);

		void _CheckCapacity();
        
		Node* find(const K& key);
		
		bool erase(const K& key);
        
	private:
		vector<Node*> _tables; // 指针数组
		size_t _n = 0; // 有效数据个数
	};
}

② 开散列的操作

  • 插入
    1. 首先检查一下是否有重复的元素,有的话返回false

    2. 然后检查一下是否需要扩容(与闭散列不一样,等会会讲)

    3. 进行插入操作(与闭散列不同):

      • 就相当于单链表中的插入嘛,但是这里要注意的是,如果我们选择的是尾插,那么我们就得遍历一遍链表,那么效率就低了,没什么意义!所以我们选择的是 头插
        [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mLc7TDxD-1671588684300)(../../img/image-20220919151533054.png)]
    4. 最后将有效个数 _n++ 即可

bool insert(const pair<K, V>& kv)
{
    // 检测是否有重复元素
    Node* ret = find(kv.first);
    if (ret != nullptr)
        return false;

    // 检测是否需要扩容
    _CheckCapacity();

    HashFunc _hs; // 哈希函数
    size_t index = _hs(kv.first) % _tables.size();
    Node* newnode = new Node(kv);

    // 头插
    newnode->_next = _tables[index];
    _tables[index] = newnode;
    ++_n;

    return true;
}
  • 删除
    1. 首先判断一下该元素是否存在,不存在则直接返回false
    2. 接着就是删除操作,由于我们实现的是单链表,所以这里其实不太方便,但是我们可以在查找该元素的同时,标记一个 prev 用于标记该元素的上一个位置,且 prev 初始化为 nullptr,然后就会有以下的情况:
      • 若 prev 为 nullptr,则说明当前位置最多只有一个元素,那么这相当于是单链表中的头删
      • 若 prev 不为 nullptr,则说明当前位置有多个元素,则相当于单链表中的任意位置删除
    3. 处理完后记得将有效个数 _n–
      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yN3qKx4G-1671588684300)(../../img/image-20220919154906855.png)]
bool erase(const K& key)
{
    if (_tables.size() == 0)
        return false;

    HashFunc _hs; // 哈希函数

    size_t index = _hs(key) % _tables.size();
    Node* pre = nullptr;
    Node* cur = _tables[index];
    while (cur != nullptr)
    {
        if (cur->_kv.first != key)
        {
            pre = cur;
            cur = cur->_next;
        }
        else
        {
            // 找到了开始删除
            if (pre == nullptr) // 头删
            {
                _tables[index] = cur->_next;
            }
            else // 中间删
            {
                pre->_next = cur->_next;
            }
            delete cur;
            // 记得减少有效个数
            --_n;

            return true;
        }
    }
    // 没找到直接返回false
    return false;
}
  • 查找
    • 查找比较简单,其实就是遍历单链表
    • 若找不到则返回 nullptr 即可
Node* find(const K& key)
{
    if (_tables.size() == 0)
        return nullptr;

    HashFunc _hs; // 哈希函数

    size_t index = _hs(key) % _tables.size();
    Node* cur = _tables[index];
    while (cur != nullptr)
    {
        if (cur->_kv.first == key)
            return cur;
        cur = cur->_next;
    }
    return nullptr;
}

③ 开散列的扩容

桶的个数是一定的,随着元素的不断插入,每个桶中元素的个数不断增多,极端情况下,可能会导致一个桶中链表节点非常多,会影响哈希表的性能,因此在一定条件下需要对哈希表进行增容,那该条件怎么确认呢?开散列最好的情况是:每个哈希桶中刚好挂一个节点,再继续插入元素时,每一次都会发生哈希冲突,因此,在元素个数刚好等于桶的个数时,可以给哈希表增容

🔺 注意事项:与闭散列一样,开散列的扩容也不能直接对其底层的 vector 直接使用 resize 等扩容函数,因为我们希望的是扩容后,一些桶里的数据又被均摊到别的桶中去,所以我们这里重新开辟一个 vecotr 变量,然后我们遍历原来的 vector,将其元素按 newSize 插入到新的 vector 中!

void _CheckCapacity()
{
    // 当表为空或者负载因子为1的时候扩容
    if (_tables.size() == 0 || _n == _tables.size())
    {
        // 与闭散列不同,开散列这里不推荐新建一个哈希表进行插入,而是直接新建一个vector插入即可
        size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
        vector<Node*> newTables(newSize);

        HashFunc _hs; // 哈希函数

        for (size_t i = 0; i < _tables.size(); ++i)
        {
            Node* cur = _tables[i];

            // 重新头插到newTables
            while (cur != nullptr)
            {
                Node* next = cur->_next;

                // 头插
                size_t index = _hs(cur->_kv.first) % newTables.size();
                cur->_next = newTables[index];
                newTables[index] = cur;

                // 继续往下循环遍历单链表
                cur = next;
            }

            // 保险起见,将旧表_tables的指针变成空指针
            _tables[i] = nullptr;
        }
        _tables.swap(newTables);
    }
}

3、关于扩容的选择(素数

除留余数法,最好模一个素数,为什么?如何每次快速取一个类似两倍关系的素数?

💡 唯一的原因是 避免将值聚类到少量存储桶中,分布更均匀的哈希表将更一致地执行

🚅 通过一个素数表,我们每次取下一个两倍左右大小的素数即可!

// 获取下一个素数
size_t GetNextPrime(size_t prime)
{
    const int PrimeCount = 28;
    static const size_t primeList[PrimeCount] =
    {
        53, 97, 193, 389, 769,1543, 3079, 6151, 12289, 24593,
        49157, 98317, 196613, 393241, 786433,1572869, 3145739, 6291469, 12582917,
        25165843,50331653, 100663319, 201326611, 402653189, 805306457,1610612741, 3221225473, 4294967291
    };

    size_t i = 0;
    for (i = 0; i < PrimeCount; ++i)
    {
        if (primeList[i] > prime)
            return primeList[i];
    }

    return primeList[i];
}

然后将 _CheckCapacity() 中的 newSize 改一下即可!

size_t newSize = GetNextPrime(_tables.size());

Ⅴ. 闭散列和开散列的比较

应用链地址法处理溢出,需要增设链接指针,似乎增加了存储开销。事实上: 由于开地址法必须保持大量的空闲空间以确保搜索效率,如二次探查法要求装载因子 a <= 0.7 ,而表项所占空间又比指针大的多,所以使用链地址法反而比开地址法节省存储空间

Ⅵ. 哈希表的完整代码

#pragma once
#include <iostream>
#include <string>
#include <vector>
using namespace std;

template <class K>
struct Hash
{
	size_t operator()(const K& key)
	{
		return key;
	}
};

// 特化
template<>
struct Hash <string>
{
	size_t operator()(const string& s)
	{
		// BKDR
		size_t value = 0;
		for (auto ch : s)
		{
			value *= 31;
			value += ch;
		}
		return value;
	}
};

namespace CloseHash
{
	enum Status
	{
		EXIST,
		EMPTY,
		DELETE
	};

	template <class K, class V>
	struct HashData
	{
		pair<K, V> _kv;
		Status _status = EMPTY;
	};

	template <class K, class V, class HashFunc = Hash<K>>
	class hashtable
	{
	public:
		bool insert(const pair<K, V>& kv)
		{
			// 进来先判断是否存在重复的元素
			HashData<K, V>* ret = find(kv.first);
			if (ret)
				return false;

			// 每次判断是否需要扩容
			_CheckCapacity();

			HashFunc _hs; //哈希函数

			// 采用除留余数法
			size_t start = _hs(kv.first) % _tables.size();
			size_t i = 0;
			size_t index = start; // 这里多定义一个index是为了等会的二次探测的代码兼容性

			// 线性探测
			while (_tables[index]._status == EXIST)
			{
				i++;

				//index = start + i * i;
				index = start + i;

				index %= _tables.size(); // 记得取模哈希表的长度,防止越界出去
			}

			// 插入新元素
			_tables[index]._kv = kv;
			_tables[index]._status = EXIST;
			_n++;

			return true;
		}

        // 获取下一个素数
		size_t GetNextPrime(size_t prime)
		{
			const int PrimeCount = 28;
			static const size_t primeList[PrimeCount] =
			{
				53, 97, 193, 389, 769,1543, 3079, 6151, 12289, 24593,
				49157, 98317, 196613, 393241, 786433,1572869, 3145739, 6291469, 12582917,
				25165843,50331653, 100663319, 201326611, 402653189, 805306457,1610612741, 3221225473, 				  4294967291
			};

			size_t i = 0;
			for (i = 0; i < PrimeCount; ++i)
			{
				if (primeList[i] > prime)
					return primeList[i];
			}

			return primeList[i];
		}
        
		void _CheckCapacity()
		{
			// 当表为空或者负载因子为1的时候扩容
			if (_tables.size() == 0 || _n == _tables.size())
			{
				// 与闭散列不同,开散列这里不推荐新建一个哈希表进行插入,而是直接新建一个vector插入即可
				size_t newSize = GetNextPrime(_tables.size());
				vector<Node*> newTables(newSize);

				KeyOfT kt;
				HashFunc _hs; // 哈希函数

				for (size_t i = 0; i < _tables.size(); ++i)
				{
					Node* cur = _tables[i];

					// 重新头插到newTables
					while (cur != nullptr)
					{
						Node* next = cur->_next;

						// 头插
						size_t index = _hs(kt(cur->_data)) % newTables.size();
						cur->_next = newTables[index];
						newTables[index] = cur;

						// 继续往下循环遍历单链表
						cur = next;
					}

					// 保险起见,将旧表_tables的指针变成空指针
					_tables[i] = nullptr;
				}
				_tables.swap(newTables);
			}
		}

		HashData<K, V>* find(const K& key)
		{
			if (_tables.size() == 0)
				return nullptr;

			HashFunc _hs; //哈希函数

			// 按insert的监测方式查找
			size_t start = _hs(key) % _tables.size();
			size_t i = 0;
			size_t index = start + i;
			while (_tables[index]._status != EMPTY)
			{
				// 这里必须加_status == EXIST,因为不加的话在删除后还是能查到该值
				if (_tables[index]._kv.first == key && _tables[index]._status == EXIST)
					return &_tables[index];

				i++;
				//index = start + i * i;
				index = start + i;
				index %= _tables.size();
			}
			// 没找到则返回空
			return nullptr;
		}

		bool erase(const K& key)
		{
			HashData<K, V>* ret = find(key);
			if (ret == nullptr)
			{
				return false;
			}
			else
			{
				--_n;
				ret->_status = DELETE;
				return true;
			}
		}
	private:
		vector<HashData<K, V>> _tables;
		size_t _n = 0; // 有效数据个数
	};
}

namespace LinkHash
{
	template <class K, class V>
	struct HashNode
	{
		pair<K, V> _kv;
		HashNode<K, V>* _next;

		HashNode(const pair<K, V>& kv, HashNode<K, V>* next = nullptr)
			:_kv(kv)
			, _next(next)
		{}
	};

	template <class K, class V, class HashFunc = Hash<K>>
	class hashtable
	{
		typedef HashNode<K, V> Node;
	public:
		bool insert(const pair<K, V>& kv)
		{
			// 检测是否有重复元素
			Node* ret = find(kv.first);
			if (ret != nullptr)
				return false;

			// 检测是否需要扩容
			_CheckCapacity();

			HashFunc _hs; // 哈希函数
			size_t index = _hs(kv.first) % _tables.size();
			Node* newnode = new Node(kv);

			// 头插
			newnode->_next = _tables[index];
			_tables[index] = newnode;
			++_n;

			return true;
		}

		void _CheckCapacity()
		{
			// 当表为空或者负载因子为1的时候扩容
			if (_tables.size() == 0 || _n == _tables.size())
			{
				// 与闭散列不同,开散列这里不推荐新建一个哈希表进行插入,而是直接新建一个vector插入即可
				size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
				vector<Node*> newTables(newSize);

				HashFunc _hs; // 哈希函数

				for (size_t i = 0; i < _tables.size(); ++i)
				{
					Node* cur = _tables[i];

					// 重新头插到newTables
					while (cur != nullptr)
					{
						Node* next = cur->_next;

						// 头插
						size_t index = _hs(cur->_kv.first) % newTables.size();
						cur->_next = newTables[index];
						newTables[index] = cur;

						// 继续往下循环遍历单链表
						cur = next;
					}

					// 保险起见,将旧表_tables的指针变成空指针
					_tables[i] = nullptr;
				}
				_tables.swap(newTables);
			}
		}

		Node* find(const K& key)
		{
			if (_tables.size() == 0)
				return nullptr;

			HashFunc _hs; // 哈希函数

			size_t index = _hs(key) % _tables.size();
			Node* cur = _tables[index];
			while (cur != nullptr)
			{
				if (cur->_kv.first == key)
					return cur;
				cur = cur->_next;
			}
			return nullptr;
		}

		bool erase(const K& key)
		{
			if (_tables.size() == 0)
				return false;

			HashFunc _hs; // 哈希函数

			size_t index = _hs(key) % _tables.size();
			Node* pre = nullptr;
			Node* cur = _tables[index];
			while (cur != nullptr)
			{
				if (cur->_kv.first != key)
				{
					pre = cur;
					cur = cur->_next;
				}
				else
				{
					// 找到了开始删除
					if (pre == nullptr) // 头删
					{
						_tables[index] = cur->_next;
					}
					else // 中间删
					{
						pre->_next = cur->_next;
					}
					delete cur;
					// 记得减少有效个数
					--_n;

					return true;
				}
			}

			// 没找到直接返回false
			return false;
		}
	private:
		vector<Node*> _tables; // 指针数组
		size_t _n = 0; // 有效数据个数
	};
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/106640.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android Studio Profiler 检查内存

Android Studio Profiler 检查内存简单介绍 如何使用&#xff1f; 第一步&#xff1a;点击Profiler按钮 第二步&#xff1a;选择 第三步&#xff1a;选择Capture heap dump 并点击Record 解释相关按钮的功能 垃圾桶按钮&#xff1a;用于强制执行垃圾回收事件的按钮&#xff…

LinkedList(JDK1.8)源码+底层数据结构分析

文章目录前言一、双向链表1.1 双向链表示意图1.2 LinkedList 属性1.3 Node 节点对象二、双向链表的操作2.1 添加元素-add2.2 删除元素-remove2.3 修改元素-set2.4 查询元素-get前言 双向链表是一种数据结构&#xff0c;由若干个节点构成&#xff0c;其中每个节点均由三部分构成…

疯狂游戏笔试题-2022秋招

编程题 1.假设数组第一个元素是k, 如果k在数组内, 则k*21 和 k*31也在数组内. 在已知k的情况下, 需算出另一个数是否也在数组内? 例子: 输入1,2 输出False 输入1,4 输出True 解题思路&#xff1a;暴力&#xff08;doge&#xff09;,实在想不到其它好方法&#xff0c;有…

生成模型详解

一、生成模型的定义 给定的训练集X{x1,x2,...,xn}X \{x^1,x^2,...,x^n\}X{x1,x2,...,xn}隐变量zzz满足p(z)N(0,I)p(z) \mathcal{N} (0,I)p(z)N(0,I)定义一个条件分布pθ(x∣z)p_{\theta}(x|z)pθ​(x∣z)&#xff0c;θ\thetaθ可以理解为生成模型的参数训练好模型后&#xff…

java高校宿舍费缴纳报修管理系统ssm1561

系统选用B/S模式&#xff0c;应用jsp技术&#xff0c; MySQL为后台数据库。系统主要包括个人中心、学生管理、宿管管理、宿舍信息管理、宿舍预订管理&#xff0c;在线报修管理、费用缴纳管理、投诉建议管理、论坛交流、系统管理等功能模块。 本系统采用从上往下的步骤开发&…

爬虫学习-数据解析三种方式:正则、bs4、xpath,以及一些实例操作

若出现乱码page_text page_text.encode(iso-8859-1).decode(gbk)或者查看源码head里面的说明&#xff0c;设置成相同的即可 数据解析原理概述 解析的局部的文本内容都会在标签之间或者标签对应的属性中进行储存数据解析就是 1、进行指定标签的定位2、标签或者标签对应的属性中…

设计模式之美总结(结构型篇)

title: 设计模式之美总结&#xff08;结构型篇&#xff09; date: 2022-12-21 09:59:11 tags: 设计模式 categories:设计模式 cover: https://cover.png feature: false 文章目录1. 代理模式&#xff08;Proxy Design Pattern&#xff09;1.1 原理解析1.2 动态代理1.3 应用场景…

排查Java服务CPU使用率高达100%的原因

排查Java服务CPU使用率高达100%的原因 Java服务在服务器运行一段时间&#xff0c;有一天CPU使用率突然高达100%&#xff0c;通过jstack工具分别在CPU使用率为100%时执行了一次堆线程dump和cpu使用率降下来后执行了一次堆线程dump 目录排查Java服务CPU使用率高达100%的原因一、环…

【SQL】一文详解嵌入式SQL(建议收藏)

&#x1f482;作者简介&#xff1a; THUNDER王&#xff0c;一名热爱财税和SAP ABAP编程以及热爱分享的博主。目前于江西师范大学会计学专业大二本科在读&#xff0c;同时任汉硕云&#xff08;广东&#xff09;科技有限公司ABAP开发顾问。在学习工作中&#xff0c;我通常使用偏后…

SQLMap 扫描利用SQL注入

一、SQLMap介绍 SQLMap 是一个自动化的SQL注入工具&#xff0c;其主要功能是扫描、发现并利用给定URL的SQL注入漏洞&#xff0c;内置了很多绕过插件&#xff0c;支持的数据库是MySQL 、Oracle 、PostgreSQL 、Microsoft SQL Server、Microsoft Access 、IBM DB2, SQ Lite 、Fir…

光伏行业管理亟待变革,数商云供应链系统订单流程自动化流转助力企业降本增效

作为实现“3060”双碳目标的主力军&#xff0c;光伏产业正迎来空前的政策、市场、资本三重加持的红利期。有业内人士预测&#xff0c;到2025年全球新增光伏装机量将达到270-330GW&#xff0c;国内新增光伏装机量将达到90-110GW&#xff0c;十四五期间年均新增光伏装机量将达到7…

用React做一个音乐播放器

介绍 任何正在学习 React 并想使用 React 构建项目的人。有各种博客和文章可以为开发人员指导此类项目。我确实浏览过这些文章&#xff0c;但其中总是缺少一种项目。缺少的项目是音乐播放器和视频播放器。这两个项目都会让您有机会处理音频和视频。您将学到很多东西&#xff0…

Linux学习-97-vmware网络桥接模式配置和vmware快照操作

19.3 vmware网络桥接模式配置 桥接&#xff1a;需要保证Linux虚拟机和本机处在同一个网段&#xff01; #win平台输入ipconfig查看主机的ip地址Linux也必须要配置到对应的网段 桥接模式&#xff1a;主机ip 和虚拟机ip映射到同一块物理网卡&#xff08;光纤&#xff0c;无线…

达梦数据库-centos7安装

参考官方文档 1.环境 操作系统CPU数据库CentOS7x86_64dm8_20221121_x86_rh6_64.iso 2.安装前准备 2.1 关闭防火墙 或 开放5236端口 # 关闭防火墙 systemctl stop firewalld systemctl disable firewalld # 开放5236端口&#xff08;推荐使用&#xff09; firewall-cmd --pe…

TYPE A USB2.0电路设计

TYPE A USB2.0连接器可以分为公座和母座&#xff0c;放在供电端PCB板上的一般是母座&#xff0c; 2.0的母座有四个信号引脚。今天就来和大家分享下TYPE A USB2.0的板级电路设计&#xff0c; 首先来看到 TYPE A USB2.0四个引脚的信号定义&#xff0c;1脚是VBUS&#xff0c;需要…

Kafka系列之入门(荣耀典藏版)

目录 一、为什么要用消息中间件&#xff1f; 1、异步处理 2、应用解耦 3、流量削峰 4、日志处理 二、为什么选择Kafka&#xff1f; 消息中间件的编年史 1、Kafka的外在表现和内在设计 2、市场主流消息中间件对比 三、Kafka中的基本概念 1、消息和批次 2、主题和分区…

【笔记:模拟CMOS集成电路】两级运算放大器设计与仿真(带版图)

【笔记&#xff1a;模拟CMOS集成电路】两级运算放大器设计与仿真&#xff08;带版图&#xff09;前言1.电路分析1.1电路结构电路描述&#xff1a;1.2小信号分析1.3公式2指标设计2.1预期设计指标参数2.2参数分析(1)确定gm1、gm6(2)分配电流(3)确定M1尺寸(4)确定M6尺寸(5)共模输入…

学习.NET MAUI Blazor(二)、MAUI是个啥

随着.NET 7的发布&#xff0c;MAUI也正式发布了。那么MAUI是个啥&#xff1f;我们先来看看官方解释&#xff1a; .NET 多平台应用 UI (.NET MAUI) 是一个跨平台框架&#xff0c;用于使用 C# 和 XAML 创建本机移动和桌面应用。 目录关于MAUIMAUI的工作原理如何开发MAUI该如何选择…

5万字企业数字化运营管理平台软件开发框架项目技术方案

目录 1 项目总体概述 项目总体技术方案保障 系统设计 系统体系结构设计 系统指标保障 系统质量 系统健壮性 系统应具备安全性 系统易用性 系统可维护性 系统完备性 系统可扩展性 系统可测试性 系统可移植性 系统可追踪性 系统易安装性 2 项目技术方案 2.1 系统…

没有的博客1

我虽不善言辞 但关于爱你 我无法掩饰 关于我爱你音频&#xff1a;00:0004:55 | 01 | 愿你们是渣的那一方 背负所有骂名愉快生活 而不是在深夜痛哭 辗转反侧茶饭不思 做一个痛苦的好人 | 02 | 昨晚喜欢的男孩子发了新女友的照片 很难过 做个大人真好啊 十分钟就能让自…