HashMap的实现

news2024/9/30 7:38:37

Hash的最大容量为什么是2的30次方

问题 static final int *MAXIMUM_CAPACITY* = 1 << 30;

回到题目,为什么会是2的30次幂,而不是2的31次幂呢?

首先:JAVA规定了该static final 类型的静态变量为int类型,至于为什么不是byte、long等类型,原因是由于考虑到HashMap的性能问题而作的折中处理!

tableSizeFor 函数的作用是?

如何求出不小于它的最接近的2的整数幂m,比如给定10得出16,给定25得出32?

 static final int tableSizeFor(int cap) {
        int n = -1 >>> Integer.numberOfLeadingZeros(cap - 1); // 减一是为了防止cap 是2的幂次方的值时,
        return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;  // 加1,就是2的幂次方的值
    }
  		int i = Integer.numberOfLeadingZeros(30 - 1); // 判断有多少的前导0,进行位移运算

        for (int t=0;t<i;t++){
            System.out.print(0);
        }
        System.out.println(Integer.toBinaryString(i));
        System.out.println(Integer.toBinaryString(-1));
        int n = -1 >>>   // >>> 进行无符号的右移运算
                i;
        for (int k=0; k<Integer.numberOfLeadingZeros(n);k++){
            System.out.print(0);
        }
        System.out.println(Integer.toBinaryString(n));
        

在这里插入图片描述

结果解释:第一行:29的二进制;第二行:-1的二进制;第三行:生成结果的二进制;

hashmap的构造函数干了什么?

this.loadFactor = loadFactor;
this.threshold = tableSizeFor(initialCapacity);

核心就是:赋值加载因子(默认的加载因子是0.75),并且给定起始的 扩容阈值,保证这个 容量 始终是 二的幂次方

HashMap 的数据结构?

transient Node<K,V>[] table;
  1. 是一个 Node 类型的 数组
  2. 数组中的每个元素 都是一个链表
 Node(int hash, K key, V value, Node<K,V> next) {
            this.hash = hash;
            this.key = key;
            this.value = value;
            this.next = next;
        }
  1. 当链表的长度过长时,会转为 红黑树
static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {
        TreeNode<K,V> parent;  // red-black tree links
        TreeNode<K,V> left;
        TreeNode<K,V> right;
        TreeNode<K,V> prev;    // needed to unlink next upon deletion
        boolean red;
        TreeNode(int hash, K key, V val, Node<K,V> next) {
            super(hash, key, val, next);
        }

HashMap 的工作原理?

当两个对象的 hashCode 相同会发生什么?

  • 会造成hash冲突,在向hash表中插入数据时,会根据 hash值 与 桶的大小进行或的运算,得到插入值的位置
   if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        else {
        
        }
  • i = (n - 1) & hash 为什么要这么写
    • (n - 1) 的二进制表示必然高位为0,低位是1,与hash值进行 与 运算时,会将 hash的低 位取出,但不会超过 的大小限制,
    • 例如:n位16时,15的二进制是 0000 0000 0000 0000 0000 0000 0000 1111,那么当和hash值进行 与 运算时,结果值的前32位必然全部是0,最后四位是 hash值的最后四位,必然不会超过桶的大小
    • i的大小是由 hash值 的 低位数据 决定的

你知道 hash 的实现吗?为什么要这样实现?

static final int hash(Object key) {
        int h;
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }
  • 将hash值与hash值的高16位进行异或运算(相同为1,不同为0),达到高位混淆低位的效果,提供hash函数的质量
  • 对哈希值进行高位混淆,以减少哈希冲突。哈希冲突会发生在多个键的哈希值相同或相近的情况下,这会导致哈希表的性能下降。通过混合高位和低位的哈希值,这段代码试图打破潜在的低质量哈希函数带来的模式,使得哈希值更加分散。

为什么要用异或运算符?

  • 不会有进位,不存在超出 数据类型最大的范围
  • 异或运算不会完全替代掉低位的原始信息,而是将高位信息“叠加”到低位上,使低位保持了一部分原有的特性。相比直接覆盖或其他运算,异或更适合在保留一部分信息的同时引入新的混合信息。(来源于chatgpt)

HashMap 的 table 的容量如何确定?loadFactor 是什么?该容量如何变化?这种变化会带来什么问题?

  • loadFactor 的默认值是 0.75f,意味着当 HashMap 中的元素个数达到了容量的 75% 时,HashMap 会自动扩容,即增加其容量,以减少哈希冲突和提高查询效率。
  • table 数组大小是由 capacity(容量)参数确定的。在 Java 中,HashMap 的默认容量是 16,但也可以在创建 HashMap 实例时通过构造函数指定。这个容量值必须是 2 的幂次方,如果指定的容量不是 2 的幂次方,HashMap 会自动将其调整为不小于指定容量的最小 2 的幂次方。HashMap 的容量有一个上限,即必须小于 1<<30(即 2 的 30 次方,等于 1073741824)。
  • HashMap 的容量变化主要发生在自动扩容时。当 HashMap 中的元素个数超过了阈值(threshold),即 capacity * loadFactor 的结果时,HashMap 会自动扩容。扩容时,HashMap 会创建一个新的数组,其长度是原数组长度的两倍,然后将原数组中的所有元素重新计算哈希值并插入到新数组中。这个过程中,元素的顺序可能会发生变化,因为重新计算哈希值后,元素可能会被分配到新数组的不同位置。

HashMap中put方法的过程?

  • 计算hash值

  • 将 元素插入到数组中

    1. 计算数组的位置:(n - 1) & hash

    2. 如果是该位置为 null,直接赋值

      1. 如果不为 null
      2. 首先判断 该位置的 第一个元素 key 是否相等,如果相等,赋值给e
      if (p.hash == hash &&
                          ((k = p.key) == key || (key != null && key.equals(k))))
                      e = p;
      

    链表

    1. 不断的寻找 该位置的链表中是否存在 与 带插入元素的key相等的对象
    for (int binCount = 0; ; ++binCount) {
                        if ((e = p.next) == null) {
                            p.next = newNode(hash, key, value, null);
                            if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                                treeifyBin(tab, hash);
                            break;
                        }
                        if (e.hash == hash &&
                                ((k = e.key) == key || (key != null && key.equals(k))))
                            break;
                        p = e;
                    }
    
    • 如果链表中不存在,与 key相等的元素,创建一个新的Node对象,插入到链表的末尾
      if ((e = p.next) == null) {
                            p.next = newNode(hash, key, value, null);
                            if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                                treeifyBin(tab, hash);
                            break;
                        }
    
    • 判断链表的长度是否达到了 *TREEIFY_THRESHOLD* (8),将链表转为红黑树

       if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                                  treeifyBin(tab, hash);
      

红黑树

  1. 当列表中该 key 已存在时,修改value的值

    if (e != null) { // existing mapping for key
                    V oldValue = e.value;
    //
                    if (!onlyIfAbsent || oldValue == null)
                        e.value = value;
                    afterNodeAccess(e);
                    return oldValue;
                }
    

    注意:当 onlyIfAbsent 为true时,不修改原有的值(putIfAbsent方法是通过这个函数实现的)

  2. 扩容:判断 数组中的元素大小是否达到了扩容阈值 (默认是数组长度的 0.75)

    • 进行扩容

数组扩容的过程?

扩容时机:当数组中存在元素size,超过 扩容阈值(threshold)时,进行扩容,扩容阈值 = 数组总长度 * 加载因子

扩容函数:

final Node<K, V>[] resize() {
        Node<K, V>[] oldTab = table;
        int oldCap = (oldTab == null) ? 0 : oldTab.length; // 旧数组的长度
        int oldThr = threshold; // 扩容阈值
        int newCap, newThr = 0;
        if (oldCap > 0) {
            if (oldCap >= MAXIMUM_CAPACITY) {
//                达到了最大容量
                threshold = Integer.MAX_VALUE;
                return oldTab;
                // 扩容到两倍
            } else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                    oldCap >= DEFAULT_INITIAL_CAPACITY)
                newThr = oldThr << 1; // double threshold
        } else if (oldThr > 0) // initial capacity was placed in threshold
            newCap = oldThr; // 当新建一个 数组且使用的构造函数是 int,float类型的构造函数  时会走到这个条件
        else {               // zero initial threshold signifies using defaults
            newCap = DEFAULT_INITIAL_CAPACITY;
            newThr = (int) (DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
        }
        if (newThr == 0) {
            float ft = (float) newCap * loadFactor; // 新数组的扩容阈值
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float) MAXIMUM_CAPACITY ?
                    (int) ft : Integer.MAX_VALUE);
        }
        threshold = newThr;

//      以上的代码内容是得到  扩容后数组的容量与扩容阈值
        @SuppressWarnings({"rawtypes", "unchecked"})
        Node<K, V>[] newTab = (Node<K, V>[]) new Node[newCap];
        table = newTab;
//      移动旧的元素到新数组中
        if (oldTab != null) {
            for (int j = 0; j < oldCap; ++j) {
                Node<K, V> e;
                if ((e = oldTab[j]) != null) {
                    oldTab[j] = null;
                    if (e.next == null)
                        newTab[e.hash & (newCap - 1)] = e; // 重新进行hash分配
                    else if (e instanceof TreeNode)
                        ((TreeNode<K, V>) e).split(this, newTab, j, oldCap);
                    else { // preserve order
//                      分配链表类型
                        Node<K, V> loHead = null, loTail = null;
                        Node<K, V> hiHead = null, hiTail = null;
                        Node<K, V> next;
                        do {
                            next = e.next;
//                            todo 为什么要使用 e.hash & oldCap 进行判断
                            /**
                             * 扩容前后桶的位置判断:扩容后,容量翻倍(newCap = oldCap * 2),这意味着哈希值中引入了一个新的位来决定元素是否需要移动到新的桶。
                             * 如果元素的哈希值高位参与计算的部分是 0,那么元素在扩容后仍然在原来的桶中。
                             * 如果参与计算的高位是 1,则元素需要移动到新桶中。
                             */
                            if ((e.hash & oldCap) == 0) {
                                if (loTail == null)
                                    loHead = e;
                                else
                                    loTail.next = e;
                                loTail = e;
                            } else {
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            }
                        } while ((e = next) != null);
                        if (loTail != null) {
                            loTail.next = null;
                            newTab[j] = loHead;
                        }
                        /**
                         * 例如:原来大小是16,那么一个元素的位置是 1101,当扩容到32位时,新的位置时11101,相当于+16位
                         * 新的位置是 11101  32   10000
                         */
                        if (hiTail != null) {
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        }
                    }
                }
            }
        }
        return newTab;
    }
  1. 确定扩容后的 数组的大小与扩容阈值(容量 * 加载因子)是多少
    1. 当新建一个数组时,如果未指定初始容量,默认值是 16
  2. 对原数组中的数据进行重新分配
    1. 如果只有一个元素,那么直接执行 e.hash & (newCap - 1)newCap - 1 得到的是二进制全部都是1,例如16-1的二进制就是 0000 0000 0000 0000 0000 0000 0000 1111
    2. 如果是单链表/红黑树
      1. 对hash值中 新引入的高位数据(扩容的过程其实是不断 从右向左 取 hash值 低位数据的过程) 进行判断,如果是0(说明没有影响),保持在原来的位置,如果是1,进行重新分配
      2. 例如:hash值的最后四位是 1101 ,当扩容时取的是 hash值 的最后五位;如果是0,当 执行 e.hash & (newCap - 1) 时结果不变,反之结果有影响,重新分配 key的位置

单链表是如何转为红黑树的

参考如下这篇文章

HashMap源码分析之treeifyBin、treeify方法、moveRootToFront方法-CSDN博客

总结:

转化时机:table数组的长度大于转化阈值(64)

转化过程:

  • 将单链表=》双向链表=》转为红黑树

拉链法导致的链表过深问题为什么不用二叉查找树代替,而选择红黑树?为什么不一开始就使用红黑树?

为什么选择红黑树而非二叉查找树?

  1. 保持平衡性
    • 二叉查找树(BST):在极端情况下,二叉查找树可能会退化为链表(例如,所有节点都只有左子节点或右子节点),这会导致查找效率降低到O(n)。
    • 红黑树:红黑树是一种自平衡的二叉查找树,它通过旋转和重新着色等操作来确保树的高度大致保持在对数级别,从而保证了查找、插入和删除操作的时间复杂度维持在O(log n)。
  2. 性能稳定性
    • 红黑树通过其严格的平衡条件(如每个节点非红即黑、根节点总是黑色、红色节点的子节点必须是黑色等)确保了树的平衡性,从而保证了在各种操作下性能的稳定性。

为什么不一开始就使用红黑树?

  1. 资源消耗
    • 红黑树在插入和删除节点时需要进行额外的旋转和重新着色操作来维持平衡,这些操作需要消耗额外的计算资源。
    • 当链表较短时,遍历链表的效率可能高于使用红黑树,因为红黑树的平衡操作所消耗的资源可能超过遍历链表所需的时间。
  2. 阈值设定
    • 在Java的HashMap实现中,当链表长度超过某个阈值(默认为8)且哈希表的容量大于某个最小值(默认为64)时,才会将链表转换为红黑树。这是为了平衡查找效率和资源消耗之间的关系。

说说你对红黑树的见解?

  • 插入操作:在插入新节点后,可能会破坏红黑树的性质,此时需要通过一系列的旋转和重新着色操作来恢复树的平衡。常见的旋转操作有左旋转和右旋转。

  • 删除操作:在删除节点后,同样可能会破坏红黑树的性质,也需要通过旋转和重新着色来恢复平衡。删除操作通常比插入操作更复杂,因为它可能涉及到多种情况,如删除的是叶子节点、只有一个子节点的节点或有两个子节点的节点。

  • 高效的查找、插入和删除操作:由于红黑树的高度大致保持在对数级别,因此这些操作的时间复杂度都是O(log n)。

  • 自动平衡:红黑树通过旋转和重新着色操作自动维持平衡,无需用户进行额外的操作。

红黑树在多个领域都有广泛的应用,如:

  • 数据库和文件系统的索引:红黑树可以高效地支持范围查询和顺序访问。

  • 关联数组:如Java中的TreeMapTreeSet,它们内部使用红黑树来维护元素的有序性。

  • Java的HashMap:在Java 8及以后的版本中,当哈希表中的某个桶中的链表长度过长时,会将其转换为红黑树以提高查找效率。

  • 复杂度高:红黑树的实现相对复杂,需要处理多种旋转和重新着色的情况。

  • 空间开销:每个节点需要额外的存储空间来存储颜色信息。

如果保存的是一个对象,那么如果没有重写 equals与hashcode方法会有什么影响?

如果没有重写,equals 方法,

当插入时:会导致当新对象插入进来之后,会使用 == 判断两个对象是否相等,得到的结果永远都是 false,会插入一个新的元素

当删除时,public V remove(Object key) 无法找到这个对象,进行删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2179070.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

神经网络在多分类问题中的应用

作者简介:热爱数据分析,学习Python、Stata、SPSS等统计语言的小高同学~个人主页:小高要坚强的博客当前专栏:Python之机器学习本文内容:神经网络在多分类问题中的应用作者“三要”格言:要坚强、要努力、要学习 目录 1. 引言 2.数据构造 3.划分数据集 4.神经网络实现多…

Stable Diffusion绘画 | 来训练属于自己的模型:素材处理与打标篇

纵观整个模型训练流程&#xff0c;图片素材准备和打标环节占据的分量比重&#xff0c;绝对超过60%。 上一篇分享了图片素材准备&#xff0c;这一篇&#xff0c;开始对准备好的图片素材进行处理了。 素材处理 我已经收集了 霉霉 的25张图片&#xff1a; 但是&#xff0c;发现…

4G模组SIM卡电路很简单,但也要注意这些坑

上次水SIM卡相关的文章&#xff0c;还是上一次&#xff1b; 上一篇文章里吹牛说&#xff0c;跟SIM卡相关的问题还有很多&#xff0c;目的是为下一篇文章埋下伏笔&#xff1b;伏笔埋是埋下了&#xff0c;但如果债老是不还&#xff0c;心里的石头就总悬着&#xff0c;搞不好老板…

黑名单系统源码全解无后门 +搭建教程

黑名单系统源码可以做骗子收录查询 搭建教程 1.我们先添加一个站点 2.PHP选择7.3 3.上传源码解压 4.导入数据库 5.配置数据库信息config.php https://download.csdn.net/download/huayula/89817619

2-3树(2-3 Tree):原理、常见算法及其应用

目录 引言 2-3树的基本概念 常见算法 查找节点 插入节点 删除节点 2-3树的应用场景 1. 文件系统目录管理 应用原理 场景描述 2. 字典编码 应用原理 场景描述 总结 优势对比 自平衡特性 灵活的节点结构 高效的操作性能 简单的实现 广泛的应用场景 数据一致…

【django】django项目使用https访问+ssl证书

目录 一、安装 django-sslserver 二、配置settings 三、启动项目测试 四、使用ssl证书 4.1 安装cryptography 4.2 生成证书代码 4.3 将生成的证书放到django项目根目录下 五、使用证书启动项目 5.1 本地测试启动 5.2 生产启动 六、生成docker镜像的dockerfile 七、…

《程序猿之Redis缓存实战 · Redis 与数据库一致性》

&#x1f4e2; 大家好&#xff0c;我是 【战神刘玉栋】&#xff0c;有10多年的研发经验&#xff0c;致力于前后端技术栈的知识沉淀和传播。 &#x1f497; &#x1f33b; CSDN入驻不久&#xff0c;希望大家多多支持&#xff0c;后续会继续提升文章质量&#xff0c;绝不滥竽充数…

多模态人像编辑:PortraitGen将2D肖像视频提升到4D 高斯场

这篇文章《Portrait Video Editing Empowered by Multimodal Generative Priors》&#xff0c;作者是来自中国科学技术大学。文章介绍了一种名为PortraitGen的肖像视频编辑方法&#xff0c;它使用多模态生成先验来实现一致性和富有表现力的风格化编辑。 文章地址&#xff1a;P…

electron教程(三)窗口设置

在main.js文件中&#xff0c;创建窗口时会设置窗口的大小&#xff0c;其实还有很多其他属性&#xff0c;可以根据实际需求选择设置&#xff0c;但部分属性存在局限性&#xff0c;官网也有明确告知&#xff1a;自定义窗口 | Electron (electronjs.org) 项目文件目录如下&#x…

6.1 微服务 服务发现 架构模式分类 应用实践

微服务 服务发现 架构模式分类 应用实践 目录概述需求&#xff1a; 设计思路实现思路分析1.类型-客户端发现2.类型-服务端服务发现3.工具-Eureka4.工具-Consul5.工具-zookper服务发现的挑战服务发现的最佳实践 参考资料和推荐阅读 Survive by day and develop by night. talk …

【三步 完全离线搭建 openwebui 】

完全离线linux 版open webui 的搭建 1.在具有网络连接的环境中下载whl 在有网络的环境&#xff0c;使用pip download可以保存所有的依赖包,可以使用-i 指定清华的镜像源加速下载速度。 # 命令&#xff1a; pip download <package_name> --only-binary:all: --wheel --…

CANoe_DBC能够打开但是无法使用“BusType”

解决DBC文件在CAPL中调用问题&#xff1a;从CANdb到CAPL的顺畅过渡 在汽车电子和嵌入式系统开发中&#xff0c;DBC&#xff08;Database CAN&#xff09;文件作为描述CAN&#xff08;Controller Area Network&#xff09;通信协议的重要工具&#xff0c;广泛应用于网络设计、测…

前端考核总结

目录 JavaScript的基本数据类型有哪些&#xff1f;JavaScript中数据类型的检测方法JavaScript如何判断对象中的属性存在自身还是原型链上flex布局HTML5新标签Vue的基本概念Vue生命周期JavaScript中闭包的基本概念防抖节流双等号与三等号的区别显式转换 JavaScript的基本数据类型…

Flume实战--Flume中的选择器、自动容灾(故障转移)、负载均衡的详解与操作

本文详细介绍了Apache Flume的关键特性&#xff0c;包括选择器、拦截器、故障转移和负载均衡。选择器负责将数据分发到多个Channel&#xff0c;拦截器用于修改或丢弃Event。故障转移机制能够在Sink故障时自动切换&#xff0c;而负载均衡则在多个Sink间分配负载。文章还提供了自…

【零基础入门产品经理】学习准备篇 | 需要学一些什么呢?

前言&#xff1a; 零实习转行产品经理经验分享01-学习准备篇_哔哩哔哩_bilibili 该篇内容主要是对bilibili这个视频的观后笔记~谢谢美丽滴up主友情分享。 全文摘要&#xff1a;如何在0实习且没有任何产品相关经验下&#xff0c;如何上岸产品经理~ 目录 一、想清楚为什么…

Redis 基础数据改造

优质博文&#xff1a;IT-BLOG-CN 一、服务背景 基础数据查询服务&#xff1a;提供航司、机场、票台、城市等基础数据信息。 痛点一&#xff1a;因为基础数据不属于频繁更新的数据&#xff0c;所以每个应用都有自己和缓存&#xff0c;当基础数据更新后&#xff0c;各个应用缓存…

webGL入门(五)绘制多边形

代码&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title><scri…

ARM 服务器上安装 OpenEuler (欧拉)

系统介绍 在 2019 年 7 月 19 日&#xff0c;华为宣布要在年底正式开源 openEuler 操作系统&#xff1b;在半年后的 12 月 31 日&#xff0c;华为正式开源了 openEuler 操作系统&#xff0c;邀请社区开发者共同来贡献。 一年后&#xff0c;截止到 2020 年12 月 25日&#xff…

计算机毕业设计 Java教务管理系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍&#xff1a;✌从事软件开发10年之余&#xff0c;专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精…

[Cocoa]_[初级]_[使用NSNotificationCenter作为目标观察者实现时需要注意的事项]

场景 在开发Cocoa程序时&#xff0c;由于界面是用Objective-C写的。无法使用C的目标观察者[1]类。如果是使用第二种方案2[2],那么也需要增加一个代理类。那么有没有更省事的办法&#xff1f; 说明 开发界面的时候&#xff0c;经常是需要在子界面里传递数据给主界面&#xff0…