HashMap的实现

Hash的最大容量为什么是2的30次方

问题 static final int *MAXIMUM_CAPACITY* = 1 << 30;

回到题目，为什么会是2的30次幂，而不是2的31次幂呢？

首先：JAVA规定了该static final 类型的静态变量为int类型，至于为什么不是byte、long等类型，原因是由于考虑到HashMap的性能问题而作的折中处理！

`tableSizeFor` 函数的作用是？

如何求出不小于它的最接近的2的整数幂m，比如给定10得出16，给定25得出32？

 static final int tableSizeFor(int cap) {
        int n = -1 >>> Integer.numberOfLeadingZeros(cap - 1); // 减一是为了防止cap 是2的幂次方的值时，
        return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;  // 加1，就是2的幂次方的值
    }

  		int i = Integer.numberOfLeadingZeros(30 - 1); // 判断有多少的前导0，进行位移运算

        for (int t=0;t<i;t++){
            System.out.print(0);
        }
        System.out.println(Integer.toBinaryString(i));
        System.out.println(Integer.toBinaryString(-1));
        int n = -1 >>>   // >>> 进行无符号的右移运算
                i;
        for (int k=0; k<Integer.numberOfLeadingZeros(n);k++){
            System.out.print(0);
        }
        System.out.println(Integer.toBinaryString(n));

在这里插入图片描述

结果解释：第一行：29的二进制；第二行：-1的二进制；第三行：生成结果的二进制；

hashmap的构造函数干了什么？

this.loadFactor = loadFactor;
this.threshold = tableSizeFor(initialCapacity);

核心就是：赋值加载因子（默认的加载因子是0.75），并且给定起始的 扩容阈值，保证这个容量始终是二的幂次方

HashMap 的数据结构？

transient Node<K,V>[] table;

是一个 Node 类型的数组
数组中的每个元素都是一个链表

 Node(int hash, K key, V value, Node<K,V> next) {
            this.hash = hash;
            this.key = key;
            this.value = value;
            this.next = next;
        }

当链表的长度过长时，会转为 红黑树

static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {
        TreeNode<K,V> parent;  // red-black tree links
        TreeNode<K,V> left;
        TreeNode<K,V> right;
        TreeNode<K,V> prev;    // needed to unlink next upon deletion
        boolean red;
        TreeNode(int hash, K key, V val, Node<K,V> next) {
            super(hash, key, val, next);
        }

HashMap 的工作原理？

当两个对象的 hashCode 相同会发生什么？

会造成hash冲突，在向hash表中插入数据时，会根据 hash值与桶的大小进行或的运算，得到插入值的位置

   if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        else {
        
        }

i = (n - 1) & hash 为什么要这么写
- (n - 1) 的二进制表示必然高位为0，低位是1，与hash值进行与运算时，会将 hash的低位取出，但不会超过桶的大小限制，
- 例如：n位16时，15的二进制是 0000 0000 0000 0000 0000 0000 0000 1111，那么当和hash值进行与运算时，结果值的前32位必然全部是0，最后四位是 hash值的最后四位，必然不会超过桶的大小。
- i的大小是由 hash值的 低位数据 决定的

你知道 hash 的实现吗？为什么要这样实现？

static final int hash(Object key) {
        int h;
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }

将hash值与hash值的高16位进行异或运算（相同为1，不同为0），达到高位混淆低位的效果，提供hash函数的质量
对哈希值进行高位混淆，以减少哈希冲突。哈希冲突会发生在多个键的哈希值相同或相近的情况下，这会导致哈希表的性能下降。通过混合高位和低位的哈希值，这段代码试图打破潜在的低质量哈希函数带来的模式，使得哈希值更加分散。

为什么要用异或运算符？

不会有进位，不存在超出数据类型最大的范围
异或运算不会完全替代掉低位的原始信息，而是将高位信息“叠加”到低位上，使低位保持了一部分原有的特性。相比直接覆盖或其他运算，异或更适合在保留一部分信息的同时引入新的混合信息。（来源于chatgpt）

HashMap 的 table 的容量如何确定？loadFactor 是什么？该容量如何变化？这种变化会带来什么问题？

loadFactor 的默认值是 0.75f，意味着当 HashMap 中的元素个数达到了容量的 75% 时，HashMap 会自动扩容，即增加其容量，以减少哈希冲突和提高查询效率。
table 数组大小是由 capacity（容量）参数确定的。在 Java 中，HashMap 的默认容量是 16，但也可以在创建 HashMap 实例时通过构造函数指定。这个容量值必须是 2 的幂次方，如果指定的容量不是 2 的幂次方，HashMap 会自动将其调整为不小于指定容量的最小 2 的幂次方。HashMap 的容量有一个上限，即必须小于 1<<30（即 2 的 30 次方，等于 1073741824）。
HashMap 的容量变化主要发生在自动扩容时。当 HashMap 中的元素个数超过了阈值（threshold），即 capacity * loadFactor 的结果时，HashMap 会自动扩容。扩容时，HashMap 会创建一个新的数组，其长度是原数组长度的两倍，然后将原数组中的所有元素重新计算哈希值并插入到新数组中。这个过程中，元素的顺序可能会发生变化，因为重新计算哈希值后，元素可能会被分配到新数组的不同位置。

HashMap中put方法的过程？

计算hash值

将元素插入到数组中

计算数组的位置：(n - 1) & hash
如果是该位置为 null，直接赋值
1. 如果不为 null
2. 首先判断该位置的第一个元素 key 是否相等，如果相等，赋值给e
```
if (p.hash == hash &&
                    ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
```

链表

不断的寻找该位置的链表中是否存在与带插入元素的key相等的对象

for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }
                    if (e.hash == hash &&
                            ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }

如果链表中不存在，与 key相等的元素，创建一个新的Node对象，插入到链表的末尾

  if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }

判断链表的长度是否达到了 *TREEIFY_THRESHOLD* （8），将链表转为红黑树

 if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);

红黑树

当列表中该 key 已存在时，修改value的值

if (e != null) { // existing mapping for key
                V oldValue = e.value;
//
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }

注意：当 onlyIfAbsent 为true时，不修改原有的值（putIfAbsent方法是通过这个函数实现的）

扩容：判断数组中的元素大小是否达到了扩容阈值（默认是数组长度的 0.75）
- 进行扩容

数组扩容的过程？

扩容时机：当数组中存在元素size，超过扩容阈值（threshold）时，进行扩容，扩容阈值 = 数组总长度 * 加载因子

扩容函数：

final Node<K, V>[] resize() {
        Node<K, V>[] oldTab = table;
        int oldCap = (oldTab == null) ? 0 : oldTab.length; // 旧数组的长度
        int oldThr = threshold; // 扩容阈值
        int newCap, newThr = 0;
        if (oldCap > 0) {
            if (oldCap >= MAXIMUM_CAPACITY) {
//                达到了最大容量
                threshold = Integer.MAX_VALUE;
                return oldTab;
                // 扩容到两倍
            } else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                    oldCap >= DEFAULT_INITIAL_CAPACITY)
                newThr = oldThr << 1; // double threshold
        } else if (oldThr > 0) // initial capacity was placed in threshold
            newCap = oldThr; // 当新建一个 数组且使用的构造函数是 int,float类型的构造函数  时会走到这个条件
        else {               // zero initial threshold signifies using defaults
            newCap = DEFAULT_INITIAL_CAPACITY;
            newThr = (int) (DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
        }
        if (newThr == 0) {
            float ft = (float) newCap * loadFactor; // 新数组的扩容阈值
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float) MAXIMUM_CAPACITY ?
                    (int) ft : Integer.MAX_VALUE);
        }
        threshold = newThr;

//      以上的代码内容是得到  扩容后数组的容量与扩容阈值
        @SuppressWarnings({"rawtypes", "unchecked"})
        Node<K, V>[] newTab = (Node<K, V>[]) new Node[newCap];
        table = newTab;
//      移动旧的元素到新数组中
        if (oldTab != null) {
            for (int j = 0; j < oldCap; ++j) {
                Node<K, V> e;
                if ((e = oldTab[j]) != null) {
                    oldTab[j] = null;
                    if (e.next == null)
                        newTab[e.hash & (newCap - 1)] = e; // 重新进行hash分配
                    else if (e instanceof TreeNode)
                        ((TreeNode<K, V>) e).split(this, newTab, j, oldCap);
                    else { // preserve order
//                      分配链表类型
                        Node<K, V> loHead = null, loTail = null;
                        Node<K, V> hiHead = null, hiTail = null;
                        Node<K, V> next;
                        do {
                            next = e.next;
//                            todo 为什么要使用 e.hash & oldCap 进行判断
                            /**
                             * 扩容前后桶的位置判断：扩容后，容量翻倍（newCap = oldCap * 2），这意味着哈希值中引入了一个新的位来决定元素是否需要移动到新的桶。
                             * 如果元素的哈希值高位参与计算的部分是 0，那么元素在扩容后仍然在原来的桶中。
                             * 如果参与计算的高位是 1，则元素需要移动到新桶中。
                             */
                            if ((e.hash & oldCap) == 0) {
                                if (loTail == null)
                                    loHead = e;
                                else
                                    loTail.next = e;
                                loTail = e;
                            } else {
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            }
                        } while ((e = next) != null);
                        if (loTail != null) {
                            loTail.next = null;
                            newTab[j] = loHead;
                        }
                        /**
                         * 例如：原来大小是16，那么一个元素的位置是 1101，当扩容到32位时，新的位置时11101，相当于+16位
                         * 新的位置是 11101  32   10000
                         */
                        if (hiTail != null) {
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        }
                    }
                }
            }
        }
        return newTab;
    }

确定扩容后的数组的大小与扩容阈值（容量 * 加载因子）是多少
1. 当新建一个数组时，如果未指定初始容量，默认值是 16
对原数组中的数据进行重新分配
1. 如果只有一个元素，那么直接执行 e.hash & (newCap - 1) （newCap - 1 得到的是二进制全部都是1，例如16-1的二进制就是 0000 0000 0000 0000 0000 0000 0000 1111）
2. 如果是单链表/红黑树
  1. 对hash值中新引入的高位数据（扩容的过程其实是不断从右向左取 hash值低位数据的过程）进行判断，如果是0（说明没有影响），保持在原来的位置，如果是1，进行重新分配
  2. 例如：hash值的最后四位是 1101 ，当扩容时取的是 hash值的最后五位；如果是0，当执行 e.hash & (newCap - 1) 时结果不变，反之结果有影响，重新分配 key的位置

单链表是如何转为红黑树的

参考如下这篇文章

HashMap源码分析之treeifyBin、treeify方法、moveRootToFront方法-CSDN博客

总结：

转化时机：table数组的长度大于转化阈值（64）

转化过程：

将单链表=》双向链表=》转为红黑树

拉链法导致的链表过深问题为什么不用二叉查找树代替，而选择红黑树？为什么不一开始就使用红黑树？

为什么选择红黑树而非二叉查找树？

保持平衡性：
- 二叉查找树（BST）：在极端情况下，二叉查找树可能会退化为链表（例如，所有节点都只有左子节点或右子节点），这会导致查找效率降低到O(n)。
- 红黑树：红黑树是一种自平衡的二叉查找树，它通过旋转和重新着色等操作来确保树的高度大致保持在对数级别，从而保证了查找、插入和删除操作的时间复杂度维持在O(log n)。
性能稳定性：
- 红黑树通过其严格的平衡条件（如每个节点非红即黑、根节点总是黑色、红色节点的子节点必须是黑色等）确保了树的平衡性，从而保证了在各种操作下性能的稳定性。

为什么不一开始就使用红黑树？

资源消耗：
- 红黑树在插入和删除节点时需要进行额外的旋转和重新着色操作来维持平衡，这些操作需要消耗额外的计算资源。
- 当链表较短时，遍历链表的效率可能高于使用红黑树，因为红黑树的平衡操作所消耗的资源可能超过遍历链表所需的时间。
阈值设定：
- 在Java的HashMap实现中，当链表长度超过某个阈值（默认为8）且哈希表的容量大于某个最小值（默认为64）时，才会将链表转换为红黑树。这是为了平衡查找效率和资源消耗之间的关系。

说说你对红黑树的见解？

插入操作：在插入新节点后，可能会破坏红黑树的性质，此时需要通过一系列的旋转和重新着色操作来恢复树的平衡。常见的旋转操作有左旋转和右旋转。
删除操作：在删除节点后，同样可能会破坏红黑树的性质，也需要通过旋转和重新着色来恢复平衡。删除操作通常比插入操作更复杂，因为它可能涉及到多种情况，如删除的是叶子节点、只有一个子节点的节点或有两个子节点的节点。
高效的查找、插入和删除操作：由于红黑树的高度大致保持在对数级别，因此这些操作的时间复杂度都是O(log n)。
自动平衡：红黑树通过旋转和重新着色操作自动维持平衡，无需用户进行额外的操作。

红黑树在多个领域都有广泛的应用，如：