HashMap和HashSet

news2024/9/22 23:38:57


目录

1、认识 HashMap 和 HashSet

2、哈希表

2.1 什么是哈希表

2.2 哈希冲突

2.2.1 概念

2.2.2 设计合理哈希函数 - 避免冲突

2.2.3 调节负载因子 - 避免冲突

2.2.4 Java中解决哈希冲突 - 开散列/哈希桶

3、HashMap 的部分源码解读

3.1 HashMap 的构造方法

3.2 HashMap 是如何插入元素的?

3.3 哈希表下的链表,何时会树化?

4、相关面试题

4.1 链表转换成红黑树如何比较?

4.2 hashCode 和 equals 的区别

4.3 以下代码分配的内存是多少?

5、性能分析


1、认识 HashMap 和 HashSet


在上期中,学习到 TreeMap 和 TreeSet,因为他们实现了 SortedMap 和 SortedSet 接口(本质是 实现了 NavigableMap 和 NavigableSet),表示你创建的 TreeMap 或 TreeSet,必须是可排序的,也就是里面的元素是可比较的。

HashSet 的底层也是 HashMap,跟上期 TreeSet 大同小异,感兴趣可以去看看源码。

本期的 HashMap 和 HashSet 并没有继承上述所说的俩个接口,也即表示 HashMap 和 HashSet 中的 key 可以不重写 compareTo 方法,由此也能得出,HashMap 与 HashSet 不关于 key 有序!

因为 Set 的底层就是 Map,那么这里我们就来验证下 TreeSet 关于 key 有序,而 HashSet 不关于 key 有序。

public class Test {
    public static void main(String[] args) {
        Set<String> treeSet = new TreeSet<>();
        Set<String> hashSet = new HashSet<>();;
        treeSet.add("0012");
        treeSet.add("0083");
        treeSet.add("0032");
        treeSet.add("0057");
        System.out.print("TreeSet: ");
        for (String s : treeSet) {
            System.out.print(s + " ");
        }
        hashSet.add("0012");
        hashSet.add("0083");
        hashSet.add("0032");
        hashSet.add("0057");
        System.out.print("\nHashSet: ");
        for (String s : hashSet) {
            System.out.print(s + " ");
        }
    }
}

打印结果:

为什么 HashMap 和 HashSet 不关于 key 有序呢?随着往文章后续学习,你就会明白。


2、哈希表

2.1 什么是哈希表

之前的学习中,如果我们要查找一个元素,肯定是要经过比较的,那有没有一种办法,可以不用经过比较,直接就能拿到呢?

如果我们能构造一种存储结构,通过一种函数 (hashFunc) 使元素的存储位置与函数得出的关键码之间能够建立一一映射的关系,那么在查找某个元素的时候,就能通过这个函数来很快的找到该元素所在的位置。

这种函数就叫做哈希(散列)函数,上述所说构造出来的结构,叫做哈希表或者称为散列表。

插入元素的时候:根据元素的关键码,Person中关键码可能是 age,这个具体情况具体分析,上述例子只是在插入整型的时候,通过关键码通过哈希函数得到的 index 就是要插入的位置。

搜索元素的时候:对元素的关键码,通过哈希函数得出的 index 位置,与该位置的关键码比较,若俩个关键码相同,则搜索成功。

采取上面的方法,确实能避免多次关键码的比较,搜索的效率也提高的,但是问题来了,拿上述图的情况来举例子的话,我接着还要插入一个元素 15,该怎么办呢?

2.2 哈希冲突

2.2.1 概念

接着上面的例子来说,如果要插入 15,使用哈希函数出来的 index = 5,但是此时的 5,下标的位置已经有元素存在了,这种情况我们就称为哈希冲突!

简单来说,不同的关键字通过相同的哈希函数计算出相同的哈希地址(前面我们称为 index),这种现象就被称为哈希冲突哈希碰撞! 

2.2.2 设计合理哈希函数 - 避免冲突

如果哈希函数设计的不够合理,是可能会引起哈希冲突的。

哈希函数的定义域,必须包括所需存储的全部关键码,哈希函数计算出来的地址,应能均匀的分布在整个空间中,哈希函数不能设计太过于复杂。(工作中一般用不着我们亲自设计)

常见的哈希函数:

直接定制法:取关键字的某个线性函数作为哈希地址:hash = A * key + B, 这样比较简单,但是需要事先知道关键字的分布情况,适合于查找比较小且连续的情况。

除留余数法:设哈希表中允许的地址数为 m,取一个不大于 m 的数,但接近或等于 m 的质数 p 作为除数,即哈希函数:hash = key % p,(p <= m)。

还有其他的方法感兴趣可以查阅下相关资料,这两个只是比较常见的方法了,当然,就算哈希函数设计的再优秀,只是产生哈希的冲突概率没那么高,但是仍然避免不了哈希冲突的问题,于是又有了一个降低冲突概率的办法,调节负载因子。

2.2.3 调节负载因子 - 避免冲突

负载因子 α = 哈希表中元素个数 / 哈希表的长度

哈希表的长度没有扩容是定长的,即 α 与 元素的个数是成正比的,当 α 越大,即代码哈希表中的元素个数越多,元素越多,发生哈希冲突的概率就增加了,因此 α 越小,哈希冲突的概率也就越小。所以我们应该严格控制负载因子的大小,在 Java 中,限制了负载因子最大为 0.75,当超过了这个值,就要进行扩容哈希表,重新哈希(重新将各个元素放在新的位置上)。

所以负载因子越大,冲突率越高,我们就需要降低负载因子来变相的降低冲突率,哈希表中元素个数不能改变,所以只能给哈希表扩容了。

2.2.4 Java中解决哈希冲突 - 开散列/哈希桶

上面讲述的都是避免冲突的方法,其实还往往不够,不管怎么避免,还是会有冲突的可能性,那么通常我们解决哈希冲突有两种办法,分别是 闭散列开散列 那么今天我们主要介绍 Java 中的开散列是如何解决的,感兴趣可以下来自己了解下闭散列。

开散列又叫链地址法,或开链法,其实简单来说就是一个数组加链表的结构。如图:

如上图我们可得出,通过哈希函数得出的地址相同的关键码放在一起,这样的每个子集合称为桶,接着桶中的元素用链表的结构组织起来,,每个链表的头节点存放在哈希表中。


3、HashMap 的部分源码解读

3.1 HashMap 的构造方法

public HashMap() {
    this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
}

public HashMap(Map<? extends K, ? extends V> m) {
    this.loadFactor = DEFAULT_LOAD_FACTOR;
    putMapEntries(m, false);
}

public HashMap(int initialCapacity) {
    this(initialCapacity, DEFAULT_LOAD_FACTOR);
}

public HashMap(int initialCapacity, float loadFactor) {
    if (initialCapacity < 0)
        throw new IllegalArgumentException("Illegal initial capacity: " +
                initialCapacity);
    if (initialCapacity > MAXIMUM_CAPACITY)
        initialCapacity = MAXIMUM_CAPACITY;
    if (loadFactor <= 0 || Float.isNaN(loadFactor))
        throw new IllegalArgumentException("Illegal load factor: " +
                loadFactor);
    this.loadFactor = loadFactor;
    this.threshold = tableSizeFor(initialCapacity);
}

这几个构造方法相信都不难理解,第一个无参构造方法,默认负载因子是 0.75,第二个构造方法是你可以传一个 Map 进去,构造出一个新的 Map,负载因子仍然是默认的 0.75, 第三个构造方法就是指定开辟的容量了(并不是你想象那样简单哦,面试题讲解),这个很简单,第四个构造方法指定容量并且自定义负载因子。

在 HashMap 中,实例化对象的时候并不会默认开辟空间(指定空间除外)。

3.2 HashMap 是如何插入元素的?

前面对 HashMap 的讲解,已经大概了解了一点,但是 HashMap 底层的哈希函数是如何设定的呢?而且 Map 中不能有重复值的情况,是利用什么来判断这两个值是相同的值呢?

这里我们通过查看 put 方法的源码,来带大家一层层揭开这个面纱:

public V put(K key, V value) {
    return putVal(hash(key), key, value, false, true);
}

进入到 put 方法,随之调用了 putVal 方法,而第一个参数就是我们哈希函数的实现了,我们转到hash() 方法中:

static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

通过哈希函数,能看出,首先调用 key 的hashCode 方法,接着无符号右移 16 位,即将 key 的高16位 与 低 16位 异或得到的 hash 值,通过这个也就在说明,我们如果是自定义类型的话,比如 Person,那么一定要重写 hashCode 方法,不然则是调用 Object 里的 hashCode 方法了。

接着我们再往下看,putVal 方法里面的逻辑,这里代码比较长,我们分段演示:

这里就是判断哈希表是否为有元素,如果表为 null 或者 哈希表的长度为 0,就会初始化数组(Node类型的数组),即调用 resize() 方法。初始哈希表的长度是 16,临界阈值为 16 * 0.75 = 12,也就是数组元素达到 12个即会扩容。往后走代码:

这里作用是通过 hash 值得到索引 i,也就是数组的下标,判断这个位置是否有元素了,如果没有则直接 new 一个节点放到该处。反之走 else 就表示该数组下标已经有元素了。

如果得到的 i 索引处有元素,则需要判断当前下标元素的 hash 值是否与我们要插入的元素 hash 值相同,如果相同,接着判断 下标元素的 key 与我们要插入元素的 key一样,或者通过 equals 方法比较是一样了,则表示是同一个元素,则不用插入了,e 保存这个已经存在的元素。到这里也能发现,这其实就是 Map 底层不能有重复 key 的原因了。

那如果他们不相同的情况下,就会判断该下标 i 的位置值是不是红黑树的节点(到了一定条件哈希桶中的元素会采用红黑树来组织数据),如果是,则采用红黑树的方式进行插入元素,这里我们就不往里面看了。

最后都不满足的情况,也就是元素不相同,并且不是红黑树结构,则走后面的 else,首先这个 else 里面是个死循环,要想退出,必须满足两个条件,① 找到了可以插入的地方,② 在哈希桶中发现了相同的元素。

比较该数组索引 i 下标的下一个节点,如果为 null,则直接插入该节点,如果链表长度大于8,则可能需要树化,也就是转换成红黑树,如果找到了相同的 key,则不用插入直接跳出循环。

上面的 else 走完后,如果存在添加相同的元素的时候,e 则不为 null,只需要将待添加元素的 value 值赋值给原本存在元素的 value 值即可,也就是更新一下元素的 value 值。afterNodeAccess 方法不用管,是使用 LinkedHashMap 实现的一个操作,这里并没有使用。

最后部分:

这里有效元素个数自增,如果超过了数组长度,则重新判断是否扩容(两倍扩容)。 afterNodeInsertion 也不用管,LinkedHashMap中的,这里也没有实际用途。

总结:HashMap 的 put 方法,是根据 key 的 hashCode 来计算 hash 值的,即我们要在自定义类型中重写 HashCode 方法,再者,是根据 equals 来判断 key 是否相同,也表示着我们同时需要去重写 equals 方法。

3.3 哈希表下的链表,何时会树化?

在上述讲解 put 方法的时候,发现插入元素的时候,数组索引位置的链表不止一个元素的时候会判断是否要转换成红黑树,那么具体要达到什么条件才能转换成红黑树呢?我们直接看上述的 treeifyBin 方法即可。

树化的前提是,链表的长度大于等于 8,就会树化,因为是从 binCount 是从 0 开始的,所以 TREEIFY_THRESHOLD - 1。那么链表的长度大于等于 8,一定会从链表变成红黑树吗?我们往后看:

第一个 if 当哈希表为空,或者表(数组)的长度小于64,只进行扩容即可,不会转换成树,当哈希表的长度大于 64,才有可能转换成红黑树。

所以我们最终得出,HashMap 中哈希表下的链表,当链表长度大于等于 8,并且哈希表的长度大于等于 64 则会将此链表转换成红黑树。 


4、相关面试题

4.1 链表转换成红黑树如何比较?

前面我们学过 TreeMap TreeSet 底层就是红黑树,里面的元素必须是可比较的,那哈希表下的链表转换成红黑树之后,没有重写 compareTo 怎么办呢?这里会按照 key 的哈希值来进行比较,所以就算转换成红黑树后,也不会关于 key 有序,再者可能只是哈希表其中一个索引位置下的结构是红黑树,其他的仍然可能是链表。

4.2 hashCode 和 equals 的区别

hashCode 是虚拟出对象的地址,底层是 native 封装的,即 C/C++实现的,而 equals 则是比较两个对象是否相同。

当我们重写 hashCode 的时候,是调用 Objects 里面的 hash 方法:

@Override
public int hashCode() {
    return Objects.hash(name, age);
}

举个例子,person1 和 person2 两个对象的 hashCode 完全不一样,但通过 hash 函数得到的 hash 值是相同的!而 hashCode 也是通过 hash 出来的,即对象的 hashCode 可以称为 hash 值,所以得出,两个对象的 hashCode 相同,但是这两个对象不一定相同。

对于 persong1.equals(person2) 的值为 true 的情况,则代表这两个对象里面的值都是一样的,所以 equals 为 ture,两个一模一样的对象,最终的 hash 值肯定也是一样的,并且 HashMap 也是调用 key 中的 equals() 方式来进行判断是否有重复的 key 值。

@Override
public boolean equals(Object o) {
    if (this == o) return true;
    if (o == null || getClass() != o.getClass()) return false;
    Person person = (Person) o;
    return age == person.age &&
            Objects.equals(name, person.name);
}

总结:

两个对象的 HashCode 相同,不代表这两个对象完全相同。

两个对象的 equals 的结果为 true,则代表这两个对象完全相同。

4.3 以下代码分配的内存是多少?

public static void main(String[] args) {
    Map<Integer, Integer> map = new HashMap<>(25);
}

如果你天真的回答是 25 个数组元素大小,那就错了,我们点进去构造方法,发现是调用另一个构造方法,在接着点进去,看到最后一行代码即 tableSizeFor 方法:

这里就没必要慢慢算了,实际就是给你找到一个离 cap 最近的 2 的 n 次方数,取值范围得大于等于 cap,例如上述 25 则实际开辟的就是 1  2  4  8  16  32  64....,那么上述代码实际开辟的大小就是 32 个数组空间大小。


5、性能分析

虽然哈希表一直在和冲突做斗争,但在实际使用过程中,我们认为哈希表的冲突率是不高的,冲突个数是可控的, 也就是每个桶中的链表的长度是一个常数,所以,通常意义下,我们认为哈希表的插入/删除/查找时间复杂度是 O(1) 。 


下期预告:【Java 数据结构】模拟实现HashMap 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/188324.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用CURL快速访问MemFire Cloud应用

“超能力”数据库&#xff5e;拿来即用&#xff0c;应用开发人员再也不用为撰写API而发愁。MemFire Cloud 为开发者提供了简单易用的云数据库&#xff08;表编辑器、自动生成API、SQL编辑器、备份恢复、托管运维&#xff09;&#xff0c;很大地降低开发者的使用门槛。 使用curl…

服装行业2023开年现状速递/服装行业的风险及应对方式/有这些特征的服装企业更容易翻身

在刚刚过去的春节假期里&#xff0c;我们经历了近3年最热闹的一次长假&#xff0c;几乎每天都能在街上看到熙熙攘攘的人流。消费者逛街热情呈“井喷式暴涨”&#xff0c;实体店店主的钱包也跟着鼓起来不少&#xff0c;但年后是否能延续这种旺象&#xff1f;服装行业即将迎来全面…

跨境智星速卖通使用常见问题

跨境智星速卖通使用常见问题 Q&#xff1a;如何使用跨境智星批量注册速卖通买家号&#xff1f;需要准备哪些资料 A&#xff1a;需要将注册信息导入到软件里&#xff0c;需要准备邮箱&#xff08;pop/imap协议&#xff09;&#xff0c;IP&#xff0c;地址等信息&#xff0c;将这…

实战excel

实战excel一、Excel数据格式1.1单元格数据类型1.2 数字1.3 文本1.4 日期1.5 单元格格式二、Excel的快捷操作2.1、快捷键大全2.1.1、文件相关2.1.2、通用快捷键2.1.3、表格选择2.1.4、单元格编辑2.1.5、Excel格式化2.1.6、Excel公式2.2 自动插入求和公式2.3 自动进行列差异比对2…

【C++、数据结构】手撕红黑树

文章目录&#x1f4d6; 前言1. 红黑树的概念⚡&#x1f300; 1.2 红黑树的特性&#xff1a;&#x1f300; 1.3 与AVL树的相比&#xff1a;2. 结点的定义&#x1f31f;⭐2.1 Key模型 和 Key_Value模型的引入&#xff1a;&#x1f3c1;2.1.1 K模型&#x1f3c1;2.1.2 KV模型⭐2.2…

架构演进之路

架构设计: 一&#xff1a;如何分层。 1 为什么要分层&#xff1a;分而治之&#xff0c;各施其职&#xff0c;有条不紊。 常见的分层 计算机osi七层&#xff0c;mvc模型分层&#xff0c;领域模型分层。2 单系统分层模型演进 浏览器-->servlrt-->javabean-->db-->渲染…

unity组件LineRenderer

这是一个好玩的组件 主要作用划线&#xff0c;像水果忍者中的刀光&#xff0c;还有一些涂鸦的小游戏&#xff0c;包括让鼠标划线然后让对象进行跟踪导航也可通过此插件完成 附注&#xff1a;unity版本建议使用稳定一些的版本&#xff0c;有些api可能已经发生变化&#xff0c;…

【数据结构初阶】第四篇——双向链表

链表介绍 初始化链表 销毁链表 打印双向链表 查找数据 增加结点 头插 尾插 在指定位置插入 删除结点 头删 尾删 删除指定位置 链表判空 获取链表中元素个数 顺序表和链表对比 存取方式 逻辑结构与物理结构 时间性能 空间性能 链表介绍 本章讲的是带头双向链…

回溯算法秒杀所有排列-组合-子集问题

&#x1f308;&#x1f308;&#x1f604;&#x1f604; 欢迎来到茶色岛独家岛屿&#xff0c;本期将为大家揭晓LeetCode 78. 子集 90. 子集 II 77. 组合 39. 组合总和 40. 组合总和 II 47. 全排列 II&#xff0c;做好准备了么&#xff0c;那么开始吧。 &#x1f332;&#x1f…

上海亚商投顾:A股两市震荡走弱 北证50指数大涨5.8%

上海亚商投顾前言&#xff1a;无惧大盘涨跌&#xff0c;解密龙虎榜资金&#xff0c;跟踪一线游资和机构资金动向&#xff0c;识别短期热点和强势个股。市场情绪沪指今日震荡调整&#xff0c;创业板指午后一度跌近1.5%&#xff0c;黄白二线分化明显&#xff0c;题材概念表现活跃…

Redis快速入门

Redis快速入门&#xff0c;分两个客户端&#xff1a;Jedis和SpringDataRedis 使用Jdedis 1、引入依赖 <!--jedis--> <dependency><groupId>redis.clients</groupId><artifactId>jedis</artifactId><version>3.7.0</version>…

python算法面试题

这是我年前做技术面试官&#xff0c;搜集的面试题&#xff0c;从python基础-机器学习-NLP-CV-深度学习框架-Linux-yolo都有一些题目。针对不同方向的应试者问相应方向的问题。 基本上都是面试八股文&#xff0c;收集记录一下&#xff0c;以后自己也会用的到。 面试题 python基…

深入理解mysql的内核查询成本计算

MySql系列整体栏目 内容链接地址【一】深入理解mysql索引本质https://blog.csdn.net/zhenghuishengq/article/details/121027025【二】深入理解mysql索引优化以及explain关键字https://blog.csdn.net/zhenghuishengq/article/details/124552080【三】深入理解mysql的索引分类&a…

过年回家,你是否也努力的给别人解释软件开发是干啥滴?

这个年就这样&#xff0c;在喜气洋洋的气氛中&#xff0c;在我们依依不舍的留恋中&#xff0c;从我们身边溜走了。这次回家又碰见了亲戚们不厌其烦的问我&#xff0c;你做什么工作呐&#xff1f;于是就有了我以下生动的解释 目录 打字的 帮助传话&#xff0c;帮助卖东西 皮…

易点易动打通固定资产采购,为企业实现降本增效

企业为什么要实现采购和资产管理的连接&#xff1f; 随着科技的发展&#xff0c;企业的办公工具越来越多&#xff0c;各类办公软件数不胜数。随之而来的是数据的不连通&#xff0c;员工需要穿梭在各个办公软件&#xff0c;重复导入导出数据&#xff0c;无形中没有提升办公效率…

三维电子沙盘数字沙盘开发教程第3课

三维电子沙盘数字沙盘开发教程第3课下面介绍矢量图层的控制显示&#xff1a;上代码foreach(string key in gis3d.SetFile.Biao.Keys)// gis3d.SetFile.Biao 该对象里存储了所有矢量层的信息{gis3d.SetFile.Biao[key].Show true; //是否显示标签gis3d.SetFile.Biao[key].ShowTe…

1.Weisfeiler-Lehman Algorithm

文章目录1.图同构介绍2.Weisfeiler-Lehman Algorithm3.后话参考资料欢迎访问个人网络日志&#x1f339;&#x1f339;知行空间&#x1f339;&#x1f339; Weisfeiler-Lehman Algorithm是美国的数学家Boris Weisfeiler在1968年发表的论文the reduction of a graph to a canonic…

Flask WebSocket学习笔记

WebSocket简介&#xff1a;WebSocket是一种全新的协议&#xff0c;随着HTML5的不断完善&#xff0c;越来越多的现代浏览器开始全面支持WebSocket技术了&#xff0c;它将TCP的Socket&#xff08;套接字&#xff09;应用在了webpage上&#xff0c;从而使通信双方建立起一个保持在…

Java面向对象基础

文章目录面向对象一、类和对象1. 类的介绍2. 类和对象的关系3. 类的组成4. 创建对象和使用对象的格式二、对象内存图1. 单个对象内存图2. 两个对象内存图3. 两个引用指向相同内存图三、成员变量和局部变量四、this 关键字1. this 可以解决的问题2. this 介绍3. this 内存图五、…

学术的快乐来源

文章目录我的核心快乐来源&#xff1a;其他非核心快乐源泉知乎搜到的别人的快乐来源作此文&#xff0c;以便懈怠时候看看&#xff0c;能够聊表安慰。 ——题记 抱着给自己枯燥无聊学术生涯找点乐子的想法&#xff0c; 我决定仔细思考一下自己做学术的时候有哪些快乐的地方&…