Java-数据结构-(HashMap HashSet)

news2025/3/12 10:29:00

一、Tree和Hash的区别

在上一篇文章中,我们讲到了"TreeMap""TreeSet",但当我们刷题的时候却会发现,实际应用Map和Set时,却常常都只会用"HashMap"和"HashSet",这是为什么呢?

① 效率不同

📚"TreeMap"和"TreeSet"

都是基于"红黑树"实现的,这种方法的实现就导致了无法直接查询到存储进去的数据,而是需要进去不断的查找,即便已经有了非常好的优化,树的遍历效率也只能达到O(logn)

📚"HashMap"和"HashSet"

是基于哈希表实现的,一般使用HashMap和HashSet进行存入和查找时,时间复杂度都能达到O(1)

而这种效率是远远高于O(logn)的,并且平时刷题时测试用例中都有大量难缠的数据,所以平时"Hash"的应用场景是多于"Tree"的。

② 适用场景不同

📚 "TreeMap"和"TreeSet"

这种数据结构会对存入的数据自动进行排序,适用于数据规模不太大或者需要有序数据或范围查询,使用TreeMap是一个很好的选择。

这里使用HashMap是没办法使用该方法的,因为HashMap并不会对数据进行排序

📚"HashMap"和"HashSet"

相对的,哈希表能做到快速存入和查询,肯定也有对应的缺点,那就是"不会对存入的数据进行自动排序"

但是实际中,对Map和Set的使用还是以"存入和查询"居多,所以"HashMap"和"HashSet"的使用还是会更多的。

二、哈希表

① 什么是哈希表?

通过上面我们能了解到,哈希表的存入和查询速率都是O(1)。

O(1)是什么概念?就是比较的次数非常少,甚至有时候可以忽略不计。

那么让我们回顾一下,之前学习的"排序算法"中,就有这么一种比较次数非常少的排序—"桶排序"
在哈希表的实现中,也使用了类似"桶排序"中的一种思想—"分桶的核心思想"

📕 分桶:哈希表通过某种规则将数据分散到多个容器(桶)中。

📕 映射规则:哈希表通过哈希函数映射键到桶。

哈希表除了使用了这种类似桶排序的分桶思想,剩下的操作比较类似于"计数排序"

📕 插入元素:根据待插入元素的关键码,计算出元素的存储位置。

📕 搜索元素:同样对关键码进行运算,并查找该位置,若关键码相同则搜索成功。

而其中对关键码进行操作就是通过"哈希函数"来进行转换的。

比如此时我们将哈希函数设置为:int index = key % elem.length;
那么对于元素的处理就会像这样

在这个存储过程中我们可以发现,并没有元素进行比较。这就是一种最理想的状态。但让我们再想想,如果再往表中插入14呢?24呢?34、44呢?

② 哈希冲突的概念

上面我们提到,如果在表中继续插入元素,如"14","24","34"等。它们经过哈希函数后,得到的对应位置与先前存入的"4"是一样的。

而这也就是"不理想的情况",因为遇到这种情况,我们的哈希表就需要进行"元素之间的比较"了,这种情况也被称为"哈希冲突"

③ 哈希冲突的避免

我们要知道,使用哈希表进行数据的存储时,造成"哈希冲突"是必然的

因为理想状态下我们通过哈希函数计算每个数据的对应键值并将数据存入哈希表中,但这也就意味着肯定会有些数据会计算出相同的键值并且哈希表的空间也是有限的(未扩容之前),当存入的数据达到一定的限度,则会出现"经常发生哈希冲突"的情况。

而为了避免这种情况发生,我们能做到的就是尽量设计一个合理的哈希函数。

哈希函数设计原则

📕 哈希函数的定义域必须包括需要存储的全部关键码,如果表中允许有n个地址,则哈希函数的值域必须在0到n-1之间

📕 哈希函数计算的值最好能均匀分布在整个空间中

④ 常见的哈希函数

📚 直接定制法:Hash(Key) = A * Key + B

优点:简单、均匀
缺点:需要事先知道关键字的分布情况使用场景

📚 除留余数法:Hash(key) = key % p(p<=m)

⑤ 负载因子调节

上面我们提到过

哈希表的空间也是有限的(未扩容之前),当存入的数据达到一定的限度,则会出现"经常发生哈希冲突"的情况。

这种情况会大大降低我们的哈希表的存取效率,而为了避免这种情况发生,我们就需要在每次存入数据时,计算一下此时哈希表的负载因子,如果此时的负载因子超过了我们希望的限定值,那么此时我们将对哈希表进行扩容。

1. 负载因子的定义

负载因子表示哈希表中已存储元素数量与当前总容量的比值

如:此时哈希表容量为 10 ,已存入 7 个元素,则此时的负载因子为 0.7 。

2. 负载因子的作用

📕 衡量哈希表填充程度:

负载因子越高,哈希表填充越满,发生哈希冲突的概率越大。

📕 触发扩容的阈值:

当负载因子超过预设值(java中默认为0.75,后续我们模拟实现哈希表也会采取这个阈值)时,哈希表自动扩容,以降低冲突概率。

📕 平衡时间与空间开销:

低负载因子:冲突少,操作效率高,但内存利用率低。
高负载因子:内存利用率高,但冲突频繁,操作效率下降。

⑥ 冲突的解决方案(开放寻址法)

1. 线性探测

📕 规则

若当前的桶已经被占用,则顺序查询下一个桶(如 index = (index + 1) % size),直到找到空桶。

📕 优点:实现简单,空间利用率高,缓存性能好(连续存储)。

📕 缺点:产生聚集现象(大量连续占用桶),导致查找效率下降。

📕 适用场景:负载因子较低时。

2. 二次探测

📕 规则:

使用第二个哈希函数计算下一个空位置(如:index1 = (index0 + i ^ 2) % m)

📕 优点:冲突分布更均匀,减少聚集。

📕 缺点:装载因子不能太大,否则性能会急剧下降,容易发生二次聚集。

📕 适用场景:对性能要求高的场景。

⑦ 冲突的解决方案(链地址法)

又叫做"开散列法",我们需要对传进的数据关键码通过散列函数计算出散列地址,将具有相同地址的关键码放入同一个子集合中,每一个子集合都是一个桶,每个桶中的元素都通过一个单链表进行连接,然后将每个链表的结点都存储在哈希表中。

三、哈希表的模拟实现

 ① 基本框架

在这里我们采用"开散列法"

所以我们需要用到链表结构,因此我们需要在基本框架中实现一个结点类

同时,我们还需要设定一个触发扩容的阈值(负载因子),上面我们提到java中默认为0.75,所以我们这里也使用0.75作为触发扩容的阈值。

📖 代码示例

public class HashBucket {
    public static class Node {
        public int key;
        public int val;
        public Node next;
        public Node(int key, int val) {
            this.key = key;
            this.val = val;
        }
   }
   //初始哈希表
    public Node[] elem = new Node[10];
    public int usedSize;
    //负载因子
    public static final double LOAD_FACTOR = 0.75;
}

② 插入元素

实现插入元素,我们需要考虑很多种情况,比如:如何避免哈希冲突,将结点插入链表的何处,在何时计算负载因子,如何进行扩容等。

这里我们一个个的进行讲解

📕 如何避免哈希冲突

我们采用"开散列法",首先通过哈希函数寻找对应链表的index

int index = key % elem.length;

然后判断当前index指向的链表中是否含有key,如果存在key,则修改结点的值为新的val。

📕 将结点插入链表何处

如果不存在key,则将新节点插入链表(尾插和头插都可以,这里我们采取头插法)

📕 在何时计算负载因子

当新元素加入后,计算此时的负载因子,如果超过阈值则扩容

📖 代码示例

    //新增元素
    public void put(int key,int val){
        //1.通过哈希函数,找到对应链表的index
        int index = key % elem.length;
        //2.判断当前的链表是否有key
        Node cur = elem[index];
        while(cur != null){
            //3.找到key,修改改结点的val
            if(cur.key == key){
                cur.val = val;
                return;
            }
            cur = cur.next;
        }
        //4.如果没有key,则将新结点插入链表(这里采取头插法)
        Node newCur = new Node(key,val);
        newCur.next = elem[index];
        elem[index] = newCur;
        usedSize++;
        //5.计算当前的负载因子,如果超过则扩容
        if(getLoadFactor() >= LOAD_FACTOR){
            upsize();
        }
   }
   //计算当前负载因子
    public double getLoadFactor(){
        return usedSize * 1.0 / elem.length;
    }

③ 哈希表扩容

当为哈希表进行扩容时,并不是简单的将数组大小扩大一倍即可,因为可能会发生如下情况:

当扩容之后,其实14应该放在新的空间14内,而不是还处在4的位置,所以哈希表的扩容其实是一个(再次哈希)的过程,这个过程的时间复杂度是O(n)的,需要我们遍历所有元素,重新创建一个哈希表:

📖 代码示例

    //哈希表扩容(再次哈希)
    public void upsize(){
        //1.创建新的哈希表
        Node[] newElem = new Node[elem.length * 2];
        for(int i = 0;i < elem.length;i++){
            Node cur = elem[i];
            while(cur != null){
                Node curN = cur.next;
                int index = cur.key % newElem.length;
                cur.next = newElem[index];
                newElem[index] = cur;
                cur = curN;
            }
        }
        elem = newElem;
    }

④ 获取元素

这个就很简单了,经过之前我们对各种数据结构的学习,对于大家来说肯定也是不必多说,只需要计算出对应链表的index并遍历链表求目标元素即可。

📖 代码示例

    //通过key获取元素
    public int get(int key) {
        //找到key的对应下标
        int index = key % elem.length;
        Node cur = elem[index];
        //查找链表
        while (cur != null) {
            if (cur.key == key) {
                return cur.val;
            }
            cur = cur.next;
        }
        return -1;
    }

⑤ 测试

我们设定初始大小为10,扩容阈值为0.75,此时我们向哈希表中存入八个元素:

当存储到14时,14存在index = 4的链表中

当存入第八个元素,也就是19的时候,就会触发扩容,此时我们的14应该从index = 4的链表,移动到新的index = 14的位置上:

四、自定义类使用哈希表

📖 People:

class People {
    public int id;
    public String name;
    public People(int id,String name) {
        this.id = id;
        this.name = name;
    }
}

有些时候,我们希望对自定义的一些类也是使用哈希表进行存储,但是有时会发生这样的情况

明明姓名和id都相同,但却找不到对应的人,这是为什么呢?

这就取决于java内部哈希函数如何计算了

📕 与 equals() 的一致性:若两个对象相等,则它们的哈希值必须相同。

📕 基于内存地址:默认返回对象内部地址的整数表示

📕 问题:不同对象即使内容相同,哈希值也不同

是的,所以找不到对应的对象是因为地址不同,那么如果想查找到对应的对象,我们就需要在自定义类中重写 hashCode() 和 equals() 方法

那么这篇关于哈希表(HashMap,HashSet)的文章到这里就结束啦,作者能力有限,如果有哪里说的不够清楚或者不够准确,还请各位在评论区多多指出,我也会虚心学习的,我们下次再见啦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2300621.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

el-table 结合 slot 具名插槽遍历封装列表模板

基础效果 要实现以上效果&#xff0c;可对 el-table 进行封装&#xff0c;将列配置视为数组&#xff0c;循环 el-table-column 标签模板组件 <div class"tableSlot"><el-table :data"dataList" border><el-table-columnv-for"(item, …

游戏引擎学习第108天

仓库:https://gitee.com/mrxiao_com/2d_game_2 看一下我们现在的进展 今天的工作重点是处理游戏中的Z轴问题&#xff0c;特别是如何在不同的层级之间进行移动&#xff0c;并确保Z轴的处理方式与真实世界中的透视效果一致。当前&#xff0c;游戏中的Z轴运动存在问题&#xff0…

遵循规则:利用大语言模型进行视频异常检测的推理

文章目录 速览摘要01 引言02 相关工作视频异常检测大语言模型 03 归纳3.1 视觉感知3.2 规则生成Normal and Anomaly &#xff08;正常与异常&#xff09;Abstract and Concrete &#xff08;抽象与具体&#xff09;Human and Environment &#xff08;人类与环境&#xff09; 3…

网页制作01-html,css,javascript初认识のhtml的基本标记

一、 Html简介 英文全称是 hyper text markup language,超文本标记语言,是全球广域网上描述网页内容和外观的标准. Html作为一款标记语言,本身不能显示在浏览器中.标记语言经过浏览器的解释和编译,才能正确地反映html标记语言的内容. 1.html 的基本标记 1&#xff09;头部标…

linux常用命令大全(包括抓包、网络检测、路由等,做项目一点点总结而来!)

文章目录 常用命令**apt相关****ls**&#xff1a;**cd****cp****ls -l | grep ssh**&#xff1a;会列出当前目录中包含 “ssh” 的文件或目录的详细信息。**系统资源**linux路由相关抓包工具和命令tcpdumpwiresharktshark iperf 常用命令 通过上下方向键 ↑ ↓ 来调取过往执行过…

Linux学习笔记之虚拟地址空间

1.示例引入 运行如下代码那么运行结果如下图。 #include<stdio.h> #include<unistd.h>int main() {pid_t id fork();if(id-1){printf("创建进程错误&#xff01;\n");return 1;}int size0;if(id0){//子进程while(1){printf("我是子进程&#xff0c…

HTTP的“对话”逻辑:请求与响应如何构建数据桥梁?

一、前言 作为现代互联网通信的基石&#xff0c;HTTP协议定义了客户端与服务器之间的“对话规则”。每一次网页加载、API调用或文件传输的背后&#xff0c;都离不开精心构造的HTTP请求与响应。请求中封装了用户的意图——从请求方法、资源路径到提交的数据&#xff1b;响应则承…

[论文阅读] SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution

文章目录 一、前言二、主要贡献三、Introduction四、Methodology4.1 Motivation &#xff1a;4.2Framework Overview.** 一、前言 通信作者是香港理工大学 & OPPO研究所的张磊教授&#xff0c;也是图像超分ISR的一个大牛了。 论文如下 SeeSR: Towards Semantics-Aware Rea…

LM Studio笔记

一、什么是 LM Studio&#xff1f; LM Studio 是一款功能强大、易于使用的桌面应用程序&#xff0c;用于在本地机器上实验和评估大型语言模型&#xff08;LLMs&#xff09;。它允许用户轻松地比较不同的模型&#xff0c;并支持使用 NVIDIA/AMD GPU 加速计算。 功能集&#xff1…

Linux CentOS 7部署Vulhub靶场

漏洞复现环境&#xff1a; 1、Linux操作系统中通过Docker部署的Vulhub靶场&#xff1a; docker docker-compose 2、Nmap扫描工具 一、部署靶场 1、安装Docker 1、下载docker yum install docker 安装完成&#xff0c;如下图&#xff1a; 2、开启docker服务 [rootlocalhost…

Golang GORM系列:GORM分页和排序

高效的数据检索和表示是应用程序开发的关键方面。GORM是健壮的Go对象关系映射库&#xff0c;它为开发人员提供了强大的工具来实现这一点。无论你是在构建动态web应用程序还是数据密集型服务&#xff0c;掌握GORM中的分页和排序使您能够提供无缝且高效的用户体验。本文我们将深入…

【怎么使用Redis实现一个延时队列?】

怎么使用Redis实现一个延时队列? 详细说明Java代码示例解释注意事项使用Redis实现延时队列通常通过有序集合(Sorted Set)来实现,利用Redis的ZSET类型及其相关命令可以很方便地实现这一功能。 有序集合中的每个元素都有一个分数(score),我们可以利用这个分数来存储消息需…

HarmonyNext上传用户相册图片到服务器

图片选择就不用说了&#xff0c;直接用 无须申请权限 。 上传图片&#xff0c;步骤和android对比稍微有点复杂&#xff0c;可能是为了安全性考虑&#xff0c;需要将图片先拷贝到缓存目录下面&#xff0c;然后再上传&#xff0c;当然你也可以转成Base64&#xff0c;然后和服务…

宝塔docker 安装oracle11G

1、拉取镜像 sudo docker pull iatebes/oracle_11g #iatebes为用户名2、查看镜像 sudo docker images3、创建并运行容器 docker run -d --privileged --name oralce11g -p 1521:1521 iatebes/oracle_11g4、登录到容器 5、进入容器并修改system用户密码 docker exec -it orac…

计算机视觉-OpenCV图像处理

1.Matplotlib数据可视化&#xff08;绘制图像直方图、可视化矩阵&#xff09; # Matplotlib 数据可视化&#xff08;绘制图像直方图、可视化矩阵&#xff09; # 本节主要讲解如何使用 Matplotlib 绘制图像直方图和可视化矩阵。 # 1. 绘制图像直方图 # 2. 可视化矩阵# 1. 绘制图…

【论文笔记】Transformer^2: 自适应大型语言模型

Code repo: https://github.com/SakanaAI/self-adaptive-llms 摘要 自适应大型语言模型&#xff08;LLMs&#xff09;旨在解决传统微调方法的挑战&#xff0c;这些方法通常计算密集且难以处理多样化的任务。本文介绍了Transformer&#xff08;Transformer-Squared&#xff09;…

【医学影像AI】50个眼科影像数据集(1)分类任务

【医学影像】50个眼科影像数据集&#xff08;1&#xff09;分类任务 【医学影像】50个眼科影像数据集&#xff08;2&#xff09;分割任务 【医学影像】50个眼科影像数据集&#xff08;3&#xff09;其它任务 【医学影像AI】50 个眼科影像数据集&#xff08;1&#xff09;分类任…

2025年-G4--lc75--Best Time to Buy and Sell Stock(java版)

1.题目描述 2.思路 思路1: 3.java代码实现 class Solution {public int maxProfit(int[] prices) {// //初始化最小价格为最大值&#xff0c;最大利润为0// int minPriceInteger.MAX_VALUE;// int maxProfit0;// //遍历价格数组// for (int price : prices)// …

STM32 PWM脉冲宽度调制介绍

目录 背景 PWM 模式 影子寄存器和预装载寄存器 PWM对齐模式 PWM 边沿对齐模式 向上计数配置 向下计数的配置 PWM 中央对齐模式 程序 第一步、使能GPIOB组、AFIO、TIM3外设时钟 第二步、输出通道端口配置​编辑 第三步、定时器配置产生频率 第四步、PWM输出配置 第…