为什么阿里巴巴建议HashMap初始化时需要指定容量大小?

news2024/7/6 19:00:15

为什么阿里巴巴建议HashMap初始化时需要指定容量大小?

为什么?

关于集合类,《阿里巴巴Java开发手册》中写道:

 

我们先来写一段代码在JDK 1.7 (jdk1.7.0_80)下面来分别测试下,在不指定初始化容量和指定初始化容量的情况下性能情况如何。(jdk 8 结果会有所不同,我会在后面的文章中分析)

public static void main(String[] args) {
    int aHundredMillion = 10000000;
​
    Map<Integer, Integer> map = new HashMap<>();
​
    long s1 = System.currentTimeMillis();
    for (int i = 0; i < aHundredMillion; i++) {
        map.put(i, i);
    }
    long s2 = System.currentTimeMillis();
​
    System.out.println("未初始化容量,耗时 : " + (s2 - s1));
​
​
    Map<Integer, Integer> map1 = new HashMap<>(aHundredMillion / 2);
​
    long s5 = System.currentTimeMillis();
    for (int i = 0; i < aHundredMillion; i++) {
        map1.put(i, i);
    }
    long s6 = System.currentTimeMillis();
​
    System.out.println("初始化容量5000000,耗时 : " + (s6 - s5));
​
​
    Map<Integer, Integer> map2 = new HashMap<>(aHundredMillion);
​
    long s3 = System.currentTimeMillis();
    for (int i = 0; i < aHundredMillion; i++) {
        map2.put(i, i);
    }
    long s4 = System.currentTimeMillis();
​
    System.out.println("初始化容量为10000000,耗时 : " + (s4 - s3));
}

 

以上代码不难理解,我们创建了3个HashMap,分别使用默认的容量(16)、使用元素个数的一半(5千万)作为初始容量、使用元素个数(一亿)作为初始容量进行初始化。然后分别向其中put一亿个KV。

从结果中,我们可以知道,在已知HashMap中将要存放的KV个数的时候,设置一个合理的初始化容量可以有效的提高性能。

这是因为HashMap有扩容机制,就是当达到扩容条件时会进行扩容。HashMap的扩容条件就是当HashMap中的元素个数(size)超过临界值(threshold)时就会自动扩容。在HashMap中,threshold = loadFactor * capacity

所以,如果我们没有设置初始容量大小,随着元素的不断增加,HashMap会发生多次扩容,而HashMap中的扩容机制决定了每次扩容都需要重建hash表,是非常影响性能的。

从上面的代码示例中,我们还发现,同样是设置初始化容量,设置的数值不同也会影响性能,那么当我们已知HashMap中即将存放的KV个数的时候,容量设置成多少为好呢?

HashMap中容量的初始化

默认情况下,当我们设置HashMap的初始化容量时,实际上HashMap会采用第一个大于该数值的2的幂作为初始化容量。

当我们通过HashMap(int initialCapacity)设置初始容量的时候,HashMap并不一定会直接采用我们传入的数值,而是经过计算,得到一个新值,目的是提高hash的效率。(1->1、3->4、7->8、9->16)

不管是Jdk 1.7还是Jdk 1.8,计算初始化容量的算法其实是如出一辙的,主要代码如下:

    int n = cap - 1;
    n |= n >>> 1;
    n |= n >>> 2;
    n |= n >>> 4;
    n |= n >>> 8;
    n |= n >>> 16;
    return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;

JDK1.7中是highestOneBit()方法,1.8中是tableSizeFor()方法。

 

 

作用都是返回一个比入参刚好大的2的次方的一个数。复制测试以下

public class TestTableSizeFor {
​
    public static void main(String[] args) {
        System.out.println(tableSizeFor(1));
        System.out.println(tableSizeFor(2));
        System.out.println(tableSizeFor(3));
        System.out.println(tableSizeFor(10));
        System.out.println(tableSizeFor(27));
    }
​
    static final int tableSizeFor(int cap) {
        int n = cap - 1;
        n |= n >>> 1;
        n |= n >>> 2;
        n |= n >>> 4;
        n |= n >>> 8;
        n |= n >>> 16;
        return  n + 1;
    }
}

 

HashMap初始容量时机

在Jdk 1.7和Jdk 1.8中,HashMap初始化这个容量的时机不同。jdk1.8中,在调用HashMap的构造函数定义HashMap的时候,就会进行容量的设定。而在Jdk 1.7中,要等到第一次put操作时才进行这一操作。

我们可以通过反射来验证一下。

public static void main(String[] args) {
        int aHundredMillion = 10000000;
​
        Map<Integer, Integer> map = new HashMap<>();
​
        long s1 = System.currentTimeMillis();
        for (int i = 0; i < aHundredMillion; i++) {
            map.put(i, i);
        }
        long s2 = System.currentTimeMillis();
​
        System.out.println("未初始化容量,耗时 : " + (s2 - s1));
​
​
        Map<Integer, Integer> map1 = new HashMap<>(aHundredMillion / 2);
​
        long s5 = System.currentTimeMillis();
        for (int i = 0; i < aHundredMillion; i++) {
            map1.put(i, i);
        }
        long s6 = System.currentTimeMillis();
​
        System.out.println("初始化容量5000000,耗时 : " + (s6 - s5));
​
​
        Map<Integer, Integer> map2 = new HashMap<>(aHundredMillion);
​
        long s3 = System.currentTimeMillis();
        for (int i = 0; i < aHundredMillion; i++) {
            map2.put(i, i);
        }
        long s4 = System.currentTimeMillis();
​
        System.out.println("初始化容量为10000000,耗时 : " + (s4 - s3));
    }

因为HashMap没有容量这个属性,但是capacity方法会返回容量

JDK1.7

 

在jdk1.7初始化容量的时机是在第一次put的时候,我们可以查看一下capacity()源码

 

 

1.7中capacity()方法返回的是table.length即HashMap的容量,而构造方法并没有对改属性进行赋值操作。反而是在第一次put的时候才进行了操作。

 

 put()---->inflateTable()---->table中才进行操作

JDK1.8

jdk1.8中,在调用HashMap的构造函数定义HashMap的时候,就会进行容量的设定。

赋值了threshold属性

查看capacity()方法,HashMap容量返回的是threshold属性

 

HashMap中初始容量的合理值

当我们使用HashMap(int initialCapacity)来初始化容量的时候,jdk会默认帮我们计算一个相对合理的值当做初始容量。那么,是不是我们只需要把已知的HashMap中即将存放的元素个数直接传给initialCapacity就可以了呢?

关于这个值的设置,在《阿里巴巴Java开发手册》有以下建议:

initialCapacity = (需要存储的元素个数 / 负载因子) + 1。注意负载因子(即 loader factor)默认 为 0.75,如果暂时无法确定初始值大小,请设置为 16(即默认值)。

也就是说,如果我们设置的默认值是7,经过Jdk处理之后,会被设置成8,但是,这个HashMap在元素个数达到 8*0.75 = 6的时候就会进行一次扩容,这明显是我们不希望见到的。

如果我们通过expectedSize / 0.75F + 1.0F计算,7/0.75 + 1 = 10 ,10经过Jdk处理之后,会被设置成16,这就大大的减少了扩容的几率。

当HashMap内部维护的哈希表的容量达到75%时(默认情况下),会触发rehash,而rehash的过程是比较耗费时间的。所以初始化容量要设置成expectedSize/0.75 + 1的话,可以有效的减少冲突也可以减小误差。

所以,我可以认为,当我们明确知道HashMap中元素的个数的时候,把默认容量设置成expectedSize / 0.75F + 1.0F是一个在性能上相对好的选择,但是,同时也会牺牲些内存。

总结

当我们想要在代码中创建一个HashMap的时候,如果我们已知这个Map中即将存放的元素个数,给HashMap设置初始容量可以在一定程度上提升效率。在已知HashMap中将要存放的KV个数的时候,设置一个合理的初始化容量按照 expectedSize / 0.75F + 1.0F 可以有效的提高性能,减少扩容次数。

但是,JDK并不会直接拿用户传进来的数字当做默认容量,而是会进行一番运算,最终得到一个2的幂。得到这个数字的算法其实是使用了使用无符号右移和按位或运算来提升效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/65116.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Docker harbor私有仓库部署与管理

Docker harbor私有仓库部署与管理Docker harbor私有仓库部署与管理一、Docker 私有仓库1、下载registry镜像2、修改配置文件/etc/docker/daemon.json &#xff0c;添加私有仓库配置&#xff0c;修改完后重启docker3、创建私有仓库容器4、推送镜像到私有仓库中5、查看当前仓库的…

使用 Lua 脚本和海康 VisionMaster 进行 TCP 通信

说明&#xff1a;因任务需求&#xff0c;需要进行海康VisionMaster服务端和Lua脚本客户端进行TCP通信传输数据。因为之前从未接触过Lua语言&#xff0c;所以也趁机学习一波。 内容Lua教程手册LuaSocket使用方法一方法二报错&#xff1a;“attempt to compare number with strin…

高级_09.性能分析工具的使用

第09章_性能分析工具的使用 1. 数据库服务器的优化步骤 当我们遇到数据库调优问题的时候&#xff0c;该如何思考呢&#xff1f;这里把思考的流程整理成下面这张图。 整个流程划分成了观察&#xff08;Show status&#xff09;和行动&#xff08;Action&#xff09;两个部分。…

Service详解「2」

Service详解「2」 文章目录Service详解「2」Service介绍kube-proxy目前支持三种工作模式:userspace 模式iptables 模式ipvs 模式Service类型Service使用实验环境准备ClusterIP类型的ServiceEndpoint负载分发策略HeadLiness类型的ServiceNodePort类型的ServiceLoadBalancer类型的…

407. 接雨水 II

给你一个 m x n 的矩阵&#xff0c;其中的值均为非负整数&#xff0c;代表二维高度图每个单元的高度&#xff0c;请计算图中形状最多能接多少体积的雨水。 示例 1: 输入: heightMap [[1,4,3,1,3,2],[3,2,1,3,2,4],[2,3,3,2,3,1]] 输出: 4 解释: 下雨后&#xff0c;雨水将会被上…

24节气- ||大雪|| 文案、海报分享,冬寒雪落,归家愈暖。

大雪降至 一年中最寒冷的时候也将到来 大家注意保暖防护 过个温暖的冬天吧&#xff01; 下面是我整理的关于大雪的文案、海报&#xff0c;希望对大家有帮助&#xff01; 更多设计素材免费下载&#xff1a; https://www.sucai999.com/?vNTYxMjky 01 大雪至&#xff0c;人…

跨越专业翻译的语言之墙:百度翻译的技术攀登

作为一个科技从业者&#xff0c;阅读AI顶会的最新论文、浏览国内外创新的最新动向&#xff0c;是我工作的重要部分。平时接触的开发者、科学家、企业研究人员等&#xff0c;工作生活中也涉及大量专业阅读。于是乎&#xff0c;我就会经常听到这样的抱怨&#xff1a;PDF格式的论文…

第42讲:MySQL数据库索引的基本使用规则以及在正确使用索引的方式

文章目录1.索引规则之最左前缀法则1.1.最左前缀法则的概念1.2.最左前缀法则的验证案例2.索引规则之范围查询3.使用索引时会导致索引失效的几种情况3.1.索引列使用运算导致索引失效3.2.索引列的值不加引号导致索引失效3.3.索引列模糊查询可能会导致索引失效3.4.OR连接条件使用不…

Excel中如何用计算公式或表达式直接计算出结果?

Excel中如何用计算公式或表达式直接计算出结果&#xff1f; 目录 Excel中如何用计算公式或表达式直接计算出结果&#xff1f; 1、例如&#xff1a;我们需要用E列的计算公式&#xff08;表达式&#xff09;&#xff0c;直接计算出结果填至F列 2、另一种方法&#xff1a;在菜…

什么是接口测试?接口测试的流程步骤

目录 一、什么是接口测试&怎么测 二、接口测试的好处 三、怎么做好接口测试 四、接口测试的原理 五、接口测试流程&用例设计 5.1.接口文档分析 5.1.1.接口构成图解 5.2.制定接口测试计划 5.3.编写接口测试用例&评审 5.3.1.接口测试用例模板 5.4.接口测试…

普通人如何不被 OpenAI 取代?

Datawhale干货 Tw93&#xff0c;前端工程师&#xff0c;Datawhale邀约作者知乎&#xff1a;https://www.zhihu.com/people/tw93Github&#xff1a;https://github.com/tw93今天试了试OpenAI的一些功能&#xff0c;通过主题来记录一下使用场景&#xff0c;发现了不少它强于普通人…

R语言缺失数据变量选择LASSO回归:Bootstrap重(再)抽样插补和推算

全文链接&#xff1a;http://tecdat.cn/?p30726在存在缺失数据的情况下&#xff0c;需要根据缺失数据的机制和用于处理缺失数据的统计方法定制变量选择方法。我们专注于可以与插补相结合的随机和变量选择方法的缺失方法&#xff08;点击文末“阅读原文”获取完整代码数据&…

nginx解析漏洞复现

学习积累&#xff1a; 存在该漏洞的原因&#xff1a;是一种用户配置不当造成的漏洞 这里我是部署了vulhub靶场 直接执行docker-compose up -d启动容器&#xff0c;无需编译。 造成该漏洞的配置条件&#xff1a; &#xff08;不受php、nginx的版本限制&#xff09; &#…

计算机毕业设计java基于springboot的在线动漫平台

项目介绍 开发语言:Java 开发工具:IDEA /Eclipse 数据库:MYSQL5.7 应用服务:Tomcat7/Tomcat8 使用框架:springbootvue 在线动漫信息平台主要是为了会员方便对动漫信息的了解以及查看今日论坛信息和查看热门动漫、文章专栏等信息&#xff0c;也是为了更好的让管理员进行更好存…

适合linux的软件

Konqueror Konqueror是KDE桌面系统的一部分&#xff0c;主要用于文件管理、各种格式档案的查看&#xff0c;以及网页浏览。它有以下区别于其它浏览器的优点&#xff1a; 支持用Firefox, Chrome打开网页丰富的快捷键功能Web浏览器, 文件浏览器于一体运行速度非常快, 快于Chrom…

Android -- 每日一问:两个 Fragment 之间如何进行通信 ?

知识点 先说一下 Fragment&#xff0c;中文可以叫片段&#xff0c;其实我们也可以把它理解成一个组件&#xff0c;它有自己的生命周期&#xff08;回调函数&#xff09;&#xff0c;可以组织UI和业务逻辑。但它不像 Android 的四大组件&#xff08;Activity, Service, Broadca…

Blend for Visual Studio 让XAML也可以像WinForm一样可视化设计,Blend 与Studio的区别

1.Blend独有的高级功能 任务Visual StudioBlend for Visual Studio更多信息设计可视状态没有可帮助你设计可视状态的工具&#xff1b;必须以编程方式创建它们。使用设计工具可基于其状态更改控件的外观。创建动画没有用于动画的设计工具&#xff1b;必须以编程方式创建它们。 …

《WEB安全漏洞100讲》(第4讲)CSRF漏洞

1.CSRF漏洞原理 CSRF(Cross-site request forgery)&#xff0c;跨站请求伪造&#xff0c;简写 CSRF/XSRF。指利用受害者尚未失效的身份认证信息&#xff08;cookie、会话等&#xff09;&#xff0c;诱骗其点击恶意链接或者访问包含攻击代码的页面&#xff0c;在受害人不知情的…

【java】4-线程的状态

1. 线程状态的含义 线程在不同的时期具有不同的状态&#xff0c;线程状态是线程实例的一个非常重要的属性&#xff0c;我们可以通过状态看到当前线程究竟是在被创建&#xff0c;运行&#xff0c;阻塞还是已经中断&#xff0c;或是处于别的状态&#xff0c;以便更好地对于代码进…

ARM通用中断控制器GIC之中断控制

在阅读本章之前&#xff0c;可以参考笔者之前关于GIC的一些描述&#xff1a; ARM通用中断控制器GIC(generic Interrupt Controller)简介 ARM架构Generic Interrupt Controller(GIC)之Distributor和CPU interface功能介绍 ARM架构Generic Interrupt Controller(GIC)详解之术语…