阿里一面:如何将重复性比较高的 String 类型的地址信息从 20GB 降到几百兆?...

news2025/1/11 9:53:27

056ed8de9066d4d0e47cf4aedff3b129.jpeg

这次应该是互联网及软件行业的第三次寒潮,大家在寒潮中一定要继续保持学习,寒潮挺过去以后还是会迎来新的发展机遇。

有粉丝去阿里面试,跟码哥分享了其中一题面试问题「如何将重复性比较高的 String 类型的地址信息从 20GB 降到几百兆?」。

今天,码哥从多个角度带你完全攻克这个知识点,让面试官眼前一亮。

切入正文......

莫慌,今天给大家见识一下不一样的 String,从根上拿捏直达 G 点。

并且码哥分享一个例子:通过性能调优我们能实现百兆内存轻松存储几十 G 数据。

String对象是我们每天都「摸」的对象类型,但是她的性能问题我们却总是忽略。

爱她,不能只会简单一起玩耍,要深入了解String 的内心深处,做一个「心有猛虎,细嗅蔷薇」的暖男。

通过以下几点分析,我们一步步揭开她的衣裳,直达内心深处,提升一个 Level,让 String 直接起飞。

String 身体解密

想要深入了解,就先从基本组成开始……

「String 缔造者」对 String 对象做了大量优化来节省内存,从而提升 String 的性能:

714a4a5425b2c5a9e86f450615a2f3c4.png

Java 6 及之前

数据存储在 char[]数组中,String通过 offsetcount两个属性定位 char[] 数据获取字符串。

这样可以高效快速的定位并共享数组对象,并且节省内存,但是有可能导致内存泄漏。

共享 char 数组为啥可能会导致内存泄漏呢?

String(int offset, int count, char value[]) {
    this.value = value;
    this.offset = offset;
    this.count = count;
}

public String substring(int beginIndex, int endIndex) {
    //check boundary
    return  new String(offset + beginIndex, endIndex - beginIndex, value);
}

调用 substring() 的时候虽然创建了新的字符串,但字符串的值 value 仍然指向的是内存中的同一个数组,如下图所示:

3dcb38ba0799797928f734de630d5b50.png

如果我们仅仅是用 substring 获取一小段字符,而原始 string字符串非常大的情况下,substring 的对象如果一直被引用。

此时 String 字符串也无法回收,从而导致内存泄露。

如果有大量这种通过 substring 获取超大字符串中一小段字符串的操作,会因为内存泄露而导致内存溢出。

JDK7、8

去掉了 offsetcount两个变量,减少了 String 对象占用的内存。

substring 源码:

public String(char value[], int offset, int count) {
    this.value = Arrays.copyOfRange(value, offset, offset + count);
}

public String substring(int beginIndex, int endIndex) {
    int subLen = endIndex - beginIndex;
    return new String(value, beginIndex, subLen);
}

substring() 通过 new String() 返回了一个新的字符串对象,在创建新的对象时通过 Arrays.copyOfRange() 深度拷贝了一个新的字符数组。

如下图所示:

ca981257968f6c5139c66a26327071f9.png

String.substring 方法不再共享 char[]数组的数据,解决了可能内存泄漏的问题。

Java 9

char[]字段改为 byte[],新增 coder属性。

码哥,为什么这么改呢?

一个 char 字符占 2 个字节,16 位。存储单字节编码内的字符(占一个字节的字符)就显得非常浪费。

为了节约内存空间,于是使用了 1 个字节占 8 位的 byte 数组来存放字符串。

勤俭节约的女神,谁不爱……

新属性 coder 的作用是:在计算字符串长度或者使用 indexOf()方法时,我们需要根据编码类型来计算字符串长度。

coder 的值分别表示不同编码类型:

  • 0:表示使用 Latin-1 (单字节编码);

  • 1:使用UTF-16

String 的不可变性

了解了String 的基本组成之后,发现 String 还有一个比外在更性感的特性,她被 final关键字修饰,char 数组也是。

edd0bed271a262ba1e03d834317e4783.png

我们知道类被 final 修饰代表该类不可继承,而 char[]final+private 修饰,代表了 String 对象不可被更改。

String 对象一旦创建成功,就不能再对它进行改变。

Chaya:“String class 对象使用 final 修饰有什么好处?”

安全性

当你在调用其他方法时,比如调用一些系统级操作指令之前,可能会有一系列校验。

如果是可变类的话,可能在你校验过后,它的内部的值又被改变了,这样有可能会引起严重的系统崩溃问题。

高性能缓存

String不可变之后就能保证 hash值得唯一性,使得类似 HashMap容器才能实现相应的 key-value 缓存功能。

实现字符串常量池

由于不可变,才得以实现字符串常量池。

字符串常量池指的是在创建字符串的时候,先去「常量池」查找是否创建过该「字符串」;

如果有,则不会开辟新空间创建字符串,而是直接把常量池中该字符串的引用返回给此对象。

创建字符串的两种方式:

  • String str1 = “码哥字节”;

  • String str2 = new String(“码哥字节”);

当代码中使用第一种方式创建字符串对象时,JVM 首先会检查该对象是否在字符串常量池中,如果在,就返回该对象引用。

否则新的字符串将在常量池中被创建,并返回该引用。

这样可以减少同一个值的字符串对象的重复创建,节约内存。

第二种方式创建,在编译类文件时,"码哥字节" 字符串将会放入到常量结构中,在类加载时,“码哥字节" 将会在常量池中创建;

在调用 new 时,JVM 命令将会调用 String 的构造函数,在堆内存中创建一个 String 对象,同时该对象指向「常量池」中的“码哥字节”字符串,str 指向刚刚在堆上创建的 String 对象;

如下图:

c5a2b4ed62a180cb646fab212cb63818.png

什么是对象和对象引用呀?

str 属于方法栈的字面量,它指向堆中的 String 对象,并不是对象本。

对象在内存中是一块内存地址,str 则是指向这个内存地址的引用。

也就是说 str 并不是对象,而只是一个对象引用。

码哥,字符串的不可变到底指的是什么呀?

String str = "Java";
str = "Java,yyds"

第一次赋值 「Java」,第二次赋值「Java,yyds」,str 值确实改变了,为什么我还说 String 对象不可变呢?

这是因为 str 只是 String 对象的引用,并不是对象本身。

真正的对象依然还在内存中,没有被改变。

优化实战

了解了 String 的对象实现原理和特性,是时候要深入女神内心,结合实际场景,如何更上一层楼优化 String 对象的使用。

大量字符串拼接对象如何优化

既然 String 对象是不可变,所以我们在频繁拼接字符串的时候是否意味着创建多个对象呢?

String str = "癞蛤蟆撩青蛙" + "长的丑" + "玩的花";

上面你的代码,你是不是以为先生成「癞蛤蟆撩青蛙」对象,再生成「癞蛤蟆撩青蛙长的丑」对象,最后生成「癞蛤蟆撩青蛙长得丑玩的花」对象。

实际运行中,只有一个对象生成。

Chaya:这是为什么呢?

虽然代码写的丑陋,但是编译器自动优化了代码。再看下面例子:

String str = "小青蛙";

for(int i=0; i<1000; i++) {
     str += i;
}

上面的代码编译后,你可以看到编译器同样对这段代码进行了优化。

Java 在进行字符串的拼接时,JVM 编译器会把上述代码优化,偏向使用 StringBuilder,这样可以提高程序的效率。优化后的代码如下。

String str = "小青蛙";

for(int i=0; i<1000; i++) {
            str = (new StringBuilder(String.valueOf(str))).append(i).toString();
}

即使如此,还是循环内重复创建 StringBuilder对象。

敲黑板

所以做字符串拼接的时候,我建议你还是要显示地使用 String Builder 来提升系统性能。

如果在多线程编程中,String 对象的拼接涉及到线程安全,你可以使用 StringBuffer。

重复性高的 String 信息优化

重点在于使用运用 intern 节省内存。直接看intern() 方法的定义与源码:

04b96f223729c2592fdd00b8c5def4b8.png

intern() 是一个本地方法,它的定义中说的是,当调用 intern 方法时,如果字符串常量池中已经包含此字符串,则直接返回此字符串的引用。

否则将此字符串添加到常量池中,并返回字符串的引用。

如果不包含此字符串,先将字符串添加到常量池中,再返回此对象的引用。

Chaya:什么情况下适合使用 intern() 方法?

Twitter 工程师曾分享过一个 String.intern() 的使用示例,Twitter 每次发布消息状态的时候,都会产生一个地址信息,以当时 Twitter 用户的规模预估,服务器需要 20G 的内存来存储地址信息。

public class Location {
    private String city;
    private String region;
    private String countryCode;
    private double longitude;
    private double latitude;
}

考虑到其中有很多用户在地址信息上是有重合的,比如,国家、省份、城市等,这时就可以将这部分信息单独列出一个类,以减少重复,代码如下:

public class SharedLocation {

  private String city;
  private String region;
  private String countryCode;
}

public class Location {

  private SharedLocation sharedLocation;
  double longitude;
  double latitude;
}

通过优化,数据存储大小减到了 20G 左右。

但对于内存存储这个数据来说,依然很大,怎么办呢?

Twitter 工程师使用 String.intern() 使重复性非常高的地址信息存储大小从 20G 降到几百兆,从而优化了 String 对象的存储。

核心代码如下:

SharedLocation sharedLocation = new SharedLocation();
sharedLocation.setCity(messageInfo.getCity().intern());
sharedLocation.setCountryCode(messageInfo.getRegion().intern());
sharedLocation.setRegion(messageInfo.getCountryCode().intern());

弄个简单例子方便理解:

String a =new String("abc").intern();
String b = new String("abc").intern();

System.out.print(a==b);

输出结果:true

在加载类的时候会在常量池中创建一个字符串对象,内容是「abc」。

创建局部 a 变量时,调用 new Sting() 会在堆内存中创建一个 String 对象,String 对象中的 char 数组将会引用常量池中字符串。

在调用 intern 方法之后,会去常量池中查找是否有等于该字符串对象的引用,有就返回引用。

创建 b 变量时,调用 new Sting() 会在堆内存中创建一个 String 对象,String 对象中的 char 数组将会引用常量池中字符串。

在调用 intern 方法之后,会去常量池中查找是否有等于该字符串对象的引用,有就返回引用给局部变量。

而刚在堆内存中的两个对象,由于没有引用指向它,将会被垃圾回收。

所以 a 和 b 引用的是同一个对象。

字符串分割优化

split() 方法使用了正则表达式实现了其强大的分割功能,而正则表达式的性能是非常不稳定的。

使用不恰当会引起回溯问题,很可能导致 CPU 居高不下。

Java 正则表达式使用的引擎实现是 NFA(Non deterministic Finite Automaton,确定型有穷自动机)自动机,这种正则表达式引擎在进行字符匹配时会发生回溯(backtracking),而一旦发生回溯,那其消耗的时间就会变得很长,有可能是几分钟,也有可能是几个小时,时间长短取决于回溯的次数和复杂度。

所以我们应该慎重使用 split() 方法,我们可以用String.indexOf()方法代替 split() 方法完成字符串的分割。

最后,出一个问题给大家,欢迎在评论区留言。

通过三种不同的方式创建了三个对象,再依次两两匹配,每组被匹配的两个对象是否相等?代码如下:

String str1 = "abc";
String str2 = new String("abc");
String str3 = str2.intern();
assertSame(str1 == str2);
assertSame(str2 == str3);
assertSame(str1 == str3)

博主简介

码哥,9 年互联网公司后端工作经验,InfoQ 签约作者、51CTO Top 红人,阿里云开发者社区专家博主,目前担任后端架构师主责,擅长 Redis、Spring、Kafka、MySQL技术和云原生微服务。

喜欢的可以给个关注,也可以在公众号后台回复“资料”下载我原创300多页的《Redis 高手心法》。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1591140.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

linux创建文件、linux创建文件的几种方式、touch、echo、cat、vi、vim

文章目录 一、创建文件1.1、touch1.2、echo1.3、cat1.4、vi或vim 一、创建文件 1.1、touch touch命令&#xff1a;用于创建一个新的空文件或者更新已存在文件的访问和修改时间。 &#xff08;1&#xff09;如果目标文件不存在&#xff0c;则新建一个文件 touch demo.txt&am…

AcWing 1388. 游戏(每日一题)

原题链接&#xff1a;1388. 游戏 - AcWing题库 玩家一和玩家二共同玩一个小游戏。 给定一个包含 N 个正整数的序列。 由玩家一开始&#xff0c;双方交替行动。 每次行动可以在数列的两端之中任选一个数字将其取走&#xff0c;并给自己增加相应数字的分数。&#xff08;双方…

Vscode设置滚轮进行字体大小的调节

Vscode设置滚轮进行字体大小的调节 正常的话按 ctrl 或者 ctrl - 进行字体的大小调节 1.打开Vscode&#xff0c;找打设置的图标&#xff0c;在点击设置&#xff0c;或者直接使用快捷键&#xff0c;【ctrl ,】 2. 在搜索框搜索Font Ligatures 3.双击进入settings.json ,找到如…

[大模型]# Yi-6B-Chat Lora 微调

Yi-6B-Chat Lora 微调 概述 本节我们介绍如何基于 transformers、peft 等框架&#xff0c;对 Yi-6B-Chat 模型进行 Lora 微调。Lora 是一种高效微调方法&#xff0c;深入了解其原理可参见博客&#xff1a;知乎|深入浅出Lora。 本节所讲述的代码脚本在同级目录 04-Yi-6B-Chat…

【教学类-52-04】20240412动物数独(4宫格)空1-空15

作品展示 背景需求&#xff1a; 【教学类-52-03】20240412动物数独&#xff08;4宫格&#xff09;难度1-9 打印版-CSDN博客文章浏览阅读603次&#xff0c;点赞20次&#xff0c;收藏8次。【教学类-52-03】20240412动物数独&#xff08;4宫格&#xff09;难度1-9 打印版https://…

Razzashi Raptor

拉扎什迅猛龙 Razzashi Raptor 95000金&#xff08;游戏币&#xff09;比老虎便宜多了&#xff0c;捡漏啊 为啥我开团都不出&#xff0c;很生气&#xff0c;去打架&#xff01;&#xff01;

【题目】【信息安全管理与评估】2022年国赛高职组“信息安全管理与评估”赛项样题2

【题目】【信息安全管理与评估】2022年国赛高职组“信息安全管理与评估”赛项样题2 信息安全管理与评估 网络系统管理 网络搭建与应用 云计算 软件测试 移动应用开发 任务书&#xff0c;赛题&#xff0c;解析等资料&#xff0c;知识点培训服务 添加博主wx&#xff1a;liuliu548…

在线药房数据惨遭Ransomhub窃取,亚信安全发布《勒索家族和勒索事件监控报告》

本周态势快速感知 本周全球共监测到勒索事件119起&#xff0c;与上周相比勒索事件有所增长。 本周Blacksuit是影响最严重的勒索家族&#xff0c;Ransomhub和Blackbasta恶意家族紧随其后&#xff0c;从整体上看Lockbit3.0依旧是影响最严重的勒索家族&#xff0c;需要注意防范。…

《五》QListWidget列表框

QListWidgetQListWidget和QListWidgetItem QListWidget 是qt中的列表框控件&#xff0c;它用于显示多个列表项&#xff0c;列表项对应的类是QListWidgetItem. QListWidget列表框的创建 QListWidget 类的继承关系如下&#xff1a; QListWidget -> QListView -> QAbs…

SonarQube 9.9.4 LTS社区版安装

目标 安装个SonarQube社区版. 安装SonarQube9.9.4 LTS社区版 https://binaries.sonarsource.com/Distribution/sonarqube/sonarqube-9.9.4.87374.zip # 切换到安装目录 cd /opt # 下载安装包 sudo wget https://binaries.sonarsource.com/Distribution/sonarqube/sonarqube…

中国移动校园招聘相关笔试题整理

目录 公司文化文档更新时间 公司文化 24年的 改正地方&#xff1a; 世界电信日&#xff1a;1969年5月17日18年的企业文化题 改正地方&#xff1a; 中国移动企业发展定位是&#xff1a;世界一流企业 中国移动的企业文化体系主要由核心价值观、使命和愿景三部分构成。 核心价值观…

基于Springboot的自习室预订系统

基于SpringbootVue的自习室预订系统的设计与实现 开发语言&#xff1a;Java数据库&#xff1a;MySQL技术&#xff1a;SpringbootMybatis工具&#xff1a;IDEA、Maven、Navicat 系统展示 用户登录页 网站首页 公告信息 留言反馈 后台管理 学生信息管理 公告信息管理 留言…

004Node.js常用快捷键

1.常用的终端命令&#xff1a; &#xff08;1&#xff09;del 文件名&#xff1a; 删除文件 &#xff08;2&#xff09;ipconfig: 查看IP命令 &#xff08;3&#xff09;mkdir 目录名 &#xff1a;在当前目录新建指定目录 &#xff08;4&#xff09;rd 目录名&#xff1a;在当前…

面经:Cassandra分布式NoSQL数据库深度解读

作为一位热衷于分享技术知识的博主&#xff0c;我深知在当今大数据时代&#xff0c;掌握分布式数据库尤其是Apache Cassandra的原理与实践对于提升个人技能和应对面试挑战的重要性。本篇博客将从我的面试经验出发&#xff0c;结合对Cassandra核心特性的理解&#xff0c;深入探讨…

万兆以太网MAC设计(3)MAC_RX模块添加CRC

文章目录 前言一、并行CRC处理二、添加CRC处理的MAC_RX模块三、总结 前言 上文介绍的MAC_RX模块实现了接受字节对齐的功能&#xff0c;但是尾端存在4字节CRC校验未处理。 一、并行CRC处理 前面在千兆以太网里对CRC代码和使用进行了介绍&#xff0c;千兆里面数据是一个一个by…

c++24.4.13-const修饰指针

1、const修饰指针-常量指针 2、const修饰常量-指针常量 3、const既修饰指针又修饰常量 示例

使用yolov8实现自动车牌识别(教程+代码)

该项目利用了一个被标记为“YOLOv8”的目标检测模型&#xff0c;专门针对车牌识别任务进行训练和优化。整个系统通常分为以下几个核心步骤&#xff1a; 数据准备&#xff1a; 收集包含车牌的大量图片&#xff0c;并精确地标记车牌的位置和文本信息。数据集可能包含各种环境下的…

这家动画公司,女神表情灵动秒杀90%的国漫女角色!

当3D国漫市场逐渐加入“内卷”的行列&#xff0c;从大的底层创作引擎UE的运用迭代&#xff0c;到细节的人物动捕、面捕技术的实际结合&#xff0c;在这场内卷的百舸争流中&#xff0c;涌现出一家家风格各异的头部国漫制作公司&#xff1a;有整体偏写实风格的原力动画&#xff0…

Vue3——html-doc-ja(html导出为word的js库)

一、下载 官方地址 html-doc-js - npm npm install html-doc-js 二、使用方法 // 使用页面中引入 import exportWord from html-doc-js// 配置项以及实现下载方法 const wrap document.getElementById(test)const config {document:document, //默认当前文档的document…

C++类和对象中上篇

1.类的6个默认成员函数 如果一个类中什么成员都没有&#xff0c;那就简称他为空类。 空类中真的什么都没有吗&#xff1f;并不是&#xff0c;任何类在什么都不写时&#xff0c;编译器会自动生成以下6个默认成员函数。 默认成员函数&#xff1a;用户没有显式实现&#xff0c;…