剖析字符串与数组的底层实现
字符串jdk8和jdk9的区别
jdk8:底层是一个char[]数组
jdk9及之后:底层是一个byte[]数组
一个中文占两个字节,一个char占两个字节,一个byte占一个字节
Jdk9及之后的版本中,多了一个code属性,这个属性标记是告诉调用者按几个字节来取的问题,
如果按byte存储的话,存不是什么问题,问题是如何取呢?
String在9版本之后是根据code属性来区分的:
如果是英文则按照LATIN编码格式,1个字节1个字节地取
如果是中文则按照UTF16两个字节来取
JDK9的字符串去重:
G1:经历了三次GC,-XX:+UseG1GC -XX:+UseStringDeduplication
底层原理:用== 判断不是同一个字符串,内容是否相等
优缺点:它是一个CPU密集型的
String类重写了hashCode方法
可以看出String的hashcode与String的内容是有关系的
String类也重写了equals方法
为什么要重写?因为再使用String创建对象时,我们并不关注它的内存地址,更专注它的内容,所以进行了重写
不同方式创建字符串在JVM中的存在形式
双引号
这种方式创建的字符串对象,只会在常量池中。因为"11"这个字面量,创建对象s1的时候,JVM会先去常量池中通过equals(key)方法,判断是否有相同的对象。
如果有,则直接返回该对象在常量池中的引用;
如果没有,则会在常量池中创建一个新对象,再返回引用
new String
这种方式会保证字符串常量池和堆中都有这个对象,没有就创建,最后返回堆内存中的对象印象。
步骤大致如下:
因为有"11"这个字面量,所以会先检查字符串常量池中是否存在字符串"11"
不存在,先在字符串常量池里创建一个字符串对象;再去堆内存中创建一个字符串对象"11";
存在的话,就直接去堆内存中创建一个字符串对象"11";
最后,将堆内存中的引用返回
这是1.7已上的做法了
两个双引号
两个new String
拼接字符串底层是如何实现的
StringBuilder拼接而成的字面量是不会放入到常量池中的
双引号 + 双引号
双引号 + new String
intern方法
native方法,作用是"如果常量池中存在当前字符串,就会直接返回当前字符串。如果常量池中没有此字符串,会将此字符串放入常量池中后,再返回"。如图所示。它的大体实现结构是JAVA使用JNI调用C++实现的StringTable的intern方法,StringTable的intern方法跟Java中的HashMap的实现是差不多的,只是不能自动扩容。默认大小是1009.要注意的是String的StringPool是一个固定大小的Hashtable,默认值大小是1009,如果放进StringPool的String非常多,就会造成Hash冲突严重,从而导致链表会很长,而链表长了后直接会造成的影响就是当调用String.inern时性能会大幅下降(因为要一个一个找)。
在JDK6中StringTable是固定的,就是1009的长度,所以如果常量池中的字符串过多就会导致效率下降很快。在JDK7中,StringTable的长度可以通过一个参数执行:-XX:StringTableSize=99991.
String s = new String(“abc”);
在上面的语句中创建了两个对象,第一个对象是"abc"字符串存储在常量池中,第二个对象是在Java Heap中的String对象
如果StringTable单链表查找超过100次触发rehash
String s1 = “cover”;
String s2 = s1.intern();
System.out.println(s1 == s2); // false
在JDK1.6中需要将s1复制到字符串常量池里