为什么要把 String 设计成不可变的呢?有什么好处呢?
这个问题,困扰过很多人,甚至有人直接问过 Java 的创始人 James Gosling。
在一次采访中 James Gosling 被问到什么时候应该使用不可变变量,他给出的回答是:
I would use an immutable whenever i can.
那么,他给出这个答案背后的原因是什么呢?是基于哪些思考呢?
其实,主要是从缓存、安全性、线程安全和性能等角度触发的。
缓存
字符串是使用最广泛的数据结构。大量字符串的创建始非常耗费资源的,所以,Java 提供了对字符串的缓存功能,可以大大的节省堆空间。
JVM 中专门开辟了一部分空间来存储 Java 字符串,那就是字符串池。
通过字符串池,两个内容相同的字符串变量,可以从池中指向同一个字符串对象,从而节省了关键的内存资源。
String s="abc";
String s2=s;
对于这个例子, s 和 s2 都表示 “abc”,所以他们会指向字符串池中的同一个字符串对象:
但是,之所以可以这么做,主要是因为字符串的不变性。试想一下,如果字符串是可变的,我们一旦修改了 s 的内容,那必然导致 s2 的内容也被动的改变了,这显然不是我们想看到的。
安全性
字符串在 Java 应用程序中广泛用于存储敏感信息,如用户名、密码、连接 url、网络连接等。JVM 类加载器在加载类的时候也广泛地使用它。
因此,保护 String 类对于提升整个应用程序的安全性至关重要。
当我们在程序中传递一个字符串的时候,如果这个字符串的内容是不可变的,那么我们就可以相信这个字符串中的内容。
但是,如果是可变的,那么这个字符串内容就可能随时都被修改。那么这个字符串内容就完全不可信了。这样整个系统就没有安全性可言了。
线程安全
不可变会自动使字符串成为线程安全的,因为当从多个线程访问它们时,它们不会被更改。
因此,一般来说,不可变对象可以在同时运行的多个线程之间共享。它们也是线程安全的,因为如果线程更改了值,那么将在字符串池中创建一个新的字符串,而不是修改相同的值。因此,字符串对于多线程来说是安全的。
hashcode 缓存
由于字符串对象被广泛地用作数据结构,它们也被广泛地用于哈希实现,如 HashMap、HashTable、HashSet 等。在对这些散列实现进行操作时,经常调用 hashCode() 方法。
不可变性保证了字符串的值不会被改变。因此,hashCode() 方法在 String 类中被重写,以方便缓存,这样在第一次 hashCode() 调用期间计算和缓存散列,并从那时起返回相同的值。
在 String 类中,有以下代码:
/** Cache the hash code for the string */
private int hash; // Default to 0
性能
前面提到了的字符串池、hashcode 缓存等,都是提升性能的体现。
因为字符串不可变,所以可以用字符串池缓存,可以大大节省堆内存。而且还可以提前堆 hashcode 进行缓存,更加高效。
由于字符串是应用最广泛的数据结构,提高字符串的性能对提高整个应用程序的总体性能有相当大的影响。