试题----为什么Java的string类要设成immutable(不可变的)

转http://blog.sina.com.cn/s/blog_64d0b03c0101ibi9.html

什么是不可变对象(immutable object),不可变对象有什么好处，在什么情况下应该用，或者更具体一些，Java的String类为什么要设成immutable类型？

不可变对象，顾名思义就是创建后不可以改变的对象，典型的例子就是Java中的String类，

String s = "ABC"; s.toLowerCase();

s..toLowerCase()并没有改变“ABC”的值，而是创建了一个新的String类”abc”,然后将新的实例的指向变量s。

相对于可变对象，不可变对象有很多优势:

1）不可变对象可以提高String Pool的效率和安全性。如果你知道一个对象是不可变的，那么需要拷贝这个对象的内容时，就不用复制它的本身而只是复制它的地址，复制地址（通常一个指针的大小）需要很小的内存效率也很高。对于同时引用这个“ABC”的其他变量也不会造成影响。
2）不可变对象对于多线程是安全的，因为在多线程同时进行的情况下，一个可变对象的值很可能被其他进程改变，这样会造成不可预期的结果，而使用不可变对象就可以避免这种情况。
3)当然也有其他方面原因，但是最Java把String设成immutable最大的原因应该就是效率和安全的。

String和StringBuffer都是final类，他们生成的对象在堆中都是不可变的，在他们内部都是靠属性char数组实现的,那为什么StringBuffer可以在对象中追加字符串呢？呵呵，因为String中的char数组是finall的，也就是常量，是不可改变的，而StringBuffer继承自抽象类AbstractStringBuilder，他的内部实现靠他的父类完成，AbstractStringBuilder内的char数组是变量，可以用append追加StringBuffer和StringBuilder都实现了AbstractStringBuilder抽象类，此抽象类实现Appendable接口因此可追加

（在JDK 6.0 API中StringBuilder和Stringbuff写着都继承自Object 而且在他的API中找不到AbstractStringBuilder类）

首先，必须强调一点：String Pool不是在堆区，也不是在栈区，而是存在于方法区（Method Area）

解析：

String Pool是常量池（Constant Pool）中的一块。

我们知道，常量就是不可以再改变的值，给它建一个池子很明显是为了加快程序运行的速度；在一个程序中，常量和变量是相对存在的；变量因为可变性所以一般存在于栈中，而常量去作为一个特殊群体被存在在常量池中。

常量池(constant pool)指的是在编译期被确定，并被保存在已编译的.class文件中的一些数据。--- （很明显在方法区）,它包括了关于类、方法、接口等中的常量，也包括字符串常量（这个就是Sring Pool啦）。

在编译好的class文件中,有个区域称为Constant Pool,它是一个由数组组成的表，类型为cp_info constant_pool[],用来存储程序中使用的各种常量,包括Class/String/Integer等各种基本Java数据类型。

上面这些，简单理解：一个Class类，它里面有常量的存在，比如 int a=10;String b="123450"；它们在JVM看来就是常量(当然在方法中可能被修改啦)，在Class被加载时，JVM特意都把它放在一个数组中维护起来，并且把该数组放在方法区中，起名叫常量池。

常量池存在于方法区，它包含各种类型的常量（8个基本数据类型，包装类型等）

我们把常量池中的String Pool中的常量作为对象来看待 --- 因为String就是对象，String类型的常量自然也是对象啦！

比如：

String str1 = new String("Hello");

它创建了2个对象，一个是堆中的String对象，一个是String Pool中的String对象。

要理解Java中String的运作方式，必须明确一点：String是一个非可变类（immutable）。什么是非可变类呢？简单说来，非可变类的实例是不能被修改的，每个实例中包含的信息都必须在该实例创建的时候就提供出来，并且在对象的整个生存周期内固定不变。Java为什么要把String设计为非可变类呢？你可以问问 james Gosling ：）。但是非可变类确实有着自身的优势，如状态单一，对象简单，便于维护。其次，该类对象对象本质上是线程安全的，不要求同步。此外用户可以共享非可变对象，甚至可以共享它们的内部信息。（详见《Effective java》item 13）。String类在java中被大量运用，甚至在class文件中都有其身影，因此将其设计为简单轻便的非可变类是比较合适的。

一、创建。
好了，知道String是非可变类以后，我们可以进一步了解String的构造方式了。创建一个Stirng对象，主要就有以下两种方式：

java 代码

 String str1 = new String("abc");    
 Stirng str2 = "abc";

虽然两个语句都是返回一个String对象的引用，但是jvm对两者的处理方式是不一样的。对于第一种，jvm会马上在heap中创建一个String对象，然后将该对象的引用返回给用户。对于第二种，jvm首先会在内部维护的String Pool中通过String的 equals 方法查找是对象池中是否存放有该String对象，如果有，则返回已有的String对象给用户，而不会在heap中重新创建一个新的String对象；如果对象池中没有该String对象，jvm则在heap中创建新的String对象，将其引用返回给用户，同时将该引用添加至String Pool中。注意：使用第一种方法创建对象时，jvm是不会主动把该对象放到String Pool
里面的，除非程序调用 String的intern方法。

看下面的例子：

java 代码

 String str1 = new String("abc"); //jvm 在堆上创建一个String对象   
  
 //jvm 在strings pool中找不到值为“abc”的字符串，因此   
 //在堆上创建一个String对象，并将该对象的引用加入至strings pool中   
 //此时堆上有两个String对象   
Stirng str2 = "abc";   
  
 if(str1 == str2){   
         System.out.println("str1 == str2");   
 }else{   
         System.out.println("str1 != str2");   
 }   
  //打印结果是 str1 != str2,因为它们是堆上两个不同的对象   
  
  String str3 = "abc";   
 //此时，jvm发现String Pool中已有“abc”对象了，因为“abc”equals “abc”   
 //因此直接返回str2指向的对象给str3，也就是说str2和str3是指向同一个对象的引用   
  if(str2 == str3){   
         System.out.println("str2 == str3");   
  }else{   
         System.out.println("str2 != str3");   
  }   
 //打印结果为 str2 == str3

再看下面的例子：

java 代码

 String str1 = new String("abc"); //jvm 在堆上创建一个String对象   
  
str1 = str1.intern();   
//程序显式将str1放到String Pool中，intern运行过程是这样的：首先查看String Pool   
//有没“abc”对象的引用，没有，则在堆中新建一个对象，然后将新对象的引用加入至   
//String Pool中。执行完该语句后，str1原来指向的String对象已经成为垃圾对象了，随时会   
//被GC收集。   
  
//此时，jvm发现String Pool中已有“abc”对象了，因为“abc”equals “abc”   
//因此直接返回str1指向的对象给str2，也就是说str2和str1引用着同一个对象，   
//此时，堆上的有效对象只有一个。   
Stirng str2 = "abc";   
  
 if(str1 == str2){   
         System.out.println("str1 == str2");   
 }else{   
         System.out.println("str1 != str2");   
 }   
  //打印结果是 str1 == str2

为什么jvm可以这样处理String对象呢？就是因为String的非可变性。既然所引用的对象一旦创建就永不更改，那么多个引用共用一个对象时互不影响。

二、串接（Concatenation）。
java程序员应该都知道滥用String的串接操作符是会影响程序的性能的。性能问题从何而来呢？归根结底就是String类的非可变性。既然String对象都是非可变的，也就是对象一旦创建了就不能够改变其内在状态了，但是串接操作明显是要增长字符串的，也就是要改变String的内部状态，两者出现了矛盾。怎么办呢？要维护String的非可变性，只好在串接完成后新建一个String 对象来表示新产生的字符串了。也就是说，每一次执行串接操作都会导致新对象的产生，如果串接操作执行很频繁，就会导致大量对象的创建，性能问题也就随之而来了。
为了解决这个问题，jdk为String类提供了一个可变的配套类，StringBuffer。使用StringBuffer对象，由于该类是可变的，串接时仅仅时改变了内部数据结构，而不会创建新的对象，因此性能上有很大的提高。针对单线程，jdk 5.0还提供了StringBuilder类，在单线程环境下，由于不用考虑同步问题，使用该类使性能得到进一步的提高。

三、String的长度
我们可以使用串接操作符得到一个长度更长的字符串，那么，String对象最多能容纳多少字符呢？查看String的源代码我们可以得知类String中是使用域 count 来记录对象字符的数量，而count 的类型为 int，因此，我们可以推测最长的长度为 2^32，也就是4G。
不过，我们在编写源代码的时候，如果使用 Sting str = "aaaa";的形式定义一个字符串，那么双引号里面的ASCII字符最多只能有 65534 个。为什么呢？因为在class文件的规范中， CONSTANT_Utf8_info表中使用一个16位的无符号整数来记录字符串的长度的，最多能表示 65536个字节，而java class 文件是使用一种变体UTF-8格式来存放字符的，null值使用两个字节来表示，因此只剩下 65536－ 2 ＝ 65534个字节。也正是变体UTF-8的原因，如果字符串中含有中文等非ASCII字符，那么双引号中字符的数量会更少（一个中文字符占用三个字节）。如果超出这个数量，在编译的时候编译器会报错。