JVM(二)--运行时数据区

1、HotSpot虚拟机的内存布局

　　内存是非常重要的系统资源，是硬盘和CPU的中间仓库及桥梁，承载着操作系统和应用程序的实时运行。JVM内存布局规定了Java在运行过程中内存申请、分配、管理的策略，保证了JVM的高效稳定运行。不同的JVM对于内存的划分方式和管理机制存在着部分差异。下面是HotSpot虚拟机的内存布局。

　　Java虚拟机定义了若干种程序运行期间会使用到的运行时数据区，其中有一些会随着虚拟机启动而创建，随着虚拟机退出而销毁。另外一些则是与线程一一对应的，这些与线程对应的数据区会随着线程开始和结束而创建或销毁。

　　上图中灰色的为单独线程私有的，红色的为多个线程共享的。即：

　　　　- 每个线程：独立包括程序计数器、栈、本地栈

　　　　- 线程间共享：堆、堆外内存（永久代或元空间、代码缓存）

2、线程

　　线程是一个程序里的运行单元。JVM允许一个应用有多个线程并行的执行。

　　在HotSpot JVM里，每个线程都与操作系统的本地线程直接映射。当一个Java线程准备好执行以后，此时一个操作系统的本地线程也同时创建。Java线程执行终止后，本地线程也会回收。操作系统负责所有线程的安排调度到任何一个可用的CPU上。一旦本地线程初始化成功，它就会调用Java线程中的run()方法。

3、程序计数器（PC寄存器）

　　PC Register: JVM中的程序计数寄存器（Program Counter Register）中，Register的命名源于CPU的寄存器，寄存器存储指令相关的现场信息。CPU只有把数据装载到寄存器才能够运行。这里，并非是广义上所指的物理寄存器，或许将其翻译为PC计数器（或指令计数器）会更加贴切（也称为程序钩子），并且也不容易引起一些不必要的误会。JVM中的PC寄存器是对物理PC寄存器的一种抽象模拟。

　　PC Register作用：用来存储指向下一条指令的地址，也即将于执行的指令代码。由执行引擎读取下一条指令。

　　它是一块很小的内存空间，几乎可以忽略不计。也是运行速度最快的存储区域。在JVM规范中，每个线程都有它自己的程序计数器，是线程私有的，生命周期与线程的生命周期保持一致。任何时间一个线程都只有一个方法在执行，也就是所谓的当前方法。程序计数器会存储当前线程正在执行的Java方法的JVM指令地址；或者，如果是执行native方法，则是未指定值（undefined）。

　　它是程序控制流的指示器，分支、循环、跳转、异常处理、线程恢复等基础功能都需要依赖这个计数器来完成。

　　字节码解释器工作时就是通过改变这个计数器的值来选取下一条需要执行的字节码指令。它是唯一一个在Java 虚拟机规范中没有规定任务 OutOfMemoryError情况的区域。

　　PC Register在字节码指令执行过程的作用示意图：

　　问题1：使用PC寄存器存储字节码指令地址有什么用呢？为什么要使用PC寄存器记录当前线程的执行地址呢？

　　因为CPU需要不停的切换各个线程，这个时候切换回来以后，就要知道接着从哪开始继续执行。JVM的字节码解释器就需要通过改变PC寄存器的值来明确下一条应该执行哪条字节码指令。

　　问题2：PC寄存器为什么被设定为线程私有？

　　我们都知道所谓的多线程在一个特定的时间段内只会执行其中某一个线程的方法，CPU会不停地做任务切换，这样必然导致经常中断或恢复，如何保证分毫无差呢？为了能够准确地记录各个线程正在执行的当前字节码指令地址，最好的办法自然是为每一个线程都分配一个PC寄存器，这样一来各个线程之间便可以进行独立计算，从而不会出现相互干扰的情况。

　　由于CPU时间片轮限制，众多线程在并发执行过程中，任何一个确定的时刻，一个处理器或者多核处理器中的一个内核，只会执行某个线程中的一条指令。

　　这样必然导致经常中断或恢复，如何保证分毫无差呢？每个线程在创建后，都会产生自己的程序计数器和栈幁，程序计数器在各个线程之间互不影响。

4、虚拟机栈

4.1、虚拟机栈出现的背景

　　由于跨平台性的设计，Java的指令都是根据栈来设计的。不同平台CPU架构不同，所以不能设计为基于寄存器的。

　　基于栈的架构，优点是：跨平台，指令集小，编译器容易实现，缺点是性能下降，实现同样的功能需要更多的指令。

4.2、内存中的栈与堆

　　栈是运行时的单位，而堆是存储的单位。即：栈解决程序的运行问题，即程序如何执行，或者说如何处理数据。堆解决的是数据存储的问题，即数据怎么放、放在哪儿。

4.3、虚拟机栈基本内容

　　Java虚拟机栈是什么：Java虚拟机栈（Java Virtual Machine Stack），早期也叫Java栈。每个线程在创建时都会创建一个虚拟机栈，其内部保存一个个的栈幁（Stack Frame），对应着一次次的Java方法调用。

　　Java虚拟机栈是线程私有的。生命周期和线程一致。

　　作用：主管Java程序的运行，保存方法的局部变量（8种基本数据类型、对象的引用地址）、部分结果，并参与方法的调用和返回。

　　栈的特点（优点）

　　　　- 栈是一种快速有效的分配存储方式，访问速度仅次于程序计数器。

　　　　- JVM直接对Java栈的操作只有两个：每个方法执行，伴随着进栈（入栈、压栈），执行结束后的出栈

　　　　- 对于栈来说，不存在垃圾回收问题（GC）

4.4、栈中可能出现的异常

　　Java虚拟机规范允许Java栈的大小是动态的或者固定不变的。

　　如果采用固定大小的Java虚拟机栈，那每一个线程的Java虚拟机栈容量可以在线程创建的时候独立选定。如果线程请求分配的栈容量超过Java虚拟机允许的最大容量，Java虚拟机将会抛出一个 StackOverflowError 异常。

　　如果Java虚拟机栈可以动态扩展，并且在尝试扩展的时候无法申请到足够的内存，或者在创建新的线程时没有足够的内存取创建对应的虚拟机栈，那Java虚拟机将会抛出一个 OutOfMemoryError 异常。

　　简单演示 StackOverflowError 异常

public class Demo {
    public static void main(String[] args) {
        main(args);
    }
}

Exception in thread "main" java.lang.StackOverflowError
    at com.oy.Demo.main(Demo.java:6)
    at com.oy.Demo.main(Demo.java:6)
    at com.oy.Demo.main(Demo.java:6

4.5、设置栈内存大小

　　可以使用参数 -Xss 选项类设置线程的最大栈空间，栈的大小直接决定了函数调用的最大可达深度。

　　eclipse 设置：选中项目->右键，Run As -> Run Configurations...

　　栈空间最小设置

The stack size specified is too small, Specify at least 108k

　　测试Demo：设置栈空间

public class Demo {
    private static int count = 0;
    public static void main(String[] args) {
        try {
            recursion();
        } catch (Throwable e) {
            System.out.println("deep of calling = " + count);
            e.printStackTrace();
        }
    }
    public static void recursion() {
        count++;
        recursion();
    }
}

deep of calling = 23097
java.lang.StackOverflowError
    at com.oy.Demo.recursion(Demo.java:15)
    at com.oy.Demo.recursion(Demo.java:15)

// 栈空间设置为 108k
deep of calling = 1101
// 栈空间设置为 1m
deep of calling = 22790
// 栈空间设置为 10m
deep of calling = 259134

　　测试时发现，设置 -Xss1k，不会报错，只是不会生效，仍然是默认的值。设置为-Xss10k报错：

The stack size specified is too small, Specify at least 108k

4.6、栈的存储结构和运行原理

栈中存储什么？

　　- 每个线程都有自己的栈，栈中的数据都是以栈幁（Stack Frame）的格式存在。

　　- 在这个线程正在执行的每个方法都各自对应一个栈幁（Stack Frame）

　　- 栈幁是一个内存区块，是一个数据集，维系着方法执行过程中的各种数据信息。

栈运行原理

　　- JVM直接对Java栈的操作只有两个，就是对栈幁的压栈和出栈，遵循"先进后出"/"后进先出"原则。

　　- 在一条活动线程中，一个时间点上，只会有一个活动的栈幁。即只有当前正在执行的方法的栈幁（栈顶栈幁）是有效的，这个栈幁被称为当前栈幁（Current Frame），与当前栈幁相对应的方法就是当前方法（Current Method），定义这个方法的类就是当前类（Current Class）。

　　- 执行引擎运行的所有字节码指令只针对当前栈幁进行操作

　　- 如果在该方法中调用了其他方法，对应的新的栈幁会被创建出来，放在栈的顶端，称为新的当前幁

　　- 不同线程中包含的栈幁是不允许存在相互引用的，即不可能在一个栈幁之中引用另外一个线程的栈幁

　　- 如果当前方法调用了其他方法，方法返回之际，当前栈幁会传回此方法的执行结果给前一个栈幁，接着，虚拟机会丢弃放弃栈幁，使得前一个栈幁重新成为当前栈幁。

　　- Java方法有两种返回函数的方式，一种是正常的函数返回，使用return指令；另外一种是抛出异常。不管使用哪种方式，都会导致栈幁被弹出。

4.7、栈幁的内部结构

栈幁的内部结构：

　　局部变量表（Local Variables）

　　操作数栈（Operand Stack）或表达式栈

　　动态链接（Dynamic Linking）或指向运行时常量池的方法引用

　　方法返回地址（Return Address）或方法正常退出或者异常退出的定义

　　一些附加信息

5、局部变量表Local Variables

　　- 定义为一个数字数组，主要用于存储方法参数和定义在方法体内的局部变量，这些数据类型包括各类基本数据类型、对象引用，以及return address类型。

　　- 由于局部变量表是建立在线程的栈上，是线程的私有数据，因此不存在数据安全问题

　　- 局部变量表所需的容量大小是在编译期确定下来的，并保存在方法的Code属性的maximum local variables数据项中。在方法运行期间是不会改变局部变量表的大小的。

　　使用jclasslib 查看字节码方法内部的结构，或使用 javap -v xxx.class

　　在栈幁中，与性能调优关系最为密切的部分就是前面提到的局部变量表。在方法执行时，虚拟机使用局部变量表完成方法的传递。局部变量表中的变量也是重要的垃圾回收根节点，只要被局部变量表中直接或间接引用的对象都不会被回收。

6、操作数栈 Operand Stack

　　每一个独立的栈幁中除了包含局部变量表以外，还包含一个后进先出（Last-In-First-Out）的操作数栈，也可以称之为表达式栈（Expression Stack）。

　　操作数栈，在方法执行过程中，根据字节码指令，往栈中写入数据或提取数据，即入栈（Push）/出栈（Pop）。

　　　　- 某些字节码指令将值压入操作数栈，其余的字节码指令将操作数取出栈。使用它们后再把结果压入栈。

　　　　- 比如：执行复制、交换、求和等操作

　　如果被调用的方法带有返回值的话，其返回值将会被压入当前栈幁的操作数栈中，并更新PC寄存器中下一条需要执行的字节码指令。

　　操作数栈中的元素的数据类型必须与字节码指令的序列严格匹配，这由编译器在编译器期间进行验证，同时在类加载过程中的类检验阶段的数据流分析阶段要再次验证。

　　另外，我们说Java虚拟机的解释引擎是基于栈的执行引擎，其中的栈指的就是操作数栈。

　　操作数栈，主要用于保存计算过程的中间结果，同时作为计算过程中变量临时的存储空间。

　　操作数栈就是JVM执行引擎的一个工作区，当一个方法刚开始执行的时候，一个新的栈幁也会随之被创建出来，这个方法的操作数栈是空的。

　　每一个操作数栈都会拥有一个明确的栈深度用于存储数值，其所需的最大深度在编译期就定义好了，保存在方法的Code属性中，为max_statck的值。

　　栈中的任何一个元素都是可以任意的Java数据类型。32bit的类型占用一个栈单位深度，64bit的类型占用两个栈单位深度。

　　操作数栈并非采用访问索引的方式来进行数据访问的，而是只能通过标准的入栈Push和出栈Pop操作来完成一次数据访问。

　　涉及操作数栈的字节码指令执行分析

7、栈顶缓存技术（Top-of-Stack Cashing）

　　前面提过，基于栈式架构的虚拟机所使用的零地址指令更加紧凑，但完成一项操作的时候必然需要使用更多的入栈和出栈指令，这同时也就意味着将需要更多的指令分派（instruction dispatch）次数和内存读写次数。　　

　　由于操作数是存储在内存中的，因此频繁地执行内存读写操作必然会影响执行速度。为了解决这个问题，HotSpot JVM 的设计者们提出了栈顶缓存（ToS, Top-of-Stack Cashing）技术，将栈顶元素全部缓存在物理CPU的寄存器中，以此降低对内存的读写次数，提升执行引擎的执行效率。

8、动态链接（指向运行时常量池的方法引用）

　　每个栈幁内部都包含一个指向运行时常量池的该栈幁所属方法的引用。包含这个引用的目的就是为了支持当前方法的代码能够实现动态链接。比如 invoke dynamic指令。

　　在Java源文件被编译到字节码文件中时，所有的变量和方法引用都作为符号引用保存在class文件的常量池里。比如：描述一个方法调用了另外的其他方法时，就是通过常量池中指向方法的符号引用来表示的，那么动态链接的作用就是为了将这些符号引用转换为调用方法的直接引用。

　　javap -v xxx.class

　　动态链接示意图：

9、方法的绑定机制：静态绑定与动态绑定

　　在 JVM 中，将符号引用转换为调用方法的直接引用与方法的绑定机制相关。

　　静态链接：当一个字节码文件被装载进 JVM 内部时，如果被调用的目标方法在编译期可知，且运行期保持不变时，这种情況下将调用方法的符号引用转换为直接引用的过程称之为静态链接。

　　动态链接：如果被调用的方法在编译期无法被确定下来，也就是说，只能够在程序运行期将调用方法的符号引用转换为直接引用，由于这种引用转换过程具备动态性，因此也就被称之为动态链接。

　　对应的方法的绑定机制为：早期绑定（ Early Binding ）和晚期绑定（ Late Binding ）。绑定是一个字段、方法或者类在符号引用被替换为直接引用的过程，这仅仅发生一次。

　　早期绑定：早期绑定就是指被调用的目标方法如果在编译期可知，且运行期保持不变时，即可将这个方法与所属的类型进行绑定，这样一来，由于明确了被调用的目标方法究竟是哪一个，因此也就可以使用静态链接的方式将符号引用转换为直接引用。

　　晚期绑定：如果被调用的方法在编译期无法被确定下来，只能够在程序运行期根据实际的类型绑定相关的方法，这种绑定方式也就被称之为晚期绑定。

　　随着高级语言的横空出世，类似于 Java 一样的基于面向对象的编程语言如今越来越多，尽管这类编程语言在语法风格上存在一定的差别，但是它们彼此之间始终保持着一个共性，那就是都支持封装、继承和多态等面向对象特性，既然这一类的编程语言具备多态特性，那么自然也就具备早期绑定和晚期绑定两种绑定方式。

　　Java 中任何一个普通的方法其实都具备虚函数的特征，它们相当 C++ 语言中的虚函数（ C++ 中则需要使用关键字 virtual 来显式定义）。如果在 Java 程序中不希望某个方法拥有虚函数的特征时，则可以使用关键字 final 来标记这个方法。

10、虚方法和非虚方法

如果方法在编译期就确定了具体的调用版本，这个版本在运行时是不可变的。这样的方法称为非虚方法。
静态方法、私有方法、 final 方法、实例构造器、父类方法都是非虚方法。
其他方法称为虚方法。

　　多态性的使用前提：类的继承关系；方法的重写。

　　虚拟机中提供了以下几条方法调用指令：

普通调用指令
- invokestatic ：调用静态方法，解析阶段确定唯一方法版本
- invokespecial ：调用 <init> 方法、私有及父类方法，解析阶段确定唯一方法版本
- invokevirtual ：调用所有虚方法
- invokeinterface ：调用接口方法
动态调用指令：
- invokedynamic ：动态解析出需要调用的方法，然后执行。

　　前四条指令固化在虚拟机内部，方法的调用执行不可人为干，而 invokedynamic 指令则支持由用户确定方法版本。其中 invokestatic 指令和 invokespecial 指令调用的方法称为非虚方法，其余的（ final 修饰的除外）称为虚方法。

　　关于 invokedynamic 指令

JVM 字节码指令集一直比较稳定，一直到 Java 7 中才增加了一个 invokedynamic 指令，这是 Java 为了实现「动态类型语言」支持而做的一种改进。
但是在 Java 7中并没有提供直接生成 invokedynamic 指令的方法，需要借助 ASM 这种底层字节码工具来产生 invokedynamic 指令。直到 Java 8的 Lambda 表达式的出现， invokedynamic 指令的生成，在 Java 中才有了直接的生成方式。
Java 7 中增加的动态语言类型支持的木质是对 Java 虚拟机规范的修改，而不是对 Java 语言规则的修改，这一块相对来讲比较复杂，增加了虚拟机中的方法调用，最直接的受益者就是运行在Java平台的动态语言的编译器。

---