Javac编译器
1.Javac的源码与调试
Javac的源码下载地址:Javac的源码下载地址,在Myeclipse中新建项目Compiler_javac,把源码复制到项目中。
Javac的源码目录:
从Sun Javac的代码来看,编译过程大致可以分为3个过程:
Java编译动作的入口类为JavaCompiler,上述3个过程的代码逻辑集中在这个类的compile()和compile2()方法中。源代码如下:
2.解析与填充符号表
2.1词法分析、语法分析
词法分析:是将源代码的字符流转变为标记(Token)集合,单个字符是程序编写过程的最小元素,而标记则是编译过程的最小元素,关键字、变量名、字面量、运算符都可以看成标记。
在Javac的源码中,词法分析过程由com.sun.tools.javac.parser.Scanner类实现。
语法分析:是根据Token序列构造抽象语法树的过程,抽象语法树(Abstract Syntax Tree,AST)是一种用来描述程序代码语法结构的树形表示方式,语法树的每一个节点都代表着程序代码中的语法结构(Construct),例如包、类型、修饰符、运算符、接口、返回值甚至代码注释都可以是一个语法结构。
在Javac的源码中,语法分析过程由com.sun.tools.javac.parser.Parser类实现。
这个阶段产生的抽象语法树由com.sun.tools.javac.tree.JCTree类表示,经过这个步骤之后,编译器就基本不会再对源码文件操作了,后续的操作都建立在抽象语法树之上。
在Myeclipse中安装ASTView插件的下载地址:ASTView插件下载地址,安装插件后Window中Show View中选择ASTView。
抽象语法树结构视图如下:
2.2填充符号表
符号表(Symbol Table)是由一组符号地址和符号信息构成的表格,读者可以把它想象成哈希表中K-V值对的形式(实际上符号表不一定是哈希表实现,可以是有序符号表、树状符号表、栈结构符号表等)。
符号表中所登记的信息在编译的不同阶段都要用到。
1)在语义分析中:符号表所登记的内容将用于语义检查(如检查一个名字的使用和原先的说明是否一致)和产生中间代码。
2)在目标代码生成阶段:当对符号名进行地址分配时,符号表是地址分配的依据。
在Javac源码中,填充符号表的过程由com.sun.tools.javac.comp.Enter类实现,此过程的出口是一个待处理列表(To Do List),包含了每一个编译单元的抽象语法树的顶级节点,以及package-info.java(如果存在的话)的顶级节点。
3.注解处理器
JDK1.6提供了一组插入式注解处理器的标准API在编译期间对注解进行处理,我们可以把它看做是一组编译器的插件,在这些插件里面,可以读取、修改、添加抽象语法树中的任意元素。如果这些插件在处理注解期间对语法树进行了修改,编译器将回到解析及填充符号表的过程重新处理,直到所有插入式注解处理器都没有再对语法树进行修改为止,每一次循环称为一个Round,也就是上面绿色图中回环的过程。
在Javac源码中,插入式注解处理器的初始化过程是在initProcessAnnotations()方法中完成的,而它的执行过程则是在processAnnotations()方法中完成的,这个方法判断是否还有新的注解处理器需要执行,如果有的话,通过com.sun.tools.javac.processing.JavacProcessingEnvironment类的doProcessing()方法生成一个新的JavaCompiler对象对编译的后续步骤进行处理。
4.语义分析与字节码生成
语法树能表示一个结构正确的源程序的抽象,但无法保证源代码是符号逻辑的。而语义分析的主要任务是对结构上正确的源程序进行上下文有关性质的审查,如进行类型审查。
语义分析包括两个步骤:
1)标注检查(attribute()方法)
2)数据及控制流分析(flow()方法)
4.1标记检查
检查的内容包括:变量使用前是否已被声明、变量与赋值之间的数据类型是否能够匹配等。
常量折叠:
int a = 1+2;这个插入式表达式(Infix Expression)的值已经在语法树上标注出来了(ConstantExpressValue:3)。
由于编译期间进行了常量折叠,所以在代码里面定义“a=1+2”比起直接定义“a=3”,并不会增加程序运行期哪怕仅仅一个CPU指令的运算量。
标注检查步骤在Javac源码中的实现类是com.sun.tools.javac.comp.Attr类和com.sun.tools.javac.comp.Check类。
4.2数据及控制流分析
数据及控制流分析是对程序上下文逻辑更进一步的验证,它可以检查:程序局部变量在使用前是否有赋值、方法的每条路径是否都有返回值、是否所有的受查异常都被正确处理了等。
编译时期的数据及控制流分析与类加载时的数据及控制流分析的目的基本上是一致的,但校验范围有所区别,有一些校验项只有在编译期或运行期才能进行。
局部变量与字段(实例变量、类变量)是有区别的,它在常量池中没有CONSTANT_Fieldref_info的符号引用,自然就没有访问标志(Access_Flags)的信息,甚至可能连名称都不会保留下来(取决于编译时的选项),自然在Class文件中不可能知道一个局部变量是不是声明为final了。因此,将局部变量声明为final,对运行期是没有影响的,变量的不变性仅仅由编译器在编译期间保障。
在Javac的源码中,数据及控制流分析的入口是flow()方法,具体操作由com.sun.tools.javac.comp.Flow类完成。
4.3解语法糖
语法糖(Syntactic Sugar),也称糖衣语法。指在计算机语言中添加的某种语法,这种语法对语言的功能并没有影响,但是更方便程序员使用。
Java中最常用的语法糖:泛型、变长参数、自动装箱/拆箱等,虚拟机运行时不支持这些语法,它们在编译阶段还原回简单的基础语法结构,这个过程称为解语法糖。
在Javac的源码中,解语法糖的过程由desugar()方法触发,在com.sun.tools.javac.comp.TransTypes类和com.sun.tools.javac.comp.Lower类中完成。
4.4字节码生成
字节码生成是Javac编译过程的最后一个阶段,在Javac源码里面由com.sun.tools.javac.jvm.Gen类来完成。
字节码生成阶段不仅仅是把前面各个步骤所生成的信息(语法树、符号表)转化成字节码写到磁盘中,编译器还进行了少量的代码添加和转换工作。
实例构造器()方法和类构造器()方法就是在这个阶段添加到语法树之中的(注意,这里的实例构造器并不是指默认构造函数,如果用户代码中没有提供任何构造函数,那编译器将会添加一个没有参数的、访问性(public、protected、private)与当前类一致的默认构造函数,这个工作在填充符号表阶段就已经完成),这两个构造器的产生过程实际上是一个代码收敛的过程,编译器会把语句块(对于实例构造器而言是“{}”块,对于类构造器而言是“static{}”块)、变量初始化(实例变量和类变量)、调用父类的实例构造器(仅仅是实例构造器,()方法中无须调用父类的()方法,虚拟机会自动保证父类构造器的执行,但在()方法中经常会生成调用java.lang.Object的()方法的代码)等操作收敛到()和方法之中,并且保证一定是按先执行父类的实例构造器,然后初始化变量,最后执行语句块的顺序进行,上面所述的动作由Gen.normalizeDefs()方法来实现。
除了生成构造器以外,还有其它的一些代码替换工作用于优化程序的实现逻辑,如把字符串的加操作替换为StringBuffer或StringBuilder的append()操作等。
完成了对语法树的遍历和调整之后,就会把填充了所有所需信息的符号表交给com.tools.javac.jvm.ClassWriter类,由这个类的writeClass()方法输出字节码,生成最终的Class文件,到此为止整个编译过程宣告结束。
编译过程
javac 的编译过程可以分为 1 个准备过程和 3 个处理过程:
1 个准备过程: ◉ 准备过程:初始化插入式注解处理器 3 个处理过程: ◉ 解析与填充符号表 ◉ 注解处理(插入式注解器) ◉ 分析与字节码生成
javac 的编译过程,如下图所示:
在上述的编译过程中,在 “处理注解” 的阶段可能会产生新的符号,那么就必须再执行一次 “解析与填充符号表” 处理新的符号。
分析源码,javac 编译代码是 com.sun.tools.javac.main.JavaComplier 类的 compile() 和 compile2() 方法。
compile() 方法的部分代码:
// 1 初始化插入式注解处理器initProcessAnnotations(processors);
// These method calls must be chained to avoid memory leaksdelegateCompiler =
// 3 注解处理 processAnnotations(
// 2.2 解析与填充符号表--填充符号表 enterTrees(stopIfError(CompileState.PARSE, // 2.1 解析与填充符号表--词法分析、语法分析 parseFiles(sourceFileObjects))), classnames);
// 4 分析与字节码生成delegateCompiler.compile2();delegateCompiler.close();elapsed_msec = delegateCompiler.elapsed_msec;
compile2() 方法的部分代码:
case BY_TODO: while (!todo.isEmpty())
// 4.4 分析与字节码生成--生成字节码 generate(
// 4.3 分析与字节码生成--解语法糖 desugar(
// 4.2 分析与字节码生成--数据流分析 flow(
// 4.1 分析与字节码生成--标注 attribute(todo.remove())))); break;
解析与填充符号表
解析与填充符号表分为两个过程:词法、语法分析 和 填充符号表。
具体流程为: 生成 Token 集合 --> 生成抽象语法树 --> 填充符号表
- 词法、语法分析
词法、语法分析 parseFiles() 方法的源码,如下图所示:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IVUS8xxx-1672301470200)(null)]
词法分析就是将源代码的字符流转变成标记(Token)集合的过程,标记是编译时的最小元素。
词法分析的过程由 com.sun.tools.javac.parser.Scanner 类实现,逐个读取源代码的单个字符,通过 nextToken() 方法构造每一个 Token。
关键字、变量名、字面量、运算符都可以作为标记。
例如,下面这段代码,包含了 6 个标记,分别是:int、a、=、b、+、2。
int a = b + 2;
转变成标记(Token)集合的结果,如下图所示:
语法分析就是根据 标记(Token)集合 构造成 抽象语法树 的过程,抽象语法树(AST)的每一个节点代表着程序代码的一个语法结构。
IntelliJ IDEA 可以安装 JDT AstView 插件,可视化源代码的抽象语法树。
JDT AstView https://plugins.jetbrains.com/plugin/9345-jdt-astview
上面代码:int a = b + 2; 的抽象语法树的结构视图,如下图所示:
语法分析过程由 com.sun.tools.javac.parser.Parser 类实现,抽象语法树由 com.sun.tools.javac.tree.JCTree 类表示。
经过词法、语法分析生成抽象语法树之后,编译器就不会再对源码字符流进行操作,后续的操作都是建立在抽象语法树之上。
- 填充符号表
完成词法、语法分析之后,下一个阶段就是填充符号表。
填充符号表 enterTrees() 方法的源码,如下图所示:
符号表(Symbol Table)是由一组符号地址和符号信息构成的数据结构,可以类比想象成哈希表中键值对的存储形式。
符号表所登记的信息在编译的不同阶段都会被用到,在目标代码生成阶段,对符号名进行地址分配时,符号表是地址分配的直接依据。
填充符号表的过程由 com.sun.tools.javac.comp.Enter 类实现,将会生成一个待处理列表,其中包含了每一个编译单元的抽象语法树的顶级节点,以及 package-info.java(如果存在)的顶级节点。
package-info.java:为包级文档和包级别注释
注解处理
注解处理 processAnnotations() 方法的源码,如下图所示:
插入式注解处理器是在编译器对代码中的特定注解进行处理,在前端编译器的工作过程中,对抽象语法树中的任意元素进行读取、修改、添加。
插入式注解处理器在处理注解的过程中,如果对语法树进行过修改,那么编译器将会重新到解析与填充符号表的阶段重新处理,直到没有对语法树进行修改为止,每一次循环过程称为一次轮次(Round)。
通过 com.sun.tools.javac.processing.JavacProcessingEnvironment 类的 domProcessing() 方法来执行语法树中的插入式注解处理器,生成新的 JavaCompiler 对象。
分析与字节码生成
经过词法、语法分析和注解处理两个过程,得到的抽象语法树可以表示一个结构正确的源程序,但是无法保证语义是否符合逻辑。
因此,需要对抽象语法树进行语义分析,分为两个步骤:标注检查、数据及控制流分析。
分析与字节码生成的 comile2() 方法的源码,如下图所示:
- 标注检查
标注检查主要是检查变量使用前是否已被声明、变量与赋值之间的数据类型是否能够匹配等等。
例如,下面这段代码:
// 检查变量与赋值之间的数据类型是否匹配(通过)int a = 1;boolean b = true;char c = 2;
// 检查变量与赋值之间的数据类型是否匹配(不通过)int d = a + b;char e = a + c;
// 检查变量使用前是否已被声明(不通过)int f = a + g;
除此之外,标注检查还会进行一个称为常量折叠(Constant Folding)的代码优化。
例如,下面这段代码:
// 优化前int a = 1 + 2;// 优化后int a = 3;
标注检查的入口是 attribute() 方法,具体操作由如下两个类实现。
◉ com.sun.tools.javac.comp.Attr ◉ com.sun.tools.javac.comp.Check
- 数据及控制流分析
数据及控制流分析是对程序上下文逻辑更进一步的验证,检查出局部变量使用前是否已经赋值、方法是否有返回值、所有受查异常是否被正确处理、final 变量只能赋一次值等等。
例如,下面这段代码:
// 方法一:public void foo() { final int a = 0; a = 1;}
使用 javac 编译会报错,如下图所示:
这里拓展一下,final 关键字修饰的局部变量只能在编译期进行检查,不能在运行期检查。
因为局部变量表在常量池中没有 CONSTANT_Fieldref_info 的符号引用,并不能存储访问标志(access_flags),所以在 .class 文件中是不可能知道一个局部变量是否被声明为 final。
数据及控制流分析的入口是 flow() 方法,具体操作由如下一个类实现。
◉ com.sun.tools.javac.comp.Flow
- 解语法糖
语法糖(Syntactic Sugar),也称为糖衣语法,指的是在计算机语言中添加某种语法,这种语法对语言的编译结果和功能并没有实际影响,但是却能更方便程序员使用该语言。
语法糖的作用是:减少代码量、增加程序的可读性。
Java 中最常见的语法糖:泛型、边长参数、自动装箱拆箱……
解语法糖的过程就是将语法糖还原回原始的基础语法结构。
解语法糖的入口是 desugar() 方法,具体操作由如下一个类实现。
◉ com.sun.tools.javac.comp.Lower
- 字节码生成
字节码生成阶段不仅把前面各个步骤生成的语法树和符号表转化成字节码指令写到磁盘中,生成 .class文件,还进行少量的代码添加和转换工作。
例如,实例构造器 () 和类构造器 () 就是再字节码生成阶段添加到语法树之中。
除此之外,还有一些代码替换工作用于优化程序某些逻辑的实现方式,也是在字节码生成阶段进行。例如:把字符串的加操作替换成 StringBuffer 或 StringBuilder 的 append()。
字节码生成的入口是 generate() 方法,具体操作由如下两个类实现。
◉ com.sun.tools.javac.jvm.Gen (对语法树进行调整,进行少量的代码添加和转换工作) ◉ com.sun.tools.javac.jvm.ClassWriter (将语法树、符号表转化成字节码,写入到磁盘)
以上是Javac编译过程以及简单的解析;Android开发中许多这个的技术知识需要我们一个个去掌握,而网上的资料比较杂乱;找起来比较繁琐,这里推荐这个文档《Android核心技术手册》里面有30多个技术模块可以参考学习。
编译HelloWorld
新建一个
HelloJavac.java
可以看到HelloJavac目前是还没有编译的。
配置参数:
这里我配置的参数是:-d M o d u l e F i l e D i r ModuleFileDir ModuleFileDir\target\classes M o d u l e F i l e D i r ModuleFileDir ModuleFileDir\src\main\java\com\hello\HelloJavac.java 读者根据自己的路径自行更改,宏是从图红框里选的。
编译结果
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-F8IU9U3n-1672301470246)(null)]