llvm-ir之核心类设计
- 引言
- 1 逻辑关系
- 2 class Module
- 3 class IRBuilder
- 4 class Instruction
- 5 class Constant
引言
llvm IR是llvm对代码的一种中间表示。它来源AST(抽象语法树),是llvm代码优化的主要对象。
1 逻辑关系
IR的很多组成元素都是以Value为基类。llvm并没有采用C++的RTTI,而是自实现了一套多态系统,其实现核心就在Class Value::Subclass*系列字段。
- 每个Value(无论是基本块、参数还是常量),都可以被多个User引用;
- 每个User引用的Value,通过Use对象记录其Value;同时,其Use对象占用的空间在User的new重载时,会分配到User对象的前部分;
- 以C语言为例,每个Module对应C语言的一个编译单元,即.c文件;
- 一般,每个Module和每个IRBuilder关联同一个LLVMContext。IRBuilder是构建Instruction的模板对象。
2 class Module
每个模块代表链接前的一个编译单元,模块一般包括:
- GlobalVariable : 一个或多个全局变量。若getInitializer返回为NULL,则为只有声明的变量,其初始化可能在本模块、也可能在其他模块;
- Function:一个或多个函数。若函数没有基本块且没有设置IsMaterializableBit,则只为一个声明函数,其定义可能在其他模块;
此外,还包括:
- GlobalAlias:全局变量的别名(引用);
- GlobalIFunction:全局间接函数,例如GNU IFUNC;
- ValueSymbolTable:按名称建立全局符号的索引。
3 class IRBuilder
IRBuilder是指令和常量的构建器,它是一个模板类,它有两个模板参数:
- 第一个模板参数表示构建时用于常量折叠的类实现,用于生成常量时提前自动折叠。默认类型为ConstantFolder;
- 第二个模板参数表示一个带有InsertHelper方法的类型,用于插入指令到BasicBlock(可以做一些自定义操作)。默认类型为IRBuilderDefaultInserter
4 class Instruction
Instruction表示一个IR指令,llvm采用静态单赋值(Static Single Assignment, SSA)模式的指令。
指令相关field:
- Type :指令输出结果的类型;
- Opcode : 表示指令的操作类型(例如mov、add等);
- Name : 指令输出结果的名称。在指令可视化文本展示中,一般表示指令目标寄存器;如果其Name没有定义,一般用指令在函数中的序号表示;
- Op : 指令的操作数,通过class Use对象引用另一个指令或常量(SSA特性);
注:指令对象指令分配在堆中,其依赖的操作数(class Use)分配在其对象的前面。
5 class Constant
Constant表示常量,除了代码中的一些常量(常量字符、常量int等),函数和全局变量也是常量:
- 函数之所以属于常量,是一个函数其实现在运行后具备不可变特性,所以它理应属于常量。所以给一个函数指针变量赋值时,直接可以将相同类型的函数赋值给该变量;
- 全局变量属于常量,并不是其数据的不可变,而是其地址是固定的。所以它的常量特性是其地址不可更改性。
注:常量与指令类似,它也是一个User,例如它可以由其他常量通过表达式合成。