深入理解计算机系统_可重定位目标文件的格式---elf格式

本篇笔记记录可重定位目标文件的格式— elf格式，也是《深入理解计算机系统》第7章的内容。了解这些内容，对我们很有帮助，比如代码排错，可以深入了解C/C++ 实现原理。
分别介绍如何得到可重定位目标文件及其格式。

2.1 如何得到可重定位目标文件？

可重定位目标文件，就是一个.o文件，这个.o文件不能被执行，还需要通过静态链接之后，才能成为可执行目标文件去执行。
cpp、cc1预编译 cc1编译 as汇编
XXX.c ——————————>a.i——————————>a.s——————————> XXX.o

2.2 Linux下Elf可重定位目标文件组成结构

如下图所示：
在这里插入图片描述
Linux下，每个.o文件都是这样的结构；每个节都有一个编号，编号的作用就是这个节的索引，通过索引找到这个节。链接时要做的就是将多个elf格式的.o文件合并为一个文件。
注意：每个.o的逻辑地址（就是标识编号）都是从0开始的。
下面分别说说，ELF格式的每个节的作用。

2.2.1 ELF头

可以通过readelf -h 查看elf格式头信息。
在这里插入图片描述
Magic: 7f固定，后边的45 4C 46为ELF的ascii码
Class: ELF64 //表示该ELF格式面对的是64位系统，在32位系统里面就是ELF32；
Data: 2’s complement, little endian//数据按小端序存储
Version: 1 (current) //ELF头版本号
Type: REL (Relocatable file) //目标文件类型，这里标注的是“可重定位目标文件”
Machine: Advanced Micro Devices X86-64 //cpu类别
Version: 0x1 //目标文件版本号
Entry point address: 0x0 //起始地址（入口地址），.o逻辑地址是从0开始的
Size of this header: 64 (bytes) // 格式头大小64V=B

2.2.2 .text

2 和3 都是只读节，放所有函数的机器指令，不过某些常量也会直接和指令一起存在.text当中。比如：

int main(void)
{
	int a = 20;
	a = a + 100;   //表达式中的100会直接和指令放在一起
}

2.2.3 .rodata节

只读数据节，放只读数据（放某些常量数据），比如：

int a = 100;
printf("%d", a);
char *p = "hello world";

格式字符串"%d"和"hello world"这两个字符串常量，都放在了.rodata中。

2.2.4 .data

存放已经被初始化的非0的全局变量和初始化的静态局部变量。
初始化的全局变量：

int a = 100; 		//初始化了的全局变量，a就是在.data节中
int main(void)
{
	printf("%d\n", a);
}

int main(void)
{
	static int b = 101;//已经初始化了的静态局部变量
	printf("%d", a);
}

这个例子中，如果int b 没有加static，那么b就是自动局部变量，程序运行起来后，存放在栈中。编译时候不涉及局部变量，因为编译时候还没有栈，只有运行起来后，启动代码才会初始化栈。程序运行起来后，开辟栈帧，然后将101放入栈中。

2.2.5 .bss段

放未初始化的全局变量和未初始化的静态局部变量。

int a; //未初始化了的全局变量
int main(void)
{
	printf("%d", a);
}

int main(void)
{
	static int b;//未初始化的静态局部变量
	printf("%d", a);
}

由于int a 和 static int b未初始化，所以其实不占空间。因此，在编译好的.o文件中，.bss只是一个占位符，只有当程序真正运行起来后，才会在内存上真正的开辟.bss的空间，并在.bss空间中开辟a和b的空间，并制自动初始化为0。所以在.o中，.bss只是一个理论上的存在。
.o为什么没有开辟.bss空间？没有实际要存放的数据，开辟空间只是浪费空间。因为.o文件存放在硬盘上，如果给.o 开辟没有必要的.bss空间，会浪费磁盘空间。

2.2.6 symtab符号表

每一个.o文件都有一个符号表symtab，用于存放.o中所定义和引用的全局符号信息。比如：有a.c b.c两个文件，代码如下：

int a = 100;
int fun(int a)
{
	return 1;
}
					
extern int b;  //定义在了b.c中
					
int main(void)
{
	b = 10000;
						
	fun2(1000); //fun2定义在了c.c中
}

编译后：
a.c -> a.o
b.c -> b.o
a.o中定义的符号信息：
a：a.o自己定义的全局变量符号
fun：a.o自己定义的函数符号
main：a.o自己定义的函数符号
a.o中引用的符号信息
b：a.o引用的在b.o中定义的全局变量符号
fun2：a.o引用的在c.o中定义的fun2函数符号

符号表的意义：

链接器在链接时候，将多个.o文件链接成一个.o文件，比如将a.o 和 b.o链接在一起时候，链接器需要查看各个.o文件的符号表，才能将各自符号的定义和引用关联起来。
下图是符号表的字段
在这里插入图片描述
上图是《深入理解计算机系统》书中对符号表的定义，下面分别解释一下符号表这几个字段。
(1) name: 记录字符串在表中的偏移
name中记录的并不是字符串的名字，而是记录了字符串在.strtab中的偏移。
假如，.strtab中的内容为main\0fun2\0a_va\0…
如果name = 5, 到strtab表中搜索，当遇到\0截止，取出来的就是fun2；

(2) value：存放符号所在空间的起始地址
存放某个符号所在的段，如果在.bss段，value就存放.bss段的起始地址；

(3) size：表示value所指向空间中，符号所占空间的大小
通过value找到该空间的起始地址，通过name 找到偏移地址，再通过size, 就可以确定所占的字节数。

(4) type: 符号类型，有3种类型
FUNC：代表的是函数；
OBJECT：代表的是全局变量；
FILE：是源文件的名字

(5) bind
有两种情况，LOCAL 和 GLOBAL
bind = local 表示本地符号，在模块内定义，只能由本模块引用，static修饰的变量和函数就是这种情况。
bind=GLOBAL(全局符号)，表示符号在本模块定义，但是可以被其它模块引用（使用），extern修饰的全局变量和函数就是这种情况。

(6) section
section的值有四种情况，节索引号、ABS、UNDEF、COM
情况1：section=节索引号, 说明符号所对应的空间在哪个节里面。比如，section == 1,表示符号所在的空间再.text节中，说明符号代表的是函数，因为只有函数指令才会保存在.text中；
section == 3，符号代表的空间在.data中，说明符号是初始化了的全局变量，因为只有初始化了的全局变量才会在.data节。
**情况2：**section=ABS，表示该符号不需要被“链接程序”处理。比如，如果符号名是.c，这个符号不是全局变量、不是函数，只是一个源文件名而已，链接器（ld/collect2）在链接“可重定位目标文件”时，这个符号不需要被处理。
情况3：section=UNDEF，表示这个符号，只是在本模块中被引用了，这个符号并不是由本模块定义的。在本某块找不到定义，所以这个符号的section就被标注为了UNDEF，表示这个符号被定义在了其它模块中，链接时要到其它模块中去找搜寻它的定义。经常在编译时候，报ld 开头的链接错误，原因就是因为找到符号的定义，有两个原因：要不然就是忘了链接所需的目标文件，要不然就是函数/变量名称写错了。
情况4 ：section=COM，表示还未被分配空间，未被初始化，比如未初始化的全局变量。
通过readelf -s 查看符号表，如下：
在这里插入图片描述

比如，main
(a)符号名：main
(b)类型：函数
©本地符号/全局符号：全局被extern修饰的全局变量和函数，都会被标记为GLOBAL；
(d) 所在节：函数指令存在了编号为1的.text节
(e) 节中位置：偏移为0，表示main指令从.text第一个字节处开始存放
(f) 大小：从.text的第一个字节往后，占26字节