本篇笔记记录可重定位目标文件的格式— elf格式,也是《深入理解计算机系统》第7章的内容。了解这些内容,对我们很有帮助,比如代码排错,可以深入了解C/C++ 实现原理。
分别介绍如何得到可重定位目标文件及其格式。
2.1 如何得到可重定位目标文件?
可重定位目标文件,就是一个.o文件,这个.o文件不能被执行,还需要通过静态链接之后,才能成为可执行目标文件去执行。
cpp、cc1预编译 cc1编译 as汇编
XXX.c ——————————>a.i——————————>a.s——————————> XXX.o
2.2 Linux下Elf可重定位目标文件组成结构
如下图所示:
Linux下,每个.o文件都是这样的结构;每个节都有一个编号,编号的作用就是这个节的索引,通过索引找到这个节。链接时要做的就是将多个elf格式的.o文件合并为一个文件。
注意:每个.o的逻辑地址(就是标识编号)都是从0开始的。
下面分别说说,ELF格式的每个节的作用。
2.2.1 ELF头
可以通过readelf -h 查看elf格式头信息。
Magic: 7f固定,后边的45 4C 46为ELF的ascii码
Class: ELF64 //表示该ELF格式面对的是64位系统,在32位系统里面就是ELF32;
Data: 2’s complement, little endian//数据按小端序存储
Version: 1 (current) //ELF头版本号
Type: REL (Relocatable file) //目标文件类型,这里标注的是“可重定位目标文件”
Machine: Advanced Micro Devices X86-64 //cpu类别
Version: 0x1 //目标文件版本号
Entry point address: 0x0 //起始地址(入口地址),.o逻辑地址是从0开始的
Size of this header: 64 (bytes) // 格式头大小64V=B
2.2.2 .text
2 和3 都是只读节,放所有函数的机器指令,不过某些常量也会直接和指令一起存在.text当中。比如:
int main(void)
{
int a = 20;
a = a + 100; //表达式中的100会直接和指令放在一起
}
2.2.3 .rodata节
只读数据节,放只读数据(放某些常量数据),比如:
int a = 100;
printf("%d", a);
char *p = "hello world";
格式字符串"%d"和"hello world"这两个字符串常量,都放在了.rodata中。
2.2.4 .data
存放已经被初始化的非0的全局变量和初始化的静态局部变量。
初始化的全局变量:
int a = 100; //初始化了的全局变量,a就是在.data节中
int main(void)
{
printf("%d\n", a);
}
int main(void)
{
static int b = 101;//已经初始化了的静态局部变量
printf("%d", a);
}
这个例子中,如果int b 没有加static,那么b就是自动局部变量,程序运行起来后,存放在栈中。编译时候不涉及局部变量,因为编译时候还没有栈,只有运行起来后,启动代码才会初始化栈。程序运行起来后,开辟栈帧,然后将101放入栈中。
2.2.5 .bss段
放未初始化的全局变量和未初始化的静态局部变量。
int a; //未初始化了的全局变量
int main(void)
{
printf("%d", a);
}
int main(void)
{
static int b;//未初始化的静态局部变量
printf("%d", a);
}
由于int a 和 static int b未初始化,所以其实不占空间。因此,在编译好的.o文件中,.bss只是一个占位符,只有当程序真正运行起来后,才会在内存上真正的开辟.bss的空间,并在.bss空间中开辟a和b的空间,并制自动初始化为0。所以在.o中,.bss只是一个理论上的存在。
.o为什么没有开辟.bss空间?没有实际要存放的数据,开辟空间只是浪费空间。因为.o文件存放在硬盘上,如果给.o 开辟没有必要的.bss空间,会浪费磁盘空间。
2.2.6 symtab符号表
每一个.o文件都有一个符号表symtab,用于存放.o中所定义和引用的全局符号信息。比如:有a.c b.c两个文件,代码如下:
int a = 100;
int fun(int a)
{
return 1;
}
extern int b; //定义在了b.c中
int main(void)
{
b = 10000;
fun2(1000); //fun2定义在了c.c中
}
编译后:
a.c -> a.o
b.c -> b.o
a.o中定义的符号信息:
a:a.o自己定义的全局变量符号
fun:a.o自己定义的函数符号
main:a.o自己定义的函数符号
a.o中引用的符号信息
b:a.o引用的在b.o中定义的全局变量符号
fun2:a.o引用的在c.o中定义的fun2函数符号
符号表的意义:
链接器在链接时候,将多个.o文件链接成一个.o文件,比如将a.o 和 b.o链接在一起时候,链接器需要查看各个.o文件的符号表,才能将各自符号的定义和引用关联起来。
下图是符号表的字段
上图是《深入理解计算机系统》书中对符号表的定义,下面分别解释一下符号表这几个字段。
(1) name: 记录字符串在表中的偏移
name中记录的并不是字符串的名字,而是记录了字符串在.strtab中的偏移。
假如,.strtab中的内容为main\0fun2\0a_va\0…
如果name = 5, 到strtab表中搜索,当遇到\0截止,取出来的就是fun2;
(2) value:存放符号所在空间的起始地址
存放某个符号所在的段,如果在.bss段,value就存放.bss段的起始地址;
(3) size:表示value所指向空间中,符号所占空间的大小
通过value找到该空间的起始地址,通过name 找到 偏移地址,再通过size, 就可以确定所占的字节数。
(4) type: 符号类型,有3种类型
FUNC:代表的是函数;
OBJECT:代表的是全局变量;
FILE:是源文件的名字
(5) bind
有两种情况,LOCAL 和 GLOBAL
bind = local 表示本地符号,在模块内定义,只能由本模块引用,static修饰的变量和函数就是这种情况。
bind=GLOBAL(全局符号),表示符号在本模块定义,但是可以被其它模块引用(使用),extern修饰的全局变量和函数就是这种情况。
(6) section
section的值有四种情况,节索引号、ABS、UNDEF、COM
情况1:section=节索引号, 说明符号所对应的空间在哪个节里面。比如,section == 1,表示符号所在的空间再.text节中,说明符号代表的是函数,因为只有函数指令才会保存在.text中;
section == 3,符号代表的空间在.data中,说明符号是初始化了的全局变量,因为只有初始化了的全局变量才会在.data节。
**情况2:**section=ABS,表示该符号不需要被“链接程序”处理。比如,如果符号名是.c,这个符号不是全局变量、不是函数,只是一个源文件名而已,链接器(ld/collect2)在链接“可重定位目标文件”时,这个符号不需要被处理。
情况3:section=UNDEF,表示这个符号,只是在本模块中被引用了,这个符号并不是由本模块定义的。在本某块找不到定义,所以这个符号的section就被标注为了UNDEF,表示这个符号被定义在了其它模块中,链接时要到其它模块中去找搜寻它的定义。经常在编译时候,报ld 开头的链接错误,原因就是因为找到符号的定义,有两个原因:要不然就是忘了链接所需的目标文件,要不然就是函数/变量名称写错了。
情况4 :section=COM,表示还未被分配空间,未被初始化,比如未初始化的全局变量。
通过readelf -s 查看符号表,如下:
比如,main
(a)符号名:main
(b)类型:函数
©本地符号/全局符号:全局被extern修饰的全局变量和函数,都会被标记为GLOBAL;
(d) 所在节:函数指令存在了编号为1的.text节
(e) 节中位置:偏移为0,表示main指令从.text第一个字节处开始存放
(f) 大小:从.text的第一个字节往后,占26字节
2.2.7 .rel.text
将多个.o链接到一起时,每个.o的.text会被整合为一个.text,整合.text时就必须依赖.rel.text所记录的一些有关.text中指令的位置信息.
2.2.8
将多个.o链接到一起时,每个.o的.data会被整合为一个.data,整合到一起时,就必须要依赖.rel.data所记录的一些有关.data的信息.
2.2.9 debug
符号调试表,记录调试信息,编译时必须加-g选项,编译时才会在.debug节中加入调试信息。
2.2.10 line
存放代码行号,因为调试的时候往往需要显示源码的行号。只有gcc编译时加了-g选项后,才会加入行号信息。
2.2.11 strtab
.symtab、.debug所用到符号名字、每个节的节名字(比如.text等)、源文件名字(***.c)等,都存在.strtab中.比如,.text\0.rodata\0…fun\0main\0,查找时,就通过name偏移就可以找到。
2.2.12 节头部表
描述目标文件中每个节的某些相关信息。