1. 引言
为了深入理解c++,决定学习一些简单的汇编语言。使用ubuntu系统下g++很容易将一个c++的文件编译成汇编语言。本文使用此方法,对一个简单的c++文件编译成汇编语言进行理解。
2.示例
文件名:reorder_demo.cpp
#include<stdio.h>
typedef unsigned char uint8;
uint8 a = 0U;
uint8 b = 0U;
int main(int argn, char* argv[])
{
a = b + 1;
b = 1;
return 0;
}
转化成汇编语言的编译命令如下
g++ -S reorder_demo.cpp
转化后生成reorder_demo.s,汇编语言内容如下:
.file "reorder_demo.cpp"
.text
.globl a
.bss
.type a, @object
.size a, 1
a:
.zero 1
.globl b
.type b, @object
.size b, 1
b:
.zero 1
.text
.globl main
.type main, @function
main:
.LFB0:
.cfi_startproc
endbr64
pushq %rbp
.cfi_def_cfa_offset 16
.cfi_offset 6, -16
movq %rsp, %rbp
.cfi_def_cfa_register 6
movl %edi, -4(%rbp)
movq %rsi, -16(%rbp)
movzbl b(%rip), %eax
addl $1, %eax
movb %al, a(%rip)
movb $1, b(%rip)
movl $0, %eax
popq %rbp
.cfi_def_cfa 7, 8
ret
.cfi_endproc
.LFE0:
.size main, .-main
.ident "GCC: (Ubuntu 9.4.0-1ubuntu1~20.04.2) 9.4.0"
.section .note.GNU-stack,"",@progbits
.section .note.gnu.property,"a"
.align 8
.long 1f - 0f
.long 4f - 1f
.long 5
0:
.string "GNU"
1:
.align 8
.long 0xc0000002
.long 3f - 2f
2:
.long 0x3
3:
.align 8
4:
3.内存分区
为了更容易理解,从别处找了张内存分区的图形如下
4.汇编分析
.file "reorder_demo.cpp"
标识汇编文件的源文件为reorder_demo.cpp
.text
标识代码存放段开始。上面汇编中2个.text都是如此,第一个是存放全局变量的代码开始,第二个是存放main函数代码段的开始。
.zero 1
这是一条伪汇编指令,就是把CPU中通用寄存器R0的值设置为0.
伪指令的作用在汇编过程中起作用,一旦汇编结束,就没有实际的作用。
.globl a
标识全局符号a
.bssbss段一般标识未手动初始化的数据,并不给该段的数据分配实际的内存空间,只是记录数据所需空间的大小。
.type a, @object定义全局符号a的类型为object,意思就是全局符号a是一个变量。
.size a, 1全局变量a的尺寸为1个字节
a:
给全局变量a分配地址
globl b和a类似,不在赘述
.LFB0:
局部函数开始 Local Function Bigin
.LFE0:
局部函数结束 Local Function END
.cfi_startproc
汇编语言中的一条伪指令,用于声明起始过程,为调试生成调试信息。
endbr64
汇编伪指令,空操作,主要由处理器流水线用作标记指令,以检测控制流违规。
pushq %rbp
把寄存器%rbp的值压入调用堆栈中。%rbp标识函数函数栈帧的基地址。
模型如下(此处约定灰色表示命令执行前状态,红色表示当前块引用内汇编指令执行后的状态)
rbp和rsp补充知识和模型表示:
rbp寄存器作用:保存的是栈中当前执行函数的基本地址。
rsp 寄存器作用,存放栈指针,它永远指向一个进程的栈顶。
movq %rsp, %rbp
函数基地址--->%rbp之间的栈内容表示调用main之前的栈帧状态
此条汇编指令代表调用新的函数(main函数)前,函数栈帧基地址(rbp)变成当前栈顶指针(rsp)
.cfi_def_cfa_offset 16
cfi_offset 6, -16
.cfi主要用于添加调试信息,功能意义可忽略。
movl %edi, -4(%rbp)
movq %rsi, -16(%rbp)函数把函数栈基%rbp偏移4和16的栈中内容放入到edi和rsi寄存器中,这两个寄存器存放函数参数的,对应于c++源码中的main函数参数argn和argv。模型如下
ret
函数退出
.size main, .-main
此处.size指令提示汇编器在目标文件中记录某种size的信息,此处是记录main函数的尺寸。
.-main 标识main函数的尺寸。理解这句话,就得先理解“.”的含义。
“.”标识内存中当前地址,main标识main开头地址,所以,尾地址“.” - 头地址“main”,表示main函数在内存中占用的空间尺寸。
.ident "GCC: (Ubuntu 9.4.0-1ubuntu1~20.04.2) 9.4.0"
GCC编译器记录的追踪信息,目标文件结束时常常伴随记录,在链接时此信息会被去除。
分析待下次