本文是从汇编角度来展示的函数调用,而且是在vs2013下根据调试展开的探究,其它平台在一些指令上会有点不同,指令不多,简单记忆一下即可,在我前些年的学习中,学的这几句汇编指令对我调试找错误起了不小的作用。那接来下就开始进入正题。
一 什么叫函数栈帧呢?
栈帧也就是内存空间,函数栈帧也就是了解函数的内存空间,也就是我们来从内存来理解函数,个人感受,在理解完后,感觉看代码好像有一点看内存那感觉了。我们首先要了解今天要解决的六个问题:
1 局部变量是如何创建?
2 为什么局部变量内不初始化是随机值?
3 函数是如何传参的,传参顺序是什么?
4 形参和实参的关系?
5 如何进行的函数调用?
6 函数如何返回参数?
我们大致知道数据都是放在栈区上的,而栈区内是先用高地址再用地址的,当我们调用一个函数就会在栈上开辟一块空间,这块空间就是该函数的栈帧,一块空间总得标志一下起始和终点把,也就有了两个寄存器来保存,esp存栈顶指针,ebp存栈底指针,这两个指针维护的就是当前调用函数的栈帧。
那这里面存的1都是代码中的变量,而代码放在内存的其它位置?
二 main函数的调用者
我们总说main函数是个函数,那我们的这个main的返回值是给谁,又是被谁调用的呢?
我们在调试模式下,F11,并且在窗口中查看调用堆栈就可以看到如下的图,而那个黄色箭头是当前调用的函数,所以调用顺序是mainCRTStartup()调用_ _tmainCRTStartup(),最后才调用的main函数,所以main函数返回值是给上述函数的,之前一直说不用管main函数的参数和返回值,现在我们就可以稍微理解main的返回值是给谁的了,至于参数则需要在其它环境才能引出来解释了。
三 编译器调用main的准备工作
我们先调试起来下面这个代码,然后转到反汇编
int Add(int x, int y)
{
return x + y;
}
int main()
{
int x = 2;
int y = 3;
int ret=Add(x, y);
return 0;
}
下面每一行都是一句指令,等会会一句一句说清楚,首先我们可以发现我们写代码第一句是int x=2,定义一个变量,但是对于编译器来说它要做很多的前期工作,不是直接就帮局部变量的定义,原因是:我们先前提到main函数首先也是个函数,也就是说被编译器调用的,那一开始ebp和esp维护的就不是main函数的栈帧空间,所以编译器要做的前期工作之一那就是将ebp和esp转为维护main函数栈帧。(这里已经大致解释了问题5,后面调用Add函数编译器做的工作和现在调用main函数做的准备工作一模一样)
现在编译器要开始调用main函数了,我们来看看编译器做了什么。
首先第一句指针push ebp就是向栈顶存放一个ebp的变量,那这个时候esp就要上移了,因为存放了一个变量后,栈顶上移了,esp也要变。
第二句指令是mov ebp esp也就是把esp的值赋值给ebp,那此时ebp和esp就指向同一个位置了,然后是第三句,sub esp 0E4h是对esp减去一个值-0E4h,结果如下,esp就又上移了。
此时esp和ebp已经开始维护新的空间了,此时ebp和esp就已经开始维护被调用的main函数栈帧了。(后面会提如何在回去维护_ _tmainCRTStartup()函数的栈帧)
紧接着的几句都是push三个寄存器元素,ebx和esi的作用先不用管,而edi是提供给后面的rep stos指令的,我们先看看编译器往edi放了什么,ebp-0E4h不就是我们执行了sub指令后esp的位置吗,当然此时esp的位置是如下图的。
然后就是两个move指令和一个rep stos指令,这三句指令作用可以记忆一下,就是把edi地址向下的的ecx个空间全部初始化为eax中存的值,也就是说ecx存了初始化次数,eax存了初始化的值,而每个空间单位是dword指示的四个字节。论证:0E4h十进制是228,而39h(这个h好像是没啥用的)十进制是57,恰好分为了57个四个字节空间。
这就是为什么我们的局部变量未初始化的空间内存的是一个特别小的一个负数,就是因为我们一开始存的就是这么一个数,而且不同平台可能不一样,所以又称为随机数。(可以解释问题2为什么未初始化的局部变量内是随机值)。
四 执行实际写的代码转
1 定义局部变量
如果汇编不显示符号名,那其实创建一个局部变量,就是往一个空间内存一个值,当后面这块空间销毁了,局部变量也就没了。(问题1解释)
虽然我们写代码是连续定义了两个变量,但是这两个变量在内存的位置不是紧挨的,是有空隙的,这个空隙的大小由编译器来定。
我们往ebp-8位置开始向下使用四个字节来存放2,这说明栈区的内存是先用高地址,再用低地址,但是变量内部是先用低地址,再用高地址。
2 调用Add函数
然后我们再来看看调用Add函数是如何传参的,首先是将ebp-14h中的值存入存到寄存器,再push到栈顶,而ebp-14h的值就是y的值,这说明传参顺序是右到左(问题3的解释)。
我们push了两个参数到栈上,而且只是把x,y的值拷贝了一份放到栈顶上。push寄存器到栈上的意思是把寄存器的值放到栈顶上,不是将寄存器放到上面,为了更好地展示栈上是什么,才没有用数据代替。
然后我们就看到了一句call指令,这个时候会在栈顶上保存call指令下一条指令的地址,这个非常隐秘,我是从内存窗口才发现F11执行call指令时esp向上移动了四个字节。所以这个时候栈区的图应该为下图:
这个地址之后在Add函数销毁就会起作用。
还有call不是直接找到函数,而找到一句jump指令,jump指令才能找到函数。
此时调用Add函数又是一堆前置工作,就像调用main函数一样,都要改变ebp和esp。
我们可以看到最后我们把值都放到了eax中去,这就是Add函数栈帧都销毁了,还可以返回值的原因(问题6,后面有后续)。
此时就又使得esp和ebp去维护新调用的函数栈帧。(问题5的再解释,函数调用就是通过ebp和esp的两个指针的配合)
还有就是我们的实参和形参的关系从下面这张图应该可以理解吧,传值传参的时候,我们在Add函数找参数是ebp+8找的ecx,这就是x的值的拷贝,ebp+12找的就是y变量的拷贝。而且我们之前说ebp到esp之间是调用函数的栈帧,显而易见的是形参不在对应函数栈帧内。问题4,传值传参中形参是实参的临时拷贝。
3 Add函数栈帧的销毁
当我们调用完了Add就要使得esp和ebp返回去维护main函数栈帧,而如何返回的,请看下图。
pop就是从栈顶拿走一个元素,push的时候esp要上移,那pop的时候esp就要下移。
然后就是move 指令,那esp就直接和ebp一样指向了。
还有就是pop ebp还会把ebp(而这里的ebp存的是原先main的栈底指针存的地址)弹出并且存到ebp。那ebp不就直接去维护main函数的栈底了吗。
此时我们的ebp和esp基本回到维护main函数栈帧的状态,但是我们一开始是跳转到函数内去执行的指令,执行完后要回到main函数的,那怎么回来呢?就是这个ret指令的作用了。而且使用完后也会被pop掉
最后一步:esp+8就完成了对Add函数栈帧的销毁,也对形参进行了销毁。
而我们再回到main函数中,可以发现,ret[ebp-20h]接收的就是eax中的值(问题6后续)
这就是个人对函数栈帧的全部理解,之前学了觉得理解了,但是时间久了反而有点忘了,所以就狠下心来写了这篇博客,因为画很多图来结合分析。