AAPCS：最新的ARM子程序调用规则

AAPCS是arm公司发布的ARM架构应用程序二进制（ABI）程序调用接口，该文档由多个版本，博主第一次ARM程序调用规则是在《ARM体系与结构编程》，但书中描述的是ATPCS，AAPCS是ATPCS的升级版。后面去ARM官网看到了AAPCS的文档，遂记录下来。ARM的ABI标准有多个文档，该文档只是其中的一部分。下面的链接里面包含了相关文档，又想去的可以拿来都看看。最新版的链接：GitHub - ARM-software/abi-aa: Application Binary Interface for the Arm® Architecture

1、适用范围

AAPCS定义了子程序如何编写、如何编译和单独组装以协同工作，它描述了调用例程和被调用例程之间的关系：

调用函数需要创建一个程序状态，在该状态下，被调用例程可以开始执行。
被调用函数有义务在被调用期间保留调用函数的程序状态。
被调用函数有权更改调用函数的程序状态。

该标准是一系列过程调用标准（PCS）变体的基础，这些变体是通过反映以下替代优先级的选择而生成的：

代码
性能
功能性（例如，调试的便捷性，运行时检查，对共享库的支持）

每个变体的某些方面（如R9的使用情况）有执行环境决定，因此：

遵循基本标准的代码可以与每个变体都兼容PCS，这是可能的。
符合某个变体的代码与符合任何其他变体的代码兼容，这是不寻常的。
符合某个变体或基本标准的代码不能保证与要求这些标准的执行环境兼容。执行环境可能对过程调用标准范围之外提出进一步的要求。

该标准分为四个部分：

数据的布局。
具有公共接口的函数之间的堆栈布局和调用方式。
处理器扩展可用的变体，或者在执行环境限制寻址模型时。
用于普通数据类型的C和C++语言绑定。

本规范不标准化非C语言实体的公共可见性的表示（这些在CPPABI32中描述），并且对不在公共接口上可见的语言实体的表示不提出任何要求。

2、数据类型和对齐方式

2.1 基本数据类型

下表显示了机器的基本数据类型（机器类型），NULL指针总是由全为0表示。

2.1.1 半精度浮点

ARM架构的可选扩展为半精度值提供硬件支持，目前支持三种格式：

IEEE754-2008标准的半精度格式
ARM的替代格式，提供额外的范围，但没有无穷大（NaN）
Brain浮点格式，提供了类似于32位浮点格式的动态范围，但精度更少。

2.1.2 容器化向量

容器化向量的内容对大多数调用标准来说都是不透明的：其布局的唯一定义方面是内存格式（基本类型在内存中储存的方式），与调用时不同寄存器之间的映射。

2.2 字节顺序

从软件的角度看，内存就是一个数组，每个字节都有自己的地址。

ABI支持由底层硬件实现的两种内存视图：

大端视图（大端模式）
小端视图（小端模式）

2.3 复合类型

复合类型是一个或多个基本数据类型的集合，在调用过程中作为单个实体进行处理。可以是以下任意一种：

顺序，其成员按照顺序排列在内存中（其实就是C的结构体）
联合体，每个成员都有相同的地址
数组

该定义是递归的，也就是说，每个类型都可以包含复合类型（结构体套结构体）。

3 基本过程调用标准

该部分定义了ARM和Thumb通用的机器级、仅核心寄存器调用标准指令集。应用于没有浮点硬件的系统，或者需要与Thumb代码高度互操作的情况。

3.1 机器寄存器

ARM架构定义了一个核心指令集，以及协处理器附加的指令。核心指令集可以访问核心寄存器，协处理器可以提供额外操作的寄存器。

3.1.1 核心寄存器

ARM和Thumb指令集有16个32位寄存器，R0--R15，还有一个状态寄存器（CPSR），下表是各个寄存器的功能。

前四个寄存器r0-r3（a1-a4）用于将参数值传递到子例程，并从函数返回结果值。它们也可以用于在例程内部保存中间值（但通常仅在子例程调用之间）。

寄存器r12（IP）可以由链接器在例程和调用的任何子例程之间用作临时寄存器（有关详细信息，请参阅链接器使用IP）。它还可以在例程内部用于保存子例程调用之间的中间值。

在某些变体中，寄存器r11（FP）可能被用作帧指针，以便将帧激活记录链接成链表。

寄存器r9的角色取决于平台。虚拟平台可以为该寄存器分配任何角色，并必须记录此用法。例如，它可以将其指定为无位置相关数据模型中的静态基址（SB），或者在具有线程局部存储的环境中将其指定为线程寄存器（TR）。对该寄存器的使用可能需要保持其值在所有调用之间持久。没有对这种特殊寄存器的需求的虚拟平台可以将r9指定为附加的被调用保存变量寄存器v6。

通常，寄存器r4-r8，r10和r11（v1-v5，v7和v8）用于保存例程的局部变量的值。其中，只有v1-v4可以由整个Thumb指令集统一使用，但AAPCS并不要求Thumb代码仅使用这些寄存器。

子例程必须保留寄存器r4-r8，r10，r11和SP的内容（在PCS变体中，将r9指定为v6时也要保留r9）。

在过程调用标准的所有变体中，寄存器r12-r15都具有特殊角色。在这些角色中，它们被标记为IP，SP，LR和PC。

CPSR是一个具有以下属性的全局寄存器：

在进入或从公共接口返回时，N、Z、C、V和Q位（位27-31）以及GE[3:0]位（位16-19）是未定义的。只有在执行支持这些特性的处理器上时，才可以修改Q和GE[3:0]位。
在Arm架构6上，E位（位8）可用于在执行小端模式的应用程序中，或在大端-8模式中暂时更改对内存的数据访问的字节序。应用程序必须具有指定的字节序，并且在进入和退出任何公共接口时，E位的设置必须与应用程序的指定字节序匹配。
T位（位5）和J位（位24）是执行状态位。只有专为修改这些位而指定的指令才能更改它们。
A、I、F和M[4:0]位（位0-7）是特权位，只能由专为在特权模式下明确运行的应用程序修改。
所有其他位都是保留位，不得修改。未定义这些位是读作零还是一，或者它们是否在公共接口间保持不变。

3.1.1.1 处理大于32位的值

大于32位的基本类型可以作为参数传递给函数调用，或作为函数调用的结果返回。当这些类型位于核心寄存器中时，应用以下规则：

双字大小的类型以两个连续的寄存器传递（例如，r0和r1，或r2和r3）。寄存器的内容就像使用单个LDM指令从内存表示中加载该值一样。
一个128位的容器化向量以四个连续的寄存器传递。寄存器的内容就像使用单个LDM指令从内存中加载该值一样。

3.2 进程、内存和堆栈

AAPCS适用于单个执行线程或进程（以下统称为进程）。进程具有由底层机器寄存器和其可以访问的内存内容定义的程序状态。在进程执行期间，进程能够访问的内存，而不会导致运行时故障，可能会有所变化。进程的内存通常可分为五个类别：

代码（正在执行的程序），必须对进程可读，但不必对其可写。

只读静态数据。
可写静态数据。
堆。
堆栈。

可写的静态数据可以进一步分为已初始化、零初始化和未初始化数据。除了堆栈外，没有要求每个内存类都必须占据内存的单个连续区域。进程始终必须有一些代码和一个堆栈，但不必拥有任何其他内存类别。

堆是由进程自身管理的内存区域（例如，使用C的malloc函数）。通常用于创建动态数据对象。

符合规范的程序必须只执行在被指定为包含代码的内存区域中的指令。

3.2.1 堆栈

堆栈是一块连续的内存区域，可用于存储局部变量和在参数寄存器不足时向子例程传递附加参数。

堆栈实现是完全降序的，当前堆栈的范围保存在寄存器SP（r13）中。堆栈通常会有基地址和限制地址，尽管在实践中应用可能无法确定任何一个值的具体数值。

堆栈可能具有固定大小，也可能是动态可扩展的（通过向下调整堆栈限制）。

关于堆栈的维护规则分为两部分：一组必须始终遵守的约束条件和一个必须在公共接口中遵守的附加约束条件。

3.2.1.1 通用堆栈约束

始终需要满足以下基本约束条件：

堆栈限制 ≤ SP ≤ 堆栈基址。堆栈指针必须位于堆栈的范围内。
SP mod 4 = 0。堆栈始终必须对齐到字边界。
进程只能将数据存储在整个堆栈的封闭区间内，由[SP，堆栈基址 - 1]（其中SP是寄存器r13的值）限定。

3.2.1.2 公共接口的堆栈约束

在公共接口处，堆栈还必须符合以下约束： SP mod 8 = 0。堆栈必须是双字对齐的。

3.2.1.3 堆栈探查

为了确保堆栈的完整性，进程可能在分配额外的堆栈空间（从SP_old移动到SP_new）之前立即发出堆栈探查。堆栈探查必须位于[SP_new, SP_old - 1]的区域内，并且可以是读或写操作。堆栈探查的最小间隔由目标平台定义，但必须至少为4K字节。在当前分配的堆栈区域下面不能保存可恢复的数据。

3.2.1.4 帧指针

平台可能要求构建描述程序中当前调用层次结构的堆栈帧列表。每个帧应通过在堆栈上使用两个32位值的帧记录与其调用者的帧链接。最内层帧（属于最近例程调用）的帧记录应由帧指针寄存器（FP）指向。最低地址的字应指向上一个帧记录，最高地址的字应包含在进入当前函数时传递给LR的值。帧记录链的结束由前一帧的地址为零来表示。在堆栈帧中的帧记录位置未指定。帧指针寄存器在新的帧记录完全构建之前不能更新。

3.3 子例程调用

Arm和Thumb指令集都包含一个基本的子例程调用指令BL，执行分支带链接操作。执行BL的效果是将程序计数器的下一个顺序值，即返回地址，传送到链接寄存器（LR），并将目标地址传送到程序计数器（PC）。如果从Thumb状态执行BL指令，则链接寄存器的第0位将设置为1，如果从Arm状态执行，则设置为0。结果是将控制权转移到目标地址，将LR中的返回地址作为附加参数传递给被调用的子例程。

当返回地址被加载回PC时（请参见交互操作），控制将返回到BL后面的指令。

3.4 返回结果

函数返回结果的方式取决于该结果的类型。对于基本标准：

半精度浮点类型返回在r0的最低有效16位。
小于4字节的基本数据类型被零扩展或符号扩展为一个字，并返回在r0中。
字大小的基本数据类型（例如，int、float）在r0中返回。
双字大小的基本数据类型（例如，longlong、double和64位容器化向量）在r0和r1中返回。
128位容器化向量在r0-r3中返回。
不大于4字节的复合类型在r0中返回。其格式就像将结果存储在内存中的字对齐地址，然后使用LDR指令加载到r0中一样。r0中超出结果范围的任何位都具有未指定的值。
大于4字节的复合类型，或其大小无法由调用方和被调用方静态确定的，将存储在内存中，其地址作为调用函数时传递的额外参数（参数传递，基本PCS，规则A.4）。结果使用的内存在函数调用期间的任何时刻都可以进行修改。