Linux 下 C/C++ 程序编译的过程

news2024/11/14 14:29:07

目录

  • 一、GCC 工具链
  • 二、编译过程
    • 1、预处理
    • 2、编译
    • 3、汇编
    • 4、链接


本文将介绍如何将 C/C++ 语言编写的程序转换成为处理器能够执行的二进制代码的过程,包括四个步骤:预处理(Preprocessing)编译(Compilation)汇编(Assembly)链接(Linking)。

在此之前,首先来看一下 GCC 工具链。

一、GCC 工具链

GCCGUN Compiler Collection 的简称,是 Linux 系统上常用的编译工具。GCC 工具链软件包括 GCCBinutils、C 运行库等。

  • GCC
    • GCCGNU C Compiler)是编译工具。本文所要介绍的将 C/C++ 语言编写的程序转换成为处理器能够执行的二进制代码的过程即由编译器完成。
  • Binutils
    • 一组二进制程序处理工具,包括:addr2linearobjcopyobjdumpasldlddreadelfsize等。这一组工具是开发和调试不可缺少的工具,分别简介如下:
      • addr2line:用来将程序地址转换成其所对应的程序源文件及所对应的代码行,也可以得到所对应的函数。该工具将帮助调试器在调试的过程中定位对应的源代码位置。
      • as:主要用于汇编,有关汇编的详细介绍请参见后文。
      • ld:主要用于链接,有关链接的详细介绍请参见后文。
      • ar:主要用于创建静态库。为了便于初学者理解,在此介绍动态库与静态库的概念:
        • 如果要将多个 .o 目标文件生成一个库文件,则存在两种类型的库,一种是静态库,另一种是动态库。
        • 在 windows 中静态库是以 .lib 为后缀的文件,共享库是以 .dll 为后缀的文件。
        • 在 Linux 中静态库是以 .a 为后缀的文件,共享库是以 .so 为后缀的文件。
        • 静态库和动态库的不同点在于代码被载入的时刻不同。静态库的代码在编译过程中已经被载入可执行程序,因此体积较大。共享库的代码是在可执行程序运行时才载入内存的,在编译过程中仅简单的引用,因此代码体积较小。在 Linux 系统中,可以用 ldd 命令查看一个可执行程序依赖的共享库。
        • 如果一个系统中存在多个需要同时运行的程序且这些程序之间存在共享库,那么采用动态库的形式将更节省内存。
      • ldd:可以用于查看一个可执行程序依赖的共享库。
      • objcopy:将一种对象文件翻译成另一种格式,譬如将 .bin 转换成 .elf、或者将 .elf 转换成 .bin 等。
      • objdump:主要的作用是反汇编。有关次命令的详细介绍,可以参考:Linux 下 objdump 命令的使用。
      • readelf:显示有关 ELF 文件的信息,可以参考前文:ELF 文件格式。
      • size:列出可执行文件每个部分的尺寸和总尺寸,代码段、数据段、总大小等,请参见后文了解使用 size 的具体使用实例。
  • C 运行库
    • C 语言标准主要由两部分组成:一部分描述 C 的语法,另一部分描述 C 标准库。
    • C 标准库定义了一组标准头文件,每个头文件中包含一些相关的函数、变量、类型声明和宏定义,譬如常见的 printf 函数便是一个 C 标准库函数,其原型定义在 stdio 头文件中。
    • C 语言标准仅仅定义了 C 标准库函数原型,并没有提供实现。
    • 因此,C 语言编译器通常需要一个 C 运行时库(C Run Time LibrayCRT)的支持。C 运行时库又常简称为 C 运行库。
    • 与 C 语言类似,C++ 也定义了自己的标准,同时提供相关支持库,称为 C++ 运行时库。

二、编译过程

示例程序:

// test.c
#include <stdio.h>
#include <stdlib.h>

int add(int a,int  b)
{
    printf("Number are added together\n");
    return a + b;
}

int main(void)
{
    int a,b;
    a = 3;
    b = 4;
    int ret = add(a,b);
    printf("Result:%u\n",ret);
    exit(0);
}

1、预处理

预处理的过程主要包括以下过程:

  • 将所有的 #define 删除,并且展开所有的宏定义,并且处理所有的条件预编译指令,比如 #if#ifdef#elif#else#endif 等。
  • 处理 #include 预编译指令,将被包含的文件插入到该预编译指令的位置。
  • 删除所有注释“//”和“/* */”。
  • 添加行号和文件标识,以便编译时产生调试用的行号及编译错误警告行号。
  • 保留所有的 #pragma 编译器指令,后续编译过程需要使用它们。

使用 GCC 进行预处理的命令如下:

$ gcc -E test.c -o test.i

下面是 test.i 文件的一部分内容:


正如前文所说,预处理过程删去了文件中的头文件,并将对应文件中的内容包含到当前文件中:

2、编译

编译过程就是对预处理完的文件进行一系列的词法分析,语法分析,语义分析及优化后生成相应的汇编代码。

  • 词法分析:将源码按照语法规则进行分割,识别出各个独立的单词(token),如变量名、关键字、运算符等,并生成词法单元(token)序列。
  • 语法分析:根据文法规则,分析词法单元序列的结构,构建抽象语法树(AST)。语法分析过程通常使用上下文无关文法和语法分析算法(如 LL 算法或 LR 算法)。
  • 语义分析:对抽象语法树进行静态语义检查,验证语法结构是否符合语言规范,包括类型检查、作用域检查、函数调用检查等。在这一阶段中,编译器会进行符号表的构建,并进行符号的引用和声明的匹配。
  • 中间代码生成:将抽象语法树转化为一种中间表示形式,包括三地址码、四元式、抽象指令集等。这种中间表示形式更加抽象,便于进行优化和目标代码生成。
  • 优化:对中间代码进行优化,以改进程序的运行效率和空间利用率。优化的方式包括常量折叠、循环优化、函数内联、代码复用等。
  • 目标代码生成:将优化后的中间代码转化为目标机器的机器代码。这一步根据目标机器的特点和指令集,将中间代码转化为目标机器能够执行的代码,包括指令的选择、寄存器分配、指令调度等。

更多详细的内容可以去了解编译原理。

使用 GCC 进行编译的命令如下:

$ gcc -S test.i -o test.s

上述命令生成的汇编程序 test.s 的代码片段如下所示,其全部为汇编代码。

3、汇编

汇编过程调用对汇编代码进行处理,生成处理器能识别的指令,保存在后缀为 .o 的目标文件中。由于每一个汇编语句几乎都对应一条处理器指令,因此,汇编相对于编译过程比较简单,通过调用 Binutils 中的汇编器 as 根据汇编指令和处理器指令的对照表一一翻译即可。当程序由多个源代码文件构成时,每个文件都要先完成汇编工作,生成 .o 目标文件后,才能进入下一步的链接工作。注意:目标文件已经是最终程序的某一部分了,但是在链接之前还不能执行。

  • 指令选择:根据目标机器的指令集架构和指令要求,将目标代码中的每个中间指令转化为目标机器的指令。指令选择的过程中会考虑目标机器的寻址模式、寄存器可用性等因素。
  • 寄存器分配:对于每个指令中需要使用到的寄存器,分配目标机器中可用的寄存器。寄存器分配算法可以根据寄存器的可用性、寄存器的生存周期等因素来进行。
  • 指令调度:根据目标机器的特性,对指令进行排序和调整,以最大程度地利用硬件资源,提高指令的并行度和执行效率。指令调度可以包括指令的重排、插入空闲周期、移动指令位置等操作。
  • 符号解析:解析目标代码中的符号引用,将其与实际的地址进行绑定。这一步通常需要用到链接器生成的重定位表,将符号引用转化为具体的地址。
  • 生成可执行文件:将经过汇编过程的目标代码生成可执行文件或者可执行的机器代码。这一步包括将目标代码写入文件中,并根据操作系统的格式要求进行文件头和相关信息的设置。

使用 GCC 进行汇编的命令如下:

$ gcc -c test.s -o test.o

# 或者直接调用as进行汇编
$ as -c test.s -o test.o

可以看出,test.o 目标文件为 ELF 格式的可重定向文件。

ELF 文件可以参考 ELF 文件格式

4、链接

链接也分为静态链接和动态链接,其要点如下:

  • 静态链接是指在编译阶段直接把静态库加入到可执行文件中去,这样可执行文件会比较大。链接器将函数的代码从其所在地(不同的目标文件或静态链接库中)拷贝到最终的可执行程序中。为创建可执行文件,链接器必须要完成的主要任务是:
    • 符号解析(把目标文件中符号的定义和引用联系起来)
    • 重定位(把符号定义和内存地址对应起来然后修改所有对符号的引用)。
  • 动态链接则是指链接阶段仅仅只加入一些描述信息,而程序执行时再从系统中把相应动态库加载到内存中去。
    • 在 Linux 系统中,gcc 编译链接时的动态库搜索路径的顺序通常为:首先从 gcc 命令的参数 -L 指定的路径寻找;再从环境变量LIBRARY_PATH 指定的路径寻址;再从默认路径 /lib/usr/lib/usr/local/lib 寻找。
    • 在 Linux 系统中,执行二进制文件时的动态库搜索路径的顺序通常为:首先搜索编译目标代码时指定的动态库搜索路径;再从环境变量LD_LIBRARY_PATH 指定的路径寻址;再从配置文件 /etc/ld.so.conf 中指定的动态库搜索路径;再从默认路径 /lib/usr/lib 寻找。
    • 在 Linux 系统中,可以用 ldd 命令查看一个可执行程序依赖的共享库。

由于链接动态库和静态库的路径可能有重合,所以如果在路径中有同名的静态库文件和动态库文件,比如 libtest.alibtest.so,gcc 链接时默认优先选择动态库,会链接 libtest.so,如果要让 gcc 选择链接 libtest.a 则可以指定 gcc 选项 -static,该选项会强制使用静态库进行链接。以上面的程序为例:如果使用命令“gcc test.c -o test”则会使用动态库进行链接,生成的 ELF 可执行文件的大小(使用 Binutils 的 size 命令查看)和链接的动态库(使用 Binutils 的 ldd 命令查看)如下所示:

$ gcc test.c -o test
$ size test # 使用 size 查看大小
$ ldd test  # 可以看出该可执行文件链接了很多其他动态库,主要是Linux的glibc动态库

如果使用命令“gcc -static test.c -o test”则会使用静态库进行链接,生成的 ELF 可执行文件的大小(使用 Binutils 的 size 命令查看)和链接的动态库(使用 Binutils 的 ldd 命令查看)如下所示:

$ gcc -static test.c -o test
$ size test # 使用size查看大小
$ ldd test

链接器链接后生成的最终文件为 ELF 格式可执行文件,一个 ELF 可执行文件通常被链接为不同的段,常见的段如 .text.data.rodata.bss 等段。

可以看到,使用静态链接,最终生成的可执行文件的大小比使用动态链接的时候大了很多:

关于 text、data、bss 这些段的信息可以参考:单片机内存区域划分。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2115751.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何通过食堂采购小程序端降低成本,提升效率?

随着数字化管理工具的普及&#xff0c;越来越多的食堂正在引入小程序来优化采购流程&#xff0c;减少成本和提升效率。食堂采购小程序端通过技术手段实现了自动化、智能化的管理方式&#xff0c;为管理者提供了极大的便利。本文将探讨如何利用技术手段开发一个高效的食堂采购小…

【MATLAB】数据和字符串类型转换

数据和字符串类型转换 在 MATLAB 中&#xff0c;支持不同数据类型与字符串类型之间的转换&#xff0c;这需要使用不同的函数来实现。此外&#xff0c;相同的数据&#xff0c;特别是整数&#xff0c;可以用多种格式表示&#xff0c;例如十进制、二进制或十六进制。在 C 语言中&a…

vulhub远程执行命令漏洞CVE-2017-12636

1.打开环境 2.访问目标网站 CVE-2017-12636是一个任意命令执行漏洞&#xff0c;我们可以通过config api修改couchdb的配置query_server&#xff0c;这个配置项在设计、执行view的时候将被运行。 3.在网站中发现一个user表&#xff0c;我们可以带你进去看一下 里面是一个用户名…

每日一题|牛客竞赛|四舍五入|字符串+贪心+模拟

每日一题|四舍五入 四舍五入 心有猛虎&#xff0c;细嗅蔷薇。你好朋友&#xff0c;这里是锅巴的C\C学习笔记&#xff0c;常言道&#xff0c;不积跬步无以至千里&#xff0c;希望有朝一日我们积累的滴水可以击穿顽石。 四舍五入 题目&#xff1a; 牛牛发明了一种新的四舍五…

C语言手撕归并——递归与非递归实现(附动画及源码)

&#x1f916;&#x1f4bb;&#x1f468;‍&#x1f4bb;&#x1f469;‍&#x1f4bb;&#x1f31f;&#x1f680; &#x1f916;&#x1f31f; 欢迎降临张有志的未来科技实验室&#x1f916;&#x1f31f; 专栏&#xff1a;数据结构 &#x1f468;‍&#x1f4bb;&#x1f…

【Python基础】Python函数

本文收录于 《Python编程入门》专栏&#xff0c;从零基础开始&#xff0c;分享一些Python编程基础知识&#xff0c;欢迎关注&#xff0c;谢谢&#xff01; 文章目录 一、前言二、函数的定义与调用三、函数参数3.1 位置参数3.2 默认参数3.3 可变数量参数&#xff08;或不定长参数…

springboot项目--后端问题记录

springboot项目后端记录 前言一、包1. lombok--自动生成勾子方法作用依赖使用 2. Validated--自动校验作用依赖使用一般参数校验实体参数校验 结论 3. JWT(json web taken) 令牌生成什么是takenJWT包依赖使用获取taken校验 封装的工具类使用 二、处理技巧1. 全局异常处理作用代…

服务器禁用远程(22)

vim /etc/ssh/sshd_config 修改 ListenAddress 0.0.0.0 为ListenAddress localhost 修改完后 重启一下sshd systemctl restart sshd 修改就生效了

【 html+css 绚丽Loading 】000044 两仪穿行轮

前言&#xff1a;哈喽&#xff0c;大家好&#xff0c;今天给大家分享htmlcss 绚丽Loading&#xff01;并提供具体代码帮助大家深入理解&#xff0c;彻底掌握&#xff01;创作不易&#xff0c;如果能帮助到大家或者给大家一些灵感和启发&#xff0c;欢迎收藏关注哦 &#x1f495…

数据库的配置2:客户端navicat的安装与连接数据库的方法

二.客户端的配置&#xff1a; 1.navicat ①安装&#xff1a; 破解根据文档进行破解即可 链接: https://pan.baidu.com/s/1M5KUv_fgRlFA50VfcV1VqA 提取码: j4a2 复制这段内容后打开百度网盘手机App&#xff0c;操作更方便哦 安装步骤很简单&#xff0c;直接下一步就好&…

Pandas处理数据,基本应用

Pandas是一个Python包&#xff0c;提供快速、灵活且表达力强的数据结构&#xff0c;旨在使处理“关系型”或“带标签”数据。专门设计用于进行数据分析和操作&#xff0c;它是建立在numpy之上&#xff0c;提供了易于使用的数据结构和数据分析工具。Pandas最主要的数据结构是Dat…

开启Hyper-V之后用不了VMware了,怎么破?

正文共&#xff1a;800 字 7 图&#xff0c;预估阅读时间&#xff1a;1 分钟 前面我们介绍了如何在Windows 10操作系统中启用Hyper-V虚拟化服务&#xff08;什么&#xff1f;Windows自带的Hyper-V虚拟化你都没用过&#xff1f;&#xff09;&#xff0c;但是在启用Hyper-V服务之…

vulhub spring 远程命令执行漏洞(CVE-2016-4977)

1.执行以下命令启动靶场环境并在浏览器访问 cd /vulhub/spring/CVE-2016-4977#进入漏洞环境所在目录 docker-compose up -d #启动靶场 docker ps #查看容器信息 2.输入以下命令测试环境 192.168.0.107:8080/oauth/authorize?response_type${2*2}&client_idacme&sc…

RMSE 和 RMS 介绍

RMSE&#xff08;Root Mean Square Error&#xff09;和 RMS&#xff08;Root Mean Square&#xff09;都是衡量误差或数据变动的统计量。它们在数据分析、机器学习和统计中应用广泛。以下是它们的详细介绍&#xff1a; 1. RMSE&#xff08;均方根误差&#xff09; 定义&…

【verilog】1. 流水灯例程

文章目录 前言一、定义概念 缩写1. verilog 二、性质三、代码分解释四、完整代码参考文献 前言 数电课设 一、定义概念 缩写 1. verilog Verilog 是一种以代码形式来描述数字系统和电路的硬件描述语言 (HDL)。它由 Gateway Design Automation 在 20 世纪 80年代中期开发&a…

9.06.

#include "mywidget.h"mywidget::mywidget(QWidget *parent): QMainWindow(parent) {/*---------------------窗口设置&#xff08;无边框&#xff09;----------------------*/this->setWindowFlag(Qt::FramelessWindowHint);//窗口大小this->resize(590,950)…

大数据之Flink(二)

4、部署模式 flink部署模式&#xff1a; 会话模式&#xff08;Session Mode&#xff09;单作业模式&#xff08;Per-Job Mode&#xff09;应用模式&#xff08;Application Mode&#xff09; 区别在于集群的生命周期以及资源的分配方式&#xff1b;以及应用的main方法到底在…

WireShark过滤器

文章目录 一、WireShark过滤器概念1. 捕获过滤器&#xff08;Capture Filters&#xff09;2. 显示过滤器&#xff08;Display Filters&#xff09;3. 捕获过滤器与显示过滤器的区别4. 过滤器语法结构实际应用场景 二、WireShark捕获数据包列表1. **No.&#xff08;序号&#xf…

vulhub ThinkPHP5 5.0.23远程代码执行漏洞

步骤一&#xff1a;.执行以下命令启动靶场环境并在浏览器访问 cd thinkphp/5.0.23-rcedocker-compose up -ddocker ps 步骤二&#xff1a;访问靶机环境 步骤三&#xff1a;/index.php?scaptcha 步骤四&#xff1a;利用HackBar _method__construct&filter[]system&me…

心理辅导新篇章:Spring Boot学生评估系统

1 绪论 1.1 研究背景 现在大家正处于互联网加的时代&#xff0c;这个时代它就是一个信息内容无比丰富&#xff0c;信息处理与管理变得越加高效的网络化的时代&#xff0c;这个时代让大家的生活不仅变得更加地便利化&#xff0c;也让时间变得更加地宝贵化&#xff0c;因为每天的…