Python番外篇之代码编译与字节码

news2025/1/23 15:08:33

引言

关于字节码,不太想讲,不影响实际使用,对新手不友好……
但是,涉及到新手经常碰到的问题的解惑,似乎又不得不讲。
最终,还是打算以番外篇的形式,稍微提一下。
不过,关于字节码的内容,我觉得在脑海里有以下几个观念,应该就够了,至于字节码的细节,能了解最好,实在不了解也不影响使用:

  • 1、Python中一切皆对象
  • 2、对象分为可变对象和不可变对象
  • 3、区分重新赋值操作,还是对象本身发生变化
  • 4、新手困惑的不可变对象的所谓的“对象修改”操作,一定是重新赋值操作,通过观察id()前后的变化,即可
  • 5、看似简单的一行代码一般都不是一步完成,而所谓字节码指令是能看到Python一行代码背后的实现步骤

生成字节码

Python解释器为了加速执行的速度,避免从Python源代码到字节码的重复编译工作。通常来说,Python会在模块首次导入时,执行对该模块的编译工作,并保存编译结果到对应的.pyc文件中。
所以,如果没有作为模块进行到如,只是执行一个普通的脚本,是不会涉及到.pyc文件的生成的,因为Python解释器判定没有涉及模块复用,没有必要执行该项操作。

当然,除了通过import导入模块的方式,会自动生成该模块对应的.pyc文件外,我们还有其他方式,来更加灵活地控制生成.pyc文件,从而实现没有定义为模块的普通代码,也可以生成.pyc文件。

.pyc文件,一般会存储在源代码文件所在目录中的__pycache__目录中。
.pyc文件的命名,一般是:

{源代码文件名}.{Python解释器类型}_{Python版本号}.pyc

以下简单列举,除了import导入模块之外,两种生成.pyc文件的方法:

通过Python代码:

可以在代码中通过内建的模块py_compile/compileall来生成.pyc文件
比如,通过py_compile生成指定Python脚本对应的字节码文件

import py_compile

py_compile.compile('./faker_test.py')

会发现脚本所在目录中多了一个__pycache__目录,目录中多了一个名为:faker_test.cpython-311.pyc的字节码文件。
根据实际环境的Python版本,文件名后面部分可能会有些差异。

通过compileall生成指定源码目录中所有源码脚本对应的.pyc文件:

import compileall

compileall.compile_dir('./')

脚本执行完成,会对当前目录中的所有Python脚本文件,生成其对应的.pyc文件。

通过Python -m 命令

也可以通过命令的形式,进行.pyc文件的生成,如同通过Python代码的方式,也可以指定单个文件,或者指定目录:

# 生成单个脚本文件的.pyc文件
python3 -m py_compile faker_test.py
# 生成当前目录中所有脚本文件对应的.pyc文件
python3 -m compileall ./

查看字节码

关于字节码文件的结构,这里简单描述一下。
需要说明的是,Python字节码文件中,除了包含源代码对应的字节码指令、对象外,还涉及到一些元数据信息,通常作为文件头存储,主要有以下信息,不同的Python版本可能会有差异。

文件头

文件头的元数据部分,共计16个字节,主要内容有:

  • 魔数(magic number):用于标识当前的Python版本和字节码的格式,占用4个字节;
  • 空字节padding:占用4个字节,当前默认均为0;
  • 源代码最后更新时间戳:占用4个字节;
  • 源代码文件的大小:占用4个字节,单位为byte
字节码

16字节的文件头元数据之后,就是字节码的主体部分了。主要的内容有:

  • co_code:字节码指令序列,每个指令都由操作码(opcode)和操作数(operand)组成;
  • co_consts:常量元组,包含代码中所有使用到的常量,整数、字符串、元组等;
  • co_names:名称元组,包含代码中使用的所有变量名、函数名等;
  • co_filename:源代码的文件名;
  • co_name:code对象的名称,通常是函数或者模块名;
  • co_firstlineno:代码对象的第一行行号,通常从1开始;
  • co_lnotab:代码行号表,用于将字节码偏移量映射到源代码中的行号

还有其他部分,就不再展开了。
下面通过代码实例,查看一个真实的.pyc文件的结构及相关内容:
首先是用于生成.pyc文件的代码示例,名为code_test.py

a = 10
b = 5
c = a + b


def my_sum(n1, n2):
    return n1 + n2

我们通过执行命令生成对应的.pyc文件:

 python3 -m compileall ./code_test.py

接下来,通过代码查看.pyc文件的内容,这部分代码可以不看,只看执行的输出结果,验证我们上面关于字节码文件结构的描述即可。

import dis
import marshal
import struct
import time
from rich import inspect

fp = open('./__pycache__/code_test.cpython-311.pyc', 'rb')
# 以下读取并输出文件头的元数据
# magic code
print(f"magic code: {struct.unpack('<l', fp.read(4))[0]}")
# padding
print(f"padding: {struct.unpack('<l', fp.read(4))[0]}")
# 源码最后更新时间
t = struct.unpack('<l', fp.read(4))[0]
print(f"last modified time: {time.asctime(time.localtime(t))}")
# 源码文件大小
print(f"file size: {struct.unpack('<l', fp.read(4))[0]} Bytes")
# 构造字节码code对象
code_obj = marshal.load(fp)
# 查看字节码对象类型
print(f"type: {type(code_obj)}")
# 通过前面介绍的rich的inspect()进行code对象的检视:
inspect(code_obj)
# 查看字节码指令序列
dis.dis(code_obj)

首先看文件头部分代码的输出:


前面4行,分别输出了4个字节的元数据内容,共计16个字节;
最后一行,为输出的code对象的类型。
对照笔者系统中的文件属性:

接下来是我们重点需要了解的字节码对象部分,这里我们使用了之前介绍过的rich模块中的inspect()函数,用于更加直观的查看该对象的结构:

最后,是我们后续查看代码执行的细节的字节码指令序列,这里我们通过内置的dis模块,来进行反编译查看:

简单说明一下字节码指令序列的输出:

  • 第一列:源代码中的行号
  • 第二列:字节码指令序列中的偏移,可以看出每个字节码指令长度都是两个字节
  • 第三列:字节码操作符,如LOAD_CONST、STORE_NAME等
  • 第四列:字节码操作数,0、1等分别为操作数在co_const或者co_names元组中的索引,()中的部分为该操作数的真实内容

我们后续的重点,主要是查看Python代码被编译为的字节码指令的查看。感兴趣的可以自行研究。

总结

其实,在真实场景中,我们需要用到字节码的地方比较少。更多的场景可能反而是在新手学习Python的过程中,遇到不理解的代码运行结果,通过查看字节码指令序列,从而更清晰地理解其中的细节。
字节码本身并不复杂,甚至关于字节码的格式、字节码指令,在不同的编程语言虚拟机中的定义,也都是大同小异的,比如Java字节码和Python字节码。关于虚拟机的实现、内存管理机制,也都是基于比较通用的垃圾回收算法的不同实现而已。
对字节码感兴趣的,可以查找更多的官网相关资料,进行进一步的研究。
说明:关于本文代码中用到的dis模块、marshal模块、struct模块、time模块等,也可以通过help()查看使用文档,或者直接查看对应的模块定义。本文的重点在于字节码文件的描述,所以就没有就这些模块的使用展开讲述,后续如果有使用的场景,再另行展开。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1893650.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

恒创科技:HTTP错误码403禁止意味着什么,怎么修复它?

HTTP错误码403禁止意味着客户端无权访问特定网页或服务器。403 错误表示客户端存在问题&#xff0c;无论用户使用的是哪种网络浏览器&#xff0c;都可能发生这种情况。幸运的是&#xff0c;阻止服务器允许访问特定页面的问题通常可以修复。以下是一些常见原因和相应的解决方案。…

Playwright之录制脚本转Page Object类

Playwright之录制脚本转Page Object类 设计思路 &#xff1a; 我们今天UI自动化设计的时候&#xff0c;通常会遵循一些设计模式&#xff0c;例如Page Object模式。但是自己找元素再去填写有一些麻烦&#xff0c;所以我们可以通过拆解录制的脚本&#xff0c;将其中的元素提取出来…

行业洞察 | 2024应用程序安全领域现状报告

在信息爆炸的时代&#xff0c;我们每天都在使用各种应用&#xff0c;从社交娱乐到工作学习&#xff0c;应用已经成为我们生活中不可或缺的一部分。然而&#xff0c;你是否知道&#xff0c;在这些便捷的背后&#xff0c;隐藏着巨大的安全风险&#xff1f; 近年来&#xff0c;应用…

爬虫-网页基础

HTML 基本语法 HTML&#xff1a;Hyper Text Markup Language, 超文本标记语言&#xff0c;是计算机语言的一种&#xff0c;由元素构成。 p元素 <p>Web 真好玩&#xff01;</p> 由三大部分组成 开始标签&#xff1a;一对尖括号中间包裹这元素名称元素内容&#x…

中霖教育怎么样?注册会计师可以跨省考试吗?

中霖教育怎么样?注册会计师可以跨省考试吗? 1. 考试地点安排&#xff1a; 注册会计师考试是在全国范围内统一举行的&#xff0c;通常设在各省、自治区和直辖市指定的考区。考生须依据准考证上提供的信息&#xff0c;核实自己的具体考试地点。该考试实行的网上统一报名制度&…

mpeg格式怎么转换成mp4?这四种转换方法非常好用!

mpeg格式怎么转换成mp4&#xff1f;在数字视频领域中&#xff0c;MPEG格式算是相对冷门的一种选择&#xff0c;然而&#xff0c;选择这种格式却不是没有代价的&#xff0c;首先&#xff0c;MPEG采用了有损压缩技术&#xff0c;这意味着在视频处理过程中&#xff0c;会丢失一些细…

欧洲杯:高精度定位技术,重塑体育赛事新体验

随着科技的飞速发展&#xff0c;体育赛事的观赏体验与竞技水平正被不断推向新的高度。在即将到来的2024年欧洲杯赛场上&#xff0c;一项革命性的技术——高精度定位&#xff0c;正悄然改变着比赛的每一个细节&#xff0c;为球迷们带来前所未有的观赛享受&#xff0c;同时也为运…

Linux Shell 脚本入门教程:开启你的自动化之旅

目录 一、什么是Shell&#xff1f; 二、 编写第一个Shell脚本 ​编辑 2.2 变量 2.3 功能语句 2.4 数组 一、什么是Shell&#xff1f; Shell是一种计算机程序&#xff0c;它充当了用户与操作系统之间的接口。在Linux系统中&#xff0c;Shell允许用户通过命令行界面&#x…

揭开梵蒂冈秘密档案馆的神秘面纱

关注我们 - 数字罗塞塔计划 - PART 01 深邃的历史 梵蒂冈秘密档案馆起源于公元8世纪&#xff0c;负责保存官方文书和教皇书信。9世纪开始在圣彼得大教堂设立档案库&#xff0c;负责保管外交和法律文件&#xff0c;在帕拉蒂诺山塔内保存经济和行政方面的档案。11至13世纪&…

3.2ui功能讲解之graph页面

本节重点介绍 : graph页面target页面flags页面status页面tsdb-status页面 访问地址 $ip:9090 graph页面 autocomplete 可以补全metrics tag信息或者 内置的关键字 &#xff0c;如sum聚合函数table查询 instante查询&#xff0c; 一个点的查询graph查询调整分辨率 resolutio…

在地图上根据经纬度,画一个矩型围栏,设置每个点的经纬度

在做一个需求时有一个小点就是添加一个配送区域(5公里直径内的)矩形围栏 我做的比较简单 大家看看有没有帮助, 也是精简代码。测试效果上相对是精准的 //谷歌&#xff0c;根据经纬度获取以它为中心半径为5公里内的矩形的四个点经纬度getDefalutPoints (lng: number, lat: num…

【SpringCloud】Ribbon源码解析

ribbon是一个负载均衡组件&#xff0c;它可以将请求分散到多个服务提供者实例中&#xff0c;提高系统的性能和可用性。本章分析ribbon是如何实现负载均衡的 1、LoadBalanced 消费者在引入ribbon组件后&#xff0c;给http客户端添加LoadBalanced注解就可以启用负载均衡功能。Lo…

LangChain 入门上篇:模型 I/O 封装

LangChain 是面向大模型的开发框架&#xff0c;是 AGI 时代软件工程的探索和原型。学习 LangChain 需要关注接口的变更。 LangChain 的核心组件 1.模型 I/O 封装 LLMS 大语言模型Chat Models 一套基于 LLMS&#xff0c;但按对话结构重新封装PromptTemplate 提示词模板Output…

Unity中TimeLine的一些用法

Unity中TimeLine的一些用法 概念其他 概念 无Track模式&#xff08;PlayableAsset、PlayableBehaviour&#xff09; 1. 两者关系 运行在PlayableTrack中作用 PlayableBehaviour 实际执行的脚本字段并不会显示在timeline面板上 PlayableAsset PlayableBehaviour的包装器&#x…

uboot run命令基本使用

run 命令可以用于运行环境变量的中定义的命令,run bootcmd 可以运行bootcmd中启动命令 作用:可以运行我们自定义的环境变量 include/command.h common/cli.c /*** board_run_command() - Fallback function to execute a command** When no command line features are enabled …

性能测试-JMeter学习

1、给不同的访问口分配访问占比&#xff1b;例&#xff1a;登录30%&#xff0c;首页&#xff1a;20%&#xff0c;新增&#xff1a;50% 不同业务放到不同线程组里&#xff0c;实现不同业务的分配 使用吞吐量控制器&#xff0c;设置不同的占比 使用if控制器&#xff0c;设置不同…

mac鼠标键盘共享:ShareMouse for Mac 激活版

hareMouse 是一款 Windows 和 macOS 操作系统上的共享和切换鼠标和键盘的实用工具。这款软件允许用户在多台计算机之间无缝地共享鼠标和键盘&#xff0c;使得在不同设备之间进行工作和操作变得更加便捷。占用资源少&#xff1a; ShareMouse 设计轻量&#xff0c;占用系统资源较…

Logback日志配置两种方式

SpringBoot 默认使用的是Logback 1. 在resource新建文件logback-spring.xml&#xff0c;配置日志相关信息 <configuration><property name"app.name" value"order-service"/><property name"log.path" value"./logs/"…

克隆gitee仓库,在vs2022创建文件夹开发项目操作步骤

git网站 git知识大全 git教程&#xff1a;廖雪峰的官方网站 git菜鸟教程 gitee之创建项目步骤 同步源仓库 2. 克隆命令 3. 右击git Bash Here>粘贴命令行 4. 选中项目文件夹》创建本人文件夹&#xff08;ZYY&#xff09; 5. 打开vs2022》新建项目》选择Framework》下…

C++之boost智能指针

1、boost智能指针 资源获取即初始化&#xff1a;在构造函数中对资源进行初始化&#xff0c;在析构函数中释放。 智能指针的本质思想是&#xff1a;将堆对象的生存期&#xff0c;用栈对象来管理。这个栈对象就是智能指针。 当new 一个堆对象的时候&#xff0c;立刻用智能指针…