【Python】浅析Python内存管理与GC机制

news2024/11/25 11:30:26

【Python】浅析Python内存管理与GC机制

从C语言引入:内存管理的挑战

C语言是一个强大的编程语言,它允许开发者直接控制内存。这种控制是通过以下方式实现的:

  • 内存分配:使用 malloccallocrealloc 等函数分配内存。
  • 内存释放:使用 free 函数释放内存。

例如,在创建链表时:

image-20240530215326718

我们使用malloc,为结点结构体的指针分配内存。

而在删除节点时,我们采用free函数来进行内存的释放。

image-20240530215713904

尽管这种直接控制带来了灵活性,但也带来了显著的缺点和风险:

  1. 内存泄漏:如果开发者忘记释放已经分配的内存,会导致内存泄漏,长时间运行的程序可能会耗尽可用内存。
  2. 悬挂指针:如果释放了内存但仍然继续使用这些内存的指针,会导致悬挂指针,从而导致程序崩溃或不可预测的行为。
  3. 碎片化:频繁的内存分配和释放可能导致内存碎片化,降低程序性能。

第一点与第三点实际上有些类似:程序员手动创建与释放内存,很容易忘记释放某些不常用内存,且部分内容使用时间较长,不方便规划内存释放时机。

第二点:若释放完内存,指针会变成空指针,若此时再对其进行使用,可能会导致空指针异常。

Python:GC(垃圾回收器)的便利

Python 作为一种高级编程语言,提供了自动内存管理和垃圾回收机制,极大地简化了内存管理。开发者不需要手动管理内存的分配和释放,而是依赖于Python内置的垃圾回收器(Garbage Collector,GC)来完成这些任务。

Python的内存管理主要由以下几个部分组成:

  1. 引用计数器(Reference Counting)
  2. 垃圾回收器(Garbage Collector)
  3. 对象池(Object Pooling)

1. 引用计数器

1·1 环状双向链表 refchain

在Python程序中创建的任何对象,都会放在refchain链表中。

name = "Python课程展示"
time = 2.5
studyProgress = ["还没开始预习","马上开始预习"]

当创建一个对象时,内存会存储一些关于这个对象的数据

【上一个对象,下一个对象,类型,引用个数】
name = "Python课程展示"
new = name

在C语言源码中,如何体现每个对象中都有的相同的值:PyObject结构体(4个值)

有多个元素组成的对象:PyObject结构体(4个值) + ob_size。

image-20240530201815871

1.2 类型封装结构体

以Float类型为例

data = 3.14

内部会创建:

_ob_next = //refchain中的上一个对象
_ob_prev = //refchain中的下一个对象
ob_refcnt = 1
ob_type = float
ob_fval = 3.14

image-20240530202142582

1.3 引用计数器
v1 = 3.14
v2 = 999
v3 = (1,2,3)

当Python程序运行时,会根据数据类型的不同找到其对应的结构体,根据结构体中的字段来进行创建相关的数据,然后将对象添加到refchain双向链表之中。

在C语言源码中有两个关键的结构体:PyObject、PyVarObject

引用计数器是Python内存管理的核心机制之一。每个对象都有一个引用计数器,用于记录引用该对象的数量。当一个对象被创建时,其引用计数为1,当有新的引用指向该对象时,计数加1,当引用被删除时,计数减1。如果引用计数变为0,该对象将被回收。

  • 引用
a = 9999
b = a 
  • 删除引用
a = 9999
b = a
del b 
# b变量删除
# b对应对象的引用计数器 -1
del a
# a变量删除
# a对应对象的引用计数器 -1

此时,引用计数器归零,意味着没有人再使用这个对象,这个对象就被判定为垃圾,触发垃圾回收机制。

  1. 将对象从refchain链表移除

  2. 将对象销毁,内存归还。

    (缓冲机制)

1.4 循环引用问题(交叉感染)

例如,创建两个列表。

v1 = [11,22,33] # refchain中创建一 个列表对象, 由于v1=对象, 所以列表引对象用计数器为1.
v2 = [44,55,66] # refchain中再创建一个列表对象,因v2=对象,所以列表对象引用计数器为1.
v1.append(v2) # 把v2追加到v1中,则v2对应的[44, 55 , 66]对象的引用计数器加1,最终为2.
v2.append(v1) # 把v1追加到v1中,则v1对应的[11,22,33]对象的引用计数器加1,最终为2.

del v1 # 引用计数器 -1
del v2 # 引用计数器 -1

2. 标记清除

目的:为了解决引用计数器循环引用的不足。

实现:在Python的底层,再维护一个链表。链表中专门放可能存在循环引用的对象。(list/tuple/dict/set)

在Python内部的某种情况下触发,会去扫描可能存在循环引用的链表中的每个元素,检查是否有循环引用,如果有则让双方的引用计数器 -1 ;如果是0则垃圾回收。

标记清除机制的优缺点

优点
  • 处理循环引用:标记清除机制可以有效处理对象之间的循环引用问题。
  • 准确性:能够准确回收所有不可达对象,避免内存泄漏。
缺点
  • 性能开销:标记和清除过程需要遍历所有对象,可能会带来性能开销,尤其是在对象数量庞大的情况下。
  • 暂停时间:标记和清除过程会暂停程序的执行,可能导致程序的响应时间变长。

问题:

  • 什么时候扫描?
  • 可能存在循环引用的链表扫描代价较大,每次扫描耗时比较久。

3. 分代回收

Python 的垃圾回收器 将可能存在循环引用的对象 维护成三个链表:

  1. 年轻代(Generation 0):新创建的对象。
  2. 中生代(Generation 1):从年轻代晋升的对象。
  3. 老年代(Generation 2):从中生代晋升的对象。

分代的基本原则

  • 大多数对象很快会变成垃圾:新创建的对象往往在很短的时间内就不再使用,因此年轻代的回收频率最高。
  • 对象存活时间越长,被回收的可能性越小:因此,中生代和老年代的回收频率较低。

分代垃圾回收的工作原理

1. 年轻代(Generation 0)
  • 创建对象:所有新创建的对象都首先分配到年轻代。
  • 垃圾回收:年轻代的垃圾回收频率最高,因为新创建的对象大多数很快就会变成垃圾。每次年轻代的垃圾回收称为一次小型垃圾回收(Minor GC)。
  • 晋升机制:存活时间较长的对象(未在年轻代被回收的对象)会晋升到中生代。
2. 中生代(Generation 1)
  • 存活对象:在年轻代存活并晋升到中生代的对象。
  • 垃圾回收:中生代的垃圾回收频率较低。每次中生代的垃圾回收不仅回收中生代,还会同时回收年轻代。
  • 晋升机制:在中生代存活较长时间的对象会晋升到老年代。
3. 老年代(Generation 2)
  • 长期存活对象:在中生代存活并晋升到老年代的对象。
  • 垃圾回收:老年代的垃圾回收频率最低,因为这些对象存活时间最长,被回收的可能性较小。每次老年代的垃圾回收会回收整个堆,包括年轻代和中生代。

分代垃圾回收的触发条件

  • 阈值触发:每个代都有一个垃圾回收阈值,当该代分配的对象数量超过阈值时,触发一次垃圾回收。
  • 手动触发:可以通过调用 gc.collect() 手动触发垃圾回收。

分代垃圾回收的实现细节

对象管理

Python 的垃圾回收器使用链表和指针来管理各代中的对象。每个代都有一个链表,链表中的节点代表堆中的对象。垃圾回收器通过遍历这些链表来进行垃圾回收。

晋升机制
  • 晋升条件:当对象在某一代经过一定次数的垃圾回收后仍然存活,则晋升到下一代。这个次数由一个计数器控制。
  • 晋升过程:垃圾回收器会将满足晋升条件的对象从当前代的链表移到下一代的链表。

分代回收算法

  • 小型垃圾回收(Minor GC):只回收年轻代,通过标记-清除算法,标记可达对象并回收不可达对象。
  • 中型垃圾回收(Mid GC):回收中生代和年轻代。
  • 完全垃圾回收(Full GC):回收整个堆,包括所有代。

分代回收机制的优缺点

优点
  • 高效:通过频繁回收年轻代,减少长期存活对象的回收次数,优化了垃圾回收性能。
  • 减少停顿:分代回收机制通过分阶段回收,避免了单次回收时间过长的问题,减少了程序停顿时间。
缺点
  • 复杂性:实现和调优分代垃圾回收机制需要更多的复杂性。
  • 内存开销:需要维护多个链表和晋升逻辑,增加了一定的内存开销。

4. 缓存机制

4.1 池

Python 对小整数(通常在 -5 到 256 范围内)进行缓存,以提高整数对象的重用效率。小整数对象在 Python 解释器启动时创建,并在整个程序运行期间保存在内存中。当需要这些范围内的小整数时,直接从缓存中获取对象,而不是重新创建。这种缓存机制减少了频繁创建和销毁小整数对象的开销。

# 启动解释器时,python内部会帮我们创建:-5 / -4 ... 257
v1 = 7 # 内部不会开辟内存,直接去池中获取
v2 = 9 # 内存不会开辟内存,直接去池中获取
v3 = 9

在 Python 源代码中,小整数缓存机制实现如下:

/* 初始化小整数数组 */
for (i = 0; i < 257; i++) {
    small_ints[i] = PyLong_FromLong((long)i - 5);
}

/* 获取小整数对象 */
PyObject* get_small_int(int value) {
    if (value >= -5 && value <= 256) {
        return small_ints[value + 5];
    } else {
        return PyLong_FromLong((long)value);
    }
}

通过这种方式,Python 确保在需要小整数时,直接从缓存数组 small_ints 中获取对象,避免了重复创建。

4.2 字符串驻留机制

Python 对某些字符串进行驻留(interning),即在内存中保存并重用相同的字符串对象。这种机制适用于短字符串和常用标识符,例如变量名、函数名等。驻留字符串的优点在于节省内存和提高字符串比较操作的效率。

字符串驻留的实现

在 Python 中,可以手动将字符串驻留,通过调用 sys.intern() 函数:

import sys

a = sys.intern("hello")
b = sys.intern("hello")

# a 和 b 是同一个对象
print(a is b)  # 输出: True

对于自动驻留,Python 对某些字符串常量自动应用驻留机制,例如:

a = "hello"
b = "hello"

# a 和 b 是同一个对象
print(a is b)  # 输出: True

结语

依笔者之见,学习任何一门语言,仅仅了解其浅层的语法,理解的深度和对这门语言的熟悉程度会大打折扣,若是开发中需求一些较为底层的内容,便会捉襟见肘。故而在课程之余,不妨简单了解一下Python的GC机制,既是对当前学习内容的总结,也是对底层机制的进一步了解与深入。

参考资料与文献材料:

06 剖析C源码执行流程_哔哩哔哩_bilibili

python/cpython: The Python programming language (github.com)

python垃圾回收 (GC) 机制_python gc-CSDN博客

【python】python的垃圾回收机制(详细讲解)-CSDN博客

特别鸣谢:

xiaoduyyy-CSDN博客 提供的C语言链表源码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1718044.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++系列-类模板

&#x1f308;个人主页&#xff1a;羽晨同学 &#x1f4ab;个人格言:“成为自己未来的主人~” 类模板的定义格式&#xff1a; #define _CRT_SECURE_NO_WARNINGS #include<iostream> using namespace std; template<class T> class Stack { public:Stack(size_…

Mariadb操作命令指南

MariaDB简介 ​ 以下内容仅是站长或网友个人学习笔记、总结和研究收藏。不保证正确性&#xff0c;因使用而带来的风险与本站无关&#xff01; 数据库应用程序与主应用程序分开存在&#xff0c;并存储数据集合。 每个数据库都使用一个或多个API来创建&#xff0c;访问&#xf…

恒创科技:无法与服务器建立安全连接怎么解决?

在使用互联网服务时&#xff0c;有时会出现无法与服务器建立安全连接的问题&#xff0c;此错误消息通常出现在尝试访问需要安全连接的网站(例如使用 HTTPS 的网站)时&#xff0c;这可能是由于多种原因造成的&#xff0c;以下是一些常见的解决方法&#xff0c;帮助你解决问题。 …

svg实现一个圆形以及方形的环形进度条

1. svg实现圆形进度条 效果图&#xff1a; 1. 写个假接口&#xff1a; let res {curLegendList: [{ progress: "87", name: "进度1",color:"#00fe41" },{ progress: "66", name: "进度2" ,color:"orange"},{ p…

看到大厂工时爆料,我沉默了。。

大厂工时爆料 今天逛脉脉的时候&#xff0c;看到一篇名为「一人一句&#xff0c;大厂工时爆料」的帖子&#xff1a; 点开之后&#xff0c;我沉默了 ... 出来爆料的基本上都是 10 小时。 好奇心之下&#xff0c;我搜索了一下去年很热的排行榜&#xff1a; 2023 年最新互联网公司…

if constexpr实现条件编译

#include <iostream>// 利用if constexpr实现了条件编译 template<typename T1, typename T2> void test_func() {if constexpr (std::is_same_v<T1, T2>) {std::cout << "hit stage\n";} else {std::cout << "miss\n";} }i…

IDEA 常用技巧

1、代码块整体移动 选中&#xff0c;tab整体右移选中&#xff0c;shifttab整体左 移 2、统一修改变量 3.方法分割线 seting >> editor >> apperance >> show method separators 4、快捷键 构造器、set与get方法、方法重写、toString 等快捷操 鼠标停留在…

启智CV机器人,ROS, ubuntu 18.04

资料&#xff1a; https://wiki.ros.org/kinetic/Installation/Ubuntu https://blog.csdn.net/qq_44339029/article/details/120579608 http://wiki.ros.org/melodic/Installation/Ubuntu https://github.com/6-robot/wpb_cv 一、安装ros环境 装VM。 装ubuntu18.04 desktop.…

数字化的本质是什么?

数字化的本质其实就是把日常生活、工作等各个方面的信息、操作、交流等转化成数字形式&#xff0c;让它们更加便于存储、传输、分析和处理。简单说就是把各种各样的东西变成了0和1&#xff0c;让计算机能够更好地理解和运用这些信息。但数字化的本质并不只是简单地把事物变成数…

广告联盟四大家

国内四大广告承接商&#xff1a;①抖音旗下-穿山甲②快手旗下-快手联盟③百度旗下-百青藤④腾讯旗下-优量汇 我们目前在互联网上能看到的所有广告都是由他们发放的&#xff0c;在其中我们打小游戏复活看广告&#xff0c;获得道具看广告&#xff0c;看剧看广告&#xff0c;这…

springboot + Vue前后端项目(第十四记)

项目实战第十三记 写在前面1. 建立字典表2. 后端DictController3. Menu.vue4. 建立sys_role_menu中间表5.分配菜单接口6. 前端Role.vue改动总结写在最后 写在前面 本篇主要讲解动态分配菜单第二章节 菜单页面优化 引入图标 角色界面优化 角色自主分配菜单&#xff0c;并保存至…

透明度技术在AI去衣中的双刃剑作用

引言&#xff1a; 在当今这个数字化时代&#xff0c;人工智能&#xff08;AI&#xff09;已经成为我们生活中不可或缺的一部分。它不仅改变了我们的工作方式&#xff0c;还影响了我们的娱乐和社交活动。然而&#xff0c;随着AI技术的不断发展&#xff0c;一些伦理问题也逐渐浮出…

Linux:subshell(子shell)和childprocess(子进程)

相关阅读 Linuxhttps://blog.csdn.net/weixin_45791458/category_12234591.html?spm1001.2014.3001.5482 一、预备知识 在进行这个话题之前&#xff0c;首先要了解Linux系统中一个进程是如何创建的&#xff0c;当一个命令被执行时&#xff0c;首先会在当前进程创建一个子进程…

SpringBoot发送Gmail邮件

1. 登录Gmail Gmail网址 点击右上角“小齿轮”&#xff0c;然后点击"查看所有设置" 点击“转发和 POP/IMAP”&#xff0c;按图中设置&#xff0c;然后点击保存&#xff1a; 2. 启用两步验证(https://myaccount.google.com/security) 登录上述网址&#xff0c;找…

msvcp100.dll丢失怎样修复?几种快速有效修复msvcp100.dll丢失的方法

在使用电脑时是不是遇到过关于msvcp100.dll丢失文件丢失的情况&#xff1f;出现这样的情况有什么办法可以将丢失的msvcp100.dll文件快速恢复&#xff1f;今天的这篇文章就将教大家几种能够有效的解决msvcp100.dll丢失问题的方法。 方法一&#xff1a;重启电脑 重启电脑是一种简…

jmeter多用户登录并退出教程

有时候为了模拟更真实的场景&#xff0c;在项目中需要多用户登录并退出操作&#xff0c;大致参考如下 多用户登录前面已经实现&#xff1a;参考博文 多用户登录并退出jmx文件&#xff1a;百度网盘 提取码&#xff1a;0000 一、多用户退出操作 添加一个setUp线程组&#xff0…

基恩士激光 速度 曝光等关系

一、基恩士 CtrlN 二、速度设置 计算扫描速度 曝光时间&#xff1a; 1:1 相机点间隔是0.025 &#xff0c;我们要扫描的图像也是1&#xff1a;1的话&#xff0c;速度可以为 采样周期我们设定为3K&#xff0c;假如我们的7000行就够了 速度V0.025&#xff08;线间隔&#xff0…

YOLOv10全网最新创新点改进系列:YOLOv10改进加入新型高效的多尺度注意力(EMA)模块保留每个通道的信息并减少计算成本!助力v10检测性能遥遥领先!

YOLOv10全网最新创新点改进系列&#xff1a;YOLOv10改进加入新型高效的多尺度注意力&#xff08;EMA&#xff09;模块保留每个通道的信息并减少计算成本&#xff01;助力v10检测性能遥遥领先&#xff01; 所有改进代码均经过实验测试跑通&#xff01; 此项目不低于30种改进&am…

hadoop(1)--hdfs部署(亲测可用)

一、准备&#xff1a; 1、三台集群部署&#xff0c;配置hosts #cat /etc/hosts 192.168.46.128 node1 #nameNode dataNode secondaryNameNode 192.168.46.129 node2 #datanode 192.168.46.130 node3 #datanode说明&#xff1a; NameNode: 主节点管理者 DataNode&…

解决el-dialog里嵌入el-tabs卡死的问题

文章目录 1. 解决 el-dialog 里嵌入 el-tabs 卡死的问题 1. 解决 el-dialog 里嵌入 el-tabs 卡死的问题 今天发现在element ui里面使用 el-dialog 会导致页面卡死&#xff0c;本来我心想这么简单的一个弹窗&#xff0c;怎么会卡死解决思路&#xff1a;以为是项目的问题&#x…