深入浅析Linux物理内存外碎片化

news2025/1/16 21:11:15

本文出现的内核代码来自Linux4.19,如果有兴趣,读者可以配合代码阅读本文。

一、Linux物理内存外碎片化概述

什么是Linux物理内存碎片化?Linux物理内存碎片化包括两种:

1.物理内存内碎片:指分配给用户的内存空间中未被使用的部分。

例如进程需要使用3K bytes物理内存,于是向系统申请了大小等于3Kbytes的内存,但是由于Linux内核伙伴系统算法最小颗粒是4K bytes,所以分配的是4Kbytes内存,那么其中1K bytes未被使用的内存就是内存内碎片。

Linux物理内存内碎片

 

2.物理内存外碎片化:指系统中无法利用的小内存块。

例如系统剩余内存为16K bytes,但是这16K bytes内存是由4个4K bytes的页面组成,即16K内存物理页帧号#1不连续。在系统剩余16K bytes内存的情况下,系统却无法成功分配大于4K的连续物理内存,该情况就是内存外碎片导致,本文中阐述的就是物理内存外碎片化。

注:#1物理页帧号:Linux物理内存是通过页面进行管理,并对每个页面进行编号,称为页帧号,如果是连续的两个物理页面,其页帧号是连续的。

Linux物理内存外碎片

二、Linux物理内存管理框架

阐述物理内存外碎片化的来龙去脉前,先得明白Linux是如何管理物理内存的?Linux内核采用的是buddy system allocation,即著名的伙伴系统分配器。

1.设计思路

伙伴系统分配器的核心思路:将系统的空闲页面分为11个块链表,每个块链表分别管理着1,2,4,8,16,32,64,128,256,512和1024个物理页帧号连续的页面。每个页面大小为4K bytes,buddy管理的块大小范围从4K bytes到4M bytes,以2的倍数递增。

Linux物理内存管理框架图

2.管理逻辑

Linux对物理页面管理的框架如上图,由于本文阐述的是物理内存外碎片,所以关于伙伴系统本文只做简单分析,不涉及具体的细节并不阐述关于per cpu pageset等内容,如果读者有兴趣,可以参考内核源码。

Linux将物理内存分为不同的node和zone来管理:

  • node:为了支持NUMA结构,即CPU对不同内存簇的访问速度不同,Linux设计了node结构,将物理内存分为多个内存节点管理;对于UMA结构,只有一个node节点。
  • zone:为兼容不同的平台的硬件限制,例如80x86的体系结构的硬件总线访问等问题,Linux将node节点下的内存分为多个zone;目前在ARM平台,多个zone管理已非必要。

zone管理单元下的内存通过free_area数组将内存分成11个块链表进行管理:

free_area数组总共有11个索引,每个索引管理着不同大小的块链表。

  • free_area[0]管理的内存单位为2^0页面,即4K byte内存;
  • free_area[1]管理的内存单位为2^1的物理页帧号连续页面,即8K bytes内存;
  • 以此类推;

free_area管理的内存还细分为各种类型,例如不可移动页面和可移动页面等,每种类型的页面类型对应一个free_list链表,该链表就链接着页面结构体。

当分配页面时,伙伴系统拿页面的步骤如下:(不考虑内存慢速路径)

  • 根据分配页面类型,找到对应的内存节点node和内存管理单元zone;
  • 根据分配页面大小,找到的对应大小的free_area结构体;
  • 根据分配页面类型,找到对应的free_list链表,分配页面;

当向伙伴系统释放页面时,buddy释放页面的步骤如下:

  • 根据分配页面类型,找到对应的内存节点node和内存管理单元zone;
  • 判断是否有物理页帧号相连的空闲内存块,可以跟被释放的内存块合并成更大的块内存,合并的条件:
  • 物理帧必须都是连续的;
  • 相同的类型和相同的大小;
  • 合并后块内存的第一个页面的物理地址满足”2*块大小*4K”的倍数。
  • 根据释放页面的大小或者合并的大小,找到的对应大小的free_area结构体;
  • 根据释放页面的类型,找到对应的free_list链表,释放页面;

 资料直通车:Linux内核源码技术学习路线+视频教程内核源码

学习直通车:Linux内核源码内存调优文件系统进程管理设备驱动/网络协议栈

三、Linux针对物理内存外碎片化的措施

从“二、Linux物理内存管理架构”,可以发现伙伴系统内存管理框架是可以有效改善物理内存外碎片的,因为伙伴系统有如下两个管理逻辑,可以减少了外碎片化的产生:

  • 小块内存在小块链表分配,减少大块链表被污染的概率;
  • 内存释放时会尝试整合成大块内存的逻辑,有助于大块内存的合成;

除此之外,内核还支持以下措施改善物理内存外碎片化(只列举主要的机制):

1.memory compaction

(1)内存规整原理

Linux物理页面规整机制,类似于磁盘整理,主要是应用了内核的页面迁移机制,是一种将可移动页面进行迁移后腾出连续物理内存的方法。

假设存在一个非常小的内存域如下:

蓝色表示空闲的页面,白色表示已经被分配的页面,可以看到如上内存域的空闲页面(蓝色)非常零散,无法分配大于两页的连续物理内存。

下面演示一下内存规整的简化工作原理,内核会运行两个独立的扫描动作:第一个扫描从内存域的底部开始,一边扫描一边将已分配的可移动(MOVABLE)页面记录到一个列表中:

另外第二扫描是从内存域的顶部开始,扫描可以作为页面迁移目标的空闲页面位置,然后也记录到一个列表里面:

等两个扫描在域中间相遇,意味着扫描结束,然后将左边扫描得到的已分配的页面迁移到右边空闲的页面中,左边就形成了一段连续的物理内存,完成页面规整。

(2)使用方法

如果想打开内存规整,内核需要打开相关的配置(默认为y)

打开如上配置后,内存规整的触发是自动的,触发内存规整的途径如下:当进程尝试分配高阶内存无法满足并且完成direct_reclaim#1(暂不分析costly_order情况)后,系统会根据内存剩余判断是否触发内存规整;

注:#1direct_reclaim:进程分配内存时发现内存不足从而启动直接回收内存操作,这种模式下分配和回收是同步的关系,也就是说分配内存的进程会因为等待内存回收而被阻塞。

内核也提供了接口给用户触发规整动作,接口如下:

/proc/sys/vm/compact_memory

只要往这个节点写值即可触发对系统所有node管理的内存做内存规整。

2.kcompactd

(1)kcompact设计原理

kcompactd是一个内核规整的后台进程,它跟memory compaction的区别在于:

memory compaction的触发途径是内存分配进入direct_reclaim(暂不分析costly_order情况)后系统会根据内存剩余判断是否触发内存规整,或者用户手动触发;

kcompactd在唤醒kswapd或者kswapd进入休眠时,主动触发内存规整。

kcompactd的触发路径如下:主要有如下两个途径:

唤醒kswapd之前触发规整,触发的条件是:本次分配不支持direct_reclaim,node内存节点是平衡的,并且kswapd失败的次数大于MAX_RECLAIM_RETRIES(默认16)。

kswapd即将进入睡眠时:

(2)使用方法

如果想打开内存规整,内核需要打开相关的配置(默认为y)

3.其他优化的思路

内核经过不断的优化,那为何Linux为何还有物理内存外碎片化呢?那是因为物理内存外碎片化虽然是可以不断优化的,但却无法得到根除。目前的内核,我觉得导致物理外碎片化还有以下两个主要原因:

  • 不可移动页面污染了内存环境,导致页面规整失败;
  • 随着系统不断申请和释放的页面,导致伙伴系统分配的物理内存页帧号越发随机,从而导致内存被隔断的概率越高,碎片化的程度越高,在3.2阐述。

针对以上两个原因,以下的优化措施可能达到一定的优化效果:

(1)减少UNMOVABLE页面污染内存环境

  • 限制不可以移动页面偷页行为

Linux内存分配中支持fallback机制,又叫偷页机制。该机制是为了规避同个zone管理单位页面类型剩余不平衡的问题,例如同个zone,A页面类型空闲内存较多,B页面类型空闲内存却非常紧缺,如果没有偷页机制,分配B页面类型就会进入内存分配慢速路径。有了偷页机制,在同个zone管理单位,如果UNMOVABLE类型无空闲页面,但是MOVABLE类型页面还有空闲页面,偷页机制支持在list_head[UNMOVABLE]分配不到页面的情况下,向list_head[MOVABLE]分配页面。

以下数组明确了各种页面类型可偷的页面类型,例如第一行表示UNMOVABLE页面可以偷RECLAIMABLE和MOVABLE类型的页面,其他类似。

如果不可移动页面频繁的偷页会导致不可移动页面很快污染了内存环境,特别污染了可移动页面的内存,对内存规整成功率的影响比较大。基于以上情况,可以在偷页的机制上加上分配大小限制的判断,不可移动页面只有大块内存分配才允许偷页,以此减少不可移动页面对内存环境的污染。

  • 不可移动类型页面偷页后主动偿还

该方法主要是不可移动页面偷页后的一种补偿方法。如果发生不可移动页面偷页后,我们将该页面记录到一个列表,等后续不可移动页面类型存在空闲页面时,将所偷的页面迁移回不可移动页面中,从而降低不可移动页面的污染。

(2)降低分配页帧号的随机性

假设有一块小内存域如下,以下两种内存分配方式哪种会导致严重的内存碎片化?

  • 页面从头部开始分配,直到尾部;
  • 页面随机从任何位置分配。

明显是第二种内存分配方式的对内存外碎片化更不友好,而这点也是伙伴系统目前没有解决的问题。伙伴系统虽然将内存规划成各种大小的内存块,以让小内存分配在小块链表分配,尽量不污染大块内存链表,但是却没办法保证小块内存具体是在物理内存的哪个页帧范围分配。随着系统的运行越久,小块内存的分配的物理页帧号越发随机,那么其导致碎片化的概率就会越高。

  • 预留法

根据这种情况,可以通过预留的方式进行相应的优化。

预留一定的内存专门用于小块内存分配,经过这个优化措施后,可以有效降低小块内存分配的物理页帧号的随机性,从而降低小块内存污染内存环境的概率。

预留一定的内存专门用于大块内存分配,经过该优化措施后,预留的内存被小块内存污染的概率就会降低,可以提升预留内存分配大块内存的成功率。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/532913.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux命令】fdisk 相关分区命令

fdisk 命令既可以对Ubuntu上已有磁盘进行分区,也可以对SD卡进行分区。假设我们要对最新检测到的 /dev/sdb 设备进行分区。 sudo fdisk /dev/sdb 目录 1、 查看分区情况 —— p 2、删除分区 —— d 3、新增分区 —— n 4、修改分区类型 —— t 5、保存之前所有…

DI依赖注入(setter注入、构造器注入、自动装配、集合注入)

文章目录 1 setter注入1.1 环境准备1.2 注入引用数据类型步骤1:声明属性并提供setter方法步骤2:配置文件中进行注入配置步骤3:运行程序 1.3 注入简单数据类型步骤1:声明属性并提供setter方法步骤2:配置文件中进行注入配置步骤3:运行程序 2 构造器注入2.1 环境准备2.2 构造器注入…

统计学02: 二项分布

<~生~信~交~流~与~合~作~请~关~注~公~众~号生信探索> n 次伯努力事件(发生和不发生概率和为1) 发生r次的概率 期望&#xff1a; &#xff0c;方差&#xff1a; using DistributionsdBinomial(4, 0.35);mean(d) 4*0.35var(d) 4*0.35(1-0.35) Example We asked various p…

用Jenkins搭建自动构建服务

Jenkins是BS跨平台构建工具&#xff0c;之前名为Hundson。wiki 【chs en】 最新windows安装包&#xff1a;下载 下文以1.593版本为例&#xff0c;讲述Jenkins的Windows版本的一些要注意的地方 安装 安装路径中不要出现中文或者空格 用户数据相关的目录结构 ├─Jenkins …

精选 100 种最佳 AI 工具大盘点

为了应对对精简流程和数据分析日益增长的需求&#xff0c;整合人工智能工具在多个领域变得至关重要。 本文精选了2023年可用的100种最佳人工智能工具&#xff0c;旨在提高您的生产力、创造力和效率。 以下是 2023 年排名前 100 的人工智能工具&#xff1a; Aidoc&#xff1a;A…

音频格式m4a怎么转换成mp3,高效工具分享

音频格式m4a怎么转换成mp3&#xff1f;因为当我们下载或是保存的音频格式为m4a时&#xff0c;当我们需要在汽车或是其他平台播放时&#xff0c;就要将音频格式m4a转换成mp3。这样做可以提高音频文件的兼容性、便携性和可用性&#xff0c;并且可以减小文件大小以便于共享和传输。…

Android第一代加壳的验证和测试

Android第一代加壳测试&#xff0c;网上有很多文章&#xff0c;本文只是在前人基础上测试和验证。因此&#xff0c;本文的重点在于动手和实践。 第一代加壳技术有三个项目&#xff0c;分别是&#xff1a; 加壳程序。主要是把需要加壳的原程序加密后&#xff0c;放在壳程序中&…

第12章:视图

一、视图 1.常见的数据库对象 ①表table&#xff1a;表是存储数据的逻辑单元&#xff0c;行和列形式存在。列是字段&#xff0c;行是记录。 ②数据字典&#xff1a;系统表&#xff0c;存放数据库相关信息的表。系统表的数据通常是数据库系统维护。 ③约束constraint&#x…

怎样自己开发制作微信小程序?费用多少?

随着移动互联网的深入发展&#xff0c;各行各业都在寻求转型&#xff0c;希望通过线上软件系统来助力传统企业更好的发展&#xff0c;于是各种APP、小程序软件系统层出不穷。微信小程序是诸多软件中最流行的一种&#xff0c;凭借强大的流量基础、随用随走的便捷性和简单易操作的…

【C++】数据结构的恶龙set和map来了~

下一篇AVL树难点中的难点~ 文章目录 前言一、set的介绍二、map的介绍 题目练习总结 前言 1.关联式容器 在初阶阶段&#xff0c;我们已经接触过STL中的部分容器&#xff0c;比如&#xff1a;vector、list、deque、 forward_list(C11)等&#xff0c;这些容器统称为序列式容…

vue3【抛弃vuex,使用pinia】

Pinia Pinia 中文文档 一个全新的用于Vue的状态管理库下一个版本的vuex&#xff0c;也就是vuex5.0vue2 和vue3都支持在vue2中pinia使用vuex的现有接口&#xff0c;所以不能与vuex一起使用相比vuex有更完美的TypeScript支持支持服务器端渲染 Pinia核心概念 Pinia 从使用角度和…

【论文笔记】Learning Latent Dynamics for Planning from Pixels

论文及代码解读&#xff1a;Learning Latent Dynamics for Planning from Pixels 文章目录 论文及代码解读&#xff1a;Learning Latent Dynamics for Planning from Pixels3. Recurrent State Space ModelLatent dynamicsVariational encoderTraining objectiveDeterministic …

Linux系统编程学习 NO.2 ——环境配置和基础指令的学习

操作系统根据使用方式分类 操作系统按照使用类型可分为图形化操作系统和指令操作系统。图形化操作系统的本质其实也是根据指令来操作的。指令更贴近操作系统的底层。而我在学习Linux系统编程时&#xff0c;采用命令行的方式来学习。 补充一个小知识&#xff1a;早期命令行操作…

原装RS罗德与施瓦茨FSW85、FSW50,FSW67信号+频谱分析仪

Rohde & Schwarz FSW85 2Hz至85GHz信号和频谱分析仪 特征 10 kHz 偏移&#xff08;1 GHz 载波&#xff09;时的低相位噪声为 –137 dBc (1 Hz) WCDMA ACLR 测量的 -88 dBc 动态范围&#xff08;带噪声消除&#xff09; 高达 5 GHz 的分析带宽 < 0.4 dB 总测量不确定度高…

投资回报率业内最高!FortiGate在CyberRatings防火墙独立测试中收获近乎完美表现

对于需参考客观产品数据以制定明智采购决策的企业 IT 采购方而言&#xff0c;公正的第三方测试数据不失为一项关键参考。幸运的是&#xff0c;国际第三方安全测评机构CyberRatings始终秉持公平公正的独立测试理念&#xff0c;致力于量化网络安全风险&#xff0c;为多种网络安全…

用gost实现远程端口映射

gost 是一个非常优秀的tunnel. 支持多种形式的端口映射。 本文只介绍远程端口映射方式的tunnel. 远程端口映射的意思就是&#xff0c;将本地端的某个服务的端口A&#xff08;tcp/udp&#xff09;映射到远程的某个端口P上&#xff0c; 用户通过访问远程的端口P来访问本地端的这…

Linux多路转接之poll

文章目录 一、poll的认识二、编写poll方案服务器三、poll方案多路转接的总结 一、poll的认识 多路转接技术是在不断更新进步的&#xff0c;一开始多路转接采用的是select方案&#xff0c;但是select方案存在的缺点比较多&#xff0c;所以在此基础上改进&#xff0c;产生了poll…

怎么缩小照片的kb,压缩照片kb的几种方法

缩小照片的KB大小是我们日常工作生活中遇到的常见问题。虽然听起来十分专业&#xff0c;但其实很简单。照片的KB是指照片文件的大小&#xff0c;通常以“KB”为单位表示。缩小照片的KB就是减小照片文件的大小&#xff0c;以便占用更少的磁盘空间或更快地上传和下载照片。在实际…

什么是BI ?BI 能给企业带来什么价值?

目前&#xff0c;社会数字化程度还在不断加深&#xff0c;数据量也伴随着一同高速增长&#xff0c;许多人预测未来将是数据处理时代&#xff0c;而作为数据类解决方案的商业智能BI也会持续扩张市场&#xff0c;朝着不同行业BI商业智能的方向发展。 利用BI工具系统&#xff0c;…

MySQL 的 varchar 存储原理:InnoDB 记录存储结构

1. InnoDB 是干嘛的&#xff1f; InnoDB 是一个将表中的数据存储到磁盘上的存储引擎。 2. InnoDB 是如何读写数据的&#xff1f; InnoDB 处理数据的过程是发生在内存中的&#xff0c;需要把磁盘中的数据加载到内存中&#xff0c;如果是处理写入或修改请求的话&#xff0c;还…