Linux 内存workingset Refault Distance算法源码及源码解析

news2025/1/11 10:13:09

概述

内核mm子系统中有一个workingset.c实现了refault distance算法,发现网络逻辑介绍该算法的文章主要是复制自奔跑吧内核一书中的内容,均比较雷同,讲述的角度比较难以理解,我第一看到的时候琢磨了2天才明白,本文希望从更容易理解的角度来分析何为refault distance算法,以及内核引入该算法的原因,这就要从内核回收page面临的挑战说起。本文源码:v5.9

page回收的问题

以read/write读取文件场景来举例,我们知道内核会生成page cache加速读写过程,而这些缓存有可能是一次性的,也有可能是不断重复使用,具体要看应用程序的代码时怎么实现的,所以内核很难预测页面的使用趋势,毕竟内核也不能未卜先知,在这个前提下,那么这种page cache新创建的时候到底是加入active lru还是inactive lru呢?内核引入workingset refault distance算法后,新一点内核(比如5.9及以后)都将page先加入inactive lru列表中,因为贸然加入active lru中,大量的page产生之后,就很容易把真正hot的page挤到inactive lru当中,这个很明显是不合理。

那么放入Inactive lru链表中岂不是很容易回收误伤?

没有workingset refault distance算法签确实如此,所以低版本内核对于anon page新产生时加入的是active lru列表。但是引入refault distance算法后,如上所述都是加入inactive lru列表中,如果page被内存回收,而应用程序再次访问,触发的缺页叫:refault。那么问题来了,refault之后这个page到底是放入active lru还是inactive lru呢?

要想解决这个问题我们要看下加入active lru和inactive lru的利弊:

  1. 放入inactive lru:这个page相对更容易被回收掉,可能造成性能损失。
  2. 放入active lru,相对更不容回收,如果这个page后续访问频率依然很高,这样很有利,但是如果page后续不再访问,放入active就亏了。还有一种情况是,如果后续继续访问,但是访问的间隔很长,放入active lru也是没用的....

所以上面到底决定是加入哪个lru链表,本质上是无法“精准”预测的,只能根据已经的使用情况来评估此次refault到底是将page放入哪个lru链表,那么怎么实现呢,这就是“refault distance"算法要做的。

我们知道知道放入active比inactive更不容回收,原因是因为内核的LRU算法的老化方法决定,inactive被回收之后,发现active:inactive比例失调,inactive链表的page比较多时候,就会将active lru中的page move到inactive链表中,所以如果放入active lru当中,page抵抗更久的内存回收。

假设page被回收的时候(eviction)的系统回收page的数量是E,再次读取refault时候系统回收的page的数量增加到了R,那么这段时间系统回收page的数量是:R - E,这个称为算法的refault distance,再假设active lru中page数量为:num(active_lru),我们来想象一下,如果R - E的数量小于num(active_lru) ,那么refault将page加入active lru的话,如果page后续还是保持当前的access interval,那么就可以避免再次被回收后refault导致的性能颠簸。如果num(active_lru) < R - E,那么加入active lru也没有用,因为访问间隔太长了,即使放入active lru也无法避免被回收(假设还是保持当前的access interval):

源码解析 

内核源码实现上述算法的时候要有如下几个要点(参考上图)

  • T1时候页面被回收剔除LRU,系统要把当前系统被回收的页面数量记录下来假设E(比如100),内核是记录到radix tree当中(以file-back page举例),并且标识成一个”value",这样跟正常情况保存page pointer做区分。内核通过workingset_eviction函数实现该过程。
  • T2时候重新读取该page的时候,发现radix tree中是个特殊的“value",就将其保存的T1时候的回收页面数量E读取出来为100,T2时候回收页面数量R,假设是200,说明这个期间系统回收了100个页面,假设active lru页面超过100,那么refault时候把page加入active,否则放入inactive lru。内核通过workingset_refault实现该过程中。
workingset_eviction

调用路径:shrink_page_list--->workingset_eviction

shrink_page_list成功回收页面的时候,将page从LRU和page cache中删除,就会调用workingset_eviction:

 可以看到workingset_eviction读取出来lruvec->nonresident_age(对应上面提到的E 100这个之),然后pack_shadow编码之后存储到radix tree当中,由于这个时候page已经从page cache的radix tree删除,所以这种一个叫做”value"的exception entry,这个可以从pack_shadow源码看到:

workingset_refault

下面是workingset_refault的源码

/**
 * workingset_refault - evaluate the refault of a previously evicted page
 * @page: the freshly allocated replacement page
 * @shadow: shadow entry of the evicted page
 *
 * Calculates and evaluates the refault distance of the previously
 * evicted page in the context of the node and the memcg whose memory
 * pressure caused the eviction.
 */
void workingset_refault(struct page *page, void *shadow)
{
    bool file = page_is_file_lru(page);
    struct mem_cgroup *eviction_memcg;
    struct lruvec *eviction_lruvec;
    unsigned long refault_distance;
    unsigned long workingset_size;
    struct pglist_data *pgdat;
    struct mem_cgroup *memcg;
    unsigned long eviction;
    struct lruvec *lruvec;
    unsigned long refault;
    bool workingset;
    int memcgid;

    unpack_shadow(shadow, &memcgid, &pgdat, &eviction, &workingset);

    rcu_read_lock();
    /*
     * Look up the memcg associated with the stored ID. It might
     * have been deleted since the page's eviction.
     *
     * Note that in rare events the ID could have been recycled
     * for a new cgroup that refaults a shared page. This is
     * impossible to tell from the available data. However, this
     * should be a rare and limited disturbance, and activations
     * are always speculative anyway. Ultimately, it's the aging
     * algorithm's job to shake out the minimum access frequency
     * for the active cache.
     *
     * XXX: On !CONFIG_MEMCG, this will always return NULL; it
     * would be better if the root_mem_cgroup existed in all
     * configurations instead.
     */
    eviction_memcg = mem_cgroup_from_id(memcgid);
    if (!mem_cgroup_disabled() && !eviction_memcg)
        goto out;
    eviction_lruvec = mem_cgroup_lruvec(eviction_memcg, pgdat);
    refault = atomic_long_read(&eviction_lruvec->nonresident_age);

    /*
     * Calculate the refault distance
     *
     * The unsigned subtraction here gives an accurate distance
     * across nonresident_age overflows in most cases. There is a
     * special case: usually, shadow entries have a short lifetime
     * and are either refaulted or reclaimed along with the inode
     * before they get too old.  But it is not impossible for the
     * nonresident_age to lap a shadow entry in the field, which
     * can then result in a false small refault distance, leading
     * to a false activation should this old entry actually
     * refault again.  However, earlier kernels used to deactivate
     * unconditionally with *every* reclaim invocation for the
     * longest time, so the occasional inappropriate activation
     * leading to pressure on the active list is not a problem.
     */
    refault_distance = (refault - eviction) & EVICTION_MASK;

    /*
     * The activation decision for this page is made at the level
     * where the eviction occurred, as that is where the LRU order
     * during page reclaim is being determined.
     *
     * However, the cgroup that will own the page is the one that
     * is actually experiencing the refault event.
     */
    memcg = page_memcg(page);
    lruvec = mem_cgroup_lruvec(memcg, pgdat);

    inc_lruvec_state(lruvec, WORKINGSET_REFAULT_BASE + file);

    /*
     * Compare the distance to the existing workingset size. We
     * don't activate pages that couldn't stay resident even if
     * all the memory was available to the workingset. Whether
     * workingset competition needs to consider anon or not depends
     * on having swap.
     */
    workingset_size = lruvec_page_state(eviction_lruvec, NR_ACTIVE_FILE);
    if (!file) {
        workingset_size += lruvec_page_state(eviction_lruvec,
                             NR_INACTIVE_FILE);
    }
    if (mem_cgroup_get_nr_swap_pages(memcg) > 0) {
        workingset_size += lruvec_page_state(eviction_lruvec,
                             NR_ACTIVE_ANON);
        if (file) {
            workingset_size += lruvec_page_state(eviction_lruvec,
                             NR_INACTIVE_ANON);
        }
    }
    if (refault_distance > workingset_size)
        goto out;

    SetPageActive(page);
    workingset_age_nonresident(lruvec, thp_nr_pages(page));
    inc_lruvec_state(lruvec, WORKINGSET_ACTIVATE_BASE + file);
                                                                                                                                                           
    /* Page was active prior to eviction */
    if (workingset) {
        SetPageWorkingset(page);
        /* XXX: Move to lru_cache_add() when it supports new vs putback */
        spin_lock_irq(&page_pgdat(page)->lru_lock);
        lru_note_cost_page(page);
        spin_unlock_irq(&page_pgdat(page)->lru_lock);
        inc_lruvec_state(lruvec, WORKINGSET_RESTORE_BASE + file);
    }
out:
    rcu_read_unlock();
}
  1. unpack_shadow:读出来E只(举例中的100值)
  2. refault = atomic_long_read(&eviction_lruvec->nonresident_age); 读取refault时候的系统nonresident_age数量,对应上面例子中的R = 200.
  3. refault_distance = 200 - 100 = 100
  4. workingset_size  保存active lru的page数量
  5. if (refault_distance > workingset_size)直接goto out,因为即使加入active lru也没法保护page;否则setPageActive,说明实要放入active lru当中的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1037531.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python中使用EMD(经验模态分解)

在Python中使用EMD&#xff08;经验模态分解&#xff09;进行信号分解时&#xff0c;通常可以设置信号分解的数目。EMD算法的目标是将信号分解成多个称为“本征模态函数”&#xff08;Intrinsic Mode Functions&#xff0c;简称IMF&#xff09;的成分&#xff0c;每个IMF都代表…

调试(修复错误)

什么是一个软件bug&#xff1f; ● 软件错误:计算机程序中的缺陷或问题。基本上&#xff0c;计算机程序的任何意外或非预期的行为都是软件缺陷。 ● bug在软件开发中是完全正常的! ● 例如&#xff0c;现在我们存在数组&#xff0c;我们现在需要将这个数组颠倒排序 意外的结…

7.15 SpringBoot项目实战 【学生入驻】(上):从API接口定义 到 Mybatis查询 串讲

文章目录 前言一、service层 和 dal层方式一、Example方式方式二、Mybatis XML方式方式三、Mybatis 注解方式 二、web层 StudentController最后 前言 接下来我们实战【学生入驻】&#xff0c;对于C端学生端&#xff0c;一切交互开始于知道 当前学生是否入驻、是否有借阅资格&a…

【重新定义matlab强大系列十五】非线性数据拟合和线性拟合-附实现过程

&#x1f517; 运行环境&#xff1a;Matlab &#x1f6a9; 撰写作者&#xff1a;左手の明天 &#x1f947; 精选专栏&#xff1a;《python》 &#x1f525; 推荐专栏&#xff1a;《算法研究》 #### 防伪水印——左手の明天 #### &#x1f497; 大家好&#x1f917;&#x1f91…

人绒毛膜促性腺激素(HCG)介绍

人绒毛膜促性腺激素 HCG&#xff09;是妊娠期产生的一种肽类激素&#xff0c;由受孕后不久的胚胎产生&#xff0c;随后由合胞体滋养层&#xff08;胎盘的一部分&#xff09;合成。它的作用是防止卵子黄体的解体&#xff0c;从而维持孕酮的分泌&#xff0c;而孕酮对人类怀孕至关…

常用圆圈字符“圆圈字符替换器”

本文收录了162个常用圆圈字符&#xff0c;文内有“圆圈字符自动替换器”。 (本笔记适合熟悉字符串数据类型的 coder 翻阅) 【学习的细节是欢悦的历程】 Python 官网&#xff1a;https://www.python.org/ Free&#xff1a;大咖免费“圣经”教程《 python 完全自学教程》&#x…

分享从零开始学习网络设备配置--任务3.6 使用默认及浮动路由实现网络连通

任务描述 某公司随着规模的不断扩大&#xff0c;现有北京总部和天津分部2个办公地点&#xff0c;分部与总部之间使用路由器互联。该公司的网络管理员经过考虑&#xff0c;决定在总部和分部之间的路由器配置默认路由和浮动路由&#xff0c;减少网络管理&#xff0c;提高链路的可…

PHP8中伪变量“$this->”和操作符“::”的使用-PHP8知识详解

对象不仅可以调用自己的变量和方法&#xff0c;也可以调用类中的变量和方法。PHP8通过伪变量“$this->”和操作符“::”来实现这些功能。 1.伪变量“$this->” 在通过对象名->方法调用对象的方法时&#xff0c;如果不知道对象的名称&#xff0c;而又想调用类中的方法…

互联网医院|互联网医院系统引领医疗科技新风潮

互联网的迅速发展已经改变了人们的生活方式&#xff0c;而医疗领域也不例外。近年来&#xff0c;互联网医院应运而生&#xff0c;为患者和医生提供了更便捷、高效的医疗服务。本文将深入探讨互联网医院的系统特点、功能以及未来的发展方向&#xff0c;为您展现医疗行业的新时代…

代码随想录算法训练营第23期day4| 24. 两两交换链表中的节点 、19.删除链表的倒数第N个节点、面试题 02.07. 链表相交、142.环形链表II

目录 一、&#xff08;leetcode 24&#xff09;两两交换链表中的节点 二、&#xff08;leetcode 19&#xff09;删除链表的倒数第N个节点 思路 三、&#xff08;leetcode 160&#xff09;链表相交 四、&#xff08;leetcode 142&#xff09;环形链表II 思路 一、&#xf…

使用华为eNSP组网试验⑴-通过Vlan进行网络设备间通讯

在2019年学习网络的时候是从思科产品开始学的&#xff0c;那个时候接触了思科的6506、4506、3750、3550、2950&#xff0c;因为网络设备多&#xff0c;基本上是在多余的设备上直接操作&#xff0c;掌握后再上现场设备中去操作。当时使用了思科的模拟器CISCO Packet Tracer&…

驱动开发练习,platform实现如下功能

实验要求 驱动代码 #include <linux/init.h> #include <linux/module.h> #include <linux/platform_device.h> #include <linux/mod_devicetable.h> #include <linux/of_gpio.h> #include <linux/unistd.h> #include <linux/interrupt…

google sitemap Sitemap could not be read

google一直也不提示具体原因。直到换个域名&#xff0c;发现可以提交sitemap。去别就是没有www的可以&#xff0c;带www的不行。应为sitemap的地址带www&#xff0c;但是sitemap里面的url内容是不带www&#xff0c;属于非法格式&#xff0c;所以一直报错。更正了sitemap地址后&…

数据库常用指令

检查Linux系统是否已经安装了MySQL&#xff1a; sudo service mysql start

89. 格雷编码

解题思路&#xff1a; 解法一&#xff1a;找规律&#xff0c;2-4位格雷码的码表如下图所示&#xff08;二进制表示&#xff09;&#xff1a; 可以发现&#xff0c;n位格雷码序列可以由n-1位格雷码序列得到&#xff0c;满足递归规则&#xff0c;具体构造规则如下&#xff1a; …

golang 通过案列感受下内存分析

package main // 声音文件所在的包&#xff0c;每个go文件必须有归属的包 import ("fmt" )// 引入程序中需要用的包&#xff0c;为了使用包下的函数&#xff0c;比如&#xff1a;Printinfunc exchangeNum(num1 int, num2 int){var t intt num1num1 num2num2 t }…

stc8H驱动并控制三相无刷电机综合项目技术资料综合篇

stc8H驱动并控制三相无刷电机综合项目技术资料综合篇 🌿相关项目介绍《基于stc8H驱动三相无刷电机开源项目技术专题概要》 🔨停机状态,才能进入设置状态,可以设置调速模式,以及转动方向。 ✨所有的功能基本已经完成调试,目前所想到的功能基本已经都添加和实现。引脚利…

【云原生】聊聊为什么需要docker以及其基础架构

为什么需要docker 在没有docker之前&#xff0c;我们开发、测试、生产其实是根据不同的服务器进行配置的&#xff0c;很可能因为软件配置不同而导致的生产事故&#xff0c;那么如果能较好的解决软件和配置等封装成一个可运行的软件&#xff0c;无需关注配置&#xff0c;那么是…

<十三>objectARX开发:模拟实现CAD的移动Move命令

一、目的 实现类似于CAD的移动命令,选择对象,移动到指定位置,移动过程中对象跟随鼠标移动。效果如下: 二、关键步骤 选择对象,打开实体判断类型:acedEntSel()、acdbOpenObject()、isKindOf()。指定基点:acedGetPoint()。移动模型,追踪光标移动对象实体:acedGrRead()…

gitee生成公钥和远程仓库与本地仓库使用验证

参考文档&#xff1a; https://help.gitee.com/base/account/SSH%E5%85%AC%E9%92%A5%E8%AE%BE%E7%BD%AE(1)通过命令ssh-keygen 生成SSH key -t key类型 -c注释 ssh-keygen -t ed25519 -C "Gitee SSH Key" (2)按三次回车 (3)查看生成的 SSH 公钥和私钥&#xff1a; …