[linux][调度] 内核抢占入门 —— 线程调度次数与 CONFIG_PREEMPTION

news2025/1/11 2:53:36

在工作中,如果你正在做开发的工作,正在在写代码,这个时候测试同事在测试过程中测出了问题,需要你来定位解决,那么你就应该先暂停写代码的工作,转而来定位解决测试的问题;如果你正在定位测试的问题,这个时候线上系统出现了问题,你就需要先将测试的问题暂停,转而去定位线上的问题。这就是抢占,线上问题优先级比测试问题优先级高,所以线上问题可以抢占测试问题;测试问题比开发工作优先级高,所以测试问题可以抢占开发工作。

在非抢占式内核中,内核线程是不能被抢占的,只有线程主动调用 schedule(),或者显式睡眠以及发生阻塞时发生调度,否则内核其它线程是不能抢占这个线程的。

在抢占式内核中,即使一个线程在运行,没有主动调度 schedule() 或者睡眠以及阻塞,当一个更高优先级的线程被唤醒之后,也可以抢占当前这个线程。

1 线程调度次数

linux 中,每个进程在 /proc 文件夹下都有一个进程对应的文件夹,文件夹以进程 id(pid) 命名,如下图所示。每个进程的文件夹下包括这个进程的很多信息,其中 status 文件中保存着这个进程的基础信息,比如 pid, ppid,进程使用了多少内存,进程的调度次数。

如下截图,是进程 18414 的 status 文件的显示,使用 switch 进行了过滤。其中 voluntary_ctxt_switchs 是自愿调度,nonvoluntary_ctxt_switches 是非自愿调度。

自愿调度

① 调用 sleep() 的时候

② 读写文件或者网络收发包时阻塞

③ 使用互斥体加锁时,如果不能立即得到锁,那么线程会睡眠,属于自愿调度

非自愿调度非自愿调度,意思是当线程还在运行,没有主动触发调度。比如,对于普通调度策略来说,时间片用完时,可以被抢占,这样就会统计一次非自愿调度。

自愿调度次数和非自愿调度次数,在进程控制块 struct task_struct 中用两个成员属性来表示,分别是 nvcsw 和 nivcsw。

struct task_struct {
    ...
	/* Context switch counts: */
	unsigned long			nvcsw;
	unsigned long			nivcsw;
    ...
};

在调度函数 __schedule() 中对自愿调度统计和非自愿调度统计进行递增。如果不是抢占调度,并且进程的状态不是 TASK_RUNNING 的话,就是自愿调度;否则,为非自愿调度。

怎么上一个线程不是 TASK_RUNNING 呢,其实在切换的时候,线程还是处于运行状态的,只不过在调用 schedule() 之前,线程会将自己设置为其它状态。比如在使用 mutex_lock() 加锁的时候,会先将自己设置为 TASK_UNINTERRUPTIBLE 状态,然后再调用 schedule() 进行等待。

static void __sched notrace __schedule(bool preempt)
{
	struct task_struct *prev, *next;
	unsigned long *switch_count;

	switch_count = &prev->nivcsw;
	if (!preempt && prev_state) {
		...
		switch_count = &prev->nvcsw;
	}

	if (likely(prev != next)) {
        ...
		++*switch_count;
	} else {
		rq->clock_update_flags &= ~(RQCF_ACT_SKIP|RQCF_REQ_SKIP);
		rq_unlock_irq(rq, &rf);
	}
}

1.1 用户线程,自愿调度

如下代码,主线程中是一个死循环,每次循环 sleep 1s,每次 sleep 的时候会增加自愿调度计数。这是线程主动睡眠的,而不是时间片用完了被动调度走的,所以是自愿调度。

#include <iostream>
#include <string>
#include <thread>
#include <unistd.h>

int main() {
  while (1) {
    sleep(1);
  }
  return 0;
}

程序运行之后,查看调度次数统计,可以看到自愿调度次数一直在增长,线程没有发生过非自愿调度。

1.2 用户线程,非自愿调度

如下代码,是一个单纯的死循环,在循环中什么都没做。程序运行之后,因为会一直占用 cpu,所以当线程的时间片用完时,线程就会被调度,这种情况下的调度被统计为非自愿调度。

#include <iostream>
#include <string>
#include <thread>
#include <unistd.h>

int main() {
  while (1) {
  }
  return 0;
}

程序运行之后,查看调度统计,可以看到非自愿调度计数一直在增长,自愿调度计数是 0。

1.3 非抢占内核,内核线程不会被抢占

如果内核是非抢占内核,那么内核线程在运行的时候就不会被抢占,即使线程一直占用着 cpu,物理时间片和虚拟时间片一直在增长,也不会被抢占。

如下是一个内核模块,在内核模块中使用 kthread_run() 创建了一个内核线程,线程中是一个死循环。在线程中打印了线程的 id。

#include <linux/init.h>
#include <linux/module.h>
#include <linux/kthread.h>
#include <linux/sched.h>

static struct task_struct *my_thread;

// 内核线程函数
static int my_thread_func(void *data)
{
    // 内核线程的逻辑处理代码
    printk(KERN_INFO "My kernel thread is running, pid = %d\n", current->pid);
    while (1);
    return 0;
}

// 模块初始化函数
static int __init my_module_init(void)
{
    // 创建内核线程
    my_thread = kthread_run(my_thread_func, NULL, "my_thread");

    if (IS_ERR(my_thread)) {
        printk(KERN_ERR "Failed to create kernel thread!\n");
        return PTR_ERR(my_thread);
    }

    printk(KERN_INFO "Module loaded!\n");

    return 0;
}

// 模块清理函数
static void __exit my_module_exit(void)
{
    // 停止内核线程
    kthread_stop(my_thread);

    printk(KERN_INFO "Module unloaded!\n");
}

MODULE_LICENSE("GPL");
MODULE_AUTHOR("Your Name");
MODULE_DESCRIPTION("Sample kernel module with a kernel thread");

module_init(my_module_init);
module_exit(my_module_exit);

编译脚本:

obj-m += hello.o
all:
        make -C /lib/modules/$(shell uname -r)/build M=$(PWD) modules
clean:
        make -C /lib/modules/$(shell uname -r)/build M=$(PWD) clean

线程一致在死循环,没有看到非自愿调度次数增长。

1.4 用户抢占和内核抢占

用户抢占,是指用户态的线程被抢占;内核抢占,是指内核态的线程被抢占。

linux 系统,默认情况下是支持用户抢占的。而是否支持内核抢占,需要看具体的内核配置,在一些嵌入式系统或者桌面系统,对实时性要求高,会打开内核抢占;而在服务器系统中,一般不会打开内核抢占。打开内核抢占的系统,使用 uname -a 可以看到 PREEMPT 标志,没有 PREEMPT 标志,说明没有打开内核抢占。如下是我笔记本上安装的 ubuntu 系统,没有打开内核抢占。

2 CONFIG_PREEMPTION 宏定义了什么内容

当打开内核抢占时,也就是定义了 CONFIG_PREEMPTION 这个宏。那么打开这个宏的时候,具体定义了那些内容呢 ?本人使用的源码版本是 5.10.186。

2.1 中断返回时

中断返回的时候,如果需要抢占调度,那么会调用函数 preempt_schedule_irq()。这段代码一般是使用汇编指令来实现的。如下是 arm 中的实现,下边这段代码,只有定义了 CONFIG_PREEMPTION 时,才会生效。

arch/arm/kernel/entry-armv.S

#ifdef CONFIG_PREEMPTION
svc_preempt:
	mov	r8, lr
1:	bl	preempt_schedule_irq		@ irq en/disable is done inside
	ldr	r0, [tsk, #TI_FLAGS]		@ get new tasks TI_FLAGS
	tst	r0, #_TIF_NEED_RESCHED
	reteq	r8				@ go again
	b	1b
#endif

2.2 抢占计数器操作函数

preempt 是抢占的意思。linux 内核中有两个宏 preempt_enable() 和 preempt_disable() 分别时使能抢占和禁止抢占。当定义 CONFIG_PREEMOPTION 宏的时候,在 preempt_enable() 中会进行判断,如果当前条件满足,并且有更高优先级的线程需要抢占的话,那么就会进行抢占调度。如果没有定义 COFIG_PREEMPTION 宏,那么 preempt_enable() 中就不会做抢占调度的工作。


#ifdef CONFIG_PREEMPTION
#define preempt_enable() \
do { \
	barrier(); \
	if (unlikely(preempt_count_dec_and_test())) \
		__preempt_schedule(); \
} while (0)

#define preempt_enable_notrace() \
do { \
	barrier(); \
	if (unlikely(__preempt_count_dec_and_test())) \
		__preempt_schedule_notrace(); \
} while (0)

#define preempt_check_resched() \
do { \
	if (should_resched(0)) \
		__preempt_schedule(); \
} while (0)

#else /* !CONFIG_PREEMPTION */
#define preempt_enable() \
do { \
	barrier(); \
	preempt_count_dec(); \
} while (0)

#define preempt_enable_notrace() \
do { \
	barrier(); \
	__preempt_count_dec(); \
} while (0)

#define preempt_check_resched() do { } while (0)
#endif /* CONFIG_PREEMPTION */

2.3 _cond_resched

从 _cond_resched 的定义来看,当没有定义 CONFIG_PREEMPTION 的时候,_cond_resched() 才会生效;当定义 CONFIG_PREEMPTION 的时候,直接返回 0。

_cond_resched() 主要是在非抢占内核中起作用,在一些消耗 cpu 的场景主动调用 _cond_resched() 来防止线程占用 cpu 太多。

#ifndef CONFIG_PREEMPTION
extern int _cond_resched(void);
#else
static inline int _cond_resched(void) { return 0; }
#endif


#ifndef CONFIG_PREEMPTION
int __sched _cond_resched(void)
{
	if (should_resched(0)) {
		preempt_schedule_common();
		return 1;
	}
	rcu_all_qs();
	return 0;
}
EXPORT_SYMBOL(_cond_resched);
#endif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1537406.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++位运算符(<<,>>,|,^,)

简介 位运算符作用于整数类型的运算对象&#xff0c;并把运算对象看成是二进制位的集合。位运算符提供检查和设置二进制位的功能&#xff0c;一种名为bitset的标准库类型也可以表示任意大小的二进制集合&#xff0c;所以位运算符同样可以用于bitset类型。 如果运算对象是“小…

ShardingSphere啦啦啦

N年前写的ShardingSphere部分&#xff08;上&#xff09;_sharding 分库不能sum-CSDN博客 https://shardingsphere.apache.org/document/current/en/quick-start/ 高性能架构模式&#xff1a; 读写分离&#xff1a;读写操作分散到不同的节点上 (这句话 我悟了) 据SQL语义分…

磁盘在哪里清理?电脑磁盘清理的5个方法

当我们使用电脑时&#xff0c;随着时间的推移&#xff0c;磁盘空间可能会逐渐减少&#xff0c;这通常是因为各种临时文件、系统更新、浏览器缓存等原因造成的。磁盘空间不足可能会导致电脑性能下降&#xff0c;因此定期清理磁盘是非常必要的。那么&#xff0c;磁盘在哪里清理呢…

2核4G服务器优惠价格和性能测试,2024年

阿里云2核4G服务器租用优惠价格&#xff0c;轻量2核4G服务器165元一年、u1服务器2核4G5M带宽199元一年、云服务器e实例30元3个月&#xff0c;活动链接 aliyunfuwuqi.com/go/aliyun 活动链接如下图&#xff1a; 阿里云2核4G服务器优惠价格 轻量应用服务器2核2G4M带宽、60GB高效…

软件质量属性总结

软件系统的质量就是“软件系统与明确地和隐含地定义的需求相一致的程度”。更具体地说&#xff0c;软件系统质量是软件与明确地叙述的功能和性能需求文档中明确描述的开发标准以及任何专业开发的软件产品都应该具有的隐含特征相一致的程度。 根据GB/T 16260.1定义&#xff0c;从…

Java学习day1

打开命令提示符&#xff08;cmd&#xff09;窗口&#xff1a; 按下winR键&#xff0c;输入cmd 按回车或点击确定&#xff0c;打开cmd窗口 常用cmd命令 盘符名称冒号&#xff08;D:)&#xff1a;盘符切换&#xff0c;示例表示由C盘切换到D盘 dir&#xff1a;查看当前路径下的内…

元宇宙VR数字化艺术展降低办展成本

元宇宙AI时代已经来临&#xff0c;越来越多人期待在元宇宙数字空间搭建一个属于自己的虚拟展厅&#xff0c;元宇宙虚拟展厅搭建平台是VR公司深圳华锐视点为企业研发的可编辑工具&#xff0c;那么元宇宙虚拟展厅搭建平台有哪些新突破? 元宇宙虚拟展厅搭建平台采用了先进的web3D…

扫描二维码如何展现不同内容?内容组合排版展示的二维码怎么做?

扫描二维码来查看内容的方式已经被广泛使用&#xff0c;比如视频、文件、图片、音频、文本等类型的内容都可以应用二维码来提供展示。那么有些时候需要展示的内容类型较多&#xff0c;需要将不同的内容组合到一起展示&#xff0c;该如何来操作呢&#xff1f; 下面的内容学会之…

【QT入门】 Qt自定义信号后跨线程发送信号

往期回顾&#xff1a; 【QT入门】 lambda表达式(函数)详解-CSDN博客 【QT入门】 Qt槽函数五种常用写法介绍-CSDN博客 【QT入门】 Qt实现自定义信号-CSDN博客 【QT入门】 Qt自定义信号后跨线程发送信号 由于Qt的子线程是无法直接修改ui&#xff0c;需要发送信号到ui线程进行修改…

Windows Insiders WSLg Linux GUI App 支持尝鲜

2021 年 4 月 21 日&#xff0c;微软在 Developer Blogs 发布了 Windows 预览版 WSL&#xff08;Windows Linux 子系统&#xff09; 对 Linux GUI App 的支持的公告&#x1f517;&#xff0c;碰巧&#x1f600;我最近重装了波电脑&#xff0c;系统换成了 Windows Insiders&…

HCIP的学习(3)

网络类型及数据链路层协议 网络类型分类 P2P网络----点到点网络类型MA网络-----多点接入网络 BMA----广播型多点接入网络NBMA—非广播型多点接入网络&#xff08;快淘汰了&#xff09; 数据链路层协议 MA网络 以太网协议 特点&#xff1a;需要使用MAC地址对设备进行区分…

安装IK分词器 + 扩展词典配置 + 停用词典配置

安装IK分词器 1.在线安装ik插件&#xff08;较慢&#xff09; # 进入容器内部 docker exec -it elasticsearch /bin/bash ​ # 在线下载并安装 ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.12.1/elastics…

专业140+总分410+南京大学851信号与系统考研经验南大电子信息与通信集成,电通,真题,大纲,参考书。

今年分数出来还是有点小激动&#xff0c;专业851信号与系统140&#xff08;感谢Jenny老师辅导和全程悉心指导&#xff0c;答疑&#xff09;&#xff0c;总分410&#xff0c;梦想的南大离自己越来越近&#xff0c;马上即将复试&#xff0c;心中慌的一p&#xff0c;闲暇之余&…

[综述笔记]A Survey on Deep Learning for Neuroimaging-Based Brain Disorder Analysis

论文网址&#xff1a;Frontiers | A Survey on Deep Learning for Neuroimaging-Based Brain Disorder Analysis (frontiersin.org) 英文是纯手打的&#xff01;论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误&#xff0c;若有发现欢迎评论…

Java 8 内存管理原理解析及内存故障排查实践

作者&#xff1a;vivo 互联网服务器团队- Zeng Zhibin 介绍Java8虚拟机的内存区域划分、内存垃圾回收工作原理解析、虚拟机内存分配配置&#xff0c;介绍各垃圾收集器优缺点及场景应用、实践内存故障场景排查诊断&#xff0c;方便读者面临内存故障时有一个明确的思路和方向。 …

NBlog Java定时任务-备份MySQL数据

NBlog部署维护流程记录&#xff08;持续更新&#xff09;&#xff1a;https://blog.csdn.net/qq_43349112/article/details/136129806 为了避免服务器被攻击&#xff0c;给博客添加了一个MySQL数据备份功能。 此功能是配合博客写的&#xff0c;有些方法直接用的已有的&#xf…

地理坐标系与UTM坐标系转换并进行gazebo测试

地理坐标系与UTM坐标系转换并进行gazebo测试 经纬度到UTM坐标的转换gazebo测试环境 全球卫星导航系统(Global Navigation Satelite System,GNSS)&#xff0c;简称卫星导航&#xff0c;是室外机器人定位的一个主要信息来源。 卫星导航能给机器人提供什么信息&#xff1f; 正常工…

解决Matplotlib 画图中文无法正常显示的问题(显示方框)

解决Matplotlib 画图中文无法正常显示的问题&#xff08;显示方框&#xff09; 错误描述解决方案一&#xff08;暂时解决&#xff09;解决方法二&#xff08;永久解决&#xff09;测试代码 错误描述 这个错误消息来自于使用 Python 的 IPython 环境&#xff0c;特别是在尝试输出…

基于 Google MediaPipe 进行人体姿势估计演示

用于人体姿势估计的 MediaPipe 演示 MediaPipe简介 MediaPipe是一个开源框架&#xff0c;用于构建跨平台、多模式应用机器学习管道。它由 Google 开发&#xff0c;旨在促进基于机器学习的功能的快速开发和部署&#xff0c;特别关注音频、视频和时间序列数据。 我可以将 MediaPi…

高标准农业四情监测系统的应用范围

高标准农业四情监测系统的应用范围【TH-Q1】随着科技的不断进步&#xff0c;高标准农业四情监测系统已经逐渐成为现代农业的重要组成部分。这一系统能够实时监测土壤、气候、作物生长和病虫害情况&#xff0c;为农业生产提供精准的数据支持&#xff0c;从而提高农作物的产量和质…