内核并发消杀器(KCSAN)技术分析

news2024/10/1 9:47:19

一、KCSAN介绍

KCSAN(Kernel Concurrency Sanitizer)是一种动态竞态检测器,它依赖于编译时插装,并使用基于观察点的采样方法来检测竞态,其主要目的是检测数据竞争。

KCSAN是一种检测LKMM(Linux内核内存一致性模型)定义的数据竞争(data race)的工具,同时它也可以控制报告哪种类型的数据竞争。

KCSAN知道LKMM定义的所有标记原子操作,以及LKMM尚未提到的操作,例如原子位掩码操作(bit mask)。

KCSAN扩展了LKMM,例如通过提供data_race()标记,来表示存在数据竞争和缺乏原子可能性。

1.1 LKMM(Linux内核内存一致性模型)

Linux内核内存模型目前在源代码树中的memory-barrier.txt和atomic_ops.txt文件中有非正式的定义。包含以下组成部分:

  • 变量访问(Variable Access)

使用READ_ONCE()、WRITE_ONCE()和ACCESS_ONCE()宏来保护从共享(但非原子)变量的加载和存储;

  • 内存屏障(Memory Barriers)

一类同步屏障指令,是CPU或编译器在对内存随机访问的操作中的一个同步点,使得此点之前的所有读写操作都执行后才可以开始执行此点之后的操作。比如barrier、smp_mb/smp_wmb/smp_rmb等;

  • 锁操作(Locking Operations)

  • 原子操作(Atomic Operations)

  • 控制依赖(Control Dependencies)

Linux内核提供了一个有限的控件依赖的概念,在某些情况下对依赖控件的存储进行优先加载;

  • RCU宽限期授权关系(Grace-Period Relationships)

允许更新者等待所有已经存在的读侧临界区完成,再回收旧的资源;

  • C11原子原语 (C11 Atomics)

将原子原语的实现委托给编译器;如果多个体系结构采用这种方法,将减少体系结构特定代码的数量。

1.2 数据竞争

为什么要关心数据竞争?

C语言的发展独立于并发性。如果给定的变量或访问没有任何特别之处,则变量只会在响应当前线程的存储时发生变化。

  • C语言和编译器的进化对并发性不敏感

  • 优化编译器正变得越来越丰富

因此,编译器可以并且使用各种优化,包括负载融合、代码重新排序和许多其他可能导致并发算法故障的优化。

读取拆分(单次访问多次读取)

存储拆分(单次访问多次写入)读取融合(编译器直接使用上一次对这个变量的load结果,而不是真正再去load一次)

存储融合(编译器优化写入变量流程,不再真实写入)

代码重排(把一些类似的计算归在一起,节省占用的寄存器,改善现代超标量微处理器里面各个运算单元的利用效率)

虚拟读取(编译器优化会导致多次读取,导致后续加载异常)

虚拟存储(编译器优化会导致多次存储,导致后续存储异常)

.....

因此需要告诉编译器并发代码,Linux提供内存一致性模型,也提供检查方法解决此类问题。

1.2.1 访问方式

  • 普通访问

  • 标记访问

2790912af748210feb93c91910abbedc.png

1.2.2 同步冲突访问的检测条件

  • 在访问同一个地方并且至少有一个是写操作

  • 至少有一个是普通访问(比如x+42)

以下线程打钩的是标准做法;打叉的是可能存在数据竞争的情况。

7a37e970f29116de275b1c75f61c7911.png

1.2.3 哪些不属于数据竞争

例如:使用不对称的锁机制,并且使用READ_ONCE/WRITE_ONCE标记访问。

9cb3ce9f157e732f367e30efd7703f05.png

二、依赖与配置方案

2.1 版本支持

KCSAN支持GCC/CLANG编译,需要GCC版本11,CLANG 12以上版本。

x86_64: >=5.8  ARM64: >=5.17

d98e2c063c31717b1ee5aec789ac5661.png

7ee359ed6cd1b25b009400a77f7b79b5.png

2.2 KCSAN工具链支持

cc-option,-fsanitize=thread --param tsan-distinguish-volatile=1

4121a19b890b29f92c197c8ab6273e97.png

2.3 配置选项支持

d2db6d3d00c41d69c16be6e51dea9cc3.png

三、工作原理与触发条件

3.1 使用方式

检查未标记读取是否写入竞争,会持续扫描内核的主要分支,在访问的内存位置上设置观察点,挑出导致数据争用的数据,并将其报告给内核日志。

●用“软观察点”查找竞争

〇设置观察点和失速通道;

〇如果监测点已经存在,那么竞争检查将照常进行;

〇如果值改变了--> 竞争;

〇失速通道随机延迟,增加观察竞争状态的机会;

默认值:任务[1,80]us,中断[1,20]us。

●为所有检测内存访问设置观察点

〇 注释标记访问,仅用于检查非标记访问是否存在观察点;

KCSAN从不在标记的访问上设置观察点;

如果对并发访问的变量的所有访问都正确地标记了,KCSAN将永远不会触发观察点,因此永远不会报告访问。

●采样: 周期性建立观察点

〇默认值:平均2000次访问。

3.2 KCSAN软观测点

基于地址页索引

〇可以溢出到相邻槽。

〇使用索引确保报告元数据给匹配的生产者/消费者。

具有灵活、可缩放的特点,以数组的形式存放。

12297e0eed5ecb25eaca420e5a01504e.png

代码片段如下:

入口函数check_access,在check_access数据地址、长度、类型;在check_access函数执行find_watchpoint判断。需要检测的ptr已经插桩编译。

36fa9ffbd54e29b72aab0f2dd697b725.png

3.3 KCSAN 运行流程

  1. 进入check_access函数,格式描述包含数据指针、长度、读写类型;

  2. 确认是否需要观测,需要满足至少一个写操作且为普通访问;

  3. 如果判定需要观测,加入观察列表;

  4. 延时一段时长,查看是否有访问、变更数据等情况;如果有,则生产数据表,并打印数据到控制台;如果没有则退出;

  5. 在步骤3,如果未发现合适的观测点,则该数据运行流程退出

ae519daa5e5d1c91fd834f009bd0466f.png

3.4 ASSERT检测机制

KCSAN提供有一种断言检测机制,检查在数据竞争模型以外的情况下提供竞争检测;

22fee62609ed412cccf55ffbc5d9d9e5.png

599d2a762be5af7eb1a1067ac3bf484a.png

3.4.1 ASSERT集合

29a9bd09848578d3f8ac353e4042fc0a.png

3.5 KCSAN特点

79595087b38558dd81e6109cabb31a7a.png

四、测试套件

4.1 KUNIT测试模型

KCSAN提供KUNIT的支持

  1. 创建多个access_thread线程用于测试用例函数的调用接口;

  2. 挂接console跟踪点,该跟踪点监控串口输出数据;如果有数据竞争报错,可以捕获并判断;

  3. 启动测试用例接口函数,实现测试函数的挂接并提供超时判定(缺省执行500毫秒);

  4. 在执行超时以后,判断输出是否与预想一致;并给出判断结果。

f3e919f1d5359bca73e431f397743b4f.png

4.2 测试条件

1. 配置CONFIG_KCSAN_KUNIT_TEST=y使能KUNIT

2. KCSAN功能正常开启

4.3 测试环境

QEMU Linux 6.11 core 4 GCC11

测试覆盖:

1. 不同条件下的数据竞争data_race

de9cc624f01b45529d57c30801c7cd08.png

2.断言函数数据竞争assert_exclusive_x

e4c8f29a580e3f2beb21c57e13fa951e.png

3. barrier/lock判定

008bc3d9c37aff8e84fbb7039a0fa7b2.png

五、过程与案例分析

5.1 KCSAN启动过程

1. 在完成KCSAN配置后,系统启动时有“kcsan:enable early”打印:

f4b4e644061749a9d07f6ba11ecd8001.png

2.后台会实时进行观测点的监控与比对,如果比中会有”BUG:KCSAN”控制台打印来描述数据竞争的信息;这些信息包括调用函数、数据竞争地址、CPU号、进程号等;可在不同的测试场景进行压力测试;

c3efef7f042faf1036dbd335dbabab8c.png

3.在运行过程中,查看“KCSAN kernel debug”节点查看当前的状态,这些状态信息包括观测点、数据竞争、ASSERT报错等一系列信息;

ae686250ae82e0c8463622671916fd52.png

5.2 案例一

描述:IGMP协议timer超时与事件函数在读写mr_ifc_count变量的数据竞争

net: igmp: fix data-race in igmp_ifc_timer_expire()

8523c4aae073ffb066896db29380e075.png

解决办法:

1.  igmp_ifc_event/ igmp_ifc_timer_expire函数在读写mr_ifc_count变量存在数据竞争,需要使用LLKM 访问保护;

2. 修改调用mr_ifc_count点,使用READ_ONCE/WRITE_ONCE保证编译器的一致性;

3. mr_ifc_count和in_dev->mr_ifc_count值不等时启动重传机制;

67e5d08b6314aea0525cea125071b8a3.png

5.3 案例二

描述:在taskstats_exit()中分配和测试任务统计时,会有一个竞争在读写sig->stats

When assiging and testing taskstats in taskstats_exit() there's a race when writing and reading sig->stats

1327be744b70b96872c13ff95fc08bcc.png

解决办法:

1. 结构体成员sig->stats存在数据竞争,需要使用LLKM访问保护;

2. smp_load_acquire/smp_store_release函数解决CPU数据同步和编译器同步问题,适用于同一个函数内部的数据竞争;

48b113a7ad6528afa0734d3b3bf73747.png

六、总结

本文从工作原理、运行流程、测试方式等多个方面介绍了KCSAN,旨在让读者能够对KCSAN运行有一个直观的认识,利用KCSAN在产品中解决一些数据竞争问题;数据竞争是一个复杂问题,用KCSAN能帮助大家快速找到数据竞争问题,进而寻找方法解决或规避,本文更多传递是一种发现和解决此类问题的思路。

消杀器技术在不断地迭代和更新,也让大家多一份探寻世界、改变世界的机会;借此机会,站在巨人的肩膀上,让大家看得更远、走得更远,愿大家都有一个美好的明天。

七、参考文档

更多案例分享:

https://github.com/google/kernel-sanitizers/blob/master/kcsan/FOUND_BUGS.md

LKMM:

https://www.open-std.org/jtc1/sc22/wg21/docs/papers/2016/p0124r2.html

KCSAN ASSERT:

https://www.kernel.org/doc/html/next/dev-tools/kcsan.html#c.ASSERT_EXCLUSIVE_ACCESS

KUNIT测试框架

https://kunit.dev/third_party/kernel/docs/api/test.html?highlight=kunit_expect_false

测试使用内核源码地址

https://kernel.source.codeaurora.cn/pub/scm/linux/kernel/git/stable/linux.git/commit/?h=v6.1.1&id=ebdb69c5b054f115ef5ff72f0bb2aaa1718904e6

0da0327291e008068485379c2c87bded.gif

长按关注内核工匠微信

Linux内核黑科技| 技术文章 | 精选教程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/370222.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网络应用之URL

URL学习目标能够知道URL的组成部分1. URL的概念URL的英文全拼是(Uniform Resoure Locator),表达的意思是统一资源定位符,通俗理解就是网络资源地址,也就是我们常说的网址。2. URL的组成URL的样子:https://news.163.com/18/1122/10/E178J2O4000189FH.html…

最好的个人品牌策略是什么样的

在这个自我营销的时代,个人品牌越来越受到人们的重视。您的个人品牌的成功与否取决于您在专业领域拥有的知识,以及拥有将这些知识传达给其他用户的能力。如果人们认为您没有能力并且无法有效地分享有用的知识,那么您就很难获得关注并实现长远…

树莓派Linux内核配置

文章目录一、嵌入式带操作系统的启动过程二、Linux内核源码树扫盲分析三、树莓派Linux源码配置1.树莓派Linux的内核配置2.树莓派Linux内核编译3、更换树莓派内核一、嵌入式带操作系统的启动过程 1.x86,Intel的启动过程: 电源上电->BIOS->Windows内…

PHP基础(2)

PHP基础常用函数数组及多维数组数组遍历强制类型转换运算符赋值与基本运算字符串运算逻辑运算符常用函数 substr的用法是:substr(目标字符串,从字符串的哪个位置开始,然后返回往后的几个字符)strchr的用法是&#xff1…

【华为OD机试模拟题】用 C++ 实现 - 滑动求和(2023.Q1)

最近更新的博客 华为OD机试 - 入栈出栈(C++) | 附带编码思路 【2023】 华为OD机试 - 箱子之形摆放(C++) | 附带编码思路 【2023】 华为OD机试 - 简易内存池 2(C++) | 附带编码思路 【2023】 华为OD机试 - 第 N 个排列(C++) | 附带编码思路 【2023】 华为OD机试 - 考古…

几张图带你看懂Unicode和UTF-8

一、二进制 为什么要编码? 在计算机中,所有的数据在存储和运算时都要使用二进制数表示(因为计算机用高电平和低电平分别表示1和0) 我们用QQ给其他人发消息、发文件、发表情,最终会以二进制形式在网路中传输&#xff…

【多线程与高并发】- 浅谈volatile

浅谈volatile简介JMM概述volatile的特性1、可见性举个例子总结2、无法保证原子性举个例子分析使用volatile对原子性测试使用锁的机制总结3、禁止指令重排什么是指令重排序重排序怎么提高执行速度重排序的问题所在volatile禁止指令重排序内存屏障(Memory Barrier)作用volatile内…

验证性因子分析(CFA)全流程

案例与数据 某研究者想要研究关于教师懈怠感的课题,教师懈怠感是指教师在教育情境的要求下,由于无法有效应对工作压力与挫折而产生的情绪低落、态度消极状态,这种状态甚至会引发心理、生理的困扰,终至对教育工作产生厌倦&#xf…

实例8:机器人的空间描述和变换仿真

实例8:机器人的空间描述和变换仿真 实验目的 通过刚体与刚体的平动、转动基础知识的学习,熟悉位姿的描述通过Python编程实践,可视化学习坐标系的变换,熟悉空间变换 实验要求 建立一个原点位于零点的三维正交坐标系&#xff0c…

SQL零基础入门学习(十二)

SQL零基础入门学习(SQL约束) SQL CREATE INDEX 语句 CREATE INDEX 语句用于在表中创建索引。 在不读取整个表的情况下,索引使数据库应用程序可以更快地查找数据。 索引 您可以在表中创建索引,以便更加快速高效地查询数据。 用…

WooCommerce 上传文件 Vanquish v71.6

今天用wp 搭一个b2c外贸跨境电商网站 找 了一个文件上传插件,可以 上传无限数量的文件,没有文件大小限制WooCommerce 上传文件允许您上传无限数量的文件,没有任何文件大小限制。得益于其创新的块上传技术,它可以不受限制地上传任何…

【华为OD机试模拟题】用 C++ 实现 - 数据分类(2023.Q1)

最近更新的博客 华为OD机试 - 入栈出栈(C++) | 附带编码思路 【2023】 华为OD机试 - 箱子之形摆放(C++) | 附带编码思路 【2023】 华为OD机试 - 简易内存池 2(C++) | 附带编码思路 【2023】 华为OD机试 - 第 N 个排列(C++) | 附带编码思路 【2023】 华为OD机试 - 考古…

记一次SSM项目启动过程中遇到的问题(找不到符号)

最近拿了朋友的SSM项目过来参考一下开发过程,然后我这边个人情况是没有学过Java的,环境也不太清楚,虽然之前有在学校过程中做过一个旅游网站类似的SSM项目,电脑环境配置还是有些不太了解,bug修了2天大概,然…

windows下编译leveldb(动态库+静态库)

环境准备 1)下载cmake并安装 下载路径: https://cmake.org/download/2)下载leveldb源码 git clone https://github.com/google/leveldb.git3)下载googletest和benchmark,cmake编译时需要 # 进入leveldb源码路径下的third_part…

干了2年的手工点点点,感觉每天浑浑噩噩,我的自动化测试之路...

作为一个测试人员,从业年期从事手工测试的工作是没有太多坏处的,当然,如果一直点来点去那么确实自身得不到提高,这时候选择学习自动化测试是一件很有必要的事情,一来将自己从繁重的重复工作中解放出来,从事…

操作系统——6.系统调用

目录 1.概述 2.系统调用的定义和作用 2.1 定义 2.2 功能 2.3 分类 3.系统调用和库函数的区别 4.系统调用背后的过程 5.小结 1.概述 这篇文章我们主要来介绍一下操作系统中的系统调用,下面来看一下具体的框架图: 2.系统调用的定义和作用 2.1 定…

Mysql索引学习

1. 索引 1.1 索引概述 MySQL官方对索引的定义为:索引(index)是帮助MySQL高效获取数据的数据结构(有序)。在数据之外,数据库系统还维护者满足特定查找算法的数据结构,这些数据结构以某种方式引…

Linux->进程优先级

目录 1. 优先级的概念 2. 优先级的运作方式 3. Linux下查看进程优先级以及调整 3.1 查看进程优先级 3.2 修改进程优先级 1. 优先级的概念 1. cpu资源分配的先后顺序,就是指进程的优先权(priority)。 2. 优先权高的进程有优先执行权利。配…

数据结构:二叉树概念篇(算法基础)

目录 一.有向树的图论基础 1.有向树的相关基本概念 有向树的基本定义: 有向树的结点的度: 有向树的度: 有向树的根结点,分枝结点,叶结点: 树的子树: 树结点的层次: 树的高度: 2.一个基本的数学结论 3.有序有向树 二.数据结构中树的顺序存储结构与链式存…

【华为OD机试模拟题】用 C++ 实现 - 星际篮球争霸赛(2023.Q1)

最近更新的博客 华为OD机试 - 入栈出栈(C++) | 附带编码思路 【2023】 华为OD机试 - 箱子之形摆放(C++) | 附带编码思路 【2023】 华为OD机试 - 简易内存池 2(C++) | 附带编码思路 【2023】 华为OD机试 - 第 N 个排列(C++) | 附带编码思路 【2023】 华为OD机试 - 考古…