一文分析Linux虚拟化KVM-Qemu分析之内存虚拟化

news2025/1/17 14:10:38

说明:

  1. KVM版本:5.9.1
  2. QEMU版本:5.0.0
  3. 工具:Source Insight 3.5, Visio

1. 概述

深入分析Linux虚拟化KVM-Qemu之ARMv8虚拟化文中描述过内存虚拟化大体框架,再来回顾一下:

  1. 非虚拟化下的内存的访问

  • CPU访问物理内存前,需要先建立页表映射(虚拟地址到物理地址的映射),最终通过查表的方式来完成访问。在ARMv8中,内核页表基地址存放在TTBR1_EL1中,用户空间页表基地址存放在TTBR0_EL0中;

  1. 虚拟化下的内存访问

  • 虚拟化情况下,内存的访问会分为两个Stage,Hypervisor通过Stage 2来控制虚拟机的内存视图,控制虚拟机是否可以访问某块物理内存,进而达到隔离的目的;
  • Stage 1:VA(Virtual Address)->IPA(Intermediate Physical Address),Host的操作系统控制Stage 1的转换;
  • Stage 2:IPA(Intermediate Physical Address)->PA(Physical Address),Hypervisor控制Stage 2的转换;

猛一看上边两个图,好像明白了啥,仔细一想,啥也不明白,本文的目标就是将这个过程讲明白。

在开始细节讲解之前,需要先描述几个概念:

gva - guest virtual address
gpa - guest physical address
hva - host virtual address
hpa - host physical address

  • Guest OS中的虚拟地址到物理地址的映射,就是典型的常规操作,参考之前的内存管理模块系列文章;

铺垫了这么久,来到了本文的两个主题:

  1. GPA->HVA;
  2. HVA->HPA;

开始吧!

  资料直通车:Linux内核源码技术学习路线+视频教程内核源码

学习直通车:Linux内核源码内存调优文件系统进程管理设备驱动/网络协议栈

2. GPA->HVA

还记得上一篇文章深入探索Linux虚拟化KVM-Qemu分析之CPU虚拟化中的Sample Code吗?KVM-Qemu方案中,GPA->HVA的转换,是通过ioctl中的KVM_SET_USER_MEMORY_REGION命令来实现的,如下图:

找到了入口,让我们进一步揭开神秘的面纱。

2.1 数据结构

关键的数据结构如下:

  • 虚拟机使用slot来组织物理内存,每个slot对应一个struct kvm_memory_slot,一个虚拟机的所有slot构成了它的物理地址空间;
  • 用户态使用struct kvm_userspace_memory_region来设置内存slot,在内核中使用struct kvm_memslots结构来将kvm_memory_slot组织起来;
  • struct kvm_userspace_memory_region结构体中,包含了slot的ID号用于查找对应的slot,此外还包含了物理内存起始地址及大小,以及HVA地址,HVA地址是在用户进程地址空间中分配的,也就是Qemu进程地址空间中的一段区域;

2.2 流程分析

数据结构部分已经罗列了大体的关系,那么在KVM_SET_USER_MEMORY_REGION时,围绕的操作就是slots的创建、删除,更新等操作,话不多说,来图了:

  • 当用户要设置内存区域时,最终会调用到__kvm_set_memory_region函数,在该函数中完成所有的逻辑处理;
  • __kvm_set_memory_region函数,首先会对传入的struct kvm_userspace_memory_region的各个字段进行合法性检测判断,主要是包括了地址的对齐,范围的检测等;
  • 根据用户传递的slot索引号,去查找虚拟机中对应的slot,查找的结果只有两种:1)找到一个现有的slot;2)找不到则新建一个slot;
  • 如果传入的参数中memory_size为0,那么会将对应slot进行删除操作;
  • 根据用户传入的参数,设置slot的处理方式:KVM_MR_CREATE,KVM_MR_MOVE,KVM_MEM_READONLY;
  • 根据用户传递的参数决定是否需要分配脏页的bitmap,标识页是否可用;
  • 最终调用kvm_set_memslot来设置和更新slot信息;

2.2.1 kvm_set_memslot

具体的memslot的设置在kvm_set_memslot函数中完成,slot的操作流程如下:

  • 首先分配一个新的memslots,并将原来的memslots内容复制到新的memslots中;
  • 如果针对slot的操作是删除或者移动,首先根据旧的slot id号从memslots中找到原来的slot,将该slot设置成不可用状态,再将memslots安装回去。这个安装的意思,就是RCU的assignment操作,不理解这个的,建议去看看之前的RCU系列文章。由于slot不可用了,需要解除stage2的映射;
  • kvm_arch_prepare_memory_region函数,用于处理新的slot可能跨越多个用户进程VMA区域的问题,如果为设备区域,还需要将该区域映射到Guest IPA中;
  • update_memslots用于更新整个memslots,memslots基于PFN来进行排序的,添加、删除、移动等操作都是基于这个条件。由于都是有序的,因此可以选择二分法来进行查找操作;
  • 将添加新的slot后的memslots安装回KVM中;
  • kvfree用于将原来的memslots释放掉;

2.2.2 kvm_delete_memslot

kvm_delete_memslot函数,实际就是调用的kvm_set_memslot函数,只是slot的操作设置成KVM_MR_DELETE而已,不再赘述。

3. HVA->HPA

光有了GPA->HVA,似乎还是跟Hypervisor没有太大关系,到底是怎么去访问物理内存的呢?貌似也没有看到去建立页表映射啊?跟我走吧,带着问题出发!

之前内存管理相关文章中提到过,用户态程序中分配虚拟地址vma后,实际与物理内存的映射是在page fault时进行的。那么同样的道理,我们可以顺着这个思路去查找是否HVA->HPA的映射也是在异常处理的过程中创建的?答案是显然的。

回顾一下前文深入探索Linux虚拟化KVM-Qemu分析之CPU虚拟化的一张图片:

  • 当用户态触发kvm_arch_vcpu_ioctl_run时,会让Guest OS去跑在Hypervisor上,当Guest OS中出现异常退出到Host时,此时handle_exit将对退出的原因进行处理;

异常处理函数arm_exit_handlers如下,具体调用选择哪个处理函数,是根据ESR_EL2, Exception Syndrome Register(EL2)中的值来确定的。

static exit_handle_fn arm_exit_handlers[] = {
 [0 ... ESR_ELx_EC_MAX] = kvm_handle_unknown_ec,
 [ESR_ELx_EC_WFx] = kvm_handle_wfx,
 [ESR_ELx_EC_CP15_32] = kvm_handle_cp15_32,
 [ESR_ELx_EC_CP15_64] = kvm_handle_cp15_64,
 [ESR_ELx_EC_CP14_MR] = kvm_handle_cp14_32,
 [ESR_ELx_EC_CP14_LS] = kvm_handle_cp14_load_store,
 [ESR_ELx_EC_CP14_64] = kvm_handle_cp14_64,
 [ESR_ELx_EC_HVC32] = handle_hvc,
 [ESR_ELx_EC_SMC32] = handle_smc,
 [ESR_ELx_EC_HVC64] = handle_hvc,
 [ESR_ELx_EC_SMC64] = handle_smc,
 [ESR_ELx_EC_SYS64] = kvm_handle_sys_reg,
 [ESR_ELx_EC_SVE] = handle_sve,
 [ESR_ELx_EC_IABT_LOW] = kvm_handle_guest_abort,
 [ESR_ELx_EC_DABT_LOW] = kvm_handle_guest_abort,
 [ESR_ELx_EC_SOFTSTP_LOW]= kvm_handle_guest_debug,
 [ESR_ELx_EC_WATCHPT_LOW]= kvm_handle_guest_debug,
 [ESR_ELx_EC_BREAKPT_LOW]= kvm_handle_guest_debug,
 [ESR_ELx_EC_BKPT32] = kvm_handle_guest_debug,
 [ESR_ELx_EC_BRK64] = kvm_handle_guest_debug,
 [ESR_ELx_EC_FP_ASIMD] = handle_no_fpsimd,
 [ESR_ELx_EC_PAC] = kvm_handle_ptrauth,
};

用你那双水汪汪的大眼睛扫描一下这个函数表,发现ESR_ELx_EC_DABT_LOW和ESR_ELx_EC_IABT_LOW两个异常,这不就是指令异常和数据异常吗,我们大胆的猜测,HVA->HPA映射的建立就在kvm_handle_guest_abort函数中。

3.1kvm_handle_guest_abort

先来补充点知识点,可以更方便的理解接下里的内容:

  1. Guest OS在执行到敏感指令时,产生EL2异常,CPU切换模式并跳转到EL2的el1_sync(arch/arm64/kvm/hyp/entry-hyp.S)异常入口;
  2. CPU的ESR_EL2寄存器记录了异常产生的原因;
  3. Guest退出到kvm后,kvm根据异常产生的原因进行对应的处理。

简要看一下ESR_EL2寄存器:

  • EC:Exception class,异常类,用于标识异常的原因;
  • ISS:Instruction Specific Syndrome,ISS域定义了更详细的异常细节;
  • 在kvm_handle_guest_abort函数中,多处需要对异常进行判断处理;

kvm_handle_guest_abort函数,处理地址访问异常,可以分为两类:

  1. 常规内存访问异常,包括未建立页表映射、读写权限等;
  2. IO内存访问异常,IO的模拟通常需要Qemu来进行模拟;

先看一下kvm_handle_guest_abort函数的注释吧:

/**
 * kvm_handle_guest_abort - handles all 2nd stage aborts
 *
 * Any abort that gets to the host is almost guaranteed to be caused by a
 * missing second stage translation table entry, which can mean that either the
 * guest simply needs more memory and we must allocate an appropriate page or it
 * can mean that the guest tried to access I/O memory, which is emulated by user
 * space. The distinction is based on the IPA causing the fault and whether this
 * memory region has been registered as standard RAM by user space.
 */
  • 到达Host的abort都是由于缺乏Stage 2页表转换条目导致的,这个可能是Guest需要分配更多内存而必须为其分配内存页,或者也可能是Guest尝试去访问IO空间,IO操作由用户空间来模拟的。两者的区别是触发异常的IPA地址是否已经在用户空间中注册为标准的RAM;

调用流程来了:

  • kvm_vcpu_trap_get_fault_type用于获取ESR_EL2的数据异常和指令异常的fault status code,也就是ESR_EL2的ISS域;
  • kvm_vcpu_get_fault_ipa用于获取触发异常的IPA地址;
  • kvm_vcpu_trap_is_iabt用于获取异常类,也就是ESR_EL2的EC,并且判断是否为ESR_ELx_IABT_LOW,也就是指令异常类型;
  • kvm_vcpu_dabt_isextabt用于判断是否为同步外部异常,同步外部异常的情况下,如果支持RAS,Host能处理该异常,不需要将异常注入给Guest;
  • 异常如果不是FSC_FAULT,FSC_PERM,FSC_ACCESS三种类型的话,直接返回错误;
  • gfn_to_memslot,gfn_to_hva_memslot_prot这两个函数,是根据IPA去获取到对应的memslot和HVA地址,这个地方就对应到了上文中第二章节中地址关系的建立了,由于建立了连接关系,便可以通过IPA去找到对应的HVA;
  • 如果注册了RAM,能获取到正确的HVA,如果是IO内存访问,那么HVA将会被设置成KVM_HVA_ERR_BAD。kvm_is_error_hva或者(write_fault && !writable)代表两种错误:1)指令错误,向Guest注入指令异常;2)IO访问错误,IO访问又存在两种情况:2.1)Cache维护指令,则直接跳过该指令;2.2)正常的IO操作指令,调用io_mem_abort进行IO模拟操作;
  • handle_access_fault用于处理访问权限问题,如果内存页无法访问,则对其权限进行更新;
  • user_mem_abort,用于分配更多的内存,实际上就是完成Stage 2页表映射的建立,根据异常的IPA地址,已经对应的HVA,建立映射,细节的地方就不表了。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/142443.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

剑指 Offer 07. 重建二叉树

剑指 Offer 07. 重建二叉树 一、题目 输入某二叉树的前序遍历和中序遍历的结果,请构建该二叉树并返回其根节点。 假设输入的前序遍历和中序遍历的结果中都不含重复的数字。 Input: preorder [3,9,20,15,7], inorder [9,3,15,20,7] Output: [3,9,20,null,null,1…

ansible第三天作业

1.挂载本地光盘到/mnt 2.配置yum源仓库文件通过多种方式实现 仓库1 : Name: RH294_Base Description: RH294 base software Base urt: file:///mnt/BaseOS 不需要验证钦件包 GPG 签名 启用此软件仓库 仓库 2: Name: RH294_Stream Description …

QGIS编译---QGIS3.22.4 + Qt5.15.3 + VS2019 ---64位版本

0 编译结果 先放上编译结果: 图1 QGIS3.22 启动界面 图2 QGIS3.22 操作界面 1 前言 因一些主观、客观原因,一年多没更新博客了,提笔继续。 这是笔者编译的第三个版本QGIS,本次编译原因有四: (1&#xff…

05-微服务调用组件FeignDubbo实战

JAVA 项目中如何实现接口调用 1)Httpclient HttpClient 是 Apache Jakarta Common 下的子项目,用来提供高效的、最新的、功能丰富的支持 Http 协议的客户端编程工具包,并且它支持 HTTP 协议最新版本和建议。HttpClient 相比传统 JDK 自带的UR…

Neo4j图数据库实现节点批量删除

1 前言 1-1 简介 由于对图数据库需要经常维护,图数据库建设初期,需要经常对数据写入删除等操作。 1-2 任务背景 再将1100万数据写入Neo4j后,由于需要对每个实体的label做精细化处理,之前写入的时候每个实体的label全部都为‘Comm…

Webhook端口使用介绍与演示

在API接口调用的集成项目中,用户调用知行之桥的API接口以给EDI系统推送数据时,经常会有这样的疑问:怎样查看是否调用接口成功?怎样查看数据是否推送成功?推送之后用户端会有怎样的响应提示? 为满足以上问题…

个人资料、消息、书签和偏好设置 干货 | 环境问题还是测试的老大难?两个步骤轻松搞定

在实际的工作中,绝大部分公司都至少有3个以上的环境,供测试与研发人员使用。测试人员不可能为每个环境都准备一个自动化测试的脚本,这样的维护成本太过庞大。所以就需要做到一套脚本,可以在各个环境上面运行。首先在上一节提到过的…

并发编程——7.共享模型之工具

目录7.共享模型之工具7.1.线程池7.1.1.自定义线程池7.1.2.ThreadPoolExecutor7.1.2.1.线程池状态7.1.2.2.构造方法7.1.2.3.newFixedThreadPool7.1.2.4.newCachedThreadPool7.1.2.5.newSingleThreadExecutor7.1.2.6.提交任务7.1.2.7.关闭线程池7.1.2.9.异步模式之工作线程7.1.2.…

python之字符串分割

str.split() 是 Python 中字符串类型的一个方法,可以用来将字符串按照指定的分隔符分割成多个子字符串。 例如,如果你有一个字符串 ‘a,b,c,d’,你可以这样分割它: >>> a,b,c,d.split(,) [a, b, c, d]这会将字符串按照…

Web API的方法论及实践

文章目录前言基本原则构建步骤API 实践商品呈现初始的设计个性化,千人千面 & 可视化超前的设计监控遗漏的监控业务服务效率是第一生产力业务服务API样例服务配置ClientInfo“用完即走”的业务服务一个周末的辛劳无数个喝咖啡的悠闲时光总结参考资料前言 对于网…

EMQX+阿里云飞天洛神云网络 NLB:MQTT 消息亿级并发、千万级吞吐性能达成

随着物联网技术的发展与各行业数字化进程的推进,全球物联网设备连接规模与日俱增。一个可靠高效的物联网系统需要具备高并发、大吞吐、低时延的数据处理能力,支撑海量物联网数据的接入与分析,从而进一步挖掘数据价值。 于今年五月发布的 EMQ…

Java后端知识之代码混淆-避免反编译工具获取原码

java, 代码混淆, 编译, 反编译本文是向大家介绍java后端小知识,它能够实现编译后的class代码加密,能够避免使用反编译工具获取源码。本文介绍java代码编译成class后,怎么避免用反编译工具获取源码。编译简单先看一下java源码反编译就是针对编…

MCU-51:单片机蜂鸣器播放孤勇者

目录一、蜂鸣器介绍二、驱动电路2.1 三极管驱动2.2 集成电路驱动三、蜂鸣器播放音乐3.1 键盘与音符对照3.2 音符与频率对照四、孤勇者乐谱五、代码演示前面学习了 MCU-51:单片机蜂鸣器播放音乐和提示音我们知道了可以用51单片机播放乐谱今天我们用51单片机播放 孤勇…

修改NuGet包默认存放位置

默认情况下,NuGet下载的包存放在系统盘(C盘中),这样一来,时间长了下载的包越多,C盘占用的空间也就越多。 1、问题描述 默认情况下,NuGet下载的包存放在系统盘(C盘中,一般在路径C:\Users\用户\.nuget\packag…

让人意外,iPhone15将增加中国制造的比例,苹果再回头

业界人士指出苹果的iPhone15将会分单给中国代工商,屏幕、镜头玻璃等也会增加给中国厂商的比例,这是在业界传闻苹果试图摆脱中国制造之后的好消息,显示出苹果仍然需要中国制造。一、iPhone15加大中国制造比例据悉iPhone15 Pro max将会有部分订…

【20230105】pip pip3 替换国内镜像源

1 存在问题 在使用默认pip3安装库时,出现超时情况。 pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host‘files.pythonhosted.org’, port443): Read timed out. 2 国内的pip源 阿里云:https://mirrors.aliyun.com/pypi/sim…

k8s之使用yaml创建pod

写在前面 本文一起看下如何通过声明式的yaml文件来创建pod。 1:命令式和声明式 命令式就是具体告诉计算机做什么,比如我们写的Java代码,Dockerfile定义FROM,COPY,CMD,RUN,Expose等语句&#…

CVE-2017-12615 Tomcat PUT方法任意写文件漏洞复现

今天继续给大家介绍渗透测试相关知识,本文主要内容是CVE-2017-12615 Tomcat PUT方法任意写文件漏洞复现。 免责声明: 本文所介绍的内容仅做学习交流使用,严禁利用文中技术进行非法行为,否则造成一切严重后果自负! 再次…

ModelForm实践--新建用户

Django组件Form&ModelForm_Neo_21的博客-CSDN博客 Django ModelForm用法详解 前面基本了解ModelForm,使用ModelForm添加用户 一.回顾ModelForm 基于 Model 的定义自动生成表单,这就大大简化了根据 Model 生成表单的过程。 简单的ModelForm class BookMode…

jdk、jmeter安装配置流程以及 双jdk配置和切换(自用)

文章目录一、jdk安装配置1.1 java8配置流程1.2 jdk17配置1.3 jdk没有jre怎么生成1.4 双jdk配置2、Jmeter安装配置电脑重装系统了,重新配下jdk和jmeter。一、jdk安装配置 配jmeter首先得有java。 1.1 java8配置流程 ① java8安装路径 下完直接安装就行 ② 配置环境…