原文信息:

作者:LoyenWang

出处:https://www.cnblogs.com/LoyenWang/

公众号:LoyenWang

版权:本文版权归作者和博客园共有

转载:欢迎转载,但未经作者同意,必须保留此段声明;必须在文章中给出原文连接;否则必究法律责任

背景

  • Read the fucking source code! --By 鲁迅
  • A picture is worth a thousand words. --By 高尔基

说明:

  1. KVM版本:5.9.1
  2. QEMU版本:5.0.0
  3. 工具:Source Insight 3.5, Visio
  4. 文章同步在博客园:https://www.cnblogs.com/LoyenWang/

1. 概述

  • 本文围绕ARMv8 CPU的虚拟化展开;
  • 本文会结合Qemu + KVM的代码分析,捋清楚上层到底层的脉络;
  • 本文会提供一个Sample Code,用于类比Qemu和KVM的关系,总而言之,大同小异,大题小做,大道至简,大功告成,大恩不言谢;

先来两段前戏。

1.1 CPU工作原理

AI的世界,程序的执行不再冰冷,CPU对a.out说,hello啊,world已经ok啦,下来return吧!

既然要说CPU的虚拟化,那就先简要介绍一下CPU的工作原理:

  • CPU的根本任务是执行指令,我们常说的取指-译码-执行-访存-写回,就是典型的指令Pipeline操作;
  • 从CPU的功能出发,可以简要分成三个逻辑模块:
    1. Control Unit:CPU的指挥中心,协调数据的移动;
    2. ALU:运算单元,执行CPU内部所有的计算;
    3. Register:寄存器和Cache,都算是CPU内部的存储单元,其中寄存器可用于存储需要被译码和执行的指令、数据、地址等;
  • CPU从内存中读取指令进行译码并执行,执行的过程中需要去访问内存中的数据,CPU内部的寄存器可以暂存中间的指令和数据等信息,通常说的CPU的context指的就是CPU寄存器值;

在硬件支持虚拟化之前,Qemu纯软件虚拟化方案,是通过tcg(tiny code generator)的方式来进行指令翻译,翻译成Host处理器架构的指令来执行。硬件虚拟化技术,是让虚拟机能直接执行在Host CPU上,让Host CPU直接来执行虚拟机,结合CPU的实际工作原理,应该怎么来理解呢?来张图:

  • CPU通过pc寄存器获取下一条执行指令,进行取指译码执行等操作,因此给定CPU一个Context,自然就能控制其执行某些代码;
  • CPU的虚拟化,最终目标让虚拟机执行在CPU上,无非也是要进行CPU的Context切换,控制CPU去执行对应的代码,下文会进一步阐述;

既然都讲CPU了,那就捎带介绍下ARMv8的寄存器吧:

  1. 通用寄存器:

  • 图中描述的是EL3以下,AArch32AArch64寄存器对应关系;
  • AArch64中,总共31个通用寄存器,64bit的为X0-X30,32bit的为W0-W30;
  1. 特殊用途寄存器:

  • 这些特殊用途的寄存器,主要分为三种:1)存放异常返回地址的ELR_ELx;2)各个EL的栈指针SP_ELx;3)CPU的状态相关寄存器;
  1. CPU的状态PSTATE

  • CPU的状态在AArch32时是通过CPSR来获取,在AArch64中,使用PSTATEPSTATE不是一个寄存器,它表示的是保存当前CPU状态信息的一组寄存器或一些标志信息的统称;

好了,ARMv8的介绍该打住了,否则要跑偏了。。。

1.2 guest模式

  • Linux系统有两种执行模式:kernel模式与user模式,为了支持虚拟化功能的CPU,KVM向Linux内核提供了guest模式,用于执行虚拟机系统非I/O的代码;
  • user模式,对应的是用户态执行,Qemu程序就执行在user模式下,并循环监听是否有I/O需要模拟处理;
  • kernel模式,运行kvm模块代码,负责将CPU切换到VM的执行,其中包含了上下文的load/restore;
  • guest模式,本地运行VM的非I/O代码,在某些异常情况下会退出该模式,Host OS开始接管;

好了啦,前戏结束,开始直奔主题吧。

2. 流程分析

不管你说啥,我上来就是一句中国万岁,对不起,跑题了。我上来就是一张Qemu初始化流程图:

  • 看过Qemu源代码的人可能都有种感觉,一开始看好像摸不到门框,这图简要画了下关键模块的流程;
  • Qemu的源代码,后续的文章会详细介绍,本文只focus在vcpu相关部分;

除了找到了qemu_init_vcpu的入口,这张图好像跟本文的vcpu的虚拟化关系不是很大,不管了,就算是给后续的Qemu分析打个广告吧。

2.1 vcpu的创建

2.1.1 qemu中vcpu创建

  • Qemu初始化流程图中,找到了qemu_init_vcpu的入口,顺着这个qemu_init_vcpu就能找到与底层KVM模块交互的过程;
  • Qemu中为每个vcpu创建了一个线程,操作设备节点来创建和初始化vcpu;

所以,接力棒甩到了KVM内核模块。

2.1.2 kvm中vcpu创建

来一张前文的图:

  • 前文中分析过,系统在初始化的时候会注册字符设备驱动,设置好了各类操作函数集,等待用户层的ioctl来进行控制;
  • Qemu中设置KVM_CREATE_VCPU,将触发kvm_vm_ioctl_create_vcpu的执行,完成vcpu的创建工作;

  • 在底层中进行vcpu的创建工作,主要是分配一个kvm_vcpu结构,并且对该结构中的字段进行初始化;
  • 其中有一个用于与应用层进行通信的数据结构struct kvm_run,分配一页内存,应用层会调用mmap来进行映射,并且会从该结构中获取到虚拟机的退出原因;
  • kvm_arch_vcpu_create主要完成体系架构相关的初始化,包括timer,pmu,vgic等;
  • create_hyp_mappingskvm_vcpu结构体建立映射,以便在Hypervisor模式下能访问该结构;
  • create_vcpu_fd注册了kvm_vcpu_fops操作函数集,针对vcpu进行操作,Qemu中设置KVM_ARM_VCPU_INIT,将触发kvm_arch_vcpu_ioctl_vcpu_init的执行,完成的工作主要是vcpu的核心寄存器,系统寄存器等的reset操作,此外还包含了上层设置下来的值,放置在struct kvm_vcpu_init中;

2.2 vcpu的执行

2.2.1 qemu中vcpu的执行

  • Qemu中为每一个vcpu创建一个用户线程,完成了vcpu的初始化后,便进入了vcpu的运行,而这是通过kvm_cpu_exec函数来完成的;
  • kvm_cpu_exec函数中,调用kvm_vcpu_ioctl(,KVM_RUN,)来让底层的物理CPU进行运行,并且监测VM的退出,而这个退出原因就是存在放在kvm_run->exit_reason中,也就是上文中提到过的应用层与底层交互的机制;

2.2.2 kvm中vcpu的执行

用户层通过KVM_RUN命令,将触发KVM模块中kvm_arch_vcpu_ioctl_run函数的执行:

  • vcpu最终是要放置在物理CPU上执行的,很显然,我们需要进行context的切换:保存好Host的Context,并切换到Guest的Context去执行,最终在退出时再恢复回Host的Context;
  • __guest_enter函数完成最终的context切换,进入Guest的执行,当Guest退出时,fixup_guest_exit将会处理exit_code,判断是否继续返回Guest执行;
  • 当最终Guest退出到Host时,Host调用handle_exit来处理异常退出,根据kvm_get_exit_handler去查询异常处理函数表对应的处理函数,最终进行执行处理;

3. Sample Code

  • 上文已经将Qemu+KVM的CPU的虚拟化大概的轮廓已经介绍了,方方面面,问题不大;
  • 来一段Sample Code类比Qemu和KVM的关系,在Ubuntu16.04系统上进行测试;

简要介绍一下:

  1. tiny_kernel.S,相当于Qemu中运行的Guest OS,完成的功能很简单,没错,就是Hello, world打印;
  2. tiny_qemu.c,相当于Qemu,用于加载Guest到vCPU上运行,最终通过kvm放到物理CPU上运行;

鲁迅在1921年的时候,说过这么一句话:Talk is cheap, show me the code

  • tiny_kernel.S
  1. start:
  2. /* Hello */
  3. mov $0x48, %al
  4. outb %al, $0xf1
  5. mov $0x65, %al
  6. outb %al, $0xf1
  7. mov $0x6c, %al
  8. outb %al, $0xf1
  9. mov $0x6c, %al
  10. outb %al, $0xf1
  11. mov $0x6f, %al
  12. outb %al, $0xf1
  13. mov $0x2c, %al
  14. outb %al, $0xf1
  15. /* world */

  16. mov $0x77, %al

  17. outb %al, $0xf1

  18. mov $0x6f, %al

  19. outb %al, $0xf1

  20. mov $0x72, %al

  21. outb %al, $0xf1

  22. mov $0x6c, %al

  23. outb %al, $0xf1

  24. mov $0x64, %al

  25. outb %al, $0xf1
  26. mov $0x0a, %al

  27. outb %al, $0xf1
  28.  
  29.  
  30. hlt

  31.  
  • tiny_qemu.c
  1. #include <stdio.h>
  2. #include <string.h>
  3. #include <unistd.h>
  4. #include <assert.h>
  5. #include <sys/types.h>
  6. #include <sys/stat.h>
  7. #include <fcntl.h>
  8. #include <sys/ioctl.h>
  9. #include <linux/kvm.h>
  10. #include <sys/mman.h>
  11. #define KVM_DEV "/dev/kvm"

  12. #define TINY_KERNEL_FILE "./tiny_kernel.bin"

  13. #define PAGE_SIZE 0x1000
  14. int main(void)

  15. {

  16. int kvm_fd;

  17. int vm_fd;

  18. int vcpu_fd;

  19. int tiny_kernel_fd;

  20. int ret;

  21. int mmap_size;
  22. <span class="hljs-class"><span class="hljs-keyword">struct</span> <span class="hljs-title">kvm_sregs</span> <span class="hljs-title">sregs</span>;</span>
  23. <span class="hljs-class"><span class="hljs-keyword">struct</span> <span class="hljs-title">kvm_regs</span> <span class="hljs-title">regs</span>;</span>
  24. <span class="hljs-class"><span class="hljs-keyword">struct</span> <span class="hljs-title">kvm_userspace_memory_region</span> <span class="hljs-title">mem</span>;</span>
  25. <span class="hljs-class"><span class="hljs-keyword">struct</span> <span class="hljs-title">kvm_run</span> *<span class="hljs-title">kvm_run</span>;</span>
  26. <span class="hljs-keyword">void</span> *userspace_addr;
  27. <span class="hljs-comment">/* open kvm device */</span>
  28. kvm_fd = open(KVM_DEV, O_RDWR);
  29. assert(kvm_fd &gt; <span class="hljs-number">0</span>);
  30. <span class="hljs-comment">/* create VM */</span>
  31. vm_fd = ioctl(kvm_fd, KVM_CREATE_VM, <span class="hljs-number">0</span>);
  32. assert(vm_fd &gt;= <span class="hljs-number">0</span>);
  33. <span class="hljs-comment">/* create VCPU */</span>
  34. vcpu_fd = ioctl(vm_fd, KVM_CREATE_VCPU, <span class="hljs-number">0</span>);
  35. assert(vcpu_fd &gt;= <span class="hljs-number">0</span>);
  36. <span class="hljs-comment">/* open tiny_kernel binary file */</span>
  37. tiny_kernel_fd = open(TINY_KERNEL_FILE, O_RDONLY);
  38. assert(tiny_kernel_fd &gt; <span class="hljs-number">0</span>);
  39. <span class="hljs-comment">/* map 4K into memory */</span>
  40. userspace_addr = mmap(<span class="hljs-literal">NULL</span>, PAGE_SIZE, PROT_READ | PROT_WRITE, MAP_SHARED | MAP_ANONYMOUS, <span class="hljs-number">-1</span>, <span class="hljs-number">0</span>);
  41. assert(userspace_addr &gt; <span class="hljs-number">0</span>);
  42. <span class="hljs-comment">/* read tiny_kernel binary into the memory */</span>
  43. ret = read(tiny_kernel_fd, userspace_addr, PAGE_SIZE);
  44. assert(ret &gt;= <span class="hljs-number">0</span>);
  45. <span class="hljs-comment">/* set user memory region */</span>
  46. mem.slot = <span class="hljs-number">0</span>;
  47. mem.flags = <span class="hljs-number">0</span>;
  48. mem.guest_phys_addr = <span class="hljs-number">0</span>;
  49. mem.memory_size = PAGE_SIZE;
  50. mem.userspace_addr = (<span class="hljs-keyword">unsigned</span> <span class="hljs-keyword">long</span>)userspace_addr;
  51. ret = ioctl(vm_fd, KVM_SET_USER_MEMORY_REGION, &amp;mem);
  52. assert(ret &gt;= <span class="hljs-number">0</span>);
  53. <span class="hljs-comment">/* get kvm_run */</span>
  54. mmap_size = ioctl(kvm_fd, KVM_GET_VCPU_MMAP_SIZE, <span class="hljs-literal">NULL</span>);
  55. assert(mmap_size &gt;= <span class="hljs-number">0</span>);
  56. kvm_run = (struct kvm_run *)mmap(<span class="hljs-literal">NULL</span>, mmap_size, PROT_READ | PROT_WRITE, MAP_SHARED, vcpu_fd, <span class="hljs-number">0</span>);
  57. assert(kvm_run &gt;= <span class="hljs-number">0</span>);
  58. <span class="hljs-comment">/* set cpu registers */</span>
  59. ret = ioctl(vcpu_fd, KVM_GET_SREGS, &amp;sregs);
  60. assert(ret &gt;= <span class="hljs-number">0</span>);
  61. sregs.cs.base = <span class="hljs-number">0</span>;
  62. sregs.cs.selector = <span class="hljs-number">0</span>;
  63. ret = ioctl(vcpu_fd, KVM_SET_SREGS, &amp;sregs);
  64. <span class="hljs-built_in">memset</span>(&amp;regs, <span class="hljs-number">0</span>, <span class="hljs-keyword">sizeof</span>(struct kvm_regs));
  65. regs.rip = <span class="hljs-number">0</span>;
  66. ret = ioctl(vcpu_fd, KVM_SET_REGS, &amp;regs);
  67. assert(ret &gt;= <span class="hljs-number">0</span>);
  68. <span class="hljs-comment">/* vcpu run */</span>
  69. <span class="hljs-keyword">while</span> (<span class="hljs-number">1</span>) {
  70.     ret = ioctl(vcpu_fd, KVM_RUN, <span class="hljs-literal">NULL</span>);
  71.     assert(ret &gt;= <span class="hljs-number">0</span>);
  72.     <span class="hljs-keyword">switch</span>(kvm_run-&gt;exit_reason) {
  73.         <span class="hljs-keyword">case</span> KVM_EXIT_HLT:
  74.             <span class="hljs-built_in">printf</span>(<span class="hljs-string">"----KVM EXIT HLT----\n"</span>);
  75.             close(kvm_fd);
  76.             close(tiny_kernel_fd);
  77.             <span class="hljs-keyword">return</span> <span class="hljs-number">0</span>;
  78.         <span class="hljs-keyword">case</span> KVM_EXIT_IO:
  79.             <span class="hljs-built_in">putchar</span>(*(((<span class="hljs-keyword">char</span> *)kvm_run) + kvm_run-&gt;io.data_offset));
  80.             <span class="hljs-keyword">break</span>;
  81.         <span class="hljs-keyword">default</span>:
  82.             <span class="hljs-built_in">printf</span>(<span class="hljs-string">"Unknow exit reason: %d\n"</span>, kvm_run-&gt;exit_reason);
  83.             <span class="hljs-keyword">break</span>;
  84.     }
  85. }
  86. <span class="hljs-keyword">return</span> <span class="hljs-number">0</span>;
  87. }

  88.  

为了表明我没有骗人,上一张在Ubuntu16.04的虚拟机上运行的结果图吧:

草草收工吧。

4. 参考

ARMv8-A Architecture Overview

ARMv8 Techinology Preview

Arm Architecture Reference Manual, Armv8, for Armv8-A architecture profile

 Virtual lockstep for fault tolerance and architectural vulnerability analysis

欢迎关注个人公众号,不定期分享技术文章:

【转载】Linux虚拟化KVM-Qemu分析(四)之CPU虚拟化(2)的更多相关文章

  1. [原] KVM 虚拟化原理探究(3)— CPU 虚拟化

    KVM 虚拟化原理探究(3)- CPU 虚拟化 标签(空格分隔): KVM [TOC] CPU 虚拟化简介 上一篇文章笼统的介绍了一个虚拟机的诞生过程,从demo中也可以看到,运行一个虚拟机再也不需要 ...

  2. [转载]Linux 线程实现机制分析

    本文转自http://www.ibm.com/developerworks/cn/linux/kernel/l-thread/ 支持原创.尊重原创,分享知识! 自从多线程编程的概念出现在 Linux ...

  3. Linux系统性能测试工具(四)——CPU性能测试工具之super_pi、sysbench

    本文介绍关于Linux系统(适用于centos/ubuntu等)的CPU性能测试工具-sysbench.CPU性能测试工具包括: super_pi: sysbench——不仅可以测试CPU性能,而且可 ...

  4. linux 内核源代码情景分析——Intel X86 CPU 系列的寻址方式

    当我们说一个CPU是"16位"或"32"位时,指的是处理器中"算数逻辑单元"(ALU)的宽度.数据总线通常与ALU具有相同的宽度.当Inte ...

  5. 虚拟化技术实现 — KVM 的 CPU 虚拟化

    目录 文章目录 目录 前文列表 x86 体系结构的虚拟化 硬件辅助的 CPU 虚拟化 由 VMX 切换支撑的 CPU 虚拟化技术 KVM 的 CPU 虚拟化实现 vCPU 的调度方式 客户机 CPU ...

  6. KVM/QEMU/qemu-kvm/libvirt 概念全解

    目录 目录 前言 KVM QEMU KVM 与 QEMU qemu-kvm Libvirt Libvirt 在 OpenStack 中的应用 前言 如果是刚开始接触虚拟机技术的话, 对上述的概念肯定会 ...

  7. 第六讲:CPU虚拟化

    虚拟化技术的分类主要有服务器虚拟化.存储虚拟化.网络虚拟化.应用虚拟化. 服务器虚拟化技术按照虚拟对象来分,可分为:CPU虚拟化.内存虚拟化.I/O虚拟化: 按照虚拟化程度可分为:全虚拟化.半虚拟化. ...

  8. 【原创】Linux虚拟化KVM-Qemu分析(四)之CPU虚拟化(2)

    背景 Read the fucking source code! --By 鲁迅 A picture is worth a thousand words. --By 高尔基 说明: KVM版本:5.9 ...

  9. KVM+QEMU虚拟化概念

    概念: KVM,即Kernel-basedvirtual machine,由redhat开发,是一种开源.免费的虚拟化技术.对企业来说,是一种可选的虚拟化解决方案. 定义:基于Linux内核的虚拟机 ...

  10. Linux实战教学笔记53:开源虚拟化KVM(一)搭建部署与概述

    一,KVM概述 1.1 虚拟化概述 在计算机技术中,虚拟化意味着创建设备或资源的虚拟版本,如服务器,存储设备,网络或者操作系统等等 [x] 虚拟化技术分类: 系统虚拟化(我们主要讨论的反向) 存储虚拟 ...

随机推荐

  1. 使用Dockerfile构建容器镜像

    Dockerfile官方文档: https://docs.docker.com/engine/reference/builder/ 获取容器镜像的方法 容器镜像是容器模板,通过容器镜像才能快速创建容器 ...

  2. vue3.0

    https://www.yuque.com/gdnnth/vue-v3 http://www.liulongbin.top:8085/#/ https://www.yuque.com/woniuppp ...

  3. Selenium 打包为.exe执行

    前言:不依赖环境执行,拓展UI自动化使用的场景 一.项目结构介绍 case:测试用例次存放目录 config:主要存放yaml文件配置 ele:元素的定位以及执行动作 tools:HTMLTestRu ...

  4. SpringBoot 自动扫描第三方包及spring.factories失效的问题

    为什么会找不到 Spring 依赖注入 就是要让spring找到要注入的类 并且识别到了 @Component.@Service 等注解. 1. 当在开发的第三方包里写明了 @Component.@S ...

  5. 用R语言进行时间序列ARMA模型分析

    应用时间序列 时间序列分析是一种重要的数据分析方法,应用广泛.以下列举了几个时间序列分析的应用场景: 1.经济预测:时间序列分析可以用来分析经济数据,预测未来经济趋势和走向.例如,利用历史股市数据和经 ...

  6. Nginx常用基础模块

    Nginx常用基础模块 目录 Nginx常用基础模块 目录索引模块 配置方式 nginx的状态模块 配置方式 nginx访问控制模块 配置方式 nginx的访问限制模块 请求限制重定向 Nginx连接 ...

  7. React笔记-组件通信(六)

    React笔记-组件通信(六) props概念 props是组件之间通讯的纽带 props也是组件中内置的一个属性 通过父级组件传入 在类组件里 可以直接通过this.props获取 注意: prop ...

  8. 2021-03-22:小虎去买苹果,商店只提供两种类型的塑料袋,每种类型都有任意数量。1.能装下6个苹果的袋子,2.能装下8个苹果的袋子。小虎可以自由使用两种袋子来装苹果,但是小虎有强迫症,他要求自己使用的袋子数量必须最少,且使用的每个袋子必须装满。给定一个正整数N,返回至少使用多少袋子。如果N无法让使用的每个袋子必须装满,返回-1。

    2021-03-22:小虎去买苹果,商店只提供两种类型的塑料袋,每种类型都有任意数量.1.能装下6个苹果的袋子,2.能装下8个苹果的袋子.小虎可以自由使用两种袋子来装苹果,但是小虎有强迫症,他要求自己 ...

  9. 2021-08-07:与数组中元素的最大异或值。给你一个由非负整数组成的数组 nums 。另有一个查询数组 queries ,其中 queries[i] = [xi, mi] 。第 i 个查询的答案是

    2021-08-07:与数组中元素的最大异或值.给你一个由非负整数组成的数组 nums .另有一个查询数组 queries ,其中 queries[i] = [xi, mi] .第 i 个查询的答案是 ...

  10. 2021-09-11:给你一个32位的有符号整数x,返回将x中的数字部分反转后的结果。反转后整数超过 32 位的有符号整数的范围就返回0,假设环境不允许存储 64 位整数(有符号或无符号)。

    2021-09-11:给你一个32位的有符号整数x,返回将x中的数字部分反转后的结果.反转后整数超过 32 位的有符号整数的范围就返回0,假设环境不允许存储 64 位整数(有符号或无符号). 福大大 ...