为什么需要per-CPU变量

假设系统中有4个cpu, 同时有一个变量在各个CPU之间是共享的,每个cpu都有访问该变量的权限。

当cpu1在改变变量v的值的时候,cpu2也需要改变变量v的值。这时候就会导致变量v的值不正确。这时候机智的你就会说,在cpu1访问变量v的时候可以使用原子操作加锁,cpu2访问变量v的时候需要等待。可是机智的是否考虑过加锁对性能的影响,原子操作对cpu是极耗cpu的。

再考虑一种情况,现在高速的cpu都带有高速缓冲cache。它介于cpu和主存之间,主要作用是加快cpu的访问速度。因为主存的访问速度相比cpu读写比较慢,在之间引入cache之后,当CPU调用大量数据时,就可避开内存直接从缓存中调用,从而加快读取速度。

比如cpu1对变量v操作子后,变量v的值就发生了变化。而cpu2, cpu3, cpu4的cache中的值还是以前的值,所以这时候就需要将cpu2, cpu3, cpu4的cache中的值变为无效的,当cpu2读取变量v的时候就需要从内存中读取v。所以当某一个cpu对共享数据v做操作后,比较对其余的cache做无效操作,这也是对性能有所损耗的。

所以,就引入了per-cpu变量。

什么是per-CPU变量

per-CPU变量是linux系统一个非常有趣的特性,它为系统中的每个处理器都分配了该变量的副本。这样做的好处是,在多处理器系统中,当处理器操作属于它的变量副本时,不需要考虑与其他处理器的竞争的问题,同时该副本还可以充分利用处理器本地的硬件缓冲cache来提供访问速度。

per-CPU按照存储变量的空间来源分为静态per-CPU变量和动态per-CPU变量,前者的存储空间是在代码编译时静态分配的,而后者的存储空间则是在代码的执行期间动态分配的。

静态per-CPU变量声明和定义

声明DECLARE_PER_CPU宏:

  1. <include/linux/percpu-defs.h>
  2. ----------------------------------------------------------------
  3. #define DECLARE_PER_CPU(type, name) \
  4. DECLARE_PER_CPU_SECTION(type, name, "")
  5. #define DECLARE_PER_CPU_SECTION(type, name, sec) \
  6. extern __PCPU_ATTRS(sec) __typeof__(type) name
  7. #define __PCPU_ATTRS(sec) \
  8. __percpu __attribute__((section(PER_CPU_BASE_SECTION sec))) \
  9. PER_CPU_ATTRIBUTES
  1. <include/asm-generic/percpu.h>
  2. -----------------------------------------------------
  3. #ifndef PER_CPU_BASE_SECTION
  4. #ifdef CONFIG_SMP
  5. #define PER_CPU_BASE_SECTION ".data..percpu"
  6. #else
  7. #define PER_CPU_BASE_SECTION ".data"
  8. #endif
  9. #endif

对上的宏定义DECLARE_PER_CPU使用例子: DECLARE_PER_CPU(int, val)来详细说明。

  1. DECLARE_PER_CPUT(int, val)
  2. -> DECLARE_PER_CPU_SECTION(int, val, "")
  3. -> extern __PCPU_ATTRS("") __typeof__(int) val
  4. -> extern __percpu __attribute__((section(".data..percpu"))) int val

从上面的分析可以看出,该宏在源代码中声明了__percpu int val变量,该变量放在一个名为”.data..percpu”的section中。

定义DEFINE_PER_CPU宏:

  1. <include/linux/percpu-defs.h>
  2. ----------------------------------------------------------------
  3. #define DEFINE_PER_CPU(type, name) \
  4. DEFINE_PER_CPU_SECTION(type, name, "")
  5. #define DEFINE_PER_CPU_SECTION(type, name, sec) \
  6. __PCPU_ATTRS(sec) PER_CPU_DEF_ATTRIBUTES \
  7. __typeof__(type) name
  8. #ifndef PER_CPU_DEF_ATTRIBUTES
  9. #define PER_CPU_DEF_ATTRIBUTES
  10. #endif
声明和定义 解释
DECALRE_PER_CPU(type, name)/DEFINE_PER_CPU(type, name) 普通的per-CPU声明和定义
DECLARE_PER_CPU_FIRST(type, name)/DEFINE_PER_CPU_FIRST(type, name) 该per-CPU变量会在整个serction的最前面,所谓的first
DECLARE_PER_CPU_SHARED_ALIGNED(type, name)/DEFINE_PER_CPU_SHARED_ALIGNED(type, name) 该per-CPU在SMP系统下会对齐到cache line,在UP系统下不需要对齐
DECLARE_PER_CPU_ALIGNED(type, name)/DEFINE_PER_CPU_ALIGNED(type, name) 在SMP和UP系统都对齐到cache line
DECLARE_PER_CPU_PAGE_ALIGNED(type, name)/DEFINE_PER_CPU_PAGE_ALIGNED(type, name) 该per-CPU变量必须页对齐
DECLARE_PER_CPU_READ_MOSTLY(type, name)/DEFINE_PER_CPU_READ_MOSTLY(type, name) 该per-CPU变量必须是read mostly

静态per-CPU变量的链接脚本

在上一节per-CPU变量的声明和定义中,可以看到最后的变量都是存在一个”.data..percpu”段中。

  1. . = ALIGN((1 << 12));
  2. .data..percpu : AT(ADDR(.data..percpu) - 0)
  3. {
  4. __per_cpu_load = .;
  5. __per_cpu_start = .;
  6. *(.data..percpu..first) . = ALIGN((1 << 12));
  7. *(.data..percpu..page_aligned) . = ALIGN(64);
  8. *(.data..percpu..read_mostly) . = ALIGN(64);
  9. *(.data..percpu)
  10. *(.data..percpu..shared_aligned)
  11. __per_cpu_end = .;
  12. }

可见,内核在编译链接的时候会把所有静态定义的per-CPU变量统一放到”.data..percpu”section中。链接器生成__per_cpu_start和__per_cpu_end两个变量表示该section的起始和结束地址。

动态分配per-CPU变量

  • 分配函数
  1. #define alloc_percpu(type) \
  2. (typeof(type) __percpu *)__alloc_percpu(sizeof(type), \
  3. __alignof__(type))

根据类型type,分配per-CPU变量

  • 释放函数
  1. void free_percpu(void __percpu *ptr)

释放ptr所指向的per-CPU变量。

使用静态per-CPU变量

因为per-CPU不能像一般的变量那样访问,必须使用内核提供的函数:

  1. #define get_cpu_var(var) \
  2. (*({ \
  3. preempt_disable(); \
  4. this_cpu_ptr(&var); \
  5. }))
  6. #define put_cpu_var(var) \
  7. do { \
  8. (void)&(var); \
  9. preempt_enable(); \
  10. } while (0)

机智的你可能会问,为什么还需要关闭抢占,因为对于per-CPU来说已经是单处理器了。但是机智的你没有想到的是,在cpu访问per-CPU的时候,突然系统发生了一次紧急抢占,这时候cpu还在处理per-CPU变量,一旦被抢占了cpu资源,可能当前进程会换出处理器。所以关闭抢走还是必要的。

如果需要访问其他处理器的副本,可以使用函数per_cpu(var, cpu)

  1. #define per_cpu(var, cpu) (*per_cpu_ptr(&(var), cpu))

使用动态per-CPU变量

  1. #define get_cpu_ptr(var) \
  2. ({ \
  3. preempt_disable(); \
  4. this_cpu_ptr(var); \
  5. })
  6. #define put_cpu_ptr(var) \
  7. do { \
  8. (void)(var); \
  9. preempt_enable(); \
  10. } while (0)
  11. #define per_cpu_ptr(ptr, cpu) ({ (void)(cpu); VERIFY_PERCPU_PTR(ptr); })

以上get_cpu_ptr和put_cpu_ptr是在有抢占的情况下,需要关闭抢占使用。

而per_cpu_ptr(ptr, cpu)是根据per cpu变量的地址和cpu number,返回指定CPU number上该per cpu变量的地址。

per-CPU变量的更多相关文章

  1. linux内核中的每cpu变量

    一.linux中的每cpu变量 看linux内核代码的时候,会发现大量的per_cpu(name, cpu),get_cpu_var(name)等出现cpu字眼的语句.从语句的意思可以看出是要使用与当 ...

  2. 每CPU变量

    最好的同步技术是把设计不需要同步的临界资源放在首位,这是一种思维方法,因为每一种显式的同步原语都有不容忽视的性能开销.最简单也是最重要的同步技术包括把内核变量或数据结构声明为每CPU变量(per-cp ...

  3. linux内核同步之每CPU变量、原子操作、内存屏障、自旋锁【转】

    转自:http://blog.csdn.net/goodluckwhh/article/details/9005585 版权声明:本文为博主原创文章,未经博主允许不得转载.   目录(?)[-] 一每 ...

  4. linux:cpu 每-CPU 的变量

    每-CPU 的变量 每-CPU 变量是一个有趣的 2.6 内核的特性. 当你创建一个每-CPU变量, 系统中每个处理器获得它自己的这个变量拷贝. 这个可能象一个想做的奇怪的事情, 但是它有自己的优点. ...

  5. linux 每-CPU 的变量

    每-CPU 变量是一个有趣的 2.6 内核的特性. 当你创建一个每-CPU 变量, 系统中每个处理 器获得它自己的这个变量拷贝. 这个可能象一个想做的奇怪的事情, 但是它有自己的优点. 存取每-CPU ...

  6. Intel 80x86 Linux Kernel Interrupt(中断)、Interrupt Priority、Interrupt nesting、Prohibit Things Whthin CPU In The Interrupt Off State

    目录 . 引言 . Linux 中断的概念 . 中断处理流程 . Linux 中断相关的源代码分析 . Linux 硬件中断 . Linux 软中断 . 中断优先级 . CPU在关中断状态下编程要注意 ...

  7. Linux内核同步机制之(二):Per-CPU变量

    转自:http://www.wowotech.net/linux_kenrel/per-cpu.html 一.源由:为何引入Per-CPU变量? 1.lock bus带来的性能问题 在ARM平台上,A ...

  8. xv6中存储cpu和进程信息的技巧

    xv6是一个支持多处理器的Unix-like操作系统, 近日阅读源码时发现xv6在记录当前CPU和进程状态时非常tricky 首先,上代码: extern struct cpu cpus[NCPU]; ...

  9. 激活第一个CPU

    回到start_kernel,559行,boot_cpu_init函数,跟start_kernel位于同一文件: 494static void __init boot_cpu_init(void) 4 ...

随机推荐

  1. Docker系列教程02-MongoDB默认开启鉴权

    说明,我这里使用的是compose的版本的1.17.0格式是3,但是这和compose版本无关,你只需要添加MONGO_INITDB_ROOT_USERNAME和MONGO_INITDB_ROOT_P ...

  2. Java IO流读取文件

    使用指定编码读取文件 public static String toString(File file, String charset){ StringBuilder result = new Stri ...

  3. qcharts编译

    编译环境vs2013+qt5.5.1+perl5 qchart源码在git上自己下载,或者在此下载,参考文档:Qt Charts 5.7.0 安装教程,这篇文章是使用mingw的方式编译qcharts ...

  4. 『Pushing Boxes 双重bfs』

    Pushing Boxes Description Imagine you are standing inside a two-dimensional maze composed of square ...

  5. 仓储模式Repository的选择与设计

    首次接触仓储的概念来自Eric Evans 的经典著作<领域驱动设计-软件核心复杂性应对之道>,但书中没有具体实现.如何实现仓储模式,在我这几年的使用过程中也积累了一些具体的实施经验.根据 ...

  6. kernel pwn 入门环境搭建

    刚开始上手kernel pwn,光环境就搭了好几天,应该是我太菜了.. 好下面进入正题,环境总共就由两部分构成,qemu和gdb.这两个最好都需要使用源码安装. 我使用的安装环境为 qemu:安装前要 ...

  7. 一起来看 rxjs

    更新日志 2018-05-26 校正 2016-12-03 第一版翻译 过去你错过的 Reactive Programming 的简介 你好奇于这名为Reactive Programming(反应式编 ...

  8. ssh转发代理:ssh-agent用法详解

    SSH系列文章: SSH基础:SSH和SSH服务 SSH转发代理:ssh-agent用法详解 SSH隧道:端口转发功能详解 使用ssh-agent之前 使用ssh公钥认证的方式可以免去ssh客户端(如 ...

  9. 【.NET Core项目实战-统一认证平台】第十四章 授权篇-自定义授权方式

    [.NET Core项目实战-统一认证平台]开篇及目录索引 上篇文章我介绍了如何强制令牌过期的实现,相信大家对IdentityServer4的验证流程有了更深的了解,本篇我将介绍如何使用自定义的授权方 ...

  10. C# 1-2+3-4+5...+m的几种方法

    class Program { //第一种(1-2)+(3-4)+(5-6)...+m public static void Test(int m) { ; == ) { z = -(m / ); } ...