在centos7的/sys/fs/cgroup下面可以看到与cpu相关的有cpu,cpuacct和cpuset 3个subsystem。cpu用于对cpu使用率的划分;cpuset用于设置cpu的亲和性等,主要用于numa架构的os;cpuacct记录了cpu的部分信息。对cpu资源的设置可以从2个维度考察:cpu使用百分比和cpu核数目。前者使用cpu subsystem进行配置,后者使用cpuset subsystem进程配置。首先看cpu subsystem的用法

cpu subsystem

cgroup使用如下2种方式来对cpu进行调度

  • 完全公平调度程序(CFS):按照比例进行cpu分配调度,具体实现可以参考CFS
  • 实时调度程序(RT):与CFS类似,用于限制实时任务对cpu的获取,一般用不到。(注:Linux的进程分普通进程和实时进程,实时进程比普通进程的优先级高,由于其在进程死亡之前始终是活动进程,故占用cpu资源大)

cpu subsystem主要涉及5接口:cpu.cfs_period_us,cpu.cfs_quota_us,cpu.shares,cpu.rt_period_us,cpu.rt_runtime_us

cfs_quota_us为-1,表示使用的CPU不受cgroup限制。cfs_quota_us的最小值为1ms(1000),最大值为1s,参见CFS Bandwidth Control

cpu.cfs_period_us用于设置cpu带宽(bandwidth),单位为微秒us。cpu.cfs_quota_us设置cpu.cfs_period_us周期内cgroup可使用的cpu。多核场景下,如配置cpu.cfs_period_us=10000,而cfs_quota_us=20000,表示该cgroup可以完全使用2个cpu。较大的cfs_period_us可以提高吞吐量(可以为CPU密集型任务提供更多运行时间)。cfs_period_us表示一个CPU的宽度,系统上可用的总的CPU宽度为:(cpus on the host) * (cpu.cfs_period_us)。当出现如下条件时,cpu.stat中的nr_throttled统计会+1。

  1. 周期(period)内使用的CPU达到quota的CPU
  2. 父cgroup中使用的CPU达到其quota的CPU

首先在/sys/fs/cgroup/cpu下面新建一个cgroup,将cpu周期设置为100000,cgroup在单个周期中占用时长为50000,即单个cpu的50%

# cat cpu.cfs_period_us

# echo  > cpu.cfs_quota_us
# bash
# cat tasks
# echo $$ # echo $$ > cgroup.procs
# while true; do a=a+1;done
PID   USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM   TIME+   COMMAND
root R 50.3 0.4 :19.75 bash

下例中将cpu周期设置为100000,cgroup在单个周期中占用时长为300000,即该cgroup可以完全占用3个cpu(当前环境4 cpu)。

启动一个bash执行while true; do a=a+1;done并将该进程加入到cgroup.procs,使用top命令可以看到1个cpu使用率已经达到100%

top - :: up :,   users,  load average: 3.21, 2.03, 0.95
Tasks: total, running, sleeping, stopped, zombie
%Cpu0 : 0.3 us, 0.0 sy, 0.0 ni, 99.7 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu1 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu2 :100.0 us, 0.0 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu3 : 0.0 us, 0.3 sy, 0.0 ni, 99.7 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : total, free, used, buff/cache
KiB Swap: total, free, used. avail Mem PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
root R 99.7 0.4 :41.19 bash

(新shell中)再启动一个bash执行while true; do a=a+1;done,将该进程加入到cgroup.procs,使用top命令可以看到2个cpu使用率已经达到100%

top - :: up :,   users,  load average: 1.42, 1.65, 0.98
Tasks: total, running, sleeping, stopped, zombie
%Cpu0 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu1 :100.0 us, 0.0 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu2 :100.0 us, 0.0 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu3 : 0.3 us, 0.0 sy, 0.0 ni, 99.7 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : total, free, used, buff/cache
KiB Swap: total, free, used. avail Mem PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
root R 100.0 0.4 :26.67 bash
root R 100.0 0.4 :22.60 bash

(新shell中)再启动一个bash执行while true; do a=a+1;done,将该进程加入到cgroup.procs,使用top命令可以看到3个cpu使用率已经达到100%

top - :: up :,   users,  load average: 2.28, 1.88, 1.18
Tasks: total, running, sleeping, stopped, zombie
%Cpu0 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu1 :100.0 us, 0.0 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu2 :100.0 us, 0.0 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu3 :100.0 us, 0.0 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : total, free, used, buff/cache
KiB Swap: total, free, used. avail Mem PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
root R 100.0 0.4 :29.10 bash
root R 99.7 0.4 :33.12 bash
root R 99.7 0.3 :30.04 bash

(新shell中)再启动一个bash执行while true; do a=a+1;done,将该进程加入到cgroup.procs,此时有4个进程同时消耗cpu,但总体消耗限制在3个cpu,如下图中,每个bash消耗的cpu约75%

top - :: up :,   users,  load average: 2.95, 2.12, 1.30
Tasks: total, running, sleeping, stopped, zombie
%Cpu0 : 74.8 us, 0.0 sy, 0.0 ni, 25.2 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu1 : 74.8 us, 0.0 sy, 0.0 ni, 25.2 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu2 : 74.2 us, 0.0 sy, 0.0 ni, 25.8 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu3 : 75.7 us, 0.0 sy, 0.0 ni, 24.3 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : total, free, used, buff/cache
KiB Swap: total, free, used. avail Mem PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
root R 75.7 0.3 :16.76 bash
root R 74.8 0.4 :15.67 bash
root R 74.1 0.4 :19.74 bash
root R 74.1 0.3 :41.05 bash

cpu.cfs_quota_us和cpu.cfs_period_us以绝对比例限制cgroup的cpu,而cpu.shares以相对比例限制cgroup的cpu。

在/sys/fs/cgroup/cpu/下创建2个cgroup:test1和test2,设置test1的cpu.shares=50,test2的cpu.shares=200,则意味着test1在cpu竞争下最多可以使用所有cpu的20%,而test2在cpu竞争下最多可以使用所有cpu的80%(不考虑系统基本进程占用)。为方便验证,将系统的cpu设置为1个。创建2个bash进程分别加入2个cgroup后执行while true; do a=a+1;done

 PID USER      PR  NI    VIRT    RES    SHR S %CPU %MEM     TIME+ COMMAND
root R 80.0 0.4 :16.77 bash
root R 20.0 0.4 :09.73 bash

使用cpu.shares需要注意的是,对cpu的相对比例是在cpu竞争的条件下,如果一个cgroup使用的相对比例是50%,但实际仅使用了10%,那么多余的cpu会被回收,给其他cgroup使用,参见CPU

当一个 cgroup 中的任务处于闲置状态且不使用任何 CPU 时间时,剩余的时间会被收集到未使用的 CPU 循环全局池中。其它 cgroup 可以从这个池中借用 CPU 循环

下例中test1 cgroup设定50,test2 cgroup设定200,但test1中运行的进程非常消耗cpu,而test2中运行的进程仅使用很小一部分cpu,且sleep操作会导致其进程进入sleep状态

Test1 cgroup
# echo $$ [root@ test1]# cat cpu.shares [root@ test1]# while true; do a=a+;done Test2 cgroup
# echo $$ [root@ test2]# cat cpu.shares [root@ test2]# while true; do sleep ;done

查看cpu占用,可以看到test1中的进程占用了99.3%的cpu,而其相对比例为20%

PID USER      PR  NI    VIRT    RES    SHR S %CPU %MEM     TIME+ COMMAND
root R 99.3 0.4 :32.48 bash

cpuset subsystem

cpuset主要是为了NUMA(非均匀访问存储模型)使用的,NUMA技术将CPU划分成不同的组(Node),每个Node由多个CPU组成,并且有独立的本地内存、I/O等资源(硬件上保证)。可以使用numactl查看当前系统的node清空,如下面表示系统只有一个node,含cpu 0-3,内存大小约1G

# numactl -H
available: nodes ()
node cpus:
node size: MB
node free: MB
node distances:
node
:

可以使用dmesg | grep -i numa命令查看当前系统是否开启了numa下·

numa的基本架构如下,当cpu访问直接attach的内存时(local access)时会有较大效率,而访问其他cpu attach的内存(remote access)会导致效率下降。

Numa内存分配策略有一下四种,一般采用默认方式

  • 缺省default:总是在本地节点分配(当前进程运行的节点上)。
  • 绑定bind:强制分配到指定节点上。
  • 交叉interleavel:在所有节点或者指定节点上交叉分配内存。
  • 优先preferred:在指定节点上分配,失败则在其他节点上分配。

numa场景下可能会出现一个性能问题,NUMA架构的CPUThe MySQL “swap insanity” problem and the effects of the NUMA architectureA brief update on NUMA and MySQL。发生性能的主要原因是因为more策略下可能会发生swap,即总是在本地节点分配内存,当本地内存不足时会发生swap,可以尝试使用如下方式进行

  • 设置numa interleave=all,意味着整个进程的内存是均匀分布在所有的node之上,进程可以以最快的方式访问本地内存
  • 使用mlock方式申请内存,这样这段内存不会使用swap
  • 使用mmap的MAP_POPULATE,预先分配匿名页,后续访问此内存时不会发生缺页
  • 调节系统的vm.swappiness,对于数据库应用服务器,设置为0,可以提高物理内存的使用率,进而提高数据库服务的响应性能

默认方式下,进程总是使用本地节点进程内存分配,可以使用numastat查看内存分配情况

# numastat
node0
numa_hit
numa_miss
numa_foreign
interleave_hit
local_node
other_node

cpuset调用sched_setaffinity来设置进程的cpu亲和性,调用mbind和set_mempolicy来设置内存的亲和性。可以通过查看/proc/$pid/status查看当前进程cpu和mem的亲和性。cpuset使用中应该遵循以下3点

  1. 子cpuset的cpu和memory node必须是父cgoup的子集
  2. 除非父cgroup标记了exclusive,否则子cgoup无法标记该flag
  3. 如果cgroup的cpu或memory标记了exclusive,那么该cgroup的cpu不能与兄弟cgroup有重合,且父子之间必须重合(参见第一条)

如下例中,在/sys/fs/cgroup/cpuset中创建2个cgroup,按照如下步骤,可以看出,当test1和test2有重合时,设置cpuset失败

# rmdir test1
[root@ cpuset]# mkdir test1
[root@ cpuset]# mkdir test2
[root@ cpuset]# echo > test1/cpuset.cpu_exclusive
[root@ cpuset]# echo > test2/cpuset.cpu_exclusive
[root@ cpuset]# echo , > test1/cpuset.cpus
[root@ cpuset]# echo , > test2/cpuset.cpus
-bash: echo: write error: Invalid argument
[root@ cpuset]# echo > test2/cpuset.cpus

cpuset.cpu_exclusive:包含标签(0 或者 1),它可以指定:其它 cpuset 及其父、子 cpuset 是否可共享该 cpuset 的特定 CPU。默认情况下(0),CPU 不会专门分配给某个 cpuset 。

上面介绍了设置该标志后兄弟cpuset之间的cpuset.cpus不能有重合,但父子cpuset之间是必须重合的。cpu_exclusive标记并不能实现完全的cpu隔离(不隶属于cgroup管辖的进程默认拥有所有的cpu权限),如下例中启动了6个消耗cpu的bash进程,仅对其中一个bash进程进行了cpuset的exclusive,可以看到exclusive并不能保证cpu的隔离,只用于保证不于其他兄弟cpuset定义的cpus重叠。核隔离可以使用内核启动参数isolcpus,隔离的cpu不会对其进行负载均衡操作。

Tasks:  total,    running,  sleeping,    stopped,    zombie
%Cpu0 :100.0 us, 0.0 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu1 :100.0 us, 0.0 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu2 :100.0 us, 0.0 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu3 : 99.7 us, 0.3 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : total, free, used, buff/cache
KiB Swap: total, free, used. avail Mem PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
root R 86.0 0.3 :27.86 bash
root R 66.4 0.3 :57.41 bash
root R 66.4 0.3 :11.07 bash
root R 66.1 0.4 :23.12 bash
root R 62.5 0.3 :38.89 bash
root R 52.2 0.4 :57.57 bash

cpuset.memory_spread_page用于设定文件系统缓冲是否应在该 cpuset 的内存节点中均匀分布,cpuset.memory_spread_slab用于设定slab缓冲(如inode和dentries)是否应在该 cpuset 的内存节点中均匀分布,默认否。该策略在将(大的)数据文件分布到多个node时可以提升性能(平均分布)。

cpuset.sched_load_balance和cpuset.sched_relax_domain_level与cpu负载均衡有关。linux使用sched domains(调度域)为单位进行负载均衡。当sched_load_balance设置为enable时,会在该cpuset中的cpu上进行负载均衡,否则不会在该cpuset中的cpu上进行负载均衡(不同cpuset中重叠的cpu上可能也会有负载均衡)。当root cpuset的sched_load_balance为enable时,会在所有的cpu上进行负载均衡,此时会忽略所有子cpuset中对该值的设置,因此只有在root cpuset disable之后,子cpuset才能生效。cpu负载均衡会影响系统性能,在以下两种情况下可以不需要该功能:

  • 大型系统中存在很多cpu,如果对单独进程分配了独立的cpu,此时无需使用cpu负载均衡
  • 实时系统上需要减少cpu的损耗,此时可以不适用负载均衡

cpuset.sched_relax_domain_level表示 kernel 应尝试平衡负载的 CPU 宽度范围,仅当cpuset.sched_load_balance enable时生效。一般无需改动。

cpuset.memory_migrate包含一个标签(0 或者 1),用来指定当 cpuset.mems 的值更改时,是否应该将内存中的页迁移到新节点。

总结:

使用cpu subsystem可以在cpu时间上限制进程,而使用cpuset可以在cpu/mem number上限制进程。但如果cpu和cpuset不匹配时应该如何处理?如下例中,在cpuset中限制该cgroup中的进程只能运行在2号核上,但在cpu中该cgroup的进程最多可以使用2个核

# mkdir cpuset/cpusettest
# mkdir cpu/cputest # cd cpuset/cpusettest
# echo > cpuset.mems
# echo > cpuset.cpus # cd cpu/cputest
# echo > cpu.cfs_period_us
# echo > cpu.cfs_quota_us

启动3个bash执行while true; do a=a+1;done,并将其pid加入到cpu和cpuset的cgroup.procs中,观察top命令可以看到3个bash进程仅占用了2号核,每个cpu占用率都约等于33%。由此可知,cpu中规定了进程可以使用的cpu的上限,但并不一定能达到上限

%Cpu0  :  0.0 us,  0.0 sy,  0.0 ni,100.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu1 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu2 :100.0 us, 0.0 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu3 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : total, free, used, buff/cache
KiB Swap: total, free, used. avail Mem PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
root R 33.9 0.4 :19.03 bash
root R 33.2 0.3 :58.17 bash
root R 33.2 0.3 :05.08 bash

TIPS:

  • 在设置cpuset时必须首先设置cpuset.cpus和cpuset.mems,否则可能出现"No space left on device"的错误
  • 可以使用docker inspect DOCKERID来查看该容器挂载的cgroup路径

参考:

sec-cpu

限制cgroup的CPU使用(subsystem之cpu)

numa

cpusets

CFS Bandwidth Control

docker cgroup技术之cpu和cpuset的更多相关文章

  1. docker cgroup 技术之memory(首篇)

    测试环境centos7 ,内核版本4.20 内核使用cgroup对进程进行分组,并限制进程资源和对进程进行跟踪.内核通过名为cgroupfs类型的虚拟文件系统来提供cgroup功能接口.cgroup有 ...

  2. docker容器技术基础之linux cgroup、namespace

    一.开头 接触过docker的同学多多少少听过这样一句话"docker容器通过linux namespace.cgroup特性实现资源的隔离与限制".今天我们来尝试学习一下这两个东 ...

  3. Docker基础技术:Linux CGroup

    前面,我们介绍了Linux Namespace,但是Namespace解决的问题主要是环境隔离的问题,这只是虚拟化中最最基础的一步,我们还需要解决对计算机资源使用上的隔离.也就是说,虽然你通过Name ...

  4. docker底层技术概览

    docker解决了云计算环境难于分发并且管理复杂,而用KVM.Xen等虚拟化又浪费系统资源的问题.Docker最初是基于lxc构建了容器引擎,为了提供跨平台支持,后又专门开发了libcontainer ...

  5. docker高级应用之cpu与内存资源限制(转)

    时间:2015-06-09 14:01:52      阅读:1581      评论:0      收藏:0      [点我收藏+] 标签:docker资源限制   docker cpu限制    ...

  6. Docker容器技术的核心原理

    目录 1 前言 2 docker容器技术 2.1 隔离:Namespace 2.2 限制:Cgroup 2.3 rootfs 2.4 镜像分层 3 docker容器与虚拟机的对比 1 前言 上图是百度 ...

  7. docker容器技术基础入门

    目录 docker容器技术基础入门 容器(Container) 传统虚拟化与容器的区别 Linux容器技术 Linux Namespaces CGroups LXC docker基本概念 docker ...

  8. Docker 基础技术之 Linux cgroups 详解

    PS:欢迎大家关注我的公众号:aCloudDeveloper,专注技术分享,努力打造干货分享平台,二维码在文末可以扫,谢谢大家. 推荐大家到公众号阅读,那里阅读体验更好,也沉淀了很多篇干货. 前面两篇 ...

  9. Linux 运维工作中的经典应用ansible(批量管理)Docker容器技术(环境的快速搭建)

    一 Ansible自动化运维工具 Python 在运维工作中的经典应用 ansible(批量管理操作) .安装ansible(需要bese epel 2种源) wget -O /etc/yum.rep ...

随机推荐

  1. bind研究(一)转载

    ## 阅读数:6537 最近自学JavaScript,学到bind方法这块儿有些地方不太明白,自己就查了些资料,结合自己的理解写了这篇文章以备后面回顾用...其实应该还是搬砖为主吧. 什么是this对 ...

  2. c需要注意的细节

    1.在纯的.c文件中,例如struct Stu,之后不可以只使用Stu作为关键字来表示这个定义的结构体类型,一定要使用struct Stu一起作为类似int这种关键字来定义或者获取size. 2.函数 ...

  3. (数学)Knight's Trip -- hdu -- 3766

    http://acm.hdu.edu.cn/showproblem.php?pid=3766 Knight's Trip Time Limit: 2000/1000 MS (Java/Others)  ...

  4. codeforce864d

    D. Make a Permutation! time limit per test 2 seconds memory limit per test 256 megabytes input stand ...

  5. Vue的配置

    一.build:打包的配置文件的文件夹 1.build.js  生产版本的配置文件,一般这个文件我们是不改的 'use strict' //调用检查版本的文件,check-versions的导出直接是 ...

  6. debian7(wheezy)升级安装mercurial hg最新版2.8-RC,解决tortoisehg2.9.2不能使用。

    debian&(wheezy)之前的仓库版本是2.2.2.  注: 本文以 # 为开始的行是工作在root下的模式,在终端显示为root的提示符# ,用户目录的($:)需要切换到root(使用 ...

  7. EBS中查看其他用户或所有用户的请求和输出文件

      R12: How To Configure Access To Request Output Of The Same Responsibility (Doc ID 804296.1) To Bot ...

  8. 【VB.NET】利用纯真IP数据库查询IP地址及信息

    几年前从某个博客抄来的,已经忘记原地址了,如果需要C#版的,可以在博客园搜到吧.我因为自己用,所以转换为了VBNET代码,而且也放置了很久,今天无意间翻出来,就分享给大家吧. 首先,先下载 纯真数据库 ...

  9. NET npoi帮助类

    nuget添加npoi /// <summary> /// npoi帮助类 /// </summary> public static class NpoiHelper { // ...

  10. intellij 引入本地库并war打包

    一.引入本地库 1.File -> Project Structure -> Libraries,点击+,新增本地lib库. 2.File -> Project Structure ...