docker内存监控与压测
一直运行的docker容器显示内存已经耗尽,并且容器内存耗尽也没出现重启情况,通过后台查看发现进程没有占用多少内存。内存的监控使用的是cadvisor,计算方式也是使用cadvisor的页面计算方式,所以决定对docker的内存计算做下研究。
docker version:
Client:
Version: 1.12.6
API version: 1.24
Go version: go1.6.4
Git commit: 78d1802
Built: Tue Jan 10 20:20:01 2017
OS/Arch: linux/amd64
Server:
Version: 1.12.6
API version: 1.24
Go version: go1.6.4
Git commit: 78d1802
Built: Tue Jan 10 20:20:01 2017
OS/Arch: linux/amd64
kubernetes version:
Client Version: version.Info{Major:"1", Minor:"8", GitVersion:"v1.8.2+coreos.0", GitCommit:"4c0769e81ab01f47eec6f34d7f1bb80873ae5c2b", GitTreeState:"clean", BuildDate:"2017-10-25T16:24:46Z", GoVersion:"go1.8.3", Compiler:"gc", Platform:"linux/amd64"}
Server Version: version.Info{Major:"1", Minor:"8", GitVersion:"v1.8.2+coreos.0", GitCommit:"4c0769e81ab01f47eec6f34d7f1bb80873ae5c2b", GitTreeState:"clean", BuildDate:"2017-10-25T16:24:46Z", GoVersion:"go1.8.3", Compiler:"gc", Platform:"linux/amd64"}
1.创建pod yaml文件,使用busybox镜像做测试,对镜像设定2核2G内存的限制。
[docker@k8s busybox]$ cat busybox.yaml
apiVersion: v1
kind: Pod
metadata:
name: busybox
namespace: default
spec:
containers:
- image: registry.dcos:8021/public/busybox:latest
command:
- sleep
- "3600"
imagePullPolicy: IfNotPresent
name: busybox
resources:
limits:
cpu: "2"
memory: 2Gi
requests:
cpu: 100m
memory: 64Mi
restartPolicy: Always
2.通过kubectl命令生成busybox服务
[docker@k8s busybox]$ kubectl create -f busybox.yaml
pod "busybox" created
3.进入容器的/sys/fs/cgroup/memory目录,ls查看得到如下文件。
-rw-r--r-- 1 root root 0 May 31 03:18 cgroup.clone_children
--w--w--w- 1 root root 0 May 31 03:18 cgroup.event_control
-rw-r--r-- 1 root root 0 May 31 03:18 cgroup.procs
-rw-r--r-- 1 root root 0 May 31 03:18 memory.failcnt
--w------- 1 root root 0 May 31 03:18 memory.force_empty
-rw-r--r-- 1 root root 0 May 31 03:18 memory.kmem.failcnt
-rw-r--r-- 1 root root 0 May 31 03:18 memory.kmem.limit_in_bytes
-rw-r--r-- 1 root root 0 May 31 03:18 memory.kmem.max_usage_in_bytes
-r--r--r-- 1 root root 0 May 31 03:18 memory.kmem.slabinfo
-rw-r--r-- 1 root root 0 May 31 03:18 memory.kmem.tcp.failcnt
-rw-r--r-- 1 root root 0 May 31 03:18 memory.kmem.tcp.limit_in_bytes
-rw-r--r-- 1 root root 0 May 31 03:18 memory.kmem.tcp.max_usage_in_bytes
-r--r--r-- 1 root root 0 May 31 03:18 memory.kmem.tcp.usage_in_bytes
-r--r--r-- 1 root root 0 May 31 03:18 memory.kmem.usage_in_bytes
-rw-r--r-- 1 root root 0 May 31 03:18 memory.limit_in_bytes
-rw-r--r-- 1 root root 0 May 31 03:18 memory.max_usage_in_bytes
-rw-r--r-- 1 root root 0 May 31 03:18 memory.memsw.failcnt
-rw-r--r-- 1 root root 0 May 31 03:18 memory.memsw.limit_in_bytes
-rw-r--r-- 1 root root 0 May 31 03:18 memory.memsw.max_usage_in_bytes
-r--r--r-- 1 root root 0 May 31 03:18 memory.memsw.usage_in_bytes
-rw-r--r-- 1 root root 0 May 31 03:18 memory.move_charge_at_immigrate
-r--r--r-- 1 root root 0 May 31 03:18 memory.numa_stat
-rw-r--r-- 1 root root 0 May 31 03:18 memory.oom_control
---------- 1 root root 0 May 31 03:18 memory.pressure_level
-rw-r--r-- 1 root root 0 May 31 03:18 memory.soft_limit_in_bytes
-r--r--r-- 1 root root 0 May 31 03:18 memory.stat
-rw-r--r-- 1 root root 0 May 31 03:18 memory.swappiness
-r--r--r-- 1 root root 0 May 31 03:18 memory.usage_in_bytes
-rw-r--r-- 1 root root 0 May 31 03:18 memory.use_hierarchy
-rw-r--r-- 1 root root 0 May 31 03:18 notify_on_release
-rw-r--r-- 1 root root 0 May 31 03:18 tasks
我们主要关注一下几个文件
文件名 含义
memory.usage_in_bytes 已使用的内存量(包含cache和buffer)(字节),相当于linux的used_meme
memory.limit_in_bytes 限制的内存总量(字节),相当于linux的total_mem
memory.failcnt 申请内存失败次数计数
memory.stat 内存相关状态
memory.stat的文件包含的内容
字段 含义
cache 页缓存,包括 tmpfs(shmem),单位为字节
rss 匿名和 swap 缓存,不包括 tmpfs(shmem),单位为字节
mapped_file memory-mapped 映射的文件大小,包括 tmpfs(shmem),单位为字节
pgpgin 存入内存中的页数
pgpgout 从内存中读出的页数
swap swap 用量,单位为字节
active_anon 在活跃的最近最少使用(least-recently-used,LRU)列表中的匿名和 swap 缓存,包括 tmpfs(shmem),单位为字节
inactive_anon 不活跃的 LRU 列表中的匿名和 swap 缓存,包括 tmpfs(shmem),单位为字节
active_file 活跃 LRU 列表中的 file-backed 内存,以字节为单位
inactive_file 不活跃 LRU 列表中的 file-backed 内存,以字节为单位
unevictable 无法再生的内存,以字节为单位
hierarchical_memory_limit 包含 memory cgroup 的层级的内存限制,单位为字节
hierarchical_memsw_limit 包含 memory cgroup 的层级的内存加 swap 限制,单位为字节
查看memory.limit_in_bytes文件
/sys/fs/cgroup/memory # cat memory.limit_in_bytes
2147483648
计算容器的限制内存为2g,和yaml文件里面定义的限制内存一样。查看memory.usag_in_bytes文件
/sys/fs/cgroup/memory # cat memory.usage_in_bytes
2739376
通过docker stats 容器id查看容器的占用内存,和memory.usage_in_bytes的数据相符。
4.使用dd命令快速生成1.5g大文件
~ # dd if=/dev/zero of=test bs=1M count=1500
1500+0 records in
1500+0 records out
1572864000 bytes (1.5GB) copied, 1.279989 seconds, 1.1GB/s
再次通过docker stats 容器id查看容器的占用内存
查看memory.usage_in_bytes文件
/sys/fs/cgroup/memory # cat memory.usage_in_bytes
1619329024
发现容器的占用内存达到了1.5g,查看memory.stat
/sys/fs/cgroup/memory # cat memory.stat
cache 1572868096
rss 147456
rss_huge 0
mapped_file 0
dirty 1572868096
writeback 0
swap 0
pgpgin 384470
pgpgout 433
pgfault 607
pgmajfault 0
inactive_anon 77824
active_anon 12288
inactive_file 1572864000
active_file 4096
unevictable 0
hierarchical_memory_limit 2147483648
hierarchical_memsw_limit 4294967296
total_cache 1572868096
total_rss 147456
total_rss_huge 0
total_mapped_file 0
total_dirty 1572868096
total_writeback 0
total_swap 0
total_pgpgin 384470
total_pgpgout 433
total_pgfault 607
total_pgmajfault 0
total_inactive_anon 77824
total_active_anon 12288
total_inactive_file 1572864000
total_active_file 4096
total_unevictable 0
memory.stat文件中的cache字段添加了1.5g,而inactive_file字段为1.5g,因此,dd所产生的文件cache计算在inactive_file上。这就导致了所看到的容器内存的监控居高不下,因为cache是可重用的,并不能反映进程占用内存。
一般情况下,计算监控内存可根据计算公式:
active_anon + inactive_anon = anonymous memory + file cache for tmpfs + swap cache
Therefore
active_anon + inactive_anon ≠ rss, because rss does not include tmpfs.
active_file + inactive_file = cache - size of tmpfs
所以实际内存使用计算为:
real_used = memory.usage_in_bytes - (active_file + inactive_file)
5.压测
(1)准备tomcat镜像和jmeter压测工具,tomcat的yaml文件如下
apiVersion: extensions/v1beta1
kind: Deployment
metadata:
name: tomcat-deployment
spec:
replicas: 1
template:
metadata:
labels:
app: tomcat
spec:
containers:
- name: tomcat
image: registy.dcos:8021/public/tomcat:8
ports:
- containerPort: 8080
resources:
limits:
cpu: "1"
memory: 300Mi
---
apiVersion: v1
kind: Service
metadata:
labels:
name: tomcat
name: tomcat
namespace: default
spec:
ports:
- name: tomcat
port: 8080
protocol: TCP
targetPort: 8080
type: NodePort
selector:
app: tomcat
yaml文件中限制tomcat镜像的使用内存为300Mi,执行命令生成文件。通过docker stats查看没有负载情况下tomcat容器的内存占用。
(2)提取tomcat的service nodePort端口
[docker@ecs-5f72-0006 ~]$ kubectl get svc tomcat -o=custom-columns=nodePort:.spec.ports[0].nodePort
nodePort
31401
(3)登陆jmeter官网下载压测工具
在windows上运行jmeter工具,到bin目录点击运行jmeter,配置jmeter如下:
配置好测试选项后点击启动按钮开始压测,通过docker stats查看容器内存使用情况发现已经到达限制。
通过kubectl get pods查看pod的运行情况发现tomcat由于内存超过限制值被kill掉。
总结
关于docker stats内存监控的问题一直存在,docker将cache/buffer纳入内存计算引起误解。docker内存的计算方式和linux的内存使用计算方式一致,也包含了cache/buffer。但是cache是可重复利用的,经常使用在I/O请求上,使用内存来缓解可能被再次访问的数据,为提高系统性能。在官方github上,也有很多人提交了关于内存监控的issue,直到了Docker 17.06版本,docker stats才解决了这个问题。但是这也仅仅是docker stats的显示看起来正常了,而进入容器查看内存的使用还是包含的cache,如果直接使用cadvisor搜集的数据,还是会出现包含了cache的情况。通过压测docker,最后发现当压测到程序的限制内存时,pod出现重启,这也解释了我们在使用docker监控时,即使内存占用99%+,却不出现pod重启的情况,这里面有相当一部分的内存是cache占用。
---------------------
作者:polarwu
来源:CSDN
原文:https://blog.csdn.net/weixin_39961559/article/details/80496419
版权声明:本文为博主原创文章,转载请附上博文链接!
docker内存监控与压测的更多相关文章
- Asp.net 性能监控之压测接口“卡住” 分析
问题描述:web api项目接口压测.前期并发100,500没出现问题,平均耗时也在几百毫秒.当并发1000时候,停留等待许久,看现象是jemeter卡住,没返回,时间过了许久,才正常. 解决过程: ...
- 高德全链路压测平台TestPG的架构与实践
导读 2018年十一当天,高德DAU突破一个亿,不断增长的日活带来喜悦的同时,也给支撑高德业务的技术人带来了挑战.如何保障系统的稳定性,如何保证系统能持续的为用户提供可靠的服务?是所有高德技术人面临的 ...
- 报名|「OneAPM x DaoCloud」技术公开课:Docker性能监控!
如今,越来越多的公司开始 Docker 了,「三分之二的公司在尝试了 Docker 后最终使用了它」,也就是说 Docker 的转化率达到了 67%,同时转化时长也控制在 60 天内. 既然 Dock ...
- 京东全链路压测军演系统(ForceBot)架构解密
摘要:全链路压测是应对电商大促容量规划最有效的手段,如何有效进行容量规划是其中的架构关键问题.京东在全链路压测方面做过多年尝试,本文转载京东商城基础平台技术专家文章,介绍其最新的自动化压测 Force ...
- nginx、php-fpm、swoole HTTP/TCP压测对比
本次测试是在win7下docker环境中进行压测,共创建一个nginx容器.一个php-fpm容器和一个swoole容器,客户端请求nginx服务器,nginx接收用户访问请求并转发给php-fpm, ...
- <转>二十问全链路压测干货汇总(上)
本文转载自:微信公众号-数列科技<二十问全链路压测干货汇总(上)> 最近几年全链路压测无疑成为了一个热门话题,在各个技术峰会上都可以看到它的身影. 一些大型的互联网公司,比如阿里巴巴.京东 ...
- ClickHouse与Elasticsearch压测实践
1 需求分析 1.1 分析压测对象 1)什么是ClickHouse 和Elasticsearch ClickHouse 是一个真正的列式数据库管理系统(DBMS).在 ClickHouse 中,数据始 ...
- 压测过程中使用nmon对服务器资源的监控
1.nmon工具的下载和安装: 官网:http://nmon.sourceforge.net/pmwiki.php 下载完成后进行解压,更改权限:chmod 777 2.查看linux系统的版本,再使 ...
- jmeter压测之 监控--nmon
压测方法整理: 1. 写jmx脚本,整理csv数据文件: 2. 部署测试环境,把jmx和csv放在压测机,把监控脚本nmon放被压测机: 3. 安装nmon: a. w ...
随机推荐
- 如何在linux下开启FTP服务
如何在linux下开启FTP服务 1. 首先服务器要安装ftp软件,查看是否已经安装ftp软件下: #which vsftpd 如果看到有vsftpd的目录说明服务器已经安装了ftp软件 2. ...
- 数据结构与算法之PHP排序算法(堆排序)
一.堆的定义 堆通常是一个可以被看做一棵树的数组对象,其任一非叶节点满足以下性质: 1)堆中某个节点的值总是不大于或不小于其父节点的值: 每个节点的值都大于或等于其左右子节点的值,称为大顶堆.即:ar ...
- Configure the Stanford segmenter for NLTK
>>> from nltk.tokenize.stanford_segmenter import StanfordSegmenter >>> segmenter = ...
- WIFI 万能钥匙万玉权:团队之中要有跨三界之外的“闲人” [转]
在团队规模较小时,很多事情都可以变得特别简单.比如架构的选择,大部分情况下,最初的架构越简单越好,随着业务的演进,架构才不断完善. 连尚网络经历了从几人到上百人的管理过程,其自主创新研发的产品 W ...
- ionic框架使用步骤
nodejs下载:https://npm.taobao.org/mirrors/node一.全局安装ionic: npm install -g cordova ionic 如果安装失败: npm in ...
- C语言结构体指针初始化(转)
reference: https://www.cnblogs.com/losesea/archive/2012/11/15/2772526.html 今天来讨论一下C中的内存管理. 记得上周在饭桌上和 ...
- Android:进程优先级
进程优先级 优先级 服务 说明 高优先级 前台进程 ①该进程包含正在与用户进行交互的界面组件,比如一个Activity. ②进程服务被Activity调用,而且这个Activity正在与用户进行交互 ...
- Linux性能监控分析命令(一)—vmstat命令详解
一.vmstat介绍 语法格式: vmstat [-V] [-n] [-S unit] [delay [count]] -V prints version. -n causes the headers ...
- 使用Sublime Text 3进行Markdown 编辑+实时预览
这种做法可能会对你的磁盘IO造成一小部分性能负担,但负面影响足以忽略. 另外,由于这种频率的读写会被磁盘缓存接管,不必担心磁盘寿命的影响. 对于刚安装好的Sublime Text,我们需要安装一个软件 ...
- 如何在 Windows 中设置 /3GB 启动开关
备注: 只有在下列操作系统中才支持 /3GB 开关: Windows 2000 Advanced Server Windows 2000 Datacenter Server Windows Serve ...