线上机器 swap 过高导致告警
哈喽大家好,我是咸鱼。
今天收到了一个告警,说有台服务器上的 swap 过高,已经用了 50% 以上了。
登录机器查看一下内存以及 swap 的使用情况。
[root@localhost ~]# free -h
total used free shared buff/cache available
Mem: 62G 27G 2.9G 568M 32G 33G
swap: 16G 8.3G 8.1G
可以看到还有 2.9G 的空闲物理内存,但是系统已经开始使用 swap 了,初步判断是机器上面的程序内存需求比较大,但物理内存不够用所以开始使用 swap 来存储部分数据。
什么是 swap
swap 顾名思义指的是 Linux 上的交换分区,有点像 Windows 的虚拟内存,说白了就是把一块磁盘空间或者一个本地文件当成内存来使用。
在早期内存价格昂贵的时代,swap 的出现解决了物理内存不足导致无法运行程序的问题。
swap 包含换出和换入两个过程:
- 换出:把进程暂时不用的内存数据存储到磁盘中,并释放这些数据占用的内存。
- 换入:进程再次访问这些内存数据时,把它们从磁盘读到内存来。
那现在随着内存越来越便宜,服务器上面的内存也越来越大,swap 是不是就没啥作用了呢?
不是的,对于程序来说,内存再大也有不够用的时候。比如说内存不足的时候,有些程序不希望被 OOM 杀死,而是希望等待一段时间让人工来处理,或者等系统自动释放其他进程的内存之后再分配给它。
又比如我们常见的笔记本电脑的休眠和快速开机的功能确实是基于 swap 的。在休眠时,操作系统会将当前内存的状态保存到交换空间或者称为休眠文件中,然后关闭计算机。当再次开机时,系统可以直接从休眠文件中恢复内存状态,而不需要重新加载应用程序和初始化系统,从而实现了快速开机的功能。
在 Linux 中,/proc/sys/vm/swappiness
用来调整使用 swap 的积极程度。swappiness 的范围是 0-100,数值越大,越积极使用 swap。一般来讲默认值是 60 。
需要注意的是:这个范围是 swap 积极程度的权重,即使我们设置成 0,在某些情况下(例如进程可用内存耗尽了)还是会使用 swap 的。
排查过程
首先我们来看下 swap 的积极程度。
[root@localhost ~]# cat /proc/sys/vm/swappiness
60
swappiness 显示的是默认值 60,这是一个相对中和的配置,所以系统会根据实际情况来选择是回收可用缓存以增加可用内存空间,还是使用交换空间来增加可用内存空间。
接下来我们要找出是哪些进程使用到了 swap。在 Linux 中,可以用 proc 文件系统来查看进程 swap 换出的虚拟内存大小,它保存在 /proc/pid/status
的 Vmswap 字段中。
但是一台服务器中有这么多进程,一个一个找太麻烦了,所以我们可以使用下面的命令来找出当前系统中 swap 占用最大的几个进程,并列出它们的进程号、进程名和 swap 大小。
[root@localhost ~]# for file in /proc/*/status ; do awk '/Vmswap|Name|^Pid/{printf $2 " " $3}END{ print ""}' $file; done | sort -k 3 -n -r | head
java 153707 3245376 kB
java 153544 1757916 kB
java 172612 732100 kB
java 323072 339756 kB
java 172807 161988 kB
for file in /proc/*/status ; do ... done
:这是一个 for 循环,它遍历了/proc
目录下的所有子目录,每个子目录都包含一个名为status
的文件,其中包含了该进程的一些状态信息。awk '/VmSwap|Name|^Pid/{printf $2 " " $3}END{ print ""}' $file
:对于每个/proc/*/status
文件,awk 命令用于匹配VmSwap
、Name
或者Pid
这几个关键字,并输出它们的值。这些关键字分别表示交换空间、进程名和进程号。sort -k 3 -n -r
:对输出的结果进行排序。-k 3
表示按第三列进行排序,即按照交换空间大小排序;-n
表示按照数字顺序排序;-r
表示逆序排序,即从大到小排序。head -5
:输出排序后的前5行。
从输出的结果可以看到,使用 swap 比较多的是 java 进程。
如何解决
在定位到是哪些进程使用 swap 比较高之后,我们找到对应的开发同事进行讨论,最后决定把 swap 关掉。通常来讲,降低 swap 的使用,可以提高系统的整体性能。
一方面是因为频繁地进行 swap 操作,会导致大量的磁盘读写操作,降低系统的响应速度和整体性能。
另一方面是因为频繁地将数据从内存交换到 swap 空间,并在需要时再次交换回来时,会增加 CPU 和内存的负担。
如何关闭 swap ?
首先使用 swapoff
命令关闭当前正在使用的交换空间。
[root@localhost ~]# swapoff -a
然后我们看下 swap 空间是否已经关闭,如果输出为空则表示 swap 成功关闭。
[root@localhost ~]# cat /proc/swaps
需要注意的是,前面的 swap 关闭操作只是临时关闭,如果机器重启是会重新开启 swap 的。
所以为了下一次重启机器后 swap 还是关闭状态我们还要编辑 /etc/fstab
文件,将其中关于 swap 的配置注释掉或者删除掉。
# 找到以 swap 标识的行,然后注释
[root@localhost ~]# vim /etc/fstab
# /dev/mapper/centos-swap swap swap
这样如果机器后面要是重启了,swap 依旧是关闭状态。
线上机器 swap 过高导致告警的更多相关文章
- 线上服务器CPU彪高的调试方式
原文内容来自于LZ(楼主)的印象笔记,如出现排版异常或图片丢失等问题,可查看当前链接:https://app.yinxiang.com/shard/s17/nl/19391737/2fee7b91-f ...
- expect结合ssh遍历线上机器
有个需求,有个文件删除了,但是不确定线上机器还都存不存在 #!/home/work/.jumbo/bin/expect -f set timeout - set mac [lindex $argv ] ...
- 使用expect快速登录线上机器
背景: 公司登陆线上服务器一般都要经过跳板机才能登陆,过程比较麻烦,如果要频繁登陆某个机器而且机器名不好记很费劲,使用expect自动登陆会方便很多 实现: 使用expect脚本自动登陆: #!/us ...
- 线上cpu使用率过高解决方案
一个应用占用CPU很高,除了确实是计算密集型应用之外,通常原因都是出现了死循环. 下面我们将一步步定位问题,详尽的介绍每一步骤的相关知识. 一.通过top命令定位占用cpu高的进程 执行top命令得到 ...
- 如何在linux平台上编译安装zlib软件(公司部分线上机器缺少zlib不能安装supervisor)
文章在Centos 6.5 linux平台上演示一下如何进行编译安装zlib软件,并配置相关的选项加载使用.示范从下载到安装并配置进行使用过程一系列整套讲解,希望可以给网友考虑使用,谢谢. 工具 ...
- 公司机器(线上机器)启动ftp任务的命令
这个命令: /usr/local/proftp/sbin/proftpd 注意要在root账户,并且kill掉原来的同名进程.
- 线上CUP负载过高排查方法
1.top命令查看线程占据的CPU 注意:上面行的cpu是多个内核的平均CPU,不可能超过100% 下面的cpu是每个进程实际占用的cpu,可能超过100% 备注:查看多个内核cpu,只需要在输入 ...
- 记一次线上由nginx upstream keepalive与http协议"协作"引起的接口报错率飙高事件
年前接到个任务,说要解决线上一些手机客户端接口报错率很高的问题.拿到了监控邮件,粗略一看,各种50%+的错误率,简直触目惊心.这种疑难杂症解决起来还是挺好玩的,于是撸起袖子action. 最终的结果虽 ...
- 线上CPU100%?看看这篇是怎么排查的!
前言 作为后端开发工程师,当收到线上服务器CPU负载过高告警时,你会这么做?重启服务,忽略告警?不过在我看来一个合格的工程师是一定要定位到具体问题所在的,从而 fix 它.下面记录一下线上服务器 CP ...
- 转:一篇讲线上优化查 CPU的脚本
原文链接:https://my.oschina.net/leejun2005/blog/1524687 摘要: 本文主要针对 Java 服务而言 0.背景 经常做后端服务开发的同学,或多或少都遇到 ...
随机推荐
- Vue +Spring Boot 前后端分离 的 项目 笔记
Vue +Spring Boot 前后端分离 的 项目 笔记 前端部分 Vue 脚手架的搭建 1.在创建目录的上一目录执行命令 命令为 vue init webpack 项目名 再创建项目的时候会自动 ...
- 资深工程师 VSCode C/C++ 必备开发插件
1.前言 俗话说"工欲善其事,必先利其器",下面介绍几个VSCode提高开发效率的插件,资深工程师必备. 2.基础插件 2.1.Chinese(Simplified) vscode ...
- 零基础入门Vue之影分身之术——列表渲染&渲染原理浅析
听我说 从 条件渲染 那一篇,我学习到了如何用Vue对dom节点根据条件显示 但单单有条件还不够啊,有时候数据是一大坨一大坨的数据,如果Vue不提供咱要么使用"v-html" 要么 ...
- list集合去重_谈谈Java中Set集合去重的原理
导读:Java中Set接口是Collectio的子接口,Set集合不允许包含相同的元素.如果添加相同的元素, add()会返回FALSE, 新元素不会加入.Set集合常用于元素为数字.字符串去重等,但 ...
- .NET Core 在 K8S 上的开发实践--学习笔记
摘要 本主题受众是架构师,开发人员,互联网企业 IT 运维人员.大纲:1. K8S 对应用的要求:2. .NET Core 上 K8S 的优势:3. K8S 下的 .NET Core 配置:4. .N ...
- Hadoop相关面试题
1.简答说一下hadoop的map-reduce编程模型 首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合 使用的是hadoop内置的数据类型,比如longwri ...
- 初次尝试GPU Driver —— 大范围植被渲染之着色
初次尝试GPU Driver -- 大范围植被渲染之着色 在<初次尝试GPU Driven -- 大范围植被渲染>中实现了草地分布,本文实现草的着色. 本文分四个部分: 生成网格 随机调整 ...
- 老王电子的拆机 ESP32-SOLO-1 填坑报告
ESP32-SOLO-1 拆装 都是带板的, 长这个样子 需要用热风枪从背面吹, 因为中间有焊点, esp32朝下, 用280度大概2到3分钟, 四周需要均匀着风, 用镊子试探天线部分是否松动, 将外 ...
- Spring Boot图书管理系统项目实战-2.项目搭建
导航: pre: 1.系统功能和架构介绍 next:3.用户登录 只挑重点的讲,具体的请看项目源码. 1.项目源码: 需要源码的朋友,请捐赠任意金额后留下邮箱发送:) 2.添加依赖 <depe ...
- 记一次 .NET某列控连锁系统 崩溃分析
一:背景 1. 讲故事 过年喝了不少酒,脑子不灵光了,停了将近一个月没写博客,今天就当新年开工写一篇吧. 去年年初有位朋友找到我,说他们的系统会偶发性崩溃,在网上也发了不少帖子求助,没找到自己满意的答 ...