LINUX常见性能监控工具总结
文章来源
工具功能概览
整理了一个关于监控工具及其功能的表。下面对这些工具单独详细介绍。
Linux性能监控工具
top
top命令会展示进程的实际活动。默认情况下,它会列出系统上所有cpu密集型任务,并且每5秒钟刷新一次列表。可以对PID(数值),生存时间(最新的排最前面),时间(累计时
间)以及常驻内存使用率和时间(进程启动开始占用cpu的时间)进行排序。
输出中的各列:
PID 进程号
USER 进程所有者的名字。
PRI 进程优先级
NI nice级别
SIZE 进程使用的内存(代码、数据和栈),kb单位
RSS 物理RAM使用量,kb单位
SHARE 和其它进程共享的内存,kb单位
STAT 进程状态:S=睡眠,R=运行,T=停止或跟踪,D=不可中断的睡眠,Z=僵尸。
%CPU CPU使用量。
%MEM 物理内存用量
TIME 进程使用的总CPU时间(从启动开始算)
COMMAND 进程的命令行启动命令(包括参数)
vmstat
vmstat显示关于进程,内存,页,块I/O,traps和CPU的信息。vmstat既可以展示平均值,也
可以是实时数据。通过提供采样频率和采样时间就可以开启vmstat的采样模式。
各列的含义如下:
进程
r:等待执行时间的进程数
b:在不可中断睡眠中的进程数
内存
swpd:已使用的虚拟内存量
free:空闲内存量
buff:作为缓冲的内存
cache:作缓存的内存
Swap
si:从交换分区写到内存的量
so:从内存写到交换分区的大小
IO
bi:发往块设备的数目(blocks/s)
bo:从块设备接收的块数目 (blocks/s)
System
in:每秒钟的中断次数,包括时钟
cs:每秒的上下文切换次数
CPU(总CPU时间的百分比):
us:运行非内核代码的时间(用户时间,包括nice时间)
sy:运行内核代码的时间(系统时间)
id:空闲时间,早先的Linux2.5.41版本,包含了I/O等待时间
wa:等待IO的时间,早先的Linux2.5.41版本,这个值为0
uptime
uptime
uptime 命令可以用来查看服务器运行了多长时间,有多少用户登录在服务器上,以及服务器的平均负载。分别展示过去1分钟、5分钟和15分钟的系统瓶颈负载值。
平均负载最理想的值是1,意味着每个进程可以直接使用CPU,没有发生CPU周期丢失。不同系统的负载有很大差别。对单处理器工作站来说,1或2的负载值是勉强可以接受的,而在多
处理器服务器上,平均负载为8或者10的时候,系统依旧运行良好。
使用uptime或许可以找出服务器或网络的问题。例如,当网络服务运行不佳时,你就可以用uptime命令查看系统负载情况。如果负载不高,问题可能出现在你的网络中,而不是服务器系统上。
ps 和 pstree
在系统分析中,ps和pstree是最基础的命令,ps有三种不同的命令选项,UNIX、BSD和GNU
风格。
ps命令展示所有进程列表。top命令展示了进程活动,而且ps显示的信息更加详细。ps所显示
出来的进程数量取决于所使用的命令参数。简单的ps -A命令会列出所有的进程和他们各自的
PID,我们可以使用PID做更多的事情。在使用pmap,renice等工具的时候,就需要用到
PID。
在运行java应用的服务器上,使用ps -A命令可能一下子就把显示器全部占满了,很难清楚查
看运行进程的完整列表。在这个情况下,pstree命令可能就会派上用场,它把运行进程以树形
结构展示,把子进程合并展示(例如java线程)。
其它的命令选项:
-e 所有进程,和-A一样
-l 显示长格式
-F 额外的全格式,包括参数和选项。
-H 显示进程等级
-L 显示线程,可能带有LWP和NLWP列
-m 在进程后面显示线程
使用如下命令可以看到详细的进程信息:
ps -elFL
输出的字段含义:
F 进程标志
S 进程状态:S=睡眠,R=运行,T=停止或跟踪, D=不可中断的睡眠,Z=僵尸。
UID 拥有进程的用户名字。
PID 进程ID
PPID 父进程ID
LWP LWP号(light weight process,or thread,轻量级进程,或线程)。
c 处理器使用的百分比。
NLWP 进程中的lwps(线程)个数。
PRI 进程优先级
NI nice级别(进程是否通过nice改变优先级,见下文)
ADDR 进程地址空间(例子中没展示)
SZ 进程使用的内存大小(代码+数据+栈) ,单位kb。
WCHAN 睡眠进程的内核函数名字,如果进程在运行,显示“-”,如果显示为“*”,则表示
是多线程。
RSS 驻留内存大小,任务所使用的非swap物理内存大小,单位是kb。
PSR 分配给进程的处理器个数。
STIME 命令开始时间
TTY 终端
TIME 进程从启动开始,使用CPU的总时间
CMD 开启任务的命令(包含参数)
free
free命令显示了系统所有已用和可用内存(包括swap)量。也包括被内核使用的缓冲和缓存
信息。
使用free命令的时候,记住Linux内存架构和虚拟内存管理器的工作方式。空闲内存是受限使
用的,使用swap也不表示出现了内存瓶颈。
下图展示了free命令的基本原理。
free命令基本原理
free命令的常用参数:
-b,-k,-m,-g 以字节b,千字节kb,兆字节mb和吉字节gb为单位展示。
-l 显示详细的高低内存统计
-c 输出free的次数
Memory used in a zone
iostat
iostat命令显示从系统启动依赖的平均CPU时间(和uptime类似)。它会生成服务器磁盘子系
统的活动报告:CPU和磁盘设备利用情况。使用iostat找出详细的I/O瓶颈,进行性能优化,详
见“找到磁盘瓶颈”一节内容。iostat是sysstat包里的一个组件。
CPU使用报告有4个部分:
%user 显示CPU在用户级执行应用程序所花时间的百分比。
%nice 显示带有nice优先级的用户级程序占用的CPU时间百分比(详见“nice,renice一
节”)。
%sys 显示显示执行系统级(内核)任务所占用CPU时间的百分比。
%idle 显示CPU空闲的时间百分比。
设备使用报告包括如下部分:
Device 块设备的名字
tps 设备上的每秒传输次数(每秒的I/O请求数)。多个单I/O请求可以合成一个传输请
求,因为每个传输请求的大小可以是不一样的。
Blk_read/s,Blk_wrtn/s 每秒块读写显示了每秒从设备读或者写的数据。块也可以有不同的
大小。常见的是1024,2048和4096字节,这是取决分区大小。
sar
使用sar命令可以收集、展示和保存系统信息。sar命令由三个部分组成:sar,显示数据,sa1
和sa2,收集和存储数据。sar工具是sysstat包的一部分。
mpstat
mpstat是一个可以展示多处理器服务器上每个可用CPU活动信息的命令。所有CPU的平均活
动情况也会显示出来。mpstat也是sysstat包的一部分。
mpstat工具可以全面展示系统或者CPU的统计信息。通过给mpstat传递采样频率和采样次
数,可以模拟vmstat的使用。下图展示了通过mpstat -P ALL 来输出每个CPU的平均使用率。
numastat
在企业数据中心,非统一内存架构(Non-Uniform Memory Architecture ,NUMA)已经变成主流,例如IBM System x3950,然而,NUMA系统给调优带来了新的挑战。在NUMA出现之前,我们从来不需要关心内存的位置。幸好,企业Linux发行版为监测NUMA架构行为提供了工具。numastat命令提供本地和远程内存使用率和所有节点的整体内存配置。本地内存分配失败的信息在numa_miss一行展示,远程内存(shower memory)分配信息在numa_foregin一行展示。过度的使用远程内存会增加风险,可能导致整体性能下降。把进程绑定映射本地内存的节点会增加性能。
pmap
pmap命令会展示一个或多个进程正在使用的内存量。使用这一工具,你可以确定服务器上的
哪一个进程正在分配内存,还有是否这部分内存导致了内存瓶颈。更多信息,使用pmap -d 1选项。
最后一行显示的信息最为有用:
mapped 该进程映射到文件的内存量。
writable/private 该进程使用的私有地址空间。
shared 该进程和其它进程共享的地址空间量。
netstat
netstat 是最常用的工具之一,如果你从事网络工作,你应该对这个命令很熟悉。它会展示网
络相关的信息,例如socket使用,路由,接口,协议和其它网络统计。
有如下的基础选项:
-a 显示所有的socket信息
-r 显示路由信息
-i 显示网络接口统计
-s 显示网络协议统计
Socket信息解释:
Proto socket使用的协议(tcp,udp,raw)。
Recv-Q 表示收到的数据已经在本地接收缓冲,但是还有多少没有被进程取走,单位是字
节。
Send-Q 对方没有收到的数据或者说没有Ack的,还是本地缓冲区,单位字节。
Local Address socket的本地地址和端口。除非使用--numeric(-n)选项,socket地址会被
解释成主机名(FQDN),端口号会被转成相应的服务名字。
Foreign Address 远端socket的端口和地址。
State socket的状态。因为raw和UDP通常是没有状态的,所以这列可能是空白。
iptraf
iptraf监控和展示TCP/IP的实时流量。它可以根据各个session、接口、协议展示TCP/IP流量
统计。iptraf组件是由iptraf包提供。
iptraf给我们展示如下的报告:
IP流量监控:通过TCP连接的网络流量统计
接口一般统计:网络接口流量统计
接口详细统计:根据端口的网络流量统计
统计分析:根据TCP/UDP端口和包大小的网络流量统计。
局域网统计:根据网络2层地址的网络流量统计。
tcmpdump / ethereal
tcpdump和ethereal通常用来抓取和分析网络流量。这两个工具都会用到libpcap库来抓取包。
在混杂模式下,它们会监控网卡上的所有流量,并且抓取所有网卡上收到的分片。为了抓取
所有包,这些命令应该使用超级用户权限执行,以便开启网卡混杂模式。
你可以使用这些工具来找到和网络相关的问题。可以发现TCP/IP重传,滑动窗口大小变化,
名字解析问题、网络错误配置等。记住,这些工具只能监控所有到达网卡的分片,而不是所
有的网络流量。
1、tcpdump
tcpdump是一个简单和强大的工具。它拥有基本的协议分析能力,可以获得网络上的大体情
况。tcpdump可以使用很多选项和扩展表达式来过滤要抓取的包。入门可以看看如下的几个选项:
-i 指定网络接口
-e 打印数据链路层头
-s 抓取每个包的字节
-n 避免DNS解析
-w 写入文件
-r 从文件读取
-v,-vv,-vvv 详细输出
抓取过滤器的表达式:
关键字:
源目主机,源目端口,tcp,udp,icmp,源目网络等等
联合逻辑使用
非 ('!'或者'not')
与 ('&&'或者'and')
或 ('||'或者'or')
DNS查询包
2、ethereal
ethereal有和tcpdump相似的功能,但是更加复杂,并且拥有更高级的协议分析和报告能力。
它还拥有一个GUI接口和ethereal命令行界面。
和tcpdump类似,ethereal也可以使用过滤抓取,从而缩小抓取分片的范围。如下是一些常用
的表达式。
IP
ip.version ==6 and ip.len > 1450
ip.addr == 129.111.0.0/16
ip.dst eq www.example.com and ip.src == 192.168.1.1
not ip.addr eq 192.168.4.1
TCP/UDP
tcp.port eq 22
tcp.port == 80 and ip.src == 192.168.2.1
tcp.dstport == 80 and (tcp.flags.syn == 1 or tcp.flags.fin == 1)
tcp.srcport == 80 and (tcp.flags.syn == 1 and tcp.flags.ack == 1)
tcp.dstport == 80 and tcp.flags == 0x21
应用层
http.request.method == "POST "
smb.path contains \SERVERSHARE
nmon
Nigel's Monitor简称nmon,是由Nigel Griffiths开发的监控Linux系统性能的常用工具。由于nmon能监控多个子系统的性能信息,所以,可以把它作为性能监控的唯一工具。通过nmon可以获取的信息有:处理器利用率、内存利用率、运行队列信息、磁盘I/O统计和网络I/O统计,页活动信息和进程指标。
nmon输出的CSV文件可以导入电子表格应用中,生成可视化图形报告,要使用该功能,启动nmon的时候需要带上-f选项。例如使用如下命令,让nmon生成30秒钟为频率,总时长1小时的报告。
# nmon -f -s 30 -c 120
strace
strace命令会拦截和记录进程的系统调用或进程接收到的信号。这是一个有用的诊断、教学和
调试工具。它在解决程序遇到的问题方面很有价值。
使用时,需要指定要监控的进程ID:
strace -p <pid>
Proc文件系统
proc文件系统不是真实的文件系统,但是它真的十分有用。它不是存储数据的;而是提供运
行内核的监控和操作接口。proc文件系统让管理员可以监控和修改运行中的内核。下图展示
了一个简单的proc文件系统。大多数Linux性能工具都要依赖于/proc提供的信息。
proc文件系统下的信息和布局:
/proc目录下的文件
/proc根目录下的各种文件里面包含相关系统的统计。你可以找到Linux工具使用的信息
源,例如vmstat和cpuinfo文件。
数字1到X
各个数字的子目录指向的是运行进程或者它们的进程ID(PID)。目录结构总是已PID 1
开始,指向的是init进程,然后是系统上运行的各个PID。每个数字子目录下保存进程相
关的统计信息。例如进程映射的虚拟内存。
acpi
ACPI意思是高级配置与电源接口(advanced configuration and power interface),,受
到大多数现代桌面和笔记本系统支持。由于ACPI主要是PC技术,所以在服务器上通常是
禁用状态。
总线(bus)
这个子目录包含总线子系统的信息,例如PCI总线或者系统USB接口。
irq
irq目录包含系统中断的信息。这个目录下的每个子目录代表一次中断,也可能是一个附
加设备,例如网卡。在irq子目录下,你可以修改一个给定中断的CPU关联(affinity)
net
网络子目录下包含网络接口的原始统计数据,例如收到的多播包或接口的路由。
scsi
scsi子目录包含系统上关于SCSI子系统的信息,例如附加设备或者驱动调整。
sys
在sys子目录下,是可调整的内核参数,例如虚拟内存管理器或者是网络栈的行为。
tty
虚拟终端和附加的物理设备信息都包含在tty子目录中
篇幅有限,关于linux性能监控工具就大概介绍到这了,大家有空可以自己测试下,后面会分享更多linux方面的内容,感兴趣的朋友可以关注下!!
LINUX常见性能监控工具总结的更多相关文章
- Linux下性能监控工具介绍
本章解释如何使用适用于Linux的大量性能工具及每个工具中信息的意义.即使已经使用top或者sar,也可能从本章学到相关知识. 应该养成使用这些工具的习惯.当然要知道如何诊断性能问题,但也应该定期寻找 ...
- Linux Sysstat性能监控工具安装及常见8个命令使用例子
Sysstat,一种常用在Linux系统服务器中的软件工具包,可以用来监控服务器的性能.比如可以监控CPU.硬盘.网络等数据,我们可以用来进行分析服务器的性能和资源的使用效率.老左将在这篇文章中学习. ...
- linux下性能监控工具
一. Linux 性能监控的概述 系统由若干子系统构成,通常改动一个子系统有可能影响到另外一个子系统.甚至会导致整个系统不稳定.崩溃. 所以说优化.监測.測试一般是连在一起的,并且是一个循环并且长期 ...
- linux常见性能分析工具
vmstat sar (来源于sysstat工具包,需要yum sysstat)iostat (来源于sysstat工具包,需要yum sysstat)free -muptimene ...
- 你值得拥有:25个Linux性能监控工具
一.基于命令行的性能监控工具 1.dstat - 多类型资源统计工具 该命令整合了vmstat,iostat和ifstat三种命令.同时增加了新的特性和功能可以让你能及时看到各种的资源使用情况,从而能 ...
- 25个Linux性能监控工具
一段时间以来,我们在网上向读者介绍了如何为Linux以及类Linux操作系统配置多种不同的性能监控工具.在这篇文章中我们将罗列一系列使用最频繁的性能监控工具,并对介绍到的每一个工具提供了相应的简介链接 ...
- CentOS7安装Nmon(linux性能监控工具)
Nmon开源性能监控工具,用于监控linux系统的资源消耗信息,并能把结果输出到文件中,然后通过nmon_analyser工具产生数据文件与图形化结果. 目录 一.安装软件二.实时监控三.数据采集四. ...
- 20个常用Linux性能监控工具/命令
20个常用Linux性能监控工具/命令 对于 Linux/Unix 系统管理员非常有用的并且最常用的20个命令行系统监视工具.这些命令可以在所有版本的 Linux 下使用去监控和查找系统性能的实际原因 ...
- Linux性能监控工具收集(转)
一.基于命令行的性能监控工具 1.dstat - 多类型资源统计工具 该命令整合了vmstat,iostat和ifstat三种命令.同时增加了新的特性和功能可以让你能及时看到各种的资源使用情况,从而能 ...
随机推荐
- Python项目部署-使用Nginx部署Django项目
一.nginx介绍及部署 二.nginx部署路飞学城代码 nginx配置安装 同样,nginx也有很多的安装方式: 1)源码安装(运维偏向:规范,便于配置管理) 2)yum,rpm安装(为了效率可以选 ...
- 关于mysql主从架构master宕机后,请求转移问题解决办法
mysql架构:一主一从 问题一:有两台mysql数据库,已做好主从.如果运行某一天master服务器mysql故障导致前端请求无法处理怎么办? 答:将前端需要数据库处理的请求转移到slave机上. ...
- Window下搭建X5本地应用打包服务器
总的来说就是安装虚拟机,装载VM文件 X5打包服务器(App-Builder)是通过服务方式把X5开发工具(Studio)创建的本地应用进行打包和数字签名,开发者不用单独构建原生代码的编译环境,方便开 ...
- Install Air Conditioning HDU - 4756(最小生成树+树形dp)
Install Air Conditioning HDU - 4756 题意是要让n-1间宿舍和发电站相连 也就是连通嘛 最小生成树板子一套 但是还有个限制条件 就是其中有两个宿舍是不能连着的 要求所 ...
- CentOS 7安装MongoDB
1 下载安装包 wget https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-3.2.4.tgz 2 解压 .tgz 3 将解压包 ...
- vue2.0实现过滤
vue1.0和vue2.0差别还是挺多的,之前的vue1.0还有过滤器功能,到了2.0过滤器只能通过自己编写.以下是写的一个小demo: HTML <div id="app" ...
- iPhone各种机型尺寸、屏幕分辨率
px与pt区别 字体大小的设置单位,常用的有2种:px.pt.这两个有什么区别呢? 先搞清基本概念: px就是表示pixel,像素,是屏幕上显示数据的最基本的点: pt就是point,是印刷行业常用单 ...
- django restframeowrk filter,search,order
django-filters非常成熟,并且支持drf,在url中以Get参数的形式体现 filter 通用过滤 1. 基本配置 $ pip install django-filters setting ...
- Redmine简易安装与系统优化
安装版本为bitnami-redmine-2.6.5-0 ,用的Bitnami的一键安装包 . 下载地址https://bitnami.com/stack/redmine/installer 简要安装 ...
- Vue, React, AngularJS, Angular2 我们对流行JavaScript框架们的选择
转自<奇舞周刊>,好文章mark一下 分割线 一个有趣的事实是:IBM发表的2017年最值得学习的编程语言名单中,JavaScript榜上有名.这位IT巨头指出,JS在网站中惊人地达到94 ...