使用strace工具故障排查的5种简单方法

本文源自5 simple ways to troubleshoot using strace

strace 是一个非常简单的工具,用来跟踪可执行程序的系统调用(system call)。最简单的使用是,它追踪可行程序运行时的整个生命周期,输出每一个系统调用的名字,参数和返回值。 
但是它还可以做更多的事情:

  1. 它可以基于系统调用或者系统调用组来过滤
  2. 它可以通过计算制定系统调用的次数,花费的时间以及成功和失败的次数来描述系统调用的使用
  3. 它可以追踪发送给进程的信号(signal)
  4. 它可以通过进程id(pid)号加入到任意正在运行的进程上

如何使用

这里只是简单的描述strace如何使用,并不打算对此做深入分析

  1. 找出一个程序启动时读取了哪个配置文件

    有的时候,你发发现,无论你如何修改配置文件,应用程序并没有按照你的思路去运行,这是什么原因?一个浅显但容易忽视的考虑是,应用程序启动时读取了你认为要读取的配置文件了吗?看下面的例子:

     $ strace php 2>&1 | grep php.ini          open("/usr/local/bin/php.ini", O_RDONLY) = -1 ENOENT (No such file or directory)          open("/usr/local/lib/php.ini", O_RDONLY) = 4          lstat64("/usr/local/lib/php.ini", {st_mode=S_IFLNK|0777, st_size=27,        ...}) = 0          readlink("/usr/local/lib/php.ini", "/usr/local/Zend/etc/php.ini",        4096) = 27          lstat64("/usr/local/Zend/etc/php.ini", {st_mode=S_IFREG|0664,st_size=40971, ...}) = 0

    上述php程序程序会首先从/usr/local/bin/下读取php.ini文件,也许不是你想的首先从/usr/local/lib/下读取。
    上述的输出会很多,我们甚至可以通过参数来指定只追踪我们关心的系统调用,类似如下:

      $ strace -e open php 2>&1 | grep php.ini           open("/usr/local/bin/php.ini", O_RDONLY) = -1 ENOENT (No such file or         directory)           open("/usr/local/lib/php.ini", O_RDONLY) = 4
  2. 为什么程序没有打开我的文件?

    每一个可执行程序读取文件时,如果权限不够,则会遭拒绝。而如果文件找不到,也并不会报错,除非你在程序里设置了错误处理,So,如果程序没有读取我的文件,我该如何跟踪呢?

     $ strace -e open,access 2>&1 |grep your-filename

    检查open()和access()系统调用的输出结果,看看是什么原因

  3. 进程此刻正在做什么?

    你的程序突然消耗了大量的CPU,或者程序似乎被挂起了,那么我们通过进程的pid号看看此刻它正在做什么

     root@dev:~# strace -p 15427           Process 15427 attached - interrupt to quit           futex(0x402f4900, FUTEX_WAIT, 2, NULL           Process 15427 detached

    通过跟踪,你知道程序挂起的原因是正在调用futex()。

  4. 程序的时间花在什么地方

    你总是希望程序能够按照你的意愿去工作,也希望它能在正确的时间做正确的事情,甚至希望它是最优的,尽可能在程序运行的周期内,消耗的90%以上的资源都是在做需要做的事情,而不是简单的等待。也许,下面的这个指令可以帮上你的忙:

     root@dev:~# strace -c -p 11084
    Process 11084 attached - interrupt to quit
    Process 11084 detached
    % time seconds usecs/call calls errors syscall
    ------ ----------- ----------- --------- --------- ----------------
    94.59 0.001014 48 21 select
    2.89 0.000031 1 21 getppid
    2.52 0.000027 1 21 time
    ------ ----------- ----------- --------- --------- ----------------
    100.00 0.001072 63 total
    root@dev:~#

    如果你是跟踪的后台守护进程,可以通过上面的指令跟踪一段时间,然后按ctrl+c退出,strace会根据获得信息描述出上面的结果。
    上述的例子说明当前进程(postmaster)最要的时间花在等待select()函数上,在每调用一次select函数后,它分别调用getpid函数和time函数. 如果是非后台守护进程,那strace可以跟踪进程的开始至结束,类似下面这样:

     root@dev:~# strace -c >/dev/null ls
    % time seconds usecs/call calls errors syscall
    ------ ----------- ----------- --------- --------- ----------------
    23.62 0.000205 103 2 getdents64
    18.78 0.000163 15 11 1 open
    15.09 0.000131 19 7 read
    12.79 0.000111 7 16 old_mmap
    7.03 0.000061 6 11 close
    4.84 0.000042 11 4 munmap
    4.84 0.000042 11 4 mmap2
    4.03 0.000035 6 6 6 access
    3.80 0.000033 3 11 fstat64
    1.38 0.000012 3 4 brk
    0.92 0.000008 3 3 3 ioctl
    0.69 0.000006 6 1 uname
    0.58 0.000005 5 1 set_thread_area
    0.35 0.000003 3 1 write
    0.35 0.000003 3 1 rt_sigaction
    0.35 0.000003 3 1 fcntl64
    0.23 0.000002 2 1 getrlimit
    0.23 0.000002 2 1 set_tid_address
    0.12 0.000001 1 1 rt_sigprocmask
    ------ ----------- ----------- --------- --------- ----------------
    100.00 0.000868 87 10 total

    ls程序大部分时间花在读取目录条目上面。

  5. 为什么我不能连接到服务器?

    调试进程不能连接到服务器是一个痛苦的事情,因为原因很多,比如DNS失效啦,连接被挂起啦,服务器返回异常数据啦,服务器本身异常啦,等等。一般网络调试方面,很多人会想到另外一个非常不错的工具–tcpdump。但它的参数太多了,而且你要从上百个连接进程中找出其中一个进程为什么不能连接恐怕是一件非常费力的工作。strace 其实也能在这种情景下帮上你的忙,它仅仅输出与系统调用相关的数据,从而可以让我们的注意力更集中。类似下面这样:

     $ strace -e poll,select,connect,recvfrom,sendto nc www.news.com 80
    sendto(3, "\24\0\0\0\26\0\1\3\255\373NH\0\0\0\0\0\0\0\0", 20, 0, {sa_family=AF_NETLINK, pid=0, groups=00000000}, 12) = 20
    connect(3, {sa_family=AF_FILE, path="/var/run/nscd/socket"}, 110) = -1 ENOENT (No such file or directory)
    connect(3, {sa_family=AF_FILE, path="/var/run/nscd/socket"}, 110) = -1 ENOENT (No such file or directory)
    connect(3, {sa_family=AF_INET, sin_port=htons(53), sin_addr=inet_addr("62.30.112.39")}, 28) = 0
    poll([{fd=3, events=POLLOUT, revents=POLLOUT}], 1, 0) = 1
    sendto(3, "\213\321\1\0\0\1\0\0\0\0\0\0\3www\4news\3com\0\0\34\0\1", 30, MSG_NOSIGNAL, NULL, 0) = 30
    poll([{fd=3, events=POLLIN, revents=POLLIN}], 1, 5000) = 1
    recvfrom(3, "\213\321\201\200\0\1\0\1\0\1\0\0\3www\4news\3com\0\0\34\0\1\300\f"..., 1024, 0, {sa_family=AF_INET, sin_port=htons(53), sin_addr=inet_addr("62.30.112.39")}, [16]) = 153
    connect(3, {sa_family=AF_INET, sin_port=htons(53), sin_addr=inet_addr("62.30.112.39")}, 28) = 0
    poll([{fd=3, events=POLLOUT, revents=POLLOUT}], 1, 0) = 1
    sendto(3, "k\374\1\0\0\1\0\0\0\0\0\0\3www\4news\3com\0\0\1\0\1", 30, MSG_NOSIGNAL, NULL, 0) = 30
    poll([{fd=3, events=POLLIN, revents=POLLIN}], 1, 5000) = 1
    recvfrom(3, "k\374\201\200\0\1\0\2\0\0\0\0\3www\4news\3com\0\0\1\0\1\300\f"..., 1024, 0, {sa_family=AF_INET, sin_port=htons(53), sin_addr=inet_addr("62.30.112.39")}, [16]) = 106
    connect(3, {sa_family=AF_INET, sin_port=htons(53), sin_addr=inet_addr("62.30.112.39")}, 28) = 0
    poll([{fd=3, events=POLLOUT, revents=POLLOUT}], 1, 0) = 1
    sendto(3, "\\\2\1\0\0\1\0\0\0\0\0\0\3www\4news\3com\0\0\1\0\1", 30, MSG_NOSIGNAL, NULL, 0) = 30
    poll([{fd=3, events=POLLIN, revents=POLLIN}], 1, 5000) = 1
    recvfrom(3, "\\\2\201\200\0\1\0\2\0\0\0\0\3www\4news\3com\0\0\1\0\1\300\f"..., 1024, 0, {sa_family=AF_INET, sin_port=htons(53), sin_addr=inet_addr("62.30.112.39")}, [16]) = 106
    connect(3, {sa_family=AF_INET, sin_port=htons(80), sin_addr=inet_addr("216.239.122.102")}, 16) = -1 EINPROGRESS (Operation now in progress)
    select(4, NULL, [3], NULL, NULL) = 1 (out [3])

    那么,上述的输出,说明进程发生了什么呢?
    注意到这个进程尝试连接/var/run/nscd/socket连接了吗?这意味着nc程序首先会去连接NSCD- Name Service Cache Daemon - 它通常用于设置和NIS,YP,LDAP或者类似目录协议相关的域名查询配置上。在上述例子中,连接失败了。

    接下来进程开始连接到DNS,这点可以从sin_port=htons(53)输出可以看出。你可以看到,它接着做了一个sendto()的调用,发出了一个包含www.news.com信息的DNS包。然后读取返回的包数据,不知什么原因,它做了三次这样的尝试。一个可能的原因是www.news.com是一条CNAME记录。多次请求可能是nc程序处理的一种方式。

    最后,它总算是发起了connect()操作,注意这个操作的返回结果是EINPROGRESS,这意味着这个连接是非阻塞式的,nc希望继续,于是它调用了select()

    增加read,write调用到strace跟踪的系统调用列表里,可以让我们看到下面的一些结果:

     read(0, "test\n", 1024)                 = 5
    write(3, "test\n", 5) = 5
    poll([{fd=3, events=POLLIN, revents=POLLIN}, {fd=0, events=POLLIN}], 2, -1) = 1
    read(3, "

    上述表示它从读取”test” + 标准输入的一行信息,然后写入网络连接,接着调用poll来等待回应,然后读取网络反馈的信息并写到标准输出。

使用strace工具故障排查的5种简单方法的更多相关文章

  1. WPF编程 ,TextBlock 显示百分数值的一种简单方法。

    原文:WPF编程 ,TextBlock 显示百分数值的一种简单方法. 版权声明:我不生产代码,我只是代码的搬运工. https://blog.csdn.net/qq_43307934/article/ ...

  2. Mac上打开终端的7种简单方法

    终端机是用于给Mac命令的便捷工具,尽管它可能会吓倒许多人.毕竟,这不像输入句子然后Mac响应那样简单.如果您有兴趣学习使用Terminal或只想输入一两个命令,我们在下面列出了一些文章,可以帮助您使 ...

  3. Honeywords项目——检查密码是否被破解的一种简单方法

    Honeywords项目使用一种简单的方法来改进hash后的密码的安全性——为每个账户维护一个额外的honeywords(假密码).如果有黑客拿到了密码的文件,然后试图用brute froce的方式破 ...

  4. Qt实现软件自动更新的一种简单方法

    前言 最近在学习Qt开发上位机,想实现一个检查更新的功能,网上搜索了一大圈,发现实现过程都很复杂,关键是代码看不懂,所以就自己开发一种简单的方式来实现.实现效果如下: 点击"检查更新&quo ...

  5. SSM/SSH框架的MySQL 读写分离实现的一种简单方法

    简介 MySQL已经是使用最为广泛的一种数据库,往往实际使用过程中,为实现高可用及高性能,项目会采用主丛复制的方式实现读写分离.MySQL本身支持复制,通过简单的配置即可实现一主多从的配置,具体实现可 ...

  6. 用strace排查故障的5种简单方法(每日一译)

    原文链接:5 simple ways to troubleshoot using Strace 我很意外大部分人都不知道如何使用strace.strace一直是我的首选debug工具,因为它非常的有效 ...

  7. Flask生成SECRET_KEY(密钥)的一种简单方法

    SECRET_KEY是Flask中比较重要的一个配置值.本文介绍一种比较简单的生成SECRET_KEY的方法. Session, Cookies以及一些第三方扩展都会用到SECRET_KEY值,这是一 ...

  8. 下载文件的一种简单方法js

    我在做的一个项目有一部分要下载附件,可是我们公司用了一个包和网上的用response的解决方法冲突,而网上的js解决方法又用到了ActiveXObj我们经理不让用这个.还好我一个同事很利害用了一个很简 ...

  9. Jquery显示和隐藏的4种简单方法

    Html代码:  <div class="topicList">  <h3><span>学习天地</span></h3> ...

随机推荐

  1. s表达式和json表达式

    s表达式 + 1 2 3普通表达式 1+2+3json表达式{ +:[1, 2, 3]}优点,一个运算符,无限个参数 s表达式 * (+ 1 2) 3普通表达式 1+(2*3)json表达式{ *:[ ...

  2. elcipse 中利用maven创建web工程

    如何创建: http://huxiaoheihei.iteye.com/blog/1766986 遇到的问题: 1: 如果spring MVC配置了 <servlet> <servl ...

  3. asp.netMVC4(基础知识----传值问题分析)

    (1)一般在数据交互的时候,都会涉及到前后台间的相互传值,一般的情况下,方法也有多种,下面就后台定义变量往前台传值: 以下是后台代码: /// <summary> /// 展示举报信息 / ...

  4. [转载] 淘宝内部分享:怎么跳出MySQL的10个大坑(上)

    原文: http://mp.weixin.qq.com/s?__biz=MzAxNjAzMTQyMA==&mid=209773318&idx=1&sn=e9600d3db80b ...

  5. linux 通过 ulimit 改善系统性能

    https://www.ibm.com/developerworks/cn/linux/l-cn-ulimit/ 概述 系统性能一直是一个受关注的话题,如何通过最简单的设置来实现最有效的性能调优,如何 ...

  6. Delphi 程序结构

    注:该内容整理自以下链接. http://www.cnblogs.com/hackpig/archive/2010/02/15/1668513.html 概要介绍:Object Pascal语言的结构 ...

  7. Swift语言学习之OC和Swift混编

    本文转自http://www.helloswift.com.cn/swiftbase/2015/0112/3469.html iOS OC和Swift混编 1.创建一个swift或者oc的工程:我这里 ...

  8. C++常量(C++数值常量、字符串常量、符号常量)

    http://see.xidian.edu.cn/cpp/biancheng/view/104.html 字符串常量 用双撇号括起来的部分就是字符串常量,如"abc"," ...

  9. word双栏排版,最后一页由于分节符造成最后一页是空白页,删除分节符双栏就变成了单栏

    遇到这个问题时,我们把心思都花在了如何“删除”这个空白页. 但是最有效的办法不是“删除”,而是(以word2007为例): Word 2007中文版: 鼠标放在最后一页,点击页面布局①,选择页面布局右 ...

  10. mysql 批处理文件--- 创建 用户 以及 导入数据

    在window下,通过批处理文件(.bat),进行开启MYSQL服务,导入数据文件(.sql) 1)新建一个txt文件,写入以下内容 rem 启动mysql56服务  mysql56是我的mysql服 ...