原作者:http://blog.csdn.net/wj_j2ee/article/details/7161586

1. 内核转储作用

(1) 内核转储的最大好处是能够保存问题发生时的状态。

(2) 只要有可执行文件和内核转储,就可以知道进程当时的状态。

(3) 只要获取内核转储,那么即使没有复现环境,也能调试。

2. 启用内核转储

1.1 查看内核转储是否有效

在终端中输入以下命令,查看内核转储是否有效。

#ulimit -c

0

-c 表示内核转储文件的大小限制,现在显示为零,表示不能用。

可以改为1G

#ulimit -c 1073741824

也可以改为无限制

#ulimit -c unlimited

2.2 测试一个例子

例子的源代码:

#include <stdio.h>

int main(void)

{

int *a = NULL;

*a = 0x1;

return 0;

}

把以上源代码,写成一个a.c文件后,编译a.c文件产生一个a.out的可执行文件:

#gcc -g a.c -o a.out

修改a.out文件的权限后,执行它:

#./a.out

就会显示:

Segmentation fault(core dump)

这表示在当前目录下, 已经生成了a.out对应的内核转储文件。

注意:后面带有(core dump), 才说明转储文件成功生成了。

#file core*

core:ELF 64-bit LSB core file x86-64, version 1(SYSV), SVR4-style, from './a.out'

coreDump: UTF-8 Unicode C program text

要用GDB调试内核转储文件,应该使用以下方式启动GDB:

#gdb -c ./*.core ./a.out

GNU gdb (GDB) 7.1-Ubuntu

...

Core was generated by './a.out'.

Program terminated with signal 11, Segmentation fault.

#0 0x00000000004004dc in main() at a.c:6

6 *a =0x1;

a.c的第6行收到了11号信号。用GDB的list命令可以查看附近的源代码。

(gdb) l 5

1            #include <stdio.h>

2

3            int main(void)

4            {

5                   int *a = NULL;

6                   *a = 0x1;

7                   return 0;

8            }

这里默认都是当前目录,也可以给core 和a.out 指定路径

到这里测试完成!

2.3 永久生效的办法

上面所述的方法,只是在当前shell中生效,重启之后,就不再有效了。永久生效的办法是:

#vi /etc/profile 然后,在profile中添加:

ulimit -c 1073741824

(但是,若将产生的转储文件大小大于该数字时,将不会产生转储文件)

或者

ulimit -c unlimited

这样重启机器后生效了。 或者, 使用source命令使之马上生效。

#source /etc/profile

3. 指定内核转储的文件名和目录

缺省情况下,内核在coredump时所产生的core文件放在与该程序相同的目录中,并且文件名固定为core。很显然,如果有多个程序产生core文件,或者同一个程序多次崩溃,就会重复覆盖同一个core文件。

我们可以通过修改kernel的参数,指定内核转储所生成的core文件的路径和文件名。

可以通过在/etc/sysctl.conf文件中,对sysctl变量kernel.core_pattern的设置。

#vi /etc/sysctl.conf 然后,在sysctl.conf文件中添加下面两句话:

kernel.core_pattern = /var/core/core_%e_%p

kernel.core_uses_pid = 0

保存后退出。

需要说明的是, /proc/sys/kernel/core_uses_pid。如果这个文件的内容被配置成1,即使core_pattern中没有设置%p,最后生成的core dump文件名仍会加上进程ID。

这里%e, %p分别表示:

%c 转储文件的大小上限

%e 所dump的文件名

%g 所dump的进程的实际组ID

%h 主机名

%p 所dump的进程PID

%s 导致本次coredump的信号

%t 转储时刻(由1970年1月1日起计的秒数)

%u 所dump进程的实际用户ID

可以使用以下命令,使修改结果马上生效。

#sysctl –p /etc/sysctl.conf

请在/var目录下先建立core文件夹,然后执行a.out程序,就会在/var/core/下产生以指定格式命名的内核转储文件。查看转储文件的情况:

#ls /var/core

core_a.out_2834

4. 手动强制某个进程产生core dump的方法(尝试)

当某些程序发生crash时,对应进程会产生coredump文件。通过这个coredump文件,开发人员可以找到bug的原因。但是coredump的产生,大都是因为程序crash了。

而有些bug是不会导致程序crash的,比如死锁,这时程序已经不正常了,可是却没有coredump产生。如果环境又不允许gdb调试,难道我们就束手无策了吗?

针对以上这种情况,一般情况下,对于这样的进程可以利用watchdog监控它们,当发现这些进程很长时间没有更新其heartbeat时,可以给这些进程发送可以导致其产生coredump的信号。根据linux的信号默认的处理行为,SIGQUIT,SIGABRT, SIGFPE和SIGSEGV都可以让该进程产生coredump文件。这样我们可以通过coredump来得知死锁是否发生。 当然, 如果进程添加了这些信号的处理函数,那么就不会产生coredump了。不过,对于SIGQUIT, SIGABRT, SIGFPE, SIGSEGV,有谁会为它们加上信号处理函数呢。

还有一种情况,进程并没有死锁或者block在某个位置,但是我们需要在某个指定位置进行调试,获取某些变量或者其它信息。但是,有可能是客户环境或者生产环境,不允许我们进行长时间的检测。那么,我们就需要通过coredump来获得进程在运行到该点时的快照。 这个时候,可以利用gdb来手工产生coredump。在attach上这个进程时,在指定位置打上断点,当断点触发时,使用gdb的命令gcore,可以立即产生一个coredump。 这样,我们就拿到了这个位置的进程快照。

1.寻找您要发送信号的进程ID,

# ps -ef  | grep qemu

root      3207  3206 44 10:32 pts/1    00:00:18 /usr/local/bin/qemu-system-x86

得出 qemu-system-x86的 PID号是3207

2.使用kill(1)去发送信号。

# /bin/kill -s QUIT 3207

发送其他的信号也很相似, 只要在命令行中替换QUIT 为ABRT,TERM 或 KILL 就行了

重要提示: 在系统上随意杀死进程是一个坏主意,特别是init(8),它的PID是1,它非常特殊。 可以运行 /bin/kill -s KILL 1 命令来让系统迅速关机。  当您按下 Return (回车)键之前, 一定要 详细检查您运行 kill(1) 时所指定的参数。

5 使用core dump进行调试

在Linux下遇到“段错误”(segmentation fault),如果段错误发生在服务器端,而服务器端要继续工作,不允许调试,这时“内核转储(core dump)”就派上了用场,可以把生成的内核转储复制到本地进行调试。

首先,按照上面的永久生效方法,在服务器上进行相应设置。 然后程序在崩溃时,就会在程序所在目录(或自己指定的目录)生成一个core文件,把这个core文件拷到本地(最好与该进程对应的可执行文件放到同一个目录,若不然,在gdb时指出路径也可以)。

具体方法如下:

方法一:

输入命令 #gdb <程序可执行文件> <coredump转储文件>

例如:

# gdb /usr/local/bin/qemu-system-x86_64  /var/core/core-3207-qemu-system-x86

然后,在(gdb)提示符后输入 l,  会显示main主函数

方法二:

(1) 在终端输入命令# gdb [-c] <coredump文件>,

例如: gdb -c /var/core/core-3207-qemu-system-x86

(2)然后,在(gdb)提示符后输入file <可执行程序>

例如:(gdb) file  /usr/local/bin/qemu-system-x86_64

(3) 这时就可以用backtrace/thread等命令查看当时的错误了,就像程序在本地执行到崩溃点一样

或者用where回车, 也可以显示程序在哪一行当掉的

5. 启用整个系统的内核转储

(未完待续......)

(4.1) 编辑/etc/profile, 开启登录到系统的所有用户的内核转储功能

首先,看看用的是个什么机器:

# uname –a

Linux ubuntu240 2.6.32-21-server #32-Ubuntu SMP Fri Apr 16 09:17:34 UTC 2010 x86_64 GNU/Linux

其次,再查看一些默认参数,若core file size是0,即使程序出错时,也不会产生core文件。

# ulimit -a

core file size              (blocks, -c) unlimited

data seg size              (kbytes, -d) unlimited

scheduling priority               (-e) 20

file size                  (blocks, -f) unlimited

pending signals                  (-i) 16382

max locked memory        (kbytes, -l) 64

max memory size         (kbytes, -m) unlimited

open files                      (-n) 1024

pipe size              (512 bytes, -p) 8

POSIX message queues     (bytes, -q) 819200

real-time priority                (-r) 0

stack size                (kbytes, -s) 8192

cpu time                (seconds, -t) unlimited

max user processes              (-u) unlimited

virtual memory           (kbytes, -v) unlimited

file locks                      (-x) unlimited

6.使用内核转储掩码来排除要转储的内存块

你可能会因为不希望设置ulimit 的时候太僵硬导致空间不够没有得到完整的转储,所以设置ulimit 为"unlimited" (不限制)。但是如果执行一个占用内存很恐怖的程序,当这个程序内核转储的时候也就会生成体积很恐怖的转储文件。

为了避免这种情况,可以指定内核转储掩码来排除要转储的内存段。

掩码请查看/usr/src/linux/Documentation/sysctl/kernel.txt 中的3.4 小节,没有内核源码可以到这里的网络版,这里摘录出来如下:

The following 7 memory types are supported:
  - (bit 0) anonymous private memory(匿名私有内存段)
  - (bit 1) anonymous shared memory(匿名共享内存段)
  - (bit 2) file-backed private memory(file-backed 私有内存段)
  - (bit 3) file-backed shared memory(file-bakced 共享内存段)
  - (bit 4) ELF header pages in file-backed private memory areas (it is
            effective only if the bit 2 is cleared)(ELF 文件映射,只有在bit 2 复位的时候才起作用)
  - (bit 5) hugetlb private memory(大页面私有内存)
  - (bit 6) hugetlb shared memory(大页面共享内存)

设置方法很简单:找到程序的PID,然后修改/proc/PID/coredump_filter 的值。

如果你要设置某些还没有运行的进程的内核转储掩码,请修改/proc/self/coredump_filter 的值。

PS

a. 默认的coredump_filter 的值一般是0x23,至于代表什么,请换成二进制00100011,从右向左看,bit 0、bit 1、bit
5 被置位,也就是说会转储所有的匿名内存段和大页面私有内存段。

b. 共享内存段都是一样的,可以不必转储。

7. 在系统中全局设置转储功能

全局设置没有什么好说的,把你的配置写入/etc/profile.d/ 目录下任意一个新建的文件当中,别忘了设置属组和所有者为root:root,权限为751。

根据上面说的,写入的要有一条ulimit 指令,可能还有一条sysctl 指令,最后可能还有一条cat 指令。

更多的设置请查看上面提到的kernel.txtproc.txt,例如你想把SUID
程序也转储,你需要

sysctl -w 'fs.suid_dumpable=1'

关于内核转储(core dump)的设置方法的更多相关文章

  1. Linux 下如何产生core文件(core dump设置)

    转自:https://blog.csdn.net/star_xiong/article/details/43529637 今天在Linux下调试C程序时,出现段错误,习惯性的ls下当前目录,发现没有生 ...

  2. linux下core dump

    1.前言 一直在从事linux下后台开发,经常与core文件打交道.还记得刚开始从事linux下开发时,程序突然崩溃了,也没有任何日志.我不知所措,同事叫我看看core,我却问什么是core,怎么看. ...

  3. Linux Core Dump

    当程序运行的过程中异常终止或崩溃,操作系统会将程序当时的内存状态记录下来,保存在一个文件中,这种行为就叫做Core Dump(中文有的翻译成“核心转储”).我们可以认为 core dump 是“内存快 ...

  4. Linux Core Dump【转】

    转自:http://www.cnblogs.com/hazir/p/linxu_core_dump.html 当程序运行的过程中异常终止或崩溃,操作系统会将程序当时的内存状态记录下来,保存在一个文件中 ...

  5. 在Linux上利用core dump和GDB调试

    段错误(segfault) "段错误"是程序试图操作不允许访问或试图访问的不允许内存的情况.可能导致段错误的原因主要有: 1.试图解引用空指针(你不允许访问内存地址0) 2.试图解 ...

  6. 在Linux上利用core dump和GDB调试segfault

    时常会遇到段错误(segfault),调试非常费劲,除了单元测试和基本测试外,有些时候是在在线环境下,没有基本开发和测试工具,这就需要调试的技能.以前介绍过使用strace进行系统调试和追踪<l ...

  7. linux (core dump)调试

    转自 http://www.cnblogs.com/hazir/p/linxu_core_dump.html Linux Core Dump 当程序运行的过程中异常终止或崩溃,操作系统会将程序当时的内 ...

  8. gdb调试常用实用命令和core dump文件的生成

      1.生成core dump文件的方法: $  ulimit -c //查看是否为0 如果为0 $   ulimit -c unlimited 这样在程序崩溃以后会在当前目录生成一个core.xxx ...

  9. gdb调试常用实用命令和core dump文件的生成(转)

    1.生成core dump文件的方法: $  ulimit -c //查看是否为0 如果为0 $   ulimit -c unlimited 这样在程序崩溃以后会在当前目录生成一个core.xxxx的 ...

随机推荐

  1. 《java入门第一季》之面向对象(匿名对象)

    /* 匿名对象:就是没有名字的对象. 匿名对象的应用场景: A:调用方法,仅仅只调用一次的时候. 注意:调用多次的时候,不适合. 匿名对象调用完毕就是垃圾.可以被垃圾回收器回收,释放了系统资源. B: ...

  2. 如何编写51单片机超声波测距SR04_lcd1602显示程序

    超声波测距在我们日常生活中很常见,比如说车在倒退的时候,为了防止车撞到障碍物,会在车尾加上一个超声波测距模块.在智能车比赛中,也有超声波测距模块等等.可见超声波非常的重要,接下来,我们上代码研究一下如 ...

  3. Linux网络设置(第二版) --Linux网络设置

    Linux网络设置 --网络配置文件与命令 个 附- 服务程序可以不使用固定端口,但是一般对外公开的WebServer不会改变端口,但是像SSH一般推荐更改,可以回避扫描 nmap [IP地址] #扫 ...

  4. WIN7电脑文件莫名其妙被删除后的恢复

    今天早上打开电脑,发现电脑F盘下的WINCE600文件夹下有剩下一小部分文件,绝大部分文件都找不到了,但是我记得自己没有删除过,而且在回收站也没有找到这些被删除的文件,怎恢复呢,今天尝试使用Recov ...

  5. Dll的编写 在unity中加载

    1. 在VS中新建Dll项目 2.在头文件中对函数进行声明 extern "C" int _declspec(dllexport) testunity(); 3.在源文件中写函数体 ...

  6. OpenCV——PS图层混合算法(六)

    具体的算法原理可以参考: PS图层混合算法之六(差值,溶解, 排除) // PS_Algorithm.h #ifndef PS_ALGORITHM_H_INCLUDED #define PS_ALGO ...

  7. Android的启动过程分析(从进程和Framework的角度)-android学习之旅(98)

    Android的启动过程包含从Linux加载到home程序运行的过程,如下图所示: 1.linux内核: Android是基于Linux内核的系统平台.启动时,首先通过bootloader加载LInu ...

  8. rails将类常量重构到数据库对应的表之后记

    怎么还有啊!别急,有强迫症的人伤不起!有点小事没说完感觉痒痒的:就是如果表payment_types经常变动该怎么办?每次都要关闭rails网页服务器,然后重启吗?那也太麻烦鸟,最终的解决方案是,在O ...

  9. AngularJS:何时应该使用Directive、Controller、Service?

    AngularJS:何时应该使用Directive.Controller.Service? (这篇文章你们一定要看,尤其初学的人,好吗亲?) 大漠穷秋 译 AngularJS是一款非常强大的前端MVC ...

  10. hadoop配置文件详解系列(二)-hdfs-site.xml篇

    上一篇介绍了core-site.xml的配置,本篇继续介绍hdfs-site.xml的配置. 属性名称 属性值 描述 hadoop.hdfs.configuration.version 1 配置文件的 ...