Linux内核调试方法总结之Call Trace
内核态call trace
内核态有三种出错情况,分别是bug, oops和panic。
bug属于轻微错误,比如在spin_lock期间调用了sleep,导致潜在的死锁问题,等等。
oops代表某一用户进程出现错误,需要杀死用户进程。这时如果用户进程占用了某些信号锁,这些信号锁将永远不会得到释放,就会导致系统潜在的不稳定性。注意oops本身不会导致系统crash,只有打开panic on oops选项才会触发panic导致系统crash。
panic是严重错误,代表整个系统崩溃。
oops
Linux oops时,会进入traps.c中的die函数。
int die(const char *str, struct pt_regs *regs, long err)
... ...
show_regs(regs);
void show_regs(struct pt_regs * regs)函数中,会调用show_stack函数,这个函数会打印系统的内核态堆栈。具体原理为:
从寄存器里找到当前栈,在栈指针里会有上一级调用函数的栈指针,根据这个指针回溯到上一级的栈,依次类推。
在powerpc的EABI标准中,当前栈的栈底(注意是栈底,不是栈顶,即Frame Header的地址)指针保存在寄存器GPR1中。在GPR1指向的栈空间,第一个DWORD为上一级调用函数的Frame Header指针(Back Chain Word),第二个DWORD是当前函数在上一级函数中的返回地址(LR Save Word)。通过此种方式一级级向上回溯,完成整个call dump。除了这种方法,内建函数__builtin_frame_address函数理论上也应该能用,虽然在内核中没有见到。(2.6.29的 ftrace模块用到了__builtin_return_address函数)。
show_regs函数在call trace的时候,只是用printk打印了一下栈中的信息。如果当前系统没有终端,那就需要修改内核,把这些栈信息根据需求保存到其它地方。
例如,可以在系统的flash中开出一块空间专门用于打印信息的保存。然后,写一个内核模块,再在die函数中加一个回调函数。这样,每当回调函数 被调用,就通知自定义的内核模块,在模块中可以把调用栈还有其它感兴趣的信息保存到那块专用flash空间中去。这里有一点需要注意的是,oops时内核 可能不稳定,所以为了确保信息能被正确写入flash,在写flash的函数中尽量不要用中断,而用轮循的方式。另外信号量、sleep等可能导致阻塞的 函数也不要使用。
此外,由于oops时系统还在运行,所以可以发一个消息(信号,netlink等)到用户空间,通知用户空间做一些信息收集工作。
panic
panic时,Linux处于更最严重的错误状态,标志着整个系统不可用,即中断、进程调度等都已经停止,但栈还没被破坏。所以,oops中的栈回溯理论上还是能用。printk函数中因为没有阻塞,也还是能够使用。
用户态call trace
用户程序可以在以下情形call trace,以方便调试:
1) 程序崩溃时,都会收到一个信号。Linux系统接收到某些信号时会自动打印call trace。
2) 在用户程序中添加检查点,类似于assert机制,如果检查点的条件不满足,就执行call trace。
用户态的call trace与内核态相同,同样满足EABI标准,原理如下:
在GNU标准中,有一个内建函数__builtin_frame_address。这个函数可以返回当前执行上下文的栈底(Frame Header)指针(同时也是指向Back Chain Word的指针),通过这个指针得到当前调用栈。而这个调用栈中,会有上一级调用函数的栈底指针,通过这个指针再回溯到上一级的调用栈。以此类推完成整个 call dump过程。
得到函数的地址后,可以通过符号表得到函数名字。如果是动态库中定义的函数,还可以通过扩展函数dladdr得到这个函数的动态库信息。
Linux内核调试方法总结之Call Trace的更多相关文章
- Linux内核调试方法总结
Linux内核调试方法总结 一 调试前的准备 二 内核中的bug 三 内核调试配置选项 1 内核配置 2 调试原子操作 四 引发bug并打印信息 1 BUG()和BUG_ON() 2 ...
- Linux内核调试方法总结【转】
转自:http://my.oschina.net/fgq611/blog/113249 内核开发比用户空间开发更难的一个因素就是内核调试艰难.内核错误往往会导致系统宕机,很难保留出错时的现场.调试内核 ...
- 【转】Linux内核调试方法总结
目录[-] 一 调试前的准备 二 内核中的bug 三 内核调试配置选项 1 内核配置 2 调试原子操作 四 引发bug并打印信息 1 BUG()和BUG_ON() 2 dump_sta ...
- Linux内核调试方法【转】
转自:http://www.cnblogs.com/shineshqw/articles/2359114.html kdb:只能在汇编代码级进行调试: 优点是不需要两台机器进行调试. gdb:在调试模 ...
- Linux内核调试方法总结之反汇编
Linux反汇编调试方法 Linux内核模块或者应用程序经常因为各种各样的原因而崩溃,一般情况下都会打印函数调用栈信息,那么,这种情况下,我们怎么去定位问题呢?本文档介绍了一种反汇编的方法辅助定位此类 ...
- Linux内核调试方法总结之栈帧
栈帧 栈帧和指针可以说是C语言的精髓.栈帧是一种特殊的数据结构,在C语言函数调用时,栈帧用来保存当前函数的父一级函数的栈底指针,当前函数的局部变量以及被调用函数返回后下一条汇编指令的地址.如下图所示: ...
- Linux内核调试方法总结之序言
本系列主要介绍Linux内核死机.异常重启类稳定性问题的调试方法. 在Linux系统中,一切皆为文件,而系统运行的载体,是一类特殊的文件,即进程.因此,我尝试从进程的角度分析Linux内核的死机.异常 ...
- Linux内核调试方法总结之coredump
什么是core dump? 分析core dump是Linux应用程序调试的一种有效方式,像内核调试抓取ram dump一样,core dump主要是获取应用程序崩溃时的现场信息,如程序运行时的内存. ...
- Linux内核调试方法总结之ptrace
ptrace [用途] 进程跟踪器,类似于gdb watch的调试方法 [原理][详细说明参考man ptrace帮助文档] ptrace系统调用主要是父进程用来观察和控制子进程的执行过程.检查并替换 ...
随机推荐
- [CQOI2012]模拟工厂 题解(搜索+贪心)
[CQOI2012]模拟工厂 题解(搜索+贪心) 标签:题解 阅读体验:https://zybuluo.com/Junlier/note/1327574 链接题目地址:洛谷P3161 BZOJ P26 ...
- [LeetCode] 92. 反转链表 II
题目链接 : https://leetcode-cn.com/problems/reverse-linked-list-ii/ 题目描述: 反转从位置 m 到 n 的链表.请使用一趟扫描完成反转. 说 ...
- 针对Vue相同路由不同参数的刷新问题
在使用vue和vue-router开发spa应用时,我们会遇到这样一种问题.当页面跳转时,组件本身并没有发生改变: // 路由映射关系'/form/:type' // 当前页面路由/form/shop ...
- ASP.NET CORE 2.2 MVC 学习
百度云链接:https://pan.baidu.com/s/1_iSy3wq4Jegr6j_AH9nobA 提取码:n152
- 【问题解决方案】Centos操作文件vim-No write since last change (add ! to override)
参考链接 CSDN:Centos 7 操作文件No write since last change (add ! to override) 问题描述: :q或者:wq退出失败,显示如No write ...
- Codeforces Round #427 (Div. 2) - D
题目链接:http://codeforces.com/contest/835/problem/D 题意:给定一个字符串,定义kth回文是左半部分等于右半部分,并且左半部分和右半部分都是(k-1)th回 ...
- fhq_treap || BZOJ 3224: Tyvj 1728 普通平衡树 || Luogu P3369 【模板】普通平衡树
题面:[模板]普通平衡树 代码: #include<cstdio> #include<cstring> #include<iostream> #include< ...
- linux如何在shell中自动生成1到100的数组
之前自己在写shell脚本的时候,需要自动创建1-100的文本确不知道该如何去创建.百度一翻终于知道了创建的方法. 在shell脚本中创建1-100的方法很多,那我在这里主要就说两种容易理解且方便的方 ...
- php内置函数分析之current()、next()、prev()、reset()、end()
current()初始指向插入到数组中的第一个单元 next() 将数组的内部指针向前移动一位 prev() 将数组的内部指针倒回一位 reset() 将数组的内部指针指向第一个单元 end() 将数 ...
- Jmeter性能测试结果分析:响应时间为什么是下降的趋势?
测试图数据库:边的插入,递增并发量,6000并发平均响应时间比7000的并发的平均响应时间还要大? 7000并发的99%用户响应时间是70.99,平均响应时间怎么就是38.59了? 一共两 ...