Kernel Panic常见原因以及解决方法
出现原因
1. Linux在中断处理程序中,它不处于任何一个进程上下文,如果使用可能睡眠的函数,则系统调度会被破坏,导致kernel panic。因此,在中断处理程序中,是不能使用有可能导致睡眠的函数(例如信号量等)。
在中断发起的软中断中,其上下文环境有可能是中断上下文,同理,也不能调用可能导致睡眠的函数。软中断执行时,全局中断是打开的,而中断程序执行时,全局中断是禁止的。
软中断除了系统调度进入点,当软中断数量频繁时,内核中有一个专门的软中断的后台程序daemon来处理其事务。
2. 内核堆栈溢出,或者指针异常访问时,会出现kernel panic。
堆栈溢出:程序循环或者多层嵌套的深度过多时,可能会导致栈溢出。参考Linux的内存模型
3. 除0异常、内存访问越界、缓冲区溢出等错误时,当这些事件发生在应用程序时,Linux内核的异常处理机制可以对这些由应用程序引起的情况予以处理。当应用程序出现不可恢复性错误时,Linux内核可以仅仅终止产生错误的应用程序,而不影响其他程序。
如果上述操作发生在内核空间,就会引起kernel panic。
4. 内核陷入死锁状态,自旋锁有嵌套使用的情况。
5. 在内核线程中,存在死循环的操作。
解决方法
1. 全部排查内核中可能造成睡眠的函数调用地方。如果是自己写的模块,则在调用睡眠函数之前打印出特征日志,以备查验。
在内核代码中的特定位置加入printk调试调用,直接把需要关心的信息打印到屏幕上,从而得知程序执行的路径。
2. 在可疑的地方,调用dump_stack()函数或者__backtrace(),打印当前CPU的堆栈调用函数。
3. 打开Linux内核的崩溃转储机制(kdump机制,生产vmcore文件),当系统crash时,将内存内容保存到磁盘,或者通过网络发送到故障服务器,或者直接使用内核调试器。crash工具用于调试内核崩溃转储文件。
详细测试方法:Crash工具实战-变量解析
5. 使用内核自带的 notify_chain机制。Linux内核提供“通知链”功能,并预定义了一个内核崩溃通知链。当kernel panic时,异常处理程序会沿着预定义的通知链顺序调用注册到通知链中的通知函数。
6. 在RedHat、StackOverflow、查找出现bug的历史解决方案,
7. 调试方法,采用kprobe来调试内核。Kprobe在Linux kernel debug中的应用
8. 对于一些未定义指令的错误,在出现的错误log中 ,Oops - undefined instruction: 0 [#1] PREEMPT SMP ARM,结合原始镜像的system.map文件,来定位。参考链接:Linux kernel crash analysis
9. systemtap调试工具
10. gcore工具
-------------------------------2014-08-08分界线------------------------------------------------
在学习Linux中,从《LInux内核设计与实现》里面,看到一本《Linux 内核精髓:精通Linux内核必会的75个绝技》,这本书是日本人高桥浩和写的,在书籍的合住作者,大岩尚宏,他编写了《Debug Hack》一书,这本是有关Linux内核调试的书籍,大喜。真是按图索骥,逐渐发现新的宝贝书籍。
内核调试工具介绍以及使用
Kdb
kdb是Linux内核的补丁,提供了一种在系统运行时,对内核内存和数据结构进行检查的方法,不是源码级别的调试工具。kdb主要目标在于开发和诊断一些内核的问题。
打开KALLSYMS:General setup-->Configure standard kernel features-->Load all symblos for debugging/ksymoops
开启kdb服务
Kprobe
kprobe(内核探测,kernel probe)是一个动态地收集调试和性能信息的工具,如:收集寄存器和全局数据结构等调试信息,无需对Linux内核频繁编译和启动。用户可以在任何内核代码地址进行陷阱,指定调试断点触发时的处理例程。工作机制是:用户指定一个探测点,并把用户定义的处理函数关联到该探测点,当内核执行到该探测点时,相应的关联函数被执行,然后继续执行正常的代码路径。
Kprobes 提供了一个强行进入任何内核例程并从中断处理器无干扰地收集信息的接口
Kprobes 向运行的内核中给定地址写入断点指令,插入一个探测器。执行被探测的指令会导致断点错误。Kprobes 钩住(hook in)断点处理器并收集调试信息。Kprobes 甚至可以单步执行被探测的指令。
内核探测分为kprobe, jprobe和kretprobe(也称return probe,返回探测)三种。
kprobe可插入内核中任何指令处;
jprobe插入内核函数入口,方便于访问函数的参数;
return probe用于探测指定函数的返回值。
内核配置
CONFIG_KPROBES General Setup--->Kprobe
CONFIG_MODULES √
CONFIG_MODULE_UNLOAD √
CONFIG_KALLSYMS_ALL General Setup--->Configure standard kernel configuration-->Include all symbols in kallsyms
CONFIG_KALLSYMS General Setup--->Configure standard kernel configuration-->Load all symbols for debugging/ksymoops
CONFIG_KALLSYMS_EXTRA_PASS General setup-->Configure standard kernel features-->Load all symbols for debugging/ksymoops
CONFIG_DEBUG_INFO Kernel hacking-->Kernel debugging-->Compile the kernel with debug info
CONFIG_DEBUG_FS Kernel hacking-->Debug Filesystem
让内核支持DEBUGFS,使能宏CONFIG_DEBUG_FS
CONFIG_RELAY: General Setup -> user spacerelay support
编译通过,不过生成的镜像文件太大,要精简。
去掉I2C和MMC卡驱动的支持,
PPP网络支持, Device Drivers--->Netowork device supprot-->PPP protocol
去掉WiFI的支持 Device Drivers--->Netowork device supprot-->Wireless LAN protocol
去掉WiFi支持后,编译成的内核大小为1.28M可以使用了。
经过查阅资料得知,kprobe的使用,还需要有debugfs调试文件系统的配合,因此,需要让系统启动时,生成debugfs目录
Kernel Panic常见原因以及解决方法的更多相关文章
- 稳定性专题 | StackOverFlowError 常见原因及解决方法
导读 『StabilityGuide』是阿里多位阿里技术工程师共同发起的稳定性领域的知识库开源项目,涵盖性能压测.故障演练.JVM.应用容器.服务框架.流量调度.监控.诊断等多个技术领域,以更结构化的 ...
- NoSuchMethodError 常见原因及解决方法
相 关 阅 读 导读 『StabilityGuide』是阿里多位阿里技术工程师共同发起的稳定性领域的知识库开源项目,涵盖性能压测.故障演练.JVM.应用容器.服务框架.流量调度.监控.诊断等多个技术领 ...
- .NET 3.5 安装错误的四个原因及解决方法
.net framework 3.5 安装错误的四个常见原因及解决方法,飓风软件站整理,转载请注明. 1.清除所有版本 .NET Framework 安装错误后在系统中遗留的文件: 如果您以往安装过 ...
- MySQL CPU 使用率高的原因和解决方法
用户在使用 MySQL 实例时,会遇到 CPU 使用率过高甚至达到 100% 的情况.本文将介绍造成该状况的常见原因以及解决方法,并通过 CPU 使用率为 100% 的典型场景,来分析引起该状况的原因 ...
- coreseek常见错误原因及解决方法
coreseek常见错误原因及解决方法 Coreseek 中文全文检索引擎 Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和 ...
- [Python Debug]Kernel Crash While Running Neural Network with Keras|Jupyter Notebook运行Keras服务器宕机原因及解决方法
最近做Machine Learning作业,要在Jupyter Notebook上用Keras搭建Neural Network.结果连最简单的一层神经网络都运行不了,更奇怪的是我先用iris数据集跑了 ...
- Servlet常见错误及解决方法
常见错误及解决方法 1. 404产生的原因为Web服务器(容器)根据请求地址找不到对应资源,以下情况都会出现404的错误提示: 输入的地址有误(应用名大小写不正确,名称拼写不正确) 在web.xml文 ...
- DedeTag Engine Create File False提示的种种原因及解决方法
DedeTag Engine Create File False提示的种种原因及解决方法 第一种情况:站点.文件夹权限不足造成无法建立文件 这种情况的出现,一方面可能是Apache设置的读写权限较严格 ...
- 需要我们了解的SQL Server阻塞原因与解决方法
需要我们了解的SQL Server阻塞原因与解决方法 上篇说SQL Server应用模式之OLTP系统性能分析.五种角度分析sql性能问题.本章依然是SQL性能 五种角度其一“阻塞与死锁” 这里通过连 ...
随机推荐
- URAL 2046 A - The First Day at School 模拟题
A - The First Day at SchoolTime Limit: 20 Sec Memory Limit: 256 MB 题目连接 http://acm.hust.edu.cn/vjudg ...
- android UI进阶之实现listview的分页加载
上篇博文和大家分享了下拉刷新,这是一个用户体验非常好的操作方式.新浪微薄就是使用这种方式的典型. 还有个问题,当用户从网络上读取微薄的时候,如果一 下子全部加载用户未读的微薄这将耗费比较长的时间,造成 ...
- Excel转换成PDF
public class Office2Pdf { public bool DOCConvertToPDF(string sourcePath, string targetPath) { //Stre ...
- debian7编译内核
第一个步骤“配置内核”. 在这里,我比较建议在发行版默认的config的基础上再进行配置,这样 配置出的内核和发行版本身才会有更好的相容性.比如可以在运行“make menuconfig”之前执行命令 ...
- C#_uploadify_mvc_version
jQuery Uploadify在ASP.NET MVC3中的使用 1.Uploadify简介 Uploadify是基于jQuery的一种上传插件,支持多文件.带进度条显示上传,在项目开发中常被使用. ...
- Java中的DeskTop类
在Jdk1.6以后新增加了一个类--DeskTop,在JDK中它的解释是这样的: The Desktop class allows a Java application to launch a ...
- 沈逸老师PHP魔鬼特训笔记(2)
一.这一课会学习到几个懒人函数: 1.file_put_contents (PHP 5, PHP 7) file_put_contents — 将一个字符串写入文件 说明 int file_put_c ...
- a code snip
import java.util.ArrayList; import java.util.HashMap; import java.util.regex.Matcher; import java.ut ...
- oracle 逗号分割,列转行,行转列
SQL代码 列转行 select REGEXP_SUBSTR(a.rolecode ,,l) rolecode from ( select 'a,aa,aaa' rolecode from dual ...
- Objective-C ,ios,iphone开发基础:JSON解析(使用苹果官方提供的JSON库:NSJSONSerialization)
json和xml的普及个人觉得是为了简化阅读难度,以及减轻网络负荷,json和xml 数据格式在格式化以后都是一种树状结构,可以树藤摸瓜的得到你想要的任何果子. 而不格式化的时候json和xml 又是 ...