Technorati 标签: Kernel Panic

出现原因

1. Linux在中断处理程序中,它不处于任何一个进程上下文,如果使用可能睡眠的函数,则系统调度会被破坏,导致kernel panic。因此,在中断处理程序中,是不能使用有可能导致睡眠的函数(例如信号量等)。

在中断发起的软中断中,其上下文环境有可能是中断上下文,同理,也不能调用可能导致睡眠的函数。软中断执行时,全局中断是打开的,而中断程序执行时,全局中断是禁止的。

软中断除了系统调度进入点,当软中断数量频繁时,内核中有一个专门的软中断的后台程序daemon来处理其事务。

 

2. 内核堆栈溢出,或者指针异常访问时,会出现kernel panic。

    堆栈溢出:程序循环或者多层嵌套的深度过多时,可能会导致栈溢出。参考Linux的内存模型

 

3. 除0异常、内存访问越界、缓冲区溢出等错误时,当这些事件发生在应用程序时,Linux内核的异常处理机制可以对这些由应用程序引起的情况予以处理。当应用程序出现不可恢复性错误时,Linux内核可以仅仅终止产生错误的应用程序,而不影响其他程序。

  如果上述操作发生在内核空间,就会引起kernel panic。

4. 内核陷入死锁状态,自旋锁有嵌套使用的情况。

5. 在内核线程中,存在死循环的操作。

 

解决方法

1. 全部排查内核中可能造成睡眠的函数调用地方。如果是自己写的模块,则在调用睡眠函数之前打印出特征日志,以备查验。

     在内核代码中的特定位置加入printk调试调用,直接把需要关心的信息打印到屏幕上,从而得知程序执行的路径。

2. 在可疑的地方,调用dump_stack()函数或者__backtrace(),打印当前CPU的堆栈调用函数。

3. 打开Linux内核的崩溃转储机制(kdump机制,生产vmcore文件),当系统crash时,将内存内容保存到磁盘,或者通过网络发送到故障服务器,或者直接使用内核调试器。crash工具用于调试内核崩溃转储文件。

详细测试方法:Crash工具实战-变量解析

5. 使用内核自带的 notify_chain机制。Linux内核提供“通知链”功能,并预定义了一个内核崩溃通知链。当kernel panic时,异常处理程序会沿着预定义的通知链顺序调用注册到通知链中的通知函数。

6. 在RedHat、StackOverflow、查找出现bug的历史解决方案,

7. 调试方法,采用kprobe来调试内核。Kprobe在Linux kernel debug中的应用

8. 对于一些未定义指令的错误,在出现的错误log中 ,Oops - undefined instruction: 0 [#1] PREEMPT SMP ARM,结合原始镜像的system.map文件,来定位。参考链接:Linux kernel crash analysis

9. systemtap调试工具

10. gcore工具

 

-------------------------------2014-08-08分界线------------------------------------------------

在学习Linux中,从《LInux内核设计与实现》里面,看到一本《Linux 内核精髓:精通Linux内核必会的75个绝技》,这本书是日本人高桥浩和写的,在书籍的合住作者,大岩尚宏,他编写了《Debug Hack》一书,这本是有关Linux内核调试的书籍,大喜。真是按图索骥,逐渐发现新的宝贝书籍。

 

内核调试工具介绍以及使用

    Kdb

  kdb是Linux内核的补丁,提供了一种在系统运行时,对内核内存和数据结构进行检查的方法,不是源码级别的调试工具。kdb主要目标在于开发和诊断一些内核的问题。

  打开KALLSYMS:General setup-->Configure standard kernel features-->Load all symblos for debugging/ksymoops

  开启kdb服务

 

     Kprobe

     kprobe(内核探测,kernel probe)是一个动态地收集调试和性能信息的工具,如:收集寄存器和全局数据结构等调试信息,无需对Linux内核频繁编译和启动。用户可以在任何内核代码地址进行陷阱,指定调试断点触发时的处理例程。工作机制是:用户指定一个探测点,并把用户定义的处理函数关联到该探测点,当内核执行到该探测点时,相应的关联函数被执行,然后继续执行正常的代码路径。

 

     Kprobes 提供了一个强行进入任何内核例程并从中断处理器无干扰地收集信息的接口

    Kprobes 向运行的内核中给定地址写入断点指令,插入一个探测器。执行被探测的指令会导致断点错误。Kprobes 钩住(hook in)断点处理器并收集调试信息。Kprobes 甚至可以单步执行被探测的指令。

内核探测分为kprobe, jprobe和kretprobe(也称return probe,返回探测)三种。

kprobe可插入内核中任何指令处;

jprobe插入内核函数入口,方便于访问函数的参数;

return probe用于探测指定函数的返回值。

内核配置

CONFIG_KPROBES                  General Setup--->Kprobe

CONFIG_MODULES                  √             

CONFIG_MODULE_UNLOAD   √

CONFIG_KALLSYMS_ALL                   General Setup--->Configure standard kernel configuration-->Include all symbols in kallsyms

CONFIG_KALLSYMS                           General Setup--->Configure standard kernel configuration-->Load all symbols for debugging/ksymoops

CONFIG_KALLSYMS_EXTRA_PASS    General setup-->Configure standard kernel features-->Load all symbols for debugging/ksymoops

CONFIG_DEBUG_INFO                       Kernel hacking-->Kernel debugging-->Compile the kernel with debug info

CONFIG_DEBUG_FS                           Kernel hacking-->Debug Filesystem

让内核支持DEBUGFS,使能宏CONFIG_DEBUG_FS

CONFIG_RELAY: General Setup -> user spacerelay support

编译通过,不过生成的镜像文件太大,要精简。

去掉I2C和MMC卡驱动的支持,

PPP网络支持,       Device  Drivers--->Netowork device supprot-->PPP protocol

去掉WiFI的支持      Device  Drivers--->Netowork device supprot-->Wireless LAN protocol

去掉WiFi支持后,编译成的内核大小为1.28M可以使用了。

经过查阅资料得知,kprobe的使用,还需要有debugfs调试文件系统的配合,因此,需要让系统启动时,生成debugfs目录

Kernel Panic常见原因以及解决方法的更多相关文章

  1. 稳定性专题 | StackOverFlowError 常见原因及解决方法

    导读 『StabilityGuide』是阿里多位阿里技术工程师共同发起的稳定性领域的知识库开源项目,涵盖性能压测.故障演练.JVM.应用容器.服务框架.流量调度.监控.诊断等多个技术领域,以更结构化的 ...

  2. NoSuchMethodError 常见原因及解决方法

    相 关 阅 读 导读 『StabilityGuide』是阿里多位阿里技术工程师共同发起的稳定性领域的知识库开源项目,涵盖性能压测.故障演练.JVM.应用容器.服务框架.流量调度.监控.诊断等多个技术领 ...

  3. .NET 3.5 安装错误的四个原因及解决方法

    .net framework 3.5 安装错误的四个常见原因及解决方法,飓风软件站整理,转载请注明. 1.清除所有版本 .NET Framework  安装错误后在系统中遗留的文件: 如果您以往安装过 ...

  4. MySQL CPU 使用率高的原因和解决方法

    用户在使用 MySQL 实例时,会遇到 CPU 使用率过高甚至达到 100% 的情况.本文将介绍造成该状况的常见原因以及解决方法,并通过 CPU 使用率为 100% 的典型场景,来分析引起该状况的原因 ...

  5. coreseek常见错误原因及解决方法

    coreseek常见错误原因及解决方法 Coreseek 中文全文检索引擎 Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和 ...

  6. [Python Debug]Kernel Crash While Running Neural Network with Keras|Jupyter Notebook运行Keras服务器宕机原因及解决方法

    最近做Machine Learning作业,要在Jupyter Notebook上用Keras搭建Neural Network.结果连最简单的一层神经网络都运行不了,更奇怪的是我先用iris数据集跑了 ...

  7. Servlet常见错误及解决方法

    常见错误及解决方法 1. 404产生的原因为Web服务器(容器)根据请求地址找不到对应资源,以下情况都会出现404的错误提示: 输入的地址有误(应用名大小写不正确,名称拼写不正确) 在web.xml文 ...

  8. DedeTag Engine Create File False提示的种种原因及解决方法

    DedeTag Engine Create File False提示的种种原因及解决方法 第一种情况:站点.文件夹权限不足造成无法建立文件 这种情况的出现,一方面可能是Apache设置的读写权限较严格 ...

  9. 需要我们了解的SQL Server阻塞原因与解决方法

    需要我们了解的SQL Server阻塞原因与解决方法 上篇说SQL Server应用模式之OLTP系统性能分析.五种角度分析sql性能问题.本章依然是SQL性能 五种角度其一“阻塞与死锁” 这里通过连 ...

随机推荐

  1. 【android】在eclipse中查看genymotion模拟器的sd卡文件夹

    假设用google自带模拟器或者真机调试时,sd卡文件夹是在/mnt/sdcard.这个相信大家都知道. 但是今天用genymotion调试时.发现根本打不开/mnt/sdcard这个文件夹,当时也没 ...

  2. Java基础:Collection—List&Set

    List和Set: List可以将元素维护在特定的序列中.它的特点是有序,允许重复元素出现.最常见的List的实现类是:ArrayList. Set的特点是:无序,不保存重复元素.当尝试将重复的元素添 ...

  3. Linux堆内存管理深入分析

    (上半部) 作者:走位@阿里聚安全 前言 近年来,漏洞挖掘越来越火,各种漏洞挖掘.利用的分析文章层出不穷.从大方向来看,主要有基于栈溢出的漏洞利用和基于堆溢出的漏洞利用两种.国内关于栈溢出的资料相对较 ...

  4. oracle SELECT INTO 和 INSERT INTO SELECT 两种表复制语句详解

    我们经常会遇到需要表复制的情况,如将一个table1的数据的部分字段复制到table2中,或者将整个table1复制到table2中,这时候我们就要使用SELECT INTO 和 INSERT INT ...

  5. SSH Spring3\Java1.8 “Unable to instantiate Action, xxAction, defined for 'xxAction_login' in namespace '/'null”

    1.Stacktraces Unable to instantiate Action,xxAction, defined for 'xxAction_login' in namespace '/'nu ...

  6. The method load(Class, Serializable) in the type HibernateTemplate is not applicable for the arguments (Class, int)

    引入别人的项目发现利用HibernateTemplate的load的方法报错了.错误提示为: The method load(Class, Serializable) in the type Hibe ...

  7. Curl上传文件

    curl -v -XPOST -H /thumbnail

  8. 用css做类似表格的布局

    --2013年6月24日12:08:49 今天突然不想用table了,就在园子里找了几个用css的解决办法,直接上代码: --1.html代码: <!DOCTYPE html PUBLIC &q ...

  9. Toad for Oracle 12.1下载地址

    32 位版: http://us-downloads.quest.com/Repository/support.quest.com/Toad for Oracle/12.1/Software/Toad ...

  10. hdu 4325 树状数组+离散化

    思路:这题的思路很容易想到,把所有时间点离散化,然后按时间一步一步来,当到达时间i的时候处理所有在i处的查询. 这个代码怎一个挫字了得 #include<iostream> #includ ...