关键词:khungtaskd、TASK_UNINTERRUPTIBLE、nvcsw、nivcsw、last_switch_count等等。

经常会遇到内核打印“INFO: task xxx:xxx blocked for more than 120 seconds.”这样的log信息,这是内核的hung task机制在起作用。

hung task机制通过内核线程khungtaskd来实现的,khungtaskd监控TASK_UNINTERRUPTIBLE状态的进程,如果在120s周期内没有切换,就会打印详细信息。

1. hung task背景

处于D状态,即TASK_UNINTERRUPTIBLE状态的进程,不能接收kill信号。

如果一个进程长期处于D状态,用户往往无能为力。

进程处于长期处于D状态是不正常的,内核设计D状态目的是为了让进程等待IO完成,正常情况下IO应该会瞬息完成,然后唤醒响应D装固态进程。

即使在异常情况下,IO处理也有超时机制,原则上不应是进程长期处于D状态。

如果进程长期处于D状态,一是IO设备损坏,或者是内核中存在bug或机制不合理,导致进程长期处于D状态,无法唤醒。

针对这种情况,内核提供了hung task机制用于检测系统中是否有处于D状态进程超过120s没有切换过;如果存在则打印相关警告和堆栈。

2. hung task基本原理

hung task的实现通过创建khungtaskd内核线程,定期120s唤醒一次;

然后遍历内核所有进程,需要满足两个条件:进程处于TASK_UNINTERRUPTIBLE,并且nvcsw+nivcsw==last_switch_count;

最后打印进程信息和堆栈。

3. hung task代码分析

3.1 task_strcut中hung task相关成员

在进行hung task分析之前,需要了解struct task_strcut中的state、nvcsw、nivcsw、last_switch_count几个成员含义。

struct task_struct {
...
volatile long state; /* -1 unrunnable, 0 runnable, >0 stopped */---------------当前进程状态,TASK_UNINTERRUPTIBLE表示进程不会被打断。
...
unsigned long nvcsw, nivcsw; /* context switch counts */--------------------------nvcsw表示进程主动切换次数,nivcsw表示进程被动切换次数,两者之和就是进程总的切换次数。...
#ifdef CONFIG_DETECT_HUNG_TASK
/* hung task detection */
unsigned long last_switch_count;--------------------------------------------------这个变量只有两个地方修改,一是在新建进程的时候设置初始值last_switch_count=nvcsw+nivcsw。另一个是在khungtaskd中进行更新。
#endif
...
};

3.2 khungtaskd线程创建

watchdog()是khuangtaskd线程主函数,线程每隔sysctl_hung_task_timeout_secs醒来一次,调用check_hung_uninterruptible_tasks()检查所有进程。

static int watchdog(void *dummy)
{
unsigned long hung_last_checked = jiffies; set_user_nice(current, );---------------------------------------------------设置当前进程nice为0,即普通优先级。 for ( ; ; ) {
unsigned long timeout = sysctl_hung_task_timeout_secs;-------------------获取进程hung时间上限。
long t = hung_timeout_jiffies(hung_last_checked, timeout); if (t <= ) {
if (!atomic_xchg(&reset_hung_task, ))
check_hung_uninterruptible_tasks(timeout);
hung_last_checked = jiffies;
continue;
}
schedule_timeout_interruptible(t);-----------------------------------------休眠sysctl_hung_task_timeout_secs秒。
} return ;
} static int __init hung_task_init(void)
{
atomic_notifier_chain_register(&panic_notifier_list, &panic_block);------------注册panic通知链,在panic时执行相关操作。
watchdog_task = kthread_run(watchdog, NULL, "khungtaskd");---------------------创建内核线程khungtaskd。 return ;
}
subsys_initcall(hung_task_init);

panic_block注册到panic_notifier_list通知链表上,如果系统产生panic,那么did_panic就会被置1。

static int
hung_task_panic(struct notifier_block *this, unsigned long event, void *ptr)
{
did_panic = ; return NOTIFY_DONE;
} static struct notifier_block panic_block = {
.notifier_call = hung_task_panic,
};

3.3 检查进程是否hung

check_hung_uninterruptible_tasks()遍历内核中所有进程、线程,首先判断状态是否是TASK_UNINTERRUPTIBLE。

static void check_hung_uninterruptible_tasks(unsigned long timeout)
{
int max_count = sysctl_hung_task_check_count;-------------------检测最大进程数,默认为最大进程号。
int batch_count = HUNG_TASK_BATCHING;---------------------------每次遍历进程数上限1024。
struct task_struct *g, *t; /*
* If the system crashed already then all bets are off,
* do not report extra hung tasks:
*/
if (test_taint(TAINT_DIE) || did_panic)
return; rcu_read_lock();
for_each_process_thread(g, t) {
if (!max_count--)
goto unlock;
if (!--batch_count) {
batch_count = HUNG_TASK_BATCHING;
if (!rcu_lock_break(g, t))--------------------------------防止rcu_read_lock占用过长时间。释放rcu,并主动调度。调度回来后检查响应进程是否还在,不在则退出遍历,否则继续。
goto unlock;
}
/* use "==" to skip the TASK_KILLABLE tasks waiting on NFS */
if (t->state == TASK_UNINTERRUPTIBLE)-------------------------khungtaskd只监控TASK_UNINTERRUPTIBLE状态的进程线程。
check_hung_task(t, timeout);
}
unlock:
rcu_read_unlock();
} static void check_hung_task(struct task_struct *t, unsigned long timeout)
{
unsigned long switch_count = t->nvcsw + t->nivcsw;----------------表示线程总的切换次数,包括主动和被动的。 /*
* Ensure the task is not frozen.
* Also, skip vfork and any other user process that freezer should skip.
*/
if (unlikely(t->flags & (PF_FROZEN | PF_FREEZER_SKIP)))
return; /*
* When a freshly created task is scheduled once, changes its state to
* TASK_UNINTERRUPTIBLE without having ever been switched out once, it
* musn't be checked.
*/
if (unlikely(!switch_count))
return; if (switch_count != t->last_switch_count) {-------------------------如果总切换次数和last_switch_count不等,表示在上次khungtaskd更新last_switch_count之后就发生了进程切换;反之,相等则表示120s时间内没有发生切换。
t->last_switch_count = switch_count;----------------------------更新last_switch_count。
return;
} trace_sched_process_hang(t); if (!sysctl_hung_task_warnings && !sysctl_hung_task_panic)----------如果不使能warning和panic,返回。
return; /*
* Ok, the task did not get scheduled for more than 2 minutes,
* complain:
*/
if (sysctl_hung_task_warnings) {------------------------------------hung task错误打印次数限制,默认为10次,整个系统运行期间最多打印10次。
sysctl_hung_task_warnings--;
pr_err("INFO: task %s:%d blocked for more than %ld seconds.\n",
t->comm, t->pid, timeout);
pr_err(" %s %s %.*s\n",
print_tainted(), init_utsname()->release,
(int)strcspn(init_utsname()->version, " "),
init_utsname()->version);
pr_err("\"echo 0 > /proc/sys/kernel/hung_task_timeout_secs\""
" disables this message.\n");
sched_show_task(t);----------------------------------------------显示进程ID、名称、状态以及栈等信息。
debug_show_all_locks();------------------------------------------如果使能debug_locks,则打印进程持有的锁。
} touch_nmi_watchdog(); if (sysctl_hung_task_panic) {
trigger_all_cpu_backtrace();
panic("hung_task: blocked tasks");
}
}

下面看一下进程详细信息:

void sched_show_task(struct task_struct *p)
{
unsigned long free = ;
int ppid;
unsigned long state = p->state; if (!try_get_task_stack(p))
return;
if (state)
state = __ffs(state) + ;
printk(KERN_INFO "%-15.15s %c", p->comm,
state < sizeof(stat_nam) - ? stat_nam[state] : '?');------------------进程名称和状态,这里应该是D。
if (state == TASK_RUNNING)
printk(KERN_CONT " running task ");
#ifdef CONFIG_DEBUG_STACK_USAGE
free = stack_not_used(p);
#endif
ppid = ;
rcu_read_lock();
if (pid_alive(p))
ppid = task_pid_nr(rcu_dereference(p->real_parent));
rcu_read_unlock();
printk(KERN_CONT "%5lu %5d %6d 0x%08lx\n", free,
task_pid_nr(p), ppid,
(unsigned long)task_thread_info(p)->flags);------------------------------free表示栈空闲量;第二个表示线程/进程pid;第三个表示父进程pid;最后一个表示进程的flags。 print_worker_info(KERN_INFO, p);
show_stack(p, NULL);
put_task_stack(p);
}

如下log可以得到recvComm进程,pid为175,父进程为148,当前状态是D;当前hung的栈是read调用,卡在usb_sourceslink_read()函数。

4. 对khungtaskd的配置

通过sysctl或者在/proc/sys/kernel/中进行配置:

hung_task_panic------------------------是否在检测到hung后panic,默认值0

hung_task_check_count---------------最大检查task数量,默认值32768

hung_task_timeout_secs--------------超时时间,默认值120

hung_task_warnings--------------------打印hung warning的次数,默认值10

还可以通过bootargs对hung后是否panic进行设置。

/*
* Should we panic (and reboot, if panic_timeout= is set) when a
* hung task is detected:
*/
unsigned int __read_mostly sysctl_hung_task_panic =
CONFIG_BOOTPARAM_HUNG_TASK_PANIC_VALUE; static int __init hung_task_panic_setup(char *str)
{
int rc = kstrtouint(str, , &sysctl_hung_task_panic); if (rc)
return rc;
return ;
}
__setup("hung_task_panic=", hung_task_panic_setup);

Linux Hung Task分析的更多相关文章

  1. kernel 3.10内核源码分析--hung task机制

    kernel 3.10内核源码分析--hung task机制 一.相关知识: 长期以来,处于D状态(TASK_UNINTERRUPTIBLE状态)的进程 都是让人比较烦恼的问题,处于D状态的进程不能接 ...

  2. hung task机制

    最近在修改内核源码的时候一直出现格式化磁盘的时候,进程会出现状态D,看内核日志会看到如下信息: INFO: task filebench: blocked seconds. Oct :: localh ...

  3. linux用户进程分析

           经过实验3的介绍.我们须要来点实在的.所以将我们理解的流程用于linux系统的分析.换句话说.通过类比的方式去进行描写叙述与理解linux相关的部分. 本节的内容非常详实.并且也分析 ...

  4. 【原创】Linux信号量机制分析

    背景 Read the fucking source code! --By 鲁迅 A picture is worth a thousand words. --By 高尔基 说明: Kernel版本: ...

  5. 《Unix/Linux网络日志分析与流量监控》获2015年度最受读者喜爱的IT图书奖

    <Unix/Linux网络日志分析与流量监控>获2015年度最受读者喜爱的IT图书奖.刊登在<中华读书报>( 2015年01月28日 19 版) 我的2015年新作刊登在< ...

  6. Linux Bluetooth内核分析

    目录 1. 初始化 2. hci部分 Linux提供了对Bluetooth的支持,核心代码位于net/bluetooth 1. 初始化 主要由subsys_initcall调用函数bt_init()来 ...

  7. Linux之kernal分析与启动20160610

    说一下LINUX内核的分析与启动: 一. 内核启动流程,据此配置内核(机器ID) 1.1 修改Makefile 1.2 选择默认配置 : make s3c2410_defconfig 1.3 make ...

  8. linux源码分析2

    linux源码分析 这里使用的linux版本是4.8,x86体系. 这篇是 http://home.ustc.edu.cn/~boj/courses/linux_kernel/1_boot.html  ...

  9. Linux网络地址转换分析

    Linux网络地址转换分析 地址转换用来改变源/目的端口,是netfilter的一部分,也是通过hook点上注册相应的结构来工作. Nat注册的hook点和conntrack相同,只是优先级不同,数据 ...

随机推荐

  1. [一] java8 函数式编程入门 什么是函数式编程 函数接口概念 流和收集器基本概念

      本文是针对于java8引入函数式编程概念以及stream流相关的一些简单介绍 什么是函数式编程?   java程序员第一反应可能会理解成类的成员方法一类的东西 此处并不是这个含义,更接近是数学上的 ...

  2. JavaScript 循环语句

    while     while循环由两个代码块组成,分别是条件语句和循环体. while ( [条件] ) { [循环体] } while循环类似于if语句,不同的是while循环将不断地执行循环体直 ...

  3. python之字符串反转

    def main(): a = "abcdefg" a = a[::-1] print(a) if __name__ == '__main__': main()

  4. Python全栈开发之---redis数据库

    1.redis简介 redis是一个key-value存储系统.和Memcached类似,它支持存储的value类型相对更多,包括string(字符串).list(链表).set(集合).zset(s ...

  5. permissions is only granted to system apps 错误

    permissions is only granted to system apps androidstudio中: File - Setting - Editor - Inspections, An ...

  6. 阿里巴巴TXD前端小报 - 2019年3月刊

    原文:前端小报 - 201903月刊 Fundebug经授权转载,版权归原作者所有. [Alibaba-TXD 前端小报]- 热门前端技术快报,聚焦业界新视界:不知不觉 2019 年已经过去了 1/4 ...

  7. es6的let,const

    1.es6 新增的let const 命令 let用来定义一个局部变量,故名思意就是只在当前代码块可用 1.1 let 声明的变量不存在变量提升(var 声明的变量存在变量提升)且代码块内 暂时性死区 ...

  8. DataSnap 多层返回数据集分析FireDAC JSON

    采用服务器返回数据,一种是返回字符串数据例如JSON,跨平台跨语言,任何语言调用都支持兼容,类似WEBService. 第二种是紧密结合c++builder语言,传输DataSet,可以是Client ...

  9. PJSUA2开发文档--第四章 端点ENDPOINT

    4.端点ENDPOINT Endpoint类是一个单例类,应用程序必须在此类实例之前创建一个并且最多只能创建一个,然后才能执行任何操作.同样,一旦这个类被销毁,应用程序就不能调用该库的任何API.这个 ...

  10. C#-事件event

    目录 1. 简介 2.实际案例 2.1实际案例1 2.2实际案例2--带有参数的事件 3.标准事件的用法 3.1通过扩展EventArgs来传递数据 3.2代码实例 1. 简介 事件是一种类型安全的委 ...