转自:http://blog.jobbole.com/88279/

众所周知,C/C++语言本身并不支持垃圾回收机制,虽然语言本身具有极高的灵活性,但是当遇到大型的项目时,繁琐的内存管理往往让人痛苦异常。现代的C/C++类库一般会提供智能指针来作为内存管理的折中方案,比如STL的auto_ptr,Boost的Smart_ptr库,QT的QPointer家族,甚至是基于C语言构建的GTK+也通过引用计数来实现类似的功能。Linux内核是如何解决这个问题呢?同样作为C语言的解决方案,Linux内核采用的也是引用计数的方式。如果您更熟悉C++,可以把它类比为Boost的shared_ptr,或者是QT的QSharedPointer。

在Linux内核里,引用计数是通过 struct kref 结构来实现的。在介绍如何使用 kref 之前,我们先来假设一个情景。假如您开发的是一个字符设备驱动,当设备插上时,系统自动建立一个设备节点,用户通过文件操作来访问设备节点。

如上图所示,最左边的绿色框图表示实际设备的插拔动作,中间黄色的框图表示内核中设备对象的生存周期,右边蓝色的框图表示用户程序系统调用的顺序。如果用户程序正在访问的时候设备突然被拔掉,驱动程序里的设备对象是否立刻释放呢?如果立刻释放,用户程序执行的系统调用一定会发生内存非法访问;如果要等到用户程序close之后再释放设备对象,我们应该怎么来实现?kref就是为了解决类似的问题而生的。

kref的定义非常简单,其结构体里只有一个原子变量。

1
2
3
struct kref {
 atomic_t refcount;
};

Linux内核定义了下面三个函数接口来使用kref:

1
2
3
void kref_init(struct kref *kref);
void kref_get(struct kref *kref);
int kref_put(struct kref *kref, void (*release) (struct kref *kref));

我们先通过一段伪代码来了解一下如何使用kref。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
struct my_obj
{
 int val;
 struct kref refcnt;
};
 
struct my_obj *obj;
 
void obj_release(struct kref *ref)
{
 struct my_obj *obj = container_of(ref, struct my_obj, refcnt);
 kfree(obj);
}
 
device_probe()
{
 obj = kmalloc(sizeof(*obj), GFP_KERNEL);
 kref_init(&obj->refcnt);
}
 
device_disconnect()
{
 kref_put(&obj->refcnt, obj_release);
}
 
.open()
{
 kref_get(&obj->refcnt);
}
 
.close()
{
 kref_put(&obj->refcnt, obj_release);
}

在这段代码里,我们定义了obj_release来作为释放设备对象的函数,当引用计数为0时,这个函数会被立刻调用来执行真正的释放动作。我们先在device_probe里把引用计数初始化为1,当用户程序调用open时,引用计数又会被加1,之后如果设备被拔掉,device_disconnect会减掉一个计数,但此时refcnt还不是0,设备对象obj并不会被释放,只有当close被调用之后,obj_release才会执行。

看完伪代码之后,我们再来实战一下。为了节省篇幅,这个实作并没有建立一个字符设备,只是通过模块的加载和卸载过程来对感受一下kref。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
#include <linux/kernel.h>
#include <linux/module.h>
 
struct my_obj {
 int val;
 struct kref refcnt;
};
 
struct my_obj *obj;
 
void obj_release(struct kref *ref)
{
 struct my_obj *obj = container_of(ref, struct my_obj, refcnt);
 printk(KERN_INFO "obj_release\n");
 kfree(obj);
}
 
static int __init kreftest_init(void)
{
 printk(KERN_INFO "kreftest_init\n");
 obj = kmalloc(sizeof(*obj), GFP_KERNEL);
 kref_init(&obj->refcnt);
 return 0;
}
 
static void __exit kreftest_exit(void)
{
 printk(KERN_INFO "kreftest_exit\n");
 kref_put(&obj->refcnt, obj_release);
 return;
}
 
module_init(kreftest_init);
module_exit(kreftest_exit);
 
MODULE_LICENSE("GPL");

通过kbuild编译之后我们得到kref_test.ko,然后我们顺序执行以下命令来挂载和卸载模块。

sudo insmod ./kref_test.ko

sudo rmmod kref_test

此时,系统日志会打印出如下消息:

kreftest_init

kreftest_exit

obj_release

这正是我们预期的结果。

有了kref引用计数,即使内核驱动写的再复杂,我们对内存管理也应该有信心了吧。

接下来主要介绍几点使用kref时的注意事项。

Linux内核文档kref.txt罗列了三条规则,我们在使用kref时必须遵守。

规则一:

If you make a non-temporary copy of a pointer, especially if it can be passed to another thread of execution, you must increment the refcount with kref_get() before passing it off;

规则二:

When you are done with a pointer, you must call kref_put();

规则三:

If the code attempts to gain a reference to a kref-ed structure without already holding a valid pointer, it must serialize access where a kref_put() cannot occur during the kref_get(), and the structure must remain valid during the kref_get().

对于规则一,其实主要是针对多条执行路径(比如另起一个线程)的情况。如果是在单一的执行路径里,比如把指针传递给一个函数,是不需要使用kref_get的。看下面这个例子:

1
2
3
4
5
6
7
8
9
10
11
12
13
kref_init(&obj->ref);
 
// do something here
// ...
 
kref_get(&obj->ref);
call_something(obj);
kref_put(&obj->ref);
 
// do something here
// ...
 
kref_put(&obj->ref);

您是不是觉得call_something前后的一对kref_get和kref_put很多余呢?obj并没有逃出我们的掌控,所以它们确实是没有必要的。

但是当遇到多条执行路径的情况就完全不一样了,我们必须遵守规则一。下面是摘自内核文档里的一个例子:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
struct my_data
{
 .
 .
 struct kref refcount;
 .
 .
};
 
void data_release(struct kref *ref)
{
 struct my_data *data = container_of(ref, struct my_data, refcount);
 kfree(data);
}
 
void more_data_handling(void *cb_data)
{
 struct my_data *data = cb_data;
 .
 . do stuff with data here
 .
 kref_put(&data->refcount, data_release);
}
 
int my_data_handler(void)
{
 int rv = 0;
 struct my_data *data;
 struct task_struct *task;
 data = kmalloc(sizeof(*data), GFP_KERNEL);
 if (!data)
 return -ENOMEM;
 kref_init(&data->refcount);
 
 kref_get(&data->refcount);
 task = kthread_run(more_data_handling, data, "more_data_handling");
 if (task == ERR_PTR(-ENOMEM)) {
 rv = -ENOMEM;
 goto out;
 }
 
 .
 . do stuff with data here
 .
 out:
 kref_put(&data->refcount, data_release);
 return rv;
}

因为我们并不知道线程more_data_handling何时结束,所以要用kref_get来保护我们的数据。

注意规则一里的那个单词“before”,kref_get必须是在传递指针之前进行,在本例里就是在调用kthread_run之前就要执行kref_get,否则,何谈保护呢?

对于规则二我们就不必多说了,前面调用了kref_get,自然要配对使用kref_put。

规则三主要是处理遇到链表的情况。我们假设一个情景,如果有一个链表摆在你的面前,链表里的节点是用引用计数保护的,那你如何操作呢?首先我们需要获得节点的指针,然后才可能调用kref_get来增加该节点的引用计数。根据规则三,这种情况下我们要对上述的两个动作串行化处理,一般我们可以用mutex来实现。请看下面这个例子:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
static DEFINE_MUTEX(mutex);
static LIST_HEAD(q);
struct my_data
{
 struct kref refcount;
 struct list_head link;
};
 
static struct my_data *get_entry()
{
 struct my_data *entry = NULL;
 mutex_lock(&mutex);
 if (!list_empty(&q)) {
 entry = container_of(q.next, struct my_q_entry, link);
 kref_get(&entry->refcount);
 }
 mutex_unlock(&mutex);
 return entry;
}
 
static void release_entry(struct kref *ref)
{
 struct my_data *entry = container_of(ref, struct my_data, refcount);
 
 list_del(&entry->link);
 kfree(entry);
}
 
static void put_entry(struct my_data *entry)
{
 mutex_lock(&mutex);
 kref_put(&entry->refcount, release_entry);
 mutex_unlock(&mutex);
}

这个例子里已经用mutex来进行保护了,假如我们把mutex拿掉,会出现什么情况?记住,我们遇到的很可能是多线程操作。如果线程A在用container_of取得entry指针之后、调用kref_get之前,被线程B抢先执行,而线程B碰巧又做的是kref_put的操作,当线程A恢复执行时一定会出现内存访问的错误,所以,遇到这种情况一定要串行化处理。

我们在使用kref的时候要严格遵循这三条规则,才能安全有效的管理数据。

Linux 内核里的“智能指针”【转】的更多相关文章

  1. [翻译]Linux 内核里的数据结构 —— 基数树

    目录 Linux 内核里的数据结构 -- 基数树 基数树 Radix tree Linux内核基数树API 链接 Linux 内核里的数据结构 -- 基数树 基数树 Radix tree 正如你所知道 ...

  2. Linux 内核里的数据结构:位图(bitmap)

    注: 本文由 LCTT 原创翻译,Linux中国 荣誉推出 Linux 内核中的位数组和位操作 除了不同的基于链式和树的数据结构以外,Linux 内核也为位数组(或称为位图(bitmap))提供了 A ...

  3. Linux 内核里的数据结构:双向链表

    原文:https://blog.csdn.net/qq_33487044/article/details/78827260 双向链表 Linux 内核自己实现了双向链表,可以在 include/lin ...

  4. Linux内核里的DebugFS

    DebugFS,顾名思义,是一种用于内核调试的虚拟文件系统,内核开发者通过debugfs和用户空间交换数据.类似的虚拟文件系统还有procfs和sysfs等,这几种虚拟文件系统都并不实际存储在硬盘上, ...

  5. (转)C++11里的智能指针

    1. std::auto_ptr有些违背c++编程思想. 已经被"不建议使用了".2. 下文转自:http://blog.csdn.net/lanergaming/article/ ...

  6. linux内核里的字符串转换 ,链表操作常用函数(转)

    1.对双向链表的具体操作如下: list_add ———向链表添加一个条目 list_add_tail ———添加一个条目到链表尾部 __list_del_entry ———从链表中删除相应的条目 l ...

  7. Linux 内核里的数据结构:红黑树(rb-tree)

    转自:https://www.cnblogs.com/slgkaifa/p/6780299.html 作为一种数据结构.红黑树可谓不算朴素.由于各种宣传让它过于神奇,网上搜罗了一大堆的关于红黑树的文章 ...

  8. 真正理解红黑树,真正的(Linux内核里大量用到的数据结构,且常被二货问到)

    作为一种数据结构.红黑树可谓不算朴素.由于各种宣传让它过于神奇,网上搜罗了一大堆的关于红黑树的文章,不外乎千篇一律,介绍概念,分析性能,贴上代码,然后给上罪恶的一句话.它最坏情况怎么怎么地...    ...

  9. Linux内核【链表】整理笔记(1)

    我们都知道Linux内核里的双向链表和学校里教给我们的那种数据结构还是些不一样.Linux采用了一种更通用的设计,将链表以及其相关操作函数从数据本身进行剥离,这样我们在使用链表的时候就不用自己去实现诸 ...

随机推荐

  1. 沉迷Link-Cut tree无法自拔之:[BZOJ2594][Wc2006]水管局长数据加强版

    来自蒟蒻 \(Hero \_of \_Someone\) 的 \(LCT\) 学习笔记 $ $ 这应该算是道套路题吧, 如果将图中的边转换成点, 再将边权变点权, 就可以用 \(LCT\) 来维护了 ...

  2. [luogu1962]斐波那契数列

    来提供两个正确的做法: 斐波那契数列双倍项的做法(附加证明) 矩阵快速幂 一.双倍项做法 在偶然之中,在百度中翻到了有关于斐波那契数列的词条(传送门),那么我们可以发现一个这个规律$ \frac{F_ ...

  3. emwin之多次删除同一窗口导致死机现象

    @218-7-24 [现象] 使用函数 GUI_EndDialog() 多次删除同一窗口,导致系统死机,调试发现代码会卡死在以下两处 > 1.启动文件中 > 2.HardFault中断内 ...

  4. hdu3072 Intelligence System (最小树形图?)

    题意:给一个有向图,问要从0号点能到达所有点所需要经过路径的最小权值和是多少,然而,若两点强联通,则这两点互相到达不需要花费.保证0号点能到达所有点 tarjan缩点以后直接取每个点入边中花费最小的即 ...

  5. bzoj1494 生成树计数 (dp+矩阵快速幂)

    题面欺诈系列... 因为一个点最多只能连到前k个点,所以只有当前的连续k个点的连通情况是对接下来的求解有用的 那么就可以计算k个点的所有连通情况,dfs以下发现k=5的时候有52种. 我们把它们用类似 ...

  6. GNOME Shell Extension常用扩展

    这篇博文的,主要目的是为了方便我和大家安装GNOME扩展.我将我安装过的所有扩展列在此处. 常用扩展 Clipboard Indicator https://extensions.gnome.org/ ...

  7. 【洛谷P1073】最优贸易

    题目大意:给定一个 N 个点,M 条边(存在反向边)的有向图,点有点权,求一条从 1 到 N 的路径上,任意选出两个点 p,q (p 在前,q在后),两点点权的差值最大. 根据最短路的 dp 思想,可 ...

  8. HashMap 与 ConcurrentHashMap 在初始化不同大小容量时,实际分配的空间情况

    HashMap.java  int capacity = 1;      int initialCapacitys[] = {1,2,3,4,5,6,7,8,9,10,11,13,15,16,17,2 ...

  9. javascript高级程序设计第二章知识点提炼

    这是我整理的javascript高级程序设计第二章的脑图,内容也是非常浅显与简单.希望您看了我的博客能够给我一些意见或者建议.

  10. centos7部署posgresql和kong总结

    之前在macos系统测试安装psql和kong,但是实际环境中,大部分是部署在linux服务器上.下面记录了在centos7上部署postgresql和kong的总结以及遇到的一些问题的解决. 查看c ...