Linux 内核里的数据结构

Linux 内核里的数据结构
原文链接与说明
Linux 内核中的位数组和位操作
位数组声明
体系结构特定的位操作
通用位操作
链接

原文链接与说明

https://github.com/0xAX/linux-insides/blob/master/DataStructures/bitmap.md
本翻译文档原文选题自 Linux中国 ，翻译文档版权归属 Linux中国 所有

Linux 内核中的位数组和位操作

除了不同的基于链式和树的数据结构以外，Linux 内核也为位数组或位图提供了 API。位数组在 Linux 内核里被广泛使用，并且在以下的源代码文件中包含了与这样的结构搭配使用的通用 API：

除了这两个文件之外，还有体系结构特定的头文件，它们为特定的体系结构提供优化的位操作。我们将探讨 x86_64 体系结构，因此在我们的例子里，它会是

arch/x86/include/asm/bitops.h

头文件。正如我上面所写的，位图在 Linux 内核中被广泛地使用。例如，位数组常常用于保存一组在线/离线处理器，以便系统支持热插拔的 CPU（你可以在 cpumasks 部分阅读更多相关知识），一个位数组可以在 Linux 内核初始化等期间保存一组已分配的中断处理。

因此，本部分的主要目的是了解位数组是如何在 Linux 内核中实现的。让我们现在开始吧。

位数组声明

在我们开始查看位图操作的 API 之前，我们必须知道如何在 Linux 内核中声明它。有两中通用的方法声明位数组。第一种简单的声明一个位数组的方法是，定义一个 unsigned long 的数组，例如：

unsigned long my_bitmap[8]

第二种方法，是使用 DECLARE_BITMAP 宏，它定义于 include/linux/types.h 头文件：

#define DECLARE_BITMAP(name,bits) \

    unsigned long name[BITS_TO_LONGS(bits)]

我们可以看到 DECLARE_BITMAP 宏使用两个参数：

name - 位图名称;
bits - 位图中位数;

并且只是使用 BITS_TO_LONGS(bits) 元素展开 unsigned long 数组的定义。 BITS_TO_LONGS 宏将一个给定的位数转换为 longs 的个数，换言之，就是计算 bits 中有多少个 8 字节元素：

#define BITS_PER_BYTE           8

#define DIV_ROUND_UP(n,d) (((n) + (d) - 1) / (d))

#define BITS_TO_LONGS(nr)       DIV_ROUND_UP(nr, BITS_PER_BYTE * sizeof(long))

因此，例如 DECLARE_BITMAP(my_bitmap, 64) 将产生：

>>> (((64) + (64) - 1) / (64))

1

与：

unsigned long my_bitmap[1];

在能够声明一个位数组之后，我们便可以使用它了。

体系结构特定的位操作

我们已经看了以上一对源文件和头文件，它们提供了位数组操作的 API。其中重要且广泛使用的位数组 API 是体系结构特定的且位于已提及的头文件中 arch/x86/include/asm/bitops.h。

首先让我们查看两个最重要的函数：

set_bit;
clear_bit.

我认为没有必要解释这些函数的作用。从它们的名字来看，这已经很清楚了。让我们直接查看它们的实现。如果你浏览 arch/x86/include/asm/bitops.h 头文件，你将会注意到这些函数中的每一个都有原子性和非原子性两种变体。在我们开始深入这些函数的实现之前，首先，我们必须了解一些有关原子操作的知识。

简而言之，原子操作保证两个或以上的操作不会并发地执行同一数据。x86 体系结构提供了一系列原子指令，例如， xchg、cmpxchg 等指令。除了原子指令，一些非原子指令可以在 lock 指令的帮助下具有原子性。目前已经对原子操作有了充分的理解，我们可以接着探讨 set_bit 和 clear_bit 函数的实现。

我们先考虑函数的非原子性变体。非原子性的 set_bit 和 clear_bit 的名字以双下划线开始。正如我们所知道的，所有这些函数都定义于 arch/x86/include/asm/bitops.h 头文件，并且第一个函数就是 __set_bit:

static inline void __set_bit(long nr, volatile unsigned long *addr)

{

	asm volatile("bts %1,%0" : ADDR : "Ir" (nr) : "memory");

}

正如我们所看到的，它使用了两个参数：

nr - 位数组中的位号（从0开始，译者注）
addr - 我们需要置位的位数组地址

注意，addr 参数使用 volatile 关键字定义，以告诉编译器给定地址指向的变量可能会被修改。 __set_bit 的实现相当简单。正如我们所看到的，它仅包含一行内联汇编代码。在我们的例子中，我们使用 bts 指令，从位数组中选出一个第一操作数（我们的例子中的 nr）,存储选出的位的值到 CF 标志寄存器并设置该位（即 nr 指定的位置为1，译者注）。

注意，我们了解了 nr 的用法，但这里还有一个参数 addr 呢！你或许已经猜到秘密就在 ADDR。 ADDR 是一个定义在同一头文件的宏，它展开为一个包含给定地址和 +m 约束的字符串：

#define ADDR				BITOP_ADDR(addr)

#define BITOP_ADDR(x) "+m" (*(volatile long *) (x))

除了 +m 之外，在 __set_bit 函数中我们可以看到其他约束。让我们查看并试图理解它们所表示的意义：

+m - 表示内存操作数，这里的 + 表明给定的操作数为输入输出操作数;
I - 表示整型常量;
r - 表示寄存器操作数

除了这些约束之外，我们也能看到 memory 关键字，其告诉编译器这段代码会修改内存中的变量。到此为止，现在我们看看相同的原子性变体函数。它看起来比非原子性变体更加复杂：

static __always_inline void

set_bit(long nr, volatile unsigned long *addr)

{

	if (IS_IMMEDIATE(nr)) {

		asm volatile(LOCK_PREFIX "orb %1,%0"

			: CONST_MASK_ADDR(nr, addr)

			: "iq" ((u8)CONST_MASK(nr))

			: "memory");

	} else {

		asm volatile(LOCK_PREFIX "bts %1,%0"

			: BITOP_ADDR(addr) : "Ir" (nr) : "memory");

	}

}

（BITOP_ADDR 的定义为：#define BITOP_ADDR(x) "=m" (*(volatile long *) (x))，ORB 为字节按位或，译者注）

首先注意，这个函数使用了与 __set_bit 相同的参数集合，但额外地使用了 __always_inline 属性标记。 __always_inline 是一个定义于 include/linux/compiler-gcc.h 的宏，并且只是展开为 always_inline 属性：

#define __always_inline inline __attribute__((always_inline))

其意味着这个函数总是内联的，以减少 Linux 内核映像的大小。现在我们试着了解 set_bit 函数的实现。首先我们在 set_bit 函数的开头检查给定的位数量。IS_IMMEDIATE 宏定义于相同头文件，并展开为 gcc 内置函数的调用：

#define IS_IMMEDIATE(nr)		(__builtin_constant_p(nr))

如果给定的参数是编译期已知的常量，__builtin_constant_p 内置函数则返回 1，其他情况返回 0。假若给定的位数是编译期已知的常量，我们便无须使用效率低下的 bts 指令去设置位。我们可以只需在给定地址指向的字节和和掩码上执行按位或操作，其字节包含给定的位，而掩码为位号高位 1，其他位为 0。在其他情况下，如果给定的位号不是编译期已知常量，我们便做和 __set_bit 函数一样的事。CONST_MASK_ADDR 宏：

#define CONST_MASK_ADDR(nr, addr)	BITOP_ADDR((void *)(addr) + ((nr)>>3))

展开为带有到包含给定位的字节偏移的给定地址，例如，我们拥有地址 0x1000 和位号是 0x9。因为 0x9 是 一个字节 + 一位，所以我们的地址是 addr + 1:

>>> hex(0x1000 + (0x9 >> 3))

'0x1001'

CONST_MASK 宏将我们给定的位号表示为字节，位号对应位为高位 1，其他位为 0：

#define CONST_MASK(nr)			(1 << ((nr) & 7))

>>> bin(1 << (0x9 & 7))

'0b10'

最后，我们应用 按位或 运算到这些变量上面，因此，假如我们的地址是 0x4097 ，并且我们需要置位号为 9 的位为 1：

>>> bin(0x4097)

'0b100000010010111'

>>> bin((0x4097 >> 0x9) | (1 << (0x9 & 7)))

'0b100010'

第 9 位 将会被置位。（这里的 9 是从 0 开始计数的，比如0010，按照作者的意思，其中的 1 是第 1 位，译者注）

注意，所有这些操作使用 LOCK_PREFIX 标记，其展开为 lock 指令，保证该操作的原子性。

正如我们所知，除了 set_bit 和 __set_bit 操作之外，Linux 内核还提供了两个功能相反的函数，在原子性和非原子性的上下文中清位。它们为 clear_bit 和 __clear_bit。这两个函数都定义于同一个头文件并且使用相同的参数集合。不仅参数相似，一般而言，这些函数与 set_bit 和 __set_bit 也非常相似。让我们查看非原子性 __clear_bit 的实现吧：

static inline void __clear_bit(long nr, volatile unsigned long *addr)

{

	asm volatile("btr %1,%0" : ADDR : "Ir" (nr));

}

没错，正如我们所见，__clear_bit 使用相同的参数集合，并包含极其相似的内联汇编代码块。它仅仅使用 btr 指令替换 bts。正如我们从函数名所理解的一样，通过给定地址，它清除了给定的位。btr 指令表现得像 bts（原文这里为 btr，可能为笔误，修正为 bts，译者注）。该指令选出第一操作数指定的位，存储它的值到 CF 标志寄存器，并且清楚第二操作数指定的位数组中的对应位。

__clear_bit 的原子性变体为 clear_bit：

static __always_inline void

clear_bit(long nr, volatile unsigned long *addr)

{

	if (IS_IMMEDIATE(nr)) {

		asm volatile(LOCK_PREFIX "andb %1,%0"

			: CONST_MASK_ADDR(nr, addr)

			: "iq" ((u8)~CONST_MASK(nr)));

	} else {

		asm volatile(LOCK_PREFIX "btr %1,%0"

			: BITOP_ADDR(addr)

			: "Ir" (nr));

	}

}

并且正如我们所看到的，它与 set_bit 非常相似，同时只包含了两处差异。第一处差异为 clear_bit 使用 btr 指令来清位，而 set_bit 使用 bts 指令来置位。第二处差异为 clear_bit 使用否定的位掩码和 按位与 在给定的字节上置位，而 set_bit 使用 按位或 指令。

到此为止，我们可以在任何位数组置位和清位了，并且能够转到位掩码上的其他操作。

在 Linux 内核位数组上最广泛使用的操作是设置和清除位，但是除了这两个操作外，位数组上其他操作也是非常有用的。Linux 内核里另一种广泛使用的操作是知晓位数组中一个给定的位是否被置位。我们能够通过 test_bit 宏的帮助实现这一功能。这个宏定义于 arch/x86/include/asm/bitops.h 头文件，并展开为 constant_test_bit 或 variable_test_bit 的调用，这要取决于位号。

#define test_bit(nr, addr)			\

	(__builtin_constant_p((nr))                 \

	 ? constant_test_bit((nr), (addr))	        \

	 : variable_test_bit((nr), (addr)))

因此，如果 nr 是编译期已知常量，test_bit 将展开为 constant_test_bit 函数的调用，而其他情况则为 variable_test_bit。现在让我们看看这些函数的实现，我们从 variable_test_bit 开始看起：

static inline int variable_test_bit(long nr, volatile const unsigned long *addr)

{

	int oldbit;

	asm volatile("bt %2,%1\n\t"

		     "sbb %0,%0"

		     : "=r" (oldbit)

		     : "m" (*(unsigned long *)addr), "Ir" (nr));

	return oldbit;

}

variable_test_bit 函数调用了与 set_bit 及其他函数使用的相似的参数集合。我们也可以看到执行 bt 和 sbb 指令的内联汇编代码。bt 或 bit test 指令从第二操作数指定的位数组选出第一操作数指定的一个指定位，并且将该位的值存进标志寄存器的 CF 位。第二个指令 sbb 从第二操作数中减去第一操作数，再减去 CF 的值。因此，这里将一个从给定位数组中的给定位号的值写进标志寄存器的 CF 位，并且执行 sbb 指令计算： 00000000 - CF，并将结果写进 oldbit 变量。

constant_test_bit 函数做了和我们在 set_bit 所看到的一样的事：

static __always_inline int constant_test_bit(long nr, const volatile unsigned long *addr)

{

	return ((1UL << (nr & (BITS_PER_LONG-1))) &

		(addr[nr >> _BITOPS_LONG_SHIFT])) != 0;

}

它生成了一个位号对应位为高位 1，而其他位为 0 的字节（正如我们在 CONST_MASK 所看到的），并将按位与应用于包含给定位号的字节。

下一广泛使用的位数组相关操作是改变一个位数组中的位。为此，Linux 内核提供了两个辅助函数：

__change_bit;
change_bit.

你可能已经猜测到，就拿 set_bit 和 __set_bit 例子说，这两个变体分别是原子和非原子版本。首先，让我们看看 __change_bit 函数的实现：

static inline void __change_bit(long nr, volatile unsigned long *addr)

{

    asm volatile("btc %1,%0" : ADDR : "Ir" (nr));

}

相当简单，不是吗？ __change_bit 的实现和 __set_bit 一样，只是我们使用 btc 替换 bts 指令而已。该指令从一个给定位数组中选出一个给定位，将该为位的值存进 CF 并使用求反操作改变它的值，因此值为 1 的位将变为 0，反之亦然：

>>> int(not 1)

0

>>> int(not 0)

1

__change_bit 的原子版本为 change_bit 函数：

static inline void change_bit(long nr, volatile unsigned long *addr)

{

	if (IS_IMMEDIATE(nr)) {

		asm volatile(LOCK_PREFIX "xorb %1,%0"

			: CONST_MASK_ADDR(nr, addr)

			: "iq" ((u8)CONST_MASK(nr)));

	} else {

		asm volatile(LOCK_PREFIX "btc %1,%0"

			: BITOP_ADDR(addr)

			: "Ir" (nr));

	}

}

它和 set_bit 函数很相似，但也存在两点差异。第一处差异为 xor 操作而不是 or。第二处差异为 btc（原文为 bts，为作者笔误，译者注）而不是 bts。

目前，我们了解了最重要的体系特定的位数组操作，是时候看看一般的位图 API 了。

通用位操作

除了 arch/x86/include/asm/bitops.h 中体系特定的 API 外，Linux 内核提供了操作位数组的通用 API。正如我们本部分开头所了解的一样，我们可以在 include/linux/bitmap.h 头文件和* lib/bitmap.c 源文件中找到它。但在查看这些源文件之前，我们先看看 include/linux/bitops.h 头文件，其提供了一系列有用的宏，让我们看看它们当中一部分。

首先我们看看以下 4 个宏：

for_each_set_bit
for_each_set_bit_from
for_each_clear_bit
for_each_clear_bit_from

所有这些宏都提供了遍历位数组中某些位集合的迭代器。第一个宏迭代那些被置位的位。第二个宏也是一样，但它是从某一确定位开始。最后两个宏做的一样，但是迭代那些被清位的位。让我们看看 for_each_set_bit 宏：

#define for_each_set_bit(bit, addr, size) \

	for ((bit) = find_first_bit((addr), (size));		\

	     (bit) < (size);					\

	     (bit) = find_next_bit((addr), (size), (bit) + 1))

正如我们所看到的，它使用了三个参数，并展开为一个循环，该循环从作为 find_first_bit 函数返回结果的第一个置位开始到最后一个置位且小于给定大小为止。

除了这四个宏， arch/x86/include/asm/bitops.h 也提供了 64-bit 或 32-bit 变量循环的 API 等等。

下一个头文件提供了操作位数组的 API。例如，它提供了以下两个函数：

bitmap_zero;
bitmap_fill.

它们分别可以清除一个位数组和用 1 填充位数组。让我们看看 bitmap_zero 函数的实现：

static inline void bitmap_zero(unsigned long *dst, unsigned int nbits)

{

	if (small_const_nbits(nbits))

		*dst = 0UL;

	else {

		unsigned int len = BITS_TO_LONGS(nbits) * sizeof(unsigned long);

		memset(dst, 0, len);

	}

}

首先我们可以看到对 nbits 的检查。 small_const_nbits 是一个定义在同一头文件的宏：

#define small_const_nbits(nbits) \

	(__builtin_constant_p(nbits) && (nbits) <= BITS_PER_LONG)

正如我们可以看到的，它检查 nbits 是否为编译期已知常量，并且其值不超过 BITS_PER_LONG 或 64。如果位数目没有超过一个 long 变量的位数，我们可以仅仅设置为 0。在其他情况，我们需要计算有多少个需要填充位数组的 long 变量并且使用 memset 进行填充。

bitmap_fill 函数的实现和 biramp_zero 函数很相似，除了我们需要在给定的位数组中填写 0xff 或 0b11111111：

static inline void bitmap_fill(unsigned long *dst, unsigned int nbits)

{

	unsigned int nlongs = BITS_TO_LONGS(nbits);

	if (!small_const_nbits(nbits)) {

		unsigned int len = (nlongs - 1) * sizeof(unsigned long);

		memset(dst, 0xff,  len);

	}

	dst[nlongs - 1] = BITMAP_LAST_WORD_MASK(nbits);

}

除了 bitmap_fill 和 bitmap_zero，include/linux/bitmap.h 头文件也提供了和 bitmap_zero 很相似的 bitmap_copy，只是仅仅使用 memcpy 而不是 memset 这点差异而已。它也提供了位数组的按位操作，像 bitmap_and, bitmap_or, bitamp_xor等等。我们不会探讨这些函数的实现了，因为如果你理解了本部分的所有内容，这些函数的实现是很容易理解的。无论如何，如果你对这些函数是如何实现的感兴趣，你可以打开并研究 include/linux/bitmap.h 头文件。

本部分到此为止。

链接

via: https://github.com/0xAX/linux-insides/blob/master/DataStructures/bitmap.md

[翻译] Linux 内核中的位数组和位操作的更多相关文章

Linux内核中流量控制
linux内核中提供了流量控制的相关处理功能,相关代码在net/sched目录下:而应用层上的控制是通过iproute2软件包中的tc来实现, tc和sched的关系就好象iptables和netfi ...
Linux内核中的算法和数据结构
算法和数据结构纷繁复杂,但是对于Linux Kernel开发人员来说重点了解Linux内核中使用到的算法和数据结构很有必要. 在一个国外问答平台stackexchange.com的Theoretica ...
[翻译]Linux 内核里的数据结构 —— 基数树
目录 Linux 内核里的数据结构 -- 基数树基数树 Radix tree Linux内核基数树API 链接 Linux 内核里的数据结构 -- 基数树基数树 Radix tree 正如你所知道 ...
Linux内核中的软中断、tasklet和工作队列具体解释
[TOC] 本文基于Linux2.6.32内核版本号. 引言软中断.tasklet和工作队列并非Linux内核中一直存在的机制,而是由更早版本号的内核中的"下半部"(bottom ...
Linux内核中namespace之PID namespace
前面看了LInux PCI设备初始化,看得有点晕,就转手整理下之前写的笔记,同时休息一下!!~(@^_^@)~ 这片文章是之前写的,其中参考了某些大牛们的博客!! PID框架的设计一个框架的设计会考 ...
嵌入式C语言自我修养 01：Linux 内核中的GNU C语言语法扩展
1.1 Linux 内核驱动中的奇怪语法大家在看一些 GNU 开源软件,或者阅读 Linux 内核.驱动源码时会发现,在 Linux 内核源码中,有大量的 C 程序看起来“怪怪的”.说它是C语言吧, ...
Linux内核中内存cache的实现【转】
Linux内核中内存cache的实现转自:http://blog.chinaunix.net/uid-127037-id-2919545.html 本文档的Copyleft归yfydz所有,使用 ...
Linux 内核中的 GCC 特性
https://www.ibm.com/developerworks/cn/linux/l-gcc-hacks/ GCC 和 Linux 是出色的组合.尽管它们是独立的软件,但是 Linux 完全依靠 ...
TCP/IP协议栈在Linux内核中的运行时序分析
网络程序设计调研报告 TCP/IP协议栈在Linux内核中的运行时序分析姓名:柴浩宇学号:SA20225105 班级:软设1班 2021年1月调研要求在深入理解Linux内核任务调度(中断处理 ...

随机推荐

BZOJ_2661_[BeiJing wc2012]连连看_费用流
BZOJ_2661_[BeiJing wc2012]连连看_费用流 Description 凡是考智商的题里面总会有这么一种消除游戏.不过现在面对的这关连连看可不是QQ游戏里那种考眼力的游戏.我们的规 ...
BZOJ_1031_[JSOI2007]字符加密Cipher_后缀数组
BZOJ_1031_[JSOI2007]字符加密Cipher_后缀数组 Description 喜欢钻研问题的JS同学,最近又迷上了对加密方法的思考.一天,他突然想出了一种他认为是终极的加密办法 :把 ...
深入css布局篇(3)完结 — margin问题与格式化上下文
深入css布局(3) - margin问题与格式化上下文在css知识体系中,除了css选择器,样式属性等基础知识外,css布局相关的知识才是css比较核心和重要的点.今天我们来深入学习一下 ...
MYSQL—— Insert的几种用法！
向表中插入数据标题头示例图如下: 用insert插入值得方式: 1.使用如下语句进行插入值操作,要求:插入值必须与表头给出列数值一致,否则报:[Err] 1136 - Column count do ...
Description Resource Path Location Type Cannot change version of project facet Dynamic Web Module to 2.3.
报错信息:Description Resource Path Location Type Cannot change version of project facet Dynamic Web Modu ...
keras实现简单性别识别（二分类问题）
keras实现简单性别识别(二分类问题) 第一步:准备好需要的库 tensorflow 1.4.0 h5py 2.7.0 hdf5 1.8.15.1 Keras 2.0.8 opencv-p ...
HTML 基本语法速查
HTML 基本文档 <!DOCTYPE html> <html> <head> <title>文档标题</title> </head& ...
从壹开始前后端 [vue后台] 之一 || 权限后台系统 1.0 正式上线
缘起哈喽各位小伙伴周三好,春节已经过去好多天了,群里小伙伴也各种催搞了,新年也接了新项目,比较忙,不过还是终于赶上这个二月的尾巴写了这篇文章,也把 vue 权限后台上线了(项目地址:http://1 ...
tcp套接字粘包解决办法
粘包只会出现在tcp,udp传输不会产生粘包现象.解决粘包的原理就是服务器预先向客户端发送客户端即将获取文件的大小. 第一版解决方案: 服务器: # Author : Kelvin # Date : ...
asp.net core系列 43 Web应用 Session分布式存储(in memory与Redis)
一.概述 HTTP 是无状态的协议. 默认情况下,HTTP 请求是不保留用户值或应用状态的独立消息. 本文介绍了几种保留请求间用户数据和应用状态的方法.下面以表格形式列出这些存储方式,本篇专讲Sess ...

[翻译] Linux 内核中的位数组和位操作