概述

dpdk19.01提供了qsbr模式的rcu库，其具体实现在lib/librte_rcu目录中。

librte_rcu是无锁线程安全的，这个库提供了读者报告静默状态的能力，让写者知道读者是否进入过静默状态。

dpdk中QSBR具体实现是通过一个struct rte_rcu_qsbr_cnt变量qs，将多个线程共享的内存管理起来。总体思路是通过比较线程的静默期版本号与qs全局版本号的大小，判断是否所有线程进入过本次静默期。

使用librte_rcu进行内存释放的线程的基本步骤如下：

解除内存的引用
调用rte_rcu_qsbr_start()函数将全局版本号加1，触发所有读线程报告静默状态
调用rte_rcu_qsbr_check()遍历检查所有读者线程，确保都进入过本次静默期
释放内存

初始化

初始化时，会用到一些通过的工具宏，定义在在dpdk-master/lib/librte_eal/common/include/rte_common.h中。如下：



#define RTE_CACHE_LINE_SIZE 64

#define RTE_ALIGN_MUL_CEIL(v, mul) \

	((v + 64 - 1)/64) * 64 // (64地板除 + 1)*64

#define RTE_ALIGN_FLOOR(val, 64) \

	val & (~(64 - 1)) // 64的地板除

#define RTE_ALIGN_CEIL(val, 64) \

	RTE_ALIGN_FLOOR(val + 64 - 1, 64) // 64的地板除 + 1

#define RTE_ALIGN(val, align) RTE_ALIGN_CEIL(val, align) // 64的地板除 + 1

在dpdk-master\lib\librte_rcu\rte_rcu_qsbr.h中，定义了初始化时用到的一些函数与宏。

/* 工作线程计数器 */

struct rte_rcu_qsbr_cnt {

	uint64_t cnt; // 静默态计数器，0表示下线。使用64bits，防止计数溢出

	uint32_t lock_cnt; // counter锁， 用于CONFIG_RTE_LIBRTE_RCU_DEBUG

} __rte_cache_aligned;

#define __RTE_QSBR_THRID_ARRAY_ELM_SIZE (sizeof(uint64_t) * 8) // 数组元素大小为64 B

#define __RTE_QSBR_THRID_ARRAY_SIZE(max_threads)\

      RTE_ALIGN(RTE_ALIGN_MUL_CEIL(max_threads, 64) >> 3, RTE_CACHE_LINE_SIZE) // 计算得到线程数组的大小

/*

 * (struct rte_rcu_qsbr_cnt *)(v + 1): 获得 v中 rte_rcu_qsbr_cnt 的地址偏移，此时指针p变为 struct rte_rcu_qsbr_cnt *类型

 * + v->max_threads： 得到 v中thread id_array的偏移，

 * + i

*/

#define __RTE_QSBR_THRID_ARRAY_ELM(v, i)  // 获得线程数组的第 i 个

     ((uint64_t *) ((struct rte_rcu_qsbr_cnt *)(v + 1) + v->max_threads) + i)

#define __RTE_QSBR_THRID_INDEX_SHIFT 6

#define __RTE_QSBR_THRID_MASK 0x3f

#define RTE_QSBR_THRID_INVALID 0xffffffff

/*

 * 获得QSBR变量的内存大小，包括rte_rcu_qsbr + thread ID bitmap array变量

*/

size_t

rte_rcu_qsbr_get_memsize(uint32_t max_threads)

{

	size_t sz;	// rcu_qsbr

	sz = sizeof(struct rte_rcu_qsbr);

	/* Add the size of quiescent state counter array */

	sz += sizeof(struct rte_rcu_qsbr_cnt) * max_threads;

	/* Add the size of the registered thread ID bitmap array */

	sz += __RTE_QSBR_THRID_ARRAY_SIZE(max_threads); 

	return sz;

}

qsbr rcu真正的初始化在函数rte_rcu_qsbr_init()中，主要是初始化变量的值。

int

rte_rcu_qsbr_init(struct rte_rcu_qsbr *v, uint32_t max_threads)

{

	size_t sz;

	sz = rte_rcu_qsbr_get_memsize(max_threads);

	if (sz == 1)

		return 1;

	/* Set all the threads to offline */

	memset(v, 0, sz); // 获得大小，初始化为零

	v->max_threads = max_threads;

	v->num_elems = RTE_ALIGN_MUL_CEIL(max_threads,

			__RTE_QSBR_THRID_ARRAY_ELM_SIZE) /

			__RTE_QSBR_THRID_ARRAY_ELM_SIZE; // 根据最大线程数，获得 thread_id array的元素个数

	v->token = __RTE_QSBR_CNT_INIT;

	v->acked_token = __RTE_QSBR_CNT_INIT - 1;

	return 0;

}

其中， rte_rcu_qsbr_init 函数中的参数中，传入了全局变量rte_rcu_qsbr，其存储了静默期版本号，以及所有注册了的线程的thread_Id与局部静默期版本号。

此变量定义如下：

struct rte_rcu_qsbr {

	uint64_t token __rte_cache_aligned;  // 允许多个并发静态查询的计数器

	/**< Counter to allow for multiple concurrent quiescent state queries */

	uint64_t acked_token;

	/**< Least token acked by all the threads in the last call to

	 *   rte_rcu_qsbr_check API.

	 */

	uint32_t num_elems __rte_cache_aligned;

	/**< Number of elements in the thread ID array */

	uint32_t num_threads;

	/**< Number of threads currently using this QS variable */

	uint32_t max_threads;

	/**< Maximum number of threads using this QS variable */

	struct rte_rcu_qsbr_cnt qsbr_cnt[0] __rte_cache_aligned;

	/**< Quiescent state counter array of 'max_threads' elements */

	/**< Registered thread IDs are stored in a bitmap array,

	 *   after the quiescent state counter array.

	 */

} __rte_cache_aligned;

注册与注销

通过rte_rcu_qsbr_thread_register函数，注册一个读者线程的thread_id到全局变量 rte_rcu_qsbr 的 thread 数组位图中，并更新线程数num_threads。

int

rte_rcu_qsbr_thread_register(struct rte_rcu_qsbr *v, unsigned int thread_id)

{

	unsigned int i, id, success;

	uint64_t old_bmap, new_bmap;

	id = thread_id & __RTE_QSBR_THRID_MASK;  // thread_id%64， 表示bits<64>中位图中的哪一位

	i = thread_id >> __RTE_QSBR_THRID_INDEX_SHIFT;  // thread_id/64，表示uint64_t数组的索引

	 /*

	  * 确保已注册线程的计数器不会不同步。因此，需要额外的检查。

	  */

	old_bmap = __atomic_load_n(__RTE_QSBR_THRID_ARRAY_ELM(v, i),

					__ATOMIC_RELAXED); // 获得 thread_id所在的 bits<64>

	if (old_bmap & 1UL << id) // bits<64>中的id位是否为1

		return 0; // 等于1，表示已注册，则返回

	do { // 若没有注册，则注册，并对num_threads + 1

		new_bmap = old_bmap | (1UL << id); /

		success = __atomic_compare_exchange(

					__RTE_QSBR_THRID_ARRAY_ELM(v, i),

					&old_bmap, &new_bmap, 0,

					__ATOMIC_RELEASE, __ATOMIC_RELAXED);

		if (success)

			__atomic_fetch_add(&v->num_threads,  // 加1

						1, __ATOMIC_RELAXED);

		else if (old_bmap & (1UL << id)) // 抢注册

			return 0;

	} while (success == 0);

	return 0;

}

通过rte_rcu_qsbr_thread_unregister函数将读线程的thread_id 从全局变量 rte_rcu_qsbr 的 thread数组位图中移除。

int

rte_rcu_qsbr_thread_unregister(struct rte_rcu_qsbr *v, unsigned int thread_id)

{

	unsigned int i, id, success;

	uint64_t old_bmap, new_bmap;

	__RTE_RCU_IS_LOCK_CNT_ZERO(v, thread_id, ERR, "Lock counter %u\n",

				v->qsbr_cnt[thread_id].lock_cnt);

	id = thread_id & __RTE_QSBR_THRID_MASK;

	i = thread_id >> __RTE_QSBR_THRID_INDEX_SHIFT;

	/* Make sure that the counter for registered threads does not

	 * go out of sync. Hence, additional checks are required.

	 */

	/* Check if the thread is already unregistered */

	old_bmap = __atomic_load_n(__RTE_QSBR_THRID_ARRAY_ELM(v, i),

					__ATOMIC_RELAXED);

	if (!(old_bmap & (1UL << id)))

		return 0;

	do {

		new_bmap = old_bmap & ~(1UL << id);

		/* Make sure any loads of the shared data structure are

		 * completed before removal of the thread from the list of

		 * reporting threads.

		 */

		success = __atomic_compare_exchange(

					__RTE_QSBR_THRID_ARRAY_ELM(v, i),

					&old_bmap, &new_bmap, 0,

					__ATOMIC_RELEASE, __ATOMIC_RELAXED);

		if (success)

			__atomic_fetch_sub(&v->num_threads,

						1, __ATOMIC_RELAXED);

		else if (!(old_bmap & (1UL << id)))

			/* Someone else unregistered this thread.

			 * Counter should not be incremented.

			 */

			return 0;

	} while (success == 0);

	return 0;

}

上线与下线

线程的上线通过rte_rcu_qsbr_thread_online()函数将局部静默期版本号更新到全局版本。

rte_rcu_qsbr_thread_online()函数的简化版本如下：

static __rte_always_inline void

rte_rcu_qsbr_thread_online(struct rte_rcu_qsbr *v, unsigned int thread_id)

{

	uint64_t t;

	t = __atomic_load_n(&v->token, __ATOMIC_RELAXED); // 获得全局版本号

	__atomic_store_n(&v->qsbr_cnt[thread_id].cnt, // 更新本线程的局部静默期版本号

		t, __ATOMIC_RELAXED);

}

线程的下线就是通过rte_rcu_qsbr_thread_offline()函数，将局部静默期版本号设置为0。

__rte_experimental

static __rte_always_inline void

rte_rcu_qsbr_thread_offline(struct rte_rcu_qsbr *v, unsigned int thread_id)

{

	__atomic_store_n(&v->qsbr_cnt[thread_id].cnt, 0, __ATOMIC_RELEASE);

}

等待静默

通过rte_rcu_qsbr_synchronize()函数等待所有线程进入过静默期，其主要工作如下：

首先，对全局的静默期的版本加1；
然后，判断本线程局部静默期版本是否等于全局的，若不等于，则更新到最新；
最后，遍历所有注册了的并且在线的线程的静默期版本号cnt的值，确定是否所有线程都进入过本次静默期，若没有，则等待所有读线程都进入过静默状态。

void

rte_rcu_qsbr_synchronize(struct rte_rcu_qsbr *v, unsigned int thread_id)

{

	uint64_t t;

	t = rte_rcu_qsbr_start(v); // 将 v->token 加1，并存储在局部变量中

	/* 若当前线程还在临界区，更新其静默状态 */

	if (thread_id != RTE_QSBR_THRID_INVALID) // 0xffffffff

		rte_rcu_qsbr_quiescent(v, thread_id);  // 更新本线程的 v->qsbr_cnt[thread_id].cnt 到最新token

	/* 等待其他读者进入静默期 */

	rte_rcu_qsbr_check(v, t, true);

}

注意：

线程每调用一次rte_rcu_qsbr_synchronize()函数，全局的静默期版本号token就会加1。

因为多个线程同时调用此函数，线程的局部静默期版本号cnt一般会小于全局好几个版本。

事实上，若线程调用了一次rte_rcu_qsbr_synchronize()，其版本号就会大于存储在其他线程局部变量t中的全局版本号。

具体是通过rte_rcu_qsbr_check()判断所有线程是否都进行了本次静默。

__rte_experimental

static __rte_always_inline int

rte_rcu_qsbr_check(struct rte_rcu_qsbr *v, uint64_t t, bool wait)

{

	/* 判断是否所有线程都进入过静默期 */

	if (likely(t <= v->acked_token))

		return 1;

    /* 若没有确认过，则遍历线程确认。 */

	if (likely(v->num_threads == v->max_threads))

		return __rte_rcu_qsbr_check_all(v, t, wait);

	else

		return __rte_rcu_qsbr_check_selective(v, t, wait);

}

其中，__rte_rcu_qsbr_check_all()函数与__rte_rcu_qsbr_check_selective()函数类似，

都是通过遍历注册在thread_id array中的所有线程的cnt，判断是否所有线程进入过静默期。下面，以函数__rte_rcu_qsbr_check_all()进行说明。

static __rte_always_inline int

__rte_rcu_qsbr_check_selective(struct rte_rcu_qsbr *v, uint64_t t, bool wait)

{

	uint32_t i, j, id;

	uint64_t bmap;

	uint64_t c;

	uint64_t *reg_thread_id;

	uint64_t acked_token = __RTE_QSBR_CNT_MAX;  // ((uint64_t)~0)

    /* 遍历注册在thread_id array中的所有线程的版本，等待所有线程进入过静默期 */

	for (i = 0, reg_thread_id = __RTE_QSBR_THRID_ARRAY_ELM(v, 0); // 获得第0个 thread_id array元素

		i < v->num_elems; // thread_id array 元素个数

		i++, reg_thread_id++) {

        /* 获得bmap所标识的所有线程id的公共前缀 */

		bmap = __atomic_load_n(reg_thread_id, __ATOMIC_ACQUIRE);

		id = i << __RTE_QSBR_THRID_INDEX_SHIFT; // 

		while (bmap) {

		    /* 获得线程的id，以及对应的计数器 */

			j = __builtin_ctzl(bmap); // bmap中的第一个注册线程

			c = __atomic_load_n( // 获得线程id的cnt

					&v->qsbr_cnt[id + j].cnt, // id + j = thread_id

					__ATOMIC_ACQUIRE);

             /* 若线程没有下线，并且静默期号小于t,则等待，直到其大于等于 */

			if (unlikely(c != __RTE_QSBR_CNT_THR_OFFLINE && c < t)) {

				/* This thread is not in quiescent state */

				if (!wait) // 若不等待则直接返回

					return 0; 

				rte_pause(); // 暂定CPU执行一小段时间

				bmap = __atomic_load_n(reg_thread_id, // 重新查看未退出注册的线程，是否进入静默期

						__ATOMIC_ACQUIRE);

				continue;

			}

			 /* 更新acked_token到最新版本 */

			if (c != __RTE_QSBR_CNT_THR_OFFLINE && acked_token > c)

				acked_token = c;

			bmap &= ~(1UL << j);

		}

	}

	if (acked_token != __RTE_QSBR_CNT_MAX)

		__atomic_store_n(&v->acked_token, acked_token,  // 若所有的读者都已经进入过静默期，则将最新的静默期版本更新

			__ATOMIC_RELAXED);

	return 1;

}

示例：

在dpdk/app/test/test_rcu_qsbr.c中，

附录

type __atomic_load_n (type *ptr, int memorder)，GCC内建函数，实现原子的加载操作，返回*ptr

有限的 memorder有：__ATOMIC_RELAXED, __ATOMIC_SEQ_CST, __ATOMIC_ACQUIRE, __ATOMIC_CONSUME

目前最新版本的gcc、clang的原子操作实现均符合c++11定义的原子操作6种内存模型：

__ATOMIC_RELAXED No barriers or synchronization.

__ATOMIC_CONSUME Data dependency only for both barrier and synchronization with another thread.

__ATOMIC_ACQUIRE Barrier to hoisting of code and synchronizes with release (or stronger) semantic stores from another thread.

__ATOMIC_RELEASE Barrier to sinking of code and synchronizes with acquire (or stronger) semantic loads from another thread.

__ATOMIC_ACQ_REL Full barrier in both directions and synchronizes with acquire loads and release stores in another thread.

__ATOMIC_SEQ_CST Full barrier in both directions and synchronizes with acquire loads and release stores in all threads.

详见 http://gcc.gnu.org/wiki/Atomic/GCCMM/AtomicSync

void __atomic_store_n (type *ptr, type val, int memorder)，GCC内建函数，实现原子的存操作，将val的值写入*ptr。
__builtin_ctz(x):

计算器x二进制表示，末尾有多少个0。

例如，a = 16，其二进制表示是 00000000 00000000 00000000 00010000，输出为ctz = 4

类似的函数有__builtin_ctzl(x)与__builtin_ctzll(x)，分别用于long类型，与long long类型的数据。
static void rte_pause(void): 暂停CPU执行一段时间, 此调用用于轮询共享资源或等待事件的紧循环。在回路中短暂的停顿可以降低功耗。

原文阅读

微信公共号

NFVschool，关注最前沿的网络技术。

参考

gcc-docs

dpdk中QSBR具体实现的更多相关文章

译文：ovs+dpdk中的“vHost User NUMA感知”特性
本文描述了"vHost User NUMA感知"的概念,该特性的测试表现,以及该特性为ovs+dpdk带来的性能提升.本文的目标受众是那些希望了解ovs+dpdk底层细节的人,如果 ...
dpdk中log的使用方法
1 log简介 dpdk中通过log系统记录相关的日志信息,每一条日志除日志内容外,还有两个附加信息,log级别和log类型.开发人员可根据级别和类型对日志信息进行过滤,只记录必要的日志.1.1 ...
DPDK中使用VFIO的配置
VFIO VFIO是一个可以安全地把设备I/O.中断.DMA等暴露到用户空间(userspace),从而可以在用户空间完成设备驱动的框架.用户空间直接设备访问,虚拟机设备分配可以获得更高的IO性能. ...
dpdk中kni模块
一,什么是kni,为什么要有kni Kni(Kernel NIC Interface)内核网卡接口,是DPDK允许用户态和内核态交换报文的解决方案,模拟了一个虚拟的网口,提供dpdk的应用程序和lin ...
dpdk中uio技术
总结一下dpdk的uio技术一:什么是uio技术 UIO(Userspace I/O)是运行在用户空间的I/O技术,Linux系统中一般的驱动设备都是运行在内核空间,而在用户空间用应用程序调用即可, ...
dpdk中文文档
Linux平台上DPDK入门指南 1. 简介 1.1. 文档地图 2. 系统要求 2.1. X86 上预先设置 BIOS 2.2. 编译DPDK 2.3. 运行DPDK应用程序 3. 使用源码编译DP ...
解决dpdk中出现IOMMU not found的问题
问题在使用VFIO前,需要在BIOS打开VT-x和VT-d,想把一个PCIe网卡透传到虚拟机中,发现虚拟机启动失败,提示IOMMU没有找到. 输入以下命令确定vt-d开启 dmesg | grep ...
[中英对照]Introduction to DPDK: Architecture and Principles | DPDK概论: 体系结构与实现原理
[中英对照]Introduction to DPDK: Architecture and Principles | DPDK概论: 体系结构与实现原理 Introduction to DPDK: ...
DPDK在OpenStack中的实现
随着云计算与大数据的快速发展,其对数据中心网络的性能和管理提出了更高的要求,但传统云计算架构存在多个I/O瓶颈,由于云平台基本上是采用传统的X86服务器加上虚拟化方式组建,随着40G.100G高速网卡 ...

随机推荐

considerate|considerable|content|Contact|Consult|deceived|
ADJ-GRADED 替人着想的;体贴的Someone who is considerate pays attention to the needs, wishes, or feelings of o ...
Docker的部署安装(CentOS)
环境准备操作系统需求为兼容企业级应用,学习选用Centos7做为部署安装Docker的系统平台 # 通过以下命令可查看系统版本和内核版本等信息 cat /etc/redhat-release #- ...
Archives: 2013/6
OpenStack环境搭建这一步有两个选择: 一种就是正统的真实搭建,所有都按生产环境来部署,费时费力. 还有一种就是官方推荐的一键安装DevStack,直接安装最新的版本,体验最新的特性. 至于如 ...
springboot项目基础面试题
1.springboot与spring的区别. 引用自官方说法: java在集成spring等框架需要作出大量的配置,开发效率低,繁琐.所以官方提出 spring boot的核心思想:习惯优于配置.可 ...
MyEclipse提示Errors occurred during the build
最近在使用Extjs 在springsource Tool Suite运行时老是出现: Errors occurred during the build. Errors running builder ...
connect() failed (111: Connection refused) while connecting to upstream报错处理
新lnmp环境调试项目时,nginx报错如下: 解决: 发现php-fpm.conf是以套接字方式通信,而nginx是以端口方式通信,见下图: 将nginx.conf修改为如下,重新reload即可
阿里云服务器上搭建seafile专业版
因为官方一键安装教程在阿里云服务器上无法安装,由于水平有限,无法解决,所以选择手动安装参考资料: 1,.腾讯云搭建seafile服务器 2.How to Install Seafile with N ...
Python 零基础入门
Python 零基础入门 1.1 Python介绍 Python 是一门优雅且健壮的面向对象解释型计算机程序编程语言,具有面向对象.可升级.可扩展.可移植语法简洁清晰易学.易读写.易维护.健壮性.通 ...
Hexo搭建总结
Hexo搭建过程记录 1.Hexo基本环境搭建 1.Hexo安装前提 Node.js和Git,他们的安装方法可以自行百度. 2.具体安装步骤可以参考: https://www.cnblogs.com/ ...
Windows 下 LaTeX 手动安装宏包（package）以及生成帮助文档的整套流程
本文简单介绍如何手动安装一个 LaTeX 宏包. 一般来说,下载的 TeX 发行版已经自带了很多宏包,可以满足绝大部分需求,但是偶尔我们也可能碰到需要使用的宏包碰巧没有安装的情况,这时我们就需要自己 ...

dpdk中QSBR具体实现

概述

初始化