基于DPDK的高效数据包捕获技术分析与应用

本文应用场景

网络安全领域的数据包捕获技术,对系统有高性能需求，要在短时间内成功收集、分析、处理大量数据，实时捕获效率低下。

旧有传统数据包处理机制

BPF，伯克利封包处理器，是 Unix Linux 上的链路层的一种原始接口，许多功能以此为基础。
libpcap，linux 下的 C 语言网络数据包捕获函数库，大多数网络包分析软件以此为基础。
pf-ring 是 Luca Deri 发明的一种 API 函数库。

有所缺陷：

在 Linux 内核中完成，导致程序要随着 Linux 的各种功能紧密耦合，难以维护，降低可移植性和通用性
在内核网络协议栈中，涉及系统调用（用户应用程序角度）、中断（网卡驱动角度）、多次内存拷贝操作（内核中、cache 中）

DPDK

DPDK 是数据包转发处理套件。

允许用户空间的进程通过 DPDK 的库直接访问网卡，无需经过内核（也就是所谓 bypass kernel，或user space stack）。
首先明确一个概念，它不是协议栈，和 TCP/IP 不是对等的概念。不提供二层、三层转发功能、防火墙、ACL 等功能，但通过 DPDK 可以开发出上述功能。
其次，它是一套强大的 user space driver，用户空间库和驱动程序。DPDK 总体来讲是一个二层应用。原本是网卡设备驱动、driver、kernel space、user space 的功能，移到 user space 来做了。当然，DPDK 也提供了很多三层 API，例如转发、LPM 等等。DPDK 的功能相当于 Linux 的设备无关接口层，处于 socket 之下，driver 之上。

主要有四个技术点：

大内存页提高内存使用效率。
在 user space 实现绝大部分功能。
cpu affinity 实现将控制面线程以及各个数据面线程绑定到不同的 CPU 来避免反复调度、进出内核切换带来的性能消耗。
实现从 driver -> kernal -> user space 过程中的 Zero copy。它直接从网卡驱动抓取数据，把一系列的工作放到用户态，使得 CPU 将更多的资源放在数据处理上，大大加快数据包处理速度。

主要部件：

rte_eal + libc 内存统一组织管理者
librte_ring 无锁队列
librte_mempool 提供内存池功能
librte_mbuf 提供缓冲区功能
librte_malloc 对外提供分配释放内存的API
librte_timer 主要用于各种服务间的同步

主要函数

rte_eal_init()
init_mbuf_pools()
init_ports(ports->id[i])
rte_eth_rx_brust(port_num, 0, buf, PACKET_READ_SIZE)

实验的 workflow 也比较清晰：

rte_eal_init()、init_port()、init_mbuf_pools() 进行 DPDK 、端口、内存池、队列初始化。利用rte_eth_rx_brust() 轮询各端口接收数据包。自定义函数process_packets()来对数据包进行一个初步处理。

接下面两张图是实验 topo：

基于多核平台的高速网络流量实时捕获方法

本文应用场景

网络数据包的实时采集和分析。

旧有解决方案

基于专用定制化硬件，性能较好，成本较高，模块固定，扩展性差。
基于软件，成本低。

传统的报文处理

Linux 网络协议栈的报文处理是典型的软件系统。

简述工作原理：

        interrupt                            system call

driver ----------> kernel (protocol stack)  <----------- user space(application)

       <----------                          ----------->

           copy       context switch        copy(or sleep)

性能瓶颈分析：

流量串行访问带来的性能瓶颈。涉及到现代 NIC 的接收端扩展（receiver-side scaling，RSS），使用这种技术，分组的捕获过程可以并行化，然而上层协议栈和用户程序对此没有很好的利用。

图：RSS bottleneck

driver ~ kernel ~ user space 的的过程中，至少包含 2 次数据拷贝。一次复制消耗 500~2000 个 CPU 周期。
内核态用户态的上下文切换，在每个包上面执行的系统调用产生的上下文切换消耗近 1000 个 CPU 周期。
缺少内存本地化，在内存 copy 时，由于逐字拷贝导致 cache 一直被替换，cache 命中率低下。cache miss 导致额外 13.8% 的 CPU 周期。

可以看出，协议栈处理数据包时的拷贝操作是性能瓶颈。旧有方案不能很好地克服这些困难。

思考对传统模式的改进方向

预分配、重用内存资源。（大页表、内存池）
CPU 亲和（CPU affinity）是一种技术，允许进程或线程在制定的处理器核心上运行。在本地核心中，cache 更容易命中，减少 cache miss。
内存映射。应用程序的内存区域可以映射到内核态的内存区域，应用程序可以在没有中间副本的情况下进行读写，用这种方式使得应用直接访问网卡的 DMA 内存区域，这种技术叫零拷贝。也可以理解为 zero copy。

这三点是同上一篇论文一样的，下面两点是这篇论文额外所涉及：

数据包采用并行直接通道传递（特定 RSS 队列、特定 CPU 核心、特定用户程序）（这个特性在某一篇教程中有运用到，设置了多个虚拟网卡。）
数据包批处理。以某种策略将数据包划分为组，主要是为了减少系统调用和上下文切换的次数，减少平摊处理和复制每个数据包的消耗。

这些中没有明确拿轮询出来提。轮询主要是避免 system call 引起的 context switch 的技术。

NAPI（new API) 是 Linux 2.6.0 内核之后采用的一种提高数据包处理性能的新技术，其核心就是使用中断和轮询组合收包

其假设场景是，一旦网卡开始接收到数据包，数据包就会以高频率到达，换言之，就是针对一直有数据包到达的网络环境做了优化，：网卡在接收到第 1 个数据包时将触发硬件中断，中断处理函数会将该网卡加入到设备轮询表中，同时，为了防止后续到达的数据包触发频繁的硬件中断，需要用一条指令设置该中断使之不再接收中断请求；随后，操作系统会触发一个软中断，软中断的处理函数将对轮询表上的设备进行轮询，检查是否有数据包到达并处理；直到本次处理的 cpu 时间片用尽或者数据包的处理过程结束，网卡才重新设置中断屏蔽位开中断接收中断请求．

不过，上述技术还是有缺陷的，频繁的软中断在更高要求的网络环境下也无力了。所谓软中断就是还是有进出内核的操作，不是完全 user space 不是完全 zero copy。

DPDK 数据平面开发套件

队列管理rte_ring 无锁队列，环形，大小固定，先进先出，支持无锁，单/多生产者/消费者的排队场景，存储对象的指针。各个 P C 有指针来访问控制。相较于普通的用长度不限的双链表实现的队列，有两个好处：

无锁机制
减少了由于突发操作和大量数据传输导致的 cache miss

环境抽象层EAL是 DPDK 的一个核心。建立物理内存的映射，是在 DPDK 库之上构建应用时使用的内存的基本单元。每个 CPU 核心对 rte 内存池保有一个本地 cache，这也是为什么要 cpu affinity 和采用批处理的原因。

缓存管理rte_mbuf 用来访问某一个 mempool。

关于核心组件，打算之后要深入看源码，先贴上关于这一部分的一个缩略图。

参考链接：here

网络流捕获系统设计

系统总体设计：可维护、可靠、灵活、可重用

数据包接收、处理模块

收包 workflow

采用轮询替代中断和系统调用来收包，所以收包模式是：程序主动调用rte_eth_rx_burst()接口去接受一定数量的数据包，需要对其进行封装，接收到一个包作为一个事件，触发一系列挂载在上面的回调函数对数据包进行处理。

多线程：一个local_main()不断在每个核心上运行，循环地接受包，在收到包的时候调用rte_eth_rx_burst()处理每个包，根据每个包的包头再调用不同的函数进行处理（parser）

而后的数据包处理模块，每一种报文解析的应用就是一种数据包处理模块，例如解析 http 协议的 http 模块、处理 DNS 的 DNS 模块等，各种不同的模块需要有统一设计和接口，内部解析逻辑各有区别

内存管理模块

设计两个全局大页内存池，分别是 TCP 流报文池和普通报文池。报文存储在内存池，在队列中存储报文的地址。

改进 hash 算法

RSS 机制现有一个问题就是会将同一个 TCP 连接的数据包映射到不同的网卡队列。本文改进了一种 hash 算法，将同一 TCP 连接的数据包映射到同一个网卡 RSS 队列。

实验框架

实验分析

新系统无论在 cpu 使用率和系统吞吐率还是在丢包率上相比传统数据包捕获系统都有很大优势。

第二篇论文中提到了 DPDK 的系统在试验中相较于 Linux 的内核有 10 倍以上的吞吐量提升。

本次收获

更加了解了 DPDK 的创新点和工作原理，对于如何用 DPDK 做出基本的网络流量捕获有一个大概的了解。

深刻理解一定的操作系统知识对于理解 DPDK 的创新点非常必要且重要，列出以供参考：

I/O 驱动

中断

系统调用

内核空间、用户空间

cache

进程、线程

虚拟内存、页表

上下文切换

单/多生产者消费者、读者写者等经典信号量同步问题

文献：

[1] 赵　宁, 谢淑翠, 基于 DPDK 的高效数据包捕获技术分析与应用 [J].计算机工程与科学, 2016, 38(11): 2209-2215.
[2] 令瑞林　李峻峰　李　丹, 基于多核平台的高速网络流量实时捕获方法 [J].计算机研究与发展, 2017, 54(6): 1300-1313.

阅读 DPDK 中文论文两则的更多相关文章

javascript 返回字符长度，中文为两个字节，英文为一个字节
//正则:用于区分中文为两个字节function getLength(str){ return String(str).replace(/[^\x00-\xff]/g,'aa').length; ...
JavaScript判断字符串的字符长度（中文占两个字符）
判断方法 //判断字符串中的字符中文算两个字符 function chkstrlen(str) { ; ; i < str.length; i++) { ) //如果是汉字,则字符串长度加2 ...
C#返回字符串的字节长度，一个中文算两个字符的代码
如下代码段是关于C#返回字符串的字节长度,一个中文算两个字符的代码. public static int GetLength(string str) { if (str.Length == 0) re ...
How to Read a Paper丨如何阅读一篇论文
这是我在看论文时无意刷到的博客推荐的一篇文章"How to Read a Paper",教你怎么样看论文.对于研究生来说,看论文基本是日常,一篇论文十多二十页,如何高效地读论文确实 ...
Raft协议--中文论文介绍
本篇博客为著名的 RAFT 一致性算法论文的中文翻译,论文名为<In search of an Understandable Consensus Algorithm (Extended Vers ...
opencv源码阅读之——iOS的两条接口UIImageToMat()和MatToUIImage()
本文为作者原创,未经允许不得转载:原文由作者发表在博客园: http://www.cnblogs.com/panxiaochun/p/5387743.html 在ios下开发基于opencv的程序时经 ...
中文论文-LaTex模板
\documentclass[10pt,UTF8]{article} \usepackage{ctex} \usepackage{amssymb,amsmath,multicol,titlesec} ...
iOS 判断内容是否是中文，两种实现
用category实现新建类别文件,代码 .h文件 #import <Foundation/Foundation.h> @interface NSString (Valid) - (BO ...
VeeValidate配置中文的两种方法
使用VeeValidate时遇到的问题,下面是我找到的一些解决办法: VeeValidate一直报错早不到addlocale方法解决办法:1.卸载掉当前版本,重新安装低版本如2.0.0-rc.25 ...

随机推荐

通过脚手架创建Vue项目
第一步准备工作 1.下载安装Node.js 验证是否安装的方法,在命令行输入node -v 2.安装Vue 在命令行输入npm install -g @vue/cli 查看Vue版本号 npm vu ...
C语言学习笔记—code:blocks工具debug调试异常
C语言开发工具:code:bolocks17.12版本踩坑记录: 一.下载codeblocks后,安装完成,创建第一个项目在构建mian主函数时构建报错: Goto "Settings-&g ...
MySQL配置主主及主从备份
原文:https://www.cnblogs.com/ahaii/p/6307648.html MySQL主从备份配置实例场景: 1.主服务器192.168.0.225.从服务器192.168.0. ...
Django model字段类型(转)
AutoField 一个 IntegerField, 添加记录时它会自动增长. 你通常不需要直接使用这个字段; 如果你不指定主键的话,系统会自动添加一个主键字段到你的 model.(参阅 _自 ...
20155327 李百乾 Exp4 恶意代码分析
20155327 李百乾 Exp4 恶意代码分析基础问题回答 (1)如果在工作中怀疑一台主机上有恶意代码,但只是猜想,所以想监控下系统一天天的到底在干些什么.请设计下你想监控的操作有哪些,用什么方法 ...
20155339 第七周加分项目 mybash的实现
mybash的实现要求使用fork,exec,wait实现mybash 写出伪代码,产品代码和测试代码发表知识理解,实现过程和问题解决的博客(包含代码托管链接) 学习相关知识 fork函数查看 ...
20145207《Java程序设计》实验五（网络编程与安全）实验报告
<Java 程序设计>实验五(网络编程与安全)实验报告目录改变网络编程与安全实验要求实验成果课后思考改变修改了之前仅仅是贴了图片,连代码都没粘的状态.不过这篇博客我只能做到写 ...
JavaScript总结（一）
什么是JavaScript? 首先我们要知道它是什么?JavaScript是一门专门用来对网页进行编程的脚本语言:因为我是学习Java之后再来学习JavaScript的,所以我的第一疑问JavaScr ...
基于bootstrap的文本编辑器组件：Summernote
Summernote官网地址 :https://summernote.org/ 这是官网的一个例子: <!DOCTYPE html> <html lang="en" ...
「PKUSC2018」最大前缀和
题面题解可以想到枚举成为最大前缀和的一部分的数设\(sum_i=\sum\limits_{j\in i}a[j]\) 设\(f_i\)表示满足\(i\)的最大前缀和等于\(sum_i\)的方案数 ...

阅读 DPDK 中文论文两则

基于DPDK的高效数据包捕获技术分析与应用

本文应用场景

旧有传统数据包处理机制

DPDK

基于多核平台的高速网络流量实时捕获方法

本文应用场景

旧有解决方案

传统的报文处理

思考对传统模式的改进方向

DPDK 数据平面开发套件

网络流捕获系统设计

实验分析

本次收获

文献：

阅读 DPDK 中文论文两则的更多相关文章

随机推荐

热门专题