数据包接收系列 — NAPI的原理和实现

本文主要内容：简单分析NAPI的原理和实现。

内核版本：2.6.37

Author：zhangskd @ csdn

概述

NAPI是linux新的网卡数据处理API，据说是由于找不到更好的名字，所以就叫NAPI(New API)，在2.5之后引入。

简单来说，NAPI是综合中断方式与轮询方式的技术。

中断的好处是响应及时，如果数据量较小，则不会占用太多的CPU事件；缺点是数据量大时，会产生过多中断，

而每个中断都要消耗不少的CPU时间，从而导致效率反而不如轮询高。轮询方式与中断方式相反，它更适合处理

大量数据，因为每次轮询不需要消耗过多的CPU时间；缺点是即使只接收很少数据或不接收数据时，也要占用CPU

时间。

NAPI是两者的结合，数据量低时采用中断，数据量高时采用轮询。平时是中断方式，当有数据到达时，会触发中断

处理函数执行，中断处理函数关闭中断开始处理。如果此时有数据到达，则没必要再触发中断了，因为中断处理函

数中会轮询处理数据，直到没有新数据时才打开中断。

很明显，数据量很低与很高时，NAPI可以发挥中断与轮询方式的优点，性能较好。如果数据量不稳定，且说高不高

说低不低，则NAPI则会在两种方式切换上消耗不少时间，效率反而较低一些。

实现

来看下NAPI和非NAPI的区别：

(1) 支持NAPI的网卡驱动必须提供轮询方法poll()。

(2) 非NAPI的内核接口为netif_rx()，NAPI的内核接口为napi_schedule()。

(3) 非NAPI使用共享的CPU队列softnet_data->input_pkt_queue，NAPI使用设备内存(或者

设备驱动程序的接收环)。

(1) NAPI设备结构

/* Structure for NAPI scheduling similar to tasklet but with weighting */

struct napi_struct {

    /* The poll_list must only be managed by the entity which changes the

     * state of the NAPI_STATE_SCHED bit. This means whoever atomically

     * sets that bit can add this napi_struct to the per-cpu poll_list, and

     * whoever clears that bit can remove from the list right before clearing the bit.

     */

    struct list_head poll_list; /* 用于加入处于轮询状态的设备队列 */

    unsigned long state; /* 设备的状态 */

    int weight; /* 每次处理的最大数量，非NAPI默认为64 */

    int (*poll) (struct napi_struct *, int); /* 此设备的轮询方法，非NAPI为process_backlog() */

#ifdef CONFIG_NETPOLL

    ...

#endif

    unsigned int gro_count;

    struct net_device *dev;

    struct list_head dev_list;

    struct sk_buff *gro_list;

    struct sk_buff *skb;

};

(2) 初始化

初始napi_struct实例。

void netif_napi_add(struct net_device *dev, struct napi_struct *napi,

        int (*poll) (struct napi_struct *, int), int weight)

{

    INIT_LIST_HEAD(&napi->poll_list);

    napi->gro_count = 0;

    napi->gro_list = NULL;

    napi->skb = NULL;

    napi->poll = poll; /* 设备的poll函数 */

    napi->weight = weight; /* 设备每次poll能处理的数据包个数上限 */

    list_add(&napi->dev_list, &dev->napi_list); /* 加入设备的napi_list */

    napi->dev = dev; /* 所属设备 */

#ifdef CONFIG_NETPOLL

    spin_lock_init(&napi->poll_lock);

    napi->poll_owner = -1;

#endif

    set_bit(NAPI_STATE_SCHED, &napi->state); /* 设置NAPI标志位 */

}

(3) 调度

在网卡驱动的中断处理函数中调用napi_schedule()来使用NAPI。

/**

 * napi_schedule - schedule NAPI poll

 * @n: napi context

 * Schedule NAPI poll routine to be called if it is not already running.

 */

static inline void napi_schedule(struct napi_struct *n)

{

    /* 判断是否可以调度NAPI */

    if (napi_schedule_prep(n))

        __napi_schedule(n);

}

判断NAPI是否可以调度。如果NAPI没有被禁止，且不存在已被调度的NAPI，

则允许调度NAPI，因为同一时刻只允许有一个NAPI poll instance。

/**

 * napi_schedule_prep - check if napi can be scheduled

 * @n: napi context

 * Test if NAPI routine is already running, and if not mark it as running.

 * This is used as a condition variable insure only one NAPI poll instance runs.

 * We also make sure there is no pending NAPI disable.

 */

static inline int napi_schedule_prep(struct napi_struct *n)

{

    return !napi_disable_pending(n) && !test_and_set_bit(NAPI_STATE_SCHED, &n->state);

}

static inline int napi_disable_pending(struct napi_struct *n)

{

    return test_bit(NAPI_STATE_DISABLE, &n->state);

} 

enum {

    NAPI_STATE_SCHED, /* Poll is scheduled */

    NAPI_STATE_DISABLE, /* Disable pending */

    NAPI_STATE_NPSVC, /* Netpoll - don't dequeue from poll_list */

};

NAPI的调度函数。把设备的napi_struct实例添加到当前CPU的softnet_data的poll_list中，

以便于接下来进行轮询。然后设置NET_RX_SOFTIRQ标志位来触发软中断。

void __napi_schedule(struct napi_struct *n)

{

    unsigned long flags;

    local_irq_save(flags);

    ____napi_schedule(&__get_cpu_var(softnet_data), n);

    local_irq_restore(flags);

}

static inline void ____napi_schedule(struct softnet_data *sd, struct napi_struct *napi)

{

    /* 把napi_struct添加到softnet_data的poll_list中 */

    list_add_tail(&napi->poll_list, &sd->poll_list);

    __raise_softirq_irqoff(NET_RX_SOFTIRQ); /* 设置软中断标志位 */

}

(4) 轮询方法

NAPI方式中的POLL方法由驱动程序提供，在通过netif_napi_add()加入napi_struct时指定。

在驱动的poll()中，从自身的队列中获取sk_buff后，如果网卡开启了GRO，则会调用

napi_gro_receive()处理skb，否则直接调用netif_receive_skb()。

POLL方法应该和process_backlog()大体一致，多了一些具体设备相关的部分。

(5) 非NAPI和NAPI处理流程对比

以下是非NAPI设备和NAPI设备的数据包接收流程对比图：

NAPI方式在上半部中sk_buff是存储在驱动自身的队列中的，软中断处理过程中驱动POLL方法调用

netif_receive_skb()直接处理skb并提交给上层。

/**

 * netif_receive_skb - process receive buffer from network

 * @skb: buffer to process

 * netif_receive_skb() is the main receive data processing function.

 * It always succeeds. The buffer may be dropped during processing

 * for congestion control or by the protocol layers.

 * This function may only be called from softirq context and interrupts

 * should be enabled.

 * Return values (usually ignored):

 * NET_RX_SUCCESS: no congestion

 * NET_RX_DROP: packet was dropped

 */

int netif_receive_skb(struct sk_buff *skb)

{

    /* 记录接收时间到skb->tstamp */

    if (netdev_tstamp_prequeue)

        net_timestamp_check(skb);

    if (skb_defer_rx_timestamp(skb))

        return NET_RX_SUCCESS;

#ifdef CONFIG_RPS

    ...

#else

    return __netif_receive_skb(skb);

#endif

}

__netif_receive_skb()在上篇blog中已分析过了，接下来就是网络层来处理接收到的数据包了。

数据包接收系列 — NAPI的原理和实现的更多相关文章

数据包接收系列 — IP协议处理流程（二）
本文主要内容:在接收数据包时,IP协议的处理流程. 内核版本:2.6.37 Author:zhangskd @ csdn blog 我们接着来看数据包如何发往本地的四层协议. ip_local_del ...
数据包接收系列 — IP协议处理流程（一）
本文主要内容:在接收数据包时,IP协议的处理流程. 内核版本:2.6.37 Author:zhangskd @ csdn blog IP报头 IP报头: struct iphdr { #if defi ...
Linux内核二层数据包接收流程
本文主要讲解了Linux内核二层数据包接收流程,使用的内核的版本是2.6.32.27 为了方便理解,本文采用整体流程图加伪代码的方式从内核高层面上梳理了二层数据包接收的流程,希望可以对大家有所帮助.阅 ...
linux 内核网络数据包接收流程
转:https://segmentfault.com/a/1190000008836467 本文将介绍在Linux系统中,数据包是如何一步一步从网卡传到进程手中的. 如果英文没有问题,强烈建议阅读后面 ...
在dubbo的一端，看Netty处理数据包，揭网络传输原理
如今,我们想要开发一个网络应用,那是相当地方便.不过就是引入一个框架,然后设置些参数,然后写写业务代码就搞定了. 写业务代码自然很重要,但是你知道: 你的数据是怎么来的吗?通过网络传输过来的呗. 你知 ...
IP数据包格式与ARP转发原理
一.网络层简介1.网络层功能2.网络层协议字段二.ICMP与封装三.ARP协议与ARP欺骗1.ARP协议2.ARP欺骗 1.网络层功能 1. 定义了基于IP地址的逻辑地址2. 连接不同的媒介3. 选择 ...
“ping”命令的原理就是向对方主机发送UDP数据包，HTTP在每次请求结束后都会主动释放连接，因此HTTP连接是一种“短连接”
Socket 是一套建立在TCP/IP协议上的接口不是一个协议应用层: HTTP FTP SMTP Web 传输层: 在两个应用程序之间提供了逻辑而不是物理的通信(TCP UDP) T ...
多CPU下基于e1000e驱动的数据包以及网卡中断流程分析.doc
http://wenku.baidu.com/link?url=mMKDH_fKmUXN7L6rANIFHjoHdKCYBLlDrqoYB1daDTEkNFk9Bt9xlJtS_4BKBj6w22WD ...
IP报文解析及基于IP 数据包的洪水攻击
版本(4bit) 报头长度(4bit) 优先级和服务类型(8bit) 总长度(16bit) 标识(16bit) 标志(3bit) 分段偏移(13bit) 存活期(8bit) 协议(8bit) 报头校验 ...

随机推荐

Linux & Windows 计时函数
直接上代码: #if defined(_WIN32) && defined(_MSC_VER) #include <windows.h> double abtic() { ...
SQLite 分离数据库(http://www.w3cschool.cc/sqlite/sqlite-detach-database.html)
SQLite 分离数据库 SQLite的 DETACH DTABASE 语句是用来把命名数据库从一个数据库连接分离和游离出来,连接是之前使用 ATTACH 语句附加的.如果同一个数据库文件已经被附加上 ...
那些年我们一起用过的Hybrid App
Hybrid App现状分析 Web App 毫无疑问Web App就是成本最低,最快速地解决方案了.尤其是近两年非常流行的响应式设计,Web App市场提供了非常好的实践场地.最近典型的Web Ap ...
ubuntu和mac OS X下另一种使用QQ的方法
在ubuntu可以到pidgin官网下载http://www.pidgin.im,然后再安装插件 pidgin-lwqq即可,步骤为: sudo add-apt-repository ppa:lain ...
5. React 组件的协同使用组件嵌套和Mixin
组件是React的核心,构建大型项目时多个组件之间需要进行协同使用.可以从横向和纵向两个角度来实现组件的协同使用,纵向的协同使用就是组件嵌套,横向的协同使用就是Mixin(抽取公共方法 ...
iOS下WebRTC音视频通话（一）
在iOS下做IM功能时,难免都会涉及到音频通话和视频通话.QQ中的QQ电话和视频通话效果就非常好,但是如果你没有非常深厚的技术,也没有那么大的团队,很难做到QQ那么快速和稳定的通话效果. 但是利用We ...
Simple tutorial for using TensorFlow to compute polynomial regression
"""Simple tutorial for using TensorFlow to compute polynomial regression. Parag K. Mi ...
android 减少图片出现oom错误
在做Android图片程序的时候,由于图片比较多,很有很的机会出现OOM的机会,根据网上的资料做了些总结,期待能够减少OOM出现的机会. 1.使用底层的方法来替代使用java层的方法尽量不要使用se ...
钩子不仅仅是windows给你留的后门
说起钩子(Hook)熟悉windows开发的人应该比较熟悉,例如鼠标钩子.键盘钩子等.用简单的语言描述就是在正常处理流程中安置某个钩子,当执行到安置钩子的地方就将进入指定的钩子函数进行处理,待处理完再 ...
jquery easyui datagrid 分页实现---善良公社项目
接着上篇文章,接下来给大家分享分页的实现,分页其实多多少少见过很有几种,框架中带的图片都特别的好看,会给用户以好的使用效果,具体实现,需要自己来补充代码: 图示1: 通常情况下页面数据的分页显示分成真 ...

数据包接收系列 — NAPI的原理和实现

概述

实现

数据包接收系列 — NAPI的原理和实现的更多相关文章

随机推荐

热门专题