[转]Linux网络 - 数据包的发送过程

转，原文：https://segmentfault.com/a/1190000008926093

--------------------------------------------------------------------------------------------------------------------

继上一篇介绍了数据包的接收过程后，本文将介绍在Linux系统中，数据包是如何一步一步从应用程序到网卡并最终发送出去的。

如果英文没有问题，强烈建议阅读后面参考里的文章，里面介绍的更详细。

本文只讨论以太网的物理网卡，并且以一个UDP包的发送过程作为示例，由于本人对协议栈的代码不熟，有些地方可能理解有误，欢迎指正

socket层

               +-------------+

               | Application |

               +-------------+

                     |

                     |

                     ↓

+------------------------------------------+

| socket(AF_INET, SOCK_DGRAM, IPPROTO_UDP) |

+------------------------------------------+

                     |

                     |

                     ↓

           +-------------------+

           | sendto(sock, ...) |

           +-------------------+

                     |

                     |

                     ↓

              +--------------+

              | inet_sendmsg |

              +--------------+

                     |

                     |

                     ↓

             +---------------+

             | inet_autobind |

             +---------------+

                     |

                     |

                     ↓

               +-----------+

               | UDP layer |

               +-----------+

socket(...)：创建一个socket结构体，并初始化相应的操作函数，由于我们定义的是UDP的socket，所以里面存放的都是跟UDP相关的函数
sendto(sock, ...)：应用层的程序（Application）调用该函数开始发送数据包，该函数数会调用后面的inet_sendmsg
inet_sendmsg：该函数主要是检查当前socket有没有绑定源端口，如果没有的话，调用inet_autobind分配一个，然后调用UDP层的函数
inet_autobind：该函数会调用socket上绑定的get_port函数获取一个可用的端口，由于该socket是UDP的socket，所以get_port函数会调到UDP代码里面的相应函数。

UDP层

                     |

                     |

                     ↓

              +-------------+

              | udp_sendmsg |

              +-------------+

                     |

                     |

                     ↓

          +----------------------+

          | ip_route_output_flow |

          +----------------------+

                     |

                     |

                     ↓

              +-------------+

              | ip_make_skb |

              +-------------+

                     |

                     |

                     ↓

         +------------------------+

         | udp_send_skb(skb, fl4) |

         +------------------------+

                     |

                     |

                     ↓

                +----------+

                | IP layer |

                +----------+

udp_sendmsg： udp模块发送数据包的入口，该函数较长，在该函数中会先调用ip_route_output_flow获取路由信息（主要包括源IP和网卡），然后调用ip_make_skb构造skb结构体，最后将网卡的信息和该skb关联。
ip_route_output_flow：该函数会根据路由表和目的IP，找到这个数据包应该从哪个设备发送出去，如果该socket没有绑定源IP，该函数还会根据路由表找到一个最合适的源IP给它。如果该socket已经绑定了源IP，但根据路由表，从这个源IP对应的网卡没法到达目的地址，则该包会被丢弃，于是数据发送失败，sendto函数将返回错误。该函数最后会将找到的设备和源IP塞进flowi4结构体并返回给udp_sendmsg
ip_make_skb：该函数的功能是构造skb包，构造好的skb包里面已经分配了IP包头，并且初始化了部分信息（IP包头的源IP就在这里被设置进去），同时该函数会调用__ip_append_dat，如果需要分片的话，会在__ip_append_data函数中进行分片，同时还会在该函数中检查socket的send buffer是否已经用光，如果被用光的话，返回ENOBUFS
udp_send_skb(skb, fl4) 主要是往skb里面填充UDP的包头，同时处理checksum，然后调用IP层的相应函数。

IP层

          |

          |

          ↓

   +-------------+

   | ip_send_skb |

   +-------------+

          |

          |

          ↓

  +-------------------+       +-------------------+       +---------------+

  | __ip_local_out_sk |------>| NF_INET_LOCAL_OUT |------>| dst_output_sk |

  +-------------------+       +-------------------+       +---------------+

                                                                  |

                                                                  |

                                                                  ↓

 +------------------+        +----------------------+       +-----------+

 | ip_finish_output |<-------| NF_INET_POST_ROUTING |<------| ip_output |

 +------------------+        +----------------------+       +-----------+

          |

          |

          ↓

  +-------------------+      +------------------+       +----------------------+

  | ip_finish_output2 |----->| dst_neigh_output |------>| neigh_resolve_output |

  +-------------------+      +------------------+       +----------------------+

                                                                   |

                                                                   |

                                                                   ↓

                                                           +----------------+

                                                           | dev_queue_xmit |

                                                           +----------------+

ip_send_skb： IP模块发送数据包的入口，该函数只是简单的调用一下后面的函数
__ip_local_out_sk：设置IP报文头的长度和checksum，然后调用下面netfilter的钩子
NF_INET_LOCAL_OUT： netfilter的钩子，可以通过iptables来配置怎么处理该数据包，如果该数据包没被丢弃，则继续往下走
dst_output_sk：该函数根据skb里面的信息，调用相应的output函数，在我们UDP IPv4这种情况下，会调用ip_output
ip_output：将上面udp_sendmsg得到的网卡信息写入skb，然后调用NF_INET_POST_ROUTING的钩子
NF_INET_POST_ROUTING：在这里，用户有可能配置了SNAT，从而导致该skb的路由信息发生变化
ip_finish_output：这里会判断经过了上一步后，路由信息是否发生变化，如果发生变化的话，需要重新调用dst_output_sk（重新调用这个函数时，可能就不会再走到ip_output，而是走到被netfilter指定的output函数里，这里有可能是xfrm4_transport_output），否则往下走
ip_finish_output2：根据目的IP到路由表里面找到下一跳(nexthop)的地址，然后调用__ipv4_neigh_lookup_noref去arp表里面找下一跳的neigh信息，没找到的话会调用__neigh_create构造一个空的neigh结构体
dst_neigh_output：在该函数中，如果上一步ip_finish_output2没得到neigh信息，那么将会走到函数neigh_resolve_output中，否则直接调用neigh_hh_output，在该函数中，会将neigh信息里面的mac地址填到skb中，然后调用dev_queue_xmit发送数据包
neigh_resolve_output：该函数里面会发送arp请求，得到下一跳的mac地址，然后将mac地址填到skb中并调用dev_queue_xmit

netdevice子系统

                          |

                          |

                          ↓

                   +----------------+

  +----------------| dev_queue_xmit |

  |                +----------------+

  |                       |

  |                       |

  |                       ↓

  |              +-----------------+

  |              | Traffic Control |

  |              +-----------------+

  | loopback              |

  |   or                  +--------------------------------------------------------------+

  | IP tunnels            ↓                                                              |

  |                       ↓                                                              |

  |            +---------------------+  Failed   +----------------------+         +---------------+

  +----------->| dev_hard_start_xmit |---------->| raise NET_TX_SOFTIRQ |- - - - >| net_tx_action |

               +---------------------+           +----------------------+         +---------------+

                          |

                          +----------------------------------+

                          |                                  |

                          ↓                                  ↓

                  +----------------+              +------------------------+

                  | ndo_start_xmit |              | packet taps(AF_PACKET) |

                  +----------------+              +------------------------+

dev_queue_xmit： netdevice子系统的入口函数，在该函数中，会先获取设备对应的qdisc，如果没有的话（如loopback或者IP tunnels），就直接调用dev_hard_start_xmit，否则数据包将经过Traffic Control模块进行处理
Traffic Control：这里主要是进行一些过滤和优先级处理，在这里，如果队列满了的话，数据包会被丢掉，详情请参考文档，这步完成后也会走到dev_hard_start_xmit
dev_hard_start_xmit：该函数中，首先是拷贝一份skb给“packet taps”，tcpdump就是从这里得到数据的，然后调用ndo_start_xmit。如果dev_hard_start_xmit返回错误的话（大部分情况可能是NETDEV_TX_BUSY），调用它的函数会把skb放到一个地方，然后抛出软中断NET_TX_SOFTIRQ，交给软中断处理程序net_tx_action稍后重试（如果是loopback或者IP tunnels的话，失败后不会有重试的逻辑）
ndo_start_xmit：这是一个函数指针，会指向具体驱动发送数据的函数

Device Driver

ndo_start_xmit会绑定到具体网卡驱动的相应函数，到这步之后，就归网卡驱动管了，不同的网卡驱动有不同的处理方式，这里不做详细介绍，其大概流程如下：

将skb放入网卡自己的发送队列
通知网卡发送数据包
网卡发送完成后发送中断给CPU
收到中断后进行skb的清理工作

在网卡驱动发送数据包过程中，会有一些地方需要和netdevice子系统打交道，比如网卡的队列满了，需要告诉上层不要再发了，等队列有空闲的时候，再通知上层接着发数据。

其它

SO_SNDBUF: 从上面的流程中可以看出来，对于UDP来说，没有一个对应send buffer存在，SO_SNDBUF只是一个限制，当这个socket分配的skb占用的内存超过这个值的时候，会返回ENOBUFS，所以说只要不出现ENOBUFS错误，把这个值调大没有意义。从sendto函数的帮助文件里面看到这样一句话：(Normally, this does not occur in Linux. Packets are just silently dropped when a device queue overflows.)。这里的device queue应该指的是Traffic Control里面的queue，说明在linux里面，默认的SO_SNDBUF值已经够queue用了，疑问的地方是，queue的长度和个数是可以配置的，如果配置太大的话，按道理应该有可能会出现ENOBUFS的情况。
txqueuelen: 很多地方都说这个是控制qdisc里queue的长度的，但貌似只是部分类型的qdisc用了该配置，如linux默认的pfifo_fast。
hardware RX: 一般网卡都有一个自己的ring queue，这个queue的大小可以通过ethtool来配置，当驱动收到发送请求时，一般是放到这个queue里面，然后通知网卡发送数据，当这个queue满的时候，会给上层调用返回NETDEV_TX_BUSY
packet taps(AF_PACKET): 当第一次发送数据包和重试发送数据包时，都会经过这里，如果发生重试的情况的话，不确定tcpdump是否会抓到两次包，按道理应该不会，可能是我哪里没看懂

参考

[转]Linux网络 - 数据包的发送过程的更多相关文章

Linux网络 - 数据包的接收过程【转】
转自:https://segmentfault.com/a/1190000008836467 本文将介绍在Linux系统中,数据包是如何一步一步从网卡传到进程手中的. 如果英文没有问题,强烈建议阅读后 ...
[转]Linux网络 - 数据包的接收过程
转, 原文: https://segmentfault.com/a/1190000008836467 ------------------------------------------------- ...
Linux网络 - 数据包的接收过程（转）
https://segmentfault.com/a/1190000008836467
Linux网络数据包的揭秘以及常见的调优方式总结
https://mp.weixin.qq.com/s/boRWlx1R7TX0NLuI2sZBfQ 作为业务 SRE,我们所运维的业务,常常以 Linux+TCP/UDP daemon 的形式对外提供 ...
Linux内核数据包的发送传输
本文主要讲解了Linux内核数据包的传输流程,使用的内核的版本是2.6.32.27 为了方便理解,本文采用整体流程图加伪代码的方式从内核高层面上梳理了二层数据包发送传输的流程,希望可以对大家有所帮助. ...
Linux内核中网络数据包的接收-第一部分概念和框架
与网络数据包的发送不同,网络收包是异步的的.由于你不确定谁会在什么时候突然发一个网络包给你.因此这个网络收包逻辑事实上包括两件事:1.数据包到来后的通知2.收到通知并从数据包中获取数据这两件事发生在协 ...
LINUX下的远端主机登入校园网络注册网络数据包转发和捕获
第一部分:LINUX 下的远端主机登入和校园网注册校园网内目的主机远程管理登入程序本程序为校园网内远程登入,管理功能,该程序分服务器端和客户端两部分:服务器端为remote_server_udp. ...
virtio-netdev 数据包的发送
在前面几文中已经大体介绍了virtio的重要组成,包含virtio net设备的创建,vring的创建,与virtio设备的交互方式,我们就从网络数据包的发送角度来看下virtio的详细使用流程. [ ...
Linux内核--网络栈实现分析（七）--数据包的传递过程（下）
本文分析基于Linux Kernel 1.2.13 原创作品,转载请标明http://blog.csdn.net/yming0221/article/details/7545855 更多请查看专栏,地 ...

随机推荐

（转）JVM原理讲解和调优
背景:jvm实际调优在面试时候经常被问到,所以有必要认真总结一番. 转自:JVM原理讲解和调优四.JVM内存调优首先需要注意的是在对JVM内存调优的时候不能只看操作系统级别Java进程所占用的内存 ...
[转帖]说一说JVM双亲委派机制与Tomcat
说一说JVM双亲委派机制与Tomcat https://www.cnblogs.com/dengchengchao/p/11844022.html 讲个故事: 以前,爱捣鼓的小明突然灵机一动,写出了下 ...
python学习-62 类属性的增删该查
类属性 1.类属性类属性又称为静态变量,或者是静态数据.这些数据是与它们所属的类对象绑定的,不依赖于任何类实例. 2.增删改查 class zoo: country = 'china' def ...
MySQL练手小试题
创建表和数据创建class表 create table class ( cid int(11) primary key auto_increment, caption varchar(32) not ...
Linux设置普通用户无密码sudo权限
配置普通用户无密码sudo权限: root用户进入到Linux系统的/etc目录下 cd /etc 将sudoers文件赋予写的权限 chmod u+w /etc/sudoers 编辑sudoers文 ...
SAS学习笔记59 OPTIONS系统选项
带VALUE选项的OPTIONS过程将指定选项的值.范围及该值如何设置的信息打印到日志窗口在日志窗口打印的输出如下图所示将GETOPTION函数作为%SYSFUNC宏函数的参数,从而获取系统选项设 ...
Java8 基础数据类型包装类-Long
https://blog.csdn.net/u012562117/article/details/79023440 基础 //final修饰不可更改,每次赋值都是新建类(其中-128~127是通过L ...
导出Excel的2个方法
导出到Excel的两种方法第一种: 1.首先创建Excle模板,另存为 “xml”文件.使用记事本等编辑软件打开文件的代码.然后另存为视图文件“Export.cshtml”; 2.控制器操作 pub ...
Webform中的前后端分离
Webform常用的开发方式 (1)运用服务器端控件的aspx页面 (2)一般处理程序+html静态页面+Ajax(所谓的前后端分离) (3)一般处理程序+html模板引擎这里简单记录html+ ...
.net core使用ocelot---第八篇 Consul
简介 .net core使用ocelot---第一篇简单使用 .net core使用ocelot---第二篇身份验证使用 .net core使用ocelot---第三篇日志记录 .net ...