IP 层收发报文简要剖析6--ip报文输出3 ip_push_pending

L4层的协议会把数据通过ip_append_data或ip_append_page把数据线放在缓冲区，然后再显示调用ip_push_pending_frames传送数据。

把数据放在缓冲区有两个优点，一方面，缓冲区的数据可以被后续的一些函数使用，构成一些片段；另一方面，把数据放缓冲区，等缓冲区满了（达到PMTU）再传送数据，可以更有效率。

如果在一些情况下，L4层希望去放在缓冲区的数据立即被传输，那么在调用ip_append_data把数据放缓冲区后，立即调用ip_push_pending_frames进行传输。

ip_push_pending_frames：其作用为将输出队列上的多个片段合成一个完整的ip数据报文，并通过ip_output输出；此函数相当于一个notify函数，当4层决定传输帧到ip层的时候，他就需要调用这个函数.通过前面我们知道此时所有的数据(如果不支持Scatter/Gather I/O),都在sk_write_queue中；

根据是否使用分散聚集I/O 封包数据的组织和在sk_buf结构中的组织会有所不同：

int ip_push_pending_frames(struct sock *sk, struct flowi4 *fl4)

{

    struct sk_buff *skb;

    skb = ip_finish_skb(sk, fl4);

    if (!skb)

        return 0;

    /* Netfilter gets whole the not fragmented skb. */

    return ip_send_skb(sock_net(sk), skb);

}

static inline struct sk_buff *ip_finish_skb(struct sock *sk, struct flowi4 *fl4)

{

	return __ip_make_skb(sk, fl4, &sk->sk_write_queue, &inet_sk(sk)->cork.base);

}

函数__ip_make_skb除了填充L3头外，还对skb的组织进行了修改：

所有的大小都会在第一个skb中体现，即本例中skb->len=load+L3+L4
后续调用ip_finish_output进行发送

__ip_make_skb 简析

如果路径rt开启了PMTU 且没有被锁定ip_dont_fragment
IP_PMTUDISC_DO 路径mtu发现开启则禁止分片

/*

 *    Combined all pending IP fragments on the socket as one IP datagram

 *    and push them out.

 */

struct sk_buff *__ip_make_skb(struct sock *sk,

                  struct flowi4 *fl4,

                  struct sk_buff_head *queue,

                  struct inet_cork *cork)

{

    struct sk_buff *skb, *tmp_skb;

    struct sk_buff **tail_skb;

    struct inet_sock *inet = inet_sk(sk);

    struct net *net = sock_net(sk);

    struct ip_options *opt = NULL;

    struct rtable *rt = (struct rtable *)cork->dst;

    struct iphdr *iph;

    __be16 df = 0;

    __u8 ttl;

    skb = __skb_dequeue(queue);/* 发送队列可能为空 */

    if (!skb)

        goto out;

    tail_skb = &(skb_shinfo(skb)->frag_list); /* 获得分片链表 */

    /* move skb->data to ip header from ext header */

    if (skb->data < skb_network_header(skb)) /* 调整data指针位置 */

        __skb_pull(skb, skb_network_offset(skb));

    while ((tmp_skb = __skb_dequeue(queue)) != NULL) { /* 调整所有发送缓冲中的sk_buff的data指针位置，并更新第一个sk_buff的数据长度 */

        __skb_pull(tmp_skb, skb_network_header_len(skb));

        *tail_skb = tmp_skb;

        tail_skb = &(tmp_skb->next);

        skb->len += tmp_skb->len;

        skb->data_len += tmp_skb->len;

        skb->truesize += tmp_skb->truesize;

        tmp_skb->destructor = NULL;

        tmp_skb->sk = NULL;

    }

    /* Unless user demanded real pmtu discovery (IP_PMTUDISC_DO), we allow

     * to fragment the frame generated here. No matter, what transforms

     * how transforms change size of the packet, it will come out.

     */

    skb->ignore_df = ip_sk_ignore_df(sk);

    /* DF bit is set when we want to see DF on outgoing frames.

     * If ignore_df is set too, we still allow to fragment this frame

     * locally. */

    if (inet->pmtudisc == IP_PMTUDISC_DO ||

        inet->pmtudisc == IP_PMTUDISC_PROBE ||

        (skb->len <= dst_mtu(&rt->dst) &&

         ip_dont_fragment(sk, &rt->dst))) /* 不允许分片，或者不需要分片 */

        df = htons(IP_DF);

    if (cork->flags & IPCORK_OPT)/* ip option 保存在cork中， 则使用cork中的option */

        opt = cork->opt;

    if (cork->ttl != 0)/* 选择合适的TTL值 */

        ttl = cork->ttl;

    else if (rt->rt_type == RTN_MULTICAST)

        ttl = inet->mc_ttl;

    else

        ttl = ip_select_ttl(inet, &rt->dst);

    iph = ip_hdr(skb);/* 得到IP报文头的地址 */

    iph->version = 4;

    iph->ihl = 5;

    iph->tos = (cork->tos != -1) ? cork->tos : inet->tos;

    iph->frag_off = df;

    iph->ttl = ttl;

    iph->protocol = sk->sk_protocol;

    ip_copy_addrs(iph, fl4);

    ip_select_ident(net, skb, sk);

    if (opt) { /*

        填充IP option

        看到这里，可以发现opt只可能从cork中获得

         */

        iph->ihl += opt->optlen>>2;

        ip_options_build(skb, opt, cork->addr, rt, 0);

    }

    skb->priority = (cork->tos != -1) ? cork->priority: sk->sk_priority;

    skb->mark = sk->sk_mark;

    /*

     * Steal rt from cork.dst to avoid a pair of atomic_inc/atomic_dec

     * on dst refcount

     */

    cork->dst = NULL;

    skb_dst_set(skb, &rt->dst);

    if (iph->protocol == IPPROTO_ICMP)

        icmp_out_count(net, ((struct icmphdr *)

            skb_transport_header(skb))->type);

    ip_cork_release(cork);

out:

    return skb;

}

/* Output packet to network from transport.  */
static inline int dst_output(struct net *net, struct sock *sk, struct sk_buff *skb)
{
   /*
     * 如果是单播数据包，设置的是ip_output(),
     * 如果是组播数据包，设置的是ip_mc_output().dev_queue_xmit
     */
    return skb_dst(skb)->output(net, sk, skb);
}

int __ip_local_out(struct net *net, struct sock *sk, struct sk_buff *skb)

{

    struct iphdr *iph = ip_hdr(skb);

    iph->tot_len = htons(skb->len);

    ip_send_check(iph);

    return nf_hook(NFPROTO_IPV4, NF_INET_LOCAL_OUT,

               net, sk, skb, NULL, skb_dst(skb)->dev,

               dst_output);

}

int ip_local_out(struct net *net, struct sock *sk, struct sk_buff *skb)

{

    int err;

    err = __ip_local_out(net, sk, skb);

    if (likely(err == 1))

        err = dst_output(net, sk, skb);

    return err;

}

IP 层收发报文简要剖析6--ip报文输出3 ip_push_pending_frames的更多相关文章

IP 层收发报文简要剖析3--ip输入报文分片重组
在ip_local_deliver中,如果检测到是分片包,则需要将报文进行重组.其所有的分片被重新组合后才能提交到上层协议,每一个被重新组合的数据包文用ipq结构实例来表示 struct ipq { ...
IP 层收发报文简要剖析5--ip报文发送2
udp 发送ip段报文接口ip_append_data ip_append_data 函数主要用来udp 套接字以及raw套接字发送报文的接口.在tcp中发送ack 以及rest段的ip_send_u ...
IP 层收发报文简要剖析2--ip报文的输入ip_local_deliver
ip报文根据路由结果:如果发往本地则调用ip_local_deliver处理报文:如果是转发出去,则调用ip_forward 处理报文. 一.ip报文转发到本地: /* * Deliver IP Pa ...
IP 层收发报文简要剖析1-ip报文的输入
ip层数据包处理场景如下: 网络层处理数据包文时需要和路由表以及邻居系统打交道.输入数据时,提供输入接口给链路层调用,并调用传输层的输入接口将数据输入到传输层. 在输出数据时,提供输出接口给传输层,并 ...
IP 层收发报文简要剖析4--ip 报文发送
无论是从本地输出的数据还是转发的数据报文,经过路由后都要输出到网络设备,而输出到网络设备的接口就是dst_output(output)函数路由的时候,dst_output函数设置为ip_output ...
IP 层收发报文简要剖析6--ip_forward 报文转发
//在函数ip_route_input_slow->ip_mkroute_input注册, /* * IP数据包的转发是由ip_forward()处理,该函数在ip_rcv_finish() * ...
TCP层的分段和IP层的分片之间的关系 & MTU和MSS之间的关系（转载）
首先说明:数据报的分段和分片确实发生,分段发生在传输层,分片发生在网络层.但是对于分段来说,这是经常发生在UDP传输层协议上的情况,对于传输层使用TCP协议的通道来说,这种事情很少发生. 1,MTU( ...
原 TCP层的分段和IP层的分片之间的关系 & MTU和MSS之间的关系
首先说明:数据报的分段和分片确实发生,分段发生在传输层,分片发生在网络层.但是对于分段来说,这是经常发生在UDP传输层协议上的情况,对于传输层使用TCP协议的通道来说,这种事情很少发生. 1,MTU( ...
Linux 网卡驱动学习（六）（应用层、tcp 层、ip 层、设备层和驱动层作用解析）
本文将介绍网络连接建立的过程.收发包流程,以及当中应用层.tcp层.ip层.设备层和驱动层各层发挥的作用. 1.应用层对于使用socket进行网络连接的server端程序.我们会先调用socket函 ...

随机推荐

LVM创建及管理
安装lvm yum install -y lvm yum install -y lvm
MeteoInfoLab脚本示例：闪电位置图
这个脚本示例读取文本格式的闪电数据,读出每条闪电记录的经纬度和强度,在地图上绘制出每个闪电的位置,并用符号和颜色区分强度正负.数据格式如下:0 2009-06-06 00:01:16.6195722 ...
UDP协议网络Socket编程(java实现C/S通信案例)
我的博客园:https://www.cnblogs.com/chenzhenhong/p/13825286.html 我的CSDN博客:https://blog.csdn.net/Charzous/a ...
Token 、Cookie和Session的区别
本文转至http://blog.csdn.net/tobetheender/article/details/52485948 https://blog.csdn.net/axin66ok/articl ...
【自学编程】C语言编程简单的小程序，计算长方体体积！
计算长方体体积有朋友会说长方体体积还不好算吗?长X宽X高.没错用计算器一下就可以出结果,编程反而麻烦些,但是我们说的是这种思维,如果复杂的重复运算的话写好程序就非常简单了. 简单运算下一个固定高度的 ...
【数论】HDU 4143 A Simple Problem
题目内容给出一个正整数\(n\),找到最小的正整数\(x\),使之能找到一个整数\(y\),满足\(y^2=n+x^2\). 输入格式第一行是数据组数\(T\),每组数据有一个整数\(n\). 输 ...
linux(centos8):安装kubernetes worker节点并加入到kubernetes集群(kubernetes 1.18.3)
一,安装kubernetes前的准备工作安装前的准备工作(master\worker都要进行) 参见: https://www.cnblogs.com/architectfore ...
理解Go协程与并发(转)
理解Go协程与并发协程 Go语言里创建一个协程很简单,使用go关键字就可以让一个普通方法协程化: Copy package main import ( "fmt" " ...
Helium文档3-WebUI自动化-click点击
前言 click点击方法在web UI自动化中使用频率非常高,此方法就是模拟鼠标左键单击动作 click入参说明 1.首先我们来分析一下click方法的代码 click(element): &qu ...
Prometheus入门教程（三）：Grafana 图表配置快速入门
文章首发于[陈树义]公众号,点击跳转到原文:https://mp.weixin.qq.com/s/sA0nYevO8yz6QLRz03qJSw 前面我们使用 Prometheus + Grafana ...

IP 层收发报文简要剖析6--ip报文输出3 ip_push_pending_frames

IP 层收发报文简要剖析6--ip报文输出3 ip_push_pending_frames的更多相关文章

随机推荐

热门专题