TCP的核心系列 — SACK和DSACK的实现（一）

TCP的实现中，SACK和DSACK是比较重要的一部分。

SACK和DSACK的处理部分由Ilpo Järvinen (ilpo.jarvinen@helsinki.fi) 维护。

tcp_ack()处理接收到的带有ACK标志的数据段时，如果此ACK处于慢速路径，且此ACK的记分牌不为空，则调用

tcp_sacktag_write_queue()来根据SACK选项标记发送队列中skb的记分牌状态。

笔者主要分析18和37这两个版本的实现。

相对而言，18版本的逻辑清晰，但效率较低；37版本的逻辑复杂，但效率较高。

本文主要内容：18版tcp_sacktag_write_queue()的实现，也即18版SACK和DSACK的实现。

Author：zhangskd @ csdn

18版数据结构

/* 这就是一个SACK块 */

struct tcp_sack_block {

    u32 start_seq; /* 起始序号 */

    u32 end_seq; /* 结束序号 */

};

struct tcp_sock {

    ...

    /* Options received (usually on last packet, some only on SYN packets). */

    struct tcp_options_received rx_opt;

    ...

    struct tcp_sack_block recv_sack_cache[4]; /* 保存收到的SACK块，用于提高效率*/

    ...

    /* 快速路径中使用，上次第一个SACK块的结束处，现在直接从这里开始处理 */

    struct sk_buff *fastpath_skb_hint;

    int fastpath_cnt_hint;  /* 快速路径中使用，上次记录的fack_count，现在继续累加 */

    ...

};

struct tcp_options_received {

    ...

    u16 saw_tstamp : 1, /* Saw TIMESTAMP on last packet */

            tstamp_ok : 1, /* TIMESTAMP seen on SYN packet */

            dsack : 1, /* D-SACK is scheduled, 下一个发送段是否存在D-SACK */

            sack_ok : 4, /* SACK seen on SYN packet, 接收方是否支持SACK */

            ...

    u8 num_sacks; /* Number of SACK blocks, 下一个发送段中SACK块数 */

    ...

};

18版本实现

18版本的逻辑较清晰，我们先来看看。

static int tcp_sacktag_write_queue(struct sock *sk, struct sk_buff *ack_skb, u32 prior_snd_una)

{

    const struct inet_connection_sock *icsk = inet_csk(sk);

    struct tcp_sock *tp = tcp_sk(sk);

    /* SACK选项的起始地址，sacked为SACK选项在TCP首部的偏移 */

    unsigned char *ptr = ack_skb->h.raw + TCP_SKB_CB(ack_skb)->sacked;

    struct tcp_sack_block *sp = (struct tcp_sack_block *) (ptr + 2); /* 指向第一个sack块 */

    int num_sacks = (ptr[1] - TCPOLEN_SACK_BASE) >> 3; /* sack的块数 */

    int reord = tp->packets_out; /* 乱序的起始包位置，一开始设为最大 */

    int prior_fackets; /* 上次的fackets_out */

    u32 lost_retrans = 0; /* 重传包可能丢失时SACK块结束序号，表示需要遍历到的最高序号 */

    int flag = 0; /* 有两种用途：先表示是否为快速路径，后用于返回标志 */

    int dup_sack = 0; /* 有没有DSACK */

    int i;

     /* 如果之前没有SACKed的数据 */

    if (! tp->sacked_out)

        tp->fackets_out = 0;  /* FACK是根据最新的SACK来计算的，所以也要为0 */

    prior_fackets = tp->fackets_out; /* 处理前先保存上次的fackets_out */

    /* SACK fastpath:

     * if the only SACK change is the increase of the end_seq of the first block then only

     * apply that SACK block and use retrans queue hinting otherwise slowpath.

     * 什么是快速路径：就是只有第一个SACK块的结束序号发生变化，其它的都不变。

      */

    flag = 1; /* 为1的话为快速路径，0为慢速路径 */

    for (i = 0; i < num_sacks; i++) {

        __u32 start_seq = ntohl(sp[i].start_seq); /* 块的起始序号 */

        __u32 end_seq = ntohl(sp[i].end_seq); /* 块的结束序号 */

       /* 判断是否进入快速路径。

         * 对第一个块：只要求起始序号相同

         * 对于非第一个块：要求起始序号和结束序号都相同

         * 也就是说，快速路径指的是只有第一个块的结束序号增加的情况

         */

        if (i == 0) {

            if (tp->recv_sack_cache[i].start_seq != start_seq)

                flag = 0;

        } else {

            if ((tp->recv_sack_cache[i].start_seq != start_seq) ||

                (tp->recv_sack_cache[i].end_seq != end_seq))

                flag = 0;

        }

        /* 更新，保存这次收到的SACK块 */

        tp->recv_sack_cache[i].start_seq = start_seq;

        tp->recv_sack_cache[i].end_seq = end_seq;

        /* Check for D-SACK.

         * 检测是否有DSACK ，DSACK块如果有，只能在第一个块

          */

        if (i == 0) {

            u32 ack = TCP_SKB_CB(ack_skb)->ack_seq;

            /* 如果第一个SACK块的起始序号小于它的确认序号，说明此SACK块包含了确认过的数据 */

            if (before(start_seq, ack)) {

                dup_sack = 1;

                tp->rx_opt.sack_ok |= 4;

                NET_INC_STATS_BH(LINUX_MIB_TCPDSACKRECV);

            /* 如果第一个SACK块包含在第二个SACK块中，也说明第一个SACK块是重复的，即DSACK */

            } else if (num_sacks > 1 &&

                !after(end_seq, ntohl(sp[1].end_seq)) &&

                !before(start_seq, ntohl(sp[1].start_seq))) {

                    dup_sack = 1;

                    tp->rx_opt.sack_ok |= 4;

                    NET_INC_STATS_BH(LINUX_MIB_TCPDSACKOFORECV);

            }

        }

        /* D-SACK for already forgotten data...

         * Do dumb counting.

         * undo_retrans记录重传数据包的个数，如果undo_retrans降到0，

          * 就说明之前的重传都是不必要的，进行拥塞调整撤销。

          * 条件：DSACK、undo_marker < end_seq <= prior_snd_una

         */

        if (dup_sack && !after(end_seq, prior_snd_una) &&

            after(end_seq, tp->undo_marker))

            tp->undo_retrans--;

        /* Eliminate too old ACKs, but take into account more or less fresh ones,

         * they can contain valid SACK info.

         * tp->max_window为接收方通告过的最大接收窗口。

          * 如果SACK信息是很早以前的，直接丢弃。

          */

        if (before(ack, prior_snd_una - tp->max_window))

            return 0;

    }

    if (flag)

        num_sacks = 1; /* 快速路径时只有第一个块有变化，处理第一个块即可 */

    else {

        int j;

        /* 上次第一个SACK块的结束处，也是这次快速路径的开始点，慢速路径中重置了 */

        tp->fastpath_skb_hint = NULL;

        /* order SACK blocks to allow in order walk of the retrans queue.

         * 对SACK块按起始序号，从小到大冒泡排序，以便与接下来的顺序遍历。

          */

        for (i = num_sacks - 1; i > 0; i--) {

            for (j = 0; j < i; j++) {

                if (after(ntohl(sp[j].start_seq), ntohl(sp[j+1].start_seq))) {

                    sp[j].start_seq = htonl(tp->recv_sack_cache[j+1].start_seq);

                    sp[j].end_seq = htonl(tp->recv_sack_cache[j+1].end_seq);

                    sp[j+1].start_seq = htonl(tp->recv_sack_cache[j].start_seq);

                    sp[j+1].end_seq = htonl(tp->recv_sack_cache[j].end_seq);

                }

            }

        }

    }

    /* clear flag as used for different purpose in following code */

    flag = 0; /* 用于返回一些标志 */

    /* 逐个处理SACK块，可能只有一个，也可能多个 */

    for (i = 0; i < num_sacks; i++, sp++) {

        struct sk_buff *skb;

        __u32 start_seq = ntohl(sp->start_seq); /* SACK块起始序号 */

        __u32 end_seq = ntohl(sp->end_seq); /* SACK块结束序号 */

        int fack_count; /* 用于更新fackets_out */

        /* Use SACK fastpath hint if valid.

         * 如果处于快速路径，那么可以不用从头遍历发送队列。

          */

        if (tp->fastpath_skb_hint) {

            skb = tp->fastpath_skb_hint; /* 从这个段开始处理 */

            fack_count = tp->fastpath_cnt_hint; /* 已有的fackets_out */

        } else { /* 否则慢速路径，从头开始处理 */

            skb = sk->sk_write_queue.next; /* 发送队列头 */

            fack_count = 0;

        }

        /* Event B in the comment above.

         * high_seq是进入Recovery或Loss时的snd_nxt，如果high_seq被SACK了，那么很可能有数据包

          * 丢失了，不然就可以ACK掉high_seq返回Open态了。

          */

        if (after(end_seq, tp->high_seq))

            flag |= FLAG_DATA_LOST;

        /* 从skb开始遍历发送队列 */

        sk_stream_for_retrans_queue_from(skb, sk) {

            int in_sack, pcount;

            u8 sacked;

            /* 记录最后一个正在处理的段，下次进入快速路径时，可以直接从这里

               * 开始处理，而不用从头遍历发送队列。

               */

            tp->fastpath_skb_hint = skb;

            tp->fastpath_cnt_hint = fack_count;

            /* The retransmission queue is always in order, so we can short-circuit

             * the walk early.

             * 当前skb段的序号超过SACK块的右端时，说明这个SACK块已经处理好了。

               */

            if (! before(TCP_SKB_CB(skb)->seq, end_seq))

                break;

            /* 这个段是否完全包含在SACK块中 */

            in_sack = ! after(start_seq, TCP_SKB_CB(skb)->seq) &&

                               ! before(end_seq, TCP_SKB_CB(skb)->end_seq);

            pcount = tcp_skb_pcount(skb); /* 这个段分为多少个包 */

           /* 如果当前的段是TSO段，且它的一部份包含在SACK块中。

              * 那么那些已经被SACK的部分就不用再重传了，所以需要重新分割TSO段。

              */

            if (pcount > 1 && ! in_sack &&

                after(TCP_SKB_CB(skb)->end_seq, start_seq)) {

                unsigned int pkt_len;

                /* 表示TSO段的后半部在SACK块之外 */

                in_sack = ! after(start_seq, TCP_SKB_CB(skb)->seq);

                if (! in_sack) /* 如果TSO段的前半部在SACK块之外 */

                    pkt_len = (start_seq - TCP_SKB_CB(skb)->seq); /* SACK块之外段的长度 */

                else

                    pkt_len = (end_seq - TCP_SKB_CB(skb)->seq); /* SACK块之内段的长度 */

                /* 把TSO段分为两部分 */

                if (tcp_fragment(sk, skb, pkt_len, skb_shinfo(skb)->gso_size))

                    break;

                pcount += tcp_skb_pcount(skb); /* skb缩减了，需要重新计算 */

            }

            fack_count += pcount; /* 累加fackets_out */

            sacked = TCP_SKB_CB(skb)->sacked; /* 这就是记分板scoreboard */

            /* Account D-SACK for retransmitted packet.

             * 如果此skb属于DSACK块，且skb被重传过。

               * 这里in_sack指的是：全部包含在SACK块中，还有前半部包含也算，因为分割了：）

               */

            if ((dup_sack && in_sack) && (sacked & TCPCB_RETRANS) &&

                after(TCP_SKB_CB(skb)->end_seq, tp->undo_marker))

                tp->undo_retrans--; /* 如果减为0，那么说明之前重传都是不必要的，进行拥塞控制调整撤销 */

            /* The frame is ACKed. 当这个skb被确认了*/

            if (! after(TCP_SKB_CB(skb)->end_seq, tp->snd_una)) {

                /* 乱序情况1：R|S标志，收到DSACK */

                if (sacked & TCPCB_RETRANS) {

                    if ((dup_sack && in_sack) && (sacked & TCPCB_SACKED_ACKED))

                        reord = min(fack_count, reord); /* 更新乱序的起始位置 */

                } else {

                   /* 乱序情况2：一个包落在highest_sack之前，它既没被SACK过，也不是重传的，

                       * 现在才到达了，那么它就是乱序了。就是前面的洞自动填满了：）

                       */

                    if (fack_count < prior_fackets && ! (sacked & TCPCB_SACKED_ACKED))

                        reord = min(fack_count, reord);

                }

                /* Nothing to do; acked frame is about to be dropped.

                 * 这个skb已经被正常确认了，不用再处理了，它即将被丢弃。

                    */

                continue;

            }

           /* 如果这个包是重传包，并且它的snd_nxt小于此块的结束序号，

             * 那么这个重传包可能是丢失了，我们记录这个块的结束序号，

             * 作为接下来遍历的最高序号。

             */

            if ((sacked & TCPCB_SACKED_RETRANS) &&

                after(end_seq, TCP_SKB_CB(skb)->ack_seq) &&

                (! lost_retrans || after(end_seq, lost_retrans)))

                lost_retrans = end_seq;

            /* 如果这个包不包含在SACK块中，即在SACK块之外，则不用继续处理 */

            if (! in_sack)

                continue;

            /* 如果skb还没有被标志为SACK，那么进行处理 */

            if (! (sacked & TCPCB_SACKED_ACKED)) {

                /* 有R标志，表示被重传过 */

                if (sacked & TCPCB_SACKED_RETRANS) {

                    /* If the segment is not tagged as lost, we do not clear RETRANS, believing

                     * that retransmission is still in flight.

                     * 如果之前的标志是：R | L，那么好，现在收到包了，可以清除R和L。

                        * 如果之前的标志是：R，那么认为现在收到的是orig，重传包还在路上，所以不用干活：）

                        */

                    if (sacked & TCPCB_LOST) {

                        TCP_SKB_CB(skb)->sacked &= ~(TCPCB_LOST | TCPCB_SACKED_RETRANS); /* 取消L和R标志 */

                        tp->lost_out -= tcp_skb_pcount(skb); /* 更新LOST包个数 */

                        tp->retrans_out -= tcp_skb_pcount(skb); /* 更新RETRANS包个数 */

                        /* clear lost hint */

                        tp->retransmit_skb_hint = NULL;

                    }

                } else {

                    /* New sack for not retransmitted frame, which was in hole. It is reordering.

                     * 如果一个包落在highest_sack之前，它即没被SACK过，也不是重传的，那么

                        * 它肯定是乱序了，到现在才被SACK。

                        */

                    if (! (sacked & TCPCB_RETRANS) && fack_count < prior_fackets)

                        reord = min(fack_count, reord); /* 记录乱序的起始 */

                    /* 如果有L标志 */

                    if (sacked & TCPCB_LOST) {

                        TCP_SKB_CB(skb)->sacked &= ~TCPCB_LOST; /* 清除L标志 */

                        tp->lost_out -= tcp_skb_pcount(skb); /* 更新lost_out */

                        /* clear lost hint */

                        tp->retransmit_skb_hint = NULL;

                    }

                }

                TCP_SKB_CB(skb)->sacked |= TCPCB_SACKED_ACKED; /* 打上S标志 */

                flag |= FLAG_DATA_SACKED; /* New SACK */

                tp->sacked_out += tcp_skb_pcount(skb); /* 更新sacked_out */

                if (fack_count > tp->fackets_out)

                    tp->fackets_out = fack_count; /* 更新fackets_out */

            } else { /* 已经有S标志 */

                /* 如果之前是R|S标志，且这个包被DSACK了，说明是乱序 */

                if (dup_sack && (sacked & TCPCB_RETRANS))

                    reord = min(fack_count, reord);

            }

            /* D-SACK. We can detect redundant retransmission in S|R and plain R frames

             * and clear it.

             * undo_retrans is decreased above, L|R frames are accounted above as well.

             * 如果skb被D-SACK，并且它的重传标志还未被清除，那么现在清除。

               */

            if (dup_sack && (TCP_SKB_CB(skb)->sacked & TCPCB_SACKED_RETRANS)) {

                TCP_SKB_CB(skb)->sacked &= ~TCPCB_SACKED_RETRANS;

                tp->retrans_out -= tcp_skb_pcount(skb);

                tp->retransmit_skb_hint = NULL;

            }

        }

    }

    /* Check for lost retransmit. This superb idea is borrowed from "ratehalving." Event C.

     * 如果lost_retrans不为0，且处于Recovery状态，说明有重传包丢失，进行处理。

     */

    if (lost_retrans && icsk->icsk_ca_state == TCP_CA_Recovery) {

        struct sk_buff *skb;

        /* 从头开始遍历发送队列 */

        sk_stream_for_retrans_queue(skb, sk) {

            /* lost_retrans记录的是SACK块结束序号，并且只在小于lost_retrans内有发现重传包丢失 */

            if (after(TCP_SKB_CB(skb)->seq, lost_retrans))

                break;

            /* 不关心成功确认过的包 */

            if (! after(TCP_SKB_CB(skb)->end_seq, tp->snd_una)

                continue;

            /* 现在判断这个重传包是否丢失。

              * 这个包要是重传包，并且它的snd_nxt小于lost_retrans

             */

            if ((TCP_SKB_CB(skb)->sacked & TCPCB_SACKED_RETRANS) &&

                after(lost_retrans, TCP_SKB_CB(skb)->ack_seq) &&  (IsFack(tp) ||

                !before(lost_retrans, TCP_SKB_CB(skb)->ack_seq + tp->reordering * tp->mss_cache))) {

                TCP_SKB_CB(skb)->sacked &= ~TCPCB_SACKED_RETRANS; /* 清除R标志 */

                tp->retrans_out -= tcp_skb_pcount(skb); /* 更新retrans_out */

                /* clear lost hint */

                tp->retransmit_skb_hint = NULL;

                /* 给这个包重新打上L标志 */

                if (! (TCP_SKB_CB(skb)->sacked & (TCPCB_LOST | TCPCB_SACKED_ACKED))) {

                    tp->lost_out += tcp_skb_pcount(skb); /* 更新lost_out */

                    TCP_SKB_CB(skb)->sacked |= TCPCB_LOST; /* 打上L标志 */

                    /* 这个弄错了吧？应该是FLAG_DATA_LOST才对 */

                    flag |= FLAG_DATA_SACKED;

                    NET_INC_STATS_BH(LINUX_MIB_TCPLOSTRETRANSMIT);

                }

            }

        }

    }

    tp->left_out = tp->sacked_out + tp->lost_out;

    /* 更新乱序队列长度。

     * 乱序队列的长度 = fackets_out - reord + 1，reord记录从第几个包开始乱序

     */

    if ((reord < tp->fackets_out) && icsk->icsk_ca_state != TCP_CA_Loss)

        tcp_update_reordering(sk, ((tp->fackets_out + 1) - reord), 0);

#if FASTRETRANS_DEBUG > 0

    BUG_TRAP((int) tp->sacked_out >= 0);

    BUG_TRAP((int) tp->lost_out >= 0);

    BUG_TRAP((int) tp->retrans_out >= 0);

    BUG_TRAP((int) tcp_packets_in_flight(tp) >= 0);

#endif

    return flag;

}

Q: 为什么说18版的实现效率不高呢？

A: 我们收到num_sacks个SACK块，如果符合快速路径，那么遍历一次发送队列就可以了；

但是如果不符合快速路径，那么对于每个SACK块，都要遍历一次发送队列，而且都是从头开始遍历，

这样就做了很多重复工作，复杂度为O(num_sacks * cwnd)。如果cwnd很大的话，CPU消耗会较高。

37版本在这一方面做了一些优化。

对于18版本中的一些细节，接下来会对照37版本的实现进行详细分析，比如：

SACK选项的地址在接收时是如何保存起来的，这是在tcp_rcv_established中处理的。

DSACK的原理和实现，这部分在37中独立出来。

检测重传包是否丢失的原理和实现，这部分在37中独立出来。

乱序是如何检测的，它的原理和实现。

Reference

RFC 2018

RFC 2883