本文摘抄自:http://www.kuqin.com/shuoit/20141018/342719.html

本文描述了TCP协议,首先简单介绍了TCP完成了一些什么功能;介绍了TCP报文格式,以及典型报文的数据格式;接着从链路控制和数据传输两个方面进行了介绍,在TCP中链路控制和数据传输是通过同一个通道进行的,并没有区分控制通道和数据通道;在网络中传输数据(控制或真实数据),网络可能发生拥堵,因此接下来简单描述了主机端进行拥塞控制所采取的方法,也简单提及了中间路由器/交换机进行拥塞避免所采取的主动措施;最后介绍了在TCP中性能分析的一些基本概念点,在开发网络应用程序的时候,需要对应用的网络需求进行一个估计。

同时我也用perl写了一个ksock.pl(https://github.com/kiterunner-t/ksock)的小程序演示TCP的基本功能。需要注意的是,本文所涉及到的所有测试都在Linux上进行,也主要关注Linux中对TCP的实现。另,本文的图片主要来自《TCP/IP详解——卷一:协议》一书中的截图。

本文不是TCP的入门资料,阅读之前需要对TCP有一些基本认识,如三次握手、四次挥手、滑动窗口等。

1 TCP概述

通常说到TCP,我们都会很自然的想到其为上层提供了一个面向连接、可靠的、端到端的数据流服务,也通常用电话线路来类比一个TCP连接。但这种类比对刚接触到TCP的人来说极易造成误会,我们需要仔细审视这些概念,你将会发现TCP并不是那么面向连接的、也不是那么可靠的、数据也仍然是通过报文的方式进行传输的。实际上TCP是提供了一种“尽力而为”的数据传输模型;同时,它也提供了防止网络拥塞的主机端拥塞控制,试图去了解整个网络的状况,并采取合适的策略(貌似不是TCP应该干的事?)。

TCP的连接并不是指一条实际的或虚拟的链路存在于数据交换的两端,而是指连接的双方都维护了一些资源(如输入输出缓冲区、多种定时器)以及链路状态的信息,并通过双方的控制报文交互管理状态、向用户提供接口修改这些资源的分配。在“连接控制”小节,我们将会仔细审视资源和状态(包括控制状态的报文),若控制报文丢失,那么连接就会处于一种不一致状态,TCP通过一些手段去试图解决这些问题(如持活定时器、保持定时器等等)。

TCP提供了可靠的数据传输服务,其采取的措施是对控制报文和数据报文进行确认、并在超时之后进行重传;并利用滑动窗口协议解决数据数传乱序、收发双方进行流量控制。具体来说就是,对于发送方,TCP按照其认为最合适的长度发送数据报文,并在发出报文之后,启动一个定时器,等待数据的确认报文,若定时器超时后仍没有收到确认报文,则重传该报文;对于接收方,收到数据后,首先检查报文校验和,错误则直接丢弃该报文,不确认(发送端会注意到这个事实,从而重传);收到重复报文,丢弃,不确认;通过双方维护的滑动窗口,TCP会将乱序报文排好序后才提交给上层应用程序。需要注意的是,流量控制与拥塞控制并不是同一回事,流量控制的目的在于防止发送端发送大量数据,超过接收端的处理能力,从而导致丢包等;拥塞控制则在于防止网络中发生拥堵,中间路由器或交换机丢弃报文的情况。

TCP提供数据流服务,上层应用传给TCP的数据,TCP并不加以区分,仅仅是按照自己的需求组合、拆分数据,然后传送给对端,对端TCP协议栈再将数据以发送的顺序递交给上层应用。TCP的数据传送仍然是以IP报文的方式发送到对端的,每次尽力发送MSS大小的报文,在“数据传输”小节我们会看到诸如Nagle算法、TCP_CORK等对流中报文的控制。

TCP本身并不提供报文边界之类的东西,但提供了紧急数据、PUSH标志(并没有提供对外接口)等方式可以模拟报文。通常,TCP数据流的划分是应用程序的事,应用程序定义好格式,并自己解析,常见的方案有:

  • 先传输固定大小的报文长度字段;
  • 按行进行分割(或其他分隔符);
  • 固定长度记录;
  • 各种编码方案,如xml、json、ASN.1、tlv等。

2 TCP报文

2.1 TCP报文格式

TCP报文最终是由IP层发送出去的,封装报文如下:

TCP报文格式如下:

通常使用一个四元组唯一的表示一个TCP连接(client-ip, client-port, server-ip, server-port),但需要注意以下事实:

  • 监听服务器在server-port窗口接受来自客户端的连接,并fork一个子进程处理连接,此时,该四元组却在服务器对应了两个进程(监听进程只处理SYN报文,而子进程却只能处理数据报文和FIN等);
  • 连接的化身,这在后面会详细描述。

在TCP首部的图中,我们主要关注以下几个字段:序号、首部长度、6个标志位、选项,窗口大小、紧急指针都是以字节单位,这里并不关注。

不含选项的TCP首部为20字节,在首部选项中指明了首部有多少个4字节,由于其占了4位,因此首部最多为60字节。

序号字段用来标识TCP数据流中的数据字节流,在建立连接时会以一个ISN进行初始化,每个SYN、FIN等都会消耗掉一个序号。我们并不用太关心这个字段,只是需要知道序号为32位,在长肥管道(容量较大的网络中)序号可能会出现回绕,TCP需要识别。TCP对该字段也进行了相应的扩充(增加选项)。

TCP选项是以1字节类型、1字节长度(可选)、内容(可选)来表示的,可以只有类型,长度字段包含类型和长度本身。常见选项如下图所示,无操作选项通常用来作为填充以满足选项对齐的要求,tcpdump连接建立的输出中通常会包含这些选项:

TCP首部中定义了6个字段,在一个报文中,通常只会出现一个标志,但也允许多个标志同时出现。

  • URG,紧急指针标志位。
  • ACK,确认序号标志位,关于ACK有几点需要注意:a) ACK是累积的,表示接收方已经正确收到了一直到确认序号减一的所有字节;b) TCP通常并不会对每个数据包进行确认,而是采用了捎带确认和延迟确认的技术,捎带确认是指将ACK报文合并到数据报文中去,而延迟确认是TCP维持了一个200ms的定时器,在定时器过期前,若有多个数据需要确认,则一块进行确认,通常是两个报文确认一次,若200ms到了,仍没有新数据需要确认,则不再等待,直接确认该报文;c) ACK报文本身并不会被确认,当ACK丢失时,需要依靠对端超时机制发现(后文详述)。
  • PSH,该标志由TCP自动设置(曾经允许通过接口进行设置,当前多数实现不提供),多数实现在发送者将清空发送缓冲区时设置该标志,即发送者一次将当前发送缓冲区的数据都发送出去了。
  • RST,连接重置标志位。
  • SYN,同步标志位,用来发起一个新建连接。
  • FIN,发送端已经完成了所有的数据发送,不会再发送新的数据,关闭了其发送端,若对端也发送该标志,则完全关闭连接。

2.2 常见报文

TCP中除了通常的数据交换报文(数据报文详见后文“数据传输”小节),还有以下一些特殊的控制报文:SYN报文、ACK报文、FIN报文、RST报文、窗口探测报文、持活报文。这里将常见报文列出来,一是为了强调一个事实,TCP的状态变更大部分是通过报文交互进行的;二是对各种控制报文的使用场景进行简单归纳。

SYN报文,用于发起一个新连接,只包含TCP首部,没有数据。一个典型报文输出如下:

10:23:17.543837 IP 192.168.47.1.55366 > krt.9876: Flags [S], seq 2289863414, win 8192, options [mss 1460,nop,wscale 2,nop,nop,sackOK], length 0 

ACK报文,用于对控制报文(不包括RST)和数据报文进行确认,参考上一小节关于ACK的一些注意点。该报文可以与其他报文结合在一起,如SYN、数据报文、FIN报文等。单独的ACK本身不含任何数据,只有首部,典型报文输出如下:

10:23:17.544135 IP 192.168.47.1.55366 > krt.9876: Flags [.], ack 1, win 16425, length 0 

FIN报文,用于通知对端已经发送完了所有数据,将发送缓冲区中数据发送完成后,可以关闭连接。详细参考后文“连接控制”,用于有序释放连接或者连接半打开。

RST报文,当向一个出现错误的连接发送一个报文的时候,就收到RST报文。以下是几种典型情况(详细情景在后文“连接控制”小节表述):

  • 对端的相应端口上没有监听程序
  • 异常终止连接,SO_LINGER。使用异常方式终止连接,而不是正常的有序终止连接orderly release,可以迫使连接直接丢失未发送的数据;而接收方收到RST报文后,read返回reset错误,从而终止该连接,同时不会进行ACK。
  • 检测半打开连接,一方已经关闭或异常终止连接而另一方还不知道。造成这种状况的原因在于通信的一方没有正确将相应的状态报文成功发送给对端,如主机突然掉电导致FIN报文没有发出去,此时再写该socket,则会得到RST报文。

窗口探测报文(持久探测报文),TCP并不会对不包含数据的ACK报文进行确认,因此可能出现ACK丢失,从而导致窗口通告失败。TCP使用persist定时器,定期的发送一个字节的窗口探测报文。探测报文总是在5~60s之间,也是采用指数后退算法,但不超过60s,该探测报文会一直持续。实现时,使用500ms的定时器。

持活报文,用于查看连接是否仍然存活的控制报文。报文只带有ACK标志,且序号字段为将要发送的序号减一,这样引起对端进行一个ACK,表示接收到重复序号,对端期望的序号为下一个值。

3 连接控制

TCP是面向连接的协议,正如前面所描述的,并不存在真实的物理或虚拟的链路,TCP的连接是指在通信的双方分配了资源和维护了状态,并通过控制报文控制连接,通过API协调资源。本小节将详细描述实现中对TCP的连接控制。需要注意的是,连接的拥塞控制在本小节不过多涉及,后面单独小节描述。

4个定时器:重传定时器、2MSL定时器、persist定时器、keepalive定时器

连接双方通过以下一些事件来维持连接的状态, 发送方:发送缓冲区、4个定时器、发送窗口、拥塞状态计数器 接收方:接收缓冲区、4个定时器、接收窗口、拥塞状态计数器

TCP连接更详细的描述 通信双方通过一些内部状态保持了彼此的信息,连接关系始终保持,并通过报文交换来进行连接状态的变更。由于是通过报文进行连接状态的维护,所以报文没有正确发出或被接收到时,连接状态就会变成意料之外了;除确认报文本身不被确认,其他报文都会有确认报文进行确认;报文(包括确认报文)可能超时、需要重传。

3.1 连接建立

连接建立过程中会经历被称为“三次握手”的报文交互。

连接建立过程主要目的在于协商双方通信的细节,双方的初始序列号、窗口大小、最大报文段MSS大小等。

3.2 连接断开

4 数据传输

数据交换(基本的确认、超时、重传,滑动窗口)

交互数据和批量数据交换

5 拥塞控制

6 性能和常用网络工具

tcpdump lsof netstat ss /proc

iputils包 net-tools包 iproute2包

7 参考资料

本文参考了以下资料,仅仅是对TCP按照自己的理解重新梳理一下,图片直接来自于这些资料的截图。

  • TCP/IP详解——卷一:协议,W. Richard Stevens著,范建华、胥光辉等译。
  • 计算机网络——系统方法,第4版,Larry L. Peterson and Bruce S. Davie著,薛静锋、胡晶晶等译。
  • TCP Implementation in Linux: A Brief Tutorial, by Helali Bhuiyan, Mark McGinley etc.
  • TCP的那些事儿(上),《TCP 的那些事儿(上)》
  • TCP的那些事儿(下),《TCP 的那些事儿(下)》

TCP协议解析的更多相关文章

  1. 【.NET6+Modbus】Modbus TCP协议解析、仿真环境以及基于.NET实现基础通信

    前言:随着工业化的发展,目前越来越多的开发,从互联网走向传统行业.其中,工业领域也是其中之一,包括各大厂也都在陆陆续续加入工业4.0的进程当中. 工业领域,最核心的基础设施,应该是与下位硬件设备或程序 ...

  2. TCP协议解析及相关问题

    TCP协议是什么: TCP是一种传输控制层的协议(TCP,Transmission Control Protocol)是为了在不可靠的互联网络上提供可靠的端到端字节流而专门设计的一个传输协议.也就是要 ...

  3. 还是端口回流问题 TCP协议解析

    还是上一篇的问题 在一内部局域网中, client  内网地址为 10.0.0.2     web  服务器内网地址为 10.0.0.1    外网地址为  211.6.15.1    域名为  xx ...

  4. 初识TCP协议

    一.引言 发送一段TCP数据大致需要经过:用户封装 –> TCP封装 –> IP封装 –>帧封装 Note:用户封装没啥好说的,都是客户自己决定的,在一些简单的应用情况下,这个步骤可 ...

  5. TCP协议调试工具TcpEngine V1.3.0使用教程

    简介   这里说的TCP协议调试定义是在开发长连接TCP协议应用时,为了验证代码流程或查找bug,需要与对端交互数据过来,当需要时可以暂停发送:单条发送:跳过发送:正常发送:发送时修改数据等.   T ...

  6. TCP协议疑难杂症全景解析

    说明: 1).本文以TCP的发展历程解析容易引起混淆,误会的方方面面2).本文不会贴大量的源码,大多数是以文字形式描述,我相信文字看起来是要比代码更轻松的3).针对对象:对TCP已经有了全面了解的人. ...

  7. 【转载】TCP协议疑难杂症全景解析

    说明: 1).本文以TCP的发展历程解析容易引起混淆,误会的方方面面2).本文不会贴大量的源码,大多数是以文字形式描述,我相信文字看起来是要比代码更轻松的3).针对对象:对TCP已经有了全面了解的人. ...

  8. socket使用TCP协议时,send、recv函数解析以及TCP连接关闭的问题

    Tcp协议本身是可靠的,并不等于应用程序用tcp发送数据就一定是可靠的.不管是否阻塞,send发送的大小,并不代表对端recv到多少的数据. 在阻塞模式下, send函数的过程是将应用程序请求发送的数 ...

  9. TCP协议 状态解析和状态统计

    一.三次握手和四次挥手 1.建立连接(三次握手)   (1)服务器会处于listen状态,客户端发送一个带SYN标志的TCP报文到服务器.   (2)服务器端回应客户端的请求,这是三次握手中的第2个报 ...

随机推荐

  1. SharedPreferences的使用

  2. 使用.net 自建短链接(短网址)

    短连接大家都不陌生,例如新浪的 t.cn .京东的 3.cn .淘宝的 tb.cn 等等.都已经是家喻户晓的短连接域名.不知道有多少人像我一样,对短连接原理好奇而且尝试自建了呢? 今天发布这个文章的目 ...

  3. Oracle DBA 常用查询

    1. 查询系统所有对象 select owner, object_name, object_type, created, last_ddl_time, timestamp, statusfrom db ...

  4. Hadoop安全(2)——————UserGroupInformation

    UserGroupInformation保存hadoop用户及组信息 此类包装JAAS Subject,并提供确定用户的用户名和组的方法.它支持Windows,Unix和Kerberos登录模块.

  5. Eclipse连接SQL Server 2008数据库 以及问题总结

    Eclipse中使用SQL server 2008数据库 一.准备材料 要能够使用数据库就要有相应的JDBC,所以我们要去Microsoft官网下载 https://www.microsoft.com ...

  6. 课程作业02(关于Java的几点讨论)

    ---恢复内容开始--- 1.一个Java类文件中真的只能有一个公有类吗? public class Test { public static void main(String[] args) { } ...

  7. C#设计模式之六原型模式(Prototype)【创建型】

    一.引言 在开始今天的文章之前先说明一点,欢迎大家来指正.很多人说原型设计模式会节省机器内存,他们说是拷贝出来的对象,这些对象其实都是原型的复制,不会使用内存.我认为这是不对的,因为拷贝出来的每一个对 ...

  8. HIVE---基于Hadoop的数据仓库工具讲解

    Hadoop: Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用来开发分布式程序.充分利用集群的威力进行高速运算和存储.Hadoop实现了一个分布式文件系统(Hadoop Dist ...

  9. 安装CentOS7精简版后的配置工作

    CentOS7完整版有7.7G,太大了下载起来比较费劲,还是下载了精简版,但是精简版安装以后很多命令都没有,还要动手配yum源,按需安装 国内的yum源比较好的就是163的了,配置方法: 1,进入yu ...

  10. 关于如何获取iframe中的元素

    今天研究了一下iframe中元素的获取,发现有些地方还是有点坑的. 首先:如果使用纯前端手段,是没有办法获取非同源的iframe中的元素的,后面会提到后端手段 一.同源环境 1.首先在父页面获取ifr ...