TCP漫谈之keepalive和time

TCP是一个有状态通讯协议，所谓的有状态是指通信过程中通信的双方各自维护连接的状态。

一、TCP keepalive

先简单回顾一下TCP连接建立和断开的整个过程。（这里主要考虑主流程，关于丢包、拥塞、窗口、失败重试等情况后面详细讨论。）

首先是客户端发送syn（Synchronize Sequence Numbers：同步序列编号）包给服务端，告诉服务端我要连接你，syn包里面主要携带了客户端的seq序列号；服务端回发一个syn+ack，其中syn包和客户端原理类似，只不过携带的是服务端的seq序列号，ack包则是确认客户端允许连接；最后客户端再次发送一个ack确认接收到服务端的syn包。这样客户端和服务端就可以建立连接了。整个流程称为三次握手。

建立连接后，客户端或者服务端便可以通过已建立的socket连接发送数据，对端接收数据后，便可以通过ack确认已经收到数据。

数据交换完毕后，通常是客户端便可以发送FIN包，告诉另一端我要断开了；另一端先通过ack确认收到FIN包，然后发送FIN包告诉客户端我也关闭了；最后客户端回应ack确认连接终止。整个流程成为四次挥手。

TCP的性能经常为大家所诟病，除了TCP+IP额外的header以外，它建立连接需要三次握手，关闭连接需要四次挥手。如果只是发送很少的数据，那么传输的有效数据是非常少的。

是不是建立一次连接后续可以继续复用呢？的确可以这样做，但这又带来另一个问题，如果连接一直不释放，端口被占满了咋办。为此引入了今天讨论的第一个话题TCP keepalive。所谓的TCP keepalive是指TCP连接建立后会通过keepalive的方式一直保持，不会在数据传输完成后立刻中断，而是通过keepalive机制检测连接状态。

Linux控制keepalive有三个参数：保活时间net.ipv4.tcp_keepalive_time、保活时间间隔net.ipv4.tcp_keepalive_intvl、保活探测次数net.ipv4.tcp_keepalive_probes，默认值分别是 7200 秒（2 小时）、75 秒和 9 次探测。如果使用 TCP 自身的 keep-Alive 机制，在 Linux 系统中，最少需要经过 2 小时 + 9*75 秒后断开。譬如我们SSH登录一台服务器后可以看到这个TCP的keepalive时间是2个小时，并且会在2个小时后发送探测包，确认对端是否处于连接状态。

之所以会讨论TCP的keepalive，是因为发现服器上有泄露的TCP连接：

# ll /proc//fd/

lrwx------  root root  Jan   : /proc//fd/ -> socket:[]

# date

Sun Jan   :: CST

已经建立连接两天，但是对方已经断开了（非正常断开）。由于使用了比较老的go（1.9之前版本有问题）导致连接没有释放。

解决这类问题，可以借助TCP的keepalive机制。新版go语言支持在建立连接的时候设置keepalive时间。首先查看网络包中建立TCP连接的DialContext方法中

if tc, ok := c.(*TCPConn); ok && d.KeepAlive >=  {

   setKeepAlive(tc.fd, true)

   ka := d.KeepAlive

   if d.KeepAlive ==  {

      ka = defaultTCPKeepAlive

   }

   setKeepAlivePeriod(tc.fd, ka)

   testHookSetKeepAlive(ka)

}

其中defaultTCPKeepAlive是15s。如果是HTTP连接，使用默认client，那么它会将keepalive时间设置成30s。

var DefaultTransport RoundTripper = &Transport{

   Proxy: ProxyFromEnvironment,

   DialContext: (&net.Dialer{

      Timeout:    * time.Second,

      KeepAlive:  * time.Second,

      DualStack: true,

   }).DialContext,

   ForceAttemptHTTP2:     true,

   MaxIdleConns:          ,

   IdleConnTimeout:        * time.Second,

   TLSHandshakeTimeout:    * time.Second,

   ExpectContinueTimeout:  * time.Second,

}

下面通过一个简单的demo测试一下，代码如下：

func main() {

   wg := &sync.WaitGroup{}

   c := http.DefaultClient

   for i := ; i < ; i++ {

      wg.Add()

      go func() {

         defer wg.Done()

         for {

            r, err := c.Get("http://10.143.135.95:8080")

            if err != nil {

               fmt.Println(err)

               return

            }

            _, err = ioutil.ReadAll(r.Body)

            r.Body.Close()

            if err != nil {

               fmt.Println(err)

               return

            }

            time.Sleep( * time.Millisecond)

         }

      }()

   }

   wg.Wait()

}

执行程序后，可以查看连接。初始设置keepalive为30s。

然后不断递减，至0后，又会重新获取30s。

整个过程可以通过tcpdump抓包获取。

# tcpdump -i bond0 port  -nvv -A

其实很多应用并非是通过TCP的keepalive机制探活的，因为默认的两个多小时检查时间对于很多实时系统是完全没法满足的，通常的做法是通过应用层的定时监测，如PING-PONG机制（就像打乒乓球，一来一回），应用层每隔一段时间发送心跳包，如websocket的ping-pong。

二、TCP Time_wait

第二个希望和大家分享的话题是TCP的Time_wait状态。、

为啥需要time_wait状态呢？为啥不直接进入closed状态呢？直接进入closed状态能更快地释放资源给新的连接使用了，而不是还需要等待2MSL（Linux默认）时间。

有两个原因：

一是为了防止“迷路的数据包”，如下图所示，如果在第一个连接里第三个数据包由于底层网络故障延迟送达。等待新的连接建立后，这个迟到的数据包才到达，那么将会导致接收数据紊乱。

第二个原因则更加简单，如果因为最后一个ack丢失，那么对方将一直处于last ack状态，如果此时重新发起新的连接，对方将返回RST包拒绝请求，将会导致无法建立新连接。

为此设计了time_wait状态。在高并发情况下，如果能将time_wait的TCP复用， time_wait复用是指可以将处于time_wait状态的连接重复利用起来。从time_wait转化为established，继续复用。Linux内核通过net.ipv4.tcp_tw_reuse参数控制是否开启time_wait状态复用。

读者可能很好奇，之前不是说time_wait设计之初是为了解决上面两个问题的吗？如果直接复用不是反而会导致上面两个问题出现吗？这里先介绍Linux默认开启的一个TCP时间戳策略net.ipv4.tcp_timestamps = 1。

时间戳开启后，针对第一个迷路数据包的问题，由于晚到数据包的时间戳过早会被直接丢弃，不会导致新连接数据包紊乱；针对第二个问题，开启reuse后，当对方处于last-ack状态时，发送syn包会返回FIN,ACK包，然后客户端发送RST让服务端关闭请求，从而客户端可以再次发送syn建立新的连接。

最后还需要提醒读者的是，Linux 4.1内核版本之前除了tcp_tw_reuse以外，还有一个参数tcp_tw_recycle，这个参数就是强制回收time_wait状态的连接，它会导致NAT环境丢包，所以不建议开启。

作者：陈晓宇

作者著作《云计算那些事儿：从IaaS到PaaS进阶》

TCP漫谈之keepalive和time_wait的更多相关文章

TCP中的KeepAlive与HTTP中的Keep-Alive
KeepAlive 与 Keep-Alive 前言昨天被问到了HTTP中Keep-Alive的概念,看名字我只知道是保持连接用的,但是对于他怎么结束连接,为什么要用他这些就不是很清楚了,今天查了一下 ...
tcp中的keepalive(转）
理解Keepalive(1) 大家都听过keepalive,但是其实对于keepalive这个词还是很晦涩的,至少我一直都只知道一个大概,直到之前排查线上一些问题,发现keepalive还是有很多玄机 ...
TCP编程：系统出现 TIME_WAIT 原因及解决办法
解决办法打开 sysctl.conf 文件,修改以下几个参数: net.ipv4.tcp_tw_recycle = 1net.ipv4.tcp_tw_reuse = 1net.ipv4.tcp_ti ...
网络编程中 TCP 半开连接和TIME_WAIT 学习
https://blog.csdn.net/chrisnotfound/article/details/80112736 上面的链接就是说明来 SO_KEEPALIVE 选项为什么还需要在应用层开 ...
闲说HeartBeat心跳包和TCP协议的KeepAlive机制
很多应用层协议都有HeartBeat机制,通常是客户端每隔一小段时间向服务器发送一个数据包,通知服务器自己仍然在线,并传输一些可能必要的数据.使用心跳包的典型协议是IM,比如QQ/MSN/飞信等协议. ...
TCP HTTP 详细内存分析 & time_wait setsockopt
http://www.kegel.com/c10k.html#nb.edge http://www.chinasb.org/archives/2012/11/4954.shtml UDP协议:发送进程 ...
TCP释放连接时为什么time_wait状态必须等待2MSL时间
为什么上图中的A在TIME-WAIT状态必须等待2MSL时间呢? 第一,为了保证A发送的最后一个ACK报文能够到达B.这个ACK报文段有可能丢失,因而使处在LAST-ACK状态的B收不到对已发送的FI ...
聊聊 TCP 中的 KeepAlive 机制
KeepAlive并不是TCP协议规范的一部分,但在几乎所有的TCP/IP协议栈(不管是Linux还是Windows)中,都实现了KeepAlive功能 RFC1122#TCP Keep-Alives ...
Tcp协议的keepalive功能
L:128

随机推荐

Feign 注解翻译器三
一.自定义注解翻译器 (1)JAXRS 注解翻译器实例 ① 导入JAXRS所需要的jar包 <dependency> <groupId>io.github.openfeign& ...
iview 踩坑之旅
公司重构管理系统,框架定了vue,UI在element和iview之间选,element样式被吐槽丑,于是选了iview,但是,,这个坑多啊... 废话少说,罗列了iview中容易出错或者懵逼的一些地 ...
Flink系列之1.10版流式SQL应用
随着Flink 1.10的发布,对SQL的支持也非常强大.Flink 还提供了 MySql, Hive,ES, Kafka等连接器Connector,所以使用起来非常方便. 接下来咱们针对构建流式SQ ...
Spark实战--寻找5亿次访问中，访问次数最多的人
问题描述对于一个大型网站,用户访问量尝尝高达数十亿.对于数十亿是一个什么样的概念,我们这里可以简单的计算一下.对于一个用户,单次访问,我们通常会记录下哪些数据呢? 1.用户的id 2.用户访问的时间 ...
分布式框架Celery（转）
一.简介 Celery是一个异步任务的调度工具. Celery 是 Distributed Task Queue,分布式任务队列,分布式决定了可以有多个 worker 的存在,队列表示其是异步操作,即 ...
dos下批处理用 pause 可以在最后暂停查看结果信息 build.bat
dos下批处理用 pause 可以在最后暂停查看结果信息
Flask 偏函数、g对象、flask-session、数据库连接池、信号、自制命令、flask-admin
目录一.偏函数二.g对象 g对象和session的区别三.flask-session 四.数据库连接池 pymsql链接数据库数据库连接池版 utils/sql.py 五.信号六.命令fla ...
解决Tomcat控制台输出乱码问题
解决Tomcat控制台输出乱码问题打开Edit Configuration,在VM options一栏输入 -Dfile.encoding=UTF-8 然后到IDEA的bin目录找到 idea64. ...
MySQL InnoDB表的碎片量化和整理（data free能否用来衡量碎片？）
网络上有很多MySQL表碎片整理的问题,大多数是通过demo一个表然后参考data free来进行碎片整理,这种方式对myisam引擎或者其他引擎可能有效(本人没有做详细的测试).对Innodb引擎是 ...
NIO中的ZeroCopy
前文提到网络IO可以使用多路复用技术,而文件IO无法使用多路复用,但是文件IO可以通过减少底层数据拷贝的次数来提升性能,而这个减少底层数据拷贝次数的技术,就叫做ZeroCopy. 操作系统层面的Zer ...

TCP漫谈之keepalive和time_wait

一、TCP keepalive

二、TCP Time_wait

TCP漫谈之keepalive和time_wait的更多相关文章

随机推荐

热门专题