（转）TCP连接异常断开检测

TCP是一种面向连接的协议，连接的建立和断开需要通过收发相应的分节来实现。某些时候，由于网络的故障或是一方主机的突然崩溃而另一方无法检测到，以致始终保持着不存在的连接。下面介绍一种方法来检测这种异常断开的情况

1) 在TCP协议中提供了KEEPALIVE检测。该选项使能后，在一个TCP连接上，若指定的一段时间内没有数据交换，则自动发送分节等待对方确认。

SO_KEEPALIVE : 该选项设置是否打开探测
             TCP_KEEPIDLE : 开始发送探测分节前等待的空闲时间
             TCP_KEEPINTVL: 两次发送探测分节的时间间隔
             TCP_KEEPCNT: 判定断开前发送探测分节的次数

2) 设定探测相关选项值

int keepalive = 1;             // 打开探测
             int keepidle = 60;        // 开始探测前的空闲等待时间
             int keepintvl = 10;        // 发送探测分节的时间间隔
             int keepcnt = 3;        // 发送探测分节的次数

3) 设置套接字的属性

if (setsockopt(sockfd, SOL_SOCKET, SO_KEEPALIVE, (void *)&keepalive, sizeof (keepalive) < 0)
             {
                     perror(“fail to set SO_KEEPALIVE”);
                     exit(-1);
             }
             if (setsockopt(sockfd, SOL_TCP, TCP_KEEPIDLE, (void *) &keepidle, sizeof (keepidle) < 0)
             {
                     perror(“fail to set SO_KEEPIDLE”);
                     exit(-1);
             }
             if (setsockopt(sockfd, SOL_TCP, TCP_KEEPINTVL, (void *)&keepintvl, sizeof (keepintvl) < 0)
             {
                     perror(“fail to set SO_KEEPINTVL”);
                     exit(-1);
             }
             if (setsockopt(sockfd, SOL_TCP, TCP_KEEPCNT, (void *)&keepcnt, sizeof (keepcnt) < 0)
             {
                     perror(“fail to set SO_KEEPALIVE”);
                     exit(-1);
             }

一旦打开KEEPALIVE探测，当TCP连接异常断开后，对sockfd进行recv操作会返回-1，并且errno的值为ETIMEDOUT。

这样一来就可以很方便的在应用程序中检测TCP连接的情况，如果检测到异常断开最简单的处理就是关闭连接。

===================================

WinSock TCP keepalive的机理及使用

TCP 是面向连接的 , 在实际应用中通常都需要检测对端是否还处于连接中。如果已断开连接，主要分为以下几种情况：
1. 连接的对端正常关闭，即使用 closesocket 关闭连接。
2. 连接的对端非正常关闭，包括对端异常关闭，网络断开等情况。

对于第一种情况，很好判断，但是对于第二种情况，可能会要麻烦一些。在网上找到了一些文章，大致有以下两种解决方法：
Ÿ 自己编写心跳包程序
简单的说也就是在自己的程序中加入一条线程，定时向对端发送数据包，查看是否有 ACK ，如果有则连接正常，没有的话则连接断开。
Ÿ 使用 TCP 的 keepalive 机制
这个需要在 WinSock 编程时对当前 SOCKET 进行相应设置即可，比较方便。

为了方便起见，我这里采用 keepalive 机制，下面我就以 WinSock 上我实验得到的结果来大致讲一下其机理和使用方法。

首先说一下 keepalive 来判断异常断开的原理，其实 keepalive 的原理就是 TCP 内嵌的一个心跳包。

以服务器端为例，如果当前 server 端检测到超过一定时间（默认是 7,200,000 milliseconds ，也就是 2 个小时）没有数据传输，那么会向client 端发送一个 keep-alive packet （该 keep-alive packet 就是 ACK 和当前 TCP 序列号减一的组合），此时 client 端应该为以下三种情况之一：

1. client 端仍然存在，网络连接状况良好。此时 client 端会返回一个 ACK 。 server 端接收到 ACK 后重置计时器，在 2 小时后再发送探测。如果 2 小时内连接上有数据传输，那么在该时间基础上向后推延 2 个小时。
2. 客户端异常关闭，或是网络断开。在这两种情况下， client 端都不会响应。服务器没有收到对其发出探测的响应，并且在一定时间（系统默认为 1000 ms ）后重复发送 keep-alive packet ，并且重复发送一定次数（ 2000 XP 2003 系统默认为 5 次 , Vista 后的系统默认为 10 次）。
3. 客户端曾经崩溃，但已经重启。这种情况下，服务器将会收到对其存活探测的响应，但该响应是一个复位，从而引起服务器对连接的终止。（这条摘抄自http://www.cppblog.com/zhangyq/archive/2010/02/28/108615.html ，我自己并不太明白）。

了解了 keep alive 大致的原理，下来看看在程序中怎么用，怎么设置参数：

#include <mstcpip.h>
BOOL bKeepAlive = TRUE;
int nRet = setsockopt(sock, SOL_SOCKET, SO_KEEPALIVE,(char*)&bKeepAlive, sizeof(bKeepAlive));
if (nRet == SOCKET_ERROR)
{
TRACE(L"setsockopt failed: %d\n", WSAGetLastError());
return FALSE;
}
// set KeepAlive parameter
tcp_keepalive alive_in;
tcp_keepalive alive_out;
alive_in.keepalivetime = 500; // 0.5s
alive_in.keepaliveinterval = 1000; //1s
alive_in.onoff = TRUE;
unsigned long ulBytesReturn = 0;
nRet = WSAIoctl(sock, SIO_KEEPALIVE_VALS, &alive_in, sizeof(alive_in),
&alive_out, sizeof(alive_out), &ulBytesReturn, NULL, NULL);
if (nRet == SOCKET_ERROR)
{
TRACE(L"WSAIoctl failed: %d\n", WSAGetLastError());
return FALSE;
}

其中， setsockopt 设置了 keepalive 模式，但是系统对 keepalive 默认的参数可能不符合我们的要求，比如空闲 2 小时后才探测对端是否活跃，所以 WSAIoctl 函数通过 tcp_keepalive 结构体对这些参数进行了相应设置。 tcp_keepalive 这个结构体在 mstcpip.h 头文件中有定义：

struct tcp_keepalive {
ULONG onoff ; // 是否开启 keepalive
ULONG keepalivetime ; // 多长时间（ ms ）没有数据就开始 send 心跳包
ULONG keepaliveinterval ; // 每隔多长时间（ ms ） send 一个心跳包，
// 发 5 次 (2000 XP 2003 默认 ), 10 次 (Vista 后系统默认 )
};

这个结构体设置了空闲检测时间，及检测时重复发送的间隔时间。详细的可以查询 msdn :http://msdn.microsoft.com/en-us/library/dd877220(VS.85).aspx 。

按照 msdn 上的说法，这些参数也可以通过在注册表里设置，分别为：
HKLM\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters\KeepAliveTime
HKLM\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters\KeepAliveInterval

另外，有些人可能已经发现了， tcp_keepalive 这个结构体中没有对重试次数这个参数的设置，这个参数可以通过注册表来设置，具体位置为：

HKLM\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters\TcpMaxDataRetransmissions

关于在注册表中设置这几个参数，我在 XP 和 Server2008 系统中都没有找到， msdn 上说貌似只是支持 server 2003 ，我这里没有实验，具体不太清楚。

设置好 keepalive 以后，我们通过实验来看看当 client 异常退出或是网络断掉的情况下， keepalive 怎么通知我们异常断开的情况。这里采用 select 模式，实验环境为 XP 系统和 Win7 系统，几种情况返回值如下：

1．正常断开
select 函数正常返回， recv 函数返回 0
2．异常断开
a) 程序异常退出，如 client 端重启，应用非正常关闭等
select 函数正常返回， recv 函数返回 SOCKET_ERROR ， WSAGetLastError () 得到的结果为 WSAECONNRESET(10054) 。
b) 网络断开
结果同上： select 函数正常返回， recv 函数返回 SOCKET_ERROR ， WSAGetLastError() 得到的结果为 WSAECONNRESET(10054) 。

P.S. 网上有些文章中写的 WSAGetLastError() 得到的结果为 ETIMEDOUT ，我这里不太清楚为什么和我这里得到的不太一样。

另外，在实验中，我发现了一个和以前理解的不太相同的地方，在这里也记录下来：

对于程序异常退出的情况（这里所说的异常退出包括程序异常关闭、重启等情况，但不包括系统待机休眠），实际上在不开启 keepalive 的情况下也是可以检测到的，我这里测试得到在不开启 keepalive 的情况下，异常关闭 client 端程序， server 端 recv 函数会立即返回 SOCKET_ERROR ， last error 同样为 WSAECONNRESET 。但是对于网络断开及系统待机休眠的情况，则必须设置 keepalive 才能检测到，并且对于上述情况，当网络重新连接或者系统恢复后，SOCKET连接并不能恢复。

具体原因我这里也不太清楚，看到有一篇文章是这样写的：“异常关闭下， SOCKET 虚拟通路会被重设，远端正在接受的调用就都会失败”。不知道正确与否，感觉有一定的道理，暂时记录下来。

转自：http://www.rosoo.net/a/201505/17296.html?utm_source=tuicool

（转）TCP连接异常断开检测的更多相关文章

TCP连接异常断开检测（转）
TCP是一种面向连接的协议,连接的建立和断开需要通过收发相应的分节来实现.某些时候,由于网络的故障或是一方主机的突然崩溃而另一方无法检测到,以致始终保持着不存在的连接.下面介绍一种方法来检测这种异常断 ...
针对TCP连接异常断开的分析
我们知道,一个基于TCP/IP的客户端-服务器的程序中,正常情况下,我会是启动服务器使其在一个端口上监听请求,等待客户端的连接:通过TCP的三次握手,客户端能够通过socket建立一个到服务器的连接: ...
4个实验，彻底搞懂TCP连接的断开
前言看到这个标题你可能会说,TCP 连接的建立与断开,这个我熟,不就是三次握手与四次挥手嘛.且慢,脑海中可以先尝试回答这几个问题: 四次挥手是谁发起的? 如果断电/断网了连接会断开吗? 什么情况下没 ...
wireshark抓包分析tcp连接与断开
其实对于网络通信的学习,最好还是能够自己抓到包详细地一下,不然只单单通过文字和图的描述印象不够深刻.本文通过实际的抓包操作来看一下tcp的连接与断开是怎样的. 首先需要去https://www.wir ...
TCP连接异常：broken pipe 和EOF
本文介绍3种TCP连接异常的情况. 1.server端没有启动,client尝试连接 ./client dial failed: dial tcp 127.0.0.1:8080: connect: c ...
socket选项自带的TCP异常断开检测
TCP异常断开是指在突然断电,直接拔网线等等情况下,如果通信双方没有进行数据发送通信等处理的时候,无法获知连接已经断开的情况. 在通常的情况下,为了使得socket通信不受操作系统的限制,需要自己在应 ...
TCP连接与断开详解（socket通信）
http://blog.csdn.net/Ctrl_qun/article/details/52518479 一.TCP数据报结构以及三次握手 TCP(Transmission Control Pro ...
设置TCP_USER_TIMEOUT参数来判断tcp连接是否断开
[TOC] 1. bug描述前段时间遇到这样的一个问题,openstack一个控制节点宕机后,在宕机后一段时间内创建的虚拟机,一直卡在创建中的状态.有的甚至要等到16分钟之后虚拟机才会切换到下一个状 ...
【转】TCP连接突然断开的处理方法
TCP是因特网中的传输层协议,使用三次握手协议建立连接,下面是TCP建立连接的全过程. TCP断开连接的过程:TCP四次挥手. TCP/IP 协议簇分层结构数据链路层主要负责处理传输媒介等众多的物理 ...

随机推荐

MonoBehaviour类Invoke， Coroutine
异步函数在一个方法执行时调用另一个方法.而被调用的方法或者其中的某些语句不是立刻执行,而是过一段时间后才执行. MonoBehaviour提供了两种异步方法调用(Invoke) 协程(Corout ...
android Socket 编程
Socket 通信 1.UDP实现 (DatagramSocket) [客户端] //首先创建一个DatagramSocket对象 DatagramSocket socket = new Datag ...
IntelliJ IDEA 14.1.4导入项目启动报错:Error during artifact deployment.[组件部署期间出错]
1.问题描述:Error during artifact deployment.[组件部署期间出错] 2.删除Artifacts 3.刷新 4.重新生成Artifacts 5.重新选择再重新启动项目 ...
vjue 点击发送邮件如何处理
<li @click.stop="openSendMail()"> <i class="icons mail-icon" title=&quo ...
Linux环境变量相关总结
Linux下环境变量分为全局和局部变量两种. Linux 下通常提供三种工具可以可以查看环境变量:printenv.env.set.前两个可以查看全局环境变量,最后一个会打印包含全局和局部环境变量. ...
在PL/SQL中调用存储过程－－oracle
在oracle10中写好了存储过程,代码如下: CREATE OR REPLACE Procedure Proc_Insert ( sName in varchar2, sAge in int, sE ...
分类算法----k近邻算法
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的 ...
使用线性回归识别sklearn中的手写数字digit
从昨天晚上,到今天上午12点半左右吧,一直在调这个代码.最开始训练的时候,老是说loss:nan 查了资料,因为是如果损失函数使用交叉熵,如果预测值为0或负数,求log的时候会出错.需要对预测结果进行 ...
移动web开发（一）——移动web开发必备知识
参考: 移动终端开发必备知识.http://isux.tencent.com/mobile-development-essential-knowledge.html
ubuntu 12.04下编译安装nginx-1.9.3
1,下载nginx-1.9.3.tar.gz 两种方式: (1).ubuntu 下终端中(ctrl+alt+t) 运行命令: wget http://nginx.org/download/nginx- ...

（转）TCP连接异常断开检测

（转）TCP连接异常断开检测的更多相关文章

随机推荐

热门专题