close_wait状态的产生原因及解决（转）

最近测试环境server由于需要与大量的后台server交互，今天突然发现有大量的close_wait产生，于是仔细研究了一下：
如果我们的服务器程序处于CLOSE_WAIT状态的话，说明套接字是被动关闭的！
因为如果是CLIENT端主动断掉当前连接的话，那么双方关闭这个TCP连接共需要四个packet：

1.Client -> FIN -> Server
2.Client <- ACK <- Server   这时候Client端处于FIN_WAIT_2状态；而Server 程序处于CLOSE_WAIT状态。
3.Client <- FIN <- Server   这时Server 发送FIN给Client，Server 就置为LAST_ACK状态。
4.Client -> ACK -> Server   Client回应了ACK，那么Server 的套接字才会真正置为CLOSED状态。

Server 程序处于CLOSE_WAIT状态，而不是LAST_ACK状态，说明还没有发FIN给Client，那么可能是在关闭连接之前还有许多数据要发送或者其他事要做，
导致没有发这个FIN packet。
通常来说，一个CLOSE_WAIT会维持至少2个小时的时间（这个时间外网服务器通常会做调整，要不然太危险了）。
如果有个流氓特地写了个程序，给你造成一堆的CLOSE_WAIT，消耗你的资源，那么通常是等不到释放那一刻，系统就已经解决崩溃了。
只能通过修改一下TCP/IP的参数，来缩短这个时间：修改tcp_keepalive_*系列参数有助于解决这个问题。
但是实际上，还是主要是因为我们的程序代码有问题，通常是如下问题：
比如被动关闭的是客户端。。。

当对方调用closesocket的时候，你的程序正在

C代码
int nRet = recv(s,....);
if (nRet == SOCKET_ERROR)
{
// closesocket(s);
return FALSE;
}

很多人就是忘记了那句closesocket，这种代码太常见了。

我的理解，当主动关闭的一方发送FIN到被动关闭这边后，被动关闭这边的 TCP马上回应一个ACK过去，同时向上面应用程序提交一个ERROR，

导致上面的SOCKET的send或者recv返回SOCKET_ERROR，正常情况下，如果上面在返回SOCKET_ERROR后调用了 closesocket,那么被动关闭的者一方的TCP就会发送一个FIN过去，自己的状态就变迁到LAST_ACK.

close_wait

TCP状态变迁

转自：https://my.oschina.net/gehui/blog/494898

CLOSE_WAIT状态的生成原因
首先我们知道，如果我们的Client程序处于CLOSE_WAIT状态的话，说明套接字是被动关闭的！

因为如果是Server端主动断掉当前连接的话，那么双方关闭这个TCP连接共需要四个packet：

Server ---> FIN ---> Client

Server <--- ACK <--- Client

这时候Server端处于FIN_WAIT_2状态；而我们的程序处于CLOSE_WAIT状态。

Server <--- FIN <--- Client

这时Client发送FIN给Server，Client就置为LAST_ACK状态。

Server ---> ACK ---> Client

Server回应了ACK，那么Client的套接字才会真正置为CLOSED状态。

我们的程序处于CLOSE_WAIT状态，而不是LAST_ACK状态，说明还没有发FIN给Server，那么可能是在关闭连接之前还有许多数据要发送或者其他事要做，导致没有发这个FIN packet。

原因知道了，那么为什么不发FIN包呢，难道会在关闭己方连接前有那么多事情要做吗？

elssann举例说，当对方调用closesocket的时候，我的程序正在调用recv中，这时候有可能对方发送的FIN包我没有收到，而是由TCP代回了一个ACK包，所以我这边套接字进入CLOSE_WAIT状态。

所以他建议在这里判断recv函数的返回值是否已出错，是的话就主动closesocket，这样防止没有接收到FIN包。

因为前面我们已经设置了recv超时时间为30秒，那么如果真的是超时了，这里收到的错误应该是WSAETIMEDOUT，这种情况下也可以主动关闭连接的。

还有一个问题，为什么有数千个连接都处于这个状态呢？难道那段时间内，服务器端总是主动拆除我们的连接吗？

不管怎么样，我们必须防止类似情况再度发生！

首先，我们要保证原来的端口可以被重用，这可以通过设置SO_REUSEADDR套接字选项做到：

重用本地地址和端口
以前我总是一个端口不行，就换一个新的使用，所以导致让数千个端口进入CLOSE_WAIT状态。如果下次还发生这种尴尬状况，我希望加一个限定，只是当前这个端口处于CLOSE_WAIT状态！

在调用

sockConnected = socket(AF_INET, SOCK_STREAM, 0);

之后，我们要设置该套接字的选项来重用：

 /// 允许重用本地地址和端口: 
 
 /// 这样的好处是，即使socket断了，调用前面的socket函数也不会占用另一个，而是始终就是一个端口 
 
 /// 这样防止socket始终连接不上，那么按照原来的做法，会不断地换端口。 
 
 int nREUSEADDR = ; 
 
 setsockopt(sockConnected, 
 
               SOL_SOCKET, 
 
               SO_REUSEADDR, 
 
               (const char*)&nREUSEADDR, 
 
               sizeof(int));

教科书上是这么说的：这样，假如服务器关闭或者退出，造成本地地址和端口都处于TIME_WAIT状态，那么SO_REUSEADDR就显得非常有用。

也许我们无法避免被冻结在CLOSE_WAIT状态永远不出现，但起码可以保证不会占用新的端口。

其次，我们要设置SO_LINGER套接字选项：

从容关闭还是强行关闭？
LINGER是“拖延”的意思。

默认情况下(Win2k)，SO_DONTLINGER套接字选项的是1；SO_LINGER选项是，linger为{l_onoff：0，l_linger：0}。

如果在发送数据的过程中(send()没有完成，还有数据没发送)而调用了closesocket()，以前我们一般采取的措施是“从容关闭”：

因为在退出服务或者每次重新建立socket之前，我都会先调用

 /// 先将双向的通讯关闭 
 
      shutdown(sockConnected, SD_BOTH); 
 
      /// 安全起见，每次建立Socket连接前，先把这个旧连接关闭 
 
 closesocket(sockConnected);

我们这次要这么做：

设置SO_LINGER为零（亦即linger结构中的l_onoff域设为非零，但l_linger为0），便不用担心closesocket调用进入“锁定”状态（等待完成），不论是否有排队数据未发送或未被确认。这种关闭方式称为“强行关闭”，因为套接字的虚电路立即被复位，尚未发出的所有数据都会丢失。在远端的recv()调用都会失败，并返回WSAECONNRESET错误。

在connect成功建立连接之后设置该选项：

 linger m_sLinger; 
 
 m_sLinger.l_onoff = ;  // (在closesocket()调用,但是还有数据没发送完毕的时候容许逗留) 
 
 m_sLinger.l_linger = ; // (容许逗留的时间为0秒) 
 
 setsockopt(sockConnected, 
 
          SOL_SOCKET, 
 
          SO_LINGER, 
 
          (const char*)&m_sLinger, 
 
          sizeof(linger));

另外：
通常来说，一个CLOSE_WAIT会维持至少2个小时的时间。如果有个流氓特地写了个程序，给你造成一堆的CLOSE_WAIT，消耗

你的资源，那么通常是等不到释放那一刻，系统就已经解决崩溃了。

只能通过修改一下TCP/IP的参数，来缩短这个时间：修改tcp_keepalive_*系列参数有助于解决这个问题。tcp_keepalive_time ：INTEGER
默认值是7200(2小时)当keepalive打开的情况下，TCP发送keepalive消息的频率。(由于目前网络攻击等因素,造成了利用这个进行的攻击很频繁,曾经也有cu的朋友提到过,说如果2边建立了连接,然后不发送任何数据或者rst/fin消息,那么持续的时间是不是就是2小时,空连接攻击? tcp_keepalive_time就是预防此情形的.我个人在做nat服务的时候的修改值为1800秒)

总结
也许我们避免不了CLOSE_WAIT状态冻结的再次出现，但我们会使影响降到最小，希望那个重用套接字选项能够使得下一次重新建立连接时可以把CLOSE_WAIT状态踢掉。

close_wait状态的产生原因及解决（转）的更多相关文章

CLOSE_WAIT状态的原因与解决方法(转载留自己看)
这个问题之前没有怎么留意过,是最近在面试过程中遇到的一个问题,面了两家公司,两家公司竟然都面到到了这个问题,不得不使我开始关注这个问题.说起CLOSE_WAIT状态,如果不知道的话,还是先瞧一下TCP ...
close_wait状态和time_wait状态(TCP连接)
1.CLOSE_WAIT的简单解决方案不久前,我的Socket Client程序遇到了一个非常尴尬的错误.它本来应该在一个socket长连接上持续不断地向服务器发送数据,如果socket连接断开,那 ...
【网络编程】服务端产生大量的close_wait状态的进程分析
首先要明白close_wait状态是在tcp通信四次握手时的一个中间状态: 即当被动关闭方发送完ACK后进入的状态.这个状态的结束,即要达到下一个状态LASK_ACK需要在发无端发送完剩余的数据后(s ...
CLOSE_WAIT状态的原因与解决方法 --转
转自:http://blog.chinaunix.net/uid-20357359-id-1963662.html 这个问题之前没有怎么留意过,是最近在面试过程中遇到的一个问题,面了两家公司,两家公司 ...
TCP之 TIME_WAIT和CLOSE_WAIT 状态的原因分析和处理
转自:http://blog.csdn.net/shootyou/article/details/6622226 昨天解决了一个HttpClient调用错误导致的服务器异常,具体过程如下: http: ...
client产生CLOSE_WAIT状态的解决方式
现象生产环境和測试环境都发现有个外围应用通过搜索服务调用搜索引擎时.偶尔会出现大量的訪问超时的问题,通过例如以下方式进行分析排查: l 首先是拿到搜索服务的JavaCore.发现其堵在HttpCli ...
服务器大量TIME_WAIT和CLOSE_WAIT的原因及解决办法
Linux服务器下查看网络连接的状态 netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}' 它会显示例如下面的信息: ...
仔细说明CLOSE_WAIT状态的原因
CLOSE_WAIT状态!!! 服务器收到客户端FIN报文后服务器端口回复了ack,没有回复FIN报文. 1 说明客户端后面不会再向服务器发送用户层的数据了, 2 客户端没有回复FIN 报文嘛 ...
TCP连接的TIME_WAIT和CLOSE_WAIT 状态解说【转】
相信很多运维工程师遇到过这样一个情形: 用户反馈网站访问巨慢, 网络延迟等问题, 然后就迫切地登录服务器,终端输入命令"netstat -anp | grep TIME_WAIT | wc ...

随机推荐

Linux中断（interrupt）子系统之五：软件中断（softIRQ）【转】
转自:http://blog.csdn.net/droidphone/article/details/7518428 版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[-] 软件中 ...
nginx+lua_module安装
1.LuaJit安装 # cd /usr/local/src # git clone http://luajit.org/git/luajit-2.0.git # cd luajit-2.0 # ma ...
Linux 根据组来划分账号,根据部门同一账号的组,同一组下拥有同一权限
#新机器添加 #创建部门组与账号 useradd testgroup #创建员工账号加入到部门组里 useradd -g testgroup user1 #员工在/data目录下创建的默认权限为774 ...
小白入门篇:flex布局
--前言因为这个星期写一个小的项目用到flex布局和grid布局,虽然这两种布局都是兼容性都有问题,但是别急,我觉的以后肯定是会发展并且流行起来的,毕竟google大法好,而且这两个布局真的比一般的 ...
中国石油大学（华东）OJ题目的HTML爬取
这几天刷华东OJ的题,写博客还要复制HTML的代码,感觉麻烦的一批,然后就去摸鱼写了个小爬虫.. 看一下运行效果吧- 输入详细的pid.cid或id即可爬取相应的html代码一些注意要点: 关键的还 ...
Count Primes -- LeetCodes (primality test)
Description: Count the number of prime numbers less than a non-negative number, n. 思路:这题第一种思路是写一个is_ ...
[BZOJ 2547] 玩具兵
Link: BZOJ 2547 传送门 Solution: 很容易通过解可行性的单调性想到二分答案,接下来考虑如何验证解发现一个很奇妙的条件:步兵和骑兵的个数相同因此交换位置时不用考虑可行性,保证 ...
[POI2014]Salad Bar
题目大意: 一个长度为$n(n\leq10^6)$的字符串,每一位只会是$p$或$j$.你需要取出一个子串$S$(从左到右或从右到左一个一个取出),使得不管是从左往右还是从右往左取,都保证每时每刻已取 ...
SQL表操作习题4 14~25题缺20题
Android Developer -- Bluetooth篇开发实例之四 API详解
http://www.open-open.com/lib/view/open1390879771695.html 这篇文章将会详细解析BluetoothAdapter的详细api, 包括隐藏方法, 每 ...

close_wait状态的产生原因及解决（转）

close_wait状态的产生原因及解决（转）的更多相关文章

随机推荐

热门专题