接《一次docker中的nginx进程响应慢问题定位记录》

在排查这个问题的时候,我先使用netstat 去查看,看到底是内核协议栈的连接请求没给到进程,还是进程accept链路慢了,或者recv数据慢了,记录如下:

netstat -anpl |grep -i 57372
tcp 0 0 127.0.0.1:57372 127.0.0.1:7010 ESTABLISHED 15044/curl
tcp 86 0 127.0.0.1:7010 127.0.0.1:57372 ESTABLISHED -

 可以看到,curl发送的请求,内核协议栈是已经接受了,但是对应的链路有个小小的细节,那就是establish状态的链接,进程号查不到。

我以前没有看过netstat的源码,只是通过strace大概知道netstat是去读取 /proc/net/tcp (或者/proc/net/tcp6) 来获取链接信息的,

 cat /proc/net/tcp
sl local_address rem_address st tx_queue rx_queue tr tm->when retrnsmt uid timeout inode
0: 00000000:18A7 00000000:0000 0A 00000000:00000000 00:00000000 00000000 0 0 31915 1 ffff88057f2b9000 100 0 0 10 0
1: 0100007F:158E 00000000:0000 0A 00000000:00000000 00:00000000 00000000 2000 0 24924 1 ffff8800acf58000 100 0 0 10 0
2: 00000000:006F 00000000:0000 0A 00000000:00000000 00:00000000 00000000 0 0 9479 1 ffff880182c80000 100 0 0 10 0
3: 00000000:18B0 00000000:0000 0A 00000000:00000000 00:00000000 00000000 0 0 31914 1 ffff88057f2b8800 100 0 0 10 0
4: 017AA8C0:0035 00000000:0000 0A 00000000:00000000 00:00000000 00000000 0 0 17065 1 ffff88056d3d8000 100 0 0 10 0
5: 00000000:0016 00000000:0000 0A 00000000:00000000 00:00000000 00000000 0 0 28681 1 ffff8802b8bd8000 100 0 0 10 0
6: 0100007F:0277 00000000:0000 0A 00000000:00000000 00:00000000 00000000 0 0 26547 1 ffff88057f2b8000 100 0 0 10 0
7: 0100007F:0019 00000000:0000 0A 00000000:00000000 00:00000000 00000000 0 0 30024 1 ffff88058e678000 100 0 0 10 0

  但是netstat -anpl怎么关联最后一列的进程信息不清楚,下载一份netstat源码,发现它是在循环遍历/proc下的进程,然后读取/proc/进程/fd/xx ,

(gdb) p readlink(line, lname, sizeof(lname) - 1)
$34 = 14
(gdb) p lname
$35 = "socket:[31915]\000erfd]\000d\000\000\000\000\000\000\000"

  然后通过调用extract_type_1_socket_inode 之类的来隔离出上面的 socket 的fd为 31915 ,读取之后,将对应的进程和进程名格式化,然后和socket的inode 存在一个map中。

遍历所有的/proc下的进程,这个过程太重,存在map之后,通过读取 /proc/net/tcp 中符合要求的socket,将其fd那一列的数字作为索引到 map 中去查找进程号,然后打印出来。

Breakpoint 2, finish_this_one (uid=0, inode=31915, timers=0x7fffffffc010 "") at netstat.c:593
593 {
(gdb) bt
#0 finish_this_one (uid=0, inode=31915, timers=0x7fffffffc010 "") at netstat.c:593
#1 0x0000000000406eb7 in tcp_do_one (lnr=lnr@entry=1,
line=line@entry=0x7fffffffc190 " 0: 00000000:18A7 00000000:0000 0A 00000000:00000000 00:00000000 00000000 0 0 31915 1 ffff88057f2b9000 100 0 0 10 0", ' ' <repeats 21 times>, "\n", prot=prot@entry=0x41413f "tcp") at netstat.c:1056
#2 0x000000000040728f in tcp_info () at netstat.c:1061
#3 0x0000000000402956 in main (argc=2, argv=<optimized out>) at netstat.c:2172
(gdb) fr 1
#1 0x0000000000406eb7 in tcp_do_one (lnr=lnr@entry=1,
line=line@entry=0x7fffffffc190 " 0: 00000000:18A7 00000000:0000 0A 00000000:00000000 00:00000000 00000000 0 0 31915 1 ffff88057f2b9000 100 0 0 10 0", ' ' <repeats 21 times>, "\n", prot=prot@entry=0x41413f "tcp") at netstat.c:1056
1056 finish_this_one(uid,inode,timers);
(gdb) p line
$46 = 0x7fffffffc190 " 0: 00000000:18A7 00000000:0000 0A 00000000:00000000 00:00000000 00000000 0 0 31915 1 ffff88057f2 b9000 100 0 0 10 0", ' ' <repeats 21 times>, "\n"
(gdb) p inode
$47 = 31915  

知道了这个关联的原理之后,基本就可以确定,我们应用进程 并没有及时来 accept 。

我们知道,accept的调用原理是:accept() -> sys_accept4() -> inet_accept() -> inet_csk_accept()

可以看到,accept作用是返回一个已经建立连接的socket(即经过了三次握手),这个过程和协议栈是异步的,accept()并不亲自去处理三次握手过程,而只是监听icsk_accept_queue队列,当有socket经过了三次握手,它就会被加到icsk_accept_queue中,所以accept要做的就是等待队列中插入socket,然后被唤醒并返回这个socket。而三次握手的过程完全是协议栈本身去完成的。

所以我们看到了上面的,已经establish的链路,由于业务进程没有及时去accept 导致可以看到 没有进程关联的链路。

对于阻塞的socket,accept是一直等待的,则会在下面的 sk_state_change 中被唤醒。

	case TCP_SYN_RECV:
if (!acceptable)
return 1; /* Once we leave TCP_SYN_RECV, we no longer need req
* so release it.
*/
if (req) {
synack_stamp = tcp_rsk(req)->snt_synack;
tp->total_retrans = req->num_retrans;
reqsk_fastopen_remove(sk, req, false);
} else {
synack_stamp = tp->lsndtime;
/* Make sure socket is routed, for correct metrics. */
icsk->icsk_af_ops->rebuild_header(sk);
tcp_init_congestion_control(sk); tcp_mtup_init(sk);
tp->copied_seq = tp->rcv_nxt;
tcp_init_buffer_space(sk);
}
smp_mb();
tcp_set_state(sk, TCP_ESTABLISHED);//设置为establish,注意这个时候,还没通知用户accept
sk->sk_state_change(sk);//这个sk是新创建的sock,而不是listen的sk,唤醒等待在 sk->sk_wq 上的进程

  而对于非阻塞的socket,则需要在poll之类的异步收请求函数中去调用对应listen socket 去 accept 这个连接。这个nginx没有及时去accept链路的原因是,调用的lua模块出现大的死循环。

结论:

1.不要使用netstat,太重,大家一定要使用ss替代。

2.在accept的调用之前,已经处于establish状态的socket的inode也是没有关联到进程的。

处于ESTABLISHED 状态的socket 却没有进程信息的更多相关文章

  1. 让SQL SERVER自动清理掉处于SLEEPING状态超过30分钟的进程(转)

    原文地址:http://www.itpub.net/thread-809758-1-1.html use master go ) drop procedure [dbo].[p_killspid] G ...

  2. Linux 中进程有哪几种状态?在 ps 显示出来的信息中,分别用什么符号表示的?

    (1)不可中断状态:进程处于睡眠状态,但是此刻进程是不可中断的.不可中断,指进程不响应异步信号. (2)暂停状态/跟踪状态:向进程发送一个 SIGSTOP 信号,它就会因响应该信号 而进入 TASK_ ...

  3. Linux 中进程有哪几种状态?在 ps 显示出来的信息中, 分别用什么符号表示的?

    1.不可中断状态:进程处于睡眠状态,但是此刻进程是不可中断的.不可中断, 指进程不响应异步信号. 第 441 页 共 485 页2.暂停状态/跟踪状态:向进程发送一个 SIGSTOP 信号,它就会因响 ...

  4. [转贴] C++ 判断主机是否处于联网状态下

    直接让本机访问一个网站,如果成功的话,就说明成功联网,没有访问成功,则说明没有联网!!! #include<iostream> #include <WINSOCK2.H> #p ...

  5. SQLServer无法删除登录名'***',因为该用户当前正处于登录状态解决方法

    问题描述: sqlserver在删除登录名的时候提示删除失败 标题: Microsoft SQL Server Management Studio -------------------------- ...

  6. 无法删除登录名 '***',因为该用户当前正处于登录状态。 (Microsoft SQL Server,错误: 15434)

    问题描述: 当删除数据库用户时,有时会得到这样的提示: 无法删除登录名 '***',因为该用户当前正处于登录状态. (Microsoft SQL Server,错误: 15434) 解决办法: 1.首 ...

  7. Windows 2008 - 由于管理员设置的策略,该磁盘处于脱机状态

    http://blog.sina.com.cn/s/blog_59cc90640102x8m4.html 查看原文:https://www.bxl.me/9279.html准备使用云主机挂机的时候呢出 ...

  8. 虚拟机启动linux系统报错,此主机支持 Intel VT-x,但 Intel VT-x 处于禁用状态

    在使用虚拟机启动linux的时候报错,如下: 已将该虚拟机配置为使用 64 位客户机操作系统.但是,无法执行 64 位操作. 此主机支持 Intel VT-x,但 Intel VT-x 处于禁用状态. ...

  9. Oracle 违反协议 OALL8 处于不一致状态

    http://blog.sina.com.cn/s/blog_a45aac720100yu3h.html ERROR-util.JDBCExceptionReporter>: 违反协议ERROR ...

随机推荐

  1. Jmeter(二)Jmeter目录介绍

    看过许多有关Jmeter的博客,算得上的收获颇丰:不过最牛逼的博客还是“官方文档”,官方文档是ApacheJmeter自己对自己产品的说明,论起对自己产品的理解程度,那肯定是自己嘛...因此推荐大家从 ...

  2. java中原生的发送http请求(无任何的jar包导入)

    package com.teamsun.pay.wxpay.util; import java.io.BufferedReader; import java.io.IOException; impor ...

  3. (转)程序员级别鉴定书(.NET面试问答集锦)

    原文地址:http://www.cnblogs.com/powertoolsteam/p/what-net-developer-should-to-know.html 葡萄城控件 作为一个.NET程序 ...

  4. window安装mysql教程

    1.下载mysql安装包到指定文件: 比如如图我把下载的mysql zip的内容解压到这个文件里面,具体文件内容如下: my.ini 需要自己创建,里面的内容如下: [mysqld] #basedir ...

  5. 一、Html5基础讲解以及五个标签

    什么是html?html是用来描述网页的一种语言html指超文本标记语言html不是编程语言,是一种标记语言 HTML基础标签 Head.body html标题 <h1>…<h6&g ...

  6. Win7 发生验证错误 要求的函数不受支持

    今天登陆服务器突然登不上了,给我报了一个错误“发生验证错误 要求的函数不受支持”,用同事的win7电脑和win10电脑都可以,就是我的不行,气死我了,然后我百度百度啊,用了好几种“说用了就OK”的办法 ...

  7. 微信小程序笔记<五> 页面管理及生命周期(route)——getCurrentPages()

    在小程序中所有页面的路由全部由框架进行管理,而框架以栈的形式维护了当前的所有页面. 当发生路由切换时,页面栈的表现: getCurrentPages() 用于获取当前页面栈的实例,可以把 getCur ...

  8. 关于basler线阵相机和Mtrox采集卡的安装

    说明: 本系列博文是我自己研究生课题,采用做一步记录一步,在论文答辩结束或者机器设计结束之后才会附上源代码! 以前都是用opencv,直接拿个照片去处理,基本都是软件的使用,这次做课题要用到Matro ...

  9. RPM软件管理工具

    1 概述 RPM(RedHat Package Manager),Rethat软件包管理工具,类似windows里面的setup.exe 是Linux这系列操作系统里面的打包安装工具,它虽然是RedH ...

  10. Java-左移右移-jdk8

    移位有三种 << 左移,左边补0 >> 右移,正数左边补0,负数补1 >>> 右移, 正数,负数统一左边补0 来看几个奇葩的代码 public static ...