问题引出:A进程与B进程各自独立,都是服务器进程,常驻系统,互不相干。在某次重启A进程后,发现由于固定监听的端口被占用而无法启动。检查,发现是B进程占用了该端口,检查B进程代码,没有相关的打开该固定端口和打开随机端口的动作。问题百思不得其解。

最终,发现B进程不只是占用了该固定端口,还打开了很多本该只有A进程才会打开的句柄资源。很快联想到A是B的子进程,B是A fork之后在子进程中运行的。进一步分析,发现A进程有着类似于监控B进程的作用,在特定情况下,会调用B进程的监控脚本来重启B,调用时用的是system函数。

再来看system函数的实现,用fork产生一个子进程,在子进程中运行脚本,脚本启动B。B就这样降到了A的子孙辈,无论是第几代子孙,都会继承A的资源。

这样,当B重启之后,B也打开了只有A才会使用的端口,对B来说,它根本不使用这些资源,甚至不知道自己打开了哪些句柄,这非常不好。之后,某个时刻,当A重启时,A原来申请的资源会一一释放,但是已经被B继承的那份拷贝还处于打开状态,导致A启动时报端口冲突。

问题分析清楚,也就好解决了。解决的方案有:
1、重写system函数,再派生子进程后,运行脚本之前,将所有不需要的句柄关掉,一般的多进程服务端程序也都这么做。
2、发现java程序并没有打开父进程的资源,可以用java实现一个‘脚本调用器’,解决办法似乎不是特别优雅。
3、在申请资源的时候用fcntl将句柄设置为不被继承。

在分析方案的过程中也学习了vfork与fork的差别,vfork只是父子进程共享堆栈,但是句柄资源还是复制了。也分析了exec与fork的区别。都找不到完美的解决办法。

3方案解决当前问题最简单,但是容易留下坑。2方案总觉得很别扭。决定采用1。问题又来了,A进程本来就不是多进程的模式,因此它并没有集中管理资源,想要从代码中增加全局变量收集零散资源似乎很困难。想到了常用的lsof工具,这个工具不是可以列举任何进程的句柄吗?查阅其源代码,原来是读取proc虚拟文件系统下的数据来实现的。如法炮制,也用这个方法遍历本进程的fd目录,将得到的句柄一一记录,在关闭了proc目录后,将记录下来的句柄关闭,这时还会将已经关闭的proc目录的句柄又关闭一次,不过不会有什么问题。存在的问题是必须以root运行才能得到句柄列表。

奋笔疾书,写完了新的system函数,却发现脚本不能运行完成,总是在中间某个点就退出了。经过在脚本中反复打点,发现总是在同一行上面退出,这一行是一个shell函数调用,猜测,是不是新的system中指定的脚本解析器不支持函数?另外写测试程序,也不是这样的。继续找原因,原来这一行还使用了标准输入、输出、错误重定向。而标准输入输出已经在父进程中关闭了,重定向当然会有错误。保留0,1,2三个句柄后问题彻底解决。其实这三个句柄也是不能随意关闭的,一但句柄关闭后,系统会将句柄号分配给其他资源,这样如果代码中使用了重定向0,1,2,那后果会不堪设想。

system调用导致子进程socket句柄泄漏问题分析的更多相关文章

  1. Java 性能优化实战记录(2)---句柄泄漏和监控

    前言: Java不存在内存泄漏, 但存在过期引用以及资源泄漏. (个人看法, 请大牛指正) 这边对文件句柄泄漏的场景进行下模拟, 并对此做下简单的分析.如下代码为模拟一个服务进程, 忽略了句柄关闭, ...

  2. 内核对象&句柄&泄漏&检测

    今天看到这个问题如何评价王垠的 <讨厌的 C# IDisposable 接口>? - 王垠(人物),答案被歪到windows 内核对象和句柄,答案中谈的太浅显而且有误.翻出陈年老文章(此文 ...

  3. 记一次 .NET 某流媒体独角兽 API 句柄泄漏分析

    一:背景 1. 讲故事 上上周有位朋友找到我,说他的程序CPU和句柄都在不断的增长,无回头趋势,查了好些天也没什么进展,特加wx寻求帮助,截图如下: 看的出来这位朋友也是非常郁闷,出问题还出两个,气人 ...

  4. 【转】Windows10下80端口被PID为4的System占用导致Apache无法启动的分析与解决方案

    昨天刚更新了Windows10,总体上来说效果还是蛮不错的,然而今天在开启Apache服务器的时候却发现,Apache莫名其妙的打不开了,起初以为是权限的问题,于是使用管理员身份的控制台去调用命令ne ...

  5. 在awk中通过system调用sql语句来说明引号的使用

    一个实际应用例子: 在awk中,通过system调用连接数据库并作select操作,select语句中where条件来自于一个文件(file)的第一个域($1). $ cat file ... ... ...

  6. SOCKET句柄泄露带来的内存灾难

    前些时候游戏莫名其妙出现大量内存泄露,我感到很诧异,当然一般情况下游戏的内存管理是极其严苛的,出现如此大量的内存泄露到底是怎么回事? 句柄滥用导致的内存泄露会多夸张呢,尤其SOCKET,在某些客户端系 ...

  7. Win10下80端口被System占用导致Apache无法启动

    Windows10下80端口被PID为4的System占用导致Apache无法启动的分析与解决方案 方法/步骤     最近更新了Windows10,总体上来说效果还是蛮不错的,然而今天在开启Apac ...

  8. 利用windbg分析崩溃,句柄泄漏,死锁,CPU高,内存泄漏

    Windbg的一些简单使用命令 一.崩溃 1.  输入.ecxr;kbn得到崩溃的堆栈 其中源代码如下 2.  查看堆栈和源代码,发现第0帧导致崩溃,代码也是本地代码 输入.frame  0,切到第0 ...

  9. C# DllImport“调用导致堆栈不对称。原因可能是托管的 PInvoke 签名与非托管的目标签名不匹配。请检查 PInvoke 签名的调用约定和参数与非托管的目标签名是否匹配 ”

    调用外部dll时,出现如下问题 C# DllImport“调用导致堆栈不对称.原因可能是托管的 PInvoke 签名与非托管的目标签名不匹配.请检查 PInvoke 签名的调用约定和参数与非托管的目标 ...

随机推荐

  1. win10安装系统后,提示initializing and establishing link无法启动系统

    使用老毛桃安装系统前,先对硬盘进行分区,分区时选择mbr格式分区就可以了,安装好系统重启进入系统时将boot安全启动关闭,模式改为legal(那个单词大概长这样,不记得了,反正那里就两个模式,可以都试 ...

  2. mysqldump命令之常用模板

    ##=====================================================## ## 在Master上导出所有数据库 /export/servers/mysql/b ...

  3. Gravitee.io docker-compose运行

    Gravitee.io 是一个相对比较完整的api gateway 平台,包含了api 相对比较完整的生命周期管理 同时在访问控制以及日志监控上也做的比较好,是一款可以尝试试用的api gateway ...

  4. deno学习三 官方提供的方便deno 安装方式

    早起deno 使用了golang 开发,同时需要protobuf 进行数据的序列化以及反序列化处理 当前的deno 已经使用rust 进行了开发,同时官方提供的安装方式也很方便了,不需要 那么复杂的编 ...

  5. MySQL 安全整理

    MySQL 安全整理 关闭外网的端口访问. 使用高位的端口号. 如果需要外网访问不给最高的权限. 如果需要外网访问也是绑定客户端. To be continued

  6. [转]HashMap的实现原理

    1.    HashMap概述: HashMap是基于哈希表的Map接口的非同步实现.此实现提供所有可选的映射操作,并允许使用null值和null键.此类不保证映射的顺序,特别是它不保证该顺序恒久不变 ...

  7. linux清空文件内容的三种方法

    linux系统中清空文件内容的三种方法 1.使用vi/vim命令打开文件后,输入"%d"清空,后保存即可.但当文件内容较大时,处理较慢,命令如下:vim file_name:%d: ...

  8. asp.net core 中KindEditor的使用

    主要是需要对上传图片和文件管理的服务端进行改造 public class KindEditorController : Controller { private IHostingEnvironment ...

  9. Linux split命令详解

    Linux split命令 Linux split命令用于将一个文件分割成数个.该指令将大文件分割成较小的文件,在默认情况下将按照每1000行切割成一个小文件. 将输入内容拆分为固定大小的分片并输出到 ...

  10. Maven3.5.0安装与配置+Eclipse应用

    Maven是一个优秀的构建工具(类似于 Ant, 但比 Ant 更加方便使用),能帮助我们自动化构建过程,从清理.编译.测试到生成报告,再到打包和部署.只需要输入简单的命令,Maven就可以帮我们处理 ...