Nginx问题定位之监控进程异常退出
nginx在运行过程中是否稳定,是否有异常退出过?这里总结几项平时会用到的小技巧。
1. 在error.log中查看是否有signal项,如果有,看看signal是多少。
比如,这是一个异常退出的情况:
- $grep signal error.log
- 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on signal 11
如果在进程退出后,有coredump文件产生,则会打出如下日志:
- $grep signal error.log
- 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on signal 11 (core dumped)
2. 简单方式,看进程号是否连续
一般来说,在worker进程启动时,其进程号都是连续的(至少相差不是很远),如果有进程退出,其进程号就不一定连续。
- $ps aux | grep nginx
- lizi 7223 0.0 0.0 74844 2024 ? Ss 13:32 0:00 nginx: master process ./nginx
- lizi 7292 0.0 0.0 78856 5468 ? S 13:33 0:00 nginx: worker process
- lizi 7293 0.0 0.0 78856 5468 ? S 13:33 0:00 nginx: worker process
- lizi 7294 0.0 0.0 78856 5468 ? S 13:33 0:00 nginx: worker process
- lizi 7295 0.0 0.0 78856 5468 ? S 13:33 0:00 nginx: worker process
- lizi 7296 0.0 0.0 78856 5468 ? S 13:33 0:00 nginx: worker process
- lizi 7297 0.0 0.0 78856 5468 ? S 13:33 0:00 nginx: worker process
- lizi 7298 0.0 0.0 78856 5468 ? S 13:33 0:00 nginx: worker process
- lizi 7299 0.0 0.0 78856 5468 ? S 13:33 0:00 nginx: worker process
- lizi 7300 0.0 0.0 78856 5468 ? S 13:33 0:00 nginx: worker process
- lizi 7301 0.0 0.0 78856 5452 ? S 13:33 0:00 nginx: worker process
可以看到,10个worker进程,基本从7292到7301,进程号连续。
如下:
- $ps aux | grep nginx
- nobody 9492 16659 26 09:18 ? 01:10:41 nginx: worker process
- root 16659 1 0 Dec24 ? 00:00:00 nginx: master process ./nginx
- nobody 16663 16659 11 Dec24 ? 02:41:38 nginx: worker process
- nobody 19344 16659 24 10:18 ? 00:50:54 nginx: worker process
- nobody 25447 16659 28 07:41 ? 01:43:56 nginx: worker process
进程号已不再连续,说明nginx可能有工作进程异常退出。
3. 查看dmesg系统消息。
在man手册里面是这么描述dmesg的:
- DESCRIPTION
- dmesg is used to examine or control the kernel ring buffer.
查看dmesg是检测系统运行状态的常用手段,通常可以帮我们排查很多问题。当然,如果有进程异常退出,dmesg也可以看到。
- $dmesg
- nginx[24721]: segfault at 0000000000000001 rip 0000000000000001 rsp 00007ffff58d8180 error 14
- nginx[1729]: segfault at 0000000000000190 rip 00000000004c2d27 rsp 00007ffff58d8340 error 4
- nginx[22002]: segfault at ffffffffffffffff rip 000000001c959744 rsp 00007fff43caac18 error 6
rip表示程序退出时的ip寄存器内容,当没有core文件可用时,可根据此值以及反汇编来查找程序core的位置。
4. 打开coredump文件。
一般我们在程序启动前,通过ulimit -c ulimited
来设置core文件的大小,也可以修改/etc/security/limits.conf
文件,添加如下信息:
- admin soft core 1000000
- admin hard core 1000000
也可以直接修改nginx的配置文件,添加如下配置项:
- worker_rlimit_core 10000m;
而此时,在limit系统中,默认coredump文件会写在启动nginx时的目录,如果nginx在启动时worker进程的用户没有权限写到这个目录,进程在异常退出时,就无法产生coredump文件。由于nginx启动后,或者是由别人启动,我们无法知道nginx在启动时的目录,也就无法知道core文件的目录。我曾经碰到过这样的问题,通过日志查看,是coredump出来了,但却找不到coredump的文件。
这里有一个小技巧,查看/proc/pid/cwd
可以看到进程的工作目录,而core文件会产生在工作目录。
nginx可以配置工作目录来改变默认的工作目录,于是,我们需要配置working_directory
为目的工作目录,我们的core文件也会产生在这个目录。
- working_directory /path/to/core;
working_directory
与编译时指定的--prefix=/path
不同,后者表示在配置文件中所用的相对路径所生产的绝对路径。所以,working_directory
不会影响到配置的引用路径,而仅仅是为了改变core文件的路径,当然nginx必须有写这个目录的权限,否则无法core出来。
所以,这里,我推荐的做法是,配置worker_rlimit_core
与working_directory
这两个指令,这样,就不需要修改操作系统的参数就可以正常core出来了。
来源:http://blog.lifeibo.com/blog/2012/12/25/nginx-process-exit.html
Nginx问题定位之监控进程异常退出的更多相关文章
- MHA监控进程异常退出
这两天遇到一个非常诡异的问题,打算和大家分享一下.只所以诡异估计是自己知识面不够吧.线上的MHA一直没有开启自动切换,都是手动切换的,最近开启了自动切换以后,退出securecrt窗口以后发现监控进程 ...
- MHA监控进程异常退出(MHA版本:0.56)
最近遇到一个非常诡异的问题,mha后台进程自己中断退出了.以下是报错:Mon Dec 21 20:16:07 2015 - [info] OK.Mon Dec 21 20:16:07 2015 - [ ...
- [典型漏洞分享]YS VTM模块存在格式化字符串漏洞,可导致VTM进程异常退出【高危】
YS VTM模块存在格式化字符串漏洞,可导致VTM进程异常退出[高危] 问题描述: YS VTM模块开放对外监听端口(8554和8664),此次使用sulley fuzzing框架对监听在8664端口 ...
- Android native进程间通信实例-socket本地通信篇之——服务端进程异常退出解决办法
导读: 好难受啊,为什么服务端说挂就挂,明明只是客户端关闭而已,服务端怎么能挂呢? 想想,如果手机上使用一个聊天程序的时候,手机端关闭了聊天程序,那么远端服务器程序总不能说挂就挂吧!所以一定要查明真相 ...
- 解决openoffice进程异常退出的办法:
实现以守护进程,定时检测openoffice是否退出,如果进程不存在,通过脚本将openoffice起起来即可. 具体操作步骤: 第一步: 将openoffice.sh脚本放置在root目录下面, ...
- 解决openoffice进程异常退出的办法
步骤1 编写脚本 openoffice.sh #!/usr/bin/bash OPENOFFICEPID=`ps -ef|grep "/opt/openoffice4/program/sof ...
- nodejs进程异常退出处理方法
1. 捕获uncaughtException process.on('uncaughtException', function (err) { //打印出错误 console.log(err); // ...
- 用Supervisor实现进程守护,在异常退出时自动重启
程序启动后,有些是以daemon的形式运行,但在意外退出后,如果不能及时重新启动,会有比较严重的影响. 比如Zimg在图片处理中由于某些图片处理失败,会导致zimg进程挂掉,影响正常的服务提供,并且只 ...
- Nginx之监控进程和工作进程
1. 函数调用分析 在开启 master 的情况下,多进程模型的下的入口函数为 ngx_master_process_cycle,如下: int mian() { ... if (ngx_proces ...
随机推荐
- request的各种方法大全
request.setAttribute("result", district);//放进作用域,可以用el表达式在页面展示.(名字,调用方法的结果) pageContext.re ...
- [函数] Firemonkey 取得 Windows 目前 User 的 Desktop 目录
下列方法仅提供 Windows 平台使用,所以需要使用编译开关,代码如下: uses {$IFDEF MSWINDOWS} Winapi.Windows, Winapi.SHFolder, {$END ...
- 使用maven创建Archetype
Archetype原型 也就是说为项目生成一个原型,可以把这个项目发布,其他人就可以直接通过命令构建一个原型项目了. 其实我一开始也是不知道maven还有这个功能的,但是在使用的springside的 ...
- windows server 2003安装sp4时的问题
"以前进行的程序安装创建了挂起的文件操作.运行程序之前,必须重新起动计算机."的解决办法 在安装SQL 2000数据库和SQLSP4补丁时,经常会提示“以前进行的程序安装创建了挂起 ...
- mysql hang and srv_error_monitor_thread using 100% cpu
昨天晚上,运维过来说有台生产服务器的mysql cpu一直100%,新的客户端登录不了,但是已经在运行的应用都正常可用. 登录服务器后,top -H看了下,其中一个线程的cpu 一直100%,其他的几 ...
- ASP.NET 多语言的实现(后台消息+前台消息+页面自动绑定)
一 前言 界面支持多种语言,在使用ASP.NET自带的多语言方案时遇到下列问题: 在做管理类的功能时,有添加.修改和查看页面,需要支持多语言的控件基本相同,但要维护多处,产生冗余(ASP.NET有共享 ...
- 初探百度F.I.S — 由工具到解决方案
1. 前言 阅兵放假三天,我哪儿也没去,宅着看了一些东东:git命令行.svn命令以及下面的主角——百度FIS.对看过的git.svn的命令也做了一些总结,请参见:<git命令学习笔记>和 ...
- 图标集锦:10套免费的社交媒体 & 社交网站图标
社交网络是最近几年互联网领域最热门的关键词之一,如今社会网络化媒体也成为我们信息获取和传播的重要途径,很多网站都有把内容分享到社交媒体的功能. 社交媒体图标作为向用户传递信息的重要媒介,不管是在网页还 ...
- 前端上传组件Plupload使用指南
我之前写过一篇文章<文件上传利器SWFUpload使用指南>,里面介绍了上传组件SWFUpload的使用方法,但现在随着html5技术的逐渐推广和普及,再去使用以flash为上传手段的SW ...
- go语言最新版本 下载地址
国内官方网站无法打开.放在了百度云中,定期会更新: 链接:http://pan.baidu.com/s/1dD59duh 密码:46ek 备用地址:http://pan.baidu.com/s/1hq ...