debug实战:进程Hang+High CPU
最近几周都在解决程序不稳定的问题,具体表现为程序(多进程)时不时的Hang住,同时伴随某个进程的High CPU。跟踪下来,基本都是各种死锁引起的。这里选取一个典型的场景进行分析。
1.抓dump分析
由于这个问题不能稳定重现,所以比较靠谱的方法是出现后抓Dump再分析。老方法:ProcDump -ma [ProcessName]
。这是个多进程Hang住的情况,具体表现为主进程Main点击退出时,子进程Mkt不响应。到底是哪个进程挂掉了呢?
2.先看Main
首先!syncblk:
0:000> !syncblk
Index SyncBlock MonitorHeld Recursion Owning Thread Info SyncBlock Owner
244 0000000023d99b68 5 1 0000000029b26bc0 100 41 0000000003c95a30 System.Object
41号线程持有object锁,MonitorHeld=5,持有者=1、等待者=2,所以有(5-1)/2=2个线程在等待这个锁。41号线程在干什么呢?为什么占着锁又不走下去呢?
/*0:000> !threads
ThreadCount: 974
UnstartedThread: 0
BackgroundThread: 965
PendingThread: 0
DeadThread: 8
Hosted Runtime: no
Lock
ID OSID ThreadOBJ State GC Mode GC Alloc Context Domain Count Apt Exception
41 45 100 0000000029b26bc0 2b228 Preemptive 0000000000000000:0000000000000000 0000000002222bb0 1 MTA */
注意:这3个ID容易混淆,41是线程在windbg中的编号;45(ID)是线程在.net中的编号,对应vs调试时的托管ID;100(OSID)这个16进制ID的是操作系统给线程的唯一编号,对应于vs调试时的10进制ID,比如在这里是2560。
/*0:000> ~41e!clrstack
OS Thread Id: 0x100 (41)
Child SP IP Call Site
000000002780ea30 0000000077ab133a Microsoft.Win32.UnsafeNativeMethods.WriteFile(Microsoft.Win32.SafeHandles.SafePipeHandle, Byte*, Int32, Int32 ByRef, IntPtr)
000000002780ea30 000007fee5a775d2 Microsoft.Win32.UnsafeNativeMethods.WriteFile(Microsoft.Win32.SafeHandles.SafePipeHandle, Byte*, Int32, Int32 ByRef, IntPtr)
000000002780e9f0 000007fee5a775d2 DomainBoundILStubClass.IL_STUB_PInvoke(Microsoft.Win32.SafeHandles.SafePipeHandle, Byte*, Int32, Int32 ByRef, IntPtr)
000000002780eaf0 000007fee5af4aa0 System.IO.Pipes.PipeStream.WriteFileNative(Microsoft.Win32.SafeHandles.SafePipeHandle, Byte[], Int32, Int32, System.Threading.NativeOverlapped*, Int32 ByRef)
000000002780eb40 000007fee5af4742 System.IO.Pipes.PipeStream.WriteCore(Byte[], Int32, Int32)*/
可以看到,41号线程卡在PipeStream.Write上面,MSDN上提到,如果Pipe的另一端不读完Write过去的byte[],Write就会一直阻塞:
Calling the PipeStream.Write() method blocks until count bytes are read or the end of the stream is reached.
也就是说,主进程Main在给子进程write,但子进程一直不收。
3.再看Mkt进程
同样!syncblk:
Index SyncBlock MonitorHeld Recursion Owning Thread Info SyncBlock Owner
42 0000000002358828 3 1 000000002063b9b0 34f8 17 0000000003909d28 System.Object
17号线程持有锁,另一个线程在等待。17号在干嘛?
/*OS Thread Id: 0x34f8 (17)
Child SP IP Call Site
0000000022c8b2f0 0000000077ab131a Microsoft.Win32.UnsafeNativeMethods.ReadFile(Microsoft.Win32.SafeHandles.SafePipeHandle, Byte*, Int32, Int32 ByRef, IntPtr)
0000000022c8b2f0 000007fee5a775d2 Microsoft.Win32.UnsafeNativeMethods.ReadFile(Microsoft.Win32.SafeHandles.SafePipeHandle, Byte*, Int32, Int32 ByRef, IntPtr)
0000000022c8b2b0 000007fee5a775d2 DomainBoundILStubClass.IL_STUB_PInvoke(Microsoft.Win32.SafeHandles.SafePipeHandle, Byte*, Int32, Int32 ByRef, IntPtr)
0000000022c8b3b0 000007fee5af4980 System.IO.Pipes.PipeStream.ReadFileNative(Microsoft.Win32.SafeHandles.SafePipeHandle, Byte[], Int32, Int32, System.Threading.NativeOverlapped*, Int32 ByRef)
0000000022c8b400 000007fee5af44d4 System.IO.Pipes.PipeStream.ReadCore(Byte[], Int32, Int32)
0000000022c8b470 000007fe88a05852 IPC.PipeTransport.Send(Byte[])
0000000022c8b8a0 000007fe89f17b1f UI.WPF.WindowBase.UnRegisterAllIPCSubscriber()
0000000022c8b900 000007fe89f170df UI.WPF.WindowBase.WindowBase_Closed(System.Object, System.EventArgs)*/
看起来是在关闭Window的时候,17号线程拿到了锁,想要取消注册IPC却一直Read不到回复。再看是哪个线程在等锁,执行~*e!clrstack
在输出里找Monitor.Enter
这个函数,发现是8号线程在等锁:
/*0:000> ~8e!clrstack
Child SP IP Call Site
00000000211ae908 0000000077ab186a System.Threading.Monitor.Enter(System.Object)
00000000211aea00 000007fe89b09f06 UI.WPF.WindowBase.OnReciveIPCMessqage(MessageRoute.IMessage)*/
了解了锁的持有、等待关系之后,还是要回到代码上分析。从源码可知,Mkt的8号线程拿到锁之后要做的,就是Read Main进程Write过来的byte数组(这部分代码就不贴了)。而它之所以拿不到lock,是因为17号拿到了lock并给Main发消息要取消注册,并且在发完之后等Read。而Main的41号Write线程,却在等Mkt的8号线程Read。
private void UnRegisterAllIPCSubscriber()
{
lock (this)
{
_subscriber.Stop();
_ipcSubscribers.Clear();
}
}
4.小结
于是这样一个跨进程的死锁问题就发生了。问题的关键在于,上面这个取消注册的锁的范围太大了,_subscriber.Stop
跨越了一次IPC调用,其实只有_ipcSubscribers
是共享数据,缩小锁的范围就可以避免这个问题的发生。最后要感谢一下Tess Ferrandez,主要的思路来自她的这篇《A Hang Scenario, Locks and Critical Sections》。
debug实战:进程Hang+High CPU的更多相关文章
- linux上限制用户进程数、cpu占用率、内存使用率
限制进程CPU占用率的问题,给出了一个shell脚本代码如下: renice +10 `ps aux | awk '{ if ($3 > 0.8 && id -u $1 > ...
- 一次进程hang住问题分析。。。
这两天有同学使用数据校验工具时发现进程hang住了,也不知道什么原因,我简单看了看进程堆栈,问题虽然很简单,但能导致程序hang住,也一定不是小问题.简单说明下程序组件的结构,程序由两部分构成,dbc ...
- 查看进程,按内存从大到小 ,查看进程,按CPU利用率从大到小排序
查看进程,按内存从大到小 ps -e -o "%C : %p : %z : %a"|sort -k5 -nr 查看进程,按CPU利用率从大到小排序 ps -e -o "% ...
- Linux下如何查看哪些进程占用的CPU内存资源最多
linux下获取占用CPU资源最多的10个进程,可以使用如下命令组合: ps aux|head -1;ps aux|grep -v PID|sort -rn -k +3|head linux下获取占用 ...
- linux:如何指定进程运行的CPU
coolshell最新的文章<性能调优攻略>在"多核CPU调优"章节,提到"我们不能任由操作系统负载均衡,因为我们自己更了解自己的程序,所以,我们可以手动地为 ...
- Nginx 关于进程数 与CPU核心数相等时,进程间切换的代价是最小的-- 绑定CPU核心
在阅读Nginx模块开发与架构模式一书时: "Nginx 上的进程数 与CPU核心数相等时(最好每个worker进程都绑定特定的CPU核心),进程间切换的代价是最小的;" &am ...
- [转] 指定进程运行的CPU
转自:https://www.cnblogs.com/liuhao/archive/2012/06/21/2558069.html coolshell最新的文章<性能调优攻略>在“多核CP ...
- [转] 多核CPU 查看进程分配的CPU具体核id
转自:https://linux.cn/article-6307-1.html ps. 方法二简明直接 done! 当你在 多核 NUMA 处理器上运行需要较高性能的 HPC(高性能计算)程序或非常消 ...
- 进程分析之CPU
进程分析之CPU 进程分析之CPU 本文转载自:https://github.com/ColZer/DigAndBuried/blob/master/system/cpu.md 在<进程分析之内 ...
随机推荐
- JAVA必背面试题和项目面试通关要点
一 数据库 1.常问数据库查询.修改(SQL查询包含筛选查询.聚合查询和链接查询和优化问题,手写SQL语句,例如四个球队比赛,用SQL显示所有比赛组合:举例2:选择重复项,然后去掉重复项:) 数据库里 ...
- The new day of my blog
今天开始了我的博客建造之旅,作为一个ACMer(虽说是弱校的),我也想象其他人一样把自己的题解和心得记录下来,一来可以和大家分享一下,二来也可以留给将来的自己作回顾,希望众大神能够给以指导指导,让我这 ...
- Image Cropper+java实现截图工具
首先,请移步http://jquery-plugins.net/image-cropper-jquery-image-cropping-plugin下载iamge cropper的有关js文件及css ...
- Freemarker 入门示例(zhuan)
http://cuisuqiang.iteye.com/blog/2031768 ************************************ 初步学习freemarker ,先做一个简单 ...
- hiho1092_have lunch together
题目 两个人从同一个点出发,在一个餐厅中寻找两个相邻的座位,需要是的从出发点到达座位的距离总和最短.题目链接: Have Lunch Together 最短路程,一开始以为要用dijkstra ...
- gevent中如何实现长轮询
浏览网页时,浏览器会传HTTP 请求到服务器,服务器会根据请求将网页的内容传给浏览器,但是在很多的情况下,使用者会需要看到最新的即时性资讯,例如观看股票市场行情,而在以前只能靠着重新载入网页才能获得最 ...
- python int与str转换
string -> int 1. 10进制string 转换为 int int("12") 2. 16进制string 转换为 int int("12" ...
- 易通电脑锁2007V6.3.3.3无法卸载问题解决办法
易通电脑锁2007V6.3.3.3无法卸载问题解决办法把原版文件拷贝回去.bat@echo offcolor 2Fecho 该批处理会把易通电脑锁2007版原文件拷贝回去,解决易通电脑锁卸载时出现的运 ...
- Link Collecting
----------------------------------\ ACM入门总结之常见输入输出格式暨hdu1089~1096 题解,谨献给对acm感兴趣的新人 - 博客频道 - CSDN.NET ...
- 20145218 《Java程序设计》第10周学习总结
20145218 <Java程序设计>第10周学习总结 教材学习内容总结 网络编程 网络编程就是在两个或两个以上的设备(例如计算机)之间传输数据. 程序员所作的事情就是把数据发送到指定的位 ...