一:背景

1. 讲故事

前些天有位朋友在微信上丢了一个崩溃的dump给我,让我帮忙看下为什么出现了崩溃,在 Windows 的事件查看器上显示的是经典的 访问违例 ,即 c0000005 错误码,不管怎么说有dump就可以上windbg开干了。

二:WinDbg 分析

1. 程序为谁崩溃了

在 Windows 平台上比较简单,可以用 !analyze -v 命令查看,输出结果如下:


0:120> !analyze -v
...
CONTEXT: (.ecxr)
rax=0000000000000000 rbx=000000d5140fcf00 rcx=0000000000000000
rdx=000001d7f61cf1d8 rsi=000001d7d3635a10 rdi=000000d5140fc890
rip=00007ff80e17d233 rsp=000000d5140fc760 rbp=000000d5140fc8a0
r8=000001d7d3308144 r9=0000000000000000 r10=0000000000000000
r11=000001d96736b620 r12=000000d5140fca08 r13=00007ff80d326528
r14=000000d5140fcf00 r15=0000000000000000
iopl=0 nv up ei pl nz na po nc
cs=0033 ss=002b ds=002b es=002b fs=0053 gs=002b efl=00010206
00007ff8`0e17d233 3909 cmp dword ptr [rcx],ecx ds:00000000`00000000=????????
Resetting default scope EXCEPTION_RECORD: (.exr -1)
ExceptionAddress: 00007ff80e17d233
ExceptionCode: c0000005 (Access violation)
ExceptionFlags: 00000000
NumberParameters: 2
Parameter[0]: 0000000000000000
Parameter[1]: 0000000000000000
Attempt to read from address 0000000000000000 ERROR_CODE: (NTSTATUS) 0xc0000005 - 0x%p 0x%p %s EXCEPTION_CODE_STR: c0000005 STACK_TEXT:
000000d5`140fc760 00007ff8`6bcc6d93 : 000001d7`d3635a10 000000d5`140fcb80 00007ff8`6bcfda57 00007ff8`695acc92 : 0x00007ff8`0e17d233
000000d5`140fc8b0 00007ff8`6bcc6c48 : 00000000`00000004 00007ff8`6be5ba73 00000000`00000000 00000000`00000000 : clr!CallDescrWorkerInternal+0x83
000000d5`140fc8f0 00007ff8`6be5bf66 : 000001d7`d3635a10 00000000`00000000 000000d5`140fcad8 00000000`00000000 : clr!CallDescrWorkerWithHandler+0x4e
000000d5`140fc930 00007ff8`6be5c41f : 00000000`00000000 000000d5`140fca30 00000000`00000000 000000d5`140fcb60 : clr!CallDescrWorkerReflectionWrapper+0x1a
000000d5`140fc980 00007ff8`69993ee4 : 00000000`00000000 00000000`00000000 000001d7`d3635a10 00007ff8`699f9700 : clr!RuntimeMethodHandle::InvokeMethod+0x45f
000000d5`140fcf90 00007ff8`6997eeae : 000001d7`d3376af0 00000000`00000000 00000000`0000011e 00007ff8`699f82f3 : mscorlib_ni!System.Reflection.RuntimeMethodInfo.UnsafeInvokeInternal+0x104
000000d5`140fd000 00007ff8`699c3a06 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : mscorlib_ni!System.Reflection.RuntimeMethodInfo.Invoke+0x8e
000000d5`140fd080 00007ff8`0dfb7bb3 : 000001d7`d3635998 000001d7`d45e28e0 00000000`0000011c 000001d7`d3376af0 : mscorlib_ni!System.RuntimeType.InvokeMember+0x306
...
STACK_COMMAND: ~120s; .ecxr ; kb
...

从卦中信息看崩溃的汇编语句是 dword ptr [rcx],ecx ,经常看C#汇编代码的朋友我相信对这条语句非常敏感,对,它就是JIT自动插入的一条 this!=null 的防御性判断,看样子程序有 this=null 的情况,接下来入手点就是RIP处 ExceptionAddress: 00007ff80e17d233,用 !U 观察下上下文。


0:120> !U 00007ff80e17d233
Normal JIT generated code
MyScript.Process()
Begin 00007ff80e17d1c0, size 3d5
00007ff8`0e17d1c0 55 push rbp
00007ff8`0e17d1c1 57 push rdi
00007ff8`0e17d1c2 56 push rsi
00007ff8`0e17d1c3 4881ec30010000 sub rsp,130h
00007ff8`0e17d1ca c5f877 vzeroupper
...
00007ff8`0e17d220 e813c1edfe call 00007ff8`0d059338 (xxx.GetRegion(System.String, Boolean), mdToken: 000000000600034f)
00007ff8`0e17d225 48898570ffffff mov qword ptr [rbp-90h],rax
00007ff8`0e17d22c 488b8d70ffffff mov rcx,qword ptr [rbp-90h]
>>> 00007ff8`0e17d233 3909 cmp dword ptr [rcx],ecx
00007ff8`0e17d235 e8de87edfe call 00007ff8`0d055a18 (xxx.get_Region(), mdToken: 0000000006000073)

从卦中的汇编代码看逻辑非常清晰,即 xxx.GetRegion() 方法返回为null,然后在取其中的 Region 属性时直接崩掉,说白了这是一个简单的 空引用异常,完整的代码截图如下:

奇怪就奇怪在这里,代码中明明用 try catch 给包起来了,为什么程序直接崩掉了。

2. 为什么try catch 无效

尼玛,这是我这几年做dump分析第一次遇到这种情况,真的是无语了,接下来我们验证下这个异常是否到了托管层?

  1. 是否有 NullReferenceException

熟悉dump分析的朋友应该知道,如果线程抛了异常在回溯的过程中会记录到 Thread.m_LastThrownObjectHandle 字段中,同时 !t 命令可以在 Exception 列中看到此信息。


0:120> !t
ThreadCount: 48
UnstartedThread: 0
BackgroundThread: 47
PendingThread: 0
DeadThread: 0
Hosted Runtime: no
Lock
ID OSID ThreadOBJ State GC Mode GC Alloc Context Domain Count Apt Exception
0 1 29dc 000001d7d162d5d0 26020 Preemptive 000001D7D8228A00:000001D7D8228D28 000001d7d1602380 0 STA
...
159 18 22dc 000001d967906ff0 1029220 Preemptive 000001D7D834E558:000001D7D834E558 000001d7d1602380 1 MTA (GC) (Threadpool Worker)
...

但从卦中数据看所有的 Exception 列都没有异常信息,这就表示程序没有走到 CLR 的异常处理链条上,至少是不完整的。

  1. 是否有 AccessViolationException

参加过 C#内功修炼训练营 的朋友应该都知道,这种 c0000005 的异常在 C#层面最终会被map成两种异常中的其一,即 NullReferenceException 和 AccessViolationException,选择其一的逻辑就是判断 RIP 是在托管层还是非托管层,模型图如下:

但遗憾的是在 !t 的列表中也没有任何的 AccessViolationException 字样,这也更加确认了它没有调用异常处理链中的 CreateThrowable 函数。。。

事出反常必有妖,在 !t 的输出结果中可以看到此时 159号线程触发了 GC,接下来切过去看一看。


0:120> ~159s
ntdll!NtQueryInformationThread+0x14:
00007ff8`8317ea34 c3 ret
0:159> k
# Child-SP RetAddr Call Site
00 000000d5`00c3e7d8 00007ff8`7f216e2e ntdll!NtQueryInformationThread+0x14
01 000000d5`00c3e7e0 00007ff8`6bcea731 KERNELBASE!GetThreadPriority+0x1e
02 000000d5`00c3e850 00007ff8`6be69cc5 clr!Thread::GetThreadPriority+0x56
03 000000d5`00c3e8a0 00007ff8`6be69bc4 clr!ThreadSuspend::SuspendRuntime+0xa5
04 000000d5`00c3e990 00007ff8`6bd814e3 clr!ThreadSuspend::SuspendEE+0x128
05 000000d5`00c3ea90 00007ff8`6bd85f51 clr!WKS::GCHeap::GarbageCollectGeneration+0xb7
06 000000d5`00c3eaf0 00007ff8`6be7ee6b clr!WKS::gc_heap::trigger_gc_for_alloc+0x2d
07 000000d5`00c3eb30 00007ff8`470e53ec clr!JIT_New+0x4d6
08 000000d5`00c3eee0 00007ff8`470e537c Microsoft_VisualBasic_ni!Microsoft.VisualBasic.Strings.ReplaceInternal+0x3c [f:\dd\vb\runtime\msvbalib\Strings.vb @ 761]
09 000000d5`00c3ef80 00007ff8`0d04f81f Microsoft_VisualBasic_ni!Microsoft.VisualBasic.Strings.Replace+0x15c [f:\dd\vb\runtime\msvbalib\Strings.vb @ 737]
...

从卦中的线程栈来看,此时正在 SuspendEE 阶段,而且还是处于早期阶段,正在准备给 SuspendThread 安排一个好的优先级,主要是怕优先级太低了,导致 线程饥饿 得不到调度,毕竟 GC Process 的过程一定要是快中再快,接下来我们看下程序的 framework 版本。


0:159> !eeversion
4.7.3190.0 free
Workstation mode
SOS Version: 4.7.3190.0 retail build

可以看到还是比较老的 .netframework 4.7.3,结合这么多信息,我个人觉得这可能是 CLR 的一个 bug,在 SuspendEE 阶段的早期(还没有 foreach threads)刚好遇到了一个硬件异常,这个 硬件异常 CLR 在业务逻辑上没处理好,导致 SEH 异常没有引入到 托管层,或者中途的某一环断掉了,我放一张C#内功修炼训练营 中的硬件异常完整流程图。

最后给到朋友的建议比较简单:

  • 判 null 的时候一定要加 null 判断,避免异常逻辑。
  • 升级 framework 到最新的 4.8.1 观察。

三:总结

这次程序崩溃的原因很简单,就是 空引用异常 ,但诡异就诡异在明明有 trycatch 在外部,硬是没接住,这个大概率是 CLR 的 bug,让我这个分析多年dump的老手都叹为观止,开了眼界,无语了无语了。。。

记一次 .NET某工厂报警监控设置 崩溃分析的更多相关文章

  1. 记一次 .NET 某工控MES程序 崩溃分析

    一:背景 1.讲故事 前几天有位朋友找到我,说他的程序出现了偶发性崩溃,已经抓到了dump文件,Windows事件日志显示的崩溃点在 clr.dll 中,让我帮忙看下是怎么回事,那到底怎么回事呢? 上 ...

  2. 记一次 .NET 某教育系统API 异常崩溃分析

    一:背景 1. 讲故事 这篇文章起源于 搬砖队大佬 的精彩文章 WinDBg定位asp.net mvc项目异常崩溃源码位置 ,写的非常好,不过美中不足的是通览全文之后,总觉得有那么一点不过瘾,就是没有 ...

  3. 记一次 .NET 某自动化集采软件 崩溃分析

    一:背景 1.讲故事 前段时间有位朋友找到我,说他的程序在客户的机器上跑着跑着会出现偶发卡死,然后就崩掉了,但在本地怎么也没复现,dump也抓到了,让我帮忙看下到底怎么回事,其实崩溃类的dump也有简 ...

  4. 记一次 .NET 某企业 ERP网站系统 崩溃分析

    一:背景 1. 讲故事 前段时间收到了一个朋友的求助,说他的ERP网站系统会出现偶发性崩溃,找了好久也没找到是什么原因,让我帮忙看下,其实崩溃好说,用 procdump 自动抓一个就好,拿到 dump ...

  5. zabbix 自动发现端口并添加监控设置

    自动发现端口并添加监控设置UserParameter=net.listen.discovery,sudo /etc/zabbix/scripts/discovery_listport.sh #!/bi ...

  6. EMS邮箱数据库全局监控设置

    案例任务:监控TestDB01邮箱数据库的所有邮件,监控邮箱为用户"王淑江"的邮箱. 1.EMS全局监控设置 使用PowerShell完成操作:"王淑江"监控T ...

  7. psutil模块使用(系统监控,性能分析,进程管理)

    psutil模块的介绍 在Python中,我们可以使用psutil这个第三方模块去获取信息的信息. psutil模块可以跨平台使用,支持Linux/UNIX/OSX/Windows等,它主要用来做系统 ...

  8. 总zabbix配置-搭建-邮件报警-微信报警-监控mysql

    Centos7安装Zabbix4.0步骤 官方搭建zabbix4.0的环境要求: 1. 环境搭建LAMP 前提Centos系统安装完成:  确认一下: 1 2 cat /etc/redhat-rele ...

  9. elk报警监控之sentinl 钉钉+邮件告警

    注:我的elk sentinl版本都是6.5.1 前期知识 es的查询语法.es watcher使用方法. https://www.cnblogs.com/pilihaotian/p/5830754. ...

  10. zabbix 邮件报警 监控mysql主从

    1)设置邮件模板及邮件服务器 邮箱密码记得写授权密码 2)配置接受报警的邮箱 3)添加报警触发器 配置邮箱服务器 yum -y install mailx yum -y install sendmai ...

随机推荐

  1. 全面提升易用性:OpenClusterManagement 0.7 版本发布

    ​简介:千呼万唤始出来,三月末 OpenClusterManagement 社区正式发布了 v0.7 版本.在新的版本有一系列新的功能特性欢迎感兴趣的读者体验探索,同时在这个版本中社区维护者对目前已有 ...

  2. 如何合理使用 CPU 管理策略,提升容器性能?

    ​简介:CPU Burst.拓扑感知调度是阿里云容器服务 ACK 提升应用性能的两大利器,它们解决了不同场景下的 CPU 资源管理,可以共同使用.点击下文,查看详情! 作者:张佐玮(佑祎) 前言 在云 ...

  3. 探秘RocketMQ源码——Series1:Producer视角看事务消息

    简介: 探秘RocketMQ源码--Series1:Producer视角看事务消息 1. 前言 Apache RocketMQ作为广为人知的开源消息中间件,诞生于阿里巴巴,于2016年捐赠给了Apac ...

  4. 一种命令行解析的新思路(Go 语言描述)

    ​简介: 本文通过打破大家对命令行的固有印象,对命令行的概念解构后重新梳理,开发出一种功能强大但使用极为简单的命令行解析方法.这种方法支持任意多的子命令,支持可选和必选参数,对可选参数可提供默认值,支 ...

  5. LLM优化:开源星火13B显卡及内存占用优化

    1. 背景 本qiang~这两天接了一个任务,部署几个开源的模型,并且将本地经过全量微调的模型与开源模型做一个效果对比. 部署的开源模型包括:星火13B,Baichuan2-13B, ChatGLM6 ...

  6. 前端使用 Konva 实现可视化设计器(8)- 预览框

    请大家动动小手,给我一个免费的 Star 吧~ 大家如果发现了明显的 Bug,可以提 Issue 哟~ 这一章我们实现一个预览框,实时.可交互定位的. github源码 gitee源码 示例地址 预览 ...

  7. 一则current日志损坏的数据库恢复实例,隐藏参数的使用

    场景 之前写了一篇文章,是redo日志全部丢失的情况下,数据库实例恢复的方式.但是,这次特殊在,实例恢复失败的情况下.非常规打开数据库(数据库已经不一致了,但是可以通过expdp导出,导出重要的数据) ...

  8. 解决浏览器打不开github网站常用方法

    switchHost使用指南 https://blog.csdn.net/weixin_45022563/article/details/123922815 下载软件: https://github. ...

  9. redis rdb数据持久化

    面试和工作,持久人都是重点! Redis是内存数据库,如果不将内存中的数据库状态保存到磁盘,那么一旦服务器进程退出,服务器中的数据库状态也会消失.所以Redis提供了持久化功能! RDB(Redis ...

  10. 如何使用go module导入本地包

    go module是Go1.11版本之后官方推出的版本管理工具,并且从Go1.13版本开始,go module将是Go语言默认的依赖管理工具. 到今天Go1.14版本推出之后Go modules 功能 ...