一:背景

1. 讲故事

最近在分析一个 linux 上的 dump,最后的诱因是大量的lock锁诱发的高频上下文切换,虽然问题告一段落,但我还想知道一点信息,所谓的高频到底有多高频?锁竞争到底是一个怎样的锁竞争? 如果了解这些信息对我们后续分析此类问题非常有帮助。

要想获取此类信息,看 dump 肯定是没有用的,只能给程序安装一个摄像头,在 Windows 平台上可以在 perfview 上配一个 Microsoft-Windows-DotNETRuntime:ContentionKeyword 事件轻松搞定,截图如下:

但 PerfView 是和 Windows 深度绑定的,那在 Linux 上怎么办呢? 对,有朋友知道用 dotnet-trace。

二:探究 dotnet-trace

1. 如何监控 lock 竞争

dotnet-trace 是 CLR 团队写的一个跨平台的小工具,专门用于获取 .NET 程序的各种事件,可以理解成 PerfView 的一个子集,这里安装就不说了,详见官方文档:https://learn.microsoft.com/en-us/dotnet/core/diagnostics/dotnet-trace

查阅文档之后,只需要在 --clrevents 中配 contention 事件即可,详情参见文档:https://learn.microsoft.com/en-us/dotnet/fundamentals/diagnostics/runtime-contention-events

2. 测试案例

为了方便解读,这里我故意造一个 锁护送 现象,参考代码如下:


  1. internal class Program
  2. {
  3. public static object lockMe = new object();
  4. static void Main(string[] args)
  5. {
  6. long i = 10;
  7. Parallel.For(0, int.MaxValue, new ParallelOptions() { MaxDegreeOfParallelism = 4 }, (j) =>
  8. {
  9. lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
  10. lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
  11. lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
  12. lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
  13. lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
  14. lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
  15. lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
  16. lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
  17. lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
  18. lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
  19. lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
  20. lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
  21. lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
  22. lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
  23. lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
  24. lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
  25. lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
  26. lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
  27. lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
  28. lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
  29. });
  30. }
  31. }

将程序跑起来后,使用 dotnet-trace ps 找到 PID,再用 dotnet-trace 进行跟踪,这里持续跟踪 1分钟。


  1. [root@localhost ~]# dotnet-trace ps
  2. 3316 dotnet /usr/share/dotnet/dotnet dotnet ConsoleApp3.dll
  3. [root@localhost ~]# dotnet-trace collect -p 3316 --clrevents contention --duration 00:00:01:00
  4. Provider Name Keywords Level Enabled By
  5. Microsoft-Windows-DotNETRuntime 0x0000000000004000 Informational(4) --clrevents
  6. Process : /usr/share/dotnet/dotnet
  7. Output File : /root/dotnet_20230509_105906.nettrace
  8. Trace Duration : 00:00:01:00
  9. [00:00:01:00] Recording trace 29.7885 (MB)
  10. Press <Enter> or <Ctrl+C> to exit...148 (MB)
  11. Stopping the trace. This may take several minutes depending on the application being traced.
  12. Trace completed.
  13. [root@localhost ~]# ls
  14. anaconda-ks.cfg dotnet_20230509_105906.nettrace Music Templates
  15. Desktop Downloads Pictures Videos
  16. Documents initial-setup-ks.cfg Public

3. nettrace 文件分析

至于分析 dotnet_20230509_105906.nettrace 的工具就特别多了,dotnet-trace,perf,perfview,visualstudio,不过我个人建议还是使用 prefview,因为它的洞察能力会更好,用 perfview 打开之后点击 EventStats 观察统计信息:

从图中可以看到 1min 的时间内生成了总计将近 200w 的 start 和 stop 事件。

有了统计信息还不行,我还想知道每一次 start 的详细信息,可以点击 perfview 中的 Events 面板中的 Microsoft-Windows-DotNETRuntime/Contention/Start 事件,可以看到记录中每一次争抢的开始时间。

有些朋友可能要问了,Start 和 Stop 到底代表什么意思,简而言之就是争抢的开始时间和结束时间,时间差就是排队时间,截图如下:

从图中可以看到,某些竞争锁的时候耗费了 1ms 的时间,同时得到调度的线程也不是串行的,比如 4232 号线程就得到了两次连续执行。

接下来回答最后一个问题,除了看到每一次lock竞争的详细信息,能不能看到每一次 lock 时的代码调用栈呢? 当然是可以的,毕竟 HasStack="True" ThreadID="3,316" ProcessorNumber="0" ContentionFlags="Managed" ClrInstanceID="0" 中的 HasStack="True" 就是告诉当前是有调用栈信息的,在 Time MSec 列点击右键选择 Open Any Stacks

从图中的线程栈可以看到,Start 事件是由 Main 方法中的 Parallel.For 诱发的,非常清楚。

三:总结

dotnet-trace 是一个非常强大的跨平台性能分析工具,构建在 EventPipe 之上,特点就是跨平台,除了对锁竞争外,还有其他的各种有趣的事件,有兴趣的朋友可以查阅查阅。

聊一聊 dotnet-trace 调查 lock锁竞争的更多相关文章

  1. 转: 【Java并发编程】之二十:并发新特性—Lock锁和条件变量(含代码)

    简单使用Lock锁 Java5中引入了新的锁机制--Java.util.concurrent.locks中的显式的互斥锁:Lock接口,它提供了比synchronized更加广泛的锁定操作.Lock接 ...

  2. 【Java并发编程】:并发新特性—Lock锁和条件变量

    简单使用Lock锁 Java5中引入了新的锁机制——Java.util.concurrent.locks中的显式的互斥锁:Lock接口,它提供了比synchronized更加广泛的锁定操作.Lock接 ...

  3. 一个lock锁就可以分出低中高水平的程序员对问题的处置方式

    说到lock锁,我相信在座的各位没有不会用的,而且还知道怎么用不会出错,但让他们聊一聊为什么可以锁住,都说人以群分,大概就有了下面低中高水平的三类人吧. 第一类人 将lock对象定义成static,这 ...

  4. BP-Wrapper:无锁竞争的缓存替换算法系统框架

    BP-Wrapper:无锁竞争的替换算法系统框架 最近看了一个golang的高性能缓存ristretto,该缓存可以很好地实现如下功能: Concurrent High cache-hit ratio ...

  5. 【Java并发006】使用层面:Lock锁机制全解析

    一.前言 二.synchronized局限性 + Lock锁机制的引入 2.1 synchronized局限性 第一,使用synchronized,其他线程只能等待直到持有锁的线程执行完释放锁(syn ...

  6. Lock锁的使用示例

    Lock锁是java5用来代替synchronized的一种面向对象的锁的方案 public class LockDemo { /** * Lock是用来替换synchronized, 优点是Lock ...

  7. Dom4j 锁竞争性能低下解决

    在最近的项目中使用 Dom4j 解析 xml 发现性能低下,有锁竞争的情况,解决如下: SAXParserFactory factory = new org.apache.xerces.jaxp.SA ...

  8. Android(java)学习笔记69:JDK5之后的Lock锁的概述和使用

    1. Lock锁的概述: java.util.concurrent.locks,接口Lock 首先Lock是一个接口,Lock实现提供了比使用synchronized方法 和 同步代码块更为广泛的锁定 ...

  9. python多线程threading.Lock锁用法实例

    本文实例讲述了python多线程threading.Lock锁的用法实例,分享给大家供大家参考.具体分析如下: python的锁可以独立提取出来 mutex = threading.Lock() #锁 ...

  10. Lock锁_线程_线程域

    using System;using System.Collections.Generic;using System.ComponentModel;using System.Data;using Sy ...

随机推荐

  1. 编译GO报错:cgo: C compiler

    cgo: C compiler "gcc" not found: exec: "gcc": executable file not found in %PATH ...

  2. git 强制拉取远程到本地

    git fetch --all git reset --hard origin/master git pull

  3. 什么是Placement new ?

    1. 什么是placementNew placement new的作用就是:创建对象(调用该类的构造函数)但是不分配内存,而是在已有的内存块上面创建对象.用于需要反复创建并删除的对象上,可以降低分配释 ...

  4. imx6ull调试记录——开发环境搭建

    搭建开发环境之网络环境 代码编译环境准备 换源 sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak sudo vim /etc/apt/so ...

  5. 看看CabloyJS是如何异步加载并执行go wasm模块的

    介绍 CabloyJS提供了一个内置模块a-wasmgo,将go wasm模块的异步加载运行机制进行了封装,使我们可以非常方便的在CabloyJS项目中引入go wasm,从而支持更多的业务场景开发 ...

  6. MongoRepository查询数据常用语法

    安装 查看mongo可用版本 docker search mongo 安装指定版本的mogo或者拉取最新版本的镜像 docker pull mongo:latest 或者官网下载安装包 https:/ ...

  7. Django+bootstrap+layui集成

    一.django项目搭建:1.Python安装2.下载Django解压到Python安装目录G:\python3.7.4\3.cmd G:\python3.7.4\Django-4.0.5 执行 py ...

  8. ASP.NET Core - 选型系统之选型配置

    1. 选项 前面讲完了.NET Core 下的配置系统,我们可以通过 IConfiguration 服务从各种来源的配置中读取到配置信息,但是每次要用的时候都通过 Iconfiguration 读取配 ...

  9. .NET Task 揭秘(3)async 与 AsyncMethodBuilder

    目录 前言 AsyncMethodBuilder 介绍 AsyncMethodBuilder 是状态机的重要组成部分 AsyncMethodBuilder 的结构 AsyncMethodBuilder ...

  10. HTTP 返回状态码403,404,502等不同报错原因及解决思路

    要学会看日志rpm的默认路径 /var/log/nginx/源码的默认路径 安装路径/logs/ 排错思路: 1)服务器启动失败,直接"nginx -t"测试语法   看配置文件是 ...