profiler报告包含每次内核启动分析期间收集的所有信息。在用户界面中,它包含一个包含常规信息的标题,以及用于在报告页面或单个收集的启动之间切换的控件。默认情况下,报告以选定的详细信息页面开始。

页眉

页面下拉列表可用于在可用报告页面之间切换,下一节将对此进行详细说明。

探查器报告标头

Launch下拉列表可用于在所有收集的内核启动之间切换。每个页面中显示的信息通常表示选定的启动实例。在某些页面(例如Raw),显示所有启动的信息,并突出显示所选实例。您可以输入这个下拉列表来快速过滤并找到一个内核启动。

应用过滤器按钮打开过滤器对话框。可以使用多个筛选器缩小结果范围。在“过滤器”对话框中,输入过滤器参数并按“确定”按钮。将相应地过滤“启动”下拉列表。选择箭头下拉菜单以访问“清除过滤器”按钮,该按钮将删除所有过滤器。

过滤器对话框

“添加基线”按钮可将焦点中的当前结果提升为此报告中所有其他结果的基线,以及在同一个NVIDIA Nsight Compute实例中打开的任何其他报告的基线。选择箭头下拉列表以访问“清除基线”按钮,该按钮将删除所有当前活动的基线。

“应用规则”按钮应用此报表的所有可用规则。如果以前应用过规则,这些结果将被替换。默认情况下,一旦分析了内核启动过程,就会立即应用规则。这可以在“工具”>“选项”>“配置文件”>“报表UI”>“自动应用适用规则”下的选项中进行更改。

右侧的按钮提供了可以在页面上执行的多个操作。可用操作包括:

复制为图像-将页面内容作为图像复制到剪贴板。

另存为图像-将页面内容作为图像保存到文件中。

另存为PDF-将页面内容以PDF格式保存到文件中。

导出到CSV-将页面内容导出为CSV格式。

重置为默认值-通过删除任何保留的设置将页面重置为默认状态。

请注意,并非所有的功能都在所有页面上可用。

关于所选内核的信息显示为当前的。[+]和[-]按钮可用于显示或隐藏节正文内容。信息切换按钮i改变了章节描述的可见性。

报告页数

使用页眉中的Page下拉菜单在报表页之间切换。

会话页面

此会话页包含有关报告和计算机的基本信息,以及为其分析启动的所有设备的设备属性。在启动实例之间切换时,将突出显示相应的设备属性。

摘要页

摘要页面显示此报告中收集的所有结果的列表,以及选定的重要摘要度量。它为您提供了一个快速的比较概述,涵盖了所有已分析的内核启动。您可以使用“转置”按钮来转置内核和度量表。

详细信息页

Details页面是内核启动期间收集的所有度量数据的主页面。页面被分成单独的部分。每个部分由一个标题表和一个可选的可扩展正文组成。这些部分完全是用户定义的,可以通过更新它们各自的文件轻松地进行更改。有关自定义节的详细信息,请参见《自定义手册》。有关NVIDIA Nsight Compute附带的部分列表,请参阅《内核评测指南》。

默认情况下,收集到新的概要文件结果后,将应用所有适用的规则。任何规则结果都将在此页面上显示为建议。大多数规则结果都是纯信息性的,或者有一个警告图标来指示某些性能问题。带有错误图标的结果通常表示应用规则时出错。

规则结果通常指出性能问题并指导整个分析过程。

如果启用,SOL Rooflines部分包含一个Roofline图表,它对于直观地显示内核性能特别有用。(要在报告中启用roofline图表,请确保在分析时选择了GPU Speed of Light roofline Chart部分。)有关如何使用和读取此图表的更多信息,请参阅Kernel profiling Guide。

屋顶线图样本。

可以使用下表中的控件缩放和平移屋顶线图表,以便进行更有效的数据分析。

表1屋顶线图表缩放和平移控件

如果启用,内存工作负载分析部分将包含一个内存图表,用于可视化数据传输、缓存命中率、指令和内存请求。关于如何使用和阅读这个图表的更多信息可以在内核评测指南中找到。

源计数器等部分可以包含源热点表。这些表显示了内核源代码中一个或多个度量的N个最高或最低值。选择位置链接以在源页面中直接导航到此位置。将鼠标悬停在某个值上,以查看哪些度量对该值起作用。

热点表指出源代码中的性能问题。

Nsight Compute Profilier 分析的更多相关文章

  1. NSight Compute 用户手册(下)

    主菜单 文件 新建项目使用"新建项目"对话框创建新的分析项目 4. Main Menu and Toolbar Information on the main menu and t ...

  2. NSight Compute 用户手册(中)

    NSight Compute 用户手册(中) NVIDIA Nsight Compute支持密码和私钥身份验证方法.在此对话框中,选择身份验证方法并输入以下信息: 密码 IP/主机名:目标设备的IP地 ...

  3. NSight Compute 用户手册(上)

    NSight Compute 用户手册(上) 非交互式配置文件活动 从NVIDIA Nsight Compute启动目标应用程序 启动NVIDIA Nsight Compute时,将出现欢迎页面.单击 ...

  4. 如何使用Nsight Compute?

    如何使用Nsight Compute? 下图command Line Argunments是指训练或测试命令,Linux下直接用测试或训练命令

  5. 用NVIDIA NsightcComputeRoofline分析加速高性能HPC的应用

    用NVIDIA NsightcComputeRoofline分析加速高性能HPC的应用 编写高性能的软件不是一件简单的任务.当有了可以编译和运行的代码之后,当您尝试并理解它在可用硬件上的执行情况时,将 ...

  6. CUDA 11功能清单

    CUDA 11功能清单 基于NVIDIA Ampere GPU架构的新型NVIDIA A100 GPU在加速计算方面实现了最大的飞跃.A100 GPU具有革命性的硬件功能,CUDA 11与A100一起 ...

  7. CUDA 11功能展示

    CUDA 11功能展示 CUDA 11 Features Revealed 新的NVIDIA A100 GPU基于NVIDIA安培GPU架构,实现了加速计算的最大一代飞跃.A100 GPU具有革命性的 ...

  8. 构建可扩展的GPU加速应用程序(NVIDIA HPC)

    构建可扩展的GPU加速应用程序(NVIDIA HPC) 研究人员.科学家和开发人员正在通过加速NVIDIA GPU上的高性能计算(HPC)应用来推进科学发展,NVIDIA GPU具有处理当今最具挑战性 ...

  9. Oracle_高级功能(2) 索引

    1.oracle优化器 优化目标分为4种: choose (选择性) rule (基于规则) first rows(第一行) all rows(所有行) Description:描述sql的执行计划 ...

随机推荐

  1. hdu4814 模拟(黄金分割进制转换)

    题意:       给你一个十进制数,让你把他转化成Q进制数,Q是黄金分割比 = (1+√5)/2. 思路:        首先要明确的就是虽然q是实数,但是依然可以转换成q进制数,因为任何数num, ...

  2. Android木马病毒com.schemedroid的分析报告

    某安全公司移动病毒分析报告的面试题目,该病毒样本的代码量比较大,最大的分析障碍是该病毒样本的类名称和类方法名称以及类成员变量的名称被混淆为无法辨认的特殊字符,每个被分析的类中所有的字符串都被加密处理了 ...

  3. Linux文件共享服务之Vsftp

    目录 FTP Vsftp服务的搭建 ftp.sftp.vsftp.vsftpd的区别 FTP FTP的工作原理: FTP会话时包含了两个通道,一个叫控制通道,一个叫数据通道.控制通道是和FTP服务器进 ...

  4. Windows bat批处理删除指定N天前的文件

    1:新建批处理文件:del_old_file.bat,更改系统时间为7天前,在c盘sql back 目录下新建测试文件,再将系统时间改为正确时间 2:编辑内容: rem 删除C:\sql back目录 ...

  5. Python JWT 介绍

    Python JWT 介绍 目录 Python JWT 介绍 1. JWT 介绍 2. JWT 创建 token 2.1 JWT 生成原理 2.2 JWT 校验 token 原理 3. 代码实现 4. ...

  6. 简单聊聊VisualStudio的断点调试

    这节聊聊如何使用VisualStudio进行断点调试. 在debug过程中,我们有时需要查看程序在运行到某一行代码时,上下文中的变量或者一些其他的数据是什么样的,我们就要设置断点(Breakpoint ...

  7. IntelliJ IDEA 老司机,还没用过 Stream Trace 功能?

    前言 自从 Java 8 开始,作为程序员的我们都离不开 Stream 相关功能的使用,书写起来那叫一个流畅(这个 feel--).但总是有一些时候,我们对 stream 的操作所要的结果和预期不符, ...

  8. C++ primer plus读书笔记——第8章 函数探幽

    第8章 函数探幽 1. 对于内联函数,编译器将使用相应的函数代码替换函数调用,程序无需跳到一个位置执行代码,再调回来.因此,内联函数的运行速度比常规函数稍快,但代价是需要占用更多内存. 2. 要使用内 ...

  9. PostgreSQL条件表达式

      条件表达式在日常工作中很多场景都会用到,比如某个字段为空,取另外一个字段:某个值大于多少,取什么字段,小于多少取什么字段等等.那么下面来简单的学习下PostgreSQL有那些条件表达式. 1.CA ...

  10. Linux中169.254.0.0/24的路由来自哪里

    在Linux中,发现每次系统启动时,都会将(169.254.0.0/16)路由启动并将其添加到路由表中.但是并不知道这条路由具有什么功能和它到底来自于哪里? [root@master01 ~]# ro ...