profiler报告包含每次内核启动分析期间收集的所有信息。在用户界面中,它包含一个包含常规信息的标题,以及用于在报告页面或单个收集的启动之间切换的控件。默认情况下,报告以选定的详细信息页面开始。

页眉

页面下拉列表可用于在可用报告页面之间切换,下一节将对此进行详细说明。

探查器报告标头

Launch下拉列表可用于在所有收集的内核启动之间切换。每个页面中显示的信息通常表示选定的启动实例。在某些页面(例如Raw),显示所有启动的信息,并突出显示所选实例。您可以输入这个下拉列表来快速过滤并找到一个内核启动。

应用过滤器按钮打开过滤器对话框。可以使用多个筛选器缩小结果范围。在“过滤器”对话框中,输入过滤器参数并按“确定”按钮。将相应地过滤“启动”下拉列表。选择箭头下拉菜单以访问“清除过滤器”按钮,该按钮将删除所有过滤器。

过滤器对话框

“添加基线”按钮可将焦点中的当前结果提升为此报告中所有其他结果的基线,以及在同一个NVIDIA Nsight Compute实例中打开的任何其他报告的基线。选择箭头下拉列表以访问“清除基线”按钮,该按钮将删除所有当前活动的基线。

“应用规则”按钮应用此报表的所有可用规则。如果以前应用过规则,这些结果将被替换。默认情况下,一旦分析了内核启动过程,就会立即应用规则。这可以在“工具”>“选项”>“配置文件”>“报表UI”>“自动应用适用规则”下的选项中进行更改。

右侧的按钮提供了可以在页面上执行的多个操作。可用操作包括:

复制为图像-将页面内容作为图像复制到剪贴板。

另存为图像-将页面内容作为图像保存到文件中。

另存为PDF-将页面内容以PDF格式保存到文件中。

导出到CSV-将页面内容导出为CSV格式。

重置为默认值-通过删除任何保留的设置将页面重置为默认状态。

请注意,并非所有的功能都在所有页面上可用。

关于所选内核的信息显示为当前的。[+]和[-]按钮可用于显示或隐藏节正文内容。信息切换按钮i改变了章节描述的可见性。

报告页数

使用页眉中的Page下拉菜单在报表页之间切换。

会话页面

此会话页包含有关报告和计算机的基本信息,以及为其分析启动的所有设备的设备属性。在启动实例之间切换时,将突出显示相应的设备属性。

摘要页

摘要页面显示此报告中收集的所有结果的列表,以及选定的重要摘要度量。它为您提供了一个快速的比较概述,涵盖了所有已分析的内核启动。您可以使用“转置”按钮来转置内核和度量表。

详细信息页

Details页面是内核启动期间收集的所有度量数据的主页面。页面被分成单独的部分。每个部分由一个标题表和一个可选的可扩展正文组成。这些部分完全是用户定义的,可以通过更新它们各自的文件轻松地进行更改。有关自定义节的详细信息,请参见《自定义手册》。有关NVIDIA Nsight Compute附带的部分列表,请参阅《内核评测指南》。

默认情况下,收集到新的概要文件结果后,将应用所有适用的规则。任何规则结果都将在此页面上显示为建议。大多数规则结果都是纯信息性的,或者有一个警告图标来指示某些性能问题。带有错误图标的结果通常表示应用规则时出错。

规则结果通常指出性能问题并指导整个分析过程。

如果启用,SOL Rooflines部分包含一个Roofline图表,它对于直观地显示内核性能特别有用。(要在报告中启用roofline图表,请确保在分析时选择了GPU Speed of Light roofline Chart部分。)有关如何使用和读取此图表的更多信息,请参阅Kernel profiling Guide。

屋顶线图样本。

可以使用下表中的控件缩放和平移屋顶线图表,以便进行更有效的数据分析。

表1屋顶线图表缩放和平移控件

如果启用,内存工作负载分析部分将包含一个内存图表,用于可视化数据传输、缓存命中率、指令和内存请求。关于如何使用和阅读这个图表的更多信息可以在内核评测指南中找到。

源计数器等部分可以包含源热点表。这些表显示了内核源代码中一个或多个度量的N个最高或最低值。选择位置链接以在源页面中直接导航到此位置。将鼠标悬停在某个值上,以查看哪些度量对该值起作用。

热点表指出源代码中的性能问题。

Nsight Compute Profilier 分析的更多相关文章

  1. NSight Compute 用户手册(下)

    主菜单 文件 新建项目使用"新建项目"对话框创建新的分析项目 4. Main Menu and Toolbar Information on the main menu and t ...

  2. NSight Compute 用户手册(中)

    NSight Compute 用户手册(中) NVIDIA Nsight Compute支持密码和私钥身份验证方法.在此对话框中,选择身份验证方法并输入以下信息: 密码 IP/主机名:目标设备的IP地 ...

  3. NSight Compute 用户手册(上)

    NSight Compute 用户手册(上) 非交互式配置文件活动 从NVIDIA Nsight Compute启动目标应用程序 启动NVIDIA Nsight Compute时,将出现欢迎页面.单击 ...

  4. 如何使用Nsight Compute?

    如何使用Nsight Compute? 下图command Line Argunments是指训练或测试命令,Linux下直接用测试或训练命令

  5. 用NVIDIA NsightcComputeRoofline分析加速高性能HPC的应用

    用NVIDIA NsightcComputeRoofline分析加速高性能HPC的应用 编写高性能的软件不是一件简单的任务.当有了可以编译和运行的代码之后,当您尝试并理解它在可用硬件上的执行情况时,将 ...

  6. CUDA 11功能清单

    CUDA 11功能清单 基于NVIDIA Ampere GPU架构的新型NVIDIA A100 GPU在加速计算方面实现了最大的飞跃.A100 GPU具有革命性的硬件功能,CUDA 11与A100一起 ...

  7. CUDA 11功能展示

    CUDA 11功能展示 CUDA 11 Features Revealed 新的NVIDIA A100 GPU基于NVIDIA安培GPU架构,实现了加速计算的最大一代飞跃.A100 GPU具有革命性的 ...

  8. 构建可扩展的GPU加速应用程序(NVIDIA HPC)

    构建可扩展的GPU加速应用程序(NVIDIA HPC) 研究人员.科学家和开发人员正在通过加速NVIDIA GPU上的高性能计算(HPC)应用来推进科学发展,NVIDIA GPU具有处理当今最具挑战性 ...

  9. Oracle_高级功能(2) 索引

    1.oracle优化器 优化目标分为4种: choose (选择性) rule (基于规则) first rows(第一行) all rows(所有行) Description:描述sql的执行计划 ...

随机推荐

  1. hdu4861 找规律了

    题意:      给你k个球和一个整数p,每个球的价值是 1^i+2^i+...+(p-1)^i (mod p),两个人轮流取球,最后谁的总价值也大谁就赢,问你先手能不能赢. 思路:      一开始 ...

  2. POJ2186 强联通

    题意:       有一群老牛,给你一些关系,a b表示牛a仰慕牛b,最后问你有多少个牛是被所有牛仰慕的. 思路:       假如这些仰慕关系不会出现环,那么当且仅当只有一只牛的出度为0的时候答案才 ...

  3. Python爬虫之使用正则表达式抓取数据

    目录 匹配标签 匹配title标签 a标签 table标签 匹配标签里面的属性 匹配a标签里面的URL 匹配img标签里的 src 相关文章:Linux中的正则表达式 Python中的正则表达式 实例 ...

  4. POJ2771最大独立集元素个数

    题意:       女生和男生之间只要满足四个条件中的一个,那么两个人就不会在一起!然后给出一些男生和女生,问最多多少人一起做活动彼此不会产生暧昧关系. 思路:       这样的问题还是比较裸的问法 ...

  5. upload

    File saveDir=new File("D:/Test/UPLOAD"); if(!saveDir.isDirectory()){ saveDir.mkdirs(); } F ...

  6. Jmeter软件安装之Mac

    Jmeter软件安装之Mac 一.环境准备 安装JDK 下载Jmeter 二.下载Jmeter 下载地址: http://jmeter.apache.org/download_jmeter.cgi,下 ...

  7. 射线与空间内三角形的相交检测算法(Möller-Trumbore)的推导与实践

    背景介绍(学习算法之前需要先了解) 射线与空间内三角形的相交检测是游戏程序设计中一个常见的问题,最典型的应用就是拾取(Picking),本文介绍一个最常见的方法,这个方法也是DirectX中采用的方法 ...

  8. Summer——从头开始写一个简易的Spring框架

    Summer--从头开始写一个简易的Spring框架                ​ 参考Spring框架实现一个简易类似的Java框架.计划陆续实现IOC.AOP.以及数据访问模块和事务控制模块. ...

  9. MySQL中使用Show Profile

    Show profile 默认是禁用的,用处是记录在服务器中运行的查询耗费的时间和其他一些查询执行状态变更相关的数据. 当前系统是win10,Mysql版本是8.0.15 1.查看当前profilin ...

  10. [PTA]7-3 逆序的三位数 (10分)

    要求: 程序每次读入一个正3位数,然后输出按位逆序的数字.注意:当输入的数字含有结尾的0时,输出不应带有前导的0.比如输入700,输出应该是7. 正确思路: 拆分字符串后拼接成整数 1 #includ ...