[转帖]perf学习-linux自带性能分析工具

目前在做性能分析的事情，之前没怎么接触perf，找了几篇文章梳理了一下，按照问题的形式记录在这里。

方便自己查看。

什么是perf?

linux性能调优工具，32内核以上自带的工具，软件性能分析。在2.6.31及后续版本的Linux内核里，安装perf非常的容易。

几乎能够处理所有与性能相关的事件。

什么是性能事件？

指在处理器或者操作系统中发生，可能影响到程序性能的硬件事件或者软件事情。

主要关注点在哪里？

算法优化（空间复杂度、时间复杂度）、代码优化（提到执行速度、减少内存占用）

评估程序对硬件资源的使用情况，例如各级cache的访问次数，各级cache的丢失次数、流水线停顿周期、前端总线访问次数等。

评估程序对操作系统资源的使用情况，系统调用次数、上下文切换次数、任务迁移次数。

基本原理？

硬件的话采用PMC（performance monitoring unit）CPU的部件，在特定的条件下探测的性能事件是否发生以及发生的次数。

软件性能测试，内置于kernel，分布在各个功能模块中，统计和操作系统相关性能事件。

如何使用高精度的采样？

如果需要采用高精度的采样，需要在制定性能事情时，在事件后添加后缀“：p”或者“:pp”

0：无精度保证

1：采样指令好触发性能时间的指令偏差为常数（:p）

2：尽量保证偏差为0（:pp）

3：保证偏差必须为0(:ppp)

有哪些常用的命令？

1、perf list 列出所有能够触发perf采样点的事件（当前硬件环境支持的性能事件）

总体分为三类hardware（硬件产生）、software（内核软件产生）、tradepoint（内核中静态tracepoint触发事件）。

List of pre-defined events (to be used in -e):

  cpu-cycles OR cycles                               [Hardware event]处理器周期事件

  stalled-cycles-frontend OR idle-cycles-frontend    [Hardware event]

  stalled-cycles-backend OR idle-cycles-backend      [Hardware event]

  instructions                                       [Hardware event]

  cache-references                                   [Hardware event]

  cache-misses                                       [Hardware event]

  branch-instructions OR branches                    [Hardware event]

  branch-misses                                      [Hardware event]

  bus-cycles                                         [Hardware event]

cpu-clock                                          [Software event]


task-clock                                         [Software event]


page-faults OR faults                              [Software event]


minor-faults                                       [Software event]


major-faults                                       [Software event]


context-switches OR cs                             [Software event]


cpu-migrations OR migrations                       [Software event]


alignment-faults                                   [Software event]


emulation-faults                                   [Software event]



L1-dcache-loads                                    [Hardware cache event]


L1-dcache-load-misses                              [Hardware cache event]


L1-dcache-stores                                   [Hardware cache event]


L1-dcache-store-misses                             [Hardware cache event]


L1-dcache-prefetches                               [Hardware cache event]


L1-dcache-prefetch-misses                          [Hardware cache event]


L1-icache-loads                                    [Hardware cache event]


L1-icache-load-misses                              [Hardware cache event]


L1-icache-prefetches                               [Hardware cache event]


L1-icache-prefetch-misses                          [Hardware cache event]


LLC-loads                                          [Hardware cache event]


LLC-load-misses                                    [Hardware cache event]


LLC-stores                                         [Hardware cache event]


LLC-store-misses                                   [Hardware cache event]


LLC-prefetches                                     [Hardware cache event]


LLC-prefetch-misses                                [Hardware cache event]


dTLB-loads                                         [Hardware cache event]


dTLB-load-misses                                   [Hardware cache event]


dTLB-stores                                        [Hardware cache event]


dTLB-store-misses                                  [Hardware cache event]


dTLB-prefetches                                    [Hardware cache event]


dTLB-prefetch-misses                               [Hardware cache event]


iTLB-loads                                         [Hardware cache event]


iTLB-load-misses                                   [Hardware cache event]


branch-loads                                       [Hardware cache event]


branch-load-misses                                 [Hardware cache event]

2、perf stat分析程序的整体性能

利用10个典型事件剖析了应用程序。

task-clock：目标任务真真占用处理器的时间，单位是毫秒，我们称之为任务执行时间，

后面是任务的处理器占用率（执行时间和持续时间的比值）

持续时间值从任务提交到任务结束的总时间（总时间在stat结束之后会打印出来）。
context-switches：上下文切换次数，前半部分是切换次数，后面是平均每秒发生次数（M是10的6次方）。
cpu-migrations：处理器迁移，linux为了位置各个处理器的负载均衡，

会在特定的条件下将某个任务从一个处理器迁往另外一个处理器，此时便是发生了一次处理器迁移。
page-fault：缺页异常，linux内存管理子系统采用了分页机制，

当应用程序请求的页面尚未建立、请求的页面不在内存中或者请求的页面虽在在内存中，

但是尚未建立物理地址和虚拟地址的映射关系是，会触发一次缺页异常。
cycles：任务消耗的处理器周期数
instructions：任务执行期间产生的处理器指令数，IPC（instructions perf cycle）

IPC是评价处理器与应用程序性能的重要指标。（很多指令需要多个处理周期才能执行完毕），

IPC越大越好，说明程序充分利用了处理器的特征。
branches：程序在执行期间遇到的分支指令数。
branch-misses：预测错误的分支指令数
cache-misses：cache时效的次数
cache-references：cache的命中次数

常用的参数如下

-e,指定性能事件

-p,指定分析进程的PID

-t,指定待分析线程的TID

-r N，连续分析N次

-d,全面性能分析,采用更多的性能事件

一次分析后的结果如下:

Performance counter stats for process id '21787':
 <span class="hljs-number">42677.253367</span> task-clock                #    <span class="hljs-number">0.142</span> CPUs utilized

      <span class="hljs-number">587,906</span> context-switches          #    <span class="hljs-number">0.014</span> M<span class="hljs-operator">/</span>sec

       <span class="hljs-number">29,209</span> CPU-migrations            #    <span class="hljs-number">0.001</span> M<span class="hljs-operator">/</span>sec

          <span class="hljs-number">117</span> page-faults               #    <span class="hljs-number">0.000</span> M<span class="hljs-operator">/</span>sec


82,341,400,508 cycles                    #    1.929 GHz                     [83.48%]


61,262,984,952 stalled-cycles-frontend   #   74.40% frontend cycles idle    [83.28%]


43,113,701,768 stalled-cycles-backend    #   52.36% backend  cycles idle    [66.72%]


44,023,301,495 instructions              #    0.53  insns per cycle


#    1.39  stalled cycles per insn [83.50%]


8,137,448,528 branches                  #  190.674 M/sec                   [83.22%]


430,957,756 branch-misses             #    5.30% of all branches         [83.34%]
<span class="hljs-number">300.393753095</span> seconds <span class="hljs-keyword">time</span> elapsed</code><div class="hide-preCode-box"><span class="hide-preCode-bt"><img class="look-more-preCode contentImg-no-view" src="https://csdnimg.cn/release/blogv2/dist/pc/img/newCodeMoreWhite.png" alt="" title=""></span></div></pre>


3、perf top实时显示系统/进程的性能统计信息
默认性能事件“cycles CPU周期数”进行全系统的性能剖析
常见的参数如下：
-p：指定进程PID

-t：指定线程的TID

-a：分析整个系统的性能（默认）

-d：界面刷新周期，默认是2秒
结果输出中，比例是该符号引发的性能时间在整个监测域中占的比例，通常称为热度。
samples  pcnt function                                                                               DSO

_______ _____ ______________________________________________________________________________________ _________



61.00 19.4% nativewritemsr_safe                                                                  [kernel]


18.00  5.7% JVM_InternString                                                                       libjvm.so


17.00  5.4% find_busiestgroup                                                                     [kernel]


17.00  5.4% spinlock                                                                             [kernel]


12.00  3.8% dev_hardstartxmit                                                                    [kernel]


11.00  3.5% tg_loaddown                                                                           [kernel]


9.00  2.9% futex_wake                                                                             [kernel]


8.00  2.5% do_futex                                                                               [kernel]


7.00  2.2% load_balance_fair                                                                      [kernel]


7.00  2.2% weighted_cpuload                                                                       [kernel]


7.00  2.2% update_cfs_shares                                                                      [kernel]


7.00  2.2% JVM_LatestUserDefinedLoader                                                            libjvm.so


6.00  1.9% update_cfs_load                                                                        [kernel]


5.00  1.6% ZN16SystemDictionary30resolve_instanceclass_or_nullE12symbolHandle6HandleS1_P6Thread libjvm.so


5.00  1.6% br_sysfs_delbr                                                                         [bridge]


5.00  1.6% futex_wait 


4、perf  record/report记录一段时间内系统/进程的性能事件
默认在当前目录下生成数据文件：perf.data
report读取生成的perf.data文件，-i参数指定路径
了解perf，是性能分析的开始。
http://www.ibm.com/developerworks/cn/linux/l-cn-perf1/




文章知识点与官方知识档案匹配，可进一步学习相关知识

CS入门技能树Linux入门初识Linux32536 人正在系统学习中

[转帖]perf学习-linux自带性能分析工具的更多相关文章

perf学习-linux自带性能分析工具
目前在做性能分析的事情,之前没怎么接触perf,找了几篇文章梳理了一下,按照问题的形式记录在这里. 方便自己查看. 什么是perf? linux性能调优工具,32内核以上自带的工具,软件性能分析. ...
[转]Linux性能分析工具汇总合集
出于对Linux操作系统的兴趣,以及对底层知识的强烈欲望,因此整理了这篇文章.本文也可以作为检验基础知识的指标,另外文章涵盖了一个系统的方方面面.如果没有完善的计算机系统知识,网络知识和操作系统知识, ...
超全整理！Linux性能分析工具汇总合集
转自:http://rdc.hundsun.com/portal/article/731.html?ref=myread 出于对Linux操作系统的兴趣,以及对底层知识的强烈欲望,因此整理了这篇文章. ...
(转)超全整理！Linux性能分析工具汇总合集
超全整理!Linux性能分析工具汇总合集原文:http://rdc.hundsun.com/portal/article/731.html 出于对Linux操作系统的兴趣,以及对底层知识的强烈欲望, ...
Linux 性能分析工具命令
背景知识:具备背景知识是分析性能问题时需要了解的.比如硬件 cache:再比如操作系统内核.应用程序的行为细节往往是和这些东西互相牵扯的,这些底层的东西会以意想不到的方式影响应用程序的性能,比如某些程 ...
系统级性能分析工具perf的介绍与使用
测试环境:Ubuntu16.04(在VMWare虚拟机使用perf top存在无法显示问题) Kernel:3.13.0-32 系统级性能优化通常包括两个阶段:性能剖析(performance pro ...
Linux 性能分析工具汇总合集
出于对Linux操作系统的兴趣,以及对底层知识的强烈欲望,因此整理了这篇文章.本文也可以作为检验基础知识的指标,另外文章涵盖了一个系统的方方面面.如果没有完善的计算机系统知识,网络知识和操作系统知识, ...
perf性能分析工具使用分享
@ 目录前言 perf的介绍和安装 perf基本使用 perf list使用,可以列出所有的采样事件 perf stat 概览程序的运行情况 perf top实时显示当前系统的性能统计信息 perf ...
系统级性能分析工具 — Perf
从2.6.31内核开始,linux内核自带了一个性能分析工具perf,能够进行函数级与指令级的热点查找. perf Performance analysis tools for Linux. Perf ...
系统级性能分析工具perf的介绍与使用[转]
测试环境:Ubuntu16.04(在VMWare虚拟机使用perf top存在无法显示问题) Kernel:3.13.0-32 系统级性能优化通常包括两个阶段:性能剖析(performance pro ...

随机推荐

Blazor入门100天 : 身份验证和授权之 OpenID 与 OAuth2
目录: OpenID 与 OAuth2 基础知识 Blazor wasm Gitee 码云登录 Blazor wasm GitHub 登录 Blazor wasm Google 登录 Blazor w ...
防火墙添加允许服务器IP和端口方法
一.检测防火墙命令 systemctl status firewalld 如果显示如下active表示防火墙开启 ● firewalld.service - firewalld - dynamic f ...
bazel 使用 gtest/gmock 报错 Constraints from @bazel_tools//platforms have been removed
问题描述运行 bazel test 命令,遇到错误:"Constraints from @bazel_tools//platforms have been removed. Please ...
窗口到底有多滑动？揭秘TCP/IP滑动窗口的工作原理
本文分享自华为云社区<窗口到底有多滑动?揭秘TCP/IP滑动窗口的工作原理>,作者: Lion Long. 当涉及网络性能优化和数据传输可靠性时,TCP/IP滑动窗口是一个关键的技术.本文 ...
提升软件质量？为什么不试试华为云CodeArts Check
摘要:华为云CodeArts Check代码检查服务为用户提供包括代码风格.通用质量与代码安全风险等在内的检查能力,同时提供问题闭环处理.检查报告等功能,从而一站式完成代码检查作业. 本文分享自华为云 ...
Axure 变量、属性、函数
局部变量使用场景非常多; 需要先创建; 只能作用于当前事件; 命名需要注意,只能英文+数字; 全局变量需要先创建; 可以作用于整个文档,在任意页面调用或使用中继器的 Item 属性 item:获 ...
PPT 商务PPT 如何展示你的产品
PPT 商务PPT 如何展示你的产品如何优雅的展示产品如何展示互联网产品直接产品截图,比较生硬,简单粗暴使用场景+样机放一个电脑或手机的外壳如何展示产品如何展示现实中的产品多角度剪裁 ...
Buffer 缓冲区操作
1.缓冲区分片在 NIO 中,除了可以分配或者包装一个缓冲区对象外,还可以根据现有的缓冲区对象来创建一个子缓冲区,即在现有缓冲区上切出一片来作为一个新的缓冲区,但现有的缓冲区与创建的子缓冲区在底层数组 ...
& 0xFF 作用取低8位
& 0xFF 取低8位 @Test void byteTest() { byte hex1 = (byte) 127; byte hex2 = (byte) 383; byte hex3 = ...
Xml Entity 实体互转（XStream）
http://x-stream.github.io/tutorial.html 项目中用了 JAXB 方式 Xml Entity 实体互转(JAXB) 实体: import com.thoughtwo ...

[转帖]perf学习-linux自带性能分析工具

[转帖]perf学习-linux自带性能分析工具的更多相关文章

随机推荐

热门专题