Ruby 和 Python 分析器是如何工作的?
你好! 我作为一名编写Ruby profiler的先驱,我想对现有的Ruby和Python profiler如何工作进行一次调查。 这也有助于回答很多人的问题:“你怎么写一个profiler?”
在这篇文章中,我们只关注CPUprofiler(而不是内存/堆profiler)。 我将解释一些编写profiler的一般基本方法,给出一些代码示例,以及大量流行的Ruby和Pythonprofiler的例子,并告诉你它们是如何工作的。
在这篇文章中可能会有一些错误(为了研究这篇文章,我阅读了14个不同的分析库的代码部分),请让我们开始吧!
2种不同的profilers
有两种基本CPU profilers类型 – sampling profilers和tracing profilers。
tracingprofilers记录您的程序所调用的每个函数,然后在最后打印出报告。 samplingprofilers采用更加统计化的方法 – 他们每隔几毫秒记录程序的堆栈情况,然后报告结果。
使用sampling profilers而不是tracing profilers的主要原因是sampling profilers的开销较低。 如果每秒只抽取20或200个样本,那不会花费多少时间。 而且它们非常有效率 – 如果您遇到严重的性能问题(比如80%的时间花费在1个慢速函数上),那么每秒200个样本通常就足以确定那个函数的问题所在了!
分析器
下边类出了我们这篇文章要讨论的分析器(来源)。我之后将会解释表格中的术语(setitimer, rb_add_event_hook, ptrace)。这里最有趣的是,所有的分析器都是通过一小部分函数的特性实现的。
python分析器
Name | Kind | How it works |
---|---|---|
cProfile | Tracing | PyEval_SetProfile |
line_profiler | Tracing | PyEval_SetTrace |
pyflame (blog post) | Sampling | ptrace + custom timing |
stacksampler | Sampling | setitimer |
statprof | Sampling | setitimer |
vmprof | Sampling | setitimer |
pyinstrument | Sampling | PyEval_SetProfile |
gprof (greenlet) | Tracing | greenlet.settrace |
python-flamegraph | Sampling | profiling thread + custom timing |
gdb hacks | Sampling | ptrace |
“gbd hacks”并不完全是一个Python分析器:它是一个讲述如何实现用脚本包装gdb来实现hacky分析器的链接。由于新版本的gdb事实上会展开Python堆栈,所以也是和Python有关的。一种简化版的pyflame。
Ruby分析器
Name | Kind | How it works |
---|---|---|
stackprof by tmm1 | Sampling | setitimer |
perftools.rb by tmm1 | Sampling | setitimer |
rblineprof by tmm1 | Tracing | rb_add_event_hook |
ruby-prof | Tracing | rb_add_event_hook |
flamegraph | Sampling | stackprof gem |
这些分析器中几乎所有的都存在你的进程里面。
在我们开始详细分析这些分析器之前,有一个非常重要的事情需要说明一下:除fyflame外所有的分析器都运行在你的Python/Ruby进程里面。如果你在一个Python/Ruby程序里面,你通常可以很容易的获取该程序的堆栈。例如下边代码中的简单的Python程序答应出每一个运行线程的堆栈:
import sys
import traceback
def bar():
foo()
def foo():
for _, frame in sys._current_frames().items():
for line in traceback.extract_stack(frame):
print line
bar()
你可以从下边的输出里面看到堆栈的函数名,行号,文件名等你在做分析的时候需要的所有信息。
('test2.py', 12, '<module>', 'bar()')
('test2.py', 5, 'bar', 'foo()')
('test2.py', 9, 'foo', 'for line in traceback.extract_stack(frame):')
在Ruby程序中,获取堆栈也很容易:你只需要通过caoller来获取堆栈。
这些分析器处于性能考虑都是C扩展所有它们有一点不一样,但是Ruby/Python程序的C扩展也可以很容易的获取调用堆栈。
追踪分析器是如何工作的
我调查过上边表格中所有的追踪分析器:rblineprof、ruby-prof和cProfile。它们工作原理基本相同。它们都记录所有的函数调用并且用C语言编写来降低耗时。
它们是如何工作的呢?Ruby和Python都允许指定一个回调函数,当各种解释事件(例如调用一个函数或者执行一行代码)发生的时候调用。当回调函数被调用的时候,会记录堆栈供以后分析。
我认为确切了解在代码中哪里设置这些回调函数是很有用的,所以我连接了所有在github上边的相关代码。
在Python中,可以通过PyEval_SetTrace或者 PyEval_SetProfile设置回调函数。在Python官方文档的分析和追踪里有说明。文档中说道:除了追踪函数会收到line-number事件外“PyEval_SetTrace和PyEval_SetProfile一样。
代码:
line_profiler 使用PyEval_SetTrace设置回调:看line_profiler.pyx的157行
cProfiles 使用PyEval_SetProfile设置回调:看_lsprof.c的693行(cProfile是用Isprof实现的)
在Ruby里,你可以用rb_add_event_hook来设置回调,我找不到任何关于此处是如何调用的文档
rb_add_event_hook(prof_event_hook,
RUBY_EVENT_CALL | RUBY_EVENT_RETURN |
RUBY_EVENT_C_CALL | RUBY_EVENT_C_RETURN |
RUBY_EVENT_LINE, self);
prof_event_hook的类型是
static void
prof_event_hook(rb_event_flag_t event, VALUE data, VALUE self, ID mid, VALUE klass)
这看起来像极了Python的PyEval_SetTrace,但是比Python更灵活——您可以选择你关注的事件类型(就像“函数调用”一样)。
代码:
ruby-prof 调用rb_add_event在:ruby-prof.c line 329
rblineprof调用rb_add_event_hook在:rblineprof.c line 649
追踪分析器的缺点
追踪分析器的主要的缺点是它的实现方式是对于每个函数/行代码都执行固定的次数,这样可能使你做出错误的决定。例如,如果你有某个事物的两个实现:一个通过大量的函数调用实现,另一个没有大量函数调用,两个实现耗时相同,有大量函数调用的相比没有大量函数调用的在分析的时候会变得慢。
为了测试这一点,我做了一个包含下边内容的小文件test.py,并且比较了python -mcProfile test.py和python test.py的耗时。python test.py执行需要大约0.6秒,python -mcProfile test.py执行需要大约1秒。对于这个特定的例子cProfile引入了额外的大约60%的开销。
def recur(n):
if n == 0:
return
recur(n-1)
for i in range(5000):
recur(700)
cProfile文档中说:
Python的解释语言的特性往往会增加执行的开销,对于典型的应用确定性分析仅仅会增加很少运行开销。
这似乎是一个合理的说法:上边的示例(执行350万次函数调用)显然不是个典型的Python程序,并且几乎任何其他程序开销都比该示例小。
我没有测试ruby-prof(一个ruby追踪分析器)的开销,但是它的README说:
大多数程序开分析器耗时将会是原来的两倍,并且高度递归程序(斐波那契数列)耗时将会是原来的三倍。
采样分析器都怎么工作的:setitimer
现在讨论第二种分析器:采样分析器。
大多数Ruby和Python的采样分析器都是通过系统调用setitimer实现的。这是怎么回事呢?
好吧,比方说你想要每秒获取一个程序的堆栈50次,一种方法是:
请求Linux内核每20毫秒给你发送一个信号(使用系统调用setitimer)
注册一个信号处理器在每次获得信号的时候记录堆栈。
当结束分析的时候,请求Linux停止发送信号并且打印输出。
如果你想要看一个实际的用setitimer实现采样分析器的例子的话,我认为stacksampler.py是一个最好的例子,stacksampler.py是一个有用的有效的分析器并且代码只有大约100行,好酷啊!
stacksampler.py只有100多行的一个原因是:当你把一个Python函数注册成信号处理器的时候,该函数被传送到你的Python程序的当前堆栈中。所以stacksampler.py信号处理器注册是非常简单的:
def _sample(self, signum, frame):
stack = []
while frame is not None:
stack.append(self._format_frame(frame))
frame = frame.f_back
stack = ';'.join(reversed(stack))
self._stack_counts[stack] += 1
它只是将堆栈从堆栈帧中取出来并且增加堆栈查看计数,非常简单!非常酷!
我们看继续剩下的使用setitimer的分析器并找到它们调用settimer的代码:
stackprof (Ruby): in stackprof.c line 118
perftools.rb (Ruby): in this patch which seems to be applied when the gem is compiled (?)
stacksampler (Python): stacksampler.py line 51
statprof (Python): statprof.py line 239
vmprof (Python): vmprof_unix.c line 294
关于setitimer很重要的一点是,你需要决定如何计算时间。你想要真正的20 ms的“挂钟”时间?你想要20 ms的用户CPU时间?或者20 ms的用户+系统CPU时间?如果你仔细看电话网站上的内容,你就会发现,这些分析器实际上对setitimer做出了不同的选择 — 有时候它是可配置的,有时候却不可。setitimer手册页十分精悍,并且值得去读懂上面所有的观点。
@mgedmin 在推特上指出了一个使用setitimer时出现的有趣的问题,这个问题和这个问题拥有的一系列更多细节。
一个有趣的基于setitimer分析器的问题就是定时器产生的信号!信号有时候能中断系统调用!系统调用有时候需要几毫秒!如果测试太平凡,你会让你的程序永远循环执行系统调用!
不使用setitimer的采样分析器
有些采样分析器不使用setitimer:
pyinstrument使用PyEval_SetProfile(所以它在某种程度上是跟踪分析器),但是当它的跟踪回调函数被调用时,它并不总是收集堆栈样本。下面是选择何时测试堆栈跟踪的代码。更多信息,请看这篇博客文章。 (真相: setitimer带你了解Python中的主线程)
pyflame简要介绍了Python代码在外部调用ptracesystem的过程。根本上来讲,它只是一个抓取样本,睡眠,重复的循环,这里是sleep调用。
python-flamegraph以类似的方式在你的Python操作中开启一个新的线程并且抓取堆栈跟踪,睡眠,和重复。这里是sleep调用。
所有这3个分析器使用挂钟定时采样。
pyflame 博客
有很多关于pyflame是如何工作的。我不打算在这里进行介绍,但是Evan Klitke写了很多关于它的非常好的博客:
Pyflame:超级工程的Ptracing的Python分析器来介绍pyflame
Pyflame双解析器模式关于如何同时支持Python2和Python3
意想不到的python ABI变动增加了Python3.6的支持
释放多线程Python堆栈
Pyflame打包
在Python中一个关于ptrace+syscalls的有趣的问题
使用ptrace的乐趣和好处,ptrace(续)
还有很多在 https://eklitzke.org/。所有有趣的东西,我会更详细地阅读——也许ptrace是比实现一个Ruby分析器process_vm_readv更好的方法!(process_vm_readv开销低,因为它不会阻断进程,但它也可以给你一个不一致的快照,因为它不会阻断进程:))
有需要教程或是自学的小伙伴 可以私我756576218
Ruby 和 Python 分析器是如何工作的?的更多相关文章
- 新版PHP 7效能實測:Drupal 7能快70%,碎形計算大勝Ruby和Python
PHP 7才剛在12月3日正式釋出,網頁開發框架Zend公司立刻發表了一份PHP新舊版效能大車拼報告,除了PHP 7和PHP 5.6之外,也把HHVM 3.7版納入一起比較. Zend公司選擇了幾套知 ...
- Ruby与Python开发的环境IDE配置(附软件的百度云链接)
Ruby开发环境配置 1.Aptana_RadRails(提示功能不好,开发Ruby不推荐) 链接:http://pan.baidu.com/s/1i5q96K1 密码:yt04 2.Aptana S ...
- ruby和Python简单对比
前不久学了ruby,发现ruby和Python非常像,于是自个测试对比了下,测完了才知道网上有现成的……下面是测试结果 序列(包括列表和元组等)有分片的特点:可能会比较方便的提取其中特定元素,暂时 ...
- 让大蛇(Python)帮你找工作
前段时间用Python实现了一个网络爬虫(让大蛇(Python)帮你找工作),效率总体还可以,但是缺点就是每次都需要手动的去触发,于是打算对该爬虫加上Timer,经过网上一番搜索以及API的查询,发现 ...
- Java平台编写运行Ruby和Python
Java不仅是一门编程语言,还是一个平台,通过JRuby和Jython,我们可以在Java平台上编写和运行Ruby和Python程序.
- 学了Python可以做什么工作
学了Python可以做什么工作 用 Python 写爬虫 据我所知很多初学 Python 的人都是使用它编写爬虫程序.小到抓取一个小黄图网站,大到一个互联网公司的商业应用.通过 Python 入门爬虫 ...
- python 查看与更换工作目录
1. 进入python控制台 2. 查看工作路径,需要导入os包: import os 3. 查看工作路径的命令: os.getcwd() 4. 修改工作路径的命令: os.chdir("d ...
- Ruby. Vs . Python
前言:从语言的本质上来分析,我对Ruby持反对态度,毕竟语言是为了交流,在表达的效率层面为了正确性必须适当放弃复杂性.且有句老话说的好,Ruby In Rails 才是语言,而Ruby只是这个语言的工 ...
- 警惕!PHP、Node、Ruby 和 Python 应用,漏洞还没结束!
12 月 10 日凌晨,Apache 开源项目 Log4j2 的远程代码执行漏洞细节被公开,作为当前全球使用最广泛的 java 日志框架之一.该漏洞影响着很多全球使用量前列的开源组件,如 Apache ...
随机推荐
- mybatis源码分析(7)-----缓存Cache(一级缓存,二级缓存)
写在前面 MyBatis 提供查询缓存,用于减轻数据库压力,提高数据库性能. MyBatis缓存分为一级缓存和二级缓存. 通过对于Executor 的设计.也可以发现MyBatis的缓存机制(采用模 ...
- centos安装pcre
安装pcre前需要已安装gcc工具 1.跳转下载目录 cd install-file 2.下载pcre wget ftp://ftp.csx.cam.ac.uk/pub/software/progra ...
- UIColor和 同 CIColor 与 CGColor 之间的联系、转换
1. 利用UIColor展现 #F6F6F6 这个传统的颜色 #F6F6F6 为一个 16 进制表示的RPG颜色,所以,需要先转换成 10进制,其中 F6 - 240,F6 - 240 ,F6 - ...
- 关于JAVA_HOME, CLASSPATH和PATH的设置
http://bbs.csdn.net/topics/120079565 1.PATH,这个是给WINDOWS操作系统用的,告诉命令行里,执行的命令行工具在那里,比如java,javac这都是命令行工 ...
- APP H5页面显示优化
在开发移动端APP页面时,对各操作系统各种型号的手机进行适配是必须的.然鹅,上周在开发完一个落地页后,被测试给打了回来,其中列出了一个在我看来很小的问题:单击进入页面的时候,页面还没加载完的时候字体显 ...
- 【转】OpenCV Mat数据结构
转载自xiahouzuoxin原文 OpenCV基础篇之Mat数据结构 程序及分析 /* * FileName : MatObj.cpp * Author : xiahouzuoxin @163.co ...
- 使用WCF测试客户端 z
http://blog.csdn.net/u013036274/article/details/50570989 [是什么] WCF测试客户端(WCF Test Client)是一个用来测试WCF服务 ...
- JavaScript程序员必备的5个debug技巧
1. debugger:我以前也说过,你可以在JavaScript代码中加入一句debugger;来手工造成一个断点效果.需要带有条件的断点吗?你只需要用if语句包围它: if (somethingH ...
- ARC中的@autoreleasepool还有作用吗?
ARC中的@autoreleasepool还有作用吗? QUESTION For the most part with ARC (Automatic Reference Counting), we d ...
- (原)将Oracle迁移到SQLServer
背景:中了一个标,Oracle改成SQLServer解决办法: 1.首先想到微软的解决方案:Microsoft SQL Server Migration Assistant v7.4 for Orac ...