用profile协助程序性能优化

程序运行慢的原因有很多，比如存在太多的劣化代码（如在程序中存在大量的“.”操作符），但真正的原因往往是比较是一两段设计并不那么良好的不起眼的程序，比如对一序列元素进行自定义的类型转换等。因为程序性能影响是符合80／20法则的，即20%的代码的运行时间占用了80%的总运行时间（实际上，比例要夸张的多，通常是几十行代码占用了95%以上的运行时间），靠经验就很难找出造成性能瓶颈的代码了。这时候，我们需要一个工具——profile！最近我手上的项目也在一些关键的地方遇到了性能问题，那时已经接近项目完工日期，幸好因为平时的代码模块化程度比较高，所以通过profile分析相关的独立模块，基本上解决了性能问题。通过这件事，让我下决心写一篇关于profile的文章，分享一下profile的使用心得。

初识profile

profile是python的标准库。可以统计程序里每一个函数的运行时间，并且提供了多样化的报表。使用profile来分析一个程序很简单，举例说如果有一个程序如下：

def foo():

sum = 0

for i in range(100):

sum += i

return sum

if __name__ == "__main__":

foo()

现在要用profile分析这个程序，很简单，把if程序块改为如下：

if __name__ == "__main__":

import profile

profile.run("foo()")

我们仅仅是import了profile这个模块，然后以程序的入口函数名为参数调用了profile.run这个函数，程序运行的输出如下：

5 function calls in 0.143 CPU seconds

Ordered by: standard name

ncalls tottime percall cumtime percall filename:lineno(function)

1 0.000 0.000 0.000 0.000 :0(range)

1 0.143 0.143 0.143 0.143 :0(setprofile)

1 0.000 0.000 0.000 0.000 <string>:1(?)

1 0.000 0.000 0.000 0.000 prof1.py:1(foo)

1 0.000 0.000 0.143 0.143 profile:0(foo())

0 0.000 0.000 profile:0(profiler)

上图显示了prof1.py里函数调用的情况，根据图表我们可以清楚地看到foo()函数占用了100%的运行时间，foo()函数是这个程序里名至实归的热点。

除了用这种方式，profile还可以直接用python解释器调用profile模块来剖分py程序，如在命令行界面输入如下命令：

python -m profile prof1.py

产生的输出跟直接修改脚本调用profile.run()函数有一样的功效。

profile的统计结果分为ncalls, tottime, percall, cumtime, percall, filename:lineno(function)等若干列：

ncalls	函数的被调用次数
tottime	函数总计运行时间，除去函数中调用的函数运行时间
percall	函数运行一次的平均时间，等于tottime/ncalls
cumtime	函数总计运行时间，含调用的函数运行时间
percall	函数运行一次的平均时间，等于cumtime/ncalls
filename:lineno(function)	函数所在的文件名，函数的行号，函数名

通常情况下，profile的输出都直接输出到命令行，而且默认是按照文件名排序输出的。这就给我们造成了障碍，我们有时候希望能够把输出保存到文件，并且能够以各种形式来查看结果。profile简单地支持了一些需求，我们可以在profile.run()函数里再提供一个实参，就是保存输出的文件名；同样的，在命令行参数里，我们也可以加多一个参数，用来保存profile的输出。

用pstats自定义报表

profile解决了我们的一个需求，还有一个需求：以多种形式查看输出，我们可以通过profile的另一个类Stats来解决。在这里我们需要引入一个模块pstats，它定义了一个类Stats，Stats的构造函数接受一个参数——就是profile的输出文件的文件名。Stats提供了对profile输出结果进行排序、输出控制等功能，如我们把前文的程序改为如下：

# …略

if __name__ == "__main__":

import profile

profile.run("foo()", "prof.txt")

import pstats

p = pstats.Stats("prof.txt")

p.sort_stats("time").print_stats()

引入pstats之后，将profile的输出按函数占用的时间排序，输出如下：

Sun Jan 14 00:03:12 2007 prof.txt

5 function calls in 0.002 CPU seconds

Ordered by: internal time

ncalls tottime percall cumtime percall filename:lineno(function)

1 0.002 0.002 0.002 0.002 :0(setprofile)

1 0.000 0.000 0.002 0.002 profile:0(foo())

1 0.000 0.000 0.000 0.000 G:/prof1.py:1(foo)

1 0.000 0.000 0.000 0.000 <string>:1(?)

1 0.000 0.000 0.000 0.000 :0(range)

0 0.000 0.000 profile:0(profiler)

Stats有若干个函数，这些函数组合能给我们输出不同的profile报表，功能非常强大。下面简单地介绍一下这些函数：

strip_dirs()	用以除去文件名前名的路径信息。
add(filename,[…])	把profile的输出文件加入Stats实例中统计
dump_stats(filename)	把Stats的统计结果保存到文件
sort_stats(key,[…])	最重要的一个函数，用以排序profile的输出
reverse_order()	把Stats实例里的数据反序重排
print_stats([restriction,…])	把Stats报表输出到stdout
print_callers([restriction,…])	输出调用了指定的函数的函数的相关信息
print_callees([restriction,…])	输出指定的函数调用过的函数的相关信息

这里最重要的函数就是sort_stats和print_stats，通过这两个函数我们几乎可以用适当的形式浏览所有的信息了，下面来详细介绍一下。

sort_stats()接受一个或者多个字符串参数，如”time”、”name”等，表明要根据哪一列来排序，这相当有用，例如我们可以通过用time为key来排序得知最消耗时间的函数，也可以通过cumtime来排序，获知总消耗时间最多的函数，这样我们优化的时候就有了针对性，也就事半功倍了。sort_stats可接受的参数如下：

‘ncalls’	被调用次数
‘cumulative’	函数运行的总时间
‘file’	文件名
‘module’	文件名
‘pcalls’	简单调用统计（兼容旧版，未统计递归调用）
‘line’	行号
‘name’	函数名
‘nfl’	Name/file/line
‘stdname’	标准函数名
‘time’	函数内部运行时间（不计调用子函数的时间）

另一个相当重要的函数就是print_stats——用以根据最后一次调用sort_stats之后得到的报表。print_stats有多个可选参数，用以筛选输出的数据；print_stats的参数可以是数字也可以是perl风格的正则表达式，相关的内容通过其它渠道了解，这里就不详述啦，仅举三个例子：

print_stats(“.1”, “foo:”)

这个语句表示将stats里的内容取前面的10%，然后再将包含”foo:”这个字符串的结果输出。

print_stats(“foo:”,”.1”)

这个语句表示将stats里的包含”foo:”字符串的内容的前10%输出。

print_stats(10)

这个语句表示将stats里前10条数据输出。

实际上，profile输出结果的时候相当于这样调用了Stats的函数：

p.strip_dirs().sort_stats(-1).print_stats()

其中sort_stats函数的参数是-1，这也是为了与旧版本兼容而保留的。sort_stats可以接受-1,0,1,2之一，这四个数分别对应”stdname”, “calls”, “time”和”cumulative”；但如果你使用了数字为参数，那么pstats只按照第一个参数进行排序，其它参数将被忽略。

hotshot——更好的profile

因为profile本身的机制（如使用精确到毫秒的计时器等）导致在相当多情况下profile模块的“测不准”问题相当严重。hotshot大部分都是用C实现的，相对于profile模块它的计时函数对性能剖分的影响就小得多，而且支持以行为单位统计运行时间。美中不足的是hotshot不支持多线程的程序，确切来说，是它的计时核心有个关于临界段的bug；更加不幸的是，hotshot已经不再被维护，而且可能在未来的python版本中会从标准库中移除。不过，对于没有使用多线程的程序而言，hotshot目前仍然是非常好的剖分器。

hotshot有一个Profile类，它的构造函数原型如下：

class Profile( logfile[, lineevents[, linetimings]])

logfile参数是保存剖分统计结果的文件名，lineevents表示是否统计每一行源码的运行时间，默认为0，即以函数执行时间为统计粒度，linetimings为是否记录时间信息，默认为1。下面仍然是示例：

# …略

if __name__ == "__main__":

import hotshot

import hotshot.stats

prof = hotshot.Profile("hs_prof.txt", 1)

prof.runcall(foo)

prof.close()

p = hotshot.stats.load("hs_prof.txt")

p.print_stats()

输出：

1 function calls in 0.003 CPU seconds

Random listing order was used

ncalls tottime percall cumtime percall filename:lineno(function)

1 0.003 0.003 0.003 0.003 i:/prof1.py:1(foo)

0 0.000 0.000 profile:0(profiler)

我们可以看到来自hotshot的干扰信息比profile的少了很多，这也有利于我们分析数据找出热点。不过正如我在前面代码中使用prof = hotshot.Profile("hs_prof.txt", 1)一样，我发现使lineevents=1跟忽略linveevents参数没有什么不同，还请大家赐教。

使用hotshot能够更加灵活地统计程序的运行情况，因为hotshot.Profile提供了下面一系列的函数：

run(cmd)	执行一段脚本，跟profile模块的run()函数一样功能
runcall(func, args, *keywords)	调用一个函数，并统计相关的运行信息
runctx(cmd, globals, locals)	指定一段脚本的执行环境，执行脚本并统计运行信息

通过这几个函数，我们可以非常方便地建立测试的桩模块，不必再像使用profile那样手工地编写很多驱动模块了。hotshot.Profile还提供其它有用的函数，具体请参考相关的manual。

Python 2.5注意事项

因为hotshot不能用于多线程，而且它的优势仅在速度，所以python 2.5版本声明不再维护hotshot模块，并且可能在以后的版本中移除它。有去必有来，取而代之的就是cProfile，与cPickle等模块类似，cProfile要比profile模块更快些。cProfile的接口跟profile是一样的，只要在使用到profile的地方用cProfile替换就可以在以前的项目中使用它。

pstats在python 2.5版本中也产生了一些微妙的变化，pstats.Stats的构造函数增加了一个默认参数，变为：

class Stats( filename[, stream=sys.stdout[, ...]])

对我们而言，这是没有坏处的，stream参数给了我们把profile统计报表保存到文件的机会，这正是我们需要的。

综上所述，如果你使用的python 2.5版，我建议你使用cProfile。

小巧实用的瑞士军刀——timeit

如果我们某天心血来潮，想要向list里append一个元素需要多少时间或者想知道抛出一个异常要多少时间，那使用profile就好像用牛刀杀鸡了。这时候我们更好的选择是timeit模块。

timeit除了有非常友好的编程接口，也同样提供了友好的命令行接口。首先来看看编程接口。timeit模块包含一个类Timer，它的构造函数是这样的：

class Timer( [stmt='pass' [, setup='pass' [, timer=<timer function>]]])

stmt参数是字符串形式的一个代码段，这个代码段将被评测运行时间；setup参数用以设置stmt的运行环境；timer可以由用户使用自定义精度的计时函数。

timeit.Timer有三个成员函数，下面简单介绍一下：

timeit( [number=1000000])

timeit()执行一次Timer构造函数中的setup语句之后，就重复执行number次stmt语句，然后返回总计运行消耗的时间。

repeat( [repeat=3 [, number=1000000]])

repeat()函数以number为参数调用timeit函数repeat次，并返回总计运行消耗的时间

print_exc( [file=None])

print_exc()函数用以代替标准的tracback，原因在于print_exc()会输出错行的源代码，如：

>>> t = timeit.Timer("t = foo()/nprint t") ß被timeit的代码段

>>> t.timeit()

Traceback (most recent call last):

File "<pyshell#12>", line 1, in -toplevel-

t.timeit()

File "E:/Python23/lib/timeit.py", line 158, in timeit

return self.inner(it, self.timer)

File "<timeit-src>", line 6, in inner

foo() ß标准输出是这样的

NameError: global name 'foo' is not defined

>>> try:

t.timeit()

except:

t.print_exc()

Traceback (most recent call last):

File "<pyshell#17>", line 2, in ?

File "E:/Python23/lib/timeit.py", line 158, in timeit

return self.inner(it, self.timer)

File "<timeit-src>", line 6, in inner

t = foo() ßprint_exc()的输出是这样的，方便定位错误

NameError: global name 'foo' is not defined

除了可以使用timeit的编程接口外，我们也可以在命令行里使用timeit，非常方便：

python timeit.py [-n N] [-r N] [-s S] [-t] [-c] [-h] [statement ...]

其中参数的定义如下：

-n N/--number=N

statement语句执行的次数

-r N/--repeat=N

重复多少次调用timeit()，默认为3

-s S/--setup=S

用以设置statement执行环境的语句，默认为”pass”

-t/--time

计时函数，除了Windows平台外默认使用time.time()函数，

-c/--clock

计时函数，Windows平台默认使用time.clock()函数

-v/--verbose

输出更大精度的计时数值

-h/--help

简单的使用帮助

小巧实用的timeit蕴藏了无限的潜能等待你去发掘，我在这里就不提供实例啦～～

用profile协助程序性能优化的更多相关文章

[python]用profile协助程序性能优化
转自:http://blog.csdn.net/gzlaiyonghao/article/details/1483728 本文最初发表于恋花蝶的博客http://blog.csdn.net/lanph ...
[深入浅出Cocoa]iOS程序性能优化
本文转载至 http://blog.csdn.net/kesalin/article/details/8762032 [深入浅出Cocoa]iOS程序性能优化罗朝辉 (http://blog.csd ...
C++ 应用程序性能优化
C++ 应用程序性能优化 eryar@163.com 1. Introduction 对于几何造型内核OpenCASCADE,由于会涉及到大量的数值算法,如矩阵相关计算,微积分,Newton迭代法解方 ...
Java程序性能优化技巧
Java程序性能优化技巧多线程.集合.网络编程.内存优化.缓冲..spring.设计模式.软件工程.编程思想 1.生成对象时,合理分配空间和大小new ArrayList(100); 2.优化for ...
《Java程序性能优化:让你的Java程序更快、更稳定》
Java程序性能优化:让你的Java程序更快.更稳定, 卓越网更便宜,不错的书吧
[JAVA] java程序性能优化
一.避免在循环条件中使用复杂表达式在不做编译优化的情况下,在循环中,循环条件会被反复计算,如果不使用复杂表达式,而使循环条件值不变的话,程序将会运行的更快. 例子: import java.util ...
iOS程序性能优化
iOS程序性能优化一.初级使用ARC进行内存管理在iOS5发布的ARC,它解决了最常见的内存泄露问题.但是值得注意的是,ARC并不能避免所有的内存泄露.使用ARC之后,工程中可能还会有内存泄露, ...
iOS 程序性能优化
前言转载自:http://www.samirchen.com/ios-performance-optimization/ 程序性能优化不应该是一件放在功能完成之后的事,对性能的概念应该从我们一开始写 ...
微信小程序性能优化技巧
摘要: 如果小程序不够快,还要它干嘛? 原文:微信小程序性能优化方案--让你的小程序如此丝滑作者:杜俊成要好好学习 Fundebug经授权转载,版权归原作者所有. 微信小程序如果想要优化性能,有关键 ...

随机推荐

HDU 2571 命运 (入门dp)
题目链接题意:二维矩阵,左上角为起点,右下角为终点,如果当前格子是(x,y),下一步可以是(x+1,y),(x,y+1)或者(x,y*k) ,其中k>1.问最大路径和. 题解:入门dp,注意负 ...
Eclipse中如何调整字体
Eclipse 字体有两处,一处是控制台的字体,一处是主窗口.这里分别介绍控制台和主窗口字体的调节方法. Window -> Preferences -> General -> Ap ...
苹果手机浏览器$(document).on(“click”,function(){})点击无效的问题
<label class="js_highlight" style="display: inline-block;float: left;width: 50%;&q ...
A - ACM Computer Factory(网络流)
题目链接:https://cn.vjudge.net/contest/68128#problem/A 反思:注意拆点,否则的话节点就没用了,还有注意源点和汇点的赋值. AC代码: #include&l ...
Hibernate5笔记4--单表查询
单表查询: Hibernate是DAO层技术,对数据的使用,查询是最为重要的.Hibernate的查询技术非常强大,支持原始SQL语句查询,支持QBC查询及Hibernate特有的HQL查询. H ...
linux快速复制大量小文件方法 nc+tar【转】
1,在需要对大量小文件进行移动或复制时,用cp.mv都会显得很没有效率,可以用tar先压缩再解压缩的方式. 2,在网络环境中传输时,可以再结合nc命令,通过管道和tcp端口进行传输. nc和tar ...
Django-自动HTML转义
一.自动HTML转义从模板生成HTML时,总会有变量包含影响最终HTML的字符风险,例如,考虑这个模板的片段: Hello, {{ name }} 起初,这是一种显示用户名的无害方式,但考虑用户输入 ...
vue项目中，Iview打包到生产环境时， woff 字体引用问题
出现这问题的原因是文件路径不对,与webpack有关,解决的办法为: 一.修改webpack.prod.conf.js module: { rules: utils.styleLoaders({ so ...
bootstrap表单按回车会自动刷新页面的问题
想给form表单增加回车自动提交的功能 $('#password').keydown(function(event){ if (event.keyCode == 13) $('#login').cli ...
Jquery获取radio单选按钮的value与后面的文字
一组单选按钮如图: <input name="classId" value="8afa94f45ba3e2c1015ba3fac6c00000" type ...

用profile协助程序性能优化

用profile协助程序性能优化的更多相关文章

随机推荐

热门专题