代码与图详解性能之Python集合类型(list tuple dict set generator)
import sys
from memory_profiler import profile @profile
def create_data(data_size):
data_generator = (x for x in xrange(data_size))
data_set = {x for x in xrange(data_size)}
data_dict = {x:None for x in xrange(data_size)}
data_tuple = tuple(x for x in xrange(data_size))
data_list = [x for x in xrange(data_size)]
return data_set, data_dict, data_generator, data_tuple, data_list data_size = 100000
for data in create_data(data_size):
print data.__class__, sys.getsizeof(data) Line # Mem usage Increment Line Contents
================================================
4 14.6 MiB 0.0 MiB @profile
5 def create_data(data_size):
6 14.7 MiB 0.0 MiB data_generator = (x for x in xrange(data_size))
7 21.4 MiB 6.7 MiB data_set = {x for x in xrange(data_size)}
8 29.8 MiB 8.5 MiB data_dict = {x:None for x in xrange(data_size)}
9 33.4 MiB 3.6 MiB data_tuple = tuple(x for x in xrange(data_size))
10 38.2 MiB 4.8 MiB data_list = [x for x in xrange(data_size)]
11 38.2 MiB 0.0 MiB return data_set, data_dict, data_generator, data_tuple, data_list <type 'set'> 4194528
<type 'dict'> 6291728
<type 'generator'> 72
<type 'tuple'> 800048
<type 'list'> 824464
再看看查找性能,dict,set是常数查找时间(O(1)),list、tuple是线性查找时间(O(n)),用生成器生成指定大小元素的对象,用随机生成的数字去查找:
import time
import sys
import random
from memory_profiler import profile def create_data(data_size):
data_set = {x for x in xrange(data_size)}
data_dict = {x:None for x in xrange(data_size)}
data_tuple = tuple(x for x in xrange(data_size))
data_list = [x for x in xrange(data_size)]
return data_set, data_dict, data_tuple, data_list def cost_time(func):
def cost(*args, **kwargs):
start = time.time()
r = func(*args, **kwargs)
cost = time.time() - start
print 'find in %s cost time %s' % (r, cost)
return r, cost #返回数据的类型和方法执行消耗的时间
return cost @cost_time
def test_find(test_data, data):
for d in test_data:
if d in data:
pass
return data.__class__.__name__ data_size = 100
test_size = 10000000
test_data = [random.randint(0, data_size) for x in xrange(test_size)]
#print test_data
for data in create_data(data_size):
test_find(test_data, data) 输出:
----------------------------------------------
find in <type 'set'> cost time 0.47200012207
find in <type 'dict'> cost time 0.429999828339
find in <type 'tuple'> cost time 5.36500000954
find in <type 'list'> cost time 5.53399991989
def randint(index, data_size):
return random.randint(0, data_size) if (x % 2) == 0 else random.randint(data_size, data_size * 2) test_data = [randint(x, data_size) for x in xrange(test_size)] 输出:
----------------------------------------------
find in <type 'set'> cost time 0.450000047684
find in <type 'dict'> cost time 0.397000074387
find in <type 'tuple'> cost time 7.83299994469
find in <type 'list'> cost time 8.27800011635
元素的个数从10增长至500,统计每次查找10W次的时间,用图拟合时间消耗的曲线,结果如下图,结果证明dict, set不管元素多少,一直都是常数查找时间,dict、tuple随着元素增长,呈现线性增长时间:
import matplotlib.pyplot as plot
from numpy import * data_size = array([x for x in xrange(10, 500, 10)])
test_size = 100000
cost_result = {}
for size in data_size:
test_data = [randint(x, size) for x in xrange(test_size)]
for data in create_data(size):
name, cost = test_find(test_data, data) #装饰器函数返回函数的执行时间
cost_result.setdefault(name, []).append(cost) plot.figure(figsize=(10, 6))
xline = data_size
for data_type, result in cost_result.items():
yline = array(result)
plot.plot(xline, yline, label=data_type) plot.ylabel('Time spend')
plot.xlabel('Find times') plot.grid() plot.legend()
plot.show()

迭代的时间,区别很微弱,dict、set要略微消耗时间多一点:
@cost_time
def test_iter(data):
for d in data:
pass
return data.__class__ .__name__ data_size = array([x for x in xrange(1, 500000, 1000)])
cost_result = {}
for size in data_size:
for data in create_data(size):
name, cost = test_iter(data)
cost_result.setdefault(name, []).append(cost) #拟合曲线图
plot.figure(figsize=(10, 6))
xline = data_size
for data_type, result in cost_result.items():
yline = array(result)
plot.plot(xline, yline, label=data_type) plot.ylabel('Time spend')
plot.xlabel('Iter times') plot.grid() plot.legend()
plot.show()

删除元素消耗时间图示如下,随机删除1000个元素,tuple类型不能删除元素,所以不做比较:
@cost_time
def test_delete(test_data, data):
for d in test_data:
data.remove(d)
return data.__class__.__name__ @cost_time
def test_dict_delete(test_data, data):
for d in test_data:
del data[d]
return data.__class__.__name__ def create_data(data_size):
data_set = {x for x in xrange(data_size)}
data_dict = {x:None for x in xrange(data_size)}
data_list = [x for x in xrange(data_size)]
return data_set, data_dict, data_list #创建随机删除数据集
def create_random_test_data(size, range_size):
test_data = set()
while(len(test_data) < size):
test_data.add(random.randint(0, range_size))
return test_data #dict没有remove方法,用del dict[key]来删除数据,其他数据类型使用remove方法
delete_method = {list: test_delete, set: test_delete, dict: test_dict_delete} #每次检测1000增量大小的数据的删除一半时间
data_size = array([x for x in xrange(1000, 20000, 1000)])
cost_result = {}
test_size = 1000
for size in data_size:
test_data = create_random_test_data(test_size, size)
for data in create_data(size):
name, cost = delete_method[type(data)](test_data, data) #返回数据类型的名字和方法的执行时间
cost_result.setdefault(name, []).append(cost)

随机删除一半的元素,图形就呈指数时间(O(n2))增长了:

@cost_time
def test_dict_add(test_data, data):
for d in test_data:
data[d] = None
return data.__class__ .__name__ @cost_time
def test_set_add(test_data, data):
for d in test_data:
data.add(d)
return data.__class__ .__name__ @cost_time
def test_list_add(test_data, data):
for d in test_data:
data.append(d)
return data.__class__ .__name__ #初始化数据,指定每种类型对应它添加元素的方法
def init_data():
test_data = {
'list': (list(), test_list_add),
'set': (set(), test_set_add),
'dict': (dict(), test_dict_add)
}
return test_data #每次检测10000增量大小的数据的添加时间
data_size = array([x for x in xrange(10000, 1000000, 10000)])
cost_result = {}
for size in data_size:
test_data = [x for x in xrange(size)]
for data_type, (data, add) in init_data().items():
name, cost = add(test_data, data) #返回方法的执行时间
cost_result.setdefault(data_type, []).append(cost) plot.figure(figsize=(10, 6))
xline = data_size
for data_type, result in cost_result.items():
yline = array(result)
plot.plot(xline, yline, label=data_type) plot.ylabel('Time spend')
plot.xlabel('Add times') plot.grid() plot.legend()
plot.show()

代码与图详解性能之Python集合类型(list tuple dict set generator)的更多相关文章
- 十图详解tensorflow数据读取机制(附代码)转知乎
十图详解tensorflow数据读取机制(附代码) - 何之源的文章 - 知乎 https://zhuanlan.zhihu.com/p/27238630
- php调用C代码的方法详解和zend_parse_parameters函数详解
php调用C代码的方法详解 在php程序中需要用到C代码,应该是下面两种情况: 1 已有C代码,在php程序中想直接用 2 由于php的性能问题,需要用C来实现部分功能 针对第一种情况,最合适的方 ...
- 【机器学习】【条件随机场CRF-2】CRF的预测算法之维特比算法(viterbi alg) 详解 + 示例讲解 + Python实现
1.CRF的预测算法条件随机场的预测算法是给定条件随机场P(Y|X)和输入序列(观测序列)x,求条件概率最大的输出序列(标记序列)y*,即对观测序列进行标注.条件随机场的预测算法是著名的维特比算法(V ...
- Understand:高效代码静态分析神器详解(转)
之前用Windows系统,一直用source insight查看代码非常方便,但是年前换到mac下面,虽说很多东西都方便了,但是却没有了静态代码分析工具,很幸运,前段时间找到一款比source ins ...
- 单元测试系列之四:Sonar平台中项目主要指标以及代码坏味道详解
更多原创测试技术文章同步更新到微信公众号 :三国测,敬请扫码关注个人的微信号,感谢! 原文链接:http://www.cnblogs.com/zishi/p/6766994.html 众所周知Sona ...
- Understand:高效代码静态分析神器详解(一)
Understand:高效代码静态分析神器详解(一) Understand 之前用Windows系统,一直用source insight查看代码非常方便,但是年前换到mac下面,虽说很多东西都方便 ...
- Understand:高效代码静态分析神器详解(一) | 墨香博客 http://www.codemx.cn/2016/04/30/Understand01/
Understand:高效代码静态分析神器详解(一) | 墨香博客 http://www.codemx.cn/2016/04/30/Understand01/ ===== 之前用Windows系统,一 ...
- UML类图详解_关联关系_一对多
对于一对多的示例,可以想象一个账户可以多次申购.在申购的时候没有固定上限,下限为0,那么就可以使用容器类(container class)来搞,最常见的就是vector了. 下面我们来看一个“一对多” ...
- UML类图详解_关联关系_多对一
首先先来明确一个概念,即多重性.什么是多重性呢?多重性是指两个对象之间的链接数目,表示法是“下限...上限”,最小数据为零(0),最大数目为没有设限(*),如果仅标示一个数目级上下限相同. 实际在UM ...
随机推荐
- Bootstrap~表单Form
回到目录 在进行自己的后台改版时,大体布局都使用了bootstrap,剩下的表单部分没理由不去使用它,对于表单的美化和布局,bootstrap做的也是很不错的,有大气的边框,多功能的按钮及宏观的表单布 ...
- 爱上MVC~MVC4模型验证可以放在前端
回到目录 MVC4.0推出后,在模型验证上有了一个新的改近,它支持前端验证,即在用户POST之前,如果验证失败,则Action(POST方式的)不会被执行,而直接停留在原视图,这对于用户体验是好的,它 ...
- Android开发学习之路-GSON使用心得(OCR图片识别)
在安卓中解析JSON串可以使用的方法有很多,比如说用官方提供的JSONObject或者谷歌提供的开源库GSON,以及一些第三方开源库. 这里用的是GSON,为了测试方便,借助了一个百度的api,一个图 ...
- ECMAScript5中数组的方法
1.forEach()方法 遍历数组,为每个数组元素调用指定函数,三个参数分别为:数组元素 item.元素索引 index.数组本身 arr,无返回值 例: 2.map()方法 调用数组的每个元素传递 ...
- Atitit 函数式编程与命令式编程的区别attilax总结 qbf
Atitit 函数式编程与命令式编程的区别attilax总结 qbf 1.1. 函数式程序就是一个表达式.命令式程序就是一个冯诺依曼机的指令序列. 命令式编程是面向计算机硬件的抽象,有变量(对应着存 ...
- 关于C#中的线程重启的问题
首先不管是C#也好,还是java也好,对于已经Abort的线程是无法再次Start的,除非是声明私有变量new一个新的线程,网上也有很多人说可以Suspend挂起线程,然后再Resume继续,但是相信 ...
- 如何解决loadrunner回放日志中的乱码问题
在Loadrunner回放脚本时,会看到replay log区会展示脚本回放时的信息.有时候选中了打印服务器返回具体信息后,服务器返回的中文字符为乱码.怎么破? 原来Loadrunner的replay ...
- 记一次裸迁 MySQL 经历
记一次裸迁MySQL经历 前言:博主企业有一台企业阿里云机器,因为安装了云锁,造成服务器动不动就给我所死服务器.(就是那种 chattr +i /bin/bash ,分分钟日死狗 )趁着周末,Boos ...
- echart饼状图使用,打发时间。
新公司,刚来几天,闲着没事,领导让我做些无关痛痒的活,优化报表统计!!!之前是用flash做的,现在要改成echart实现.好吧,之前没用过,抱着学习态度,研究了下.写点东西打发下时间,能帮到需要帮助 ...
- Comet服务器推送与SignalR
HTTP协议是一个典型的Request/Response协议,是基于TCP/IP之上的一个应用层协议,该协议最典型的特点就是无状态且需要客户端发起Request服务端才能进行Response, ...