pythonic-迭代器函数-itertools

认识

Python 的itertools模块提供了很多节省内存的高效迭代器, 尤其解决了一些关于数据量太大而导致内存溢出(outofmemory)的场景.

我们平时用的循环绝大多数是这样的.

# while 循环: 求1+2+...100

s, i = 0, 1

while i <= 100:

    s += i

    i += 1

print('while-loop: the some of 1+2+..100 is:', s)

# for 循环

s = 0

for i in range(101):

    s += i

print('for-loop: the some of 1+2+..100 is:', s)

while-loop: the some of 1+2+..100 is: 5050

for-loop: the some of 1+2+..100 is: 5050

但如果数据量特别大的话就凉凉了, 所以引入了itertools,迭代器, 类似于懒加载的思想

常用API

chain()
groupby()
accumulate()
compress()
takewhile()
islice()
repeat()

chain 拼接元素

把一组迭代对象串联起来，形成一个更大的迭代器：

# join / split

s = "If you please draw me a sheep?"

s1 = s.split()

s2 = "-".join(s1)

print("split->:", s1)

print("join->:", s2)

split->: ['If', 'you', 'please', 'draw', 'me', 'a', 'sheep?']

join->: If-you-please-draw-me-a-sheep?

import itertools

# chain

s = itertools.chain(['if', 'you'], ['please draw', 'me', 'a'], 'shape')

s

<itertools.chain at 0x1d883602240>

list(s)

['if', 'you', 'please draw', 'me', 'a', 's', 'h', 'a', 'p', 'e']

不难发现, 这就是迭代器嘛, 真的没啥.跟join差不多. 那么它是如何节省内存的呢, 其实就是一个简单的迭代器思想, 一次读取一个元素进内存,这样就高效节约内存了呀

def chain(*iterables):

    for iter_ in iterables:

        for elem in iter_:

            yield elem

groupby 相邻元素

把迭代器中相邻的重复元素挑出来放在一

# 只要作用于函数的两个元素返回的值相等，这两个元素就被认为是在一组的，而函数返回值作为组的key

for key, group in itertools.groupby('AAABBBCCAAAdde'):

    print(key, list(group))

A ['A', 'A', 'A']

B ['B', 'B', 'B']

C ['C', 'C']

A ['A', 'A', 'A']

d ['d', 'd']

e ['e']

# 忽略大小写

for key, group in itertools.groupby('AaaBBbcCAAa', lambda c: c.upper()):

    print(key, list(group))

A ['A', 'a', 'a']

B ['B', 'B', 'b']

C ['c', 'C']

A ['A', 'A', 'a']

accumulate 累积汇总

list(itertools.accumulate([1,2,3,4,5], lambda x,y: x*y))

[1, 2, 6, 24, 120]

# 伪代码

def accumulate(iterable, func=None, *, initial=None):

    iter_ = iter(iterable)

    ret = initial

    # 循环迭代

    if initial is None:

        try:

            ret = next(iter_)

        except StopIteration:

            return

    yield ret

    # 遍历每个元素, 调用传入的函数去处理

    for elem in iter_:

        ret = func(elem)

        yield ret

compress 过滤

list(itertools.compress('youge', [1,0,True,3]))

['y', 'u', 'g']

def compress(data, selectors):

    for d, s in zip(data, selectors):

        if s:

            return d

# demo

for data, key in zip([1,2], 'abcd'):

    print(data,key)

    if key:

        print(data)

# Pythonic

def compress(data, selectors):

    return (d for d, s in zip(data, selectors) if s)

# tset

ret = compress(['love', 'you', 'forever'], ['love', None, 'dd', 'forever'])

print(ret)

print(list(ret))

<generator object compress.<locals>.<genexpr> at 0x000001D8831498E0>

['love', 'forever']

生成器

在类中实现了iter()方法和next()方法的对象即生成器
代码上有两种形式: 元组生成器或者函数中出现 yield 关键字

zip

对应位置进行元素拼接, 当最短的匹配上了, 则停止, 也被称为"拉长函数"

take-while

takewhile: 依次迭代, 满足条件则返回, 继续迭代, 一旦不满足条件则退出

# takewhile

s1 = list(itertools.takewhile(lambda x:x<=2, [0,3,2,1,-1,3,0]))

print(s1)

s2 = list(itertools.takewhile(lambda x:x<5, [1,4,6,4,1,3]))

print(s2)

# dropwhile

s3 = list(itertools.filterfalse(lambda x:x%2==0, range(10)))

print(s3)

[0]

[1, 4]

[1, 3, 5, 7, 9]

def take_while(condition, iter_obj):

    for elem in iter_obj:

        if conditon(elem):

            yield elem

        else:

            break

dropwhile: 不满足条件的则返回

islice 切片

# 普通的切片,也是要先全部读入内存

# 注意是深拷贝的哦

l = [1,2,3,4,5]

print(l[::--1])

# generator 方式

# 默认的 start, stop, step, 只能传0或正数, 但可以自己改写的呀

list(itertools.islice(l, 0,3,1))

s = slice(3,4,5) # 只接收3个参数

s.start

s.stop

[1, 2, 3, 4, 5]

[1, 2, 3]

import sys

def slice(iter_obj, *args):

    s = slice(*args)

    start = s.start or 0

    stop = s.stop or sys.maxsize # 很大的常量

    step = s.step or 1

    # 构成可迭代的对象(下标)

    iter_ = iter(range(start, stop, step))

    try:

        next_i = next(iter_)

    except StopIteration:

#         for i, elem n zip(range(start), iter_obj):

            pass

        return

    try:

        i, elem in enumerate(iter_obj):

            if i == next_i:

                yield elem

                next_i = next(elem)

    except StopIteration:

        pass

[1, 2, 3, 4, 5]

repeat

list(itertools.repeat(['youge'], 3))

[['youge'], ['youge'], ['youge']]

def repeat(obj, times=None):

    if times is None:

        while True:  # 一直返回

            yield obj

    else:

        for i in range(times):

            yield obj

pythonic-迭代器函数-itertools的更多相关文章

Python3标准库：itertools迭代器函数
1. itertools迭代器函数 itertools包括一组用于处理序列数据集的函数.这个模块提供的函数是受函数式编程语言(如Clojure.Haskell.APL和SML)中类似特性的启发.其目的 ...
这段代码很Pythonic | 相见恨晚的 itertools 库
前言最近事情不是很多,想写一些技术文章分享给大家,同时也对自己一段时间来碎片化接受的知识进行一下梳理,所谓写清楚才能说清楚,说清楚才能想清楚,就是这个道理了. 很多人都致力于把Python代码写得更 ...
python迭代器以及itertools模块
迭代器在python中,迭代器协议就是实现对象的__iter()方法和next()方法,其中前者返回对象本身,后者返回容器的下一个元素.实现了这两个方法的对象就是可迭代对象.迭代器是有惰性的,只有在 ...
迭代器模块 itertools
无限迭代器 itertools 包自带了三个可以无限迭代的迭代器.这意味着,当你使用他们时,你要知道你需要的到底是最终会停止的迭代器,还是需要无限地迭代下去. 这些无限迭代器在生成数字或者在长度未知的 ...
python基础===Python 迭代器模块 itertools 简介
本文转自:http://python.jobbole.com/85321/ Python提供了一个非常棒的模块用于创建自定义的迭代器,这个模块就是 itertools.itertools 提供的工具相 ...
CodeForces 670E Correct Bracket Sequence Editor（list和迭代器函数模拟）
E. Correct Bracket Sequence Editor time limit per test 2 seconds memory limit per test 256 megabytes ...
Python迭代器包itertools（转）
原文:http://www.cnblogs.com/vamei/p/3174796.html 作者:Vamei 在循环对象和函数对象中,我们了解了循环器(iterator)的功能.循环器是对象的容器, ...
Python迭代器(函数名的应用,新版格式化输出)
1. 函数名的运用你们说一下,按照你们的理解,函数名是什么? 函数名的定义和变量的定义几乎一致,在变量的角度,函数名其实就是一个变量,具有变量的功能:可以赋值:但是作为函数名他也有特殊的功能 ...
Python标准库：迭代器Itertools
Infinite Iterators: Iterator Arguments Results Example count() start, [step] start, start+step, star ...

随机推荐

JavaScript计算时间前一天跟后一天
1.获取当前时 //写在HTML <button onclick="goBefore()">前一天</button> <button onclick= ...
js之juery
目录 JQuery 属性选择器: 操作标签文本操作属性操作文档处理事件 JQuery 属性选择器: 属性选择器: [attribute] [attribute=value]// 属性等于 [a ...
readfile，read，createReadStream函数
这三个函数使用前都需要引入fs模块(var fs= require(“fs”) ) readfile:读取文件内容的异步函数,readFile方法是将要读取的文件内容完整读入缓存区,再从该缓存区中读取 ...
##xcode 文件模板自定义
xcode 文件模板自定义在使用xcode内部模板创建C++类文件时,创建出来的头文件是.hpp结尾的,但是我想用.h结尾的, 所以就网上找了下资料看能不能自定义模板,这样还可以修改文档注释.在网上 ...
Linux 内核启动信息的打印 --- dev_driver_string函数/dev_name函数
内核启动时,常会打印出一些信息:开头是 "驱动模块的名字: + 具体的信息" 如:在运行的linux系统设备上,插入鼠标,就会打印出鼠标的相关信息; [ 402.134068] i ...
Shell脚本之五基本运算符
Shell 和其他编程语言一样,支持多种运算符,包括: 算数运算符关系运算符布尔运算符字符串运算符文件测试运算符原生bash不支持简单的数学运算,但是可以通过其他命令来实现,例如 awk 和 ...
cad.net 定义lisp
首先是传参型lisp的定义: (addLine (getpoint)) //定义lisp传入参数的例子 //复制到命令栏运行: (addLine (getpoint)) [LispFunction(& ...
windows7 安装 docker-compose
这篇博客,默认你已经安装了docker,下面介绍如何安装docker-compose 1.访问docker-compose的git地址 2.找到最新版的docker-compose 3.打开Docke ...
mapreduce 函数入门三
一.mapreduce多job串联 1.需求一个稍复杂点的处理逻辑往往需要多个 mapreduce 程序串联处理,多 job 的串联可以借助 mapreduce 框架的 JobControl 实现 ...
Android.mk基础
1.前言 Android.mk用于向编译系统描述源文件和共享库,它实际上是编译系统解析一次或多次的微小GNU makefile片段.它的语法支持将源文件分组为模块,模块是静态库.共享库或独立的可执行文 ...