Python 是一个设计优美的解释型高级语言,它提供了很多能让程序员感到舒适的功能特性。但有的时候,Python 的一些输出结果对于初学者来说似乎并不是那么一目了然。

这个有趣的项目意在收集 Python 中那些难以理解和反人类直觉的例子以及鲜为人知的功能特性,并尝试讨论这些现象背后真正的原理!

虽然下面的有些例子并不一定会让你觉得 WTFs,但它们依然有可能会告诉你一些你所不知道的 Python 有趣特性。我觉得这是一种学习编程语言内部原理的好办法,而且我相信你也会从中获得乐趣!

如果您是一位经验比较丰富的 Python 程序员,你可以尝试挑战看是否能一次就找到例子的正确答案。你可能对其中的一些例子已经比较熟悉了,那这也许能唤起你当年踩这些坑时的甜蜜回忆~

如果你不是第一次读了, 你可以在这里获取变动内容.

  • 更新说明:https://github.com/satwikkansal/wtfpython/releases/

  • 项目地址:https://github.com/leisurelicht/wtfpython-cn

  • 英文版:https://github.com/satwikkansal/wtfpython

  • pdf 版:http://www.satwikkansal.xyz/wtfpython-pdf/

那么,让我们开始吧...

Structure of the Examples/示例结构

所有示例的结构都如下所示:

> 一个精选的标题 *

标题末尾的星号表示该示例在第一版中不存在,是最近添加的。

# 准备代码.# 释放魔法...

Output (Python version):

(可选):对意外输出结果的简短描述。

说明:

  • 简要说明发生了什么以及为什么会发生。

如有必要, 举例说明

Output:

注意: 所有的示例都在 Python 3.5.2 版本的交互解释器上测试过, 如果不特别说明应该适用于所有 Python 版本.

Usage/用法

我个人建议,最好依次阅读下面的示例,并对每个示例:

  • 仔细阅读设置例子最开始的代码。如果您是一位经验丰富的 Python 程序员,那么大多数时候您都能成功预期到后面的结果。

  • 阅读输出结果,

  • 确认结果是否如你所料。

  • 确认你是否知道这背后的原理。

  • 如果不知道, 深呼吸然后阅读说明 (如果你还是看不明白, 别沉默!可以在这 (https://github.com/satwikkansal/wtfPython) 提个 issue)。

  • 如果知道,给自己点奖励,然后去看下一个例子。

PS: 你也可以在命令行阅读 WTFpython. 我们有 pypi 包 和 npm 包 (支持代码高亮)。(译: 这两个都是英文版的)

安装 npm 包 wtfpython(https://www.npmjs.com/package/wtfpython)

$ npm install -g wtfpython

或者, 安装 pypi 包 wtfpython(https://pypi.python.org/pypi/wtfpython)

$ pip install wtfpython -U

现在, 在命令行中运行 wtfpython, 你就可以开始浏览了.

Examples/示例

Section: Strain your brain!/大脑运动!

> Strings can be tricky sometimes/微妙的字符串 *

1.

>>> a = "some_string"
>>> id(a)140420665652016
>>> id("some" + "_" + "string") # 注意两个的id值是相同的.
140420665652016

2.

>>> a = "wtf"
>>> b = "wtf"
>>> a is bTrue
>>> a = "wtf!"
>>> b = "wtf!"
>>> a is bFalse
>>> a, b = "wtf!", "wtf!"
>>> a is b
True

3.

很好理解, 对吧?

说明:

  • 这些行为是由于 Cpython 在编译优化时, 某些情况下会尝试使用已经存在的不可变对象而不是每次都创建一个新对象。(这种行为被称作字符串的驻留 [string interning])

  • 发生驻留之后, 许多变量可能指向内存中的相同字符串对象。(从而节省内存)

  • 在上面的代码中, 字符串是隐式驻留的. 何时发生隐式驻留则取决于具体的实现. 这里有一些方法可以用来猜测字符串是否会被驻留:

  • 所有长度为 0 和长度为 1 的字符串都被驻留。

  • 字符串在编译时被实现('wtf' 将被驻留, 但是 ''.join(['w', 't', 'f'] 将不会被驻留)

  • 字符串中只包含字母,数字或下划线时将会驻留. 所以 'wtf!' 由于包含 ! 而未被驻留. 可以在这里找到 CPython 对此规则的实现。

  • 当在同一行将 a 和 b 的值设置为 "wtf!" 的时候, Python 解释器会创建一个新对象, 然后同时引用第二个变量。如果你在不同的行上进行赋值操作,它就不会「知道」已经有一个 wtf!对象 (因为 "wtf!" 不是按照上面提到的方式被隐式驻留的). 它是一种编译器优化, 特别适用于交互式环境。

  • 常量折叠 (constant folding) 是 Python 中的一种 窥孔优化 (peephole optimization) 技术。这意味着在编译时表达式 'a'*20 会被替换为 'aaaaaaaaaaaaaaaaaaaa' 以减少运行时的时钟周期。只有长度小于 20 的字符串才会发生常量折叠。(为啥? 想象一下由于表达式 'a'*10**10 而生成的 .pyc 文件的大小)。相关的源码实现在这里(https://github.com/python/cpython/blob/3.6/Python/peephole.c#L288)。

> Time for some hash brownies!/是时候来点蛋糕了!

  • hash brownie 指一种含有大麻成分的蛋糕, 所以这里是句双关

1.

some_dict = {} some_dict[5.5] = "Ruby"
some_dict[5.0] = "JavaScript"
some_dict[5] = "Python"

Output:

"Python" 消除了 "JavaScript" 的存在?

说明:

  • Python 字典通过检查键值是否相等和比较哈希值来确定两个键是否相同。

  • 具有相同值的不可变对象在 Python 中始终具有相同的哈希值。

注意: 具有不同值的对象也可能具有相同的哈希值(哈希冲突).

  • 当执行 some_dict[5] = "Python" 语句时, 因为 Python 将 5 和 5.0 识别为 some_dict 的同一个键, 所以已有值 "JavaScript" 就被 "Python" 覆盖了.

  • 这个 StackOverflow 的回答(https://stackoverflow.com/a/32211042/4354153)漂亮的解释了这背后的基本原理.

> Return return everywhere!/到处返回!

def some_func:
try:
return 'from_try' finally:
return 'from_finally'

Output:

说明:

  • 当在 "try...finally" 语句的 try 中执行 return, break 或 continue 后,finally 子句依然会执行。

  • 函数的返回值由最后执行的 return 语句决定。由于 finally 子句一定会执行,所以 finally 子句中的 return 将始终是最后执行的语句。

> Deep down, we're all the same./本质上, 我们都一样. *

class WTF:
pass

Output:

>>> WTF == WTF # 两个不同的对象应该不相等
False
>>> WTF is WTF # 也不相同
False
>>> hash(WTF) == hash(WTF) # 哈希值也应该不同
True
>>> id(WTF) == id(WTF)
True

说明:

  • 当调用 id 函数时,Python 创建了一个 WTF 类的对象并传给 id 函数。然后 id 函数获取其 id 值 (也就是内存地址),然后丢弃该对象。该对象就被销毁了。

  • 当我们连续两次进行这个操作时,Python 会将相同的内存地址分配给第二个对象。因为 (在 CPython 中) id 函数使用对象的内存地址作为对象的 id 值,所以两个对象的 id 值是相同的。

  • 综上,对象的 id 值仅仅在对象的生命周期内唯一。在对象被销毁之后,或被创建之前,其他对象可以具有相同的 id 值。

  • 那为什么 is 操作的结果为 False 呢?让我们看看这段代码。

class WTF(object):
def __init__(self): print("I")
def __del__(self): print("D")

Output:

正如你所看到的, 对象销毁的顺序是造成所有不同之处的原因.

> For what?/为什么?

some_string = "wtf"
some_dict = {}
for i, some_dict[i] in enumerate(some_string):
pass

Output:

说明:

  • Python 语法 中对 for 的定义是:

for_stmt: 'for' exprlist 'in' testlist ':' suite ['else' ':' suite]

其中 exprlist 指分配目标。这意味着对可迭代对象中的每一项都会执行类似 {exprlist} = {next_value} 的操作。

一个有趣的例子说明了这一点:

for i in range(4):
print(i) i = 10

Output:

0 1 2 3

你可曾觉得这个循环只会运行一次?

说明:

  • 由于循环在 Python 中工作方式,赋值语句 i = 10 并不会影响迭代循环,在每次迭代开始之前,迭代器 (这里指 range(4)) 生成的下一个元素就被解包并赋值给目标列表的变量 (这里指 i) 了。

  • 在每一次的迭代中, enumerate(some_string) 函数就生成一个新值 i (计数器增加) 并从 some_string 中获取一个字符. 然后将字典 some_dict 键 i (刚刚分配的) 的值设为该字符. 本例中循环的展开可以简化为:

>>> i, some_dict[i] = (0, 'w')
>>> i, some_dict[i] = (1, 't')
>>> i, some_dict[i] = (2, 'f')
>>> some_dict

> Evaluation time discrepancy/评估时间差异

1.

array = [1, 8, 15] g = (x for x in array if array.count(x) > 0) array = [2, 8, 22]

Output:

2.

array_1 = [1,2,3,4] g1 = (x for x in array_1) array_1 = [1,2,3,4,5] array_2 = [1,2,3,4] g2 = (x for x in array_2) array_2[:] = [1,2,3,4,5]

Output:

说明

  • 在生成器表达式中,in 子句在声明时执行,而条件子句则是在运行时执行。

  • 所以在运行前,array 已经被重新赋值为 [2, 8, 22],因此对于之前的 1, 8 和 15, 只有 count(8) 的结果是大于 0 的,所以生成器只会生成 8。

  • 第二部分中 g1 和 g2 的输出差异则是由于变量 array_1 和 array_2 被重新赋值的方式导致的。

  • 在第一种情况下,array_1 被绑定到新对象 [1,2,3,4,5],因为 in 子句是在声明时被执行的,所以它仍然引用旧对象 [1,2,3,4](并没有被销毁)。

  • 在第二种情况下,对 array_2 的切片赋值将相同的旧对象 [1,2,3,4] 原地更新为 [1,2,3,4,5]。因此 g2 和 array_2 仍然引用同一个对象 (这个对象现在已经更新为 [1,2,3,4,5])。

> is is not what it is!/出人意料的 is!

下面是一个在互联网上非常有名的例子.

>>> a = 256
>>> b = 256
>>> a is b
True >>> a = 257
>>> b = 257
>>> a is b
False >>> a = 257; b = 257
>>> a is b
True

说明:

is 和 == 的区别

  • is 运算符检查两个运算对象是否引用自同一对象 (即, 它检查两个预算对象是否相同)。

  • == 运算符比较两个运算对象的值是否相等。

  • 因此 is 代表引用相同,== 代表值相等。下面的例子可以很好的说明这点,

256 是一个已经存在的对象, 而 257 不是

当你启动 Python 的时候, -5 到 256 的数值就已经被分配好了。这些数字因为经常使用所以适合被提前准备好。

引用自 https://docs.python.org/3/c-api/long.html

当前的实现为-5 到 256 之间的所有整数保留一个整数对象数组, 当你创建了一个该范围内的整数时, 你只需要返回现有对象的引用. 所以改变 1 的值是有可能的. 我怀疑这种行为在 Python 中是未定义行为. :-)

>>> id(256)
10922528
>>> a = 256
>>> b = 256
>>> id(a)
10922528
>>> id(b)
10922528
>>> id(257)
140084850247312
>>> x = 257
>>> y = 257
>>> id(x)
140084850247440
>>> id(y)
140084850247344

这里解释器并没有智能到能在执行 y = 257 时意识到我们已经创建了一个整数 257,所以它在内存中又新建了另一个对象。

当 a 和 b 在同一行中使用相同的值初始化时,会指向同一个对象。

>>> a, b = 257, 257
>>> id(a)
140640774013296
>>> id(b)
140640774013296
>>> a = 257
>>> b = 257
>>> id(a)
140640774013392
>>> id(b)
140640774013488
  • 当 a 和 b 在同一行中被设置为 257 时, Python 解释器会创建一个新对象, 然后同时引用第二个变量. 如果你在不同的行上进行, 它就不会 "知道" 已经存在一个 257 对象了。

  • 这是一种特别为交互式环境做的编译器优化. 当你在实时解释器中输入两行的时候, 他们会单独编译, 因此也会单独进行优化. 如果你在 .py 文件中尝试这个例子, 则不会看到相同的行为, 因为文件是一次性编译的。

> A tic-tac-toe where X wins in the first attempt!/一蹴即至!

# 我们先初始化一个变量row
row = [""]*3 #row i['', '', '']
# 并创建一个变量board
board = [row]*3

Output:

>>> board [['', '', ''], ['', '', ''], ['', '', '']]
>>> board[0] ['', '', '']
>>> board[0][0]''
>>> board[0][0] = "X"
>>> board [['X', '', ''], ['X', '', ''], ['X', '', '']]

我们有没有赋值过 3 个 "X" 呢?

说明:

当我们初始化 row 变量时, 下面这张图展示了内存中的情况。

而当通过对 row 做乘法来初始化 board 时, 内存中的情况则如下图所示 (每个元素 board[0], board[1] 和 board[2] 都和 row 一样引用了同一列表.)

我们可以通过不使用变量 row 生成 board 来避免这种情况. (这个 issue 提出了这个需求(https://github.com/satwikkansal/wtfpython/issues/68)

>>> board = [['']*3 for _ in range(3)]
>>> board[0][0] = "X"
>>> board [['X', '', ''], ['', '', ''], ['', '', '']]

> The sticky output function/麻烦的输出

funcs =  results = 
for x in range(7):
def some_func:
return x funcs.append(some_func) results.append(some_func) funcs_results = [func() for func in funcs]

Output:

即使每次在迭代中将 some_func 加入 funcs 前的 x 值都不相同, 所有的函数还是都返回 6。

// 再换个例子

>>> powers_of_x = [lambda x: x**i for i in range(10)]
>>> [f(2) for f in powers_of_x] [512, 512, 512, 512, 512, 512, 512, 512, 512, 512]

说明:

  • 当在循环内部定义一个函数时,如果该函数在其主体中使用了循环变量,则闭包函数将与循环变量绑定,而不是它的值。因此,所有的函数都是使用最后分配给变量的值来进行计算的。

  • 可以通过将循环变量作为命名变量传递给函数来获得预期的结果。为什么这样可行?因为这会在函数内再次定义一个局部变量。

funcs = 
for x in range(7):
def some_func(x=x):
return x funcs.append(some_func)

Output:

> is not ... is not is (not ...)/is not ... 不是 is (not ...)

说明:

  • is not 是个单独的二进制运算符,和分别使用 is 和 not 不同。

  • 如果操作符两侧的变量指向同一个对象,则 is not 的结果为 False, 否则结果为 True。

WTF Python:有趣且鲜为人知的Python特性的更多相关文章

  1. python中那些鲜为人知的功能特性

    经常逛GitHub的可能关注一个牛叉的项目,叫 What the f*ck Python! 这个项目列出了几乎所有python中那些鲜为人知的功能特性,有些功能第一次遇见时,你会冒出 what the ...

  2. Python进阶:全面解读高级特性之切片!

    导读:切片系列文章连续写了三篇,本文是对它们做的汇总.为什么要把序列文章合并呢?在此说明一下,本文绝不是简单地将它们做了合并,主要是修正了一些严重的错误(如自定义序列切片的部分),还对行文结构与章节衔 ...

  3. Python 基础 面向对象之二 三大特性

    Python 基础 面向对象之二 三大特性 上一篇主要介绍了Python中,面向对象的类和对象的定义及实例的简单应用,本篇继续接着上篇来谈,在这一篇中我们重点要谈及的内容有:Python 类的成员.成 ...

  4. Python 入门 之 面向对象的三大特性(封装 / 继承 / 多态)

    Python 入门 之 面向对象的三大特性(封装 / 继承 / 多态) 1.面向对象的三大特性: (1)继承 ​ 继承是一种创建新类的方式,在Python中,新建的类可以继承一个或多个父类,父类又可以 ...

  5. python 的排名,已经python的简单介绍

    我在今天看了一篇文章,是简书的全网程序猿写的,Java已经退出神坛,python稳居第一. python是由龟叔写的,它在英文的意思是蟒蛇. 根据编程语言流行指数排行榜2019年2月的榜单 据了解,目 ...

  6. Python语言基础01-初识Python

    本文收录在Python从入门到精通系列文章系列 1. Python简介 1.1 Python的历史 Python的创始人为吉多·范罗苏姆(荷兰语:Guido van Rossum) 1989年的圣诞节 ...

  7. Python - 翻译Talk Python To Me (和我聊Python) 播客

    “和我聊Python”是一个美国的聊天播客,英文名Talk Python To Me,类似于喜马拉雅的音频课程节目,只不过这个主题是编程语言Python.该节目从2015年的节目到现在,已经超过256 ...

  8. python征程3.0(python对象)

    1.python使用对象模型来存储数据.构造任何类型的值都是一个对象.”尽管python被当成一种面向对象的脚本的编程语言“,但你完全能够写出不使用任何类和实例的脚本. python对象都拥有三个特性 ...

  9. 【转】linux和windows下安装python集成开发环境及其python包

    本系列分为两篇: 1.[转]windows和linux中搭建python集成开发环境IDE 2.[转]linux和windows下安装python集成开发环境及其python包 3.windows和l ...

随机推荐

  1. nginx使用手册+基本原理+优缺点

    一.nginx优点 1.反向代理 1.正向代理: 客户端和原始服务器(origin server)之间的服务器,为了从原始服务器取得内容,客户端向代理发送一个请求并指定目标(原始服务器),然后代理向原 ...

  2. 面试刷题27:程序员如何防护java界的新冠肺炎?

    背景 安全是软件设计的第二个非功能性需求,一般是当软件出现安全问题的时候才会得到重视. 最明显的比如 数据库用户信息和密码泄漏等: 数据加解密技术 单向加密 md5+salt值, 这个是软件设计中使用 ...

  3. coding++:Java 获取request中的参数

    第一种: private Map<String,Object> mapParameters(HttpServletRequest request) { //封装查询条件参数 Map< ...

  4. A AK的距离

    时间限制 : - MS   空间限制 : - KB  评测说明 : 1s,128m 问题描述 同学们总想AK.于是何老板给出一个由大写字母构成的字符串,他想你帮忙找出其中距离最远的一对'A'和'K'. ...

  5. CSS 基础(二)

    本节内容: 文本 字体 链接 列表 表格 一.文本 文本颜色 颜色属性被用来设置文字的颜色. 三种方式: 十六进制值 - 如: #FF0000 一个RGB值 - 如: RGB(255,0,0) 颜色的 ...

  6. python中使用163邮箱发送邮件一直报错的问题,谁能解决(已经各种百度完了,没能解决问题)

    1.报错如下: 2.代码如下:

  7. Vlan间通讯,动态路由

    Vlan间通讯,动态路由 案例1:三层交换vlan间通信 案例2:多交换机vlan间通信 案例3:三层交换配置路由 案例4:RIP动态路由配置 案例5:三层交换配置RIP动态路由 1 案例1:三层交换 ...

  8. Hadoop(七):自定义输入输出格式

    MR输入格式概述 数据输入格式 InputFormat. 用于描述MR作业的数据输入规范. 输入格式在MR框架中的作用: 文件进行分块(split),1个块就是1个Mapper任务. 从输入分块中将数 ...

  9. tp6源码解析-第二天,ThinkPHP6编译模板流程详解,ThinkPHP6模板源码详解

    TP6源码解析,ThinkPHP6模板编译流程详解 前言:刚开始写博客.如果觉得本篇文章对您有所帮助.点个赞再走也不迟 模板编译流程,大概是: 先获取到View类实例(依赖注入也好,通过助手函数也好) ...

  10. go 结构开发规范

    机构规范: // 当前程序的包名 package main //导入其他的包 import "fmt" //常量的定义 const PI=3.14 //全局变量的声明和赋值 var ...