本文适合有 Python 基础的小伙伴进阶学习

作者:pwwang

一、前言

本文基于开源项目:

https://github.com/pwwang/python-import-system

补充扩展讲解,希望能够让读者一文搞懂 Python 的 import 机制。

1.1 什么是 import 机制?

通常来讲,在一段 Python 代码中去执行引用另一个模块中的代码,就需要使用 Python 的 import 机制。import 语句是触发 import 机制最常用的手段,但并不是唯一手段。

importlib.import_module__import__ 函数也可以用来引入其他模块的代码。

1.2 import 是如何执行的?

import 语句会执行两步操作:

  1. 搜索需要引入的模块
  2. 将模块的名字做为变量绑定到局部变量中

搜索步骤实际上是通过 __import__ 函数完成的,而其返回值则会作为变量被绑定到局部变量中。下面我们会详细聊到 __import__ 函数是如果运作的。

二、import 机制概览

下图是 import 机制的概览图。不难看出,当 import 机制被触发时,Python 首先会去 sys.modules 中查找该模块是否已经被引入过,如果该模块已经被引入了,就直接调用它,否则再进行下一步。这里 sys.modules 可以看做是一个缓存容器。值得注意的是,如果 sys.modules 中对应的值是 None 那么就会抛出一个 ModuleNotFoundError 异常。下面是一个简单的实验:

In [1]: import sys

In [2]: sys.modules['os'] = None

In [3]: import os
---------------------------------------------------------------------------
ModuleNotFoundError Traceback (most recent call last)
<ipython-input-3-543d7f3a58ae> in <module>
----> 1 import os ModuleNotFoundError: import of os halted; None in sys.modules

如果在 sys.modules 找到了对应的 module,并且这个 import 是由 import 语句触发的,那么下一步将对把对应的变量绑定到局部变量中。

如果没有发现任何缓存,那么系统将进行一个全新的 import 过程。在这个过程中 Python 将遍历 sys.meta_path 来寻找是否有符合条件的元路径查找器(meta path finder)。sys.meta_path 是一个存放元路径查找器的列表。它有三个默认的查找器:

  • 内置模块查找器
  • 冻结模块(frozen module)查找器
  • 基于路径的模块查找器。
In [1]: import sys

In [2]: sys.meta_path
Out[2]:
[_frozen_importlib.BuiltinImporter,
_frozen_importlib.FrozenImporter,
_frozen_importlib_external.PathFinder]

查找器的 find_spec 方法决定了该查找器是否能处理要引入的模块并返回一个 ModeuleSpec 对象,这个对象包含了用来加载这个模块的相关信息。如果没有合适的 ModuleSpec 对象返回,那么系统将查看 sys.meta_path 的下一个元路径查找器。如果遍历 sys.meta_path 都没有找到合适的元路径查找器,将抛出 ModuleNotFoundError。引入一个不存在的模块就会发生这种情况,因为 sys.meta_path 中所有的查找器都无法处理这种情况:

In [1]: import nosuchmodule
---------------------------------------------------------------------------
ModuleNotFoundError Traceback (most recent call last)
<ipython-input-1-40c387f4d718> in <module>
----> 1 import nosuchmodule ModuleNotFoundError: No module named 'nosuchmodule'

但是,如果这个手动添加一个可以处理这个模块的查找器,那么它也是可以被引入的:

In [1]: import sys
...:
...: from importlib.abc import MetaPathFinder
...: from importlib.machinery import ModuleSpec
...:
...: class NoSuchModuleFinder(MetaPathFinder):
...: def find_spec(self, fullname, path, target=None):
...: return ModuleSpec('nosuchmodule', None)
...:
...: # don't do this in your script
...: sys.meta_path = [NoSuchModuleFinder()]
...:
...: import nosuchmodule
---------------------------------------------------------------------------
ImportError Traceback (most recent call last)
<ipython-input-6-b7cbf7e60adc> in <module>
11 sys.meta_path = [NoSuchModuleFinder()]
12
---> 13 import nosuchmodule ImportError: missing loader

可以看到,当我们告诉系统如何去 find_spec 的时候,是不会抛出 ModuleNotFound 异常的。但是要成功加载一个模块,还需要加载器 loader

加载器是 ModuleSpec 对象的一个属性,它决定了如何加载和执行一个模块。如果说 ModuleSpec 对象是“师父领进门”的话,那么加载器就是“修行在个人”了。在加载器中,你完全可以决定如何来加载以及执行一个模块。这里的决定,不仅仅是加载和执行模块本身,你甚至可以修改一个模块:

In [1]: import sys
...: from types import ModuleType
...: from importlib.machinery import ModuleSpec
...: from importlib.abc import MetaPathFinder, Loader
...:
...: class Module(ModuleType):
...: def __init__(self, name):
...: self.x = 1
...: self.name = name
...:
...: class ExampleLoader(Loader):
...: def create_module(self, spec):
...: return Module(spec.name)
...:
...: def exec_module(self, module):
...: module.y = 2
...:
...: class ExampleFinder(MetaPathFinder):
...: def find_spec(self, fullname, path, target=None):
...: return ModuleSpec('module', ExampleLoader())
...:
...: sys.meta_path = [ExampleFinder()] In [2]: import module In [3]: module
Out[3]: <module 'module' (<__main__.ExampleLoader object at 0x7f7f0d07f890>)> In [4]: module.x
Out[4]: 1 In [5]: module.y
Out[5]: 2

从上面的例子可以看到,一个加载器通常有两个重要的方法 create_moduleexec_module 需要实现。如果实现了 exec_module 方法,那么 create_module 则是必须的。如果这个 import 机制是由 import 语句发起的,那么 create_module 方法返回的模块对象对应的变量将会被绑定到当前的局部变量中。如果一个模块因此成功被加载了,那么它将被缓存到 sys.modules。如果这个模块再次被加载,那么 sys.modules 的缓存将会被直接引用。

三、import 勾子(import hooks)

为了简化,我们在上述的流程图中,并没有提到 import 机制的勾子。实际上你可以添加一个勾子来改变 sys.meta_path 或者 sys.path,从而来改变 import 机制的行为。上面的例子中,我们直接修改了 sys.meta_path。实际上,你也可以通过勾子来实现:

In [1]: import sys
...: from types import ModuleType
...: from importlib.machinery import ModuleSpec
...: from importlib.abc import MetaPathFinder, Loader
...:
...: class Module(ModuleType):
...: def __init__(self, name):
...: self.x = 1
...: self.name = name
...:
...: class ExampleLoader(Loader):
...: def create_module(self, spec):
...: return Module(spec.name)
...:
...: def exec_module(self, module):
...: module.y = 2
...:
...: class ExampleFinder(MetaPathFinder):
...: def find_spec(self, fullname, path, target=None):
...: return ModuleSpec('module', ExampleLoader())
...:
...: def example_hook(path):
...: # some conditions here
...: return ExampleFinder()
...:
...: sys.path_hooks = [example_hook]
...: # force to use the hook
...: sys.path_importer_cache.clear()
...:
...: import module
...: module
Out[1]: <module 'module' (<__main__.ExampleLoader object at 0x7fdb08f74b90>)>

四、元路径查找器(meta path finder)

元路径查找器的工作就是看是否能找到模块。这些查找器存放在 sys.meta_path 中以供 Python 遍历(当然它们也可以通过 import 勾子返回,参见上面的例子)。每个查找器必须实现 find_spec 方法。如果一个查找器知道怎么处理将引入的模块,find_spec 将返回一个 ModuleSpec 对象(参见下节)否则返回 None

和之前提到的一样 sys.meta_path 包含三种查找器:

  • 内置模块查找器
  • 冻结模块查找器
  • 基于路径的查找器

这里我们想重点聊一聊基于路径的查找器(path based finder)。它用于搜索一系列 import 路径,每个路径都用来查找是否有对应的模块可以加载。默认的路径查找器实现了所有在文件系统的特殊文件中查找模块的功能,这些特殊文件包括 Python 源文件(.py 文件),Python 编译后代码文件(.pyc 文件),共享库文件(.so 文件)。如果 Python 标准库中包含 zipimport,那么相关的文件也可用来查找可引入的模块。

路径查找器不仅限于文件系统中的文件,它还可以上 URL 数据库的查询,或者其他任何可以用字符串表示的地址。

你可以用上节提供的勾子来实现对同类型地址的模块查找。例如,如果你想通过 URL 来 import 模块,那么你可以写一个 import 勾子来解析这个 URL 并且返回一个路径查找器。

注意,路径查找器不同于元路径查找器。后者在 sys.meta_path 中用于被 Python 遍历,而前者特指基于路径的查找器。

五、ModuleSpec 对象

每个元路径查找器必须实现 find_spec 方法,如果该查找器知道如果处理要引入的模块,那么这个方法将返回一个 ModuleSpec 对象。这个对象有两个属性值得一提,一个是模块的名字,而另一个则是查找器。如果一个 ModuleSpec 对象的查找器是 None,那么类似 ImportError: missing loader 的异常将会被抛出。查找器将用来创建和执行一个模块(见下节)。

你可以通过 <module>.__spec__ 来查找模块的 ModuleSpec 对象:

In [1]: import sys

In [2]: sys.__spec__
Out[2]: ModuleSpec(name='sys', loader=<class '_frozen_importlib.BuiltinImporter'>)

六、加载器(loader)

加载器通过 create_module 来创建模块以及 exec_module 来执行模块。通常如果一个模块是一个 Python 模块(非内置模块或者动态扩展),那么该模块的代码需要在模块的 __dict__ 空间上执行。如果模块的代码无法执行,那么就会抛出 ImportError 异常,或者其他在执行过程中的异常也会被抛出。

绝大多数情况下,查找器和加载器是同一个东西。这种情况下,查找器的 find_spec 方法返回的 ModuleSpec 对象的 loader 属性将指向它自己。

我们可以用 create_module 来动态创建一个模块,如果它返回 None Python 会自动创建一个模块。

七、总结

Python 的 import 机制灵活而强大。以上的介绍大部分是基于官方文档,以及较新的 Python 3.6+ 版本。由于篇幅,还有很多细节并没有包含其中,例如子模块的加载、模块代码的缓存机制等等。文章中也难免出现纰漏如果有任何问题,欢迎到 https://github.com/pwwang/python-import-system 开 issue 提问及讨论。

初窥 Python 的 import 机制的更多相关文章

  1. python 的import机制2

    http://blog.csdn.net/sirodeng/article/details/17095591   python 的import机制,以备忘: python中,每个py文件被称之为模块, ...

  2. 关于Python的import机制原理

    很多人用过python,不假思索地在脚本前面加上import module_name,但是关于import的原理和机制,恐怕没有多少人真正的理解.本文整理了Python的import机制,一方面自己总 ...

  3. 深入探讨 Python 的 import 机制:实现远程导入模块

        深入探讨 Python 的 import 机制:实现远程导入模块 所谓的模块导入( import ),是指在一个模块中使用另一个模块的代码的操作,它有利于代码的复用. 在 Python 中使用 ...

  4. python之import机制

    1. 标准 import        Python 中所有加载到内存的模块都放在 sys.modules .当 import 一个模块时首先会在这个列表中查找是否已经加载了此模块,如果加载了则只是将 ...

  5. Python中import机制

    Python语言中import的使用很简单,直接使用import module_name语句导入即可.这里我主要写一下"import"的本质. Python官方定义:Python ...

  6. Python的import机制

    模块与包 在了解 import 之前,有两个概念必须提一下: 模块: 一个 .py 文件就是一个模块(module) 包: __init__.py 文件所在目录就是包(package) 当然,这只是极 ...

  7. [转] Python的import初探

    转载自:http://www.lingcc.com/2011/12/15/11902/#sec-1 日常使用python编程时,为了用某个代码模块,通常需要在代码中先import相应的module.那 ...

  8. Python中import的使用方法

    源文出处: "import"的本质参照: Python中import机制 python导入自定义模块和包

  9. python爬虫 scrapy2_初窥Scrapy

    sklearn实战-乳腺癌细胞数据挖掘 https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campai ...

随机推荐

  1. PPT 转 word

    可以wps  直接转 打开wps   在页面里直接点击右键  可以导出wps

  2. IE浏览器F12无法使用

    原文链接http://zhhll.icu/2020/04/07/windows/IE%E6%B5%8F%E8%A7%88%E5%99%A8F12%E6%97%A0%E6%B3%95%E4%BD%BF% ...

  3. 算法历练之路——入学考试(JAVA)

    入学考试 时间限制: 1Sec 内存限制: 128MB 提交: 42 解决: 18 题目描述辰辰是个天资聪颖的孩子,他的梦想是成为世界 上最伟大的医师.为此,他想拜附近最有威望的医师为师.医师为了判断 ...

  4. MalformedByteSequenceException: 1字节的 UTF-8 序列的字节 1 无效

    记住,每次修改了配置之后都 clean 一下,把 target 删除 第一种解决方案 去掉 pom.xml 中的 properties <properties> <maven.com ...

  5. windows下的:开始→运行→命令

    开始→运行→命令 集锦                          winver---------检查Windows版本wmimgmt.msc----打开windows管理体系结构(WMI)wu ...

  6. 与数论的厮守05:gcd(a,b)=gcd(b,a mod b)的证明

    \[设c=gcd(a,b),那么a可以表示为mc,b可以表示为nc的形式.然后令a=kb+r,那么我们就\\ 只需要证明gcd(b,r)=c即可.{\because}r=a-kb=mc-knc,{\t ...

  7. [Usaco2010 Hol]cowpol 奶牛政坛

    题目描述: 农夫约翰的奶牛住在N (2 <= N <= 200,000)片不同的草地上,标号为1到N.恰好有N-1条单位长度的双向道路,用各种各样的方法连接这些草地.而且从每片草地出发都可 ...

  8. Python 身份证校验代码

    Python 身份证校验代码 居民身份证bai编号识别 1.身份证编码规则如下:根据[中华人民共和国国家标准GB11643-1999]中有关公民身份号码的规定,公民身份号码是特征组合码,由十七位数字本 ...

  9. 精通MySQL之架构篇

    老刘是即将找工作的研究生,自学大数据开发,一路走来,感慨颇深,网上大数据的资料良莠不齐,于是想写一份详细的大数据开发指南.这份指南把大数据的[基础知识][框架分析][源码理解]都用自己的话描述出来,让 ...

  10. Samba共享工具安装

    Samba 是一种在局域网上共享文件的一种通信协议,它为局域网内的不同计算机之间提供文件的共享服务. (1)下载并安装 Samba 工具. 确定 Ubuntu 已连接到互联网, 执行如下命令下载 Sa ...