协程的IO

asyncio 作为实现异步编程的库,任务执行中遇到系统IO的时能够自动切换到其他任务。协程使用的IO模型是IO多路复用。asyncio 低阶API 一篇中提到过 “以Linux系统为例,IO模型有阻塞,非阻塞,IO多路复用等。asyncio 常用的是IO多路复用模型的epoolkqueue”。本篇就介绍一下IO多路复用技术以及操作系统的IO,为后续内容做一个铺垫。

什么是IO

根据冯.诺依曼结构,它将计算机分成分为5个部分:运算器、控制器、存储器、输入设备、输出设备。

涉及计算机核心与其他设备间数据迁移的过程就是IO

常见的IO包括:文件的读写、网络请求。

以文件读写为例,一个应用程序读一个文件。一个应用程序就是一个进程,操作系统为每一个进程分配的内存分为两个部分,分别是用户空间和内核空间。以32位系统为例,用户空间分配3GB,内核空间分为1GB。IO操作因为都是和硬件设备交互,所以不能让用户进程直接操作,而是需要进程调用操作提供提供的API来完成。

应用程序读一个文件的流程是:

  1. 应用程序调用系统提供读文件的命令
  2. 系统将磁盘中文件内容读取到内核空间
  3. 系统将文件内容从内核空间拷贝的用户空间
  4. 应用程序读取用户空间中的文件内容

从文件IO总结IO的基本流程为:

总结来看,IO操作的基本流程是:

  1. 应用程序发起IO调用
  2. 操作系统完成IO操作

阻塞IO模型

阻塞IO模型就是应用程序发起IO调用之后一直阻塞等待,一直等到数据从内核空间拷贝用户空间,此次调用才算完成。

流程图如下:

存在问题:

如果内核数据一直没准备好,那用户进程将一直阻塞,CPU空转而浪费时间。并发大的情况下将导致进程数量变大,限制并发数量。

非阻塞IO模型

应用程序发起IO调用,如果内核空间数据还没读取完成,可以先返回错误信息给用户进程,让它不需要等待,而是通过轮询的方式再来请求。这就是非阻塞IO,流程图如下:

非阻塞IO的流程如下:

  • 应用进程向操作系统内核,发起读取数据。
  • 操作系统内核数据没有准备好,立即返回错误码。
  • 应用程序轮询调用,继续向操作系统内核发起读取数据。
  • 操作系统内核空间读取数据完成,从内核缓冲区拷贝到用户空间。
  • 完成调用,返回成功提示。

存在问题:

它相对于阻塞IO,虽然大幅提升了性能,但是它依然存在性能问题,即频繁的轮询,导致频繁的系统调用,同样会消耗大量的CPU资源。

IO多路复用模型

非阻塞IO的问题

非阻塞IO模型下并发情况下应用程序可能会发送上千次请求,如果每一次请求的IO都需要轮询获取结果,那么应用就需要创建上千个线程去轮询监听数据是否拷贝完成。

这么多的线程不断调用系统函数 recvfrom 请求数据,首先服务器不能支持这么多请求,其次这种方式太浪费资源了,线程是我们操作系统的宝贵资源,大量的线程用来去读取数据了,那么就意味着能做其它事情的线程就会少。如何解决这个问题呢?使用IO多路复用可以将轮询监听的线程降低到1个。

IO多路复用介绍

IO多路复用的原理

可以由一个线程监控多个网络请求,当有数据准备好之后再通知对应的线程去读取数据。这样就可以只需要一个线程完成数据是否就绪状态的查询。通过复用一个轮询的线程节省出大量的线程资源出来,这个就是IO复用模型的思路。

IO多路复用的流程

  1. 应用程序调用IO请求返回一个文件描述符
  2. IO多路复用的函数(select、poll、epoll)同时监控多个文件描述符
  3. 当某一个文件描述符的状态变成就绪时,IO多路复用函数通知对应应用程序
  4. 应用程序读取文件,数据从内核空间拷贝的用户空间,完成数据IO

IO多路复用使用的函数有三种,分别是:select、poll、epoll。三者在实现上有一些区别。IO多路复用实现的核心思想是监听文件描述符fd的状态,当fd状态就绪时通知对应的应用读取数据。

select

应用进程通过调用select函数,可以同时监控多个文件描述符。在select函数监控的fd中,只要有任何一个数据状态准备就绪了,select函数就会返回可读状态,这时应用进程再发起recvfrom请求去读取数据。

select缺点:

  • 监听的IO最大连接数有限,在Linux系统上一般为1024。
  • select函数是通过遍历fdset,找到就绪的描述符fd。遍历的时间性能消耗较大

poll

由于select存在连接数限制,所以后来又提出了poll。poll模型里面通过使用链表的形式来保存自己监控的fd信息,连接数限制问题。

缺点:

select和poll一样,还是需要通过遍历文件描述符来获取已经就绪的socket。如果同时连接的大量客户端在一时刻可能只有极少处于就绪状态,伴随着监视的描述符数量的增长,效率也会线性下降。

epoll

epoll并不是像select一样去遍历事件列表逐个轮询的监控fd的事件状态,而是事先就建立了fd与之对应的回调函数,当事件激活后主动回调将fd加入到就绪链表中,这也就避免了遍历事件列表的这个操作。

这里去掉了遍历文件描述符的低性能操作,而是采用监听事件回调的的机制。这就是epoll的亮点。

小结

需要注意的是IO多路复用也是阻塞的IO,只不过它能并发处理的IO效率更高。

信号驱动模型

信号驱动IO不再用主动询问的方式去确认数据是否就绪,而是向内核发送一个信号(调用sigaction的时候建立一个SIGIO的信号),然后应用用户进程可以去做别的事,不用阻塞。当内核数据准备好后,再通过SIGIO信号通知应用进程,数据准备好后的可读状态。应用用户进程收到信号之后,立即调用recvfrom,去读取数据。

信号驱动IO模型,在应用进程发出信号后,是立即返回的,不会阻塞进程。它已经有异步操作的感觉了。但是数据复制到应用缓冲的时候,应用进程还是阻塞的。

回过头来看下,不管是非阻塞IO、IO多路复用还是信号驱动,在数据从内核复制到应用缓冲的时候,都是阻塞的。

异步IO模型

非阻塞IO、IO多路复用还是信号驱动在数据从内核复制到应用缓冲的时候,都是阻塞的,因此都不是真正的异步。

异步IO实现了IO全流程的非阻塞,就是应用进程发出系统调用后,是立即返回的,但是立即返回的不是处理结果,而是表示提交成功类似的意思。等内核数据准备好,将数据拷贝到用户进程缓冲区,发送信号通知用户进程IO操作执行完毕。

异步IO的原理很简单,只需要向内核发送一次请求,就可以完成数据状态询问和数据拷贝的所有操作,并且不用阻塞等待结果。

同步、异步、阻塞、非阻塞总结

相关术语:

  • 同步阻塞(blocking-IO)简称BIO
  • 同步非阻塞(non-blocking-IO)简称NIO
  • 异步非阻塞(asynchronous-non-blocking-IO)简称AIO

参考文章:

https://zhuanlan.zhihu.com/p/439770090

Python异步编程原理篇之协程的IO的更多相关文章

  1. Python【第十篇】协程、异步IO

    大纲 Gevent协程 阻塞IO和非阻塞IO.同步IO和异步IO的区别 事件驱动.IO多路复用(select/poll/epoll) 1.协程 1.1协程的概念 协程,又称微线程,纤程.英文名Coro ...

  2. python 并发编程 基于gevent模块 协程池 实现并发的套接字通信

    基于协程池 实现并发的套接字通信 客户端: from socket import * client = socket(AF_INET, SOCK_STREAM) client.connect(('12 ...

  3. 这篇文章讲得精彩-深入理解 Python 异步编程(上)!

    可惜,二和三现在还没有出来~ ~~~~~~~~~~~~~~~~~~~~~~~~~ http://python.jobbole.com/88291/ ~~~~~~~~~~~~~~~~~~~~~~~~~~ ...

  4. 深入理解 Python 异步编程(上)

    http://python.jobbole.com/88291/ 前言 很多朋友对异步编程都处于"听说很强大"的认知状态.鲜有在生产项目中使用它.而使用它的同学,则大多数都停留在知 ...

  5. python 异步编程

    Python 3.5 协程究竟是个啥 Yushneng · Mar 10th, 2016 原文链接 : How the heck does async/await work in Python 3.5 ...

  6. 最新Python异步编程详解

    我们都知道对于I/O相关的程序来说,异步编程可以大幅度的提高系统的吞吐量,因为在某个I/O操作的读写过程中,系统可以先去处理其它的操作(通常是其它的I/O操作),那么Python中是如何实现异步编程的 ...

  7. python异步编程 (转载)

    Python Async/Await入门指南   转自:https://zhuanlan.zhihu.com/p/27258289 本文将会讲述Python 3.5之后出现的async/await的使 ...

  8. JavaScript异步编程原理

    众所周知,JavaScript 的执行环境是单线程的,所谓的单线程就是一次只能完成一个任务,其任务的调度方式就是排队,这就和火车站洗手间门口的等待一样,前面的那个人没有搞定,你就只能站在后面排队等着. ...

  9. Python之线程、进程和协程

    python之线程.进程和协程 目录: 引言 一.线程 1.1 普通的多线程 1.2 自定义线程类 1.3 线程锁 1.3.1 未使用锁 1.3.2 普通锁Lock和RLock 1.3.3 信号量(S ...

  10. 深入理解Python异步编程(上)

    本文代码整理自:深入理解Python异步编程(上) 参考:A Web Crawler With asyncio Coroutines 一.同步阻塞方式 import socket def blocki ...

随机推荐

  1. docker制作compose

    第一步,先了解Compose是什么? Compose 项目是 Docker 官方的开源项目,负责实现对 Docker 容器集群的快速编排. Compose有两个重要的概念 1.项目 :由一组关联的应用 ...

  2. [GDOI22pj2C] 教室的电子钟

    第三题 教室的电子钟 提交文件: clock.cpp 输入文件: clock.in 输出文件: clock.out 时间空间限制: 1 秒, 256 MB 为了迎接 GDOI,小蒟蒻学校所有教室的钟都 ...

  3. EEPROM M24C64替换AT24C64出现读取数据为0xff情况解决办法

    EEPROM M24C64替换AT24C64出现读取数据为0xff情况解决办法 硬件情况 STM32F103CBT6+模拟IIC,主频72MHz,IIC上拉电阻3.3kΩ 出现原因 在IIC停止信号上 ...

  4. 华企盾DSC造成svn、git连接不上常见处理方法

    1.检查svn服务器是否正在运行 2.检查个人模式连接不上服务器网络加密了客户端未加密(查看客户端日志进程是否为legal:1网络访问设置是否正常,试试只加密服务器IP及端口的方式),个人模式可以连接 ...

  5. 万界星空科技仓库管理wms系统

    ​ 企业在管理库存时,尤其是生产制造企业,使用传统方式比如纸笔.Excel 管理库存,由于工具和信息化存在局限,导致在管理库存时出现如下问题: 1.通过纸笔记录出入库申请,人为手动计算易出错,数据易丢 ...

  6. MacOS Sonoma14.2.1系统SSH免密登录

    摘要:MacOS下免密登录的一些注意事项. 系统环境 操作系统:macOS Sonoma 14.2.1 SSH免密登录 ssh免密登录的原理是在本机生成本机的ssh公钥和私钥,将公钥上传至待连接的主机 ...

  7. zabbix_agent配置文件

    agent常用参数 : [root@jqebsdb zabbix]# cat zabbix_agentd.conf  | grep -v ^$ | grep -v ^# PidFile=/var/ru ...

  8. C# 在Word中添加Latex 数学公式和符号

    本篇内容介绍使用Spire.Doc for .NET在Word中添加Latex数学公式和符号的方法.编辑代码前,将Spire.Doc.dll文件添加引用至VS程序.dll文件包可通过官网下载导入(如果 ...

  9. 神经网络基础篇:史上最详细_详解计算图(Computation Graph)

    计算图 可以说,一个神经网络的计算,都是按照前向或反向传播过程组织的.首先计算出一个新的网络的输出(前向过程),紧接着进行一个反向传输操作.后者用来计算出对应的梯度或导数.计算图解释了为什么用这种方式 ...

  10. 华为云MVP高浩:打破AI开发瓶颈,解决数据、算法、算力三大难题

    摘要:在高浩看来,大量的数字蓝领人才和AI应用开发人员构成了当前AI行业发展人才之基,这也为高校学生就业初期从事的工作指明了方向,而华为ModelArts平台在教育领域有着天然的数据.算法优势,非常适 ...