python I/O多路复用使用http完成http请求

1. 使用类实现比较方便我们使用里面的参数

2. 我们使用selector，不适用select

from selectors import DefaultSelector

3. I/O多路复用是指使用回调+事件循环+select(poll\epoll)

　　a. 使用selector注册，并注册回调函数

　　b. 使用事件循环一直循环，查询状态

　　c. 使用select调用相应的回调函数

import socket

from urllib.parse import urlparse

from selectors import DefaultSelector, EVENT_READ, EVENT_WRITE

selector = DefaultSelector()

#使用select完成http请求

urls = []

stop = False

class Fetcher:

    def connected(self, key):

        selector.unregister(key.fd)

        self.client.send("GET {} HTTP/1.1\r\nHost:{}\r\nConnection:close\r\n\r\n".format(self.path, self.host).encode("utf8"))

        selector.register(self.client.fileno(), EVENT_READ, self.readable)

    def readable(self, key):

        d = self.client.recv(1024)

        if d:

            self.data += d

        else:

            selector.unregister(key.fd)

            data = self.data.decode("utf8")

            html_data = data.split("\r\n\r\n")[1]

            print(html_data)

            self.client.close()

            urls.remove(self.spider_url)

            if not urls:

                global stop

                stop = True

    def get_url(self, url):

        self.spider_url = url

        url = urlparse(url)

        self.host = url.netloc

        self.path = url.path

        self.data = b""

        if self.path == "":

            self.path = "/"

        # 建立socket连接

        self.client = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

        self.client.setblocking(False)

        try:

            self.client.connect((self.host, 80))  # 阻塞不会消耗cpu，不阻塞，使其一直运行下去，因为这里不使用socket.blocking(True)会抛出异常。

        except BlockingIOError as e:

            pass

        #注册

        selector.register(self.client.fileno(), EVENT_WRITE, self.connected)

def loop():

    #事件循环，不停的请求socket的状态并调用对应的回调函数

    #1. select本身是不支持register模式

    #2. socket状态变化以后的回调是由程序员完成的

    while not stop:

        ready = selector.select()

        for key, mask in ready:

            call_back = key.data

            call_back(key)

    #回调+事件循环+select(poll\epoll)

if __name__ == "__main__":

    fetcher = Fetcher()

    import time

    start_time = time.time()

    for url in range(20):

        url = "http://shop.projectsedu.com/goods/{}/".format(url)

        urls.append(url)

        fetcher = Fetcher()

        fetcher.get_url(url)

    loop()

    print(time.time()-start_time)

回调之痛

1. 代码可读性差，因为嵌套了多层回调

2. 共享状态困难，这里指的是共享变量，如socket的变量

3. 异常处理困难，如果嵌套多层，异常难以处理

python I/O多路复用使用http完成http请求的更多相关文章

{python之IO多路复用} IO模型介绍阻塞IO(blocking IO) 非阻塞IO(non-blocking IO) 多路复用IO(IO multiplexing) 异步IO(Asynchronous I/O) IO模型比较分析 selectors模块
python之IO多路复用阅读目录一 IO模型介绍二阻塞IO(blocking IO) 三非阻塞IO(non-blocking IO) 四多路复用IO(IO multiplexing) 五 ...
python通过get方式,post方式发送http请求和接收http响应-urllib urllib2
python通过get方式,post方式发送http请求和接收http响应-- import urllib模块,urllib2模块, httplib模块 http://blog.163.com/xyc ...
python爬虫如何POST request payload形式的请求
python爬虫如何POST request payload形式的请求1. 背景最近在爬取某个站点时,发现在POST数据时,使用的数据格式是request payload,有别于之前常见的 POST数 ...
Python—I/O多路复用
一.I/O多路复用概念: 监听多个描述符的状态,如果描述符状态改变,则会被内核修改标志位,从而被进程获取进而进行读写操作二.select,poll,epoll select模块,提供了:select ...
python之IO多路复用
在python的网络编程里,socetserver是个重要的内置模块,其在内部其实就是利用了I/O多路复用.多线程和多进程技术,实现了并发通信.与多进程和多线程相比,I/O多路复用的系统开销小,系统不 ...
【python】-- IO多路复用（select、poll、epoll）介绍及实现
IO多路复用(select.poll.epoll)介绍及select.epoll的实现 IO多路复用中包括 select.pool.epoll,这些都属于同步,还不属于异步一.IO多路复用介绍 1. ...
python中IO多路复用、协程
一.IO多路复用 IO多路复用:检测多个socket是否已经发生变化(是否已经连接成功/是否已经获取数据)(可读/可写) import socket def get_data(key): client ...
09 Python之IO多路复用
四种常见IO模型阻塞IO(blocking IO).非阻塞IO(nonblocking IO).IO多路复用(IOmultiplexing).异步IO(asynchronous IO) IO发生时涉 ...
Python poll IO多路复用
一.poll介绍 poll本质上和select没有区别,只是没有了最大连接数(linux上默认1024个)的限制,原因是它基于链表存储的. 本人的另一篇博客讲了 python select : ht ...

随机推荐

linux生成多对秘钥并指定秘钥登录
1.生成秘钥对并指定秘钥对名称: ssh-keygen -t rsa -f other -C "for other" 2.将other.pub公钥添加至要免密登录的服务器 3.使用 ...
Web前端—— JQuery迷你版实现以及使用
JQuery迷你版实现以及使用 tiny_jquery.js var $ = function (selector) { var ele = document.querySelector(select ...
centos查找文件及文件内容
1.查找文件 find / -name 'filename' 2.查找文件夹(目录) find / -name 'path' -type d 3.查找内容 find . | xargs grep -r ...
表达式树练习实践：C#判断语句
目录表达式树练习实践:C#判断语句 if if...else switch ?? 和 ?: 表达式树练习实践:C#判断语句判断语句 C# 提供了以下类型的判断语句: 语句描述 if 一个 if ...
20个Python代码段，你需要立刻学会，好用到哭！
Python是一种非BS编程语言.设计简单和易读性是它广受欢迎的两大原因.正如Python的宗旨:美丽胜于丑陋,显式胜于隐式. 记住一些帮助提高编码设计的常用小诀窍是有用的.在必要时刻,这些小诀窍能够 ...
DevExpress的下拉框控件ComboxBoxEdit怎样绑定键值对选项
场景 DevExpress的下拉框控件ComboBoxEdit控件的使用: https://blog.csdn.net/BADAO_LIUMANG_QIZHI/article/details/1028 ...
Spring Boot的注解，你知道或者不知道的都在这里！
1.1 定义 Annotation(注解),用于为Java代码提供元数据.简单理解注解可以看做是一个个标签,用来标记代码.是一种应用于类.方法.参数.变量.构造器及包的一种特殊修饰符. 1.2 注解的 ...
HTTP 压测工具wrk简介
前段时间项目压测,看到开发命令行下使用这个命令进行压测非常简洁.方便,萌发了学习的兴趣,这里仅做简单介绍. 安装 wrk支持大多数UNIX系统,不支持Windows.需要操作系统支持LuaJIT和Op ...
控件类——Button、UIControlState状态、title及其属性
封装: 封装按钮:1.有提示文字 —>UILable 2.并且可以点击 —> UIControl UIButton:是一个按钮(系统已经把UIControl封装好了). 里面可以放文字. ...
使用maven-compiler-plugin以及maven-shade-plugin完成maven项目打包
最近负责一个纯maven项目(项目需求尽量轻量化),需要自己完成打包工作. 因此,基于maven-compiler-plugin以及maven-shade-plugin完成项目的打包工作. 其中: m ...

python I/O多路复用 使用http完成http请求

python I/O多路复用 使用http完成http请求的更多相关文章

随机推荐

热门专题

python I/O多路复用使用http完成http请求

python I/O多路复用使用http完成http请求的更多相关文章