Python 协程并发爬虫网页

简单爬虫实例：

功能：通过urllib.request实现网站爬虫，捕获网站内容。

from urllib import request

def f(url):

    print("GET:%s"% url)

    # 实例化

    resp = request.urlopen(url)

    # data就是下载的网页

    data = resp.read()

    # 打开url下载到本地

    f = open("url.html","wb")

    f.write(data)

    f.close()

    print('%d bytes received from %s.' % (len(data), url))

# 需要爬的网页

f("http://www.cnblogs.com/alex3714/articles/5248247.html")

遇到IO阻塞时会自动切换任务：

功能：爬虫网页，并通过gevent.monkey 实现io自动切换，并发并行捕获网页。

测试：并行时间，串行时间。

import gevent,time

from urllib import request

from gevent import monkey

# 把当前程序的所有的io操作给我单独的坐上标记

# 相当于gevent.sleep

monkey.patch_all()

def f(url):

    print("GET:%s"% url)

    # 实例化网页捕获

    resp = request.urlopen(url)

    #　data就是下载的网页

    data = resp.read()

    print('%d bytes received from %s.' % (len(data), url))

#---------------------------串行------------------------------#

# 创建列表

urls = ['https://www.python.org/',

        'https://www.yahoo.com/',

        'https://github.com/'

        ]

# 获取同步时间

time_start = time.time()

# 循环打印网页

for url in urls:

    f(url)

print("同步cost",time.time() - time_start)

#--------------------------并行--------------------------------#

# 获取异步时间

async_time_start = time.time()

# 执行协程

gevent.joinall([

        # 生成三个协程，执行f函数，参数。

        gevent.spawn(f, 'https://www.python.org/'),

        gevent.spawn(f, 'https://www.yahoo.com/'),

        gevent.spawn(f, 'https://github.com/'),

])

print("异步cost",time.time() - async_time_start)

Python 协程并发爬虫网页的更多相关文章

python 协程并发下载图片
1 import aiohttp 2 import asyncio 3 import time 4 5 async def dl_coroutine(session,url): 6 print('开始 ...
Python爬虫练习(多线程，进程，协程抓取网页)
详情点我跳转关注公众号"轻松学编程"了解更多. 一.多线程抓取网页流程:a.设置种子url b.获取区域列表 c.循环区域列表 d.创建线程获取页面数据 e.启动线程 impo ...
Python进阶----异步同步,阻塞非阻塞,线程池(进程池)的异步+回调机制实行并发, 线程队列(Queue, LifoQueue,PriorityQueue), 事件Event,线程的三个状态(就绪,挂起,运行) ,***协程概念,yield模拟并发(有缺陷),Greenlet模块(手动切换),Gevent(协程并发)
Python进阶----异步同步,阻塞非阻塞,线程池(进程池)的异步+回调机制实行并发, 线程队列(Queue, LifoQueue,PriorityQueue), 事件Event,线程的三个状态(就 ...
python爬虫---单线程+多任务的异步协程,selenium爬虫模块的使用
python爬虫---单线程+多任务的异步协程,selenium爬虫模块的使用一丶单线程+多任务的异步协程特殊函数 # 如果一个函数的定义被async修饰后,则该函数就是一个特殊的函数 async ...
python协程和IO多路复用
协程介绍 ...
windows下多进程加协程并发模式
好久没更新博客了.正好最近要整理一下最近这段时间做过的项目以及学习python的一些心得.如标题所示,今天就来说说windows下多进程加协程并发模式.其实网上还是蛮多在linux下的多进程加协程并发 ...
python协程详解，gevent asyncio
python协程详解,gevent asyncio 新建模板小书匠 #协程的概念 #模块操作协程 # gevent 扩展模块 # asyncio 内置模块 # 基础的语法 1.生成器实现切换 [1] ...
Python核心技术与实战——十六|Python协程
我们在上一章将生成器的时候最后写了,在Python2中生成器还扮演了一个重要的角色——实现Python的协程.那什么是协程呢? 协程协程是实现并发编程的一种方式.提到并发,肯很多人都会想到多线程/多 ...
day-5 python协程与I/O编程深入浅出
基于python编程语言环境,重新学习了一遍操作系统IO编程基本知识,同时也学习了什么是协程,通过实际编程,了解进程+协程的优势. 一.python协程编程实现 1. 什么是协程(以下内容来自维基百 ...

随机推荐

大整数加减运算的C语言实现
目录大整数加减运算的C语言实现一. 问题提出二. 代码实现三. 效果验证大整数加减运算的C语言实现标签: 大整数加减 C 一. 问题提出培训老师给出一个题目:用C语言实现一个大整数计算器 ...
Cookiecutter: 更好的项目模板工具：（1）简介及可用资源汇总
原文档地址:https://cookiecutter.readthedocs.io/en/latest/ 本系列只介绍cookiecutter的基础使用,而且会删除与功能使用无关的部分.深度使用及了解 ...
lxml xpath 爬取并正常显示中文内容
在使用python爬虫提取中文网页的内容,为了能正确显示中文的内容,在转为字符串时一定要声明编码为utf-8,否则无法正常显示中文,而是显示原编码的字符,并没有正确转换.比如下面这个简单的爬取百度页面 ...
Coffee and Coursework (Hard Version)
Coffee and Coursework (Hard Version) time limit per test 2.5 seconds memory limit per test 256 megab ...
利用docker搭建ubuntu+nginx+PHP容器
环境:操作系统(Ubuntu 16.04 64位); php7.1; nginx/1.14.0 基础环境准备: 整体思路:docker pull一个ubuntu镜像,然后在容器中安装ngi ...
python中字符串格式化的四种方法
name = "huangemiling" age= 10 address = 'nanjing' print("My name is %s,age is %d,I co ...
day14 十四、三元运算符，推导式，匿名内置函数
一.三元(目)运算符 1.就是if...else...语法糖前提:if和else只有一条语句 # 原来的做法 cmd = input('cmd:>>>') if cmd.isdig ...
day13 十三、迭代器、生成器、枚举对象
def my_generator(): print(1111) yield '结果1' print(2222) yield '结果2' print(3333) yield '结果3' print(44 ...
推举算法 AdaBoost 哥德尔奖 Godel Prize
推举算法 AdaBoost 2003年理论计算机科学界最高奖哥德尔奖 Godel Prize
debian使用nginx创建静态文件存储
vim /etc/nginx/sites-available/default 在server下添加 location ~ .*\.(gif|jpg|jpeg|png)$ { expires 24h; ...

Python 协程并发爬虫网页

Python 协程并发爬虫网页的更多相关文章

随机推荐

热门专题