生产者消费者模式

认识生产者和消费者模式

生产者和消费者是异步爬虫中很常见的一个问题。产生数据的模块,我们称之为生产者,而处理数据的模块,就称为消费者。

例如:

​ 图片数据爬取中,解析出图片链接的操作就是在生产数据

​ 对图片链接发起请求下载图片的操作就是在消费数据

为什么要使用生产者和消费者模式

​ 在异步世界里,生产者就是生产数据的线程,消费者就是消费数据的线程。在多线程开发当中,如果生产者处理速度很快,而消费者处理速度很慢,那么生产者就必须等待消费者处理完,才能继续生产数据。同样的道理,如果消费者的处理能力大于生产者,那么消费者就必须等待生产者。为了解决这个问题于是引入了生产者和消费者模式。

import requests
import threading
from lxml import etree
from queue import Queue
from urllib.request import urlretrieve
import os # filename = 'imgs'
# if not os.path.exists(filename):
# os.mkdir(filename)
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36',
} # https://pic.netbian.com/4kmeinv/ # 1.创建两个数据模型类
# 1.1生产数据:解析提取图片地址
class Producer(threading.Thread): # 生产者线程
# 6.构造生产者模型生产方法
def __init__(self, page_queue, img_queue):
# 7.调用父类的构造方法继承
super().__init__()
self.page_queue = page_queue
self.img_queue = img_queue # 7.给生产者模型赋予任务:不断的生产数据
def run(self):
# print('正在执行Producer')
while True:
# 8.判断生产者队列是否为空
if self.page_queue.empty(): # 如果判断为空,则表示所有连接已经请求完成,结束请求
# print('结束执行Producer')
break
# 9.从page_queue中取出一个页码链接
url = self.page_queue.get()
# print(url)
# 从当前的页码对应的页面中解析出更多的图片地址
self.parse_detail(url) # 10.定义一个解析数据方法
def parse_detail(self, url):
response = requests.get(url=url, headers=headers)
response.encoding = 'gbk'
page_text = response.text
tree = etree.HTML(page_text)
li_list = tree.xpath('//*[@id="main"]/div[3]/ul/li')
for li in li_list:
img_src = 'https://pic.netbian.com' + li.xpath('./a/img/@src')[0]
img_title = li.xpath('./a/b/text()')[0] + '.jpg'
# 11.将src和title封装成字典
dic = {
'src': img_src,
'title': img_title
}
# print(dic)
# 12.将字典传递到消费者队列
self.img_queue.put(dic) # 1.2消费数据:对图片地址进行数据请求
class Consumer(threading.Thread): # 消费者线程
# 13.消费者将每一个图片数据做请求并解析存储
# 构建类方法(构造方法固定)
def __init__(self, page_queue, img_queue):
super().__init__()
self.page_queue = page_queue
self.img_queue = img_queue # 14.给消费者模型赋予任务:不断的消费数据
def run(self):
# print('正在执行Consumer')
# 15.判断消费者队列和生产者队列是否为空
while True:
# 16.若二者都为空,则表示生产者队列和生产者队列均无数据可做请求解析
if self.img_queue.empty() and self.page_queue.empty():
# print('结束执行Consumer')
break
# 17.如不为空,则表示还有待处理的数据,则取出继续处理
# img_queue:队列中传送过来的数据为字典,从字典中取出数据
dic = self.img_queue.get()
title = dic['title']
src = dic['src']
# 18.urlretrieve可以直接对图片地址发请求并做持久化存储
urlretrieve(src, 'imgs/' + title)
print(title, '下载完成!') def main():
# 2.创建队列
# 2.1该队列中存储将要爬取的页面页码链接
page_queue = Queue(30) # 队列当中最多能存10个链接元素
# 2.2该队列存储生产者生产出来的图片地址
img_queue = Queue(80) # 队列中最多能存储50个链接元素 # 3.循环获取页面页码链接
# 该循环可以将2,3,4这三个页码链接放入page_queue
for x in range(2, 15):
url = 'https://pic.netbian.com/4kmeinv/index_%d.html' % x
# 将每一个页面页码链接添加到队列中
page_queue.put(url)
# print(url)
# print(page_queue)
# 4.生产者生产线程
# 创建三个生产者线程并启动
for x in range(3):
t = Producer(page_queue, img_queue)
t.start()
# 5.消费者消费线程
# 创建三个消费者线程并启动
for x in range(3):
t = Consumer(page_queue, img_queue)
t.start() main()

Day 22 22.3:生产者和消费者模式的更多相关文章

  1. java进阶(40)--wait与notify(生产者与消费者模式)

    文档目录: 一.概念 二.wait的作用 三.notify的作用 四.生产者消费者模式 五.举例 ---------------------------------------分割线:正文------ ...

  2. 使用libuv实现生产者和消费者模式

    生产者和消费者模式(Consumer + Producer model) 用于把耗时操作(生产线程),分配给一个或者多个额外线程执行(消费线程),从而提高生产线程的响应速度(并发能力) 定义 type ...

  3. java生产者与消费者模式

    前言: 生产者和消费者模式是我们在学习多线程中很经典的一个模式,它主要分为生产者和消费者,分别是两个线程, 目录 一:生产者和消费者模式简介 二:生产者和消费者模式的实现 声明:本例来源于java经典 ...

  4. condition版生产者与消费者模式

    1.简介 在爬虫中,生产者与消费者模式是经常用到的.我能想到的比较好的办法是使用redis或者mongodb数据库构造生产者消费者模型.如果直接起线程进行构造生产者消费者模型,线程容易假死,也难以构造 ...

  5. Java并发编程(4)--生产者与消费者模式介绍

    一.前言 这种模式在生活是最常见的,那么它的场景是什么样的呢? 下面是我假象的,假设有一个仓库,仓库有一个生产者和一个消费者,消费者过来消费的时候会检测仓库中是否有库存,如果没有了则等待生产,如果有就 ...

  6. Java多线程设计模式(2)生产者与消费者模式

    1 Producer-Consumer Pattern Producer-Consumer Pattern主要就是在生产者与消费者之间建立一个“桥梁参与者”,用来解决生产者线程与消费者线程之间速度的不 ...

  7. 【爬虫】Condition版的生产者和消费者模式

    Condition版的生产者和消费者模式 threading.Condition 在没有数据的时候处于阻塞状态,有数据可以使用notify的函数通知等等待状态的线程运作 threading.Condi ...

  8. 【爬虫】Load版的生产者和消费者模式

    ''' Lock版的生产者和消费者模式 ''' import threading import random import time gMoney = 1000 # 原始金额 gLoad = thre ...

  9. java 线程并发(生产者、消费者模式)

    线程并发协作(生产者/消费者模式) 多线程环境下,我们经常需要多个线程的并发和协作.这个时候,就需要了解一个重要的多线程并发协作模型“生产者/消费者模式”. Ø 什么是生产者? 生产者指的是负责生产数 ...

  10. Java中生产者与消费者模式

    生产者消费者模式 首先来了解什么是生产者消费者模式.该模式也称有限缓冲问题(英语:Bounded-buffer problem),是一个多线程同步问题的经典案例.该问题描述了两个共享固定大小缓冲区的线 ...

随机推荐

  1. jmeter 之 JSON 断言

    1.JSON 断言所在位置:断言->JSON 断言 2.JSON断言中的字段解析 Assert JSON Path exists:json 表达式,判断所字段是否存在,存在则为True, 否则为 ...

  2. uniapp中请求接口问题

    在main.js文件中配置: //Vue.prototype.$baseUrl="http://192.168.1.164/api" //线下接口 Vue.prototype.$b ...

  3. 【转载】SQL SERVER 中单字节和双字节互转自定义函数(全角半角转换)

    一.首先创建一个自定义函数,代码如下: alter function f_convert( @str nvarchar(4000), --要转换的字符串 @flag bit --转换标志,0转换成半角 ...

  4. Redis-01 常用命令

    创建和获取 key 命令 说明 例子 set 创建一个名为 key 值为 value 键值对 set views 10 get 获取名为 key 的值,存在返回值,不存在返回 nil get view ...

  5. .gitignore文件配置以及gitee提交报Push rejected...错误解决

    .gitignore文件配置 .gitignore 文件可以用来忽略被指定的文件或文件夹的改动.记录在.gitignore文件里的文件或文件夹是不会被 git 跟踪到,也就是被忽略的文件是不会被上传到 ...

  6. API 网关的功能用途及实现方式

    1. API 网关诞生背景 前言 API 经济生态链已经在全球范围覆盖, 绝大多数企业都已经走在数字化转型的道路上,API 成为企业连接业务的核心载体, 并产生巨大的盈利空间.快速增长的 API 规模 ...

  7. angular---处于激活状态的路由加样式

  8. 【模板】网络最大流 Dinic(多路增广+当前弧优化)

    复杂度上界为 \(\Theta(n^2m)\),实际效率远高于此. #include <bits/stdc++.h> using namespace std; const int N=5e ...

  9. Grafana 系列文章(九):开源云原生日志解决方案 Loki 简介

    简介 Grafana Labs 简介 Grafana 是用于时序数据的事实上的仪表盘解决方案.它支持近百个数据源. Grafana Labs 想从一个仪表盘解决方案转变成一个可观察性 (observa ...

  10. 六、python基础知识之变量常量、索引取值和PEP8规范

    目录 一.变量与常量 1.什么是变量? 2.什么是常量? 变量的基本使用 变量使用的语法结构与底层原理 变量名的命名规范和命名风格 变量的命名风格 常量的基本使用 二.索引取值 三.PEP8规范 1. ...