生产者消费者模式

认识生产者和消费者模式

生产者和消费者是异步爬虫中很常见的一个问题。产生数据的模块，我们称之为生产者，而处理数据的模块，就称为消费者。

例如：

图片数据爬取中，解析出图片链接的操作就是在生产数据

对图片链接发起请求下载图片的操作就是在消费数据

为什么要使用生产者和消费者模式

在异步世界里，生产者就是生产数据的线程，消费者就是消费数据的线程。在多线程开发当中，如果生产者处理速度很快，而消费者处理速度很慢，那么生产者就必须等待消费者处理完，才能继续生产数据。同样的道理，如果消费者的处理能力大于生产者，那么消费者就必须等待生产者。为了解决这个问题于是引入了生产者和消费者模式。

import requests

import threading

from lxml import etree

from queue import Queue

from urllib.request import urlretrieve

import os

# filename = 'imgs'

# if not os.path.exists(filename):

#     os.mkdir(filename)

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36',

}

# https://pic.netbian.com/4kmeinv/

# 1.创建两个数据模型类

# 1.1生产数据：解析提取图片地址

class Producer(threading.Thread):  # 生产者线程

    # 6.构造生产者模型生产方法

    def __init__(self, page_queue, img_queue):

        # 7.调用父类的构造方法继承

        super().__init__()

        self.page_queue = page_queue

        self.img_queue = img_queue

    # 7.给生产者模型赋予任务:不断的生产数据

    def run(self):

        # print('正在执行Producer')

        while True:

            # 8.判断生产者队列是否为空

            if self.page_queue.empty():  # 如果判断为空，则表示所有连接已经请求完成，结束请求

                # print('结束执行Producer')

                break

            # 9.从page_queue中取出一个页码链接

            url = self.page_queue.get()

            # print(url)

            # 从当前的页码对应的页面中解析出更多的图片地址

            self.parse_detail(url)

    # 10.定义一个解析数据方法

    def parse_detail(self, url):

        response = requests.get(url=url, headers=headers)

        response.encoding = 'gbk'

        page_text = response.text

        tree = etree.HTML(page_text)

        li_list = tree.xpath('//*[@id="main"]/div[3]/ul/li')

        for li in li_list:

            img_src = 'https://pic.netbian.com' + li.xpath('./a/img/@src')[0]

            img_title = li.xpath('./a/b/text()')[0] + '.jpg'

            # 11.将src和title封装成字典

            dic = {

                'src': img_src,

                'title': img_title

            }

            # print(dic)

            # 12.将字典传递到消费者队列

            self.img_queue.put(dic)

# 1.2消费数据：对图片地址进行数据请求

class Consumer(threading.Thread):  # 消费者线程

    # 13.消费者将每一个图片数据做请求并解析存储

    # 构建类方法（构造方法固定）

    def __init__(self, page_queue, img_queue):

        super().__init__()

        self.page_queue = page_queue

        self.img_queue = img_queue

    # 14.给消费者模型赋予任务:不断的消费数据

    def run(self):

        # print('正在执行Consumer')

        # 15.判断消费者队列和生产者队列是否为空

        while True:

            # 16.若二者都为空，则表示生产者队列和生产者队列均无数据可做请求解析

            if self.img_queue.empty() and self.page_queue.empty():

                # print('结束执行Consumer')

                break

                # 17.如不为空，则表示还有待处理的数据，则取出继续处理

                # img_queue:队列中传送过来的数据为字典,从字典中取出数据

            dic = self.img_queue.get()

            title = dic['title']

            src = dic['src']

            # 18.urlretrieve可以直接对图片地址发请求并做持久化存储

            urlretrieve(src, 'imgs/' + title)

            print(title, '下载完成！')

def main():

    # 2.创建队列

    # 2.1该队列中存储将要爬取的页面页码链接

    page_queue = Queue(30)  # 队列当中最多能存10个链接元素

    # 2.2该队列存储生产者生产出来的图片地址

    img_queue = Queue(80)  # 队列中最多能存储50个链接元素

    # 3.循环获取页面页码链接

    # 该循环可以将2,3，4这三个页码链接放入page_queue

    for x in range(2, 15):

        url = 'https://pic.netbian.com/4kmeinv/index_%d.html' % x

        # 将每一个页面页码链接添加到队列中

        page_queue.put(url)

        # print(url)

    # print(page_queue)

    # 4.生产者生产线程

    # 创建三个生产者线程并启动

    for x in range(3):

        t = Producer(page_queue, img_queue)

        t.start()

    # 5.消费者消费线程

    # 创建三个消费者线程并启动

    for x in range(3):

        t = Consumer(page_queue, img_queue)

        t.start()

main()

Day 22 22.3：生产者和消费者模式的更多相关文章

java进阶(40)--wait与notify（生产者与消费者模式）
文档目录: 一.概念二.wait的作用三.notify的作用四.生产者消费者模式五.举例 ---------------------------------------分割线:正文------ ...
使用libuv实现生产者和消费者模式
生产者和消费者模式(Consumer + Producer model) 用于把耗时操作(生产线程),分配给一个或者多个额外线程执行(消费线程),从而提高生产线程的响应速度(并发能力) 定义 type ...
java生产者与消费者模式
前言: 生产者和消费者模式是我们在学习多线程中很经典的一个模式,它主要分为生产者和消费者,分别是两个线程, 目录一:生产者和消费者模式简介二:生产者和消费者模式的实现声明:本例来源于java经典 ...
condition版生产者与消费者模式
1.简介在爬虫中,生产者与消费者模式是经常用到的.我能想到的比较好的办法是使用redis或者mongodb数据库构造生产者消费者模型.如果直接起线程进行构造生产者消费者模型,线程容易假死,也难以构造 ...
Java并发编程(4)--生产者与消费者模式介绍
一.前言这种模式在生活是最常见的,那么它的场景是什么样的呢? 下面是我假象的,假设有一个仓库,仓库有一个生产者和一个消费者,消费者过来消费的时候会检测仓库中是否有库存,如果没有了则等待生产,如果有就 ...
Java多线程设计模式(2)生产者与消费者模式
1 Producer-Consumer Pattern Producer-Consumer Pattern主要就是在生产者与消费者之间建立一个“桥梁参与者”,用来解决生产者线程与消费者线程之间速度的不 ...
【爬虫】Condition版的生产者和消费者模式
Condition版的生产者和消费者模式 threading.Condition 在没有数据的时候处于阻塞状态,有数据可以使用notify的函数通知等等待状态的线程运作 threading.Condi ...
【爬虫】Load版的生产者和消费者模式
''' Lock版的生产者和消费者模式 ''' import threading import random import time gMoney = 1000 # 原始金额 gLoad = thre ...
java 线程并发（生产者、消费者模式）
线程并发协作(生产者/消费者模式) 多线程环境下,我们经常需要多个线程的并发和协作.这个时候,就需要了解一个重要的多线程并发协作模型“生产者/消费者模式”. Ø 什么是生产者? 生产者指的是负责生产数 ...
Java中生产者与消费者模式
生产者消费者模式首先来了解什么是生产者消费者模式.该模式也称有限缓冲问题(英语:Bounded-buffer problem),是一个多线程同步问题的经典案例.该问题描述了两个共享固定大小缓冲区的线 ...

随机推荐

uniapp input框聚焦时软键盘弹起整个页面上滑，固定页面不让上滑问题
根据需求,软键盘弹起时,不允许页面整体向上滑动用到的属性是: :adjust-position="false" uni-app 软键盘顶起底部fixed定位的输入框页面就不会 ...
C++ 之 cout 格式化输出
写代码时每次用到格式化输出就各种搜来搜去,今天好好整理一下,方便以后查阅和使用. 参考链接: C++ 之 cout 使用攻略 C++ 格式化输出首先,加上头文件 #include <ioman ...
终端安装python3使用如下指令
''' brew install python3 ''' 会报错,报错如下:Cannot install in Homebrew on ARM processor in Intel default p ...
Word 交叉引用给参考文献、图片题注添加引用
参考文献引用假如想在红色[1]处添加引用,实现点击[1]跳到参考文献[1]. 首先需要将参考文献进行编号. 在需要插入引用的地方,选择插入-->交叉引用点击插入最后可以把[1]调成上标上 ...
py之赋值，选择判断
赋值机制赋值之后:变量的地址就会指向同一个地址 a=123123 b=a id(a) id(b) 字符串是不论有多长内容一样地址一样 a='sadasd' b='sadasd' id(a) id(b ...
finally代码块-多异常的捕获处理
finally代码块 finally :有一些特定的代码无论异常是否发生,都需要执行.另外,因为异常会引发程序跳转,导致有些语句执行不到.而finally就是解决这个问题的,在finally代码块中存 ...
【随笔记】NDK 编译开源库 SQLite3
NDK 编译环境搭建请参考:[工作笔记]NDK 编译开源库 nghttp2/openssl/curl_lovemengx的博客-CSDN博客一.下载源代码 wget https://github.c ...
Jenkins搭建与数据迁移实践
概述本文主要介绍内容如下: 1.使用Docker搭建Jenkins 2.迁移原Jenkins数据到新搭建的Jenkins中 3.在Jenkins容器内部配置Maven的私服配置 4.在Jenkins ...
关闭Vim 的蜂鸣 | 解决Vim在Git BASH闪砾的问题
set vb t_vb= 这个设置屏蔽了vim遇到无效命令时发出的蜂鸣声,而用一个快速的闪烁取而代之.
vue3和vue2的区别
一.Vue3介绍 Vue 新版本的理念成型于 2018 年末,当时 Vue 2 的代码库已经有两岁半了.比起通用软件的生命周期来这好像也没那么久,但在这段时期,前端世界已经今昔非比了在更新(和重写) ...

Day 22 22.3：生产者和消费者模式

生产者消费者模式

认识生产者和消费者模式

为什么要使用生产者和消费者模式

Day 22 22.3：生产者和消费者模式的更多相关文章

随机推荐

热门专题