scrapy的大文件下载（基于一种形式的管道类实现）

爬虫类中将解析到的图片地址存储到item，将item提交给指定的管道
在管道文件中导包：from scrapy.pipelines.images import ImagesPipeline

基于ImagesPipeline父类，自定义一个管道类

重写管道类中的如下三个方法：

from scrapy.pipelines.images import ImagesPipeline

import scrapy

class ImgporPipeline(ImagesPipeline):

    #指定文件存储的目录（文件名）

    def file_path(self,request,response=None,info=None):

        #接受mate

        item = request.meta['item']

        return item['img_name']

    #对指定资源进行请求发送

    def get_media_requests(self,item,info):

        #meta可以传递给file_path

        yield scrapy.Request(item['img_src'],meta={'item':item})

    #用于返回item，将item传递给下一个即将被执行的管道类

    def item_completed(self,request,item,info):

        return item

settings.py文件中

#指定文件存储的目录

IMAGES_STORE = './imgs'

爬虫文件

import scrapy

from imgPor.items import ImgporItem

class ImgSpider(scrapy.Spider):

    name = 'img'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['http://www.521609.com/daxuemeinv/']

    def parse(self, response):

        li_list = response.xpath('//*[@id="content"]/div[2]/div[2]/ul/li')

        for li in li_list:

            img_src = 'http://www.521609.com' + li.xpath('./a[1]/img/@src').extract_first()

            img_name = li.xpath('./a[2]/b/text() | ./a[2]/text()').extract_first() + '.jpg'

            print(img_name)

            item = ImgporItem()

            item['img_src'] = img_src

            item['img_name'] = img_name

            yield item

scrapy的大文件下载（基于一种形式的管道类实现）的更多相关文章

基于 Scrapy-redis 两种形式的分布式爬虫
基于 Scrapy-redis 两种形式的分布式爬虫 .caret, .dropup > .btn > .caret { border-top-color: #000 !important ...
17，基于scrapy-redis两种形式的分布式爬虫
redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以.原因有二. 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls ...
C++：一般情况下，设计函数的形参只需要两种形式
C++:一般情况下,设计函数的形参只需要两种形式.一,是引用形参,例如 void function (int &p_para):二,是常量引用形参,例如 void function(const ...
javascript面向对象系列第三篇——实现继承的3种形式
× 目录 [1]原型继承 [2]伪类继承 [3]组合继承前面的话学习如何创建对象是理解面向对象编程的第一步,第二步是理解继承.本文是javascript面向对象系列第三篇——实现继承的3种形式 [ ...
IOS NSURLConnection（大文件下载）
NSURL:请求地址 NSURLRequest:一个NSURLRequest对象就代表一个请求,它包含的信息有一个NSURL对象请求方法.请求头.请求体请求超时 … … NSMutableURL ...
es6 Object.assign ECMAScript 6 笔记（六） ECMAScript 6 笔记（一） react入门——慕课网笔记 jquery中动态新增的元素节点无法触发事件解决办法响应式图像弹窗细节微信浏览器——返回操作 Float 的那些事 Flex布局 HTML5 data-* 自定义属性参数传递的四种形式
es6 Object.assign 目录一.基本用法二.用途 1. 为对象添加属性 2. 为对象添加方法 3. 克隆对象 4. 合并多个对象 5. 为属性指定默认值三.浏览器支持 ES6 O ...
ASP.NET 大文件下载的实现思路及代码
文件下载是一个网站最基本的功能,ASP.NET网站的文件下载功能实现也很简单,但是如果遇到大文件的下载而不做特殊处理的话,那将会出现不可预料的后果.本文就基于ASP.NET提供大文件下载的实现思路及代 ...
流式大数据处理的三种框架：Storm，Spark和Samza
许多分布式计算系统都可以实时或接近实时地处理大数据流.本文将对三种Apache框架分别进行简单介绍,然后尝试快速.高度概述其异同. Apache Storm 在Storm中,先要设计一个用于实时计算的 ...
Django 大文件下载
django提供文件下载时,若果文件较小,解决办法是先将要传送的内容全生成在内存中,然后再一次性传入Response对象中: def simple_file_download(request): # ...

随机推荐

python监控文件实时批量压缩脚本
# coding:utf-8 from shutil import make_archive import os import time # 指定需要监测的文件夹 image_path = './im ...
在IDEA中使用JDBC获取数据库连接时的报错及解决办法
在IDEA中使用JDBC获取数据库连接时,有时会报错Sat Dec 19 19:32:18 CST 2020 WARN: Establishing SSL connection without ser ...
java_day_02
一.return的两个作用 1.停止当前方法 2.将后面的结果数据返回值还给调用处二.方法的三种调用格式 1.单独调用:方法名(参数): public class Method { public s ...
MATLAB绘图，绘双坐标轴，绘一图二轴等
clc; clear all; close all; % %% 画极坐标系 % x = 0:.01 * pi:0.5 * pi; % y = cos(x) + sqrt(-1) * sin(x); % ...
Arduino IDE 开发ESP-01/ESP8266-01读取DHT11温度湿度传感器
引脚接线: DHT11---ESP8266-01 Singnal--IO2, GND----GND, VCC----VCC DHT11引脚说明: ESP8266-01/ESP8266-01S引脚说明: ...
01 . Go之从零实现Web框架(类似Gin)
设计一个框架大部分时候,我们需要实现一个 Web 应用,第一反应是应该使用哪个框架.不同的框架设计理念和提供的功能有很大的差别.比如 Python 语言的 django和flask,前者大而全,后者 ...
VIM操作快捷键
i:插入光标前一个字符I:插入行首a:插入光标后一个字符A:插入行末o:向下新开一行,插入行首O:向上新开一行,插入行首M:光标移到中间行L:光标移动到屏幕最后一行行首G:移动到指定行{:按段移动,上 ...
tail常用命令总结
tail命令作用: tail命令用途是依照要求将指定的文件的最后部分输出到标准设备,通常是终端,通俗讲来,就是把某个档案文件的最后几行显示到终端上,假设该档案有更新,tail会自己主动刷新,确保你看到 ...
关于HashSet
HashSet存储数据原理: 当HashSet调用add方法时,有返回值,返回值是boolean类型,表示是否添加成功(如果对象不存在,则添加成功,否则添加失败) 但是,添加的过程并不是一个个去遍历去 ...
MySQL不会丢失数据的秘密，就藏在它的 7种日志里
本文收录在 GitHub 地址 https://github.com/chengxy-nds/Springboot-Notebook 进入正题前先简单看看MySQL的逻辑架构,相信我用的着. MySQ ...

scrapy的大文件下载（基于一种形式的管道类实现）

scrapy的大文件下载（基于一种形式的管道类实现）

scrapy的大文件下载（基于一种形式的管道类实现）的更多相关文章

随机推荐

热门专题