scrapy 图片管道学习笔记

使用scrapy首先需要安装

python环境使用3.6

windows下激活进入python3.6环境

activate python36

mac下

mac@macdeMacBook-Pro:~$     source activate python36

(python36) mac@macdeMacBook-Pro:~$

安装 scrapy

(python36) mac@macdeMacBook-Pro:~$     pip install scrapy

(python36) mac@macdeMacBook-Pro:~$     scrapy --version

Scrapy 1.8. - no active project

Usage:

  scrapy <command> [options] [args]

Available commands:

  bench         Run quick benchmark test

  fetch         Fetch a URL using the Scrapy downloader

  genspider     Generate new spider using pre-defined templates

  runspider     Run a self-contained spider (without creating a project)

  settings      Get settings values

  shell         Interactive scraping console

  startproject  Create new project

  version       Print Scrapy version

  view          Open URL in browser, as seen by Scrapy

  [ more ]      More commands available when run from project directory

Use "scrapy <command> -h" to see more info about a command

(python36) mac@macdeMacBook-Pro:~$     scrapy startproject images

New Scrapy project 'images', using template directory '/Users/mac/anaconda3/envs/python36/lib/python3.6/site-packages/scrapy/templates/project', created in:

    /Users/mac/images

You can start your first spider with:

    cd images

    scrapy genspider example example.com

(python36) mac@macdeMacBook-Pro:~$     cd images

(python36) mac@macdeMacBook-Pro:~/images$     scrapy genspider -t crawl pexels www.pexels.com

Created spider 'pexels' using template 'crawl' in module:

  images.spiders.pexels

(python36) mac@macdeMacBook-Pro:~/images$

setting.py里面关闭robot.txt遵循

ROBOTSTXT_OBEY = False

分析目标网站规则 www.pexels.com

https://www.pexels.com/photo/man-using-black-camera-3136161/

https://www.pexels.com/video/beach-waves-and-sunset-855633/

https://www.pexels.com/photo/white-vehicle-2569855/

https://www.pexels.com/photo/monochrome-photo-of-city-during-daytime-3074526/

得出要抓取的规则

rules = (
    Rule(LinkExtractor(allow=r'^https://www.pexels.com/photo/.*/$'), callback='parse_item', follow=True),
)

图片管道 要定义两个item

class ImagesItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    image_urls = scrapy.Field()

    images = scrapy.Field()

images_url是抓取到的图片url 需要传递过来

images 检测图片完整性，但是我打印好像没看到这个字段

pexels.py里面引入item 并且定义对象

# -*- coding: utf-8 -*-

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from images.items import ImagesItem

class PexelsSpider(CrawlSpider):

    name = 'pexels'

    allowed_domains = ['www.pexels.com']

    start_urls = ['http://www.pexels.com/']

    rules = (

        Rule(LinkExtractor(allow=r'^https://www.pexels.com/photo/.*/$'), callback='parse_item', follow=False),

    )

    def parse_item(self, response):

        item = ImagesItem()

        item['image_urls'] = response.xpath('//img[contains(@src,"photos")]/@src').extract()

        print(item['image_urls'])

        return item

设置setting.py里面启用图片管道设置存储路劲

ITEM_PIPELINES = {

   #'images.pipelines.ImagesPipeline': ,

    'scrapy.pipelines.images.ImagesPipeline':

}

IMAGES_STORE = '/www/crawl'

# 图片的下载地址 根据item中的字段来设置哪一个内容需要被下载

IMAGES_URLS_FIELD = 'image_urls'

启动爬虫

scrapy crawl pexels --nolog

发现已经下载下来了

但是下载的图片不是高清的，要处理下图片的后缀

setting.py打开默认管道设置优先级高一些

ITEM_PIPELINES = {

    'images.pipelines.ImagesPipeline': 1,

    'scrapy.pipelines.images.ImagesPipeline': 2

}

管道文件里面对后缀进行处理去掉

class ImagesPipeline(object):

    def process_item(self, item, spider):

        tmp = item['image_urls']

        item['image_urls'] = []

        for i in tmp:

            if '?' in i:

                item['image_urls'].append(i.split('?')[0])

            else:

                item['image_urls'].append(i)

        return item

最终下载的就是大图了，但是图片管道还是默认对图片会有压缩的，所以如果使用文件管道下载的才是完全的原图，非常大。

如果不下载图片，直接存图片url到mysql的话参考

https://www.cnblogs.com/php-linux/p/11792393.html

图片管道配置最小宽度和高度分辨率

IMAGES_MIN_HEIGHT=800

IMAGES_MIN_WIDTH=600

IMAGES_EXPIRES=90 天不会对重复的进行下载

生成缩略图

IMAGES_THUMBS={

　　‘small’:(50,50),

'big':(600,600)

}

scrapy 图片管道学习笔记的更多相关文章

scrapy爬虫框架学习笔记(一)
scrapy爬虫框架学习笔记(一) 1.安装scrapy pip install scrapy 2.新建工程: (1)打开命令行模式 (2)进入要新建工程的目录 (3)运行命令: scrapy sta ...
css 3 背景图片为渐变色（渐变色背景图片）学习笔记
6年不研究CSS发现很多现功能都没有用过,例如渐变色,弹性盒子等,年前做过一个简单的管理系统,由于本人美工不好,设计不出好看的背景图片,偶然百度到背景图片可以使用渐变色(感觉发现了新大陆).以后的项目 ...
Scrapy 爬虫框架学习笔记(未完，持续更新)
Scrapy 爬虫框架 Scrapy 是一个用 Python 写的 Crawler Framework .它使用 Twisted 这个异步网络库来处理网络通信. Scrapy 框架的主要架构根据它官 ...
Angular2之管道学习笔记
管道.可以把一个输出流与另一个输入流连接起来.类似 linux.gulp都有应用. 在Angular2中使用管道非常方便.Angular2中本身提供了一些内置管道.当然也可以自定义管道. 文档链接:h ...
Scrapy:学习笔记(2)——Scrapy项目
Scrapy:学习笔记(2)——Scrapy项目 1.创建项目创建一个Scrapy项目,并将其命名为“demo” scrapy startproject demo cd demo 稍等片刻后,Scr ...
scrapy 学习笔记1
最近一段时间开始研究爬虫,后续陆续更新学习笔记爬虫,说白了就是获取一个网页的html页面,然后从里面获取你想要的东西,复杂一点的还有: 反爬技术(人家网页不让你爬,爬虫对服务器负载很大) 爬虫框架( ...
机器学习框架ML.NET学习笔记【6】TensorFlow图片分类
一.概述通过之前两篇文章的学习,我们应该已经了解了多元分类的工作原理,图片的分类其流程和之前完全一致,其中最核心的问题就是特征的提取,只要完成特征提取,分类算法就很好处理了,具体流程如下: 之前介绍 ...
机器学习框架ML.NET学习笔记【7】人物图片颜值判断
一.概述这次要解决的问题是输入一张照片,输出人物的颜值数据. 学习样本来源于华南理工大学发布的SCUT-FBP5500数据集,数据集包括 5500 人,每人按颜值魅力打分,分值在 1 到 5 分之间 ...
Redis学习笔记7--Redis管道（pipeline）
redis是一个cs模式的tcp server,使用和http类似的请求响应协议.一个client可以通过一个socket连接发起多个请求命令.每个请求命令发出后client通常会阻塞并等待redis ...

随机推荐

[转]js对象中取属性值（.）和[ ]的区别
原文地址:https://www.jianshu.com/p/6a76530e4f8f 今天在写js的过程中遇到这么一个问题,取一个对象的属性值,通过obj.keys怎么都取不出来,但是用obj[ke ...
error Microsoft Visual C++ 14.0 is required 解决方案
Windows平台上,pip install fastFM scrapy等工具的时候,经常出现 error Microsoft Visual C++ 14.0 is required 的错误, ...
Performance-Schema
https://yq.aliyun.com/articles/640181?spm=a2c4e.11153940.0.0.347359d3DAu7sW MySQL Performance-Schema ...
Heartbeat took longer than "00:00:01" at "09/06/2019 05:08:08 +00:00".
.netcore在k8s+docker+linux,部署后,偶尔会报这样的警告 Warn:Microsoft.AspNetCore.Server.KestrelHeartbeat took longe ...
Jav面向对象
/* * 面向对象: * 1.关注现实存在的事物的各方面信息,从对象的角度出发,根据事物的特征进行程序设计 * 2.对象:用来描述客观事物的一个实体 * 3.类:具有相同属性和方法的一组对象的集合 * ...
如何上传本地jar至远程仓库供其他项目使用
我们首先需要创建自己内部nexus私服仓库.这里假设你已经做好了. 其次我们要明白nexus上如下几个component的用处. maven-central:maven中央库,默认从https://r ...
Elasticsearch6.2.1安装elasticsearch-sq插件
参考 https://github.com/NLPchina/elasticsearch-sql 1.下载插件 wget https://github.com/NLPchina/elasticsear ...
idea的java类图标C不见，取而代之是J标识，且写代码无提示
https://blog.csdn.net/weixin_42800689/article/details/83819676 方法1 此时我们需要关闭节能模式: File–Power Save Mod ...
git pull时的冲突解决方式; git stash; git fetch
git fetch指令: https://www.yiibai.com/git/git_pull.html 发现远端有更新,git pull时,如果你本地分支修改了东西,导致git pull有冲突,失 ...
029 SSM综合练习05--数据后台管理系统--订单分页查询
1.PageHelper介绍 PageHelper是国内非常优秀的一款开源的mybatis分页插件,它支持基本主流与常用的数据库,例如mysql.oracle.mariaDB.DB2.SQLite.H ...

scrapy 图片管道学习笔记

scrapy 图片管道学习笔记的更多相关文章

随机推荐

热门专题