scrapy中的ImagePipeline下载图片到本地、并提取本地的保存地址

通过scrapy内置到ImagePipeline下载图片到本地

在settings中打开 ITEM_PIPELINES的注释，并在这里面加入

'scrapy.pipelines.images.ImagesPipeline':5,
   #后面的数字代表执行优先级 ，当执行pipeine的时候会按照数字由小到大执行

在settings中加入

IMAGES_URLS_FIELD ="image_url"  #image_url是在items.py中配置的网络爬取得图片地址

#配置保存本地的地址

project_dir=os.path.abspath(os.path.dirname(__file__))  #获取当前爬虫项目的绝对路径

IMAGES_STORE=os.path.join(project_dir,'images')  #组装新的图片路径

　还有很多设置有特殊需要的话可以用哦 （详情可以去imagepipeine源码查看）

   IMAGES_MIN_HEIGHT=100   #设定下载图片的最小高度

   IMAGES_MIN_WIDTH=100　　#设定下载图片的最小宽度

可能会报错：
```
ModuleNotFoundError: No module named 'PIL'
```
1. 这时候安装pip install pillow库就可以了

获取图片保存本地的地址

下载图片，如果想获取图片保存本地的地址，那么就需要重写ImagesPipeline，并且在settings中调用重写的pipeline

#既然要重写，记得提前引入

from scrapy.pipelines.images import ImagesPipeline

class ArticleImagePipeline(ImagesPipeline):

# 重载ImagePipeline中的item_completed方法，获取下载地址

def item_completed(self, results, item, info):

　 for ok,value in results:   #通过断点可以看到图片路径存在results内

　　　　image_file_path=value['path'] #将路径保存在item中返回

　　　　item['front_image_path']=image_file_path

　　return item

scrapy中的ImagePipeline下载图片到本地、并提取本地的保存地址的更多相关文章

通过scrapy内置的ImagePipeline下载图片到本地、并提取本地保存地址
1.通过scrapy内置的ImagePipeline下载图片到本地 2.获取图片保存本地的地址 1.通过scrapy内置的ImagePipeline下载图片到本地 1)在settings.py中打开 ...
第三百二十五节，web爬虫，scrapy模块标签选择器下载图片，以及正则匹配标签
第三百二十五节,web爬虫,scrapy模块标签选择器下载图片,以及正则匹配标签标签选择器对象 HtmlXPathSelector()创建标签选择器对象,参数接收response回调的html对象需 ...
scrapy 在爬取过程中抓取下载图片
先说前提,我不推荐在sarapy爬取过程中使用scrapy自带的 ImagesPipeline 进行下载,是在是太耗时间了最好是保存,在使用其他方法下载我这个是在 https://blog.csd ...
四 web爬虫，scrapy模块标签选择器下载图片，以及正则匹配标签
标签选择器对象 HtmlXPathSelector()创建标签选择器对象,参数接收response回调的html对象需要导入模块:from scrapy.selector import HtmlXPa ...
scrapy操作mysql/批量下载图片
1.操作mysql items.py meiju.py 3.piplines.py 4.settings.py -------------------------------------------- ...
opencv2.4.13+python2.7学习笔记--opencv中的Gui特性--图片：读图像，显示图像，保存图像
阅读对象:可以配置opencv+Python环境的任何人,毕竟写这篇文章的人就是小白. 1.环境说明 1.1opencv版本: 1.2Python版本: 1.3系统:win7 注: (1)opencv ...
phantomjs集成到scrapy中，并禁用图片，切换UA
phantomjs是一个没有界面的浏览器,支持各种web标准,提供DOM 处理, CSS 选择器, JSON, Canvas, 和 SVG,对于爬取一些经过js渲染的页面非常有用.但是phantomj ...
scrapy批量下载图片
# -*- coding: utf-8 -*- import scrapy from rihan.items import RihanItem class RihanspiderSpider(scra ...
在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）
前一阵子我们介绍了如何启动Scrapy项目以及关于Scrapy爬虫的一些小技巧介绍,没来得及上车的小伙伴可以戳这些文章: 手把手教你如何新建scrapy爬虫框架的第一个项目(上) 手把手教你如何新建s ...

随机推荐

final修饰和StringBuffer的几个案例（拼接，反转，对称操作）
final关键字修饰时如果是基本数据类型的变量,则其数值一旦在初始化之后便不能更改:如果是引用类型的变量,则在对其初始化之后便不能再让其指向另一个对象,但引用变量不能变,引用变量所指向的对象中的内容还 ...
关于OpenLiveWriter出错的修补方法
OpenLiveWriter使用一段时间后可能会打不开,提示错误如下: 这是只需要把电脑的.net更新到4.6以上版本就可以了.
基于vue，通过父组件触发子组件的请求，等请求完毕以后，显示子组件，同时隐藏父组件
正常情况下,子组件应该尽量减少业务逻辑,而应该将业务逻辑放到父组件里面,从而减少耦合,但是当我们不得不用到这种情况时,可以采用下面的思路解决方案尽量将请求单独作为一个函数(不要将请求放到show ...
~/.bashrc的常用alias设置,30 个方便的 Bash shell 别名
centos6.5/centos7系统中,alias定义在/etc/bashrc,分别写在/etc/profile.d/*.sh中,可以在此目录添加my.sh,或者~/.bashrc,或者~/.bas ...
laravel装饰者模式例子
interface Decorator{ public function display(); } class XiaoFang implements Decorator { private $nam ...
day 84 Vue学习之vue-cli脚手架下载安装及配置
Vue学习之vue-cli脚手架下载安装及配置 1. 先下载node.js,下载地址:https://nodejs.org/en/download/ 找个目录保存,解压下载的文件,然后配置环境变量 ...
day 54 Django基础四之模板系统
Django基础四之模板系统本节目录一语法二变量三过滤器四标签Tags 五模板继承六组件七自定义标签和过滤器八静态文件相关一语法模板渲染的官方文档关于模 ...
国外主机如何ICP备案
想都不要想了,无法备案. 因为,备案是在主机服务器提供商处的备案平台提交申请,国外的主机服务商是没有这种平台服务的.(跟你域名在哪儿买的没关系) 下面,把昨天折腾到半夜的过程记录一下,希望可以帮到需要 ...
<day003>登录+爬取淘宝商品信息+字典用json存储
任务1:利用cookie可以免去登录的烦恼(验证码) ''' 只需要有登录后的cookie,就可以绕过验证码登录后的cookie可以通过Selenium用第三方(微博)进行登录,不需要进行淘宝的滑动 ...
LeetCode 28.实现strStr()(Python3)
题目: 实现 strStr() 函数. 给定一个 haystack 字符串和一个 needle 字符串,在 haystack 字符串中找出 needle 字符串出现的第一个位置 (从0开始).如果不存 ...

scrapy中的ImagePipeline下载图片到本地、并提取本地的保存地址

scrapy中的ImagePipeline下载图片到本地、并提取本地的保存地址的更多相关文章

随机推荐

热门专题