Scrapy——將爬取圖片下載到本地

1. Spider程序：

 1 import scrapy, json

 2 from UnsplashImageSpider.items import ImageItem

 3

 4 class UnsplashImageSpider(scrapy.Spider):

 5     # 定义Spider的名称

 6     name = 'unsplash_image'

 7     allowed_domains = ['unsplash.com']

 8     # 定义起始页面

 9     start_urls = ['https://unsplash.com/napi/photos?page=1&per_page=12']

10     def __init__ (self):

11         self.page_index = 1

12

13     def parse(self, response):

14         # 解析服务器响应的JSON字符串

15         photo_list = json.loads(response.text) # ①

16         # 遍历每张图片

17         for photo in photo_list:

18             item = ImageItem()

19             item['image_id'] = photo['id']

20             item['download'] = photo['links']['download']

21             yield item

22

23         self.page_index += 1

24         # 获取下一页的链接

25         next_link = 'https://unsplash.com/napi/photos?page='\

26             + str(self.page_index) + '&per_page=12'

27         # 继续获取下一页的图片

28         yield scrapy.Request(next_link, callback=self.parse)

2. 在Pipeline中使用urllib.request包直接下載圖片:

 1 from urllib.request import *

 2

 3 class UnsplashimagespiderPipeline(object):

 4     def process_item(self, item, spider):

 5         # 每个item代表一个要下载的图片

 6         print('----------' + item['image_id'])

 7         real_url = item['download'] + "?force=true"

 8         try:

 9             pass

10             # 打开URL对应的资源

11             with urlopen(real_url) as result:

12                 # 读取图片数据

13                 data = result.read()

14                 # 打开图片文件

15                 with open("images/" + item['image_id'] + '.jpg', 'wb+') as f:

16                     # 写入读取的数据

17                     f.write(data)

18         except:

19             print('下载图片出现错误' % item['image_id'])

Scrapy——將爬取圖片下載到本地的更多相关文章

php圖片中寫入字符串然後生成圖片下載到本地
<?php /** * 生成卡片得類 * Enter description here ... * @author perry * @time 2014-03-03 10:02:20 */ cl ...
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息系统环境:Fedora22(昨天已安装scrapy环境) 爬取的开始URL:ht ...
使用scrapy框架爬取自己的博文（2）
之前写了一篇用scrapy框架爬取自己博文的博客,后来发现对于中文的处理一直有问题- - 显示的时候 [u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u76 ...
Python的scrapy之爬取链家网房价信息并保存到本地
因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息都保存在 ul 下的li 里面爬虫结构: 其中封装了一个数据库处理模 ...
爬虫框架Scrapy入门——爬取acg12某页面
1.安装1.1自行安装python3环境1.2ide使用pycharm1.3安装scrapy框架2.入门案例2.1新建项目工程2.2配置settings文件2.3新建爬虫app新建app将start_ ...
Scrapy+selenium爬取简书全站
Scrapy+selenium爬取简书全站环境 Ubuntu 18.04 Python 3.8 Scrapy 2.1 爬取内容文字标题作者作者头像发布日期内容文章连接文章ID 思路分 ...
爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
【Scrapy(四)】scrapy 分页爬取以及xapth使用小技巧
scrapy 分页爬取以及xapth使用小技巧这里以爬取www.javaquan.com为例: 1.构建出下一页的url: 很显然通过dom树,可以发现下一页所在的a标签 2.使用scrapy的 ...
python 使用selenium模块爬取同一个url下不同页的内容（浏览器模拟人工翻页）
页面翻页,下一页可能是一个新的url 也有可能是用js进行页面跳转,url不变,解决方法是实现浏览器模拟人工翻页目标:爬取同一个url下不同页的数据(上述第二种情况) url:http://www. ...

随机推荐

Promise对象，究竟为何物？
Promise对象一.什么是Promise? Promise是一种异步操作的解决方案,将写法复杂的传统的回调函数和监听事件的异步操作,用同步代码的形式表达出来. Promise避免了多级异步操作的回 ...
Maven史上最全的pom.xml详解
下面主要是借鉴官网的资料收集而来主要是为了讲解,用到的很少,但是还是需要了解 ,重点是方便查验资料 <project xmlns="http://maven.apache.org ...
关于ABAP和JSON互相转换
关于ABAP数据结构和JSON格式转换,需要用到标准的类/UI2/CL_JSON一下两个方法, DESERIALIZE是把JSON格式转换成ABAP数据结构,SERIALIZE是把ABAP数据结构转换 ...
Codis集群相关
在大数据高并发场景下,单个 Redis 实例往往会显得捉襟见肘.首先体现在内存上,单个 Redis 的内存不宜过大,内存太大会导致 rdb 文件过大,进一步导致主从同步时全量同步时间过长,在实例重启恢 ...
闲鱼上哪些商品抢手？Python 分析后告诉你
1目标场景经常看到有朋友在闲鱼卖些小东西又或是自己擅长的一些技能,都能为他们带来不错的睡后收入. 闲鱼上大量的商品,很难精准判断哪些受欢迎,哪些好卖:一个个录入数据去做数据分析,浪费时间的同 ...
Ubuntu命令集（持续更新）
Ubuntu命令集,生活工作汇总,没有顺序.(持续更新...) 1 pwd:没有参数,在终端现实我们当前所处的文件夹位置:ctrl+l:清除当前终端屏: 2 --------------------- ...
linux目录和Windows目录对比
linux目录和Windows目录对比我们应该知道 Windows 有一个默认的安装目录专门用来安装软件.Linux 的软件安装目录也应该是有讲究的,遵循这一点,对后期的管理和维护也是有帮助的. / ...
你好，Spring！
交个朋友拿人钱财替人干活儿,在不影响工作的前提下,想做到很高频率的更新很难,但是我也尽力输出,不能为了写而写,宁缺毋滥吧. 我的想法是这样的,接下来的一段时间专门写Spring框架.整体思路就是:入 ...
SpringBoot 内嵌容器的比较
Spring Boot内嵌容器支持Tomcat.Jetty.Undertow.为什么选择Undertow? 这里有一篇文章,时间 2017年1月26日发布的: 参考 Tomcat vs. Jetty ...
详解Js加法运算符
简介 JavaScript是一门了不起的语言.我喜欢它的灵活性:只需以你喜欢的方式做事:更改变量类型,动态的向对象添加方法或属性,对不同的变量类型使用运算符等等. 然而动态是要付出代价的,开发人员需要 ...

Scrapy——將爬取圖片下載到本地

Scrapy——將爬取圖片下載到本地的更多相关文章

随机推荐

热门专题