python图片爬虫 - 批量下载unsplash图片
前言
unslpash绝对是找图的绝佳场所, 但是进网站等待图片加载真的令人捉急, 仿佛是一场拼RP的战争 然后就开始思考用爬虫帮我批量下载, 等下载完再挑选, 操作了一下不算很麻烦, 顺便也给大家提供一个粗糙的批量下载图片的思路.
分析
进入网站发现不存在翻页, 一直下滑就会一直就内容, 考虑是Ajar
右键, 进入检查->NetWork->XHR, 查看一下页面的规律https://unsplash.com/napi/search/photos?query=输入的查询关键字&xp=&per_page=每页的图像个数&page=第几页
获取了页面URL之后再来看看每次下载的图片的地址的规律
https://images.unsplash.com/photo-1514883212130-343c0e4bd349?ixlib=rb-1.2.1&q=85&fm=jpg&crop=entropy&cs=srgb&dl=anh-nguyen-FZZkQZDQCtw-unsplash.jpg
看起来很复杂的亚子, 先不管, 去响应内容里面看看有没有什么能用的, 来构造出这个复杂的URL分析响应内容
每一条都对应着该页的一个图片信息, 我们点开第一个看看
可以看到第三行中有一个名为id的键对应的值为FZZkQZDQCtw
, 在下载的URL中出来了.
再往下翻, user中的name对应的值是不是和下载的URL中出现的anh-nguyen
很像?只是分隔符不同.
距离拼出来下载URL已经成功了一半, 前面还有一大串东西没有找出来, 再去urls中找找
可以发现第一个full对应的url和下载url相似程度极高, 但是又多出来了一部分, 这个直接切片即可
至此构造下载URL需要的碎片已全部集齐, 马上就可以召唤神龙.
程序
import requests
from selenium import webdriver
import time
driver = webdriver.Chrome()
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36',
}
# 以搜索关键字job为例
base_url = 'https://unsplash.com/napi/search/photos?query=job&xp=&per_page=20&page=2'
response = requests.get(base_url, headers=headers)
data = response.json()
# 获取响应内容
def get_data(base_url):
response = requests.get(base_url, headers=headers)
data = response.json()
return data
# 从相应内容中构造下载图片的url
def download(d):
datas = d.get('results')
for data in datas:
id = data.get('id')
t_url = data.get('urls').get('full')
t = t_url.index('ixid=')
t_url = t_url[:t]
name = data.get('user').get('name')
name = name.replace(" ", '-')
url = t_url + '&dl=' + name + '-' + id + '-unsplash.jpg'
# 自动模拟浏览器下载
driver.get(url)
data = get_data(base_url)
download(data)
# 可能最后的几张图片无法被下载就直接关闭浏览器了
time.sleep(30)
driver.quit()
测试
完美运行
拓展
既然已经发现了页面url的规律, 我们可以自己构造一个url, 一页可以多显示一些图片, 再进行下载.
def change_url(keyword, pre_page, page):
base_url = 'https://unsplash.com/napi/search/photos?query=' + keyword + '&xp=&per_page=' + str(pre_page) + '&page=' + str(page)
return base_url
python图片爬虫 - 批量下载unsplash图片的更多相关文章
- python多线程爬虫+批量下载斗图啦图片项目(关注、持续更新)
python多线程爬虫项目() 爬取目标:斗图啦(起始url:http://www.doutula.com/photo/list/?page=1) 爬取内容:斗图啦全网图片 使用工具:requests ...
- Python随笔--爬虫(下载妹子图片)
- 批量下载网站图片的Python实用小工具
定位 本文适合于熟悉Python编程且对互联网高清图片饶有兴趣的筒鞋.读完本文后,将学会如何使用Python库批量并发地抓取网页和下载图片资源.只要懂得如何安装Python库以及运行Python程序, ...
- 批量下载网站图片的Python实用小工具(下)
引子 在 批量下载网站图片的Python实用小工具 一文中,讲解了开发一个Python小工具来实现网站图片的并发批量拉取.不过那个工具仅限于特定网站的特定规则,本文将基于其代码实现,开发一个更加通用的 ...
- python多线程批量下载远程图片
python多线程使用场景:多线程采集, 以及性能测试等 . 数据库驱动类-简单封装下 mysqlDriver.py #!/usr/bin/python3 #-*- coding: utf-8 -*- ...
- C++ 根据图片url 批量 下载图片
最近需要用到根据图片URL批量下载到本地的操作.查找了相关资料,记录在这儿. 1.首先在CSV文件中提取出url ifstream fin("C:\\Users\\lenovo\\Deskt ...
- Python + Selenium +Chrome 批量下载网页代码修改【新手必学】
Python + Selenium +Chrome 批量下载网页代码修改主要修改以下代码可以调用 本地的 user-agent.txt 和 cookie.txt来达到在登陆状态下 批量打开并下载网页, ...
- Python爬虫实战:批量下载网站图片
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: GitPython PS:如有需要Python学习资料的小伙伴可以 ...
- [记录][python]python爬虫,下载某图片网站的所有图集
随笔仅用于学习交流,转载时请注明出处,http://www.cnblogs.com/CaDevil/p/5958770.html 该随笔是记录我的第一个python程序,一个爬去指定图片站点的所有图集 ...
随机推荐
- 【朝花夕拾】Android多线程之(三)runOnUiThread篇——程序猿们的贴心小棉袄
runOnUiThread()的使用以及原理实在是太简单了,简单到笔者开始都懒得单独开一篇文章来写它.当然这里说的简单,是针对对Handler比较熟悉的童鞋而言的.不过麻雀虽小,五脏俱全,runOnU ...
- CCF-CSP题解 201609-3 炉石传说
模拟. 注意随从的编号在\(summon\)和\(attack\)随从死亡时都可能改变. #include <bits/stdc++.h> using namespace std; str ...
- CQRS+ES项目解析-Equinox
今天我们来分析另一个开源的CQRS+ES项目:Equinox.该项目可以在github上下载并直接本地运行,项目地址:https://github.com/EduardoPires/EquinoxPr ...
- 构建 CDN 分发网络架构简析
构建 CDN 分发网络架构 CDN的基本目的:1.通过本地缓存实现网站的访问速度的提升 CDN的关键点:CNAME在域名解析:split智能分发,引流到最近缓存节点
- [ASP.NET Core 3框架揭秘] 文件系统[4]:程序集内嵌文件系统
一个物理文件可以直接作为资源内嵌到编译生成的程序集中.借助于EmbeddedFileProvider,我们可以采用统一的编程方式来读取内嵌的资源文件,该类型定义在 "Microsoft.Ex ...
- C#Protected和多态(虚方法)
Protected 在基类中定义后,能被派生类调用,但是不能被其他类调用. virtual 在基类中定义后,在派生类中能被重写. using System; using System.Collecti ...
- Python—执行系统命令的四种方法
一.os.system方法 这个方法是直接调用标准C的system() 函数,仅仅在一个子终端运行系统命令,而不能获取命令执行后的返回信息. os.system(cmd)的返回值.如果执行成功,那么会 ...
- Java基础部分知识点(初稿)
1.一个“.java”源文件是否可以包括多个类(不是内部类)?有什么限制? .java 源文件中可以有多个类,但只能有一个 public 的类,并且 public 的类名必须与文件相一致 2.Java ...
- React的世界观及与Vue之比较
写在前面:本文谈论的是主观的个人感受,不追求立场的“客观.公正”,因此我下面所说的很可能是错的,欢迎交流指正. 我学习前端时,跟大部分beginner一样,学的第一个框架是Vue,入职后也一直写Vue ...
- 创建mysql索引的方式
创建索引方式: 1.create index 索引名 on 表名 (字段) 2.alter table 表 add index 索引名 (字段) -- 普通索引 alter table 表名 ...