前言

最近整理自己的项目时,发现之前自己写的爬取wallhaven网站顿时有来的兴趣决定再写一遍来回顾自己以前学的知识

网站地址:"https://wallhaven.cc/"

1. url参数结构

从url地址我们发现为"https://wallhaven.cc/search?categories=111&purity=110&sorting=date_added&order=desc&page=2",这段url里面代用几个参数分别为,categories,purit,sorting。而这几个参数分别对应界面的这几个按钮

2. 查看网页结构

按f12键查找到要爬取的图片目录



通过查看代码发现该图片只是一张预览图片,分辨率仅为300*200,明显不符合要求。

观察下方a标签



发现这个class为preview的标签中存在个href地址链接到该高清图片的正确地址,点击该地址跳转



通过查看代码发现这才是我们需要的图片,找到了我们要的图片链接,在img标签中。

通过以上观察我们可以知道,我们的代码编写思路

  1. 获取到这一页所有图片的url地址
  2. 通过解析获取到详情页网页的图片
  3. 请求到详情页网页图片进行下载

3. 开始爬取图片

3.1 初始化

import requests
url = "https://wallhaven.cc/search?categories=011&purity=010&sorting=date_added&order=desc&page=2"
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.56',
} class Spider:
# 初始化数据
def __init__(self, url, header, cookie):
self.user_url = url
self.header = header
self.img_list_url = [] # 存放一页的所有图片地址
self.num = 0 # 计数爬取了多少张图片

3.2 获取到这一页所有图片的url地址

我们在Spider类中定义一个res方法来爬取这一页的所有url地址,并且利用列表推导式将所有的url地址存放到list_img列表中以便我们后续使用

# 获取某一页要下载的图片所有链接
def res(self):
response = requests.get(self.user_url, headers=self.header).text
soup = BeautifulSoup(response, "html.parser")
img_href = soup.select(".thumb-listing-page > ul > li a[href]")
list_img = [i.get("href") for i in img_href] # 所有的图片的href
print(list_img)
print("一共", len(list_img), "图片")
return list_img

3.3 通过解析获取到详情页网页的图片

通过res方法我们得到了一页的所有图片链接,这时我们获取详情页的图片地址并把它存放到img_list_url列表中以便我们后续开启多进程进行下载。但是我们这些书写会出现拿不到详细页的图片地址从而导致下标越界从而报错,所以可以优化一下代码

# 获取详情页图片地址
def detail_page(self, list_img):
# 遍历获取详情页图片地址
for item in list_img:
detail_page = requests.get(item, headers=self.header, cookies=self.cookie).text
soup = BeautifulSoup(detail_page, "html.parser")
img_url = soup.select("#showcase > div.scrollbox > img[src]")[0]["src"]
self.img_list_url.append(img_url)
print(img_url, "添加成功")
self.error_img_url(item)
return self.img_list_url

可以写出这样

# 获取详情页图片地址
def detail_page(self, list_img):
# 遍历获取详情页图片地址
for item in list_img:
detail_page = requests.get(item, headers=self.header, cookies=self.cookie).text
soup = BeautifulSoup(detail_page, "html.parser")
try: # 访问过快会爬取不到详情页图片地址,则出现一个空列表从而导致下标越界
img_url = soup.select("#showcase > div.scrollbox > img[src]")[0]["src"]
self.img_list_url.append(img_url)
print(img_url, "添加成功")
except IndexError: # 出现下标越界调用error_img_url方法
self.error_img_url(item)
return self.img_list_url # 处理获取失败的图片地址
def error_img_url(self, url):
print(url, "没有获取到现在重新获取")
# 休眠2秒重新发送请求
time.sleep(2)
detail_page = requests.get(url, headers=self.header, cookies=self.cookie).text
soup = BeautifulSoup(detail_page, "html.parser")
try:
img_url = soup.select("#showcase > div.scrollbox > img[src]")[0]["src"]
self.img_list_url.append(img_url)
print(img_url, "获取成功")
except IndexError: # 如果还没有获取到图片地址那么递归调用
self.error_img_url(url)

3.4 请求到详情页网页图片进行下载

通过前面我们已经获取下载图片地址,我们发现地址为"https://w.wallhaven.cc/full/zy/wallhaven-zyg5kw.jpg "完全可以使用split('/')进行切片获取最后一段用来命名图片名称

# 图片下载
def download_images(self, img_url):
if img_url is not None:
img_name = img_url.split("/")[-1] # 图片名称
img = requests.get(img_url, headers=self.header).content
with open(img_path + "/" + img_name, "wb") as fp:
fp.write(img)
print(img_name, "download over~")
self.num += 1

3.5 main方法

这时候我们编写主函数就可以下载了

if __name__ == '__main__':
img_path = "./wall"
if not os.path.exists(img_path):
os.mkdir(img_path)
# 开始爬取
start = time.time()
spider = Spider(url, headers, cookie)
list_img = spider.res() img_list_url = spider.detail_page(list_img) # 开启5个进程下载图片
pool = Pool(5)
pool.map(spider.download_images, img_list_url) end = time.time()
print("下载图片数量:", Spider.images_count)
print(end - start)

4. 完整代码

import os
import time
from multiprocessing.dummy import Pool
import requests
from bs4 import BeautifulSoup url = "https://wallhaven.cc/search?categories=011&purity=010&sorting=date_added&order=desc&page=2"
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.56',
} class Spider:
# 初始化数据
def __init__(self, url, header, cookie):
self.user_url = url
self.header = header
self.cookie = cookie
self.img_list_url = [] # 存放一页的所有图片地址
self.num = 0 # 计数爬取了多少张图片 # 获取某一页要下载的图片所有链接
def res(self):
response = requests.get(self.user_url, headers=self.header).text
soup = BeautifulSoup(response, "html.parser")
img_href = soup.select(".thumb-listing-page > ul > li a[href]")
list_img = [i.get("href") for i in img_href] # 所有的图片的href
print(list_img)
print("一共", len(list_img), "图片")
return list_img # 获取详情页图片地址
def detail_page(self, list_img):
# 遍历获取详情页图片地址
for item in list_img:
detail_page = requests.get(item, headers=self.header).text
soup = BeautifulSoup(detail_page, "html.parser")
try: # 访问过快会爬取不到详情页图片地址,则出现一个空列表从而导致下标越界
img_url = soup.select("#showcase > div.scrollbox > img[src]")[0]["src"]
self.img_list_url.append(img_url)
print(img_url, "添加成功")
except IndexError: # 出现下标越界调用error_img_url方法
self.error_img_url(item)
return self.img_list_url # 处理获取失败的图片地址
def error_img_url(self, url):
print(url, "没有获取到现在重新获取")
# 休眠2秒重新发送请求
time.sleep(2)
detail_page = requests.get(url, headers=self.header).text
soup = BeautifulSoup(detail_page, "html.parser")
try:
img_url = soup.select("#showcase > div.scrollbox > img[src]")[0]["src"]
self.img_list_url.append(img_url)
print(img_url, "获取成功")
except IndexError: # 如果还没有获取到图片地址那么递归调用
self.error_img_url(url) # 图片下载
def download_images(self, img_url):
if img_url is not None:
img_name = img_url.split("/")[-1] # 图片名字
img = requests.get(img_url, headers=self.header).content
with open(img_path + "/" + img_name, "wb") as fp:
fp.write(img)
print(img_name, "download over~")
self.num += 1 def images_count(self):
print(self.num) if __name__ == '__main__':
img_path = "./wall"
if not os.path.exists(img_path):
os.mkdir(img_path)
# 开始爬取
start = time.time()
spider = Spider(url, headers, cookie)
list_img = spider.res() img_list_url = spider.detail_page(list_img) # 开启5个进程下载图片
pool = Pool(5)
pool.map(spider.download_images, img_list_url) end = time.time()
print("下载图片数量:", Spider.images_count)
print(end - start)

5. 添加Cookie

如果有wallhaven用户的想爬取用户能爬取的图片需要添加Cookie

# 用户cookie
cookie = {
"_pk_id.1.01b8": "xxxx",
"_pk_ses.1.01b8": "xxxx",
"remember_web_59ba36addc2b2f9401580f014c7f58ea4e30989d": "xxx",
"XSRF-TOKEN": "xxxx",
"wallhaven_session": "xxxx"
}

请求的时候带上cookie即可

多线程爬取wallhaven的更多相关文章

  1. Python爬虫入门教程 14-100 All IT eBooks多线程爬取

    All IT eBooks多线程爬取-写在前面 对一个爬虫爱好者来说,或多或少都有这么一点点的收集癖 ~ 发现好的图片,发现好的书籍,发现各种能存放在电脑上的东西,都喜欢把它批量的爬取下来. 然后放着 ...

  2. Python爬虫入门教程 13-100 斗图啦表情包多线程爬取

    斗图啦表情包多线程爬取-写在前面 今天在CSDN博客,发现好多人写爬虫都在爬取一个叫做斗图啦的网站,里面很多表情包,然后瞅了瞅,各种实现方式都有,今天我给你实现一个多线程版本的.关键技术点 aioht ...

  3. Python爬虫入门教程 11-100 行行网电子书多线程爬取

    行行网电子书多线程爬取-写在前面 最近想找几本电子书看看,就翻啊翻,然后呢,找到了一个 叫做 周读的网站 ,网站特别好,简单清爽,书籍很多,而且打开都是百度网盘可以直接下载,更新速度也还可以,于是乎, ...

  4. 实现多线程爬取数据并保存到mongodb

    多线程爬取二手房网页并将数据保存到mongodb的代码: import pymongo import threading import time from lxml import etree impo ...

  5. Python爬虫入门教程: All IT eBooks多线程爬取

    All IT eBooks多线程爬取-写在前面 对一个爬虫爱好者来说,或多或少都有这么一点点的收集癖 ~ 发现好的图片,发现好的书籍,发现各种能存放在电脑上的东西,都喜欢把它批量的爬取下来. 然后放着 ...

  6. Python3 多线程爬取梨视频

    多线程爬取梨视频 from threading import Thread import requests import re # 访问链接 def access_page(url): respons ...

  7. python多线程爬取斗图啦数据

    python多线程爬取斗图啦网的表情数据 使用到的技术点 requests请求库 re 正则表达式 pyquery解析库,python实现的jquery threading 线程 queue 队列 ' ...

  8. 使用selenium 多线程爬取爱奇艺电影信息

    使用selenium 多线程爬取爱奇艺电影信息 转载请注明出处. 爬取目标:每个电影的评分.名称.时长.主演.和类型 爬取思路: 源文件:(有注释) from selenium import webd ...

  9. python利用requests和threading模块,实现多线程爬取电影天堂最新电影信息。

    利用爬到的数据,基于Django搭建的一个最新电影信息网站: n1celll.xyz  (用的花生壳动态域名解析,服务器在自己的电脑上,纯属自娱自乐哈.) 今天想利用所学知识来爬取电影天堂所有最新电影 ...

随机推荐

  1. ERP 软件为什么很贵?

    ERP软件的贵体现在两个方面,一个是软件系统贵,一个是部署实施贵,究其原因,就是ERP专业性太高.内部业务逻辑忒复杂,而面向形形色色的实体企业时个性化需求又加剧了它整体的复杂性,实施部署客制化无法避免 ...

  2. 【LeetCode第 313 场周赛】忘光光

    比赛链接 最近不怎么打比赛,不能马上反应过来考察的是什么,全部忘光光了... 6192. 公因子的数目 题意: 给定 \(a\) 和 \(b\),问两者的公因子数量 数据范围:\(1\leq a,b\ ...

  3. Git的使用以及常用命令(详解)

    一. 版本控制工具 什么是版本控制系统? 版本控制系统(Version Control System):是一种记录一个或若干文件内容变化,以便将来查阅特定版 本修订情况的系统.版本控制系统不仅可以应用 ...

  4. Python学习三天计划-1

    一.第一个Python程序 配置好环境变量后 打开CMD(命令提示符)程序,输入Python并回车 然后,在里面输入代码回车即可立即执行 Python解释器的作用是 将Python代码翻译成计算机认识 ...

  5. 齐博x1再来个抛砖引玉 内容页根据关键词调用相关内容 新功能哦!

    昨天升级了一个隐藏的功能,今天就简单的做个说明怎么用,反正也不能浪费不是 那就用内容页面关键词读取相关内容为例吧. 前台是你模型中已经存在keywords字段  关键词支持 空格分割,号分割 那么就开 ...

  6. 第一阶段:linux运维基础·1

    1. 服务器的主要硬件是?以及其作用是? cpu 相当于人体的大脑,负责计算机的运算和控制 内存 解决cpu与硬盘之间速度不匹配的问题 磁盘 永久存放数据的存储器 主板 直接或间接的将所有的设备连接在 ...

  7. 还在用双层for循环吗?太慢了

    前情提要 我们在开发中经常碰到这样的场景,查出两个 list 集合数据,需要根据他们相同的某个属性为连接点,进行聚合.但是平时我们使用的时候关注过性能吗?下面让我们一起来看看它的表现如何. 来个例子 ...

  8. 从0到1搭建redis6.0.7

    redis集群搭建 一.安装redis 源码安装: 1.下载源码包: wget http://download.redis.io/releases/redis-6.0.7.tar.gz 2.解压到指定 ...

  9. .Net6新版本的AssemblyLoadContext 加载程序集和卸载程序集

    准备俩个项目 第一个是控制台 第二个项目是类库 类库项目中只有一个示例class 将类库的代码生成dll 并且设置属性为复制到输出目录 using System.Runtime.Loader; var ...

  10. Linux面试题2:网络IO模型 & IO多路复用

    网络IO 先确定一下范围,我们讨论的都是网络IO,现阶段计算机早已经从CPU密集型转换成网络IO密集型,所以网络io的类型对于服务响应而言更重要. 五种IO模型 依据Unix的IO分类,网络IO分为五 ...