实例学习——爬取Pexels高清图片

近来学习爬取Pexels图片时，发现书上代码会抛出ConnectionError,经查阅资料知，可能是向网页申请过于频繁被禁，可使用time.sleep()，减缓爬取速度，但考虑到爬取数据较多，运行时间过长，所以选择对抛出的异常pass，在此修正。

开发环境：（Windows）eclipse+pydev

爬取网址：传送门

1、通过观察网页可一直下滑更新知，该网页使用了异步加载技术（AJAX）

2、观察网页源代码，F12——>NETWORK——>Headers，得请求URL

3、逐步删除URL字符串，把URL缩短，当使用"search/book/?page=2"时，可返回正常网页内容

代码展示：

# _*_ coding:utf-8 _*_

import requests

from bs4 import BeautifulSoup

headers ={

    'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'

    }

urls = ['https://www.pexels.com/search/book/?page={}'.format(str(i)) for i in range(1,20)]

list = []        #初始化列表，存储图片URLS

path = 'D:\Pyproject\pexels\picture'

for url in urls:

    try:

        wb_data = requests.get(url, headers = headers)

        soul = BeautifulSoup(wb_data.text, 'lxml')

        imgs = soul.select('article > a > img')

        for img in imgs:

            photo = img.get('src')

            list.append(photo)

            print('加载成功')

    except ConnectionError:

        print('pass disappoint')

for item in list:

    try:

        data = requests.get(item, headers = headers)

        fp = open(path + item.split('?')[0][-10:], 'wb')

        fp.write(data.content)

        fp.close

        print('下载成功')

    except ConnectionError:

        print('pass')

可以加入Time.time()观察程序运行时间

import time

start_time = time.time()

# program code

end_time = time.time()

print(start_time - end_time)

写入图片内容时代码迭代

with open(path + item.split('?')[0][-10:]) as fp:

    fp.write(data.content)

实例学习——爬取Pexels高清图片的更多相关文章

【转】Python 代码批量抓取免费高清图片！
import requests from bs4 import BeautifulSoup import random import time from fake_useragent import U ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
关于SDWebImage加载高清图片导致app崩溃的问题
链接是对于SDWebImage的使用方法 http://www.cnblogs.com/JimmyBright/p/4457258.html 使用SDWebImage加载高清图片的时候,往往会报内存溢 ...
python爬取某个网站的图片并保存到本地
python爬取某个网站的图片并保存到本地 #coding:utf- import urllib import re import sys reload(sys) sys.setdefaultenco ...
python网络爬虫之解析网页的正则表达式(爬取4k动漫图片)[三]
前言 hello,大家好本章可是一个重中之重,因为我们今天是要爬取一个图片而不是一个网页或是一个json 所以我们也就不用用到selenium模块了,当然有兴趣的同学也一样可以使用selenium去 ...
java 库 pdfbox 将 pdf 文件转换成高清图片方法
近期需要将 pdf 文件转成高清图片,使用库是 pdfbox.fontbox.可以使用 renderImageWithDPI 方法指定转换的清晰度,当然清晰度越高,转换需要的时间越长,转换出来的图片越 ...
Python 爬取陈都灵百度图片
Python 爬取陈都灵百度图片标签(空格分隔): 随笔今天意外发现了自己以前写的一篇爬虫脚本,爬取的是我的女神陈都灵,尝试运行了一下发现居然还能用.故把脚本贴出来分享一下. import req ...
C#爬取微博文字、图片、视频（不使用Cookie）
前两天在网上偶然看到一个大佬OmegaXYZ写的文章,Python爬取微博文字与图片(不使用Cookie) 于是就心血来潮,顺手撸一个C#版本的. 其实原理也很简单,现在网上大多数版本都需要Cooki ...
Java pdf转高清图片
为什么80%的码农都做不了架构师?>>> package com.hyb.kai.web.controller; import java.awt.image.BufferedIm ...

随机推荐

报错：没有与参数列表匹配的构造函数 "CFileDialog::CFileDialog" 实例
如果是在解决方案管理器窗口内,右击你的项目“项目”,然后选“属性”(最后一项),再点“配置属性”,是个“+”号,把它展开,然后选“常规”选项卡,倒数第三项“字符集”,选择“使用多字节字符集”.再编译应 ...
Tarjan求LCA胡乱写的板子 x
首先Tarjan算法的基本思路: 1.任选一个点为根节点,从根节点开始. 2.遍历该点u所有子节点v,并标记这些子节点v已被访问过. 3.若是v还有子节点,继续搜索下去,否则下一步. 4.合并v到u上 ...
rm：删除文件或目录
在使用 rm 命令删除文件或目录时,系统不会产生任何提示信息.此命令的基本格式为:rm[选项] 文件或目录选项: -f:强制删除(force),和 -i 选项相反,使用 -f,系统将不再询问,而是直 ...
Java 工程师成神之路
基础篇 → 什么是面向对象面向对象.面向过程是一种新兴的程序设计方法,或者是一种新的程序设计规范(paradigm),其基本思想是使用对象.类.继承.封装.多态等基本概念来进行程序设计.从现实世界 ...
linux下nohup日志切割方案
1.nohup命令解释: a.语法:nohup [command] [args] [&] b.说明:nohup 命令运行由 Command 参数和任何相关的 Arg 参数指定的命令,忽略所有挂 ...
14.Python bytes类型及用法
Python 3 新增了 bytes 类型,用于代表字节串(这是本教程创造的一个词,用来和字符串对应).字符串(str)由多个字符组成,以字符为单位进行操作:字节串(bytes)由多个字节组成,以字节 ...
httpclient+jsoup实现网页信息抓取
需求分析:抓取:http://tools.2345.com/rili.htm中的万年历(阳历.阴历等等). 1.首先为抓取的内容创建一个类.实现封装. package com.wan.domain; ...
解决新建Maven项目webapp-- index.jsp报错
现在,随着项目开发的不断增长,项目变得庞大,jar包管理起来也很费时.使用maven工程可以很轻松的帮助我们管理jar包,省时. 今天,我在公司电脑新建的maven工程,新建完后 index.jsp报 ...
Java面试题收集（二）
四.Redis简介 redis为什么这么快 4.1 Redis数据类型 String hash 字典,适用于存储对象 list 安照String元素插入顺序排序,最新插入的最先显示.如热点数据 set ...
C++入门经典-例6.5-连接字符串
1:运行代码如下: // 6.5.cpp : 定义控制台应用程序的入口点. // #include "stdafx.h" #include<iostream> usin ...

实例学习——爬取Pexels高清图片

实例学习——爬取Pexels高清图片的更多相关文章

随机推荐

热门专题