selenium+chrome浏览器驱动-爬取百度图片

百度图片网页中中，当页面滚动到底部，页面会加载新的内容。

我们通过selenium和谷歌浏览器驱动，执行js，是浏览器不断加载页面，通过抓取页面的图片路径来下载图片。

 from selenium import webdriver

 from selenium.webdriver.common.by import By

 from selenium.webdriver.support import expected_conditions as EC

 from selenium.webdriver.support.ui import WebDriverWait

 import requests

 from lxml import etree

 import time

 import random

 import os

 '''

 爬取百度图片，页面向下拉到底，会加载新的网页数据。

 '''

 # 构建请求头

 headers = {

 "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",

 "Accept-Encoding":"gzip, deflate, br",

 "Accept-Language":"zh-CN,zh;q=0.9",

 "Cache-Control":"max-age=0",

 "Connection":"keep-alive",

 "Cookie":"winWH=%5E6_1197x581; BDIMGISLOGIN=0; BDqhfp=%E5%9B%BE%E7%89%87%26%260-10-1undefined%26%260%26%261; BIDUPSID=24942ACBA645FE0108AF48B5C2509013; BAIDUID=C05587CE8C62CAB17300AA09BC6820BD:FG=1; PSTM=1528274179; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; H_PS_PSSID=1440_25810_26459_21103_18559_20928; BDUSS=VNneDRnWTQ3fnVQOWJpTG95Z1RZVnllVzlRSURpWnBMWHlwbGZha2lGZWl3VlpiQUFBQUFBJCQAAAAAAAAAAAEAAAB9W1Rr1MbFzNGnzt7Wub6zAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAKI0L1uiNC9bW; PSINO=3; BDRCVFR[feWj1Vr5u3D]=I67x6TjHwwYf0; cflag=15%3A3; BDRCVFR[dG2JNJb_ajR]=mk3SLVN4HKm; BDRCVFR[X_XKQks0S63]=mk3SLVN4HKm; firstShowTip=1; indexPageSugList=%5B%22%E5%9B%BE%E7%89%87%22%5D; cleanHistoryStatus=0",

 "Referer":"http://image.baidu.com/",

 "Upgrade-Insecure-Requests":"",

 "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36"

 }

 # 创建浏览器对象

 browser = webdriver.Chrome(executable_path=r'E:\PycharmProjects\pachong\chromedriver.exe')

 # 设置加载超时时间

 wait = WebDriverWait(browser,20)

 # 发送请求

 browser.get('https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111111&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E5%9B%BE%E7%89%87&oq=%E5%9B%BE%E7%89%87&rsp=-1')

 # 设置图片下载路径

 path = './baidupic/'

 if not os.path.exists(path):

     os.makedirs(path)

 while True:

     # 直到网页中的图片最后一个div加载成功。(每次加载新数据都是则将一个imgpaged的div)

     wait.until(EC.presence_of_all_elements_located((By.XPATH,'//div[@id="imgid"]/div[last()]')))

     # 获取网页源

     html = browser.page_source

     html = etree.HTML(html)

     # 获取图片的url

     # img_urls = html.xpath('//div[@id="imgid"]/div[last()]//li/@data-objurl') #大图

     img_urls = html.xpath('//div[@id="imgid"]/div[last()]//img/@data-imgurl') #小图

     # print(img_url)

     for img_url in img_urls:

         #获取图片名字.(直接按原名字存储，防止重名)

         fname = img_url.split('/')[-1]

         try:

             response = requests.get(img_url,headers=headers)

             data = response.content

             with open('./baidupic/'+fname,mode='wb') as f:

                 f.write(data)

         except:

             print(img_url,'下载失败')

         # 防止请求过快,这里是单线程下载图片本身需要一定时间，先注释掉

         # time.sleep(2+ random.random()*1)

     # 将页面滚动底，加载新数据(执行js)

     browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')

     # 页面加载需要时间

     time.sleep(5+ random.random()*1)

     # break

请求头headers中的内容源于浏览器的审查。删除了Host内容，百度的有些大图来源于其他网站，如果设置Host,一些大图可能不能下载。

在网页源码中发现，图片有大图，有小图，路径不同。

selenium+chrome浏览器驱动-爬取百度图片的更多相关文章

百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...
python 3 爬取百度图片
python 3 爬取百度图片学习了:https://blog.csdn.net/X_JS612/article/details/78149627
Python 爬虫实例（1）—— 爬取百度图片
爬取百度图片在Python 2.7上运行 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Author: loveNight import jso ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
selenium爬取百度图片
一:简介通过selenium模块,模拟火狐浏览器进行搜索下载操作. 二:脚本内容 # -*- coding:utf-8 -*- # 百度图片自动爬去 # Chrome浏览器类似,设置其options ...
python爬虫之爬取百度图片
##author:wuhao##爬取指定页码的图片,如果需要爬取某一类的所有图片,整体框架不变,但需要另作分析#import urllib.requestimport urllib.parseimpo ...
python3爬取百度图片（2018年11月3日有效）
最终目的:能通过输入关键字进行搜索,爬取相应的图片存储到本地或者数据库首先打开百度图片的网站,搜索任意一个关键字,比如说:水果,得到如下的界面分析: 1.百度图片搜索结果的页面源代码不包含需要提取 ...
Python爬虫：通过关键字爬取百度图片
使用工具:Python2.7 点我下载 scrapy框架 sublime text3 一.搭建python(Windows版本) 1.安装python2.7 ---然后在cmd当中输入python,界 ...
Java爬取百度图片Google图片Bing图片
先看看抓取的结果. 8个Java类: Startup.java - main函数 ImageCrawler.java - Crawler基类 BaiduImageCrawler.java - 百度图片 ...

随机推荐

3、webpack打包出的文件解析
分析打包后的结果,看看打包后的结果是什么东西把打包后的结果.注释什么的删删‘’ 当前是一个匿名函数. 默认的时候会执行,执行的时候会传一个对象,对象有几部分,第一部分是我们的key.第二部分是我们的 ...
fitnesse（gradle构建）安装步骤
1.安装jdk.ant.gradle(参考http://www.cnblogs.com/274914765qq/p/4401525.html) 2.下载Fitnesse https://github. ...
PHP之操作数组
https://www.jb51.net/Special/623.htm https://www.php.net/manual/zh/ref.array.php https://www.runoob. ...
IETester for IE11, IE10, IE9, IE8, IE7 IE 6 and IE5.5 on Windows 8 desktop, Windows 7, Vista and XP
简介: IETester是一个免费的(用于个人和专业用途)WebBrowser,允许您在Windows 8桌面,Windows 7,Vista和XP上拥有IE11,IE10,IE9,IE8,IE7 I ...
ZOJ3158 【DFS】
题意: 从上往下切割,不能切边缘,然后问你两个差值,要小于给出的值. 思路: 直接爆搜,枚举每一行的劈开位置: #include<bits/stdc++.h> using namespac ...
Ogre 学习记录
http://www.cppblog.com/richardhe/articles/55722.html 1: 设计初衷它设计初衷是完全跨平台的.抽象的接口隐藏了平台相关的细节. 它设计初衷是大幅度 ...
2012 Noip提高组 Day1
1262. [NOIP2012] Vigenère 密码 ★ 输入文件:vigenere.in 输出文件:vigenere.out 简单对比时间限制:1 s 内存限制:128 MB [ ...
[Xcode 实际操作]九、实用进阶-(25)使用Storyboard(故事版)的约束功能，使项目快速适配各种分辨率的设备
目录:[Swift]Xcode实际操作本文将演示使用故事版的约束功能,使项目快速适配各种分辨率的设备. 在项目导航区打开并编辑主故事版[Main.storyboard]. 在当前故事版中,已经存在一 ...
阿里云物联网 .NET Core 客户端 | CZGL.AliIoTClient：9. 自定义委托事件方法
文档目录: 说明 1. 连接阿里云物联网 2. IoT 客户端 3. 订阅Topic与响应Topic 4. 设备上报属性 4.1 上报位置信息 5. 设置设备属性 6. 设备事件上报 7. 服务调用 ...
web前端篇：JavaScript正则表达式
目录 JavaScript正则表达式 1.创建正则表达式 1.1方法1:直接量语法 1.2 方法2:创建RegExp对象的语法 1.3 区别: 1.4正则表达式使用 2.正则对象的属性 2.1.属性 ...

selenium+chrome浏览器驱动-爬取百度图片

selenium+chrome浏览器驱动-爬取百度图片的更多相关文章

随机推荐

热门专题