Python批量爬取谷歌原图,2021年最新可用版
文章目录
前言
作为一名CVer,数据集获取少不了用到数据、图片爬虫技术,谷歌作为全球最大的数据搜索网站,如何从中快速获取大量有用图片数据尤为重要,但是技术更新,很多代码大多就会失效,爬与反爬永远斗智斗勇...
提示:以下是本篇文章正文内容,下面案例可供参考
一、环境配置
1.安装selenium
selenium是一个自动化测试工具,能够模拟浏览器行为,在爬虫上得到了广泛引用。如果你没有安装,请pip install
pip install selenium
2.使用正确的谷歌浏览器驱动
下载符合你的谷歌浏览器的驱动,chromedriver的版本一定要与Chrome的版本一致,不然就不起作用。
查看自己谷歌浏览器的版本,我这里是92.0.4515.131
找到对应的ChromeDriver版本,然后可以从下面的网站下载。
下载地址:https://npm.taobao.org/mirrors/chromedriver/
完整的代码包以及chromedriver已上传资源:https://download.csdn.net/download/m0_49688739/21005123
二、使用步骤
1.加载chromedriver.exe
修改以下代码中的路径,使用你自己的:
driver = webdriver.Chrome('E:/anaconda/chromedriver.exe', options=ch_op)
2.设置是否开启可视化界面
selenium模拟浏览器行为,其实相当于将我们手动搜索,输入,点击等操作用代码完成,这里可以设置是否开启可视化界面。
开启:可以看到浏览器自动打开并输入关键词搜索,滑动页面等过程,可以监测下载过程。
关闭:不开启浏览器界面,后台运行下载。
默认为关闭,如果需要开启请注释掉那两行代码
1 # 创建一个参数对象,用来控制chrome是否以无界面模式打开
2 ch_op = Options()
3 # 设置谷歌浏览器的页面无可视化,如果需要可视化请注释这两行代码
4 ch_op.add_argument('--headless')
5 ch_op.add_argument('--disable-gpu')
3.输入关键词、下载图片数、图片保存路径
这里的图片保存路径需要使用\\区分
之后就是获取图片url的过程,由于谷歌图片页面是动态加载的,获取每个图片的原图就需要点开大图,并等它加载一会才能获取到原图的url,如果时间太短,获取到的就会是缩略图,或者出错。
如果你的网络状况不好,请适当延长等待时间time.sleep()。
1 image = driver.find_element_by_xpath('//*[@id="islrg"]/div[1]/div[' + str(i) + ']/a[1]/div[1]/img')
2
3 # 此选项为下载缩略图
4 # image_src = image.get_attribute("src")
5 image.click() # 点开大图
6 time.sleep(4) # 因为谷歌页面是动态加载的,需要给予页面加载时间,否则无法获取原图url,如果你的网络状况一般请适当延长
7 # 获取原图的url
8 image_real = driver.find_element_by_xpath('//*[@id="Sva75c"]/div/div/div[3]/div[2]/c-wiz/div/div[1]/div[1]/div[2]/div[1]/a/img')
9 image_url = image_real.get_attribute("src")
三、爬取效果
由于需要等待页面加载,所以爬取时间会比较长,请耐心等待。
下载的基本都是原图,除非获取原图url失败。
四、完整代码
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
import time
import os
import urllib.request
import uuid
def download_pic(url, name, path):
if not os.path.exists(path):
os.makedirs(path)
res = urllib.request.urlopen(url, timeout=3).read()
with open(path + name +'.jpg', 'wb') as file:
file.write(res)
file.close()
def get_image_url(num, key_word):
box = driver.find_element_by_xpath('/html/body/div[1]/div[3]/form/div[1]/div[1]/div[1]/div/div[2]/input')
box.send_keys(key_word)
box.send_keys(Keys.ENTER)
box = driver.find_element_by_xpath('//*[@id="hdtb-msb"]/div[1]/div/div[2]/a').click()
# 滚动页面
last_height = driver.execute_script('return document.body.scrollHeight')
while True:
driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
time.sleep(2)
new_height = driver.execute_script('return document.body.scrollHeight')
try:
driver.find_elements_by_xpath('//*[@id="islmp"]/div/div/div/div/div[5]/input').click()
except:
pass
if new_height == last_height:
# 点击显示更多结果
try:
box = driver.find_element_by_xpath('//*[@id="islmp"]/div/div/div/div[1]/div[2]/div[2]/input').click()
except:
break
last_height = new_height
image_urls = []
for i in range(1, num):
try:
image = driver.find_element_by_xpath('//*[@id="islrg"]/div[1]/div[' + str(i) + ']/a[1]/div[1]/img')
# 此选项为下载缩略图
# image_src = image.get_attribute("src")
image.click() # 点开大图
time.sleep(4) # 因为谷歌页面是动态加载的,需要给予页面加载时间,否则无法获取原图url,如果你的网络状况一般请适当延长
# 获取原图的url
image_real = driver.find_element_by_xpath('//*[@id="Sva75c"]/div/div/div[3]/div[2]/c-wiz/div/div[1]/div[1]/div[2]/div[1]/a/img')
image_url = image_real.get_attribute("src")
image_urls.append(image_url)
print(str(i) + ': ' + image_url)
except:
print(str(i) + ': error')
pass
return image_urls
if __name__ == '__main__':
# 创建一个参数对象,用来控制chrome是否以无界面模式打开
ch_op = Options()
# 设置谷歌浏览器的页面无可视化,如果需要可视化请注释这两行代码
ch_op.add_argument('--headless')
ch_op.add_argument('--disable-gpu')
url = "https://www.google.com/"
driver = webdriver.Chrome('E:/anaconda/chromedriver.exe', options=ch_op)
driver.get(url)
key_word = input('请输入关键词:')
num = int(input('请输入需要下载的图片数:'))
_path = input('请输入图片保存路径,例如G:\\\\google\\\\images\\\\ :')
# path = "G:\\google\\images_download\\" + key_word + "\\" # 图片保存路径改为自己的路径
path = _path + key_word + "\\"
print('正在获取图片url...')
image_urls = get_image_url(num, key_word)
for index, url in enumerate(image_urls):
try:
print('第' + str(index) + '张图片开始下载...')
download_pic(url, str(uuid.uuid1()), path)
except Exception as e:
print(e)
print('第' + str(index) + '张图片下载失败')
continue
driver.quit()
Python批量爬取谷歌原图,2021年最新可用版的更多相关文章
- 从0实现python批量爬取p站插画
一.本文编写缘由 很久没有写过爬虫,已经忘得差不多了.以爬取p站图片为着手点,进行爬虫复习与实践. 欢迎学习Python的小伙伴可以加我扣群86七06七945,大家一起学习讨论 二.获取网页源码 爬取 ...
- python 批量爬取四级成绩单
使用本文爬取成绩大致有几个步骤:1.提取表格(或其他格式文件——含有姓名,身份证等信息)中的数据,为进行准考证爬取做准备.2.下载准考证文件并提取出准考证和姓名信息.3.根据得到信息进行数据分析和存储 ...
- python批量爬取动漫免费看!!
实现效果 运行环境 IDE VS2019 Python3.7 Chrome.ChromeDriver Chrome和ChromeDriver的版本需要相互对应 先上代码,代码非常简短,包含空行也才50 ...
- 用Python批量爬取优质ip代理
前言 有时候爬的次数太多时ip容易被禁,所以需要ip代理的帮助.今天爬的思路是:到云代理获取大量ip代理,逐个检测,将超时不可用的代理排除,留下优质的ip代理. 一.爬虫分析 首先看看今天要爬取的网址 ...
- python 批量爬取代理ip
import urllib.request import re import time import random def getResponse(url): req = urllib.request ...
- python批量爬取文档
最近项目需要将批量链接中的pdf文档爬下来处理,根据以下步骤完成了任务: 将批量下载链接copy到text中,每行1个链接: 再读txt文档构造url_list列表,利用readlines返回以行为单 ...
- python批量爬取猫咪图片
不多说直接上代码 首先需要安装需要的库,安装命令如下 pip install BeautifulSoup pip install requests pip install urllib pip ins ...
- 使用Python批量爬取美女图片
运行截图 实列代码: from bs4 import BeautifulSoup import requests,re,os headers = { 'User-Agent': 'Mozilla/5. ...
- from appium import webdriver 使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium)
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
随机推荐
- 手动实现 shared_ptr
面试写了一个基础的 scoped_ptr,被面试官要求写 shared_ptr,一时语塞.面试官不断提示我说在现有的基础上实现 shared_ptr 很简单,真的很简单,宛如在不断暗示我 1+1 就是 ...
- HttpRunner3.X - 全面讲解如何落地项目实战
一.前言 接触httprunner框架有一段时间了,也一直探索如何更好的落地到项目上,本篇主要讲述如何应用到实际的项目中,达到提升测试效率的目的. 1.项目难题 这个月开始忙起来了,接了个大项目,苦不 ...
- 踩坑系列《十》Python pip 安装问题一站式解决
在使用Python编程语言时,难免要安装第三方库 安装一般都是在cmd命令行窗口安装 1.常规安装 ,在窗口输入 pip install 你要下载的库 这种方式一般网速比较慢,毕竟是从国外下载的 2. ...
- Mysql读写分离集群的搭建且与MyCat进行整合
1. 概述 老话说的好:不熟悉的东西不要不懂装懂,做人要坦诚,知道就是知道,不知道就是不知道. 言归正传,今天我们来聊聊 Mysql主从读写分离集群是如何搭建的,并且聊一下如何用 MyCat 去访问这 ...
- ArcToolbox工具箱
3D Analyst 工具 Data Interoperability Tools Geostatistical Analyst 工具 Network Analyst 工具 Schematics 工具 ...
- PTA实验11-1-7 藏头诗 (15分)
实验11-1-7 藏头诗 (15分) 本题要求编写一个解密藏头诗的程序. 输入格式: 输入为一首中文藏头诗,一共四句,每句一行.注意:一个汉字占两个字节. 输出格式: 取出每句的第一个汉字并连接在一起 ...
- API代码实战
API实例一: login.py文件 #!/usr/bin/env python #!coding:utf-8 from flask import Flask,jsonify from flask_r ...
- OO第四单元及学期总结
OO第四单元及学期总结 第四单元两次作业的架构设计 第一次作业 类图: 树形结构:使用Operation类管理UMLOperation以及parent为该UMLOperation的参数(UMLpara ...
- ssh后门反向代理实现内网穿透
如图所示,内网主机ginger 无公网IP地址,防火墙只允许ginger连接blackbox.example.com主机 假如你是ginger的管理员root,你想要用tech主机连接ginger主机 ...
- 不可错过的stm32单片机直流电机驱动与测速详解
stm32直流电机驱动与测速 说实话就现在的市场应用中stm32已经占到了绝对住到的地位,51已经成为过去式,32的功能更加强大,虽然相应的难度有所增加,但是依然阻止不了大家学习32的脚步,不说大话了 ...