爬虫（四）Selenium + Headless Chrome爬取Bing图片搜索结果

Bing图片搜索结果是动态加载的，如果我们直接用requests去访问页面爬取数据，那我们只能拿到很少的图片。所以我们使用Selenium + Headless Chrome来爬取搜索结果。在开始前，需要介绍一下xpath。

XPath

XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。使用它让我们可以很方便地定位页面中的各种元素。详细使用方法可以看这里。

实例

from selenium import webdriver

from selenium.webdriver.common.by import By

import json

import re

import requests

import os

chrome_options = webdriver.ChromeOptions()

chrome_options.add_argument("--headless")

chrome_options.add_argument("--disable-gpu")

driver = webdriver.Chrome(options=chrome_options)

word = '深秋壁纸'

url = 'https://cn.bing.com/images/search?q={}'.format(word)

save_folder = 'imgs'

if not os.path.exists(save_folder):

    os.makedirs(save_folder)

driver.get(url)

# 获取一行图片

rows = driver.find_elements_by_class_name("dgControl_list")

t = 0

# 只点击一次“更多图片”

mark = True

while mark or t != len(rows):

    if t == len(rows):

        # 找到class为“mm_seemore”的div下的第一个a标签

        element = driver.find_element_by_xpath("//div[@class='mm_seemore']/a[1]")

        # 用JS模拟点击

        driver.execute_script("arguments[0].click()", element)

        mark = False

    # 翻到页面底部

    driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')

    driver.implicitly_wait(0.5)

    t = len(rows)

    rows = driver.find_elements_by_class_name("dgControl_list")

    print(t)

img_url_list = []

for row in rows:

    # 找到图片所在的a标签

    a_list = row.find_elements(By.XPATH, "li/div/div/a")

    for tag in a_list:

        # 获取图片链接

        img_url_list.append(json.loads(tag.get_attribute('m'))['murl'])

driver.quit()

for i in range(len(img_url_list)):

    try:

        img = requests.get(img_url_list[i], timeout=10).content

        # 获取图片格式

        img_format = re.search(r'\.\w+$', img_url_list[i])[0]

    except Exception as e:

        print(e)

        continue

    with open('{}/{}{}.{}'.format(save_folder, word, i, img_format[1:]), 'wb') as f:

        print('{}{}.{}'.format(word, i, img_format[1:]))

        f.write(img)

除了爬取动态页面，我们也完全可以用Selenium + Headless Chrome爬取其他页面。但是因为需要模拟浏览器，加载页面的各种文件，这种方法开销极大。所以如果不是必要，一般都使用开销更小的requests，毕竟绝大多数时候使用requests就能获取到我们想要的数据。另外，用单线程一张张获取图片很慢，如果有兴趣可以自己改成多线程来运行。

爬虫（四）Selenium + Headless Chrome爬取Bing图片搜索结果的更多相关文章

爬虫（三）通过Selenium + Headless Chrome爬取动态网页
一.Selenium Selenium是一个用于Web应用程序测试的工具,它可以在各种浏览器中运行,包括Chrome,Safari,Firefox 等主流界面式浏览器. 我们可以直接用pip inst ...
一起学爬虫——使用selenium和pyquery爬取京东商品列表
layout: article title: 一起学爬虫--使用selenium和pyquery爬取京东商品列表 mathjax: true --- 今天一起学起使用selenium和pyquery爬 ...
Python爬虫初探 - selenium+beautifulsoup4+chromedriver爬取需要登录的网页信息
目标之前的自动答复机器人需要从一个内部网页上获取的消息用于回复一些问题,但是没有对应的查询api,于是想到了用脚本模拟浏览器访问网站爬取内容返回给用户.详细介绍了第一次探索python爬虫的坑. 准 ...
Python爬虫学习（6）: 爬取MM图片
为了有趣我们今天就主要去爬取以下MM的图片,并将其按名保存在本地.要爬取的网站为: 大秀台模特网 1. 分析网站进入官网后我们发现有很多分类: 而我们要爬取的模特中的女模内容,点进入之后其网址为:h ...
Python 爬虫实例（1）—— 爬取百度图片
爬取百度图片在Python 2.7上运行 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Author: loveNight import jso ...
【Python网络爬虫四】通过关键字爬取多张百度图片的图片
最近看了女神的新剧<逃避虽然可耻但有用>,同样男主也是一名程序员,所以很有共鸣被大只萝莉萌的一脸一脸的,我们来爬一爬女神的皂片. 百度搜索结果:新恒结衣本文主要分为4个部分: 1.下载 ...
第十五节：Web爬虫之selenium动态渲染爬取
selenium是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firef ...
Scrapy爬取美女图片第四集突破反爬虫(上)
本周又和大家见面了,首先说一下我最近正在做和将要做的一些事情.(我的新书<Python爬虫开发与项目实战>出版了,大家可以看一下样章) 技术方面的事情:本次端午假期没有休息,正在使用fl ...
实现selenium+Chrome爬取时不加载图片——配置
# -*- coding:utf-8 -*- from selenium import webdriver ''' 设置页面不加载图片,这样可以加快页面的渲染,减少爬虫的等待时间,提升爬取效率固定配 ...

随机推荐

day 81 Vue学习二之vue结合项目简单使用、this指向问题
Vue学习二之vue结合项目简单使用.this指向问题本节目录一阶段性项目流程梳理二 vue切换图片三 vue中使用ajax 四 vue实现音乐播放器五 vue的计算属性和监听器六 ...
Celery - 异步任务 , 定时任务 , 周期任务
1.什么是Celery?Celery 是芹菜Celery 是基于Python实现的模块, 用于执行异步定时周期任务的其结构的组成是由 1.用户任务 app 2.管道 broker 用于存储 ...
使用Navicat连接管理远程linux服务器上的mysql数据库
第一步:选择连接,选择mysql 第二步:填写下面弹出框的信息:连接名随便写,主机名或IP地址:写上服务器的ip. 端口不变用户名不变. 密码:输入服务器数据库的密码12345678. 接着测 ...
<Python基础>字典的基本操作
''' 小知识 1.字典的键只能是不可变数据类型:int 元组 bool str(可哈希) 字典查找数据会使用二分查找,会先用哈希表将键转化为数字然后进行查找 ''' s = { "name ...
odoo 下 get_object_reference 函数
get_object_reference是 ir.model.data 模块中下的一个函数该函数通过调用ir.model.data 模块中另外一个函数 xmlid_lookup 返回结果 def g ...
[JZOJ4788] 【NOIP2016提高A组模拟9.17】序列
题目描述题目大意一个序列,每次可以使一段区间内的所有数加一(模四). 问最少的操作次数. 思考历程一看这题目,诶,这不就是那道叫密码锁的题目吗? 然后随便打一打,样例过了,就再也没有思考这一题 ...
springboot与热部署
在开发中我们修改一个Java文件后想看到效果不得不重启应用,这导致大量时间花费,我们希望不重启应用的情况下,程序可以自动部署(热部署).有以下四种情况,如何能实现热部署. 1.模板引擎: 在Sprin ...
win7+64位笔记本安装TensorFlow CPU版
最近要用到Keras框架,而Keras是基于Theano或Tensorflow框架安装的,所以首先要准备底层框架的搭建. 在网上看了一大堆教程头昏脑涨,随便挑了个试一试,竟然捣鼓成功了,记录一下安装过 ...
solusvm 主控端迁移
难点在于solusvm被控端已经开了小鸡的情况. 备份数据库: #!/bin/sh ## Vars CONF=/usr/local/solusvm/includes/solusvm.conf FILE ...
【solr】Solr与JDK对应版本关系，Tomcat与JDK
Solr与JDK对应版本关系,Tomcat与JDK版本对应关系最新在部署solrCloud集群,由于自己机器上用的JDK都是JDK1.7的,然后我就从网上下载了最新下载了最先的solr6.6.0和最 ...

爬虫（四）Selenium + Headless Chrome爬取Bing图片搜索结果

XPath

实例

爬虫（四）Selenium + Headless Chrome爬取Bing图片搜索结果的更多相关文章

随机推荐

热门专题