python爬虫入门六:Selenium库
在我们爬取网页过程中,经常发现我们想要获得的数据并不能简单的通过解析HTML代码获取,这些数据是通过AJAX异步加载方式或经过JS渲染后才呈现在页面上显示出来。
selenuim是一种自动化测试工具,它支持多种浏览器。而在爬虫中,我们可以使用它来模拟浏览器浏览页面,进而解决JavaScript渲染的问题。
1. 使用示例
from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait import WebDriverWait
# 调用Chrome浏览器 browser = webdriver.Chrome() try: browser.get('https://www.baidu.com') input_data = browser.find_element_by_id('kw') # 传入参数 input_data.send_keys('数据分析') # 点击回车 input_data.send_keys(Keys.ENTER) # 等待加载 wait = WebDriverWait(browser, 10) wait.until(EC.presence_of_element_located((By.ID, 'content_left'))) # 输出url print(browser.current_url) # 输出cookies print(browser.get_cookies) # 输出源码 print(browser.page_source) finally: browser.close()
2. 详细介绍
2.1 声明浏览器对象
即告诉程序,应该使用哪个浏览器进行操作
from selenium import webdriver # 使用Chrome browser = webdriver.Chrome() # 如果没有添加chromedriver到系统path里,需要指定chromedriver的路径 browser = webdriver.Chrome('/your path to/webdriver') # selenium也可以支持其他的浏览器,如Firefox、Edge、Safari...声明方法和上面一样 browser = webdriver.Firefox() browser = webdriver.Safari()
2.2 访问页面
from selenium import webdriver # 使用Chrome browser = webdriver.Chrome() # 打开淘宝 browser.get('https://www.taobao.com') # 打印页面源代码 print(browser.page_source) # 关闭浏览器 browser.close()
2.3 查找元素
成功访问网页后,我们可能需要进行一些操作,比如找到搜索框然后输入关键字再敲击回车键。
因此,就需要在selenium中查找元素。
2.3.1 单个元素
selenium查找元素有两种方法。
第一种,是指定使用哪种方法去查找元素,比如指定依照CSS选择或者依照xpath去进行查找
from selenium import webdriver browser = webdriver.Chrome() browser.get('https://www.taobao.com') # 查找id input_first = browser.find_element_by_id('q') # CSS选择 input_second = browser.find_element_by_css_selector('#q') # xpath input_third = browser.find_element_by_xpath('//*[@id="q"]') # 三种方法的效果一致 print(input_first, input_third, input_third)
下面是详细的元素查找方法
- find_element_by_name
- find_element_by_xpath
- find_element_by_link_text
- find_element_by_partial_link_text
- find_element_by_tag_name
- find_element_by_class_name
- find_element_by_css_selector
第二种,是直接使用find_element(),传入的第一个参数为需要使用的元素查找方法
from selenium import webdriver from selenium.webdriver.common.by import By browser = webdriver.Chrome() browser.get('https://www.taobao.com') browser.find_element(By.ID, 'q')
2.3.2 多个元素
查找多个元素和查找单个元素的方法基本一致(只需要将查找单个元素的func里加一个s)。
查找多个元素返回的是一个list。
from selenium import webdriver from selenium.webdriver.common.by import By browser = webdriver.Chrome() browser.get('https://www.taobao.com') # 查找单个元素 browser.find_element(By.ID, 'q') browser.find_element_by_id('q') # 查找多个元素 browser.find_elements(By.ID, 'q') browser.find_elements_by_id('q')
2.4 元素交互操作
元素交互是先获取一个元素,然后对获取的元素调用交互方法。
比如说在搜索框内输入文字:
from selenium import webdriver import time browser = webdriver.Chrome() browser.get('https://www.jd.com') input = browser.find_element_by_css_selector('#key') # 找到搜索框 input.send_keys('iPad') # 输入iPad time.sleep(1) input.clear() # 清空搜索框 input.send_keys('iPhone') # 输入iPhone botton = browser.find_element_by_css_selector('#search > div > div.form > button > i') # 找到搜索按钮 botton.click() # 点击搜索按钮
2.5 交互动作
交互动作是将动作附加到交互链中串行执行,需要使用到ActionChains。
参照官方文档:ActionChains
2.6 执行JavaScript
比如拖拽下拉
from selenium import webdriver browser = webdriver.Chrome() browser.get('https://www.zhihu.com/explore') # 下拉 browser.execute_script('window.scrollTo(0, document.body.scrollHeight)') browser.execute_script('alert("To Bottom")')
2.7 获取元素信息
已经通过元素查找获取到元素后,可能还需要获取这个元素的属性、文本
2.7.1 获取属性
from selenium import webdriver browser = webdriver.Chrome() browser.get('https://www.baidu.com') print(browser.title) # 网页标题 print(browser.name) # 浏览器名称 print(browser.find_element_by_id('setf').text) # 获取文本 print(browser.find_element_by_id('kw').tag_name) # 搜索框的标签属性 print(browser.find_element_by_id('kw').get_attribute("class")) # 搜索框的其他属性 print(browser.find_element_by_id('kw').get_attribute('value')) # 搜索框输入的内容
2.8 Frame
如果定位到父frame,是无法查找到子frame的信息的,因此需要切换到子frame再进行查找。同理,在子frame也无法查找到父frame的信息
from selenium.common.exceptions import NoSuchElementException from selenium import webdriver browser = webdriver.Chrome('/Users/xingyu/Downloads/chromedriver') browser.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable') # 切换至子frame browser.switch_to.frame('iframeResult') # 查找元素 source = browser.find_element_by_css_selector('#draggable') print('source') # 在子frame中不能找到父frame的信息 try: logo = browser.find_element_by_class_name('logo') except NoSuchElementException: print('no logo') # 切换至父frame browser.switch_to.parent_frame() logo = browser.find_element_by_class_name('logo') print(logo) print(logo.text)
2.9 等待
请求网页时,可能会存在AJAX异步加载的情况。而selenium只会加载主网页,并不会考虑到AJAX的情况。因此,使用时需要等待一些时间,让网页加载完全后再进行操作。
2.9.1 隐式等待
使用隐式等待时,如果webdriver没有找到指定的元素,将继续等待。超出规定时间后,如果还是没又找到指定元素则抛出找不到元素的异常。默认等待时间为0。
隐式等待是对整个页面进行等待。
需要特别说明的是:隐性等待对整个driver的周期都起作用,所以只要设置一次即可。
from selenium.common.exceptions import NoSuchElementException browser = webdriver.Chrome('/Users/xingyu/Downloads/chromedriver') # 隐式等待,时长为10 browser.implicitly_wait(10) browser.get('https://www.zhihu.com/explore') input = browser.find_element_by_class_name('zu-top-add-question') print(input)
2.9.2 显式等待
显示等待包含了等待条件和等待时间。
首先判定等待条件是否成立,如果成立,则直接返回;如果条件不成立,则等待最长时间为等待时间,如果超过等待时间后仍然没有满足等待等待条件,则抛出异常。
显式等待是对指定的元素进行等待。
from selenium import webdriver from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.by import By driver = webdriver.Chrome('/Users/xingyu/Downloads/chromedriver') driver.implicitly_wait(10) # 隐性等待和显性等待可以同时用,但要注意:等待的最长时间取两者之中的大者 driver.get('https://www.baidu.com') try: WebDriverWait(driver, 10).until(lambda x: x.find_element_by_id('kw')).send_keys("lambda") finally: driver.close()
2.10 浏览器的前进/后退
back实现回到前一页面,forward实现前往下一页面
import time from selenium.common.exceptions import NoSuchElementException browser = webdriver.Chrome() browser.get('https://www.baidu.com/') browser.get('https://www.taobao.com/') browser.get('https://www.python.org/') # 后退至上一页面 browser.back() time.sleep(1) # 前进至下一页面 browser.forward() browser.close()
2.11 对Cookies进行操作
from selenium import webdriver browser = webdriver.Chrome() browser.get('https://www.zhihu.com/explore') # 获取当前cookies print(browser.get_cookies()) # 添加cookies browser.add_cookie({'name': 'name', 'domain':'domain', 'value':'value'}) print(browser.get_cookies()) # 清除所有cookies browser.delete_all_cookies() print(browser.get_cookies())
2.12 选项卡管理
选项卡管理就是浏览器的标签。有些时候我们需要在浏览器里增加一个新标签页或者删除一个标签页,就可以使用selenium来实现。
from selenium import webdriver browser = webdriver.Chrome() browser.get('https://www.baidu.com') # 增加一个新的标签页 browser.execute_script('window.open()') # window_handles即为目前浏览器的标签页信息 print(browser.window_handles) # 切换至标签页1 browser.switch_to.window(browser.window_handles[1]) browser.get('https://www.taobao.com') # 切换至标签页0 browser.switch_to.window(browser.window_handles[0]) browser.get('https://www.python.org') # 关闭目前定位标签页,也就是标签页0 browser.close() # 退出浏览器 browser.quit()
2.13 异常处理
参照官方文档:Exceptions
python爬虫入门六:Selenium库的更多相关文章
- Python爬虫入门六之Cookie的使用
大家好哈,上一节我们研究了一下爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用. 为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份.进行session跟踪而储存在 ...
- Python爬虫入门之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
- Python爬虫入门之Urllib库的基本使用
那么接下来,小伙伴们就一起和我真正迈向我们的爬虫之路吧. 1.分分钟扒一个网页下来 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解 ...
- python爬虫笔记----4.Selenium库(自动化库)
4.Selenium库 (自动化测试工具,支持多种浏览器,爬虫主要解决js渲染的问题) pip install selenium 基本使用 from selenium import webdriver ...
- PYTHON 爬虫笔记七:Selenium库基础用法
知识点一:Selenium库详解及其基本使用 什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium ...
- python爬虫入门(六) Scrapy框架之原理介绍
Scrapy框架 Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬 ...
- Python爬虫入门:Urllib库的高级使用
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
- Python爬虫入门:Urllib库的基本使用
1.分分钟扒一个网页下来 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它 是一段HTML代码,加 JS.CS ...
- 芝麻HTTP:Python爬虫入门之Urllib库的基本使用
1.分分钟扒一个网页下来 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS ...
随机推荐
- exec 和 eval
exec exec语句用来执行储存在字符串或文件中的Python语句, 我们可以运行一个包含Python语句的字符串 >>> exec "print 'Hello Pyth ...
- python基本的数据类型
一.python的基本数据类型 int => 整数,主要用来进行数学运算 str ==> 字符串 可以用来保存少量数据并进行相应操作 bool ==> 判断真假,True,False ...
- Vue初始化
Vue上面的函数怎么来的 vue的打包路径 在web中使用的vue打包路径: npm run build 打包生成vue.js 下面是依次引入: src/platforms/web/entry-run ...
- 通过configmap更新k8s里的mysql配置文件
背景: 环境注意:在用rancher搭建的k8s里,mysql是起了一个pod,镜像是网上的mysql:5.7 开发人员提出了一个报错“查询时的ONLY_FULL_GROUP_BY错误”,让我改sql ...
- 详解JS作用域(一)
一.什么是作用域 存储和访问变量,是任何一种编程语言最基本的功能之一,变量存在哪里?程序需要时如何找到它?这些问题需要一套良好的规则来规范,这套规则,就成为作用域. 二.编译原理 js通常归类为解释语 ...
- Dubbo理论知识
本文是作者根据官方文档以及自己平时的使用情况,对 Dubbo 所做的一个总结.如果不懂 Dubbo 的使用的话,可以参考我的这篇文章<超详细,新手都能看懂 !使用SpringBoot+Dubbo ...
- 搭建高可用mongodb集群—— 副本集
转自:http://www.lanceyan.com/tech/mongodb/mongodb_repset1.html 在上一篇文章<搭建高可用MongoDB集群(一)——配置MongoDB& ...
- 提升 Web开发性能的 10 个技巧
随着网络的高速发展,网络性能的持续提高成为能否在芸芸App中脱颖而出的关键.高度联结的世界意味着用户对网络体验提出了更严苛的要求.假如你的网站不能做到快速响应,又或你的App存在延迟,用户很快就会移情 ...
- Eclipse-运行符-数据类型转换-环境变量配置
1.能够使用Eclipse快捷键 ctrl + / 单行注释:再按一次则取消: ctrl + shift + / 多行注释: ctrl + shift + \ 取消多行注释: ctrl + ...
- LR中常见请求的使用示例
Action(){ //application/x-www-form-urlencoded //application/json //web_add_auto_header("Content ...