Infi-chu:

http://www.cnblogs.com/Infi-chu/

Python提供了很多模拟浏览器运行的库,比如:Selenium、Splash等

1.常用的引用

from selenium import webdriver
from selenium.webdriver.commom.by import By
from selenium.webdriver.commom.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait

2.常用声明浏览器对象

browser = webdriver.Chrome()
browser = webdriver.Firefox()
browser = webdriver.Edge()
browser = webdriver.PhantomJS()
browser = webdriver.Safari()

3.访问页面
使用get()方法

from selenium import webdriver
browser = webdriver.Chrome()
browser.get('http://www.baidu.com')
print(browser.page_source)
browser.close()

4.查找节点
单个节点

find_element_by_name()	# 根据name值获取
find_element_by_id() # 根据id值获取
find_element_by_xpath()
find_element_by_link_text()
find_element_by_partial_link_text()
find_element_by_tag_name()
find_element_by_class_name()
find_element_by_css_selector() # 根据css选择 # 另外一种写法
find_element(By.ID,id)等价于find_element_by_id(id)

多个节点
使用find_elements()方法

find_elements_by_name()	# 根据name值获取
find_elements_by_id() # 根据id值获取
find_elements_by_xpath()
find_elements_by_link_text()
find_elements_by_partial_link_text()
find_elements_by_tag_name()
find_elements_by_class_name()
find_elements_by_css_selector() # 根据css选择

5.节点交互
所谓节点交互,可以理解成为你让浏览器去执行一些动作,比如在输入框输入文字、点击提交按钮等。
输入文字时使用send_keys()方法
清空文字时使用clear()方法
点击按钮时使用click()方法

6.动作链
动作链是扩展版本的节点交互,节点交互是一瞬间的动作,而动作链是持续性的动作,比如:拖动某个图片等

# 鼠标拖拽
from selenium import webdriver
from selenium.webdriver import ActionChains browser = webdriver.Chrome()
url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
browser.get(url)
browser.switch_to.frame('iframeResult')
source = brower.find_element_by_css_selector('#draggable')
target = brower.find_element_by_css_selector('#draggable')
actions = ActionChains(brower)
actions.drag_and_drop(source,target) # drag_and_drop()方法指定区间
actions.perform() # perform()方法让动作执行

7.执行JavaScript
使用execute_script()方法,参数是JavaScript语法

8.获取节点信息
获取属性
使用get_attribute()方法获得属性,前提需选中该节点

获取文本值
通过text属性获得,前提需要选中该节点

获取id、位置、标签和大小
使用id属性可以获得id
使用location属性可以获得location
使用tag_name属性可以获得tag_name
使用size属性可以获得size

9.延时等待
隐式等待
当查找节点时,节点并没有立即出现,则等待一段时间再查找DOM,默认时间时0

显式等待
指定要查找的节点,并指定最长等待时间,如果在此时间段内加载出来该节点,则返回查找结果;否则抛出异常

等待条件及含义

等待条件                                        含义
title_js                            标题是某一内容
title_contains                        标题包含某内容
presence_of_element_located                节点加载出来,传入定位元组,如(By.ID,'p')
visibility_of_element_located                  节点可见,传入定位元祖
visibility_of                          可见,传入节点对象
presence_of_all_element_located                所有节点加载完成
text_to_be_present_in_element                某个节点文本包含某文字
text_to_be_present_in_element_value             某个节点值包含文字
frame_to_be_available_and_switch_to_it            加载并切换
invisibility_of_element_located                节点不可见
element_to_be_clickable                  节点可点击
staleness_of                        判断一个节点是否仍在DOM,可判断页面是否已经刷新
element_to_be_selected                  节点可选择,传节点对象
element_located_to_be_selected              节点可选择,传入元组对象
element_selection_state_to_be                传入节点对象以及状态,相等返回True,否则False
element_located_selection_state_to_be            传入定位元组及状态,相等返回True,否则False
alert_is_present                     是否出现警告

10.前进、后退
back()方法为后退
forward()方法为前进

11.cookies操作
get_cookies()方法获得cookies信息
add_cookies()方法添加cookies信息
delete.all_cookies()方法删除所有cookies信息

Python3爬虫(十三) 爬取动态页之Selenium的更多相关文章

  1. 【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验

    一.写在前面 之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...

  2. python3 爬虫之爬取安居客二手房资讯(第一版)

    #!/usr/bin/env python3 # -*- coding: utf-8 -*- # Author;Tsukasa import requests from bs4 import Beau ...

  3. Python3爬虫之爬取某一路径的所有html文件

    要离线下载易百教程网站中的所有关于Python的教程,需要将Python教程的首页作为种子url:http://www.yiibai.com/python/,然后按照广度优先(广度优先,使用队列:深度 ...

  4. python3爬虫应用--爬取网易云音乐(两种办法)

    一.需求 好久没有碰爬虫了,竟不知道从何入手.偶然看到一篇知乎的评论(https://www.zhihu.com/question/20799742/answer/99491808),一时兴起就也照葫 ...

  5. 爬取动态网页:Selenium

    参考:http://blog.csdn.net/wgyscsf/article/details/53454910 概述 在爬虫过程中,一般情况下都是直接解析html源码进行分析解析即可.但是,有一种情 ...

  6. 爬虫(GET)——爬取多页的html

    工具:python3 目标:将编写的代码封装,不同函数完成不同功能,爬取任意页数的html 新学语法:with open as 除了有更优雅的语法,with还可以很好的处理上下文环境产生的异常. # ...

  7. 爬虫系列4:Requests+Xpath 爬取动态数据

    爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文 爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...

  8. 多线程爬虫爬取详情页HTML

    注意:如果想爬取详情页的信息请按须添加方法 import requests import os import re import threading from lxml import etree #爬 ...

  9. 第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息

    第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址 有多 ...

随机推荐

  1. Anaconda中spyder 安装tensorflow

    关于Anaconda的安装就不介绍了,本文主要介绍spyder中安装 tensorflow.废话少说 直接重点: 1.安装好Anaconda之后,找到spyder图标 点击install,等待安装完成 ...

  2. hdu-1452 Happy 2004---因子和+逆元

    题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=1452 题目大意: 求2004^x次方的因子和mod29的值 解题思路: 首先2004 = 2 * 2 ...

  3. Android(java)学习笔记24:自定义异常类

    1. 自定义异常: 考试成绩必须在0-100之间 很明显java没有对应的异常,需要我们自己来做一个异常 自定义异常 继承自Exception 继承自RuntimeException 下面是一个代码示 ...

  4. SP1811 【LCS - Longest Common Substring】

    \(SAM\)上匹配 我们就是需要找到两个串的最长公共子串 先对其中一个串建出\(SAM\),之后我们把另一个串放到上面跑 如果当前在\(SAM\)的状态是\(now\),下一个字符是\(c\),匹配 ...

  5. iOS 代码混淆--pch实现

    之前实现代码的混淆一般是使用sh脚本,不过也是需要把一写需要混淆的方法写到一个文件中(除非是使用特定的命名规范统一混淆), 现在发现,实现代码的混淆pch 文件就可以轻松完成! 1,在新建的工程中 创 ...

  6. 一个有意思的标签<marquee>

    marquee标签不是HTML3.2的一部分,并且只支持MSIE3以后内核,所以如果你使用非IE内核浏览器(如:Netscape)可能无法看到下面一些很有意思的效果,该标签是个容器标签.  一.mar ...

  7. Hibernate的属性配置

    Hibernate配置属性 hibernate.dialect Hibernate方言(Dialect)的类名 - 可以让Hibernate使用某些特定的数据库平台的特性 取值. full.class ...

  8. HTTP请求方式中8种请求方法(简单介绍)

    简单介绍 HTTP是超文本传输协议,其定义了客户端与服务器端之间文本传输的规范.HTTP默认使用80端口,这个端口指的是服务端的端口,而客户端使用的端口是动态分配的.当我们没有指定端口访问时,浏览器会 ...

  9. JavaScript闭包简单学习

    因为实验室项目要用,所以最近在学习OpenLayers,但是从来没有做过前端呀,坑爹的,硬着头皮上吧 反正正好借这个机会学习一下JS,本来对这门语言也挺感兴趣的,多多少少写过一下JS代码了,差不多学一 ...

  10. Android学习笔记_76_AsyncQueryHandler的应用

    研究AsyncQueryHandler这个类的时候遇到了几个重要的不清楚的知识点 1. Handler与Thread,Looper的关系 2. HandlerThread是干什么用的 3. Threa ...