一.seleniu的简单使用

　　1.简单使用

'''

selenium:基于浏览器的自动化操作模块

    通过代码定制一些浏览器自动化操作,然后把该操作作用到浏览器

    1.pip install selenium

    2.导包:from selenium import webdriver

    3.下载浏览器的驱动程序

        下载地址:http://chromedriver.storage.googleapis.com/index.html

        版本的映射关系表:https://blog.csdn.net/huilan_same/article/details/51896672

    4.实例化一个浏览器对象(驱动程序)

    5.通过代码指定行为动作

'''

import time

from selenium import webdriver

#实例化一个浏览器对象

bro=webdriver.Chrome(executable_path='./chromedriver.exe')

time.sleep(2)

#浏览器获取页面

bro.get('http://baidu.com/')

time.sleep(2)

# 浏览器输入找到输入框,并输入数据

text_input=bro.find_element_by_id('kw')

text_input.send_keys('我草')

time.sleep(2)

#浏览器找到点击标签,并点击

btn=bro.find_element_by_id('su')

btn.click()

time.sleep(2)

#浏览器向下拖动滚动条

js='window.scrollTo(0,document.body.scrollHeight)'

bro.execute_script(js)

#获取当前浏览器显示的页面数据

page_text=bro.page_source#页面数据也包含动态加载出来的数据

print(page_text)

time.sleep(5)

bro.quit()

　　Selenium支持非常多的浏览器，如Chrome、Firefox、Edge等，还有Android、BlackBerry等手机端的浏览器。另外，也支持无界面浏览器PhantomJS。

from selenium import webdriver

browser = webdriver.Chrome()

browser = webdriver.Firefox()

browser = webdriver.Edge()

browser = webdriver.PhantomJS()

browser = webdriver.Safari()

　　2.元素定位

　　webdriver 提供了一系列的元素定位方法，常用的有以下几种：

id
name
class name
tag name
link text
partial link text
xpath
css selector
分别对应python webdriver 中的方法为：

find_element_by_id()

find_element_by_name()

find_element_by_class_name()

find_element_by_tag_name()

find_element_by_link_text()

find_element_by_partial_link_text()

find_element_by_xpath()

find_element_by_css_selector()
注意:返回的而是一个列表

注意:

1、find_element_by_xxx找的是第一个符合条件的标签，find_elements_by_xxx找的是所有符合条件的标签。
2、根据ID、CSS选择器和XPath获取，它们返回的结果完全一致。
3、另外，Selenium还提供了通用方法find_element()，它需要传入两个参数：查找方式By和值。实际上，它就是find_element_by_id()这种方法的通用函数版本，比如find_element_by_id(id)就等价于find_element(By.ID, id)，二者得到的结果完全一致。

　　获取元素的文本和属性

先定位到元素

　　　　然后调用.text或者get_attribute（）方法来取值

selenium获取的是elements的内容　　
find_element和find_elements的区别，
- find_element返回是一个elemnt对象，没有就报错
- find_elements返回是列表，没有返回空列表
- 判断是否有下一页的时候，使用find_elements根结果结果长度来判断
如果页面有ifframe，frame，则需要调用driver。switch_to.frame()方法切换到frame才能定位到元素
有的时候获取元素不到会报错是因为页面还没加载完就去获取，肯定报错，需要用到等待

　　3.节点交互

　　Selenium可以驱动浏览器来执行一些操作，也就是说可以让浏览器模拟执行一些动作。比较常见的用法有：输入文字时用send_keys()方法，

清空文字时用clear()方法，点击按钮时用click()方法。

from selenium import webdriver

import time

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

input = browser.find_element_by_id('q')

input.send_keys('MAC')

time.sleep(1)

input.clear()

input.send_keys('IPhone')

button = browser.find_element_by_class_name('btn-search')

button.click()

　　4.动作连

　　在上面的实例中，一些交互动作都是针对某个节点执行的。比如，对于输入框，我们就调用它的输入文字和清空文字方法；对于按钮，就调用它的点击方法。

其实，还有另外一些操作，它们没有特定的执行对象，比如鼠标拖曳、键盘按键等，这些动作用另一种方式来执行，那就是动作链。

比如，现在实现一个节点的拖曳操作，将某个节点从一处拖曳到另外一处，可以这样实现：

from selenium import webdriver

from selenium.webdriver import ActionChains

import time

browser = webdriver.Chrome()

url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'

browser.get(url)

browser.switch_to.frame('iframeResult')

source = browser.find_element_by_css_selector('#draggable')

target = browser.find_element_by_css_selector('#droppable')

actions = ActionChains(browser)

# actions.drag_and_drop(source, target)

actions.click_and_hold(source).perform()

time.sleep(1)

actions.move_to_element(target).perform()

time.sleep(1)

actions.move_by_offset(xoffset=50,yoffset=0).perform()

actions.release()

　　5.执行js

　　对于某些操作，Selenium API并没有提供。比如，下拉进度条，它可以直接模拟运行JavaScript，此时使用execute_script()方法即可实现，代码如下：

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.jd.com/')

browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')

browser.execute_script('alert("123")')

　　6.获得节点信息

　　通过page_source属性可以获取网页的源代码，接着就可以使用解析库（如正则表达式、Beautiful Soup、pyquery等）来提取信息了。
不过，既然Selenium已经提供了选择节点的方法，返回的是WebElement类型，那么它也有相关的方法和属性来直接提取节点信息，如属性、文本等。这样的话，我们就可以不用通过解析源代码来提取信息了，非常方便。

from selenium import webdriver

from selenium.webdriver.common.by import By #按照什么方式查找，By.ID,By.CSS_SELECTOR

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素

browser=webdriver.Chrome()

browser.get('https://www.amazon.cn/')

wait=WebDriverWait(browser,10)

wait.until(EC.presence_of_element_located((By.ID,'cc-lm-tcgShowImgContainer')))

tag=browser.find_element(By.CSS_SELECTOR,'#cc-lm-tcgShowImgContainer img')

#获取标签属性，

print(tag.get_attribute('src'))

#获取标签ID，位置，名称，大小（了解）

print(tag.id)

print(tag.location)

print(tag.tag_name)

print(tag.size)

browser.close()

　　7.延时等待

　　在Selenium中，get()方法会在网页框架加载结束后结束执行，此时如果获取page_source，可能并不是浏览器完全加载完成的页面，如果某些页面有额外的Ajax请求，我们在网页源代码中也不一定能成功获取到。所以，这里需要延时等待一定时间，确保节点已经加载出来。这里等待的方式有两种：一种是隐式等待，一种是显式等待。

　　1.隐式等待：

　　当使用隐式等待执行测试的时候，如果Selenium没有在DOM中找到节点，将继续等待，超出设定时间后，则抛出找不到节点的异常。换句话说，当查找节点而节点并

没有立即出现的时候，隐式等待将等待一段时间再查找DOM，默认的时间是0。示例如下：

from selenium import webdriver

from selenium.webdriver import ActionChains

from selenium.webdriver.common.by import By #按照什么方式查找，By.ID,By.CSS_SELECTOR

from selenium.webdriver.common.keys import Keys #键盘按键操作

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素

browser=webdriver.Chrome()

#隐式等待:在查找所有元素时，如果尚未被加载，则等10秒

browser.implicitly_wait(10)

browser.get('https://www.baidu.com')

input_tag=browser.find_element_by_id('kw')

input_tag.send_keys('美女')

input_tag.send_keys(Keys.ENTER)

contents=browser.find_element_by_id('content_left') #没有等待环节而直接查找，找不到则会报错

print(contents)

browser.close()

　　　　2.显示等待：

　　隐式等待的效果其实并没有那么好，因为我们只规定了一个固定时间，而页面的加载时间会受到网络条件的影响。这里还有一种更合适的显式等待方法，它指定要查找的节点，然后指定一个最长等待时间。如果在规定时间内加载出来了这个节点，就返回查找的节点；如果到了规定时间依然没有加载出该节点，则抛出超时异常。

from selenium import webdriver

from selenium.webdriver import ActionChains

from selenium.webdriver.common.by import By #按照什么方式查找，By.ID,By.CSS_SELECTOR

from selenium.webdriver.common.keys import Keys #键盘按键操作

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素

browser=webdriver.Chrome()

browser.get('https://www.baidu.com')

input_tag=browser.find_element_by_id('kw')

input_tag.send_keys('美女')

input_tag.send_keys(Keys.ENTER)

#显式等待：显式地等待某个元素被加载

wait=WebDriverWait(browser,10)

wait.until(EC.presence_of_element_located((By.ID,'content_left')))

contents=browser.find_element(By.CSS_SELECTOR,'#content_left')

print(contents)

browser.close()

　　3.强制等待

time.sleep（5）

　　8.cookie

　　使用Selenium，还可以方便地对Cookies进行操作，例如获取、添加、删除Cookies等。示例如下：

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.zhihu.com/explore')

print(browser.get_cookies())
cookies={cookies['name']:cookies['value'] for cookie in  broser.get_cookies()}

browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'})

print(browser.get_cookies())

browser.delete_all_cookies()

print(browser.get_cookies())

broser.delete_cookies('CookieName')
broser.delete_all_cookies()

　　9.异常处理

from selenium import webdriver

from selenium.common.exceptions import TimeoutException,NoSuchElementException,NoSuchFrameException

try:

    browser=webdriver.Chrome()

    browser.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')

    browser.switch_to.frame('iframssseResult')

except TimeoutException as e:

    print(e)

except NoSuchFrameException as e:

    print(e)

finally:

    browser.close()

selenium模块的而简单使用的更多相关文章

爬虫基础(三)-----selenium模块应用程序
摆脱穷人思维 <三> : 培养"目标导向"的思维: 好项目永远比钱少,只要目标正确,钱总有办法解决. 一 selenium模块什么是selenium?seleni ...
爬虫之selenium模块
Selenium 简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟 ...
Python爬虫——selenium模块
selenium模块介绍 selenium最初是一个测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览 ...
python 全栈开发，Day136(爬虫系列之第3章-Selenium模块)
一.Selenium 简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全 ...
三: 爬虫之selenium模块
一 selenium模块什么是selenium?selenium是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作. selenium最初是一个自动化测试工具, ...
7 selenium 模块
selenium 模块一.简介 1.Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作. 2.自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接 ...
03 爬虫之selenium模块
selenium模块 1.概念,了解selenium 什么是selenium?selenium是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作. seleniu ...
Python学习--Selenium模块学习(2)
Selenium的基本操作获取浏览器驱动寻找方式 1. 通过手动指定浏览器驱动路径2. 通过 `$PATH`环境变量找寻浏览器驱动可参考Python学习--Selenium模块简单介绍(1) 控制 ...
3、爬虫之selenium模块
一 selenium模块什么是selenium?selenium是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作. selenium最初是一个自动化测试工具, ...

随机推荐

loj2512 [BJOI2018]链上二次求和
传送门分析咕咕咕代码 #include<iostream> #include<cstdio> #include<cstring> #include<st ...
selenium使用ChromeDriver
什么是ChromeDriver? ChromeDriver是Chromium team开发维护的,它是实现WebDriver有线协议的一个单独的服务.ChromeDriver通过chrome的自动代理 ...
laravel查询最后执行的一条sql语句
Python基础-2
目录: 1.列表.元组操作 2.字符串操作 3.字典操作 4.集合操作 5.文件操作 6.字符编码与转码一.列表.元组操作定义列表 names = ['Freeman',"Jack&qu ...
C/C++预处理指令常见的预处理指令
C/C++预处理指令常见的预处理指令如下: #空指令,无任何效果 #include包含一个源代码文件 #define定义宏 #undef取消已定义的宏 #if如果给定条件为真,则编译下面代码 #ifd ...
JavaEE互联网轻量级框架整合开发（书籍）阅读笔记（4）：JDK动态代理+拦截器
一.拦截器的理解学习拦截器之前需要对动态代理和反射有一定的基础. 官方说法: java里的拦截器是动态拦截Action调用的对象.它提供了一种机制可以使开发者可以定义在一个actio ...
[原创]Java中使用File类的list方法获取一定数量的文件：FilenameFilter接口的特殊用法
前言:有时候我们可能会遇到这样一个问题:需要遍历一个包含极多文件的文件夹,首先想到的肯定是使用File.list()方法,该方法返回一个String[],但是如果文件达到几亿呢?这个时候我们就需要分批 ...
linux select 返回值
IBM AIX上 select返回值的 man if a connect-based socket is specified in the readlist parameter and the co ...
android IntentService和ResultReceiver的异步处理
IntentService和ResultReceiver的异步处理 1.在下载手机上从网络下载东西的时候会用到AsyncTask来方便处理,这里可以在用IntentService和ResultRece ...
WCF分布式开发步步为赢(1)：WCF分布式框架基础概念
众所周知,系统间的低耦合一直是大型企业应用系统集成追寻的目标,SOA面向服务架构的出现为我们的如何利用现有企业系统资源进行企业ERP系统设计和实现提供了重要的参考原则.SOA如此炙手可热,各大厂商都推 ...

selenium模块的而简单使用

一.seleniu的简单使用

1.简单使用

2.元素定位

3.节点交互

4.动作连

5.执行js

6.获得节点信息

7.延时等待

1.隐式等待：

2.显示等待：

3.强制等待

8.cookie

9.异常处理

selenium模块的而简单使用的更多相关文章

随机推荐

热门专题

　　1.简单使用

　　2.元素定位

　　3.节点交互

　　4.动作连

　　5.执行js

　　6.获得节点信息

　　7.延时等待

　　1.隐式等待：

　　　　2.显示等待：

　　3.强制等待

　　8.cookie

　　9.异常处理