Selenium库

自动化测试工具，支持多种游览器

爬虫中主要用来解决JavaScript渲染的问题

安装Selenium

pip3 install selenium

安装游览器驱动

下载驱动地址：https://github.com/mozilla/geckodriver/releases/

用法

基本使用

from selenium import webdriver	#游览器驱动对象

from selenium.webdriver.common.by import By

from selenium.webdriver.common.keys import Keys

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDirverWait

browser = webdriver.Chrome()	#申明游览器对象

try:

    browser.get('https://www.baidu.com')

    input = browser.find_element_by_id('kw')	#查找id为kw的元素

    input.send_keys('Python')	#向元素发送键，敲入Python

    input.send_keys(Keys.ENTER)	#敲入回车

    wait = WebDriverWait(browser,10)	#调用等待

    wait.untill(EC.presence_of_element_located((By.ID,'content_left')))#等待ID为content_left元素加载

    print(browser.current_url)		#打印当前的url

    print(browser.get_cookies())	#打印当前cookie

    print(browser.page_source)	#page_source，打印网页源代码

finally:

    browser.close()	#关掉游览器

声明游览器对象

from selenium import webdirver	#游览器驱动对象 

browser = webdriver.Chrome()

browser = webdriver.Firefox()	#申明游览器对象

browser = webdriver.Edge()

browser = webdriver.PhantomJS()

browser = webdriver.Safari()

访问页面

from selenium import webdirver	#游览器驱动对象 

browser = webdirver.Firefox()	#申明游览器对象

browser.get('https://taobao.com')

print(browser.page_source)	##page_source，打印网页源代码

browser.close()

查找元素

单个元素

from selenium import webdirver	#游览器驱动对象 

browser = webdirver.Firefox()	#申明游览器对象

browser.get('https://taobao.com')	

#三种方法查找

input_first = browser.find_element_by_id('q')	#查找id为q的元素

input_second = browser.find_element_by_css_selector('#q')	#使用css选择器查找

input_third = browser.find_element_by_xpath('//*[@id="q"]')	#使用xpath选择器查找

print(input_first,input_second,input_third)

browser.close

其他查找方法

fine_element_by_name
fine_element_by_xpath
fine_element_by_link_text
fine_element_by_partial_link_text
fine_element_by_tag_name
fine_element_by_class_name
fine_element_by_css_selector

通用查找方法

from selenium import webdriver

from selenium.webdriver.common.by import By

browser = webdriver.Firefox()

browser.get('https://taobao.com')

input_first = browser.find_element(By.ID,'q')

print(input_first)

browser.close()

多个元素

与单个元素的区别是单元数是element，多元素是elements

from selenium import webdriver

browser = webdriver.Firefox()

browser.get('https://taobao.com')

lis = browser.find_elements_by_css_selector('.service-bd li')

print(lis)

browser.close()

from selenium import webdriver

from selenium.webdriver.common.by import By

browser = webdriver.Firefox()

browser.get('https://taobao.com')

lis = browser.find_elements(By.CSS_SELECTOR,'.service-bd li')

print(lis)

browser.close()

其他查找方法

fine_elements_by_name
fine_elements_by_xpath
fine_elements_by_link_text
fine_elements_by_partial_link_text
fine_elements_by_tag_name
fine_elements_by_class_name
fine_elements_by_css_selector

元素交互操作

对获取的元素调用交互方法

from selenium import webdriver

import time

browser = webdriver.Firefox()

browser.get('https://taobao.com')

input = browser.find_element_by_id('q')	#查找id为q的元素，实际是输入框

input.send_keys('iPhone')	#输入键为iPhone

time.sleep(1)	#等待一秒

input.clear()	#清空文本框

input.send_keys('iPad')	#输入键为iPad

button = browser.find_element_by_classs_name('btn-search')		#查找name为btn-search的元素

button.click()	#跳转请求为搜索结果

交互动作

将动作附加到动作链中串行执行

from selenium import webdriver

from selenium.webdriver import ActionChains

browser = webdriver.Firefox()

url = 'http://www.runoob.com/try/try.php?filename=jqueryui-apl-droppable'

browser.get(url)

browser.switch_to.frame('iframeResult')	#切换到iframeResult元素里面

source = browser.find_element_by_css_selector('#draggable')	#查找draggable拖拽元素

target = browser.find_element_by_css_selector('#droppable')	#查找droppable被拖拽元素

actions = ActionChains(browser)	#申明动作对象

actions.drag_and_drop(source,atrget)	#进行拖拽

actions.perform()	#执行拖拽动作

执行JavaScript

from selenium import webdriver

browser = webdriver.Firefox()

browser.get('https://www.zhihu.com/explore')

browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')#下拉到网页最下端

browser.execute_script('alert("To Bottom")')	#提示信息To Bottom

获取元素信息

获取属性

from selenium import webdriver

from selenium.webdriver import ActionChains

browser = webdriver.Firefox()

url = 'https://www.zhihu.com/explore'

browser.get(url)

logo = browser.find_element_by_id('zh-top-link-logo')

print(logo)

print(logo.get_attribute('class'))

获取文本值

from selenium import webdriver

browser = webdriver.Firefox()

url = 'https://www.zhihu.com/explore'

browser.get(url)

input = browser.find_element_by_class_name('zh-top-link-logo')

print(input.text)

获取ID、位置、标签名、大小

from selenium import webdriver

browser = webdriver.Firefox()

url = 'https://www.zhihu.com/explore'

browser.get(url)

input = browser.find_element_by_class_name('zh-top-add-question')

print(input.id)

print(input.location)

print(input.tag_name)

print(input.size)

Frame

import time

from selenium import webdriver

from selenium.common.exceptions import NoSuchElementException

browser = webdriver.Firefox()

url = 'http://www.runoob.com/try/try.php?filename=jqueryui-apl-droppable'

browser.get(url)

browser.switch_to.frame('iframeResult')	#切换到iframeResult元素里面

source = browser.find_element_by_css_selector('#draggable')

print(source)

try:

    logo = browser.fine_element_by_class_name('logo')

except:

    print('NO LOGO')

browser.switch_to.parent_frame()	#切换到其他frame

logo = browser.find_element_by_class_naem('logo')

print(logo)

print(logo.text)

等待

隐式等待

当使用隐式等待执行测试的时候，如果webDriver没有在DOM中找到元素，将继续等待，超出设定时间后这抛出找不到元素异常。当查找元素或元素并没有立即出现的时候，隐式等待将等待一段时间再查早DOM，默认的时间是0。

from selenium import webdriver

browser = webdriver.Firefox()

browser.implicitly_wait(10)

url = 'https://www.zhihu.com/explore'

browser.get(url)

input = browser.find_element_by_class_name('zh-top-add-question')

print(input)

显示等待

from selenium import webdriver	#游览器驱动对象

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

browser = webdriver.Firefox()

url = 'https://www.taobao.com/'

browser.get(url)

wait = WebDriverWait(browser,10)

input = wait.unitil(EC.presence_of_element_located((By.ID,'q')))

button = waitunitil(EC.presence_to_be_clickable((By.CSS_SELECTOR,'.btn-search')))

print(input,button)

title_is 标题内容
title_contains 标题包含元素
presence_of_element_located 元素加载出，传入定位元组，如（By.ID，'p'）
visiblility_of_element_located 元素可见，传入定位元组
visiblility_of 可见，传入元素对象
presence_of_all_element_located 所有元素加载出
text_to_be_present_in_element 某个元素文本包含某文字
text_to_be_present_in_element_value 某个元素值包含某文字
frame_to_be_available_and_switch_to_it frame 加载并切换
invisibility_of_element_located 元素不可见
element_to_be_clickable 元素可点击
staleness_of 判断一个元素是否仍在DOM，可判断页面是否已经刷新
element_to_be_selected 元素可选择，传元素对象
element_location_to_be_selected 元素可选择，传入定位元组
element_selection_state_to_be 传入元素对象以及状态，相等返回True，否则False
element_location_selected_state_to_be 传入定位元组以及状态，相等返回True，否则False
alert_is_present 是否出现Alert

前进后退

import time

from selenium import webdriver

browser = webdriver.Firefox()

browser.get('https://www.baidu.com/')

browser.get('https://www.taobao.com/')

browser.get('https://www.python.com/')

browser.back()

time.sleep(1)

browser.forward()

browser.close()

Cookies

from selenium import webdriver

browser = webdriver.Firefox()

browser.get('https://www.zhihu.com/explore')

print(browser.get_cookies())

browser.add_cookie({'name':'name','domain':'www.zhihu.com','value':'germey'})

print(browser.get_cookies())

browser.delete_all_cookies()

print(browser.get_cookies())

选项卡管理

import time

from selenium import webdriver

browser = webdriver.Firefox()

browser.get('https://www.baidu.com/')

browser.execute_script('window.open()')

print(browser.window_handles)

browser.switch_to_window(browser.window_handles[1])

browser.get('https://www.taobao.com/')

time.sleep(1)

browser.switch_to_window(browser.window_handles[0])

browser.get('https://python.org/')

异常处理

from selenium import webdriver

browser = webdriver.Firefox()

browser.get('https://www.baidu.com/')

browser.find_element_by_id('hello')

from selenium import webdriver

from selenium.common.exceptions import TimeoutException,NoSuchElementException

browser = webdriver.Firefox()

try:

    browser.get('https://www.baidu.com')

except TimeoutException:

    print('Time Out')

try:

    browser.find_element_by_id('hello')

except NoSuchElementException:

    print('No Elemet')

finally:

    browser.close()

Python Selenium库的更多相关文章

为采集动态网页安装和测试Python Selenium库
1. 引言上一篇<为编写网络爬虫程序安装Python3.5>中测试小例子对静态网页做了一个简单的采集程序,而动态网页因为需要动态加载js获取数据,所以使用urllib直接openurl已经 ...
python——selenium库的使用
selenium 是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Fire ...
python Selenium库的使用
一.什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行 ...
Python爬虫-- selenium库
selenium库 selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(S ...
自动化选课(Python + selenium
前几天听到朋友说自己选课事情,突发奇想想要搞这样一个东西,但是由于各种原因只做到以下的完成度,具体的情况也会在解释的最后留下.这个只适用于曲师大的教务系统,因为用的这个系统来进行的一个调试,对于其 ...
python利用selenium库识别点触验证码
利用selenium库和超级鹰识别点触验证码(学习于静谧大大的书,想自己整理一下思路) 一.超级鹰注册:超级鹰入口 1.首先注册一个超级鹰账号,然后在超级鹰免费测试地方可以关注公众号,领取1000积分 ...
python爬虫---selenium库的用法
python爬虫---selenium库的用法 selenium是一个自动化测试工具,支持Firefox,Chrome等众多浏览器在爬虫中的应用主要是用来解决JS渲染的问题. 1.使用前需要安装这个 ...
python爬虫笔记----4.Selenium库（自动化库）
4.Selenium库 (自动化测试工具,支持多种浏览器,爬虫主要解决js渲染的问题) pip install selenium 基本使用 from selenium import webdriver ...
PYTHON 爬虫笔记七:Selenium库基础用法
知识点一:Selenium库详解及其基本使用什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium ...

随机推荐

ES6-11学习笔记--模块化
模块化规范有: CommonJS:Node.js AMD:require.js CMD:sea.js ES6:Module ES6模块化使用: 关键词:export.import.as.exp ...
java中Super指向他紧邻的父类，而不是最底层的基类
3.2 当有两次继承时,演示super指向他紧邻的父类我们把上面的例子扩展成两次继承, 就看出:马克-to-win,Super是一个参考(或说指针)指向他紧邻的父类,而不是最底层的基类. 例1.3. ...
uniapp打包成H5部署到服务器教程
当前端uniapp写的项目开发完成的时候,需要将页面打包出来,生成H5的静态文件,部署在服务器上,通过服务器链接地址,就可以直接在手机上点开访问了. 在网上看了一圈,好像没有找到十分详细的教程,这里 ...
js 生成 pdf 文件
话不多说好吧, 直接上demo图: 直接上代码好吧:(要引入的两个js 链接我放最后) <!DOCTYPE html> <html> <head> <met ...
Ubuntu安装开发者平台Backstage
Ubuntu安装开发者平台Backstage 什么是Backstage? Backstage是一个构建开发者门户的开源平台.通过支持一个集中的软件分类,Backstage可以保存并发布你的微服务和基础 ...
Linux centos7系统列出systemd下所有正在运行的服务
Linux系统提供各种系统服务(如进程管理.登录.syslog.cron等)和网络服务.Linux支持不同的方法来管理服务(启动.停止.重启.在系统启动时的自动启动等),通常通过流程或服务管理器. 大 ...
Typora基本使用语法(超好用的代码编辑工具)
Typora代码编辑软件,一款适合新手小白的做笔记工具,操作简单,大家可以去试试......
改造@vue/cli项目为服务端渲染-ServerSideRender
VUE SEO方案二 - SSR服务端渲染在上一章中,我们分享了预渲染的方案来解决SEO问题,个人还是很中意此方案的,既简单又能解决大部分问题.但是也有着一定的缺陷,所以我们继续来看下一个方案--服 ...
论文解读（AutoSSL）《Automated Self-Supervised Learning for Graphs》
论文信息论文标题:Automated Self-Supervised Learning for Graphs论文作者:Wei Jin, Xiaorui Liu, Xiangyu Zhao, Yao ...
多线程的创建，并发，静态代理，Lambda表达式
程序是指令和数据的有序集合,本身没有任何运行的含义.是一个静态的概念. 在操作系统中运行的程序就是进程(Process),如:QQ,播放器,游戏等等. 进程是程序的一次执行过程,是一个动态的概念,是系 ...

Python Selenium库

Selenium库

安装Selenium

用法

基本使用

声明游览器对象

访问页面

查找元素

单个元素

其他查找方法

通用查找方法

多个元素

其他查找方法

元素交互操作

交互动作

执行JavaScript

获取元素信息

获取属性

获取文本值

获取ID、位置、标签名、大小

Frame

等待

隐式等待

显示等待

前进后退

Cookies

选项卡管理

异常处理

Python Selenium库的更多相关文章

随机推荐

热门专题