import time

from selenium import webdriver

from lxml import etree

from selenium.webdriver import ActionChains

browser = webdriver.Chrome()

url = "http://www.baidu.com"

browser.get(url)

title = browser.find_element_by_xpath('//*[@id="su"]')

print(title.get_attribute("value"))

# time.sleep(2)

# input = browser.find_element_by_css_selector('#kw')

# input.send_keys('韩国女团')

# time.sleep(2)

# input.clear()

# input.send_keys('后背摇')

# button = browser.find_element_by_css_selector('#su')

# button.click()

# time.sleep(10)

browser.close()

# url = "http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable"

# browser.get(url)

# browser.switch_to.frame('iframeResult')

# source = browser.find_element_by_css_selector('#draggable')

# target = browser.find_element_by_css_selector('#droppable')

# actions = ActionChains(browser)

# actions.drag_and_drop(source, target)

# actions.perform()

什么是selenium

selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7, 8, 9, 10, 11），Mozilla Firefox，Safari，Google Chrome，Opera等。selenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。
Selenium的核心Selenium Core基于JsUnit，完全由JavaScript编写，因此可以用于任何支持JavaScript的浏览器上。
selenium可以模拟真实浏览器，自动化测试工具，支持多种浏览器，爬虫中主要用来解决JavaScript渲染问题。
这里要说一下比较重要的PhantomJS,PhantomJS是一个而基于WebKit的服务端JavaScript API,支持Web而不需要浏览器支持，其快速、原生支持各种Web标准：Dom处理，CSS选择器，JSON等等。PhantomJS可以用用于页面自动化、网络监测、网页截屏，以及无界面测试

selenium的基本用法

声明浏览器对象
上面我们知道了selenium支持很多的浏览器:

但是如果想要声明并调用浏览器则需要：

from selenium import webdriver

browser = webdriver.Chrome()

browser = webdriver.Firefox()

这里只写了两个例子，当然了其他的支持的浏览器都可以通过这种方式调用
访问页面

from selenium import webdriver#导入库

browser = webdriver.Chrome()#声明浏览器

url = 'https:www.baidu.com'

browser.get(url)#打开浏览器预设网址

print(browser.page_source)#打印网页源代码

browser.close()#关闭浏览器

上述代码运行后，会自动打开Chrome浏览器，并登陆百度打印百度首页的源代码，然后关闭浏览器

查找元素

单个元素查找

from selenium import webdriver#导入库

browser = webdriver.Chrome()#声明浏览器

url = 'https:www.taobao.com'

browser.get(url)#打开浏览器预设网址

input_first = browser.find_element_by_id('q')

input_two = browser.find_element_by_css_selector('#q')

print(input_first)

print(input_two)

这里我们通过2种不同的方式去获取响应的元素，第一种是通过id的方式，第二个中是CSS选择器，结果都是相同的。
输出如下：

<selenium.webdriver.remote.webelement.WebElement (session="9aaa01da6545ba2013cc432bcb9abfda", element="0.5325244323105505-1")>

<selenium.webdriver.remote.webelement.WebElement (session="9aaa01da6545ba2013cc432bcb9abfda", element="0.5325244323105505-1")>

这里列举一下常用的查找元素方法：
find_element_by_name
find_element_by_id
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector
下面这种方式是比较通用的一种方式：这里需要记住By模块所以需要导入
from selenium.webdriver.common.by import By

from selenium import webdriver

from selenium.webdriver.common.by import By

browser = webdriver.Chrome()

url = 'https://www.taobao.com'

browser.get(url)

input_1 = browser.find_element(By.ID, 'q')

print(input_1)

当然这种方法和上述的方式是通用的，browser.find_element(By.ID,"q")这里By.ID中的ID可以替换为其他几个
我个人比较倾向于css
多个元素查找
其实多个元素和单个元素的区别，举个例子：find_elements,单个元素是find_element,其他使用上没什么区别，通过其中的一个例子演示：

from selenium import webdriver

browser = webdriver.Chrome()

url = 'https://www.taobao.com'

browser.get(url)

input = browser.find_elements_by_css_selector('.service-bd li')

print(input)

browser.close()

输出为一个列表形式：

[<selenium.webdriver.remote.webelement.WebElement (session="42d192ca36f75170ab489e4839df0980", element="0.73211490098068-1")>, <selenium.webdriver.remote.webelement.WebElement (session="42d192ca36f75170ab489e4839df0980", element="0.73211490098068-2")>, <selenium.webdriver.remote.webelement.WebElement (session="42d192ca36f75170ab489e4839df0980", element="0.73211490098068-3")>, <selenium.webdriver.remote.webelement.WebElement (session="42d192ca36f75170ab489e4839df0980", element="0.73211490098068-4")>, <selenium.webdriver.remote.webelement.WebElement (session="42d192ca36f75170ab489e4839df0980", element="0.73211490098068-5")>, <selenium.webdriver.remote.webelement.WebElement (session="42d192ca36f75170ab489e4839df0980", element="0.73211490098068-6")>, <selenium.webdriver.remote.webelement.WebElement (session="42d192ca36f75170ab489e4839df0980", element="0.73211490098068-7")>, <selenium.webdriver.remote.webelement.WebElement (session="42d192ca36f75170ab489e4839df0980", element="0.73211490098068-8")>, <selenium.webdriver.remote.webelement.WebElement (session="42d192ca36f75170ab489e4839df0980", element="0.73211490098068-9")>, <selenium.webdriver.remote.webelement.WebElement (session="42d192ca36f75170ab489e4839df0980", element="0.73211490098068-10")>, <selenium.webdriver.remote.webelement.WebElement (session="42d192ca36f75170ab489e4839df0980", element="0.73211490098068-11")>, <selenium.webdriver.remote.webelement.WebElement (session="42d192ca36f75170ab489e4839df0980", element="0.73211490098068-12")>, <selenium.webdriver.remote.webelement.WebElement (session="42d192ca36f75170ab489e4839df0980", element="0.73211490098068-13")>, <selenium.webdriver.remote.webelement.WebElement (session="42d192ca36f75170ab489e4839df0980", element="0.73211490098068-14")>, <selenium.webdriver.remote.webelement.WebElement (session="42d192ca36f75170ab489e4839df0980", element="0.73211490098068-15")>, <selenium.webdriver.remote.webelement.WebElement (session="42d192ca36f75170ab489e4839df0980", element="0.73211490098068-16")>]

当然上面的方式也是可以通过导入from selenium.webdriver.common.by import By 这种方式实现
lis = browser.find_elements(By.CSS_SELECTOR,'.service-bd li')
同样的在单个元素中查找的方法在多个元素查找中同样存在：
find_elements_by_name
find_elements_by_id
find_elements_by_xpath
find_elements_by_link_text
find_elements_by_partial_link_text
find_elements_by_tag_name
find_elements_by_class_name
find_elements_by_css_selector
元素交互操作
对于获取的元素调用交互方法

from selenium import webdriver

import time

browser = webdriver.Chrome()

browser.get(url='https://www.baidu.com')

time.sleep(2)

input = browser.find_element_by_css_selector('#kw')

input.send_keys('韩国女团')

time.sleep(2)

input.clear()

input.send_keys('后背摇')

button = browser.find_element_by_css_selector('#su')

button.click()

time.sleep(10)

browser.close()

运行的结果可以看出程序会自动打开Chrome浏览器并打开百度页面输入韩国女团,然后删除，重新输入后背摇，并点击搜索
Selenium所有的api文档：http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.common.action_chains
交互动作
将动作附加到动作链中串行执行

from selenium import webdriver

from selenium.webdriver import ActionChains

browser = webdriver.Chrome()

url = "http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable"

browser.get(url)

browser.switch_to.frame('iframeResult')

source = browser.find_element_by_css_selector('#draggable')

target = browser.find_element_by_css_selector('#droppable')

actions = ActionChains(browser)

actions.drag_and_drop(source, target)

actions.perform()

更多操作参考：http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.common.action_chains
执行JavaScript
这是一个非常有用的方法，这里就可以直接调用js方法来实现一些操作，
下面的例子是通过登录知乎然后通过js翻到页面底部，并弹框提示

from selenium import webdriver

browser = webdriver.Chrome()

browser.get("http://www.zhihu.com/explore")

browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')

browser.execute_script('alert("To Bottom")')

获取元素属性
get_attribute('class')

from selenium import webdriver

import time

browser = webdriver.Chrome()

browser.get("http://www.zhihu.com/explore")

logo = browser.find_element_by_css_selector('.zu-top-link-logo')

print(logo)

print(logo.get_attribute('class'))

print(logo.get_attribute('id'))

time.sleep(2)

browser.quit()

输出如下：

<selenium.webdriver.remote.webelement.WebElement (session="b72dbd6906debbca7d0b49ab6e064d92", element="0.511689875475734-1")>

zu-top-link-logo

zh-top-link-logo

获取文本值
text

from selenium import webdriver

browser = webdriver.Chrome()

browser.get("http://www.zhihu.com/explore")

logo = browser.find_element_by_css_selector('.zu-top-link-logo')

print(logo)

print(logo.text)

输出如下：

<selenium.webdriver.remote.webelement.WebElement (session="ce8814d69f8e1291c88ce6f76b6050a2", element="0.9868611170776878-1")>

知乎

获取ID，位置，标签名
id
location
tag_name
size

from selenium import webdriver

browser = webdriver.Chrome()

url = 'https://www.zhihu.com/explore'

browser.get(url)

input = browser.find_element_by_css_selector('.zu-top-add-question')

print(input.id)

print(input.location)

print(input.tag_name)

print(input.size)

输出如下：

0.022998219885927318-1

{'x': 759, 'y': 7}

button

{'height': 32, 'width': 66}

selenium自动化爬虫测试的更多相关文章

Python3 Selenium自动化web测试 ==> 第一节起始点之Python单元测试框架 unittest
前置步骤 Python版本:3.6.4 selenium版本:3.11.0 >>> import selenium >>> help(selenium) IDE:P ...
利用Selenium自动化web测试
简介: Selenium 是一个没有正式指导手册的开源项目,这让测试人员的问题调查很费时间.本文为基于 Selenium 1.0(发布于 2009 年 6 月)的测试期间的常见问题提供最佳实践. 简介 ...
Python3 Selenium自动化web测试 ==> 第七节 WebDriver高级应用 -- 浮动框中，单击选择某个关键字选项
学习目的: 了解WebDriver的高级应用正式步骤: 测试Python3代码 # -*- coding:utf-8 -*- from selenium import webdriver from ...
Python3 Selenium自动化web测试 ==> 第六节 WebDriver高级应用 -- 操作web页面的滚动条
学习目的: 掌握页面元素定位以外的其他重要知识点. 正式步骤: 测试Python3代码 # -*- coding:utf-8 -*- from selenium import webdriver fr ...
Python3 Selenium自动化web测试 ==> 第三节常用WebDriver API使用示例上（24个API）
前置步骤: 安装selenium,chrome驱动,Python3.6 学习目的: 常见API的使用涉及的API: step1: 访问一个网址 step2: 网页的前进和后退 step3: 刷新当前 ...
Python3 Selenium自动化web测试 ==> 第二节页面元素的定位方法 <上>
前置步骤: 上一篇的Python单元测试框架unittest,我认为相当于功能测试测试用例设计中的用例模板,在自动化用例的设计过程中,可以封装一个模板,在新建用例的时候,把需要测试的步骤添加上去即可: ...
Python3 Selenium自动化web测试 ==> 第十一节 WebDriver高级应用 -- 显示等待 + 二次封装
学习目的: 掌握显示等待掌握二次封装正式步骤: step1:显示等待的代码示例 # -*- coding:utf-8 -*- from selenium import webdriver from ...
Python3 Selenium自动化web测试 ==>FAQ：Unittest测试报告生成文件名加测试完成时间字符串
测试代码,虽然有点笨重,以后再修改: if __name__ == '__main__': report = os.path.join('D:/Python36/report/report.html' ...
Python3 Selenium自动化web测试 ==>FAQ：日期格式和日期字符串格式相互转换
学习目的: 掌握python的基础应用场景: 生成的测试日报需要加上时间戳作为唯一标志,免得文件覆盖,过往的文件丢失因为os.rename方法要求文件名必须拼接的都是字符串代码释义: # 日期转 ...

随机推荐

cc2530的第三次实验，按键中断控制流水灯
cc2530的第三次实验:按键中断控制流水灯效果为按一次按键,流水灯亮一次实验相关电路图: 实验相关寄存器: 初始化函数 //初始化LED灯 //设置P1SEL,通用为0,外设为1 1111110 ...
ZROI 暑期高端峰会 A班 Day1 序列数据结构
FBI Warning:本文包含大量人类的本质之一 CF643G 维护一个序列,可以区间赋值,求区间中出现超过 $p\%$ 的数. 允许输出不对的数,允许重复输出,但是所有对的数都一定要输出.而且 ...
javascript系列--认识并理解构造函数，原型和原型链
一.前言介绍构造函数,原型,原型链.比如说经常会被问道:symbol是不是构造函数:constructor属性是否只读:prototype.[[Prototype]]和__proto__的区别:什么 ...
kudu 介绍
kudu的好处: 快速的olap 列式存储,Hadoop parquet 的一种替代方案对数据的顺序处理和随机处理都很高效 * High availability. Tablet Servers a ...
django 中进程监控工具flower的使用
工程结构:请参考https://www.cnblogs.com/apple2016/p/11425307.html flower官方文档:https://flower.readthedocs.io/e ...
Apache Kafka - How to Load Test with JMeter
In this article, we are going to look at how to load test Apache Kafka, a distributed streaming plat ...
【题解】Luogu P4284 [SHOI2014]概率充电器
原题传送门我们知道,每个电器充电对充电电器数的贡献都是相等的1,所以若第$i$个电器有$p_i$的概率充电时 \[E=\sum_{i=1}^np_i\] 我们考虑如何求$p_i$,根据树 ...
JDK9版本以上Java独有的一个轻量级小工具，你知道吗？jshell
jshell,是JavaJDK9这个大版本更新以来,带来的一个轻量级小工具.我们再也不用进入Java目录,编写一个Java文件,然后再去编译,最后才能执行它. 这里,你可以直接写一个小功能,就能去实现 ...
阿里云服务器连接ftp服务（软件的使用）
首先你需要有一个阿里云的ECS服务器开通了宽带之后,ECS服务器就可以上网了可以在本地电脑cmd控制台运行mstsc.exe启动远程桌面连接 windows+R 计算机名输入ECS服务器的公网ip ...
PHP清除数组中有字符串空格的方法
清除数组中字符串有空格的方法函数 function TrimArray($arr){ if (!is_array($arr)){ return $arr; } while (list($key, $v ...

selenium自动化爬虫测试

什么是selenium

selenium的基本用法

查找元素

selenium自动化爬虫测试的更多相关文章

随机推荐

热门专题