selenium请求库

selenium请求库

一、什么是selenium

selenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE），编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。Selenium的核心Selenium Core基于JsUnit，完全由JavaScript编写，因此可以用于任何支持JavaScript的浏览器上。
selenium可以模拟真实浏览器，自动化测试工具，支持多种浏览器，爬虫中主要用来解决JavaScript渲染问题。
selenium大部分用在自动化测试中
selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种常见的浏览器

from selenium import webdriver

browser=webdriver.Chrome()    # Chrome浏览器驱动

browser=webdriver.Firefox()	  # Firefox浏览器驱动  selenium自带的驱动是Firefox

browser=webdriver.PhantomJS()    # 不跳出界面浏览器驱动，在后台运行浏览器

browser=webdriver.Safari()

browser=webdriver.Edge()

二、环境搭建

1、在python中使用selenium需要先安装对应的模块

pip install selenium

2、安装浏览器驱动程序

selenium的原理是操作驱动浏览器来完成对目标页面的请求与渲染，所以需要下载对应的浏览器驱动程序，推荐使用chrome，默认的是火狐浏览器驱动

Chrome驱动镜像地址：https://npm.taobao.org/mirrors/chromedriver/

需要注意的是，驱动程序版本需要与浏览器版本对应，你可以打开chrome的关于浏览器查看到具体版本。

驱动与浏览器的版本对应关系

ChromeDriver v2.45 (2018-12-10)----------Supports Chrome v70-72

ChromeDriver v2.44 (2018-11-19)----------Supports Chrome v69-71

ChromeDriver v2.43 (2018-10-16)----------Supports Chrome v69-71

ChromeDriver v2.42 (2018-09-13)----------Supports Chrome v68-70

ChromeDriver v2.41 (2018-07-27)----------Supports Chrome v67-69

ChromeDriver v2.40 (2018-06-07)----------Supports Chrome v66-68

ChromeDriver v2.39 (2018-05-30)----------Supports Chrome v66-68

ChromeDriver v2.38 (2018-04-17)----------Supports Chrome v65-67

ChromeDriver v2.37 (2018-03-16)----------Supports Chrome v64-66

ChromeDriver v2.36 (2018-03-02)----------Supports Chrome v63-65

ChromeDriver v2.35 (2018-01-10)----------Supports Chrome v62-64

三、使用selenium模块

1、使用chrome并设置为无GUI模式

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

chrome_options = Options()

chrome_options.add_argument('window-size=1920x3000') 	# 指定浏览器分辨率

chrome_options.add_argument('--disable-gpu') 	# 谷歌文档提到需要加上这个属性来规避bug

chrome_options.add_argument('--hide-scrollbars') 	# 隐藏滚动条, 应对一些特殊页面

chrome_options.add_argument('blink-settings=imagesEnabled=false')	 # 不加载图片, 可以提升速度

chrome_options.add_argument('--headless') 	# 浏览器不提供可视化页面. linux下如果系统如果无界面不加这条会启动失败

driver=webdriver.Chrome("驱动绝对路径 如果环境变量中有则可以不写",chrome_options=chrome_options)

driver.get('https://www.baidu.com')

print('hao123' in driver.page_source)

driver.close() 	# 切记关闭浏览器，回收资源

# selenium+谷歌浏览器headless模式

2、使用chrome有GUI模式

（1）基本使用

from selenium import webdriver

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait 	# 等待页面加载某些元素

try:

    browser=webdriver.Chrome('驱动绝对路径')  # 如果把驱动包放在python的Scripts中，不用在指定路径

    browser.get('https://www.baidu.com')    # 利用浏览器发请求

    wait= WebDriverWait(brower,5)   # 浏览器加载需要时间，需要等待5s等浏览器加载完

finally:

    driver.close()     # 无论是否报异常都关闭驱动，不关闭可能导致浏览器一直在后台运行

（2）实现搜索功能

from selenium import webdriver

from selenium.webdriver import ActionChains  # 破解滑动验证码相关

from selenium.webdriver.common.by import By	 # 按照什么方式查找，By.ID,By.CSS_SELECTOR

from selenium.webdriver.common.keys import Keys 	# 键盘按键操作

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait 	# 等待页面加载某些元素

browser=webdriver.Chrome('驱动路径')

try:

    browser.get('https://www.taobao.com')

    wait=WebDriverWait(browser,10)   # 浏览器等待10s，等待加载完毕

    input_tag = wait.until(EC.presence_of_element_located((By.ID,'q'))) # 等到id为q的元素加载完毕,最多等10秒

    input_tag.send_keys('美女') 	# python2中输入中文错误，字符串前加个u

    input_tag.send_keys(Keys.ENTER) 	# 输入回车

    print(browser.page_source)

    print(browser.current_url)

    print(browser.get_cookies())

finally:

    browser.close()

3、显示等待与隐式等待

显示等待：等待n秒，等某一个指定的元素加载完毕即可

wait=WebDriverWait(driver,3)

wait.until(EC.presence_of_element_located((By.ID,'q')))# 等待id为q的元素加载完毕,最多等10s

隐式等待：等待n秒，等整个页面加载完毕
```
brower.implicitly_wait(3)
```

4、查找元素——find_element_by_*

from selenium import webdriver

from selenium.webdriver.common.by import By #按照什么方式查找，By.ID,By.CSS_SELECTOR

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait # 等待页面加载某些元素

import time

brower=webdriver.Chrome('浏览器驱动路径')

brower.get('https://doc.scrapy.org/en/latest/_static/selectors-sample1.html')

wait=WebDriverWait(driver,10)     # 显示等待

try:

    # 1、find_element_by_id

    print(brower.find_element_by_id('kw'))

    # 2、find_element_by_link_text     # 根据超链接文本内容查找超链接的元素

    login=brower.find_element_by_link_text('登录')

    print(login.get_attribute('href'))    # 获取超链接元素的链接

    login.click()

    # 3、find_element_by_partial_link_text    # 不完整链接文本类容，返回的是一个列表

    login=brower.find_elements_by_partial_link_text('录')[0]

    login.click()

    # 4、find_element_by_tag_name  # 根据 标签名字 找元素

    print(brower.find_element_by_tag_name('a'))

    # 5、find_element_by_class_name

    button=wait.until(EC.element_to_be_clickable((By.CLASS_NAME,'tang-pass-footerBarULogin')))

    button.click()

    # 6、find_element_by_name   # 根据name属性的值获取元素

    input_user=wait.until(EC.presence_of_element_located((By.NAME,'userName')))

    input_pwd=wait.until(EC.presence_of_element_located((By.NAME,'password')))

    commit=wait.until(EC.element_to_be_clickable((By.ID,'TANGRAM__PSP_10__submit')))

    input_user.send_keys('18611453110')

    input_pwd.send_keys('xxxxxx')

    commit.click()

    # 7、find_element_by_css_selector    # 通过css选择器查找元素

    brower.find_element_by_css_selector('#kw')

    # 8、find_element_by_xpath

    time.sleep(5)

finally:

    driver.close()

5、xpath查找元素—— brower.find_element_by_id('tag_id')

xpath官网：http://selenium-python.readthedocs.io/locating-elements.html

（1）/ 与 //

/   # 根文本下找，只在子代中找

//     # 根文本下的所有子子孙孙都找

（2）标签的属性

print(tag.text)    # 获取这个标签的文本内容

print(tag.get_attribute('class'))    # 获取这个标签的class属性

print(tag.tag_name)    # 获取这个标签的标签名字

print(tag.location)    # 获取该标签的位置（左上角坐标（x，y））

print(tag.size)      # 获取标签的大小，可以获取宽和高，以及获取右下角坐标（x+宽，y+高）

（3）具体使用

from selenium import webdriver

from selenium.webdriver.common.by import By #按照什么方式查找，By.ID,By.CSS_SELECTOR

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait # 等待页面加载某些元素

import time

brower = webdriver.Chrome('F:\py_spider_exercise\day01\chromedriver.exe')

brower.get('https://www.baidu.com')

brower.implicitly_wait(5)

# 1.  /  根文本下搜索div

tag = brower.find_element_by_xpath('/div')   # 根文本下搜索div

print(tag)   # 空列表，根文本下，找不到div，只有html

# 2. //  根文本下子孙文本中搜索一个div

tag = brower.find_element_by_xpath('//div')   # 根文本下全文搜索，获取第一个div

print(tag.text)    # 获取这个标签的文本内容

print(tag.get_attribute('class'))    # 获取这个标签的class属性

print(tag.tag_name)    # 获取这个标签的标签名字

print(tag.location)    # 获取该标签的位置（左上角坐标（x，y））

print(tag.size)      # 获取标签的大小，可以获取宽和高，以及获取右下角坐标（x+宽，y+高）

# 3. //   根文本下子孙文本中搜索所有的div

tag = brower.find_elements_by_xpath('//div')   # 根文本下全文搜索，获取所有的div

print(tag[2].text)    # 获取第三个标签的文本内容

print(tag[2].get_attribute('class'))    # 获取第三个标签的class属性

print(tag[2].tag_name)    # 获取第三个标签的标签名字

# 4.   //div/img   先在根文本下所有子孙文本中找到div，在找到的div下的子代中继续找img

tag = brower.find_element_by_xpath('//html//div')

print(tag.tag_name)

# 5.   //div//img   先在根文本下所有子孙文本中找到div，在找到的div下的所有子孙中继续找img

tag = brower.find_element_by_xpath('//html//div')

print(tag.tag_name)

# 6.  * 表示所有标签，[@ ] 可以指定属性——按照这个属性找

tag=driver.find_elements_by_xpath('//*[@id = "images"]/a[4]/img') # 从根标签下的所有标签中找到id为imges的标签，再改标签字子标签中的第4个子标签，然后继续找到子标签中的所有img标签

# 7.  div[contains(@A, 'tttt')] 找某一个标签(div)，这个标签的A属性包含tttt

tags=driver.find_elements_by_xpath('//a[contains(@href,"image")]')

# 8.   div[img/@A='ttt']     找某一个标签（div），这个标签下的子标签（img）的A属性是ttt

tag=driver.find_element_by_xpath('//a[img/@src="image1_thumb.jpg"]')

doc='''

<html>

 <head>

  <base href='http://example.com/' />

  <title>Example website</title>

 </head>

 <body>

  <div id='images'>

   <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>

   <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>

   <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>

   <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>

   <a href='image5.html' class='li li-item' name='items'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>

   <a href='image6.html' name='items'><span><h5>test</h5></span>Name: My image 6 <br /><img src='image6_thumb.jpg' /></a>

  </div>

 </body>

</html>

'''

from lxml import etree

html=etree.HTML(doc)

# html=etree.parse('search.html',etree.HTMLParser())

# / 一个斜杠表示子级标签

# // 两个斜杠表示子孙标签

# 1 所有节点

# a=html.xpath('//*')

# 2 指定节点（结果为列表）

# a=html.xpath('//head')

# 3 子节点，子孙节点

# a=html.xpath('//div/a')

# a=html.xpath('//body/a') #无数据

# a=html.xpath('//body//a')

# 4 父节点

# a=html.xpath('//body//a[@href="image1.html"]/..')

# a=html.xpath('//body//a[1]/..')

# 也可以这样

# a=html.xpath('//body//a[1]/parent::*')

# 5 属性匹配

# a=html.xpath('//body//a[@href="image1.html"]')

# 6 文本获取

# a=html.xpath('//body//a[@href="image1.html"]/text()')

# 7 属性获取

# a=html.xpath('//body//a/@href')

# # 注意从1 开始取（不是从0）

# a=html.xpath('//body//a[1]/@href')

# 8 属性多值匹配

#  a 标签有多个class类，直接匹配就不可以了，需要用contains

# a=html.xpath('//body//a[@class="li"]')

# a=html.xpath('//body//a[contains(@class,"li")]')

# a=html.xpath('//body//a[contains(@class,"li")]/text()')

# 9 多属性匹配

# a=html.xpath('//body//a[contains(@class,"li") or @name="items"]')

# a=html.xpath('//body//a[contains(@class,"li") and @name="items"]/text()')

# # a=html.xpath('//body//a[contains(@class,"li")]/text()')

# 10 按序选择

# a=html.xpath('//a[2]/text()')

# a=html.xpath('//a[2]/@href')

# 取最后一个

# a=html.xpath('//a[last()]/@href')

# 位置小于3的

# a=html.xpath('//a[position()<3]/@href')

# 倒数第二个

# a=html.xpath('//a[last()-2]/@href')

# 11 节点轴选择

# ancestor：祖先节点

# 使用了* 获取所有祖先节点

# a=html.xpath('//a/ancestor::*')

# # 获取祖先节点中的div

# a=html.xpath('//a/ancestor::div')

# attribute：属性值

# a=html.xpath('//a[1]/attribute::*')

# child：直接子节点

# a=html.xpath('//a[1]/child::*')

# descendant：所有子孙节点

# a=html.xpath('//a[6]/descendant::*')

# following:当前节点之后所有节点

# a=html.xpath('//a[1]/following::*')

# a=html.xpath('//a[1]/following::*[1]/@href')

# following-sibling:当前节点之后同级节点

# a=html.xpath('//a[1]/following-sibling::*')

# a=html.xpath('//a[1]/following-sibling::a')

# a=html.xpath('//a[1]/following-sibling::*[2]')

# a=html.xpath('//a[1]/following-sibling::*[2]/@href')

6、清空输入框—— input_tag.clear()

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

import time

brower = webdriver.Chrome('chrome驱动绝对路径')

try:

    brower.get('https://www.tmall.com/')

    brower.implicitly_wait(3)

    input_tag = brower.find_element_by_id('mq')

    input_tag.send_keys('python')

    input_tag.send_keys(Keys.ENTER)

    time.sleep(3)

    input_tag.clear()     # 清空输入框中的内容

    input_tag = brower.find_element_by_id('mq')

    input_tag.send_keys('java')   # 控制标签输入

    input_tag.send_keys(Keys.ENTER)      # 控制键盘回车

    time.sleep(3)

finally:

    brower.close()

7、frame切换—— brower.switch_to.frame('小页面的id')

frame相当于一个单独的网页，在父frame里是无法直接查看到子frame的元素的，必须switch_to_frame切到该frame下，才能进一步查找
iframe目前已经被抛弃，很少存在大页面套小页面的情况
直接利用brower.find_element_by_id('droppable')无法找到小页面中的元素，需要切换到小页面

例如：

# 切换到到小页面

brower=webdriver.Chrome('驱动绝对路径')

brower.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')

brower.implicitly_wait(3)   # 隐式等待3秒

brower.switch_to.frame('iframeResult')     # 切换到小的frame页面中

brower.find_element_by_id('droppable')

brower.close()

8、动作链——ActionChains(brower).perform()

点击拖拽页面元素，常在验证时应用，例如博客园中用户登录验证拖拽图片

from selenium.webdriver import ActionChains

ActionChains(brower).click_and_hold(sourse).perform() # 点击不释放source标签，perform()表示执行

标签.location['x']    # 获取标签的x坐标

ActionChains(driver).move_by_offset(xoffset=2,yoffset=0).perform()  # 每次偏移2，移动

    from selenium.webdriver import ActionChains

    driver.switch_to.frame('iframeResult') # 切换到iframeResult

    sourse=driver.find_element_by_id('draggable')   # 拖拽元素

    target=driver.find_element_by_id('droppable')   # 目标元素

# 方式一：基于同一个动作链串行执行——————水平位置上拖拽

    actions=ActionChains(driver) # 拿到动作链对象

    actions.drag_and_drop(sourse,target)  # 把动作放到动作链中，一次性移动到目标位置

    actions.perform()	 # perform(),执行

# 方式二：不同的动作链，每次移动的位移都不同   -----  每一次获取动作链对象时都要重新生成

	ActionChains(driver).click_and_hold(sourse).perform()

    distance=target.location['x']-sourse.location['x']   # 两个元素x坐标相减获取移动距离

    track=0      # 已移动距离

    while track < distance:

        ActionChains(driver).move_by_offset(xoffset=2,yoffset=0).perform()

        track+=2

    ActionChains(driver).release().perform()

9、其它操作（自动化测试常用）

# 1. 前进后退

brower.back()    # 后退

browser.forward()   # 前进

# 2.选项卡（标签页）操作

# 选项卡管理：切换选项卡，有js的方式windows.open,有windows快捷键：ctrl+t等，最通用的就是js的方式

import time

from selenium import webdriver

browser=webdriver.Chrome()

browser.get('https://www.baidu.com')

browser.execute_script('window.open()')

print(browser.window_handles) 	# 获取所有的选项卡

browser.switch_to.window(browser.window_handles[1])   # 切换到第一个选项卡

browser.get('https://www.taobao.com')    # 第一个选项卡访问淘宝

time.sleep(10)

browser.switch_to.window(browser.window_handles[0])   # 切换到第二个选项卡

browser.get('https://www.sina.com.cn')   # 第二个选项卡，访问新浪

browser.close()

爬虫（二）—— 请求库（二）selenium请求库的更多相关文章

爬虫 - 请求库之selenium
介绍官方文档 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的 ...
python爬虫请求库之selenium模块
一介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器 ...
爬虫——请求库之selenium模块
阅读目录一介绍二安装三基本使用四选择器五等待元素被加载六元素交互操作七其他八项目练习一介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解 ...
爬虫请求库之selenium模块
一安装 #安装:selenium+chromedriver pip3 install selenium 下载chromdriver.exe放到python安装路径的scripts目录中即可,注意最新 ...
小白学 Python 爬虫（32）：异步请求库 AIOHTTP 基础入门
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
Python爬虫小白入门（二）requests库
一.前言为什么要先说Requests库呢,因为这是个功能很强大的网络请求库,可以实现跟浏览器一样发送各种HTTP请求来获取网站的数据.网络上的模块.库.包指的都是同一种东西,所以后文中可能会在不同地 ...
day04 Selenium请求库
1.什么是Selenium? Selenium是一个自动测试工具,它可以帮我通过代码去实现驱动浏览器自动执行相应的操作. 所以我们也可以用它来做爬虫. 2.为什么要适用s ...
爬虫入门系列（二）：优雅的HTTP库requests
在系列文章的第一篇中介绍了 HTTP 协议,Python 提供了很多模块来基于 HTTP 协议的网络编程,urllib.urllib2.urllib3.httplib.httplib2,都是和 HTT ...
python网络爬虫学习笔记（二）BeautifulSoup库
Beautiful Soup库也称为beautiful4库.bs4库,它可用于解析HTML/XML,并将所有文件.字符串转换为'utf-8'编码.HTML/XML文档是与“标签树一一对应的.具体地说, ...

随机推荐

03 synchronized
synchronized 1. 锁机制的特性互斥性:在同一时间只允许一个线程持有某个对象锁(原子性) 可见性:必须确保在锁被释放之前,对共享变量所在的修改,对于随后获得该锁的另一个线程是可见的 2. ...
C# Winform 窗体界面”假死”后台线程阻塞解决办法–BeginInvoke
原文:C# Winform 窗体界面"假死"后台线程阻塞解决办法–BeginInvoke 这个方法可以用在任何后台任务耗时较长,造成界面“假死”界面控件不更新的情况. 比如要要执 ...
Python之获取文件夹中文件列表以及glob与fnmatch模块的使用
获取文件夹中的文件列表 print(os.listdir("../secondPackage")) # ['__init__.py', 'secondCookBook.py', ' ...
mySql配置在nodejs中使用
mySql安装完成后,配置链接nodejs项目中的数据库. 1.测试是否安装成功. 2.use nodejs使用nodejs 3.设置数据源 5.exit
opencv视频流的读取和处理
Opencv提供一个简单易用的框架以提取视频文件和USB摄像头中的图像帧,如果只是想读取某个视频,你只需要创建一个VideoCapture实例,然后在循环中提取每一帧.下面是一个简单的代码 #incl ...
canvas 画正方形和圆形
绘制正方形 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF ...
Swoole 的运行模式
Swoole 做了什么 Swoole 是 php 的一个扩展,但是他又不是普通的扩展,其最明显的特点就是:一但运行后就会接管PHP的控制权,进入事件循环. 当某种IO事件发生时, Swoole 会回调 ...
关于linux的日志
日志的三种类型# 内核及系统日志: 这种日志数据由系统服务rsyslog统一管理,根据其主配置文件/etc/rsyslog.conf中的设置决定将内核消息及各种系统程序消息记录到什么位置.系统中有相当 ...
洛谷4206/NOI2005T4 聪聪和可可期望DP+记忆化搜索
题意:给出n个点m条边的无向图,两个主角聪聪和可可开始分别在S点和T点.聪聪想吃掉可可,每次由匆匆先行动后来可可行动.聪聪的行动是选他到可可的最短路上的点走最多两步(如果最短路有几条就选编号最小的走) ...
django项目中账号注册登陆使用JWT的记录
需求分析 1. 注册用JWT做状态保持 1.1 安装jwt pip install djangorestframework-jwt 1.2 去settings里面配置jwt ...

爬虫（二）—— 请求库（二）selenium请求库

selenium请求库

一、什么是selenium

二、环境搭建

1、在python中使用selenium需要先安装对应的模块

2、安装浏览器驱动程序

三、使用selenium模块

1、使用chrome并设置为无GUI模式

2、使用chrome有GUI模式

（1）基本使用

（2）实现搜索功能

3、显示等待与隐式等待

4、查找元素——find_element_by_*

5、xpath查找元素—— brower.find_element_by_id('tag_id')

（1）/ 与 //

（2）标签的属性

（3）具体使用

6、清空输入框—— input_tag.clear()

7、frame切换—— brower.switch_to.frame('小页面的id')

8、动作链——ActionChains(brower).perform()

9、其它操作（自动化测试常用）

爬虫（二）—— 请求库（二）selenium请求库的更多相关文章

随机推荐

热门专题