selenium模块

selenium模块

一、selenium介绍

selenium最初是一个自动化测试工具，而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题
selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种常见的浏览器
利用该模块可以通过代码实现对浏览器的操作

from selenium import webdriver

browser=webdriver.Chrome()

browser=webdriver.Firefox()

browser=webdriver.PhantomJS()

browser=webdriver.Safari()

browser=webdriver.Edge()

官网：http://selenium-python.readthedocs.io

二、环境搭建

1、在python中使用selenium需要先安装对应的模块

pip install selenium

2、安装浏览器驱动程序

selenium的原理是操作驱动浏览器来完成对目标页面的请求与渲染，所以需要下载对应的浏览器驱动程序，推荐使用chrome

镜像地址：https://npm.taobao.org/mirrors/chromedriver/

需要注意的是，驱动程序版本需要与浏览器版本对应，你可以打开chrome的关于浏览器查看到具体版本。

驱动与浏览器的版本对应关系

ChromeDriver v2.45 (2018-12-10)----------Supports Chrome v70-72

ChromeDriver v2.44 (2018-11-19)----------Supports Chrome v69-71

ChromeDriver v2.43 (2018-10-16)----------Supports Chrome v69-71

ChromeDriver v2.42 (2018-09-13)----------Supports Chrome v68-70

ChromeDriver v2.41 (2018-07-27)----------Supports Chrome v67-69

ChromeDriver v2.40 (2018-06-07)----------Supports Chrome v66-68

ChromeDriver v2.39 (2018-05-30)----------Supports Chrome v66-68

ChromeDriver v2.38 (2018-04-17)----------Supports Chrome v65-67

ChromeDriver v2.37 (2018-03-16)----------Supports Chrome v64-66

ChromeDriver v2.36 (2018-03-02)----------Supports Chrome v63-65

ChromeDriver v2.35 (2018-01-10)----------Supports Chrome v62-64

三、使用selenium模块

1、使用chrome并设置为无GUI模式

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

chrome_options = Options()

chrome_options.add_argument('window-size=1920x3000') 	# 指定浏览器分辨率

chrome_options.add_argument('--disable-gpu') 	# 谷歌文档提到需要加上这个属性来规避bug

chrome_options.add_argument('--hide-scrollbars') 	# 隐藏滚动条, 应对一些特殊页面

chrome_options.add_argument('blink-settings=imagesEnabled=false')	 # 不加载图片, 可以提升速度

chrome_options.add_argument('--headless') 	# 浏览器不提供可视化页面. linux下如果系统如果无界面不加这条会启动失败

driver=webdriver.Chrome("驱动绝对路径 如果环境变量中有则可以不写",chrome_options=chrome_options)

driver.get('https://www.baidu.com')

print('hao123' in driver.page_source)

driver.close() 	# 切记关闭浏览器，回收资源

# selenium+谷歌浏览器headless模式

2、使用chrome有GUI模式

（1）基本使用

from selenium import webdriver

browser=webdriver.Chrome('驱动路径')

browser.get('https://www.baidu.com')

# driver.close()

（2）实现搜索功能

from selenium import webdriver

from selenium.webdriver import ActionChains

from selenium.webdriver.common.by import By	 # 按照什么方式查找，By.ID,By.CSS_SELECTOR

from selenium.webdriver.common.keys import Keys 	# 键盘按键操作

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait 	# 等待页面加载某些元素

browser=webdriver.Chrome('驱动路径')

try:

    browser.get('https://www.baidu.com')

    input_tag=browser.find_element_by_id('kw')

    input_tag.send_keys('美女') 	# python2中输入中文错误，字符串前加个u

    input_tag.send_keys(Keys.ENTER) 	# 输入回车

    wait=WebDriverWait(browser,10)

    wait.until(EC.presence_of_element_located((By.ID,'content_left'))) 	# 等到id为content_left的元素加载完毕,最多等10秒

    print(browser.page_source)

    print(browser.current_url)

    print(browser.get_cookies())

finally:

    browser.close()

3、查找元素

from selenium import webdriver

from selenium.webdriver.common.by import By #按照什么方式查找，By.ID,By.CSS_SELECTOR

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素

import time

driver=webdriver.Chrome('浏览器驱动路径')

driver.get('https://www.baidu.com')

wait=WebDriverWait(driver,10)  

try:

    # 1、find_element_by_id

    print(driver.find_element_by_id('kw'))

    # 2、find_element_by_link_text     # 根据超链接文本内容查找超链接的元素

    login=driver.find_element_by_link_text('登录')

    print(login.get_attribute('href'))    # 获取超链接元素的链接

    login.click()

    # 3、find_element_by_partial_link_text    # 不完整链接，返回的是一个列表

    login=driver.find_elements_by_partial_link_text('录')[0]

    login.click()

    # 4、find_element_by_tag_name  # 根据 标签名字 找元素

    print(driver.find_element_by_tag_name('a'))

    # 5、find_element_by_class_name

    button=wait.until(EC.element_to_be_clickable((By.CLASS_NAME,'tang-pass-footerBarULogin')))

    button.click()

    # 6、find_element_by_name   # 根据name属性的值获取元素

    input_user=wait.until(EC.presence_of_element_located((By.NAME,'userName')))

    input_pwd=wait.until(EC.presence_of_element_located((By.NAME,'password')))

    commit=wait.until(EC.element_to_be_clickable((By.ID,'TANGRAM__PSP_10__submit')))

    input_user.send_keys('18611453110')

    input_pwd.send_keys('xxxxxx')

    commit.click()

    # 7、find_element_by_css_selector    # 通过css选择器查找元素

    driver.find_element_by_css_selector('#kw')

    # 8、find_element_by_xpath

    time.sleep(5)

finally:

    driver.close()

4、获取标签属性

from selenium import webdriver

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素

drive=webdriver.Chrome()

drive.get('https://www.amazon.cn/')

wait=WebDriverWait(drive,10)

wait.until(EC.presence_of_element_located((By.ID,'cc-lm-tcgShowImgContainer')))

tag=drive.find_element(By.CSS_SELECTOR,'#cc-lm-tcgShowImgContainer img')

# 获取标签属性，

print(tag.get_attribute('src'))

# 获取标签ID，位置，名称，大小

print(tag.id)

print(tag.location)

print(tag.tag_name)

print(tag.size)

drive.close()

5、等待元素加载

selenium只是模拟浏览器的行为，而浏览器解析页面是需要时间的（执行css，js），一些元素可能需要过一段时间才能加载出来，为了保证能查找到元素，必须等待

# 等待的方式分两种：

1.隐式等待：在browser.get（'xxx'）前就设置，针对所有元素有效

# 隐式等待，浏览器加载页面时，最长等待20s

# 该方式问题：如果需要元素已经加载完成，仍要等页面全部加载完才能往后执行

driver.implicitly_wait(20)

2.显式等待：在browser.get（'xxx'）之后设置，只针对某个元素有效

# 第二个参数：超时时间；   第三个参数：轮询间隔时间

wait = WebDriverWait(driver, 10, 0.5)

wait.until(EC.presence_of_element_located((By.ID, '3')))

3.利用time来实现等待加载（少用）

# 无法判断页面到底多久能加载完，如果页面很多，每个页面都要2s，那么总共耗费时间巨大

time.sleep(2)

（1）隐式等待

每次都会等待网页全部加载完成再进行下一步

from selenium import webdriver

browser=webdriver.Chrome()

# 隐式等待:在查找所有元素时，如果尚未被加载，则等10秒

browser.implicitly_wait(10)

browser.get('https://www.baidu.com')

input_tag=browser.find_element_by_id('kw')

input_tag.send_keys('美女')

input_tag.send_keys(Keys.ENTER)

contents=browser.find_element_by_id('content_left') 	# 没有等待环节而直接查找，找不到则会报错

print(contents)

browser.close()

（2）显式等待

明确的指定要等待哪一个元素出现

from selenium import webdriver

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait 	# 等待页面加载某些元素

browser=webdriver.Chrome()

browser.get('https://www.baidu.com')

input_tag=browser.find_element_by_id('kw')

input_tag.send_keys('美女')

input_tag.send_keys(Keys.ENTER)

# 显式等待：显式地等待某个元素被加载

wait=WebDriverWait(browser,10)

wait.until(EC.presence_of_element_located((By.ID,'content_left')))

contents=browser.find_element(By.CSS_SELECTOR,'#content_left')

print(contents)

browser.close()

6、清空输入框

from selenium import webdriver

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait 	# 等待页面加载某些元素

browser=webdriver.Chrome()

browser.get('https://www.amazon.cn/')

wait=WebDriverWait(browser,10)

input_tag=wait.until(EC.presence_of_element_located((By.ID,'twotabsearchtextbox')))

input_tag.send_keys('iphone 8')

button=browser.find_element_by_css_selector('#nav-search > form > div.nav-right > div > input')

button.click()

import time

time.sleep(3)

input_tag=browser.find_element_by_id('twotabsearchtextbox')

input_tag.clear() 	# 清空输入框

input_tag.send_keys('iphone7plus') 	# 输入文字

button=browser.find_element_by_css_selector('#nav-search > form > div.nav-right > div > input')

button.click() 	# 点击按钮

7、切换frame

# frame相当于一个单独的网页，在父frame里是无法直接查看到子frame的元素的，必须switch_to_frame切到该frame下，才能进一步查找

from selenium import webdriver

try:

    browser=webdriver.Chrome()

    browser.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')

    browser.switch_to.frame('iframeResult') #切换到id为iframeResult的frame

    tag1=browser.find_element_by_id('droppable')

    print(tag1)

    # tag2=browser.find_element_by_id('textareaCode') #报错，在子frame里无法查看到父frame的元素

    browser.switch_to.parent_frame() #切回父frame,就可以查找到了

    tag2=browser.find_element_by_id('textareaCode')

    print(tag2)

finally:

    browser.close()

8、动作链

点击拖拽页面元素，常在验证时应用，例如博客园中用户登录验证拖拽图片

from selenium import webdriver

from selenium.webdriver import ActionChains

from selenium.webdriver.support.wait import WebDriverWait  # 等待页面加载某些元素

driver = webdriver.Chrome()

driver.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')

wait=WebDriverWait(driver,3)

try:

    driver.switch_to.frame('iframeResult') ##切换到iframeResult

    sourse=driver.find_element_by_id('draggable')

    target=driver.find_element_by_id('droppable')

    # 方式一：基于同一个动作链串行执行

    # actions=ActionChains(driver) #拿到动作链对象

    # actions.drag_and_drop(sourse,target) #把动作放到动作链中 一次性移动到目标位置

    # actions.perform() # 执行

    # 方式二：线性移动

    ActionChains(driver).click_and_hold(sourse).perform()

    distance=target.location['x']-sourse.location['x']

    track=0

    while track < distance:

        ActionChains(driver).move_by_offset(xoffset=2,yoffset=0).perform()

        track+=2

    ActionChains(driver).release().perform()

finally:

    driver.close()

9、执行JS

在交互动作比较难实现的时候可以自己写JS

from selenium import webdriver

try:

    browser=webdriver.Chrome()

    browser.get('https://www.baidu.com')

    browser.execute_script('alert("hello world")') 	# 打印警告

finally:

    browser.close()

10、前进后退

# 模拟浏览器的前进后退

import time

from selenium import webdriver

browser=webdriver.Chrome()

browser.get('https://www.baidu.com')

browser.get('https://www.taobao.com')

browser.get('http://www.sina.com.cn/')

browser.back()

time.sleep(4)

browser.forward()

browser.close()

11、选项卡切换

# 选项卡管理：切换选项卡，有js的方式windows.open,有windows快捷键：ctrl+t等，最通用的就是js的方式

import time

from selenium import webdriver

browser=webdriver.Chrome()

browser.get('https://www.baidu.com')

browser.execute_script('window.open()')

print(browser.window_handles) 	# 获取所有的选项卡

browser.switch_to_window(browser.window_handles[1])

browser.get('https://www.taobao.com')

time.sleep(10)

browser.switch_to_window(browser.window_handles[0])

browser.get('https://www.sina.com.cn')

browser.close()

12、xpath

xpath即XML_Path是一种通用的查找元素方式，也在scrapy模块中使用

doc='''

<html>

 <head>

  <base href='http://example.com/' />

  <title>Example website</title>

 </head>

 <body>

  <div id='images'>

   <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>

   <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>

   <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>

   <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>

   <a href='image5.html' class='li li-item' name='items'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>

   <a href='image6.html' name='items'><span><h5>test</h5></span>Name: My image 6 <br /><img src='image6_thumb.jpg' /></a>

  </div>

 </body>

</html>

'''

from lxml import etree

html=etree.HTML(doc)

# html=etree.parse('search.html',etree.HTMLParser())

# / 一个斜杠表示子级标签

# // 两个斜杠表示子孙标签

# 1 所有节点

# a=html.xpath('//*')

# 2 指定节点（结果为列表）

# a=html.xpath('//head')

# 3 子节点，子孙节点

# a=html.xpath('//div/a')

# a=html.xpath('//body/a') #无数据

# a=html.xpath('//body//a')

# 4 父节点

# a=html.xpath('//body//a[@href="image1.html"]/..')

# a=html.xpath('//body//a[1]/..')

# 也可以这样

# a=html.xpath('//body//a[1]/parent::*')

# 5 属性匹配

# a=html.xpath('//body//a[@href="image1.html"]')

# 6 文本获取

# a=html.xpath('//body//a[@href="image1.html"]/text()')

# 7 属性获取

# a=html.xpath('//body//a/@href')

# # 注意从1 开始取（不是从0）

# a=html.xpath('//body//a[1]/@href')

# 8 属性多值匹配

#  a 标签有多个class类，直接匹配就不可以了，需要用contains

# a=html.xpath('//body//a[@class="li"]')

# a=html.xpath('//body//a[contains(@class,"li")]')

# a=html.xpath('//body//a[contains(@class,"li")]/text()')

# 9 多属性匹配

# a=html.xpath('//body//a[contains(@class,"li") or @name="items"]')

# a=html.xpath('//body//a[contains(@class,"li") and @name="items"]/text()')

# # a=html.xpath('//body//a[contains(@class,"li")]/text()')

# 10 按序选择

# a=html.xpath('//a[2]/text()')

# a=html.xpath('//a[2]/@href')

# 取最后一个

# a=html.xpath('//a[last()]/@href')

# 位置小于3的

# a=html.xpath('//a[position()<3]/@href')

# 倒数第二个

# a=html.xpath('//a[last()-2]/@href')

# 11 节点轴选择

# ancestor：祖先节点

# 使用了* 获取所有祖先节点

# a=html.xpath('//a/ancestor::*')

# # 获取祖先节点中的div

# a=html.xpath('//a/ancestor::div')

# attribute：属性值

# a=html.xpath('//a[1]/attribute::*')

# child：直接子节点

# a=html.xpath('//a[1]/child::*')

# descendant：所有子孙节点

# a=html.xpath('//a[6]/descendant::*')

# following:当前节点之后所有节点

# a=html.xpath('//a[1]/following::*')

# a=html.xpath('//a[1]/following::*[1]/@href')

# following-sibling:当前节点之后同级节点

# a=html.xpath('//a[1]/following-sibling::*')

# a=html.xpath('//a[1]/following-sibling::a')

# a=html.xpath('//a[1]/following-sibling::*[2]')

# a=html.xpath('//a[1]/following-sibling::*[2]/@href')

爬虫（五）—— selenium模块启动浏览器自动化测试的更多相关文章

爬虫之selenium模块;无头浏览器的使用
一,案例爬取站长素材中的图片:http://sc.chinaz.com/tupian/gudianmeinvtupian.html import requests from lxml import ...
用selenium 模块控制浏览器
11.8 用selenium 模块控制浏览器selenium 模块让Python 直接控制浏览器,实际点击链接,填写登录信息,几乎就像是有一个人类用户在与页面交互.与Requests 和Beautif ...
selenium模块控制浏览器
利用selenium模块控制浏览器导入selenium模块:from selenium import webdriver browserFirefox = webdriver.Firefox()#打 ...
爬虫之 selenium模块
selenium模块阅读目录一介绍二安装三基本使用四选择器五等待元素被加载六元素交互操作七其他八项目练习一介绍 selenium最初是一个自动化测试工具,而爬 ...
爬虫四 selenium模块
一.介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作, ...
爬虫之selenium模块
Selenium 简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟 ...
Python selenium + Firefox启动浏览器
Python selenium 的运用 from selenium import webdriver # from selenium.webdriver.firefox.firefox_profile ...
三: 爬虫之selenium模块
一 selenium模块什么是selenium?selenium是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作. selenium最初是一个自动化测试工具, ...
03 爬虫之selenium模块
selenium模块 1.概念,了解selenium 什么是selenium?selenium是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作. seleniu ...

随机推荐

神他么奇怪NoClassDefFoundError
javaweb 项目,部署在Tomcat服务器十分奇葩的问题之前一直好好的,今天突然就给报错.代码没动过.真是奇葩.创建User对象报NoClassDefFoundError, User类是一个普 ...
mac bash上显示git分支与状态
主要实现显示当前路径显示当前所在分支显示当前修改状态 = 表示一个干净的分支 ~ 表示文件有改动 # 表示已commit 但未 push 通过网上搜索和自己根据实际需要修改的代码如下: .bas ...
[fw]GDT是在分段中為了相容real mode 跟 protected mode的產物
在Protected Mode下,一个重要的必不可少的数据结构就是GDT(Global Descriptor Table). 为什么要有GDT?我们首先考虑一下在Real Mode下的编程模型: 在R ...
docker-bridge network
根据下面这图示,可以了解两个container之间是如何通信的通过ip link 和 ip a可以看到本地有个docker0 link. [root@localhost ~]# ip link : ...
python 大小写转换函数
capitalize() 首字母大写,其余全部小写 upper() 全转换成大写 lower() 全转换成小写 title() 标题首字大写,如"i love python".t ...
C中printf函数的用法总结
函数语法 stdio.h文件中的定义: /* Write formatted output to stdout. */ int printf (const char *__restrict __for ...
Idea maven项目不能新建package和class的解决【转】
如图,新建的maven项目不能新建package 这是因为java是普通的文件夹,要设置为现在就可以了博客原链接:http://blog.csdn.net/qq_24949727/article/ ...
一、Json
一.Json遍历模糊查询你没admin 所以这句话报错. //1.写法 dynamic query = from user in jsonObject where (user.ToString(). ...
private: CRITICAL_SECTION m_cs;
CRITICAL_SECTION m_cs; //临界区私有数据成员 pop 数据结构 push 临界区保护 2.类CCriticalSection的对象表示一个“临界区”,它是一个用于同 ...
nginx的虚拟主机和反向代理和一些技巧应用
前言 nginx是什么,一般用来做反向代理,也可以用来放静态htnl等文件..当然代理tcp协议也没啥问题,但做好是别用哈.性能不咋样. 虚拟主机什么是虚拟主机? 个人理解,比如一台主机装一个ngi ...

爬虫（五）—— selenium模块启动浏览器自动化测试