Python爬虫之selenium高级功能

原文地址

表单操作

元素拖拽

页面切换

弹窗处理

表单操作

表单里面会有文本框、密码框、下拉框、登陆框等。

这些涉及与页面的交互,比如输入、删除、点击等。

前提是找到页面中的元素。

例如下面有一个表单输入框:

  1. <input type="text" name="passwd" id="passwd-id" />

获取这个元素的方法:

  1. element = driver.find_element_by_id("passwd-id")
  2. element = driver.find_element_by_name("passwd")
  3. element = driver.find_elements_by_tag_name("input")
  4. element = driver.find_element_by_xpath("//input[@id='passwd-id']")

注意:使用 xpath 的时候还需要注意的是,如果有多个元素匹配了 xpath,它只会返回第一个匹配的元素。如果没有找到,那么会抛出 NoSuchElementException 的异常。

获取元素之和就要进行输入与点击操作了

输入:

  1. element.send_keys("some text")

点击:

利用 Keys 这个类来模拟点击某个按键,当然首先你要获取按键元素。

  1. element.send_keys("and some", Keys.ARROW_DOWN)

第二种方法:我们获取了按键元素,我们就可以使用click方法点击了

  1. button = broswer.find_element_by_class_name('btn-search')
  2. #点击按钮
  3. button.click() 

删除:

当你元素使用send.keys方法输入字符后,输入的内容不会自动清除,如果我们要输入第二次,就要把第一次的内容删除掉:

  1. element.clear()

上面都是简单的操作,如果我们遇到下拉框应该怎么办呢

WebDriver 中提供了一个叫 Select 的方法,可以帮助我们完成这些事情。

可以根据索引来选择,可以根据值来选择,可以根据文字来选择。

  1. from selenium.webdriver.support.ui import Select
  2. select = Select(driver.find_element_by_name('name'))
  3. select.select_by_index(index)
  4. select.select_by_visible_text("text")
  5. select.select_by_value(value)

取消全部选择:

  1. select = Select(driver.find_element_by_id('id'))
  2. select.deselect_all()

获取已选选择:

  1. select = Select(driver.find_element_by_xpath("xpath"))
  2. all_selected_options = select.all_selected_options

获取可选选项:

  1. options = select.options

最后提交表单:

  1. driver.find_element_by_id("submit").click()

注意:WebDriver 会在表单中寻找它所在的表单,如果发现这个元素并没有被表单所包围,那么程序会抛出 NoSuchElementException 的异常。

元素拖拽

要完成元素的拖拽,首先你需要指定被拖动的元素和拖动目标元素,然后利用 ActionChains 类来实现。

  1. element = driver.find_element_by_name("source")
  2. target = driver.find_element_by_name("target")
  3.  
  4. from selenium.webdriver import ActionChains
  5. action_chains = ActionChains(driver)
  6. action_chains.drag_and_drop(element, target).perform()

这样就实现了元素从 source 拖动到 target 的操作。

页面切换

一个浏览器肯定会有很多窗口,所以我们肯定要有方法来实现窗口的切换。切换窗口的方法如下:

  1. driver.switch_to_window("windowName")

另外你可以使用 window_handles 方法来获取每个窗口的操作对象。例如:

  1. for handle in driver.window_handles:
  2. driver.switch_to_window(handle)

另外切换 frame 的方法如下

  1. driver.switch_to_frame("frameName.0.child")

这样焦点会切换到一个 name 为 child 的 frame 上。

弹窗处理

当你出发了某个事件之后,页面出现了弹窗提示,那么你怎样来处理这个提示或者获取提示信息呢?

  1. alert = driver.switch_to_alert()

通过上述方法可以获取弹窗对象。

Python爬虫之selenium高级功能的更多相关文章

  1. [Python爬虫]使用Selenium操作浏览器订购火车票

    这个专题主要说的是Python在爬虫方面的应用,包括爬取和处理部分 [Python爬虫]使用Python爬取动态网页-腾讯动漫(Selenium) [Python爬虫]使用Python爬取静态网页-斗 ...

  2. Python 爬虫利器 Selenium 介绍

    Python 爬虫利器 Selenium 介绍 转 https://mp.weixin.qq.com/s/YJGjZkUejEos_yJ1ukp5kw 前面几节,我们学习了用 requests 构造页 ...

  3. Python爬虫之selenium的使用(八)

    Python爬虫之selenium的使用 一.简介 二.安装 三.使用 一.简介 Selenium 是自动化测试工具.它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏 ...

  4. Python爬虫之selenium库使用详解

    Python爬虫之selenium库使用详解 本章内容如下: 什么是Selenium selenium基本使用 声明浏览器对象 访问页面 查找元素 多个元素查找 元素交互操作 交互动作 执行JavaS ...

  5. python爬虫利器Selenium使用详解

    简介: 用pyhon爬取动态页面时普通的urllib2无法实现,例如下面的京东首页,随着滚动条的下拉会加载新的内容,而urllib2就无法抓取这些内容,此时就需要今天的主角selenium. Sele ...

  6. Python爬虫初探 - selenium+beautifulsoup4+chromedriver爬取需要登录的网页信息

    目标 之前的自动答复机器人需要从一个内部网页上获取的消息用于回复一些问题,但是没有对应的查询api,于是想到了用脚本模拟浏览器访问网站爬取内容返回给用户.详细介绍了第一次探索python爬虫的坑. 准 ...

  7. python爬虫——用selenium爬取京东商品信息

    1.先附上效果图(我偷懒只爬了4页)  2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Headless无弹窗模式 options = webdri ...

  8. python爬虫之Selenium

    Selenium的使用 #!/usr/bin/env python # -*- coding:utf-8 -*- """ Selenium是一个第三方模块,可以完全模拟用 ...

  9. Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

    1,引言 在Python网络爬虫内容提取器一文我们详细讲解了核心部件:可插拔的内容提取器类gsExtractor.本文记录了确定gsExtractor的技术路线过程中所做的编程实验.这是第二部分,第一 ...

随机推荐

  1. springboot(六) Maven打包引入本地jar包

       springboot Maven打包引入本地jar包 最近在做项目的时候,有一些jar包不存在maven的依赖库中,所以需要自己引入本地jar包来达到需求,那么我们该如何去将本地的jar包引入s ...

  2. 南京网络赛 E K Sum

    K Sum 终于过了这玩意啊啊啊==== 莫比乌斯反演,杜教筛,各种分块,积性函数怎么线性递推还很迷==,得继续研究研究 #include<bits/stdc++.h> using nam ...

  3. logstash之Filter插件

    Logstash之所以强悍的主要原因是filter插件:通过过滤器的各种组合可以得到我们想要的结构化数据 1:grok正则表达式 grok**正则表达式是logstash非常重要的一个环节**:可以通 ...

  4. LeetCode_21.合并两个有序链表

    LeetCode_21 LeetCode-21.合并两个有序链表 将两个有序链表合并为一个新的有序链表并返回. 新链表是通过拼接给定的两个链表的所有节点组成的. 示例: 输入:1->2-> ...

  5. cmake使用2

    CMake支持大写.小写.混合大小写的命令. . 添加头文件目录INCLUDE_DIRECTORIES 语法:include_directories([AFTER|BEFORE] [SYSTEM] d ...

  6. 1. JDK 、 JRE 、JVM有什么区别和联系?

    首先,我们分别对这三者进行阐述. JVM :英文名称(Java Virtual Machine),就是我们耳熟能详的 Java 虚拟机.它只认识 xxx.class 这种类型的文件,它能够将 clas ...

  7. Html/CSS 示例演练 图书馆后台界面

    示例演练(html css javascript) --制作图书馆后台界面 1. 成品图

  8. 二:flask-debug模式详解

    debug模式的情况下可以抛出详细异常信息 新建一个脚本并运行 访问 此时是非debug模式,如果运行的时候代码报错了,是不会提示详细错误的,只会报服务器内部错误 开启debug模式,可以查看到详细错 ...

  9. lazarus 给应用程序创建 配置文件哈哈

    lazarus 给应用程序创建 配置文件哈哈procedure TForm1.Button2Click(Sender: TObject);beginForceDirectoriesUTF8(GetAp ...

  10. poker

    一副扑克牌有n张牌.一般你买的一副新扑克牌里除了这n张牌外还会有一些张特殊的牌,如果你不小心弄丢了n张牌中的某一张,就可以用特殊牌来代替,但是如果你弄丢两张的话就没有办法了,因为特殊牌上的图案是一样的 ...