经过post方法之后,因为有动态的value值所以再此回到用webdriver的解决上,但是在下载图片上会打开新打开一个链接,导致与网页图片不同即验证码同步问题,没办法只能想了一个笨法子,网页截图,唉!因为只是验证码问题所以只上获取验证码的代码了,其他的在第六节都有把下载的代码换一下就行。

  1. from PIL import Image
  2. from selenium import webdriver
  3. import time
  4. from selenium.webdriver.common.keys import Keys
  5.  
  6. # 截全屏
  7. def get_snap(driver):
  8. driver..maximize_window();
  9. time.sleep(3)
  10.  
  11. driver.get_screenshot_as_file('./full_snap.png')
  12. page_snap_obj = Image.open('full_snap.png')
  13. return page_snap_obj
  14.  
  15. def get_image(driver):
  16. driver.find_element_by_id('frm_login').send_keys(Keys.DOWN)
  17. # 如果爬取的网页有iframe,则切换到xpath对应的iframe,没有的话,下面一行代码可以注释
  18. driver.switch_to.frame(driver.find_element_by_id("frm_login"))
  19. driver.find_element_by_id("txt_sdertfgsadscxcadsads").click()
  20. # 这里是点击输入验证码框才会显示验证码
  21. time.sleep(2)
  22. img = driver.find_element_by_id('imgCode')
  23. loca= img.location
  24. loca['x'] = 190
  25. loca['y'] =190
  26. print(loca)
  27. size = img.size
  28. # 这里根据自己爬取的网站进行调整,如果没有iframe的,不需要手工调整
  29. left = loca['x'] + 10
  30. top = loca['y'] + 107
  31. right = left + size['width']
  32. bottom = top + size['height']
  33. page_snap_obj = get_snap(driver)
  34. page_snap_obj.show()
  35. image_obj = page_snap_obj.crop((left, top, right, bottom))
  36. image_obj.show()
  37. # 得到的就是验证码
  38. return image_obj
  39.  
  40. if __name__ == "__main__":
  41. driver = webdriver.Firefox()
  42. url = "http:xxxxxxxxxxxxxxxxxxx" # 抓取验证码的网站
  43. driver.get(url)
  44. get_image(driver)

当时在截全屏时因为iframe问题全屏的截取有些问题,在网上搜时,发现一个与我爬取网站id相同的老哥的代码,所以就借过来用了。

本文链接:https://blog.csdn.net/qq_34525938/article/details/88945788
————————————————
版权声明:本文为CSDN博主「wap2017」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_34525938/article/details/88945788

Python爬虫笔记【一】模拟用户访问之webdriver用户登入——第三次(8)的更多相关文章

  1. python爬虫笔记之用cookie访问需要登录的网站

     目标:用cookie访问一个需要登录的网站 如图,直接访问会跳转到登录页面,提示登录. 运行结果: 直接在浏览器上输入该url,网站立马跳转到登录页面.  方法: 1.先手动登录,通过抓包获取coo ...

  2. python爬虫笔记Day01

    python爬虫笔记第一天 Requests库的安装 先在cmd中pip install requests 再打开Python IDM写入import requests 完成requests在.py文 ...

  3. [Python爬虫笔记][随意找个博客入门(一)]

    [Python爬虫笔记][随意找个博客入门(一)] 标签(空格分隔): Python 爬虫 2016年暑假 来源博客:挣脱不足与蒙昧 1.简单的爬取特定url的html代码 import urllib ...

  4. Python爬虫笔记一(来自MOOC) Requests库入门

    Python爬虫笔记一(来自MOOC) 提示:本文是我在中国大学MOOC里面自学以及敲的一部分代码,纯一个记录文,如果刚好有人也是看的这个课,方便搬运在自己电脑上运行. 课程为:北京理工大学-嵩天-P ...

  5. Python爬虫笔记【一】模拟用户访问之设置请求头 (1)

    学习的课本为<python网络数据采集>,大部分代码来此此书. 网络爬虫爬取数据首先就是要有爬取的权限,没有爬取的权限再好的代码也不能运行.所以首先要伪装自己的爬虫,让爬虫不像爬虫而是像人 ...

  6. Python爬虫笔记【一】模拟用户访问之提交表单登入—第二次(7)

    在第一次登入时遇到这个问题,页面验证码与下载下来需要识别的验证码不同的问题,从网上查寻说是叫验证码同步问题.发现是用cookie解决的,那次cookie介绍到通过cookie就可以实现时间戳同步问题, ...

  7. Python爬虫笔记【一】模拟用户访问之表单处理(3)

    学习的课本为<python网络数据采集>,大部分代码来此此书. 大多数网页表单都是由一些HTML 字段.一个提交按钮.一个在表单处理完之后跳转的“执行结果”(表单属性action 的值)页 ...

  8. Python爬虫笔记【一】模拟用户访问之Tesseract-ocr验证码训练(5)

    验证码处理之后就需要对处理的验证码进行识别训练,这里用Tesseract-ocr工具进行识别,用jTessBoxeditor进行训练生成模板. 一,对图片进行处理 利用上一篇代码对图片进行降噪处理,得 ...

  9. Python爬虫笔记(一):爬虫基本入门

    最近在做一个项目,这个项目需要使用网络爬虫从特定网站上爬取数据,于是乎,我打算写一个爬虫系列的文章,与大家分享如何编写一个爬虫.这是这个项目的第一篇文章,这次就简单介绍一下Python爬虫,后面根据项 ...

随机推荐

  1. jedis3.1.0在weblogic(jdk1.6)中无法运行

    文章目录 错误 探索 总结 错误 在tomcat中运行是没有问题的,可是在weblogic中是不能够运行的,weblogic中的jdk客户要求是1.6的. 如果更换版本jedis2.9.0是没有问题的 ...

  2. 三种方法实现MNIST 手写数字识别

    MNIST数据集下载: import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data mnist ...

  3. css3@media实现原理

    window.matchMedia() 基本用法 window.matchMedia方法用来检查CSS的mediaQuery语句.各种浏览器的最新版本(包括IE 10+)都支持该方法,对于不支持该方法 ...

  4. KVM热添加技术

    1.KVM热添加的种类 硬盘.网卡.内存.cpu 2.KVM热添加硬盘 1.在宿主机上创建硬盘 qemu-img create -f qcow2 /opt/web02_add01.qcow2 10G ...

  5. idea的安装与破解

    1.下载 官网:https://www.jetbrains.com/idea/download/#section=windows 百度盘:https://pan.baidu.com/s/16mRNPK ...

  6. R:ggplot2数据可视化——进阶(2)

    Part 2: Customizing the Look and Feel, 更高级的自定义化,比如说操作图例.注记.多图布局等  # Setup options(scipen=999) librar ...

  7. Cmd使用方式--命令行运行程序

    工具用惯却不知道如何去描述什么用,总感觉自己学东西用东西零零散散不系统,心虚!下面总结下自己使用cmd的几种方式. 1 => cmd,command,是window系统下命令提示符,是一种com ...

  8. 廖雪峰Java11多线程编程-3高级concurrent包-2ReadWriteLock

    ReentrantLock保证单一线程执行 ReentrantLock保证了只有一个线程可以执行临界区代码: 临界区代码:任何时候只有1个线程可以执行的代码块. 临界区指的是一个访问共用资源(例如:共 ...

  9. 理清Java中try-catch-finally带return的执行顺序

    前言:try-catch-finally带return和异常时,它们之间执行顺序问题是留下来的一个小疑问,今天搞清楚它们 第一种情况:无异常 //1.try-catch-finally都带有retur ...

  10. CF1097E Egor and an RPG game

    最少反链划分数 = 最长链.实现:每次找出所有极大元作为一个反链. 任意长度小于k * (k + 1) / 2的排列都能被划分为不多于k个单调序列.且这是一个紧的上界. 然后这题就可以切了. 题意:给 ...