selenium自动爬取网易易盾的验证码

我们在爬虫过程中难免会遇到一些拦路虎，比如各种各样的验证码，时不时蹦出来，这时候我们需要去识别它来继续我们的工作，接下来我将爬取网一些滑动验证码，然后通过百度的EasyDL平台进行数据标注，创建模型，训练模型，测试模型，看看是否能返回目标框的相应坐标，然后我们再使用selenium进行滑动到相应位置，这样就破解了验证码。后面我将用几个系列来阐述一下我们的内容。

首先，我们先看下爬取的效果，详情点击公众号地址，有视频。

思路：一开始我去查看能不能直接调用接口获取图片，发现看看不是那么容易，找到了相应的接口，但是模拟接口却很困难，里面有token,jsonp之类的。后来直接截取图片好了，简单粗暴。

步骤如下：

前提是有python环境，先把python安装好。

1.pip install selenium

2.下载chrome_driver.exe,利用它来启动谷歌浏览器，以下是网址，我们需要下载电脑谷歌对应的版本，我下载的是chromedriver_win32.zip，版本号是84.0.4147.89，解压内有一个exe文件，放到谷歌的安装目录。

https://sites.google.com/a/chromium.org/chromedriver/downloads

3.添加环境变量，将谷歌的安装目录加入环境变量。

4.测试

 from selenium import webdriver

 browser = webdriver.Chrome()

 browser.get('https://dun.163.com/trial/jigsaw')

5.测试成功之后，我们就可以开始爬取滑动验证码图片，上代码

 driver = webdriver.Chrome()

 driver.implicitly_wait(3)

 driver.maximize_window()

 driver.get('https://dun.163.com/trial/jigsaw')

 # 鼠标移动到此元素

 yidun_tips = driver.find_element_by_class_name('yidun_tips')

 action = ActionChains(driver)

 for i in range(1000):

     action.move_to_element(yidun_tips).perform()

     driver.implicitly_wait(5)

     driver.save_screenshot('webpages/'+str(int(time.time()))+".png")

     driver.find_element_by_class_name("yidun_refresh").click()

     driver.implicitly_wait(5)

 sleep(2)

 driver.quit()

这段代码会打开网页，找到相应元素，触发hover事件，自动点击refresh按钮，刷新图片，然后我们进行截取保存。

6.截取验证码区域

 import cv2 as cv

 import  os

 # 获取文件名

 file_names = os.listdir("webpages/")

 print(file_names)

 # 文件名拼接路径

 file_list = [os.path.join("./webpages/",file) for file in file_names]

 #裁剪坐标为[y0:y1, x0:x1]

 for i in range(len(file_list)):

     src=cv.imread(file_list[i])

     dst=src[651:851,945:1345]

     cv.imwrite('dist/'+(str(i+1))+'.png',dst)

 cv.waitKey()

后面我们就打包数据集上传到EasyDL平台，进行数据标注，训练。

selenium自动爬取网易易盾的验证码的更多相关文章

用selenium 自动爬取某一本小说章节及其内容，并存入数据库中
from selenium import webdriver import pymysql from selenium.webdriver.support.ui import WebDriverWai ...
如何利用python爬取网易新闻
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: LSGOGroup PS:如有需要Python学习资料的小伙伴可以 ...
selenium异步爬取（selenium+Chromedriver）
在我们进行数据爬去的过程中,我们有时候会遇到异步加载信息的情况,以豆瓣电影分来排行榜为例,当我们在查看数据的过程中,会发现网页源码中并不包含我们想要的全部数据,但是当我们在进行向下滚动的时候,数据会一 ...
【原创】Python 网易易盾滑块验证
本文仅供学习交流使用,如侵立删! 记一次网易易盾滑块验证分析并通过操作环境 win10 . mac Python3.9 selenium.PIL.numpy.scipy.matplotlib 分析 ...
使用Jsoup 爬取网易首页所有的图片
package com.enation.newtest; import java.io.File; import java.io.FileNotFoundException; import java. ...
python网络爬虫之使用scrapy自动爬取多个网页
前面介绍的scrapy爬虫只能爬取单个网页.如果我们想爬取多个网页.比如网上的小说该如何如何操作呢.比如下面的这样的结构.是小说的第一篇.可以点击返回目录还是下一页对应的网页代码: 我们再看进入后面 ...
网易易盾最新一代Java2c加固究竟有什么厉害之处？
导语:几个月前,网易易盾正式推出Java2c加固.它以独有的"静态保护"技术,使得应用程序中的代码出现"下沉",达到不可逆的效果,兼顾"冷热启动时间& ...
如何手动写一个Python脚本自动爬取Bilibili小视频
如何手动写一个Python脚本自动爬取Bilibili小视频国庆结束之余,某个不务正业的码农不好好干活,在B站瞎逛着,毕竟国庆嘛,还让不让人休息了诶-- 我身边的很多小伙伴们在朋友圈里面晒着出去游玩 ...
[python爬虫] Selenium定向爬取PubMed生物医学摘要信息
本文主要是自己的在线代码笔记.在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容. PubMed是一个免费的搜寻引擎,提供生物医学方 ...

随机推荐

手把手教你学Numpy，搞定数据处理——收官篇
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是Numpy专题第6篇文章,我们一起来看看Numpy库当中剩余的部分. 数组的持久化在我们做机器学习模型的研究或者是学习的时候,在完成 ...
java命令行输入参数
Java命令行输入参数代码用例:命令行输入参数,并进行加法运算. public class Demo01 { public static void main(String[] args) { for ...
linux环境搭建单机kafka
准备工作: jdk-8u191-linux-x64.rpm | zookeeper-3.4.6.tar.gz | kafka_2.11-2.2.0.tgz 对应的地址 zookeeper: ...
去除List集合中的重复值（四种好用的方法）（基本数据类型可用）
最近项目中需要对list集合中的重复值进行处理,大部分是采用两种方法,一种是用遍历list集合判断后赋给另一个list集合,一种是用赋给set集合再返回给list集合. 但是赋给set集合后,由于se ...
02 . Shell变量和逻辑判断及循环使用
Shell变量系统变量在命令行提示符直接执行 env.set 查看系统或环境变量.env 显示用户环境变量,set 显示 Shell预先定义好的变量以及用户变量.可以通过 export 导出成用户 ...
Unity ugui Anchor锚点自动适配画布中的相对位置
本随笔参考了以下博客,在此基础上进行优化和改进: https://blog.csdn.net/qq_39640124/article/details/88284191 ugui中的Anchor预设如下 ...
一文说清 KubeSphere 容器平台的价值
KubeSphere 作为云原生家族后起之秀,开源近两年的时间以来收获了诸多用户与开发者的认可.本文通过大白话从零诠释 KubeSphere 的定位与价值,以及不同团队为什么会选择 KubeSphe ...
状压DP之炮兵阵地
题目原题来自:\(NOI 2001\) 司令部的将军们打算在\(N*M\) 的网格地图上部署他们的炮兵部队.一个\(N*M\)的地图由\(N\)行\(M\)列组成,地图的每一格可能是山地(用 H表示 ...
【线型DP模板】最上上升子序列（LIS），最长公共子序列（LCS），最长公共上升子序列（LCIS）
BEGIN LIS: 一个数的序列bi,当b1 < b2 < … < bS的时候,我们称这个序列是上升的.对于给定的一个序列(a1, a2, …, aN),我们可以得到一些上升的子序 ...
Milk Pumping
今天第一次正式打个人定位赛,还是太菜,这题连枚举加最短路都没想到,显然菜是原罪. 题面: : 题解:其实方法很多,千万别浪到网络流用dinic求最大网络流求的最小费用,这题不一样.最大流/最小费用不 ...

selenium自动爬取网易易盾的验证码

selenium自动爬取网易易盾的验证码的更多相关文章

随机推荐

热门专题