12306官网登录的验证码破解比较简单,验证码是常规的点触类型验证码,使用超级鹰识别率比较高。

思路:

(1)webdriver打开浏览器;

(2)先对整个屏幕截屏,通过标签定位找到验证码图片,并定位到验证码图片的坐标,然后从先前截屏的图片中截取验证码部分的图片;

(3)通过超级鹰识别验证码上字的坐标;

(4)点击验证码图片上的字;

(5) 输入用户名和密码进行登录;

注意:将以下标红部分的账号等信息换成自己的即可成功

from selenium import webdriver
from selenium.webdriver import ActionChains
from chaojiying import Chaojiying
from PIL import Image
import time # 用户名和密码是自己的12306账号的用户名和密码
USERNAME =
PASSWORD =
class Huochepiao(): def __init__(self):
self.bro = webdriver.Chrome()
self.url = 'https://kyfw.12306.cn/otn/login/init' def open_browser(self):
self.bro.get(self.url)
time.sleep(5) # def __del__(self):
# self.bro.quit() def find_code_img(self):
# 定位到验证码图片对应的img标签
code_img = self.bro.find_element_by_class_name('touclick-img-par')
location = code_img.location
size = code_img.size
return (location,size) def get_code_img(self,location,size):
# rangle对应的就是验证码图片的裁剪区域
rangle = (int(location['x']), int(location['y']), int(location['x'] + size['width']), int(location['y'] + size['height']))
self.bro.save_screenshot('aa.png')
i = Image.open('./aa.png')
frame = i.crop(rangle) # 根据指定区域实现裁剪
frame.save('code.png') def get_words_locations(self):
chaojiying = Chaojiying(username, password, softID) # 超级鹰账号、密码和ID更换即可
im = open('./code.png', 'rb').read()
print("超级鹰识别结果:",chaojiying.post_pic(im, 9004))
result = chaojiying.post_pic(im, 9004)['pic_str']
print("result:",result) # "x1,y1|x2,y2" --> [['x1','y1'],['x2','y2']] "x,y" --> [['x','y']]
all_coorodinates = []
if '|' in result:
li = result.split('|')
count = len(li)
for i in range(count):
xy_list = []
x = int(li[i].split(',')[0])
y = int(li[i].split(',')[1])
xy_list.append(x)
xy_list.append(y)
all_coorodinates.append(xy_list)
else:
x = int(result.split(',')[0])
y = int(result.split(',')[1])
xy_list = []
xy_list.append(x)
xy_list.append(y)
all_coorodinates.append(xy_list)
print(all_coorodinates)
return all_coorodinates def touch_click_words(self, coorodinates):
code_img = self.bro.find_element_by_class_name('touclick-img-par') for coorodinate in coorodinates:
x = coorodinate[0]
y = coorodinate[1]
ActionChains(self.bro).move_to_element_with_offset(code_img, x, y).click().perform() def login(self):
self.bro.find_element_by_id('username').send_keys(USERNAME)
self.bro.find_element_by_id('password').send_keys(PASSWORD)
self.bro.find_element_by_id('loginSub').click()
time.sleep(10) def run(self): # 1 打开浏览器
self.open_browser() # 2 找到并获取验证码图片
location,size = self.find_code_img()
self.get_code_img(location,size) # 3 识别验证码上字的坐标
all_coorodinates = self.get_words_locations() # 4 点击验证码图片上的字
self.touch_click_words(all_coorodinates) # 5 登录
self.login() if __name__ == "__main__":
hcp = Huochepiao()
hcp.run()

输出结果:

result: 186,86
[[186, 86]]

注意:本篇博文仅供学习交流相关的爬虫知识,请勿过度使用,如有任何纠纷,与本人无关。(瑟瑟发抖)

验证码破解 | Selenium模拟登陆12306的更多相关文章

  1. 验证码破解 | Selenium模拟登陆微博

    模拟登陆微博相对来说,并不难.验证码是常规的5个随机数字字母的组合,识别起来也比较容易.主要是用到许多Selenium中的知识,如定位标签.输入信息.点击等.如对Selenium的使用并不熟悉,请先移 ...

  2. 验证码破解 | Selenium模拟登录简书

    使用超级鹰打码平台处理登录的文字点击验证码 import time from io import BytesIO from PIL import Image from selenium import ...

  3. 验证码破解 | Selenium模拟登录知乎

      import requests import re import execjs import time import hmac from hashlib import sha1 class Zhi ...

  4. Selenium模拟登陆百度贴吧

    Selenium模拟登陆百度贴吧 from selenium import webdriver from time import sleep from selenium.webdriver.commo ...

  5. selenium 模拟登陆豆瓣,爬取武林外传的短评

    selenium 模拟登陆豆瓣,爬去武林外传的短评: 在最开始写爬虫的时候,抓取豆瓣评论,我们从F12里面是可以直接发现接口的,但是最近豆瓣更新,数据是JS异步加载的,所以没有找到合适的方法爬去,于是 ...

  6. 使用selenium模拟登陆新浪微博

    1.selenium基本使用 1.selenium安装及基本操作 selenium是一个自动化测试工具,它支持各种浏览器,包括Chrome,Safari,Firefox等主流界面浏览器驱动,也包括Ph ...

  7. 使用selenium模拟登陆淘宝、新浪和知乎

    如果直接使用selenium访问淘宝.新浪和知乎这些网址.一般会识别出这是自动化测试工具,会有反制措施.当开启开发者模式后,就可以绕过他们的检测啦.(不行的,哭笑) 如果网站只是对windows.na ...

  8. python selenium模拟登陆163邮箱。

    selenium是可以模拟浏览器操作. 有些爬虫是异步加载的,通过爬取网页源码是得不到需要的内容.所以可以模拟浏览器去登陆该网站进行爬取操作. 需要安装selenium通过pip install xx ...

  9. Python爬虫 —— 知乎之selenium模拟登陆获取cookies+requests.Session()访问+session序列化

    代码如下: # coding:utf-8 from selenium import webdriver import requests import sys import time from lxml ...

随机推荐

  1. 使用预编译库PREBUILT LIBRARY官方说明

    使用预编译库 NDK 支持使用预编译库(同时支持静态库和共享库).此功能有以下两个主要用例: 向第三方 NDK 开发者分发您自己的库(而不分发您的源代码). 使用您自己的库的预编译版本来提升编译速度. ...

  2. Windows server 2012 显示“我的电脑”

    Windows server 2012 桌面上默认没有显示“我的电脑”的快捷方式, 如果要显示,可以输入一行命令: rundll32.exe shell32.dll,Control_RunDLL de ...

  3. [Linux] - 服务器/VPS一键检测带宽、CPU、内存、负载、IO读写

    一.SuperBench.sh VPS/服务器一键检测带宽.CPU.内存.负载.IO读写等的脚本: wget -qO- https://raw.githubusercontent.com/oooldk ...

  4. ElasticSearch 中文分词搜索环境搭建

    ElasticSearch 是强大的搜索工具,并且是ELK套件的重要组成部分 好记性不如乱笔头,这次是在windows环境下搭建es中文分词搜索测试环境,步骤如下 1.安装jdk1.8,配置好环境变量 ...

  5. 嵌入式Web服务器boa在ARM平台的移植步骤

    1.下载http://www.boa.org/ 2.解压tar xzf boa-0.94.13.tar.gz 3.编译cd boa-0.94.13/src./configure 生成了makefile ...

  6. 为什么K8s会成为主流?

    容器技术和K8s是云原生概念的核心和基础.云计算诞生已有超过10年,但云计算时代的应用到底该是什么样子,一直没人能说清楚,也没人能确定云计算的基础架构将会如何发展.在K8s出现之前,没人设想过会有一个 ...

  7. jQuery源码二之extend的实现

    extend是jQuery中一个比较核心的代码,如果有查看jQuery的源码的话,就会发现jQuery在多处调用了extend方法. 作用 对任意对象进行扩展 扩展某个实例对象 对jquery本身的实 ...

  8. Qt--多线程间的互斥

    一.多线程间的互斥 临界资源--每次只允许一个线程进行访问的资源 线程间的互斥--多个线程在同一个时刻需要访问临界资源 QMute类是一把线程锁,保证线程间的互斥--利用线程锁能够保证临界资源的安全性 ...

  9. Java 虚拟机 - GC 垃圾回收机制分析

    Java 垃圾回收(Garbage Collection,GC) Java支持内存动态分配.垃圾自动回收,而 C++ 不支持.我想这可能也是 为什么 Java 脱胎于 C++ 的一个原因吧. GC 的 ...

  10. ad批量上传

    import pandas as pd import requests import arrow from collections import deque import json campaign_ ...