Python爬虫学习笔记之点触验证码的识别

代码:

Chaojiying.py:

 #!/usr/bin/env python

 # coding:utf-8

 import requests

 from hashlib import md5

 class Chaojiying(object):

     def __init__(self, username, password, soft_id):

         self.username = username

         self.password = md5(password.encode('utf-8')).hexdigest()

         self.soft_id = soft_id

         self.base_params = {

             'user': self.username,

             'pass2': self.password,

             'softid': self.soft_id,

         }

         self.headers = {

             'Connection': 'Keep-Alive',

             'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',

         }

     def post_pic(self, im, codetype):

         """

         im: 图片字节

         codetype: 题目类型 参考 http://www.chaojiying.com/price.html

         """

         params = {

             'codetype': codetype,

         }

         params.update(self.base_params)

         files = {'userfile': ('ccc.jpg', im)}

         r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers)

         return r.json()

     def report_error(self, im_id):

         """

         im_id:报错题目的图片ID

         """

         params = {

             'id': im_id,

         }

         params.update(self.base_params)

         r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)

         return r.json()

test.py:

 import time

 from io import BytesIO

 from PIL import Image

 from selenium import webdriver

 from selenium.webdriver import ActionChains

 from selenium.webdriver.common.by import By

 from selenium.webdriver.support.ui import WebDriverWait

 from selenium.webdriver.support import expected_conditions as EC

 from Chaojiying import Chaojiying

 EMAIL = '1549687918@qq.com'

 PASSWORD = 'zhaoxueche110'

 CHAOJIYING_USERNAME = 'Azure00'

 CHAOJIYING_PASSWORD = 'zhaoxueche110'

 CHAOJIYING_SOFT_ID = ''

 CHAOJIYING_KIND = ''

 class CrackTouClick():

     def __init__(self):

         self.url = 'http://admin.touclick.com/login.html'

         self.browser = webdriver.Chrome()

         self.wait = WebDriverWait(self.browser, 20)

         self.email = EMAIL

         self.password = PASSWORD

         self.chaojiying = Chaojiying(CHAOJIYING_USERNAME, CHAOJIYING_PASSWORD, CHAOJIYING_SOFT_ID)

     def __del__(self):

         self.browser.close()

     def open(self):

         """

         打开网页输入用户名密码

         :return: None

         """

         self.browser.get(self.url)

         email = self.wait.until(EC.presence_of_element_located((By.ID, 'email')))

         password = self.wait.until(EC.presence_of_element_located((By.ID, 'password')))

         email.send_keys(self.email)

         password.send_keys(self.password)

     def get_touchclick_button(self):

         """

         获取初始验证按钮

         :return:

         """

         button = self.wait.until(EC.element_to_be_clickable((By.CLASS_NAME, 'touclick-hod-wrap')))

         return button

     def get_touch_element(self):

         """

         获取验证图片对象

         :return: 图片对象

         """

         element = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'touclick-pub-content')))

         return element

     def get_position(self):

         """

         获取验证码位置

         :return: 验证码位置元组

         """

         element = self.get_touch_element()

         time.sleep(2)

         location = element.location

         size = element.size

         top, bottom, left, right = location['y'], location['y'] + size['height'], location['x'], location['x'] + size['width']

         return (top, bottom, left, right)

     def get_screenshot(self):

         """

         获取网页截图

         :return: 截图对象

         """

         screenshot = self.browser.get_screenshot_as_png()

         screenshot = Image.open(BytesIO(screenshot))

         return screenshot

     def get_touch_click_image(self, name= 'captcha.png'):

         """

         获取验证码图片

         :param name:图片对象

         :return:

         """

         top, bottom, left, right = self.get_position()

         print('验证码位置', top, bottom, left, right)

         screenshot = self.get_screenshot()

         captcha = screenshot.crop((left, top, right, bottom))

         captcha.save(name)

         return captcha

     def get_points(self, captcha_result):

         """

         解析识别结果

         :param captcha_result:识别结果

         :return: 转化后的结果

         """

         groups = captcha_result.get('pic_str').split('|')

         locations = [[int(number) for number in group.split(',')] for group in groups]

         return locations

     def touch_click_words(self, locations):

         """

         点击验证图片

         :param locations:点击位置

         :return: None

         """

         for location in locations:

             print(location)

             ActionChains(self.browser).move_to_element_with_offset(self.get_touclick_element(), location[0], location[1]). click().perform()

             time.sleep(1)

     def touch_click_verify(self):

         """

         点击验证按钮

         :return: None

         """

         button = self.wait.until(EC.element_to_be_clickable((By.CLASS_NAME, 'touclick-pub-submit')))

         button.click()

     def login(self):

         """

         登陆

         :return:None

         """

         submit = self.wait.until(EC.element_to_be_clickable((By.ID, '_submit')))

         submit.click()

         time.sleep(10)

         print("登陆成功")

     def crack(self):

         """

         破解入口

         :return:None

         """

         # 点击验证按钮

         button = self.get_touchclick_button()

         button.click()

         # 获取验证码图片

         image = self.get_touch_click_image()

         bytes_array = BytesIO()

         image.save(bytes_array, format='PNG')

         # 识别验证码

         result = self.chaojiying.post_pic(bytes_array.getvalue(), CHAOJIYING_KIND)

         print(result)

         locations = self.get_points(result)

         self.touch_click_words(locations)

         self.touch_click_verify()

         # 判定是否成功

         success = self.wait.until(EC.text_to_be_present_in_element((By.CLASS_NAME, "touchlick_hod_note"), '验证成功'))

         print(success)

         # 失败后重试

         if not success:

             self.crack()

         else:

             self.login()

 if __name__ == '__main__':

     crack = CrackTouClick()

     crack.crack()

结果等PIL与python 3.7对应版本出来再发哦！

Python爬虫学习笔记之点触验证码的识别的更多相关文章

Python爬虫学习笔记之极限滑动验证码的识别
代码: import time from io import BytesIO from PIL import Image from selenium import webdriver from sel ...
python爬虫学习笔记（一）——环境配置（windows系统）
在进行python爬虫学习前,需要进行如下准备工作: python3+pip官方配置 1.Anaconda(推荐,包括python和相关库) [推荐地址:清华镜像] https://mirrors ...
Python爬虫学习笔记之微信宫格验证码的识别(存在问题)
本节我们将介绍新浪微博宫格验证码的识别.微博宫格验证码是一种新型交互式验证码,每个宫格之间会有一条指示连线,指示了应该的滑动轨迹.我们要按照滑动轨迹依次从起始宫格滑动到终止宫格,才可以完成验证,如 ...
Python爬虫学习笔记(三)
Cookies: 以抓取https://www.yaozh.com/为例 Test1(不使用cookies): 代码: import urllib.request # 1.添加URL url = &q ...
Python爬虫学习笔记——豆瓣登陆(一)
#-*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup import html5lib import re import ...
python爬虫学习笔记
爬虫的分类 1.通用爬虫:通用爬虫是搜索引擎(Baidu.Google.Yahoo等)“抓取系统”的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 简单来讲就是尽可 ...
Python、pip和scrapy的安装——Python爬虫学习笔记1
Python作为爬虫语言非常受欢迎,近期项目需要,很是学习了一番Python,在此记录学习过程:首先因为是初学,而且当时要求很快速的出demo,所以首先想到的是框架,一番查找选用了Python界大名鼎 ...
一入爬虫深似海，从此游戏是路人！总结我的python爬虫学习笔记！
前言还记得是大学2年级的时候,偶然之间看到了学长在学习python:我就坐在旁边看他敲着代码,感觉很好奇.感觉很酷,从那之后,我就想和学长一样的厉害,就想让学长教我,请他吃了一周的饭,他答应了.从此 ...
Python爬虫学习笔记——豆瓣登陆(三)
之前是不会想到登陆一个豆瓣会需要写三次博客,修改三次代码的. 本来昨天上午之前的代码用的挺好的,下午时候,我重新注册了一个号,怕豆瓣大号被封,想用小号爬,然后就开始出问题了,发现无法模拟登陆豆瓣了,开 ...

随机推荐

主题模型 LDA 入门
主题模型 LDA 入门(附 Python 代码) 一.主题模型在文本挖掘领域,大量的数据都是非结构化的,很难从信息中直接获取相关和期望的信息,一种文本挖掘的方法:主题模型(Topic Model ...
贵州省未来二十年的投资机会的探讨1>
贵州的股市 1.000540.SZ 中天金融 2.000589.SZ 黔轮胎A 3.000733.SZ 振华科技 4.000851.SZ 高鸿股份 5.000920.SZ 南方汇通 6.002025. ...
5.azkaban权限管理
权限简介 user 登录azkaban的用户注意,如果不给用户roles groups,则用户就是普通用户,只能创建\查看\执行\调度自己的任务,不能看别人的 group group:用户的集合,给 ...
4.安装hive
下载安装包并解压安装元数据库配置hive添加hvie环境变量修改hive-env.sh修改hive配置文件初始化metastore使用hive cli配置hivemestore配置hiveserv ...
apache不解析php文件遍历目录
程序目录下有index.php缺不能正常解析,直接刷出整个目录. 解决:在后面添加index.php的解析即可.. DirectoryIndex index.html index.html.var i ...
freefcw/hustoj Install Guide
First of all, this version hustoj is a skin and improved for https://code.google.com/p/hustoj/. So t ...
PAT 甲级 1032 Sharing
https://pintia.cn/problem-sets/994805342720868352/problems/994805460652113920 To store English words ...
查询MySQL某字段相同值得重复数据
1.先查询重复的id: SELECT book_id,COUNT(*) AS COUNT FROM xs_book_source WHERE site_id=5 GROUP BY book_id HA ...
perf 是怎么计算调用栈的时间的？
在我真个malloc的执行过程中共调用了8次的syswrite的系统调用,其中有两次来自于__lib_write, 两次来自于__memmove_avx_unaligned,然后__memmove_a ...
ICE checkbox 用法
Hello everybody, I have a datable which contain multiple lines gotten from database, in the header o ...

Python爬虫学习笔记之点触验证码的识别

Python爬虫学习笔记之点触验证码的识别的更多相关文章

随机推荐

热门专题