前期准备

1. 安装包，直接在终端上输入pip指令即可：

# 发送浏览器请求

pip3 install requests

# 文字识别

pip3 install pytesseract

# 图片处理

pip3 install Pillow

PS：如有需要Python学习资料的小伙伴可以加下方的群去找免费管理员领取

可以免费领取源码、项目实战视频、PDF文件等

2. 新建项目

需要的模块安装好后，新建一个项目wordsDistinguish。

在项目包下新建三个.py文件

test_pytesseract 和 test_pillow、case_verification。

test_pytesseract：模块 pytesseract 的基本使用测试
test_pillow：模块 Pillow 的基本使用测试
case_verification：实战案例，破解网站图片验证码验证

涉及知识

1.Pillow 中的 Image

Python图像库中最重要的类是 Image，在模块中定义的具有相同名称的类。

可以通过多种方式创建此类的实例; 通过从文件加载图像，处理其他图像或从头开始创建图像。

# -*- coding: utf-8 -*-

# 注意：print_function的导入必须在Image之前，否则会报错

from __future__ import print_function

from PIL import Image

"""

pillow 模块 中 Image 的基本使用

"""

# 1.打开图片

im = Image.open("../wordsDistinguish/test1.jpg")

print(im)

# 2.查看图片文件内容

print("图片文件格式："+im.format)

print("图片大小："+str(im.size))

print("图片模式："+im.mode)

# 3.显示当前图片对象

im.show()

# 4.修改图片大小，格式，保存

size = (50, 50)

im.thumbnail(size)

im.save("1.jpg", "PNG")

# 5.图片模式转化并保存，L 表示灰度 RGB 表示彩色

im = im.convert("L")

im.save("test1.jpg")

2. 基于 Tesseract-OCR 的 pytesseract

Python-tesseract是python的光学字符识别（OCR）工具。也就是说，它将识别并“读取”嵌入图像中的文本。

Python-tesseract是Google的Tesseract-OCR引擎的包装器。

它作为独立的调用脚本也很有用，因为它可以读取Pillow和Leptonica成像库支持的所有图像类型，包括jpeg，png，gif，bmp，tiff等。

此外，如果用作脚本，Python-tesseract将打印已识别的文本，而不是将其写入文件。

要在你的电脑上使用pytesseract模块，你还需要安装 Tesseract-OCR ，Mac上安装该工具我比较建议使用Homebrew，安装好后，直接在终端输入下面指令即可：

Windows下安装的话直接下载包即可，然后把其加入系统环境变量（即加入Path里），比较傻白甜，可以百度一下。

# -*- coding: utf-8 -*-

# 从 Pillow 中导入图片处理模块 Image

from PIL import Image

# 导入基于 Tesseract 的文字识别模块 pytesseract

import pytesseract

"""

@pytesseract：https://github.com/madmaze/pytesseract

"""

# 打开图片

im = Image.open("../wordsDistinguish/Resources/1.jpg")

# 识别图片内容

text = pytesseract.image_to_string(im)

print(text)

小项目：破解图片验证码登陆

目标网站：https://so.gushiwen.org

1. 准备过程

登录过程中需要输入三个数据：账号、密码、验证码，首先在浏览器内实际登录一次，按F12查看登录流程。

输入账号密码，和验证码，点击登录，注意Network内的变化。

登录后，分析Network内加载的网页我们发现，在login.aspx里，传递了我们的登录信息。

这是关键，意味着我们只要把数据通过这个地址传递给服务器就可以实现登录了。

2. 代码敲起来

现在模拟登录过程的难点主要有：验证码的识别和传递。

a.验证码识别我们根据前面的知识知识里的，直接采用pytesseract模块。b.登录参数传递，利用requests库发送post请求即可，问题是如何把验证码和登录联系起来.

通过前面分析我们知道

验证码是在

“https://so.gushiwen.org/RandCode.ashx”里生成的，

而登录页面是

“https://so.gushiwen.org/user/login.aspx”，分析发现。

正常浏览器登录这两个网址的cookie是一致的，并且都带有时间戳，所以，只要在代码请求时保证两者的cookie一致即可，这里我们利用requests库的session方法可以实现。

# -*- coding: utf-8 -*-

# 从 Pillow 中导入图片处理模块 Image

from PIL import Image

# 导入基于 Tesseract 的文字识别模块 pytesseract

import pytesseract

# 导入发送网络请求的库 requests

import requests

# 导入正则库 re

import re

"""

模拟登录，破解字母数字图片验证码

目标网站：https://so.gushiwen.org

"""

# 请求头

headers = {

        "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36"

    }

# 通过requests 创建一个 session 会话，保持两次访问 cookie 值相同

session = requests.session()

# 下载识别验证码图片函数

def get_verification():

    # 生成验证码图片url

    url = "https://so.gushiwen.org/RandCode.ashx"

    # 通过session发送get请求，获取验证码

    resp = session.get(url, headers=headers)

    # 将验证码保证到本地

    with open(r"../wordsDistinguish/Resources/test.jpg", 'wb') as f:

        f.write(resp.content)

    # 打开验证码图片文件

    im = Image.open(r"../wordsDistinguish/Resources/test.jpg")

    # 基本处理，灰度处理，提升识别准确率

    # 保存处理后的图片

    im.save("test.jpg")

    # 利用pytesseract进行图片内容识别

    text = pytesseract.image_to_string(im)

    # 去除识别结果中的非数字/字母内容

    text = re.sub("\W", "", text)

    # 返回验证码内容

    return text

def do_login():

    i = 0   # 识别错误次数

    # 获取验证码

    captcha = get_verification()

    # 基本检验，验证码位数必须为四位

    while len(captcha) != 4:

        captcha = get_verification()

        i = i + 1  # i+=1

        print("第%d次识别错误" % i)

    print("开始登录，验证码为："+captcha)

    # 传递的登录参数

    data = {

        "from": "http://so.gushiwen.org/user/collect.aspx",

        "email": "你的注册邮箱",

        "pwd": "你的登录密码",

        "code": captcha,

        "denglu": "登录"

    }

    # 登录地址

    url = "https://so.gushiwen.org/user/login.aspx"

    # 利用 session 发送post请求

    response = session.post(url, headers=headers, data=data)

    # 打印登录后的状态码

    print(response.status_code)

    # 保存登录后的页面内容，进一步确认是否登录成功

    with open("gsww.html", encoding="utf-8", mode="w") as f:

        f.write(response.content.decode())

# 开始程序

if __name__ == "__main__":

    do_login()

3. 运行结果

a.控制台显示一次验证成功，返回状态码为：200，访问正常。

b.进一步检查，对获取到的源码进行检查

我们在浏览器观察登录后的页面发现，只有登录后的页面才有账号管理模块。

其中有用户的唯一标识：绑定邮箱的后几位，我的是50471@qq.com。

所以在我们获取的源码里直接搜索50471@qq.com即可查明是否登录成功，我们发现可以查询到，即模拟登录成功了。

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

文章来源于简说Python

作者：老表

文字识别还能这样用？通过Python做文字识别到破解图片验证码的更多相关文章

Python开发【Django】：图片验证码、KindEditor
图片验证码生成图片验证码需要以下: session check_code.py(依赖:Pillow,字体文件) 模块安装 pip install Pillow src属性后面加? 在utils下拷贝 ...
使用python内置库pytesseract实现图片验证码的识别
环境准备: 1.安装Tesseract模块 git文档地址:https://digi.bib.uni-mannheim.de/tesseract/ 下载后就是一个exe安装包,直接右击安装即可,安装完 ...
使用Python进行OCR -- 识别图片中的文字
工具 Tesseract pytesseract tesserocr 朋友需要一个工具,将图片中的文字提取出来.我帮他在网上找了一些OCR的应用,都不好用.所以准备自己研究,写一个Web APP供他使 ...
字符型图片验证码识别完整过程及Python实现
字符型图片验证码识别完整过程及Python实现 1 摘要验证码是目前互联网上非常常见也是非常重要的一个事物,充当着很多系统的防火墙功能,但是随时OCR技术的发展,验证码暴露出来的安全问题也越 ...
字符识别Python实现图片验证码识别
字符型图片验证码识别完整过程及Python实现 1 摘要验证码是目前互联网上非常常见也是非常重要的一个事物,充当着很多系统的防火墙功能,但是随时OCR技术的发展,验证码暴露出来的安全问题也越 ...
KNN识别图像上的数字及python实现
领导让我每天手工录入BI系统中的数据并判断数据是否存在异常,若有异常点,则检测是系统问题还是业务问题.为了解放双手,我决定写个程序完成每天录入管理驾驶舱数据的任务.首先用按键精灵录了一套脚本把系统中的 ...
基于Python使用SVM识别简单的字符验证码的完整代码开源分享
关键字:Python,SVM,字符验证码,机器学习,验证码识别 1 概述基于Python使用SVM识别简单的验证字符串的完整代码开源分享. 因为目前有了更厉害的新技术来解决这类问题了,但是本文作 ...
Python实现文字聊天室
你是否想过用所学的Python开发一个图形界面的聊天室程序啊? 像这样的: 如果你想开发这样一个有点怀旧风格的聊天程序,那么可以接着看: 要开发这个聊天程序,你需要具备以下知识点: asyncore ...
使用OpenCV和Python进行人脸识别
介绍人脸识别是什么?或识别是什么?当你看到一个苹果时,你的大脑会立刻告诉你这是一个苹果.在这个过程中,你的大脑告诉你这是一个苹果水果,用简单的语言来说就是识别.那么什么是人脸识别呢?我肯定你猜对了. ...

随机推荐

双向绑定和 vuex 是否冲突
在严格模式下确实有问题,解决方案: https://vuex.vuejs.org/zh/guide/forms.html
java 面向对象（七）：类结构方法（四）递归方法
1.定义:递归方法:一个方法体内调用它自身.2.如何理解递归方法?> 方法递归包含了一种隐式的循环,它会重复执行某段代码,但这种重复执行无须循环控制.> 递归一定要向已知方向递归,否则这种 ...
Python模块03/re模块
Python模块03/re模块内容大纲 re模块(正则表达式) 1.re模块(正则表达式) import re s = "meet_宝元_meet" print(re.finda ...
day1：注释和变量
1.注释的作用:对代码的解释,方便以后阅读代码 2.常用的快捷键:ctrl+q:notepad++的注释ctrl+/:pycharm的注释ctrl+c:复制ctrl+v:粘贴ctrl+z:撤销ctrl ...
Redis之对象
1.对象的类型与编码 Redis使用对象来表示数据库中的键和值,每次我们在Redis的数据库中新创建一个键值对,我们至少会创建两个对象,一个键对象,另一个值对象. 每个对象都由一个redisObjec ...
Go Pentester - HTTP CLIENTS(4)
Interacting with Metasploit msf.go package rpc import ( "bytes" "fmt" "gopk ...
Web Scraping using Python Scrapy_BS4 - using BeautifulSoup and Python
Use BeautifulSoup and Python to scrap a website Lib: urllib Parsing HTML Data Web scraping script fr ...
ModuleNotFoundError: No module named 'phkit.pinyin'
1 产生背景在mac系统本地使用正常,在linux系统上phkit包缺少相应的python文件 2 解决方案自己想出来,手动上传本地相关python代码到linux服务器 3 解决过程首先通过项 ...
Oracle DataGuard主备切换(switchover)
Oracle DataGuard主备切换可以使用传统的手动命令切换,也可以使用dgmgr切换,本文记录手动切换. (一)将主库切换为物理备库 STEP1:查看主库状态 SQL> SELECT O ...
react实战 : react 与 svg
有一个需求是这样的. 一个组件里若干个区块.区块数量不定. 区块里面是一个波浪效果组件,而这个一般用 SVG 做. 所以就变成了在 react 中使用 SVG 的问题. 首先是波浪效果需要的样式. . ...

文字识别还能这样用？通过Python做文字识别到破解图片验证码

前期准备

涉及知识

小项目：破解图片验证码登陆

文字识别还能这样用？通过Python做文字识别到破解图片验证码的更多相关文章

随机推荐

热门专题