验证码处理之后就需要对处理的验证码进行识别训练,这里用Tesseract-ocr工具进行识别,用jTessBoxeditor进行训练生成模板。

一,对图片进行处理

利用上一篇代码对图片进行降噪处理,得到较为清晰地图片。

这里需要你在需要登入的网站中提取大量的验证码图片,在获取图片时,查看网站的登入框是否在iframe标签中,已经图片是否有需要点击输入框才会出现,若是如此,可以用selenium中driver来跳转iframe标签,用点击事件来显示验证码,然后再获取src属性进行下载。

二,生成tif文件

在获取一定数量验证码后(储存在images中),打开jTessBoxeditor,Tools>Merge TIFF

选择之前保存图片的文件,shift将文件全选,注意文件显示的格式

之后选择生成fift路径以及设置名称此处名称要设置为这样的格式[lang].[fontname].exp[num].tif

其中lang为语言名称,fontname为字体名称,num为序号,可以随便定义。

三,生成box文件

这样遍将多个jpg文件合成一个tif文件(可能显示的是一个验证码),然后我们需要利用tif文件来生成box文件。

再打开jTessBoxEditor(如果之前有其他好点的模板就选择其他的,这样自动识别的会多一点,省之后的人力)。

这一步之后就会在 tif 文件目录下生成一个box文件,在jTessBoxEditor中打开(如图 ↓ )

aaarticlea/png;base64," alt="" />

四,调整位置

如果模板较好的话会出现这样的文件(也许位置可能没有识别的这么准,那个就需要人工调节,记得保存,下面可以翻页)

也有可能是这样

如果是这样的话,你需要用文本方式打开box文件(六列分别对应,值,位置*4,页码值-1),我们需要创建的1~7页的那四行,随便找四行复制一下,然后改一下页码,没有框的几个验证码有了,然后再调整位置。(注意最后的一列为  页码数-1 )

在调整完所有验证码后,在tif文件目录下建立一个新建名为下xxx.font_properties的文本文件(xxx与自定义语言名称相同)内容为 font 0 0 0 0 0
之后再去txt后缀

五,训练

这样 tif,box,font_properties文件都有了,就可以生成模板了

训练完之后就在tif文件下生成了tessdata文件夹,里面便是训练完成模板mob.traineddata,将模板移动到Tesseract—ocr>tessdata目录下,这样便可以用Tesseract-ocr识别验证码

from PIL import Image
from pytesseract import *
from fnmatch import fnmatch
from queue import Queue
import matplotlib.pyplot as plt
import cv2
import time
import os def clear_border(img,img_name):
'''去除边框
''' h, w = img.shape[:2]
for y in range(0, w):
for x in range(0, h):
# if y ==0 or y == w -1 or y == w - 2:
if y < 4 or y > w -4:
img[x, y] = 255
# if x == 0 or x == h - 1 or x == h - 2:
if x < 4 or x > h - 4:
img[x, y] = 255 return img def interference_line(img, img_name):
'''
干扰线降噪
''' h, w = img.shape[:2]
# !!!opencv矩阵点是反的
# img[1,2] 1:图片的高度,2:图片的宽度
for r in range(0,2):
for y in range(1, w - 1):
for x in range(1, h - 1):
count = 0
if img[x, y - 1] > 245:
count = count + 1
if img[x, y + 1] > 245:
count = count + 1
if img[x - 1, y] > 245:
count = count + 1
if img[x + 1, y] > 245:
count = count + 1
if count > 2:
img[x, y] = 255 return img def interference_point(img,img_name, x = 0, y = 0):
"""点降噪
9邻域框,以当前点为中心的田字框,黑点个数
:param x:
:param y:
:return:
"""
# todo 判断图片的长宽度下限
cur_pixel = img[x,y]# 当前像素点的值
height,width = img.shape[:2] for y in range(0, width - 1):
for x in range(0, height - 1):
if y == 0: # 第一行
if x == 0: # 左上顶点,4邻域
# 中心点旁边3个点
sum = int(cur_pixel) \
+ int(img[x, y + 1]) \
+ int(img[x + 1, y]) \
+ int(img[x + 1, y + 1])
if sum <= 2 * 245:
img[x, y] = 0
elif x == height - 1: # 右上顶点
sum = int(cur_pixel) \
+ int(img[x, y + 1]) \
+ int(img[x - 1, y]) \
+ int(img[x - 1, y + 1])
if sum <= 2 * 245:
img[x, y] = 0
else: # 最上非顶点,6邻域
sum = int(img[x - 1, y]) \
+ int(img[x - 1, y + 1]) \
+ int(cur_pixel) \
+ int(img[x, y + 1]) \
+ int(img[x + 1, y]) \
+ int(img[x + 1, y + 1])
if sum <= 3 * 245:
img[x, y] = 0
elif y == width - 1: # 最下面一行
if x == 0: # 左下顶点
# 中心点旁边3个点
sum = int(cur_pixel) \
+ int(img[x + 1, y]) \
+ int(img[x + 1, y - 1]) \
+ int(img[x, y - 1])
if sum <= 2 * 245:
img[x, y] = 0
elif x == height - 1: # 右下顶点
sum = int(cur_pixel) \
+ int(img[x, y - 1]) \
+ int(img[x - 1, y]) \
+ int(img[x - 1, y - 1]) if sum <= 2 * 245:
img[x, y] = 0
else: # 最下非顶点,6邻域
sum = int(cur_pixel) \
+ int(img[x - 1, y]) \
+ int(img[x + 1, y]) \
+ int(img[x, y - 1]) \
+ int(img[x - 1, y - 1]) \
+ int(img[x + 1, y - 1])
if sum <= 3 * 245:
img[x, y] = 0
else: # y不在边界
if x == 0: # 左边非顶点
sum = int(img[x, y - 1]) \
+ int(cur_pixel) \
+ int(img[x, y + 1]) \
+ int(img[x + 1, y - 1]) \
+ int(img[x + 1, y]) \
+ int(img[x + 1, y + 1]) if sum <= 3 * 245:
img[x, y] = 0
elif x == height - 1: # 右边非顶点
sum = int(img[x, y - 1]) \
+ int(cur_pixel) \
+ int(img[x, y + 1]) \
+ int(img[x - 1, y - 1]) \
+ int(img[x - 1, y]) \
+ int(img[x - 1, y + 1]) if sum <= 3 * 245:
img[x, y] = 0
else: # 具备9领域条件的
sum = int(img[x - 1, y - 1]) \
+ int(img[x - 1, y]) \
+ int(img[x - 1, y + 1]) \
+ int(img[x, y - 1]) \
+ int(cur_pixel) \
+ int(img[x, y + 1]) \
+ int(img[x + 1, y - 1]) \
+ int(img[x + 1, y]) \
+ int(img[x + 1, y + 1])
if sum <= 4 * 245:
img[x, y] = 0 return img def _get_dynamic_binary_image(filedir,img_name):
'''
自适应阀值二值化
'''
filename = './easy_code/' + img_name.split('.')[0] + '-binary.jpg'
img_name = filedir + '/' + img_name
im = cv2.imread(img_name)
im = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY) th1 = cv2.adaptiveThreshold(im, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 21, 1) return th1 def recognize():
i = 0
filedir = './images' #验证码路jing
for file in os.listdir(filedir):
if fnmatch(file, '*.jpg'):
img_name = file
# 自适应阈值二值化
im = _get_dynamic_binary_image(filedir,img_name)
# 去除边框
im = clear_border(im,img_name)
# 对图片进行干扰线降噪
im = interference_line(im,img_name)
# 对图片进行点降噪
im = interference_point(im,img_name)
# easy_code为图片清理后保存路径
filename = './easy_code/' + img_name.split('.')[0] + '-interferencePoint.jpg'
cv2.imwrite(filename,im)
# 'mob'为模板
str_img = pytesseract.image_to_string(im, lang='mob')
code = str_img.encode("GBK","ignore").decode('GBK')
if code.replace(' ','') == img_name.split('.')[0]:
i = i + 1
print(code)
print('---' + str(i))
recognize()
from PIL import Image
from pytesseract import *
from fnmatch import fnmatch
from queue import Queue
import matplotlib.pyplot as plt
import cv2
import time
import os def clear_border(img,img_name):
'''去除边框
''' h, w = img.shape[:]
for y in range(, w):
for x in range(, h):
# if y == or y == w - or y == w - :
if y < or y > w -:
img[x, y] =
# if x == or x == h - or x == h - :
if x < or x > h - :
img[x, y] = return img def interference_line(img, img_name):
'''
干扰线降噪
''' h, w = img.shape[:]
# !!!opencv矩阵点是反的
# img[,] :图片的高度,:图片的宽度
for r in range(,):
for y in range(, w - ):
for x in range(, h - ):
count =
if img[x, y - ] > :
count = count +
if img[x, y + ] > :
count = count +
if img[x - , y] > :
count = count +
if img[x + , y] > :
count = count +
if count > :
img[x, y] = return img def interference_point(img,img_name, x = , y = ):
"""点降噪
9邻域框,以当前点为中心的田字框,黑点个数
:param x:
:param y:
:return:
"""
# todo 判断图片的长宽度下限
cur_pixel = img[x,y]# 当前像素点的值
height,width = img.shape[:] for y in range(, width - ):
for x in range(, height - ):
if y == : # 第一行
if x == : # 左上顶点,4邻域
# 中心点旁边3个点
sum = int(cur_pixel) \
+ int(img[x, y + ]) \
+ int(img[x + , y]) \
+ int(img[x + , y + ])
if sum <= * :
img[x, y] =
elif x == height - : # 右上顶点
sum = int(cur_pixel) \
+ int(img[x, y + ]) \
+ int(img[x - , y]) \
+ int(img[x - , y + ])
if sum <= * :
img[x, y] =
else: # 最上非顶点,6邻域
sum = int(img[x - , y]) \
+ int(img[x - , y + ]) \
+ int(cur_pixel) \
+ int(img[x, y + ]) \
+ int(img[x + , y]) \
+ int(img[x + , y + ])
if sum <= * :
img[x, y] =
elif y == width - : # 最下面一行
if x == : # 左下顶点
# 中心点旁边3个点
sum = int(cur_pixel) \
+ int(img[x + , y]) \
+ int(img[x + , y - ]) \
+ int(img[x, y - ])
if sum <= * :
img[x, y] =
elif x == height - : # 右下顶点
sum = int(cur_pixel) \
+ int(img[x, y - ]) \
+ int(img[x - , y]) \
+ int(img[x - , y - ]) if sum <= * :
img[x, y] =
else: # 最下非顶点,6邻域
sum = int(cur_pixel) \
+ int(img[x - , y]) \
+ int(img[x + , y]) \
+ int(img[x, y - ]) \
+ int(img[x - , y - ]) \
+ int(img[x + , y - ])
if sum <= * :
img[x, y] =
else: # y不在边界
if x == : # 左边非顶点
sum = int(img[x, y - ]) \
+ int(cur_pixel) \
+ int(img[x, y + ]) \
+ int(img[x + , y - ]) \
+ int(img[x + , y]) \
+ int(img[x + , y + ]) if sum <= * :
img[x, y] =
elif x == height - : # 右边非顶点
sum = int(img[x, y - ]) \
+ int(cur_pixel) \
+ int(img[x, y + ]) \
+ int(img[x - , y - ]) \
+ int(img[x - , y]) \
+ int(img[x - , y + ]) if sum <= * :
img[x, y] =
else: # 具备9领域条件的
sum = int(img[x - , y - ]) \
+ int(img[x - , y]) \
+ int(img[x - , y + ]) \
+ int(img[x, y - ]) \
+ int(cur_pixel) \
+ int(img[x, y + ]) \
+ int(img[x + , y - ]) \
+ int(img[x + , y]) \
+ int(img[x + , y + ])
if sum <= * :
img[x, y] = return img def _get_dynamic_binary_image(filedir,img_name):
'''
自适应阀值二值化
'''
filename = './easy_code/' + img_name.split('.')[] + '-binary.jpg'
img_name = filedir + '/' + img_name
im = cv2.imread(img_name)
im = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY) th1 = cv2.adaptiveThreshold(im, , cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, , ) return th1 def recognize():
i =
filedir = './images' #验证码路jing
for file in os.listdir(filedir):
if fnmatch(file, '*.jpg'):
img_name = file
# 自适应阈值二值化
im = _get_dynamic_binary_image(filedir,img_name)
# 去除边框
im = clear_border(im,img_name)
# 对图片进行干扰线降噪
im = interference_line(im,img_name)
# 对图片进行点降噪
im = interference_point(im,img_name)
# easy_code为图片清理后保存路径
filename = './easy_code/' + img_name.split('.')[] + '-interferencePoint.jpg'
cv2.imwrite(filename,im)
# 'mob'为模板
str_img = pytesseract.image_to_string(im, lang='mob')
code = str_img.encode("GBK","ignore").decode('GBK')
if code.replace('

查阅过的博客:

  《Python Tesseract识别验证码》:https://blog.csdn.net/u011457798/article/details/84063963

  《使用Tesseract破解验证码并训练字库的方法》:https://blog.csdn.net/makesibushuohua/article/details/52058310

Python爬虫笔记【一】模拟用户访问之Tesseract-ocr验证码训练(5)的更多相关文章

  1. python爬虫笔记之用cookie访问需要登录的网站

     目标:用cookie访问一个需要登录的网站 如图,直接访问会跳转到登录页面,提示登录. 运行结果: 直接在浏览器上输入该url,网站立马跳转到登录页面.  方法: 1.先手动登录,通过抓包获取coo ...

  2. Python爬虫笔记【一】模拟用户访问之设置请求头 (1)

    学习的课本为<python网络数据采集>,大部分代码来此此书. 网络爬虫爬取数据首先就是要有爬取的权限,没有爬取的权限再好的代码也不能运行.所以首先要伪装自己的爬虫,让爬虫不像爬虫而是像人 ...

  3. python爬虫笔记Day01

    python爬虫笔记第一天 Requests库的安装 先在cmd中pip install requests 再打开Python IDM写入import requests 完成requests在.py文 ...

  4. [Python爬虫笔记][随意找个博客入门(一)]

    [Python爬虫笔记][随意找个博客入门(一)] 标签(空格分隔): Python 爬虫 2016年暑假 来源博客:挣脱不足与蒙昧 1.简单的爬取特定url的html代码 import urllib ...

  5. Python爬虫笔记一(来自MOOC) Requests库入门

    Python爬虫笔记一(来自MOOC) 提示:本文是我在中国大学MOOC里面自学以及敲的一部分代码,纯一个记录文,如果刚好有人也是看的这个课,方便搬运在自己电脑上运行. 课程为:北京理工大学-嵩天-P ...

  6. Python之路,Day22 - 网站用户访问质量分析监测分析项目开发

    Python之路,Day22 - 网站用户访问质量分析监测分析项目开发   做此项目前请先阅读 http://3060674.blog.51cto.com/3050674/1439129  项目实战之 ...

  7. Django商城项目笔记No.4用户部分-注册接口-图片验证码

    Django商城项目笔记No.4用户部分-注册接口-图片验证码 1.首先分析注册业务接口 1.1.分析可得,至少这么几个接口 图片验证码 短信验证码 用户名是否存在 手机号是否存在 整体注册接口 图片 ...

  8. python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)

    操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...

  9. Python爬虫笔记(一):爬虫基本入门

    最近在做一个项目,这个项目需要使用网络爬虫从特定网站上爬取数据,于是乎,我打算写一个爬虫系列的文章,与大家分享如何编写一个爬虫.这是这个项目的第一篇文章,这次就简单介绍一下Python爬虫,后面根据项 ...

随机推荐

  1. shell常用命令及正则辅助日志分析统计

    https://www.cnblogs.com/wj033/p/3451618.html 正则日志分析统计 3 grep 'onerror'  v3-0621.log | egrep  -v '(\d ...

  2. 无法启动此程序,因此计算机中丢失VCRUNTIME140.dll。

    在mysql-8.0.12-winx64创建data文件夹 在cmd终端 初始化 MYSQL: mysqld --initialize-insecure MySQL加入Windows服务:mysqld ...

  3. springboot启动器:spring-boot-starter

    今天想要导入thymeleaf的依赖,但是又不想从其他博复制粘贴,于是去spring官方文档找一找 在idea新建的springbootweb项目中,有一个HELP.md文件,里面包含spring w ...

  4. Django高级实战 开发企业级问答网站✍✍✍

    Django高级实战 开发企业级问答网站 1. 创建项目与app 创建项目 django-admin startproject firstsite 创建app python manage.py sta ...

  5. 【牛客Wannafly挑战赛12】小H和圣诞树

    题目 可以考虑边分治,对于某一种颜色,我们处理出分治边左右两边所有以这个颜色为端点的路径长度,之后随便拼一拼就好了 但是这样对于每一组询问都需要边分一遍,这样做复杂度是\(O(nm+n\log n)\ ...

  6. Spring AspectJ 切入点语法详解(7)

    1.Spring AOP支持的AspectJ切入点指示符 切入点指示符用来指示切入点表达式目的,,在Spring AOP中目前只有执行方法这一个连接点,Spring AOP支持的AspectJ切入点指 ...

  7. Nginx 教程 1:基本概念

    简介 我们会告诉你 Nginx 是如何工作的,其背后的概念有哪些,以及如何优化它以提升应用程序的性能.还会告诉你如何安装,如何启动.运行. 这个教程包括三节: 基础概念——你可以了解命令(direct ...

  8. iOS逆向系列-Cycript

    概述 Cycript 是Objective-C++.ES(JavaScript).Java等语法的混合物. 可以用来探索.修改.调试正在运行的Mac\iOS App. 通过Cydia安装Cycript ...

  9. 在js中使用Razor

    @foreach (var tem in Model) { <text> time.push("@tem.CreateTime.ToString("G")&q ...

  10. Android开发 ShapeDrawable详解

    前言 ShapeDrawable一开始我以为它是对应xml文件属性里的shape的画图,后来发现我错了... 其实ShapeDrawable更像是一共自由度更大跟偏向与实现draw()方法的一共图像绘 ...