前言

  • 最近在研究验证码相关的操作,所以准备记录下安装以及使用的过程。虽然之前对验证码的破解有所了解的,但是之前都是简单使用之后就不用了,没有记录一个详细的过程,所以后面再用起来也要重新从网上查找资料比较麻烦,所以这里准备对研究过程的关键点做一个记录。

首先这篇文章,主要是研究图形验证码,后期会不定时拓展内容。

在网上查了很多版本的图形验证码识别,目前看到最多的两个模块是pytesseract和tesserocr,但是因为我这里安装tesserocr的时候各种出错,所以最终我锁定了使用pytesseract。

那么接下来,就记录下安装以及使用过程。这里的系统环境是mac os 10.14.

安装tesserocr

  1. brew install tesserocr

因为pytesseract依赖于tesserocr所以首先需要先安装tesserocr这个软件。接下来就是安装python相关的包

安装python所需要的包

  1. pip3 install pytesseract
  2. pip3 install pillow

安装pytesseract是ocr识别图片上的字,因为验证码的识别难度高低不同,所以在这个过程中需要对图片做一定的处理,这就需要使用处理图片的模块pillow。

一个简单的demo

  1. import pytesseract
  2. from PIL import Image
  3. import os
  4. def binarizing(img, threshold):
  5. """传入image对象进行灰度、二值处理"""
  6. pixdata = img.load()
  7. w, h = img.size
  8. # 遍历所有像素,大于阈值的为黑色
  9. for y in range(h):
  10. for x in range(w):
  11. if pixdata[x, y] < threshold:
  12. pixdata[x, y] = 0
  13. else:
  14. pixdata[x, y] = 255
  15. return img
  16. _temp = os.path.dirname(__file__)
  17. file_path = os.path.join(_temp, 'code2.jpg')
  18. print("file_path", file_path)
  19. image = Image.open(file_path)
  20. image = image.convert('L')
  21. threshold = 157
  22. table = []
  23. # 接下来是二值化处理
  24. # 遍历所有像素,大于阈值的为黑色,threshold是阀值
  25. image = binarizing(image, threshold)
  26. result = pytesseract.image_to_string(image)
  27. print(result)

示例中的图片

需要用到的图像知识:

对于彩色图像,不管其图像格式是PNG,还是BMP,或者JPG,在PIL中,使用Image模块的open()函数打开后,返回的图像对象的模式都是“RGB”。而对于灰度图像,不管其图像格式是PNG,还是BMP,或者JPG,打开后,其模式为“L”也就是我们说的灰度化的一个操作。除此之外,还有其他的模式,不过我们在处理验证码的时候是将其转为灰度模式,所以就不强调其他的模式了。

模式“L”

模式“L”为灰色图像,它的每个像素用8个bit表示,0表示黑,255表示白,其他数字表示不同的灰度。在PIL中,从模式“RGB”转换为“L”模式是按照下面的公式转换的:

  1. L = R * 299/1000 + G * 587/1000+ B * 114/1000

通过灰度化之后的图片变为



灰度化我们还要对其进行二值化操作

二值化操作

二值化故名思议,就是整个图像所有像素只有两个值可以选择,一个是黑(灰度为0),一个是白(灰度为255)。二值化的好处就是将图片上的有用信息和无用信息区分开来,比如二值化之后的验证码图片,验证码像素为黑色,背景和干扰点为白色,这样后面对验证码像素处理的时候就会很方便。对于简单的图形验证码,到这里基本上就够了,但是如果有干扰线,还要进行除干扰线的操作。

对应的代码为

  1. def binarizing(img, threshold):
  2. """传入image对象进行灰度、二值处理"""
  3. pixdata = img.load()
  4. w, h = img.size
  5. # 遍历所有像素,大于阈值的为黑色
  6. for y in range(h):
  7. for x in range(w):
  8. if pixdata[x, y] < threshold:
  9. pixdata[x, y] = 0 #小于阀值设为0,0是黑色
  10. else:
  11. pixdata[x, y] = 255 0 #大于阀值设为255,255是白色
  12. return img

此时的图片效果为



可以看到图片变得锐化了很多,这个时候再去识别就比较好识别了。

去干扰线

常见的4邻域、8邻域算法。所谓的X邻域算法,可以参考手机九宫格输入法,按键5为要判断的像素点,4邻域就是判断上下左右,8邻域就是判断周围8个像素点。如果这4或8个点中255的个数大于某个阈值则判断这个点为噪音,阈值可以根据实际情况修改。

使用cv2处理

除此之外还可以使用cv2模块进行处理。

安装

  1. pip install opencv-python

代码示例

  1. # -*- coding: utf-8 -*-
  2. # @时间 : 2020-01-08 18:01
  3. # @作者 : 陈祥安
  4. # @文件名 : cv2_demo.py
  5. # @公众号: Python学习开发
  6. import cv2
  7. import numpy as np
  8. import os
  9. _temp = os.path.dirname(__file__)
  10. file_path = os.path.join(_temp, 'code2.jpg')
  11. def remove_noise(img, k=4):
  12. ###8领域过滤
  13. img2 = img.copy()
  14. # img处理数据,k过滤条件
  15. w, h = img2.shape
  16. def get_neighbors(img3, r, c):
  17. count = 0
  18. for i in [r - 1, r, r + 1]:
  19. for j in [c - 1, c, c + 1]:
  20. if img3[i, j] > 10: # 纯白色
  21. count += 1
  22. return count
  23. # 两层for循环判断所有的点
  24. for x in range(w):
  25. for y in range(h):
  26. if x == 0 or y == 0 or x == w - 1 or y == h - 1:
  27. img2[x, y] = 255
  28. else:
  29. n = get_neighbors(img2, x, y) # 获取邻居数量,纯白色的邻居
  30. if n > k:
  31. img2[x, y] = 255
  32. return img2
  33. img = cv2.imread(file_path)
  34. # 将图片灰度化处理,降维,加权进行灰度化c
  35. gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
  36. t, gray2 = cv2.threshold(gray, 200, 255, cv2.THRESH_BINARY)
  37. cv2.imshow('threshold', gray2)
  38. result = remove_noise(gray2)
  39. cv2.imshow('8neighbors', result)
  40. cv2.waitKey(0)
  41. #cv2.destroyAllWindows()

参考资料

https://www.jb51.net/article/141428.htm

https://blog.csdn.net/icamera0/article/details/50843172

https://www.jb51.net/article/174093.htm

mac使用python识别图形验证码的更多相关文章

  1. Python识别网站验证码

    http://drops.wooyun.org/tips/6313 Python识别网站验证码 Manning · 2015/05/28 10:57 0x00 识别涉及技术 验证码识别涉及很多方面的内 ...

  2. python爬虫20 | 小帅b教你如何使用python识别图片验证码

    当你在爬取某些网站的时候 对于你的一些频繁请求 对方会阻碍你 常见的方式就是使用验证码 验证码的主要功能 就是区分你是人还是鬼(机器人) 人 想法设法的搞一些手段来对付技术 而 技术又能对付人们的想法 ...

  3. python 识别图片验证码报IOError

    说一下困扰了我一周的问题:识别图片验证码 本来我按照安装步骤(http://www.cnblogs.com/yeayee/p/4955506.html?utm_source=tuicool&u ...

  4. python 生成图形验证码

    文章链接:https://mp.weixin.qq.com/s/LYUBRNallHcjnhJb1R3ZBg 日常在网站使用过程中经常遇到图形验证,今天准备自己做个图形验证码,这算是个简单的功能,也适 ...

  5. 利用pytesser识别图形验证码

    简单识别 1.一般思路 验证码识别的一般思路为: 图片降噪 图片切割 图像文本输出 1.1 图片降噪 所谓降噪就是把不需要的信息通通去除,比如背景,干扰线,干扰像素等等,只剩下需要识别的文字,让图片变 ...

  6. 利用python生成图形验证码

    validCode.py import random from io import BytesIO from PIL import Image, ImageDraw, ImageFont def ge ...

  7. Python 代码实现验证码识别

    Python 代码实现验证码识别 测试开发社区  1周前 源 /  j_hao104 一.探讨 识别图形验证码可以说是做爬虫的必修课,涉及到计算机图形学,机器学习,机器视觉,人工智能等等高深领域…… ...

  8. Python脚本破解图形验证码(tesserocr和pytesseract)

    在学习之前,我们先了解OCR.tesseract.tesserocr.pytesseract和opencv这几个跟图片处理有关的库. OCR(Optical Character Recognition ...

  9. 爬虫(十二):图形验证码的识别、滑动验证码的识别(B站滑动验证码)

    1. 验证码识别 随着爬虫的发展,越来越多的网站开始采用各种各样的措施来反爬虫,其中一个措施便是使用验证码.随着技术的发展,验证码也越来越花里胡哨的了.最开始就是几个数字随机组成的图像验证码,后来加入 ...

随机推荐

  1. P3899 [湖南集训]谈笑风生 主席树

    #include<iostream> #include<string.h> #include<algorithm> #include<stdio.h> ...

  2. Java 简单校验框架

    数据校验框架现状 在我们的方法入口后面,难免会有如下样子的代码: result.setSuccess(false); if (StringUtils.isBlank(bizOrder.getThird ...

  3. python命令之m参数

    在命令行中使用python时,python支持在其后面添加可选参数. python命令的可选参数有很多,例如:使用可选参数h可以查询python的帮助信息: 可选参数m 下面我们来说说python命令 ...

  4. excel中如何筛选功能的使用

    excel中如何筛选功能的使用 excel是一款数据处理工具,可以在众多的数据中找到想要的经过处理之后的数据,而最直接方便的功能就是筛选.请阅读下文,了解如何对数据进行筛选. 如下图所示的学生成绩中, ...

  5. HTTP协议---三次握手

    HTTP协议 关于协议 ​ 对于应用层开发人员,接触最多的网络协议通常都是传输层的TCP,为什么这么说,因为再往上的应用层协议,如:HTTP.HTTPS.POP3.SMTP.RPC.FTP.TELNE ...

  6. H3C ACL包过滤配置任务

  7. python进阶之面向对象初识

    面向对象 不同于面向过程的编程思想,面向对象是一种将程序抽象为一个个对象的编程思想,能更好的处理现实世界到的一些复杂问题. 通过下面的例子来初步了解面向对象的编程方式. class Person: # ...

  8. H3C 环路避免机制六:触发更新

  9. AMD-require.js模块加载原理

    项目中使用大了require.js,功能实现,现重新学习下模块加载原理相关知识,借鉴如下博文:https://blog.csdn.net/ai52011/article/details/7711361 ...

  10. 为什么阿里代码规约要求避免使用 Apache BeanUtils 进行属性复制

    缘起 有一次开发过程中,刚好看到小伙伴在调用 set 方法,将数据库中查询出来的 Po 对象的属性拷贝到 Vo 对象中,类似这样: 可以看出,Po 和 Vo 两个类的字段绝大部分是一样的,我们一个个地 ...