太嚣张了！他竟用Python绕过了“验证码”

在web页面中，经常会遇到验证码，这对于我这么一个热爱web自动化测试人员，就变成了一件头疼的事。于是千方百计找各种资源得到破解简单的验证码方法。

识别验证码

　　大致分如下几个步骤：

　　　　1.获取验证码图片

　　　　2.灰度处理

　　　　3.增加对比度

　　　　4.降噪

　　　　5.识别

>>>>获取验证码

　　通过各种方法，将含有验证码的图片获取并存贮在本地。

　　本次的方法是：截取当前web页面，然后获取验证码在web页面中的位置，通过位置定位验证码图片再次截取。

　　以163邮箱注册页面为例

　　用到的库：selenium、PIL

　　如果是python2.x，pip install PIL；在python3.x中PIL被移植到pillow 中，所以导入时需要导入pillow，pip install pillow　　

 from PIL import Image

 import time

 from selenium import webdriver

 def get_code_img(driver):

    time.sleep(1)

    # 截取整个浏览器图

    driver.save_screenshot('webImg.png')

    # 获取code元素坐标

    code_element = driver.find_element_by_id('vcodeImg')

    # 获取code图片坐标值

    left_location = code_element.location['x']

    top_location = code_element.location['y']

    right_location = code_element.size['width'] + left_location

    below_location = code_element.size['height'] + top_location

    # 通过坐标值得到code image图

    web_img = Image.open("webImg.png")

    code_img = web_img.crop((left_location,top_location,right_location,below_location))

    code_img.save("codeImg.png")

　　save_screenshot：webdriver中提供的一个方法，截取整个web页面

　　code_element.location：获取某个的位置

　　例如：print(code_element.location)的结果为：{'x': 632, 'y': 511}

　　他是以图片的左上角为基准点，向右为x，向下为y

　　code_element.size：获取图片的尺寸

　　crop：是通过四个坐标点获取位置截图并且生成一张新图，他是Image 中的一个方法。

运行代码

 if __name__ == '__main__':

    base_url = 'http://reg.email.163.com/unireg/call.do?cmd=register.entrance&from=126mail'

    driver = webdriver.Chrome()

    driver.maximize_window()

    driver.get(base_url)

    get_code_img(driver)

    driver.close()

运行后获得两张图片webImg.png和codeImg.png。codeImg如下：

>>>>灰度处理/增加对比色

　　将图片的颜色变成灰色并且增加对比色，识别时减少不必要的干扰。

 def gray_img(img):

    code_img = Image.open(img)

    # 转换为灰度

    gray_img = code_img.convert('L')

    # 增强亮度

    enhance_img = ImageEnhance.Contrast(gray_img)

    enhance_img = enhance_img.enhance(3)

    return enhance_img

 if __name__ == '__main__':

      gray_img('codeImg.png').show()

　　运行后结果

>>>>降噪

　　根据一个点A的RGB值，与周围的4个点的RGB值进行比较，最初设定一个值N即判断数量（0<N<4），当A的RGB值与周围4个点的RGB相等数小于N时会被视为燥点，被消除。

 def clear_noise(img):

 noise_img = img.load()

 # 获取图片的尺寸

 w,h = img.size

 for y in range(1,h-1):

  for x in range(1,w-1):

   count = 0

   if noise_img[x,y-1] > 245:

    count = count + 1

   if noise_img[x,y+1] > 245:

    count = count + 1

   if noise_img[x-1,y] > 245:

    count = count + 1

   if noise_img[x+1,y] > 245:

    count = count + 1

   if noise_img[x-1,y-1] > 245:

    count = count + 1

   if noise_img[x-1,y+1] > 245:

    count = count + 1

   if noise_img[x+1,y-1] > 245:

    count = count + 1

   if noise_img[x+1,y+1] > 245:

    count = count + 1

   if count > 4:

       noise_img[x,y] = 255

 return img

 if __name__ == '__main__':

    img = gray_img('codeImg.png')

    clear_noise(img).show()

运行后结果

>>>>识别

　　识别使用的是pytesseract包。

　　Pytesseract包依赖于tesseract，安装的时候两个都需安装

　　详情参考：

　　　　tesseract： https://github.com/sirfz/tesserocr

　　　　pytesseract：https://github.com/madmaze/pytesseract

 text = pytesseract.image_to_string(img)

 print(text)

　　很遗憾，上面的图没有识别出来。

完整代码运行识别

以下图验证码为例

 from PIL import Image, ImageEnhance

 import time

 import pytesseract

 from selenium import webdriver

 def clear_noise(img):

 noise_img = img.load()

 # 获取图片的尺寸

 w,h = img.size

 for y in range(1,h-1):

  for x in range(1,w-1):

   count = 0

   if noise_img[x,y-1] > 245:

    count = count + 1

   if noise_img[x,y+1] > 245:

    count = count + 1

   if noise_img[x-1,y] > 245:

    count = count + 1

   if noise_img[x+1,y] > 245:

    count = count + 1

   if noise_img[x-1,y-1] > 245:

    count = count + 1

   if noise_img[x-1,y+1] > 245:

    count = count + 1

   if noise_img[x+1,y-1] > 245:

    count = count + 1

   if noise_img[x+1,y+1] > 245:

    count = count + 1

   if count > 4:

       noise_img[x,y] = 255

 return img

 def get_code_img(driver):

    time.sleep(1)

    # 截取整个浏览器图

    driver.save_screenshot('webImg.png')

    # 获取code元素坐标

    code_element = driver.find_element_by_id('vcodeImg')

    # 获取code图片坐标值

    left_location = code_element.location['x']

    top_location = code_element.location['y']

    right_location = code_element.size['width'] + left_location

    below_location = code_element.size['height'] + top_location

    # 通过坐标值得到code image图

    web_img = Image.open("webImg.png")

    code_img = web_img.crop((left_location,top_location,right_location,below_location))

    code_img.save("codeImg.png")

 def gray_img(img):

    code_img = Image.open(img)

    # 转换为灰度

    gray_img = code_img.convert('L')

    # 增强亮度

    enhance_img = ImageEnhance.Contrast(gray_img)

    enhance_img = enhance_img.enhance(3)

    return enhance_img

 if __name__ == '__main__':

    # base_url = 'http://reg.email.163.com/unireg/call.do?cmd=register.entrance&from=126mail'

    #

    # driver = webdriver.Chrome()

    # driver.maximize_window()

    # driver.get(base_url)

    # get_code_img(driver)

    # driver.close()

    img = gray_img('d.png')

    img = clear_noise(img)

    img.show()

    text = pytesseract.image_to_string(img)

    print(text)

　　运行结果

　　虽然还是失败的。但至少已经接近了...

　　此次只是对验证码的识别做简单的尝试。虽然此方法识别率不是很高。当然网上有很多收费的识别平台，通过大量联系识别率是很高的，有兴趣的可以去了解下。

　　在认识验证码后我又来兴趣了，想去探个究竟验证码是怎样生成的...下次分享（皮一下）

python之验证码的生成

　　在识别验证码的玩虐后，决定去看看他是怎么生成的。

大致步骤：

1.创建图片

2.对背景像素处理

3.写入识别码

4.增加干扰线

5.滤镜处理

用到的库

 import random

 from PIL import Image, ImageFont, ImageDraw,ImageFilter

　　在开始之前，了解下Image下图片的基本属性

　　print（Image.open('img.jpeg')）

　　结果：<PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=500x291 at 0x103BA3FD0>

　　　　打印的是：图片格式、mode：彩色值、size：尺寸

　　也可以直接获取该图片的相关属性

　　img = Image.open('img.jpeg')

　　print(img.size, img.format, img.mode)

　　　　结果： (500, 291) JPEG RGB

现在开始生成验证码

>>>>创建图片

 from PIL import Image

 width = 240

 height = 60

 # 图像生成

 image = Image.new('RGB', (width,height), color='red')

 image.show()

　　new（）是创建一个图片，第一个参数为图片mode也就是色彩值；

　　第二个参数为图片的大小；

　　第三个参数是图片颜色。

　　show（）方法是展示图片

　　运行后结果

>>>>对背景像素处理

 # 填充每个像素点

 for i in range(width):

    for j in range(height

 ):

        draw.point((i,j), fill=random_bgcolor())

　　random_bgcolor（）：也是自定义的方法，随机产生颜色。

def random_bgcolor():
   return (random.randint(60,200), random.randint(60,200),random.randint(60,200))

　　返回一个RGB色彩值，其中的颜色取值根据需要设置吧。

打印结果

>>>>写入识别码

 draw = ImageDraw.Draw(image)

 # 写入信息

 for i in range(4):

    draw.text((60*i+10, 10), get_random(1,4), font=font, fill=random_color())

　　ImageDraw.Draw(image)是在图片image上创建一个画笔

　　For循环：循环产生4个数字或字母

　　draw.text()方法是写入的内容，

　　　　第一个参数是坐标，坐标自己通过图片尺寸稍为计算下，合理布局；

　　　　第二个参数是写入的内容值，这里传入的是让系统随机产生一个数，方法可以自己定义；

　　　　第三个font为字体，设置的字体必须存在

　　　　第四个是对写入的内容附上颜色，这里传入的是让系统随机产生一个颜色，方法可以自己定义；

第二个参数的方法如下：

 def get_random(num,many):

        for i in range(many):

            s = ""

            for j in range(num):

                n = random.randint(1,2) # n==1生成数字，n=2生成字母

                if n == 1:

                    num1 = random.randint(0, 9)

                    s +=str(num1)

                else:

                    s +=str(random.choice(string.ascii_letters))

    return s

第三个参数字体：

font = ImageFont.truetype('Arial.ttf',36)

第四个参数的方法如下：

　　直接返回RGB颜色值

 def random_color():

    return (random.randint(64,255), random.randint(64,255), random.randint(64,255))

　　运行上面代码结果：

>>>>增加干扰线

　　在生成的验证码图片上添加一条干扰线

 for i in range(2):

    x1 = random.randint(0, width)

    y1 = random.randint(0, height)

    x2 = random.randint(0, width)

    y2 = random.randint(0, height)

    draw.line((x1, y1, x2, y2), fill=random_bgcolor(),width=3)

　　draw.line（）是画线方法

　　第一个参数：线条坐标，即位置。如上是在图片范围内位置随机

　　第二个参数：线条的颜色，还是让随机产生

　　第三个参数：线条的宽度，不设置的话默认为0

　　运行结果

>>>>滤镜处理

　　增加滤镜，可以增加颜色的不同

　　很简单，一行代码搞定

 image = image.filter(ImageFilter.BLUR)

结果如下：

　　非常抱歉，我设置产生的随机色颜色值没有调对，导致背景色和字体色颜色太接近，效果看起来不是很好。

　　但是滤镜不是必须项，可以不设置。

完整代码如下

 import string

 import random

 from PIL import Image, ImageFont, ImageDraw,ImageFilter

 # 生成随机大小数字

 def get_random(num,many):

        for i in range(many):

            s = ""

            for j in range(num):

                n = random.randint(1,2) # n==1生成数字，n=2生成字母

                if n == 1:

                    num1 = random.randint(0, 9)

                    s +=str(num1)

                else:

                    s +=str(random.choice(string.ascii_letters))

            return s

 # 随机颜色RGB

 def random_color():

    return (random.randint(64,255), random.randint(64,255), random.randint(64,255))

 # 随机颜色RGB

 def random_bgcolor():

    return (random.randint(60,200), random.randint(60,200), random.randint(60,200))

 # 字体，字体大小

 font = ImageFont.truetype('Arial.ttf',36)

 # 图片尺寸

 width = 240

 height = 60

 # 图像生成

 image = Image.new('RGB', (width,height), color='red')

 # 创建绘图对象

 draw = ImageDraw.Draw(image)

 # 填充背景色

 for i in range(width):

    for j in range(height):

        draw.point((i,j), fill=random_bgcolor())

 # 写入信息

 for i in range(4):

     draw.text((60*i+10, 10), get_random(1,4), font=font, fill=random_color())

 # 插入干扰线

 for i in range(2):

    x1 = random.randint(0, width)

    y1 = random.randint(0, height)

    x2 = random.randint(0, width)

    y2 = random.randint(0, height)

    draw.line((x1, y1, x2, y2), fill=random_bgcolor(),width=3)

 # 添加滤镜

 image = image.filter(ImageFilter.BLUR)

 # 展示图片

 image.show()

 # 保存

 image.save('code.png')

原文发布在自动化软件测试微信公众号，欢迎关注

原文地址：https://mp.weixin.qq.com/s/x3QT8njMX2wKPXKxqDPRyg

太嚣张了！他竟用Python绕过了“验证码”的更多相关文章

pyinstaller打包的exe太大？你需要嵌入式python玄学探索篇
上篇我们讲到pip的安装以及普通库用pip的安装方法 CodingDog:pyinstaller打包的exe太大?你需要嵌入式python玄学拓展篇zhuanlan.zhihu.com 问题纷沓而 ...
pyinstaller打包的exe太大？你需要嵌入式python玄学拓展篇
上篇我们讲到embedded版本的基础操作 CodingDog:pyinstaller打包的exe太大?你需要嵌入式python玄学惊喜篇zhuanlan.zhihu.com 可是却没有办法用pi ...
pyinstaller打包的exe太大？你需要嵌入式python玄学惊喜篇
上篇讲到 pyinstaller打包exe太大的问题 CodingDog:pyinstaller打包的exe太大?你需要嵌入式python玄学前提篇zhuanlan.zhihu.com 那既然py ...
Python随机生成验证码的两种方法
Python随机生成验证码的方法有很多,今天给大家列举两种,大家也可以在这个基础上进行改造,设计出适合自己的验证码方法方法一:利用range Python随机生成验证码的方法有很多,今天给大家列举两种 ...
Python识别网站验证码
http://drops.wooyun.org/tips/6313 Python识别网站验证码 Manning · 2015/05/28 10:57 0x00 识别涉及技术验证码识别涉及很多方面的内 ...
python随机图片验证码的生成
Python生成随机验证码,需要使用PIL模块. 安装: 1 pip3 install pillow 基本使用 1. 创建图片 1 2 3 4 5 6 7 8 9 from PIL import Im ...
Python 生成随机验证码
Python生成随机验证码 Python生成随机验证码,需要使用PIL模块. 安装: 1 pip3 install pillow 基本使用 1. 创建图片 1 2 3 4 5 6 7 8 9 fro ...
Python生成随机验证码
Python生成随机验证码,需要使用PIL模块. 安装: pip3 install pillow 基本使用 1.创建图片 from PIL import Image img = Image.new(m ...
python 简单图像识别--验证码
python 简单图像识别--验证码记录下,准备工作安装过程很是麻烦. 首先库:pytesseract,image,tesseract,PIL windows安装PIL,直接exe进行安装更方便( ...

随机推荐

HTML/CSS初步了解
一.CSS是什么? 它是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言.CSS为HTML标记语言提供了一种样式描述,定义了其中元素的显示 ...
前端基础之--css中可被继承和不可被继承的属性
一.无继承性的属性 1.display:规定元素应该生成的框的类型 2.文本属性:vertical-align:垂直文本对齐 text-decoration:规定添加到文本的装饰 text-shado ...
工程实践：给函数取一个"好"的名字
工程实践:给函数取一个"好"的名字早在2013年,国外有个程序员做了一个有意思的投票统计(原始链接请见:<程序员:你认为最难做的事情是什么?>),该投票是让程序员从以 ...
【原】无脑操作：IDEA + maven + Shiro + SpringBoot + JPA + Thymeleaf实现基础认证权限
开发环境搭建参见<[原]无脑操作:IDEA + maven + SpringBoot + JPA + Thymeleaf实现CRUD及分页> 需求: ① 除了登录页面,在地址栏直接访问其他 ...
CDI服务
前言 CDI(Contexts and Dependency Injection 上下文依赖注入),是JAVA官方提供的依赖注入实现,可用于Dynamic Web Module中,将依赖注入IOC/D ...
一文让你明白Redis主从同步
今天想和大家分享有关 Redis 主从同步(也称「复制」)的内容. 我们知道,当有多台 Redis 服务器时,肯定就有一台主服务器和多台从服务器.一般来说,主服务器进行写操作,从服务器进行读操作. 那 ...
springboot项目上传文件出现临时文件目录为空
最近写文件上传到服务器读取的代码,前端使用FormData上传,服务端用MultipartFile接收,自己测试了下MultipartFile对象有什么东西,结果一般属性都能出来,测试getInput ...
编辑器开发之 Selection 对象的学习
上一篇,介绍了 range 对象的一些属性和方法,了解了一些基本操作,现在来介绍另外一个重要的对象:selection 对象: MDN 的解释是:Selection 对象表示用户选择的文本范围或插入符 ...
python接口自动化（五）--接口测试用例和接口测试报告模板（详解）
简介当今社会在测试领域,接口测试已经越来越多的被提及,被重视,而且现在好多招聘信息要对接口测试提出要求.区别于传统意义上的系统级别测试,很多测试人员在接触到接口测试的时候,也许对测试执行还可以比较顺 ...
javaScript设计模式之面向对象编程（object-oriented programming，OOP）(一)
面试的时候,总会被问到,你对javascript面向对象的理解? 面向对象编程(object-oriented programming,OOP)是一种程序设计范型.它讲对象作为程序的设计基本单元,讲程 ...

太嚣张了！他竟用Python绕过了“验证码”

python之验证码的生成

太嚣张了！他竟用Python绕过了“验证码”的更多相关文章

随机推荐

热门专题