python 验证码处理

一、

灰度处理，就是把彩色的验证码图片转为灰色的图片。

二值化，是将图片处理为只有黑白两色的图片，利于后面的图像处理和识别

   # 自适应阀值二值化

   def _get_dynamic_binary_image(filedir, img_name):

       filename =   './out_img/' + img_name.split('.')[0] + '-binary.jpg'

       img_name = filedir + '/' + img_name

       print('.....' + img_name)

       im =dz.imread(img_name)

       im = dz.cvtColor(im,dz.COLOR_BGR2GRAY) #灰值化

       # 二值化

       th1 = dz.adaptiveThreshold(im, 255, dz.ADAPTIVE_THRESH_GAUSSIAN_C, dz.THRESH_BINARY, 21, 1)

      dz.imwrite(filename,th1)

      return th1

二、去除边框

 # 去除边框

 def clear_border(img,img_name):

   filename = './out_img/' + img_name.split('.')[0] + '-clearBorder.jpg'

   h, w = img.shape[:2]

   for y in range(0, w):

     for x in range(0, h):

       if y < 2 or y > w - 2:

         img[x, y] = 255

       if x < 2 or x > h -2:

         img[x, y] = 255

   cv2.imwrite(filename,img)

   return img

在用OpenCV时，图片的矩阵点是反的，就是长和宽是颠倒的

三、降噪

降噪是验证码处理中比较重要的一个步骤，我这里使用了点降噪和线降噪，，，只能去除细的干扰线

 # 干扰线降噪

 def interference_line(img, img_name):

     filename =  './out_img/' + img_name.split('.')[0] + '-interferenceline.jpg'

     h, w = img.shape[:2]

     # ！！opencv矩阵点是反的

     # img[1,2] 1:图片的高度，2：图片的宽度

     for y in range(1, w - 1):

         for x in range(1, h - 1):

             count = 0

             if img[x, y - 1] > 245:

                 count = count + 1

             if img[x, y + 1] > 245:

                 count = count + 1

             if img[x - 1, y] > 245:

                 count = count + 1

             if img[x + 1, y] > 245:

                 count = count + 1

             if count > 2:

                  img[x, y] = 255

 cv2.imwrite(filename,img)

 return img

 # 点降噪

 def interference_point(img,img_name, x = 0, y = 0):

     """

     9邻域框,以当前点为中心的田字框,黑点个数

     :param x:

     :param y:

     :return:

     """

     filename =  './out_img/' + img_name.split('.')[0] + '-interferencePoint.jpg'

     # todo 判断图片的长宽度下限

     cur_pixel = img[x,y]# 当前像素点的值

     height,width = img.shape[:2]

     for y in range(0, width - 1):

       for x in range(0, height - 1):

         if y == 0:  # 第一行

             if x == 0:  # 左上顶点,4邻域

                 # 中心点旁边3个点

                 sum = int(cur_pixel) \

                       + int(img[x, y + 1]) \

                       + int(img[x + 1, y]) \

                       + int(img[x + 1, y + 1])

                 if sum <= 2 * 245:

                   img[x, y] = 0

             elif x == height - 1:  # 右上顶点

                 sum = int(cur_pixel) \

                       + int(img[x, y + 1]) \

                       + int(img[x - 1, y]) \

                       + int(img[x - 1, y + 1])

                 if sum <= 2 * 245:

                   img[x, y] = 0

             else:  # 最上非顶点,6邻域

                 sum = int(img[x - 1, y]) \

                       + int(img[x - 1, y + 1]) \

                       + int(cur_pixel) \

                       + int(img[x, y + 1]) \

                       + int(img[x + 1, y]) \

                       + int(img[x + 1, y + 1])

                 if sum <= 3 * 245:

                   img[x, y] = 0

         elif y == width - 1:  # 最下面一行

             if x == 0:  # 左下顶点

                 # 中心点旁边3个点

                 sum = int(cur_pixel) \

                       + int(img[x + 1, y]) \

                       + int(img[x + 1, y - 1]) \

                       + int(img[x, y - 1])

                 if sum <= 2 * 245:

                   img[x, y] = 0

             elif x == height - 1:  # 右下顶点

                 sum = int(cur_pixel) \

                       + int(img[x, y - 1]) \

                       + int(img[x - 1, y]) \

                       + int(img[x - 1, y - 1])

                 if sum <= 2 * 245:

                   img[x, y] = 0

             else:  # 最下非顶点,6邻域

                 sum = int(cur_pixel) \

                       + int(img[x - 1, y]) \

                       + int(img[x + 1, y]) \

                       + int(img[x, y - 1]) \

                       + int(img[x - 1, y - 1]) \

                       + int(img[x + 1, y - 1])

                 if sum <= 3 * 245:

                   img[x, y] = 0

         else:  # y不在边界

             if x == 0:  # 左边非顶点

                 sum = int(img[x, y - 1]) \

                       + int(cur_pixel) \

                       + int(img[x, y + 1]) \

                       + int(img[x + 1, y - 1]) \

                       + int(img[x + 1, y]) \

                       + int(img[x + 1, y + 1])

                 if sum <= 3 * 245:

                   img[x, y] = 0

             elif x == height - 1:  # 右边非顶点

                 sum = int(img[x, y - 1]) \

                       + int(cur_pixel) \

                       + int(img[x, y + 1]) \

                       + int(img[x - 1, y - 1]) \

                       + int(img[x - 1, y]) \

                       + int(img[x - 1, y + 1])

                 if sum <= 3 * 245:

                   img[x, y] = 0

             else:  # 具备9领域条件的

                 sum = int(img[x - 1, y - 1]) \

                       + int(img[x - 1, y]) \

                       + int(img[x - 1, y + 1]) \

                       + int(img[x, y - 1]) \

                       + int(cur_pixel) \

                       + int(img[x, y + 1]) \

                       + int(img[x + 1, y - 1]) \

                       + int(img[x + 1, y]) \

                       + int(img[x + 1, y + 1])

                 if sum <= 4 * 245:

                   img[x, y] = 0

     cv2.imwrite(filename,img)

     return img

五、字符切割

 def cfs(im,x_fd,y_fd):

   '''用队列和集合记录遍历过的像素坐标代替单纯递归以解决cfs访问过深问题

   '''

   # print('**********')

   xaxis=[]

   yaxis=[]

   visited =set()

   q = Queue()

   q.put((x_fd, y_fd))

   visited.add((x_fd, y_fd))

   offsets=[(1, 0), (0, 1), (-1, 0), (0, -1)]#四邻域

   while not q.empty():

       x,y=q.get()

       for xoffset,yoffset in offsets:

           x_neighbor,y_neighbor = x+xoffset,y+yoffset

           if (x_neighbor,y_neighbor) in (visited):

               continue  # 已经访问过了

           visited.add((x_neighbor, y_neighbor))

           try:

               if im[x_neighbor, y_neighbor] == 0:

                   xaxis.append(x_neighbor)

                   yaxis.append(y_neighbor)

                   q.put((x_neighbor,y_neighbor))

           except IndexError:

               pass

   # print(xaxis)

   if (len(xaxis) == 0 | len(yaxis) == 0):

     xmax = x_fd + 1

     xmin = x_fd

     ymax = y_fd + 1

     ymin = y_fd

   else:

     xmax = max(xaxis)

     xmin = min(xaxis)

     ymax = max(yaxis)

     ymin = min(yaxis)

     #ymin,ymax=sort(yaxis)

   return ymax,ymin,xmax,xmin

 def detectFgPix(im,xmax):

   '''搜索区块起点

   '''

   h,w = im.shape[:2]

   for y_fd in range(xmax+1,w):

       for x_fd in range(h):

           if im[x_fd,y_fd] == 0:

               return x_fd,y_fd

 def CFS(im):

   '''切割字符位置

   '''

   zoneL=[]#各区块长度L列表

   zoneWB=[]#各区块的X轴[起始，终点]列表

   zoneHB=[]#各区块的Y轴[起始，终点]列表

   xmax=0#上一区块结束黑点横坐标,这里是初始化

   for i in range(10):

       try:

           x_fd,y_fd = detectFgPix(im,xmax)

           # print(y_fd,x_fd)

           xmax,xmin,ymax,ymin=cfs(im,x_fd,y_fd)

           L = xmax - xmin

           H = ymax - ymin

           zoneL.append(L)

           zoneWB.append([xmin,xmax])

           zoneHB.append([ymin,ymax])

       except TypeError:

           return zoneL,zoneWB,zoneHB

   return zoneL,zoneWB,zoneHB

切割粘连字符代码

       # 切割的位置

       im_position = CFS(im)

       maxL = max(im_position[0])

       minL = min(im_position[0])

       # 如果有粘连字符，如果一个字符的长度过长就认为是粘连字符，并从中间进行切割

       if(maxL > minL + minL * 0.7):

         maxL_index = im_position[0].index(maxL)

         minL_index = im_position[0].index(minL)

         # 设置字符的宽度

         im_position[0][maxL_index] = maxL // 2

         im_position[0].insert(maxL_index + 1, maxL // 2)

         # 设置字符X轴[起始，终点]位置

         im_position[1][maxL_index][1] = im_position[1][maxL_index][0] + maxL // 2

         im_position[1].insert(maxL_index + 1, [im_position[1][maxL_index][1] + 1, im_position[1][maxL_index][1] + 1 + maxL // 2])

         # 设置字符的Y轴[起始，终点]位置

         im_position[2].insert(maxL_index + 1, im_position[2][maxL_index])

       # 切割字符，要想切得好就得配置参数，通常 1 or 2 就可以

       cutting_img(im,im_position,img_name,1,1

切割粘连字符代码

 def cutting_img(im,im_position,img,xoffset = 1,yoffset = 1):

   filename =  './out_img/' + img.split('.')[0]

   # 识别出的字符个数

   im_number = len(im_position[1])

   # 切割字符

   for i in range(im_number):

     im_start_X = im_position[1][i][0] - xoffset

     im_end_X = im_position[1][i][1] + xoffset

     im_start_Y = im_position[2][i][0] - yoffset

     im_end_Y = im_position[2][i][1] + yoffset

     cropped = im[im_start_Y:im_end_Y, im_start_X:im_end_X]

     cv2.imwrite(filename + '-cutting-' + str(i) + '.jpg',cropped)

六、识别：

识别用的是typesseract库，主要识别一行字符和单个字符时的参数设置，识别中英文的参数设置，代码很简单就一行，我这里大多是filter文件的操作

       # 识别验证码

       cutting_img_num = 0

       for file in os.listdir('./out_img'):

         str_img = ''

         if fnmatch(file, '%s-cutting-*.jpg' % img_name.split('.')[0]):

           cutting_img_num += 1

       for i in range(cutting_img_num):

         try:

           file = './out_img/%s-cutting-%s.jpg' % (img_name.split('.')[0], i)

           # 识别字符

           str_img = str_img + image_to_string(Image.open(file),lang = 'eng', config='-psm 10') #单个字符是10，一行文本是7

         except Exception as err:

           pass

       print('切图：%s' % cutting_img_num)

       print('识别为：%s' % str_img

python 验证码处理的更多相关文章

Python验证码6位自动生成器
Python验证码6位自动生成器
python验证码识别
关于利用python进行验证码识别的一些想法用python加“验证码”为关键词在baidu里搜一下,可以找到很多关于验证码识别的文章.我大体看了一下,主要方法有几类:一类是通过对图片进行处理,然后 ...
Python 验证码识别-- tesserocr
Python 验证码识别-- tesserocr tesserocr 是 Python 的一个 OCR 识别库 ,但其实是对 tesseract 做的一层 Python API 封装,所以它的核心是 ...
【转】Python验证码识别处理实例
原文出处: 林炳文(@林炳文Evankaka) 一.准备工作与代码实例 1.PIL.pytesser.tesseract (1)安装PIL:下载地址:http://www.pythonware.com ...
Python 验证码识别（别干坏事哦...）
关于python验证码识别库,网上主要介绍的为pytesser及pytesseract,其实pytesser的安装有一点点麻烦,所以这里我不考虑,直接使用后一种库. python验证码识别库安装要安 ...
python 验证码高阶验证
python 验证码高阶验证标签: 验证码python 2016-08-19 15:07 1267人阅读评论(1) 收藏举报分类: 其他(33) 目录(?)[+] 字符型图片验证 ...
Windows平台python验证码识别
参考: http://oatest.dragonbravo.com/Authenticate/SignIn?returnUrl=%2f http://drops.wooyun.org/tips/631 ...
Python验证码识别处理实例(转载)
版权声明:本文为博主林炳文Evankaka原创文章,转载请注明出处http://blog.csdn.net/evankaka 一.准备工作与代码实例 1.PIL.pytesser.tesseract ...
python 验证码
python写的验证码小程序 ##################验证码,数字+字母 import random check_code="" for i in range(6): ...
Python验证码识别处理实例（转）
一.准备工作与代码实例 1.PIL.pytesser.tesseract (1)安装PIL:下载地址:http://www.pythonware.com/products/pil/(CSDN下载) 下 ...

随机推荐

B. Math Show 暴力 C - Four Segments
B. Math Show 这个题目直接暴力,还是有点难想,我没有想出来,有点思维. #include <cstdio> #include <cstdlib> #include ...
JVM系列-2、JVM内存结构
一.JVM内存结构 1.1.栈(JVM Stacks) 存放局部变量(定义在方法中的变量和定义在方法参数列表上的变量).对象引用(reference类型,它不等同于对象本身,根据不同的虚拟机实现,它可 ...
Bootstrap初识
目录概述快速入门响应式布局 CSS样式和JS插件全局CSS样式组件插件案例:黑马旅游网概述概念:一个前端开发的框架,Bootstrap是美国Twitter公司的设计师Mark Ott ...
Dynamics 365 基于 Sql Server 2017 安装报表问题
如果使用SQL2017 安装D365 会发现 SSRS与AD不能在同一台服务器上,因为无法安装SSRS,而无SSRS 则D365是无法继续安装的. 所以解决方法有二个: 1.另外准备一台服务器,不需要 ...
MySQL 入门（3）：事务隔离
摘要在这一篇内容中,我将从事务是什么开始,聊一聊事务的必要性. 然后,介绍一下在InnoDB中,四种不同级别的事务隔离,能解决什么问题,以及会带来什么问题. 最后,我会介绍一下InnoDB解决高并发 ...
Day_11【集合】扩展案例1_遍历打印学生信息，获取学生成绩的最高分，获取成绩最高的学员，获取学生成绩的平均值，获取不及格的学员数量
分析以下需求,并用代码实现: 1.按照以下描述完成类的定义学生类属性: 姓名name 年龄age 成绩score 行为: 吃饭eat() study(String content)(content ...
RabbitMQ的发布订阅模式（Publish/Subscribe）
一.发布/订阅(Publish/Subscribe)模式发布订阅是我们经常会用到的一种模式,生产者生产消息后,所有订阅者都可以收到.RabbitMQ的发布/订阅模型图如下: 1.该模式下生产者并不是 ...
谈谈R语言的缺点和优点
编码不友好,对中文不友好,逼着你用RStudio.Jupyter Notebook/Jupyter Lab.图标丑,每次点击感觉辣眼睛. 为节省内存,R语言计算默认有效数字为7位,比Excel的15位 ...
如何得知某期刊是否被EI收錄？
转载:http://tul.blog.ntu.edu.tw/archives/4627 若因投稿或評鑑需要,欲得知某期刊是否被 EI 收錄,其實就是確認該期刊是否包含在 EV 平台中的 COMPEND ...
JDBC01 mysql和navicat的安装
navicat的安装从网上下载的,详细过程,略 mysql8.0.11(win10,64)安装 1.下载 MySQL8.0 For Windows zip包下载地址:https://dev.mysq ...

python 验证码处理

python 验证码处理的更多相关文章

随机推荐

热门专题