卷积神经网络（CNN）学习算法之----基于LeNet网络的中文验证码识别

　　由于公司需要进行了中文验证码的图片识别开发，最近一段时间刚忙完上线，好不容易闲下来就继上篇《基于Windows10 x64+visual Studio2013+Python2.7.12环境下的Caffe配置学习》文章，记录下利用caffe进行中文验证码图片识别的开发过程。由于这里主要介绍开发和实现过程，CNN理论性的东西这里不作为介绍的重点，遇到相关的概念和术语请自行研究。目前从我们训练出来的模型来看，单字识别率接近96%，所以一个四字验证码的准确率大概80%，效果还不错，完全能满足使用，如果每张图片的样本继续加大应该能取得更高的准确率，当然随着样本的加大，训练时间也随之增大，对硬件设备要求也越高，还有就是优化LeNet网络结构，目前这里只使用了三层卷积。

（一）开发准备

（1）开发环境

软件环境：visual Studio2013+Python2.7.12+caffe

硬件环境：Intel Core i7-4790+GTX1080+RAM32G

（2）训练图片

　　可以用于验证码的中文常用字大概3666个，每个字的训练大于等于50个，所以总共训练样本大概20万，其中80%用于训练集，20%用于测试集。样本收集是一个非常麻烦和耗时的过程，需要手工标注结果，我这里利用手工打码平台收集，最便宜一个验证码要4分钱，可以大概算一下，光为了收集这么多样本就将近花费1万RMB，还有配置一个GTX1080的显卡大概6千RMB，这点成本对一个公司还好，如果是对于个人投入还是不少，所以对于实验室的学生党玩深度学习成本还是蛮高的！

　　训练集：26万样本图片

　　测试集：13万样本图片

（二）图片样本处理

　　目前验证码种类无极繁多，有数字、字母、中文、图片等等，不过本文主要介绍中文验证码的识别。中文验证码设计干扰的方式主要围绕：

　　（1）背景色干扰

　　（2）文字倾斜扭曲

　　（3）干扰线

　　（4）中文拼音并存（百度九宫格）

　　（5）叠字

　　针对不同类型的验证码需要分别处理，这些处理过程统称图片预处理，目前并没有统一的预处理方式，需要针对不同的验证码做特殊处理，但是大体过程无外乎：灰度化、二值化、去干扰线、分割切图、标准化，这些过程用python实现都非常的简单，这里就不详细介绍了，直接上代码，需要import cv2：

 class PreProcess(object):

     """description of class"""

     def ConvertToGray(self,Image,filename):

         GrayImage=cv2.cvtColor(Image,cv2.COLOR_BGR2GRAY)

         return GrayImage

     def ConvertTo1Bpp(self,GrayImage,filename):

       Bpp=cv2.threshold(GrayImage,127,255,cv2.THRESH_BINARY)

         cv2.imwrite('D://'+'1.jpg',Bpp[1])

         return Bpp

     def InterferLine(self,Bpp,filename):

         for i in range(0,76):

             for j in range(0,Bpp.shape[0]):

                 Bpp[j][i]=255

         for i in range(161,Bpp.shape[1]):

             for j in range(0,Bpp.shape[0]):

                 Bpp[j][i]=255

         m=1

         n=1

         for i in range(76,161):

             while(m<Bpp.shape[0]-1):

                 if Bpp[m][i]==0:

                     if Bpp[m+1][i]==0:

                         n=m+1

                     elif m>0 and Bpp[m-1][i]==0:

                         n=m

                         m=n-1

                     else:

                         n=m+1

                     break

                 elif m!=Bpp.shape[0]:

                     l=0

                     k=0

                     ll=m

                     kk=m

                     while(ll>0):

                         if Bpp[ll][i]==0:

                             ll=11-1

                             l=l+1

                         else:

                             break

                     while(kk>0):

                         if Bpp[kk][i]==0:

                             kk=kk-1

                             k=k+1

                         else:

                             break

                     if (l<=k and l!=0) or (k==0 and l!=0):

                         m=m-1

                     else:

                         m=m+1

                 else:

                     break

                 #endif

             #endwhile

             if m>0 and Bpp[m-1][i]==0 and Bpp[n-1][i]==0:

                 continue

             else:

                 Bpp[m][i]=255

                 Bpp[n][i]=255

             #endif

         #endfor

         return Bpp

     def CutImage(self,Bpp,filename):

         b1=np.zeros((Bpp.shape[0],20))

         for i in range(78,98):

             for j in range(0,Bpp.shape[0]):

                 b1[j][i-78]=Bpp[j][i]

         cv2.imwrite(outpath+filename.decode('gbk')[0].encode('gbk')+'_'+'%d' %(time.time()*1000)+str(random.randint(1000,9999))+'.png',b1)

         b2=np.zeros((Bpp.shape[0],19))

         for i in range(99,118):

             for j in range(0,Bpp.shape[0]):

                 b2[j][i-99]=Bpp[j][i]

         cv2.imwrite(outpath+filename.decode('gbk')[1].encode('gbk')+'_'+'%d' %(time.time()*1000)+str(random.randint(1000,9999))+'.png',b2)

         b3=np.zeros((Bpp.shape[0],19))

         for i in range(119,138):

             for j in range(0,Bpp.shape[0]):

                 b3[j][i-119]=Bpp[j][i]

         cv2.imwrite(outpath+filename.decode('gbk')[2].encode('gbk')+'_'+'%d' %(time.time()*1000)+str(random.randint(1000,9999))+'.png',b3)

         b4=np.zeros((Bpp.shape[0],19))

         for i in range(139,158):

             for j in range(0,Bpp.shape[0]):

                 b4[j][i-139]=Bpp[j][i]

         cv2.imwrite(outpath+filename.decode('gbk')[3].encode('gbk')+'_'+'%d' %(time.time()*1000)+str(random.randint(1000,9999))+'.png',b4)

         #return (b1,b2,b3,b4)

预处理

调用预处理方法的代码：

 import cv2

 PP=PreProcess()

 for root,dirs,files in os.walk(inpath):

     for filename in files:

         Img=cv2.imread(root+'/'+filename)#太坑，此处inpath不能包含中文路径

         GrayImage=PP.ConvertToGray(Img,filename)

         Bpp=PP.ConvertTo1Bpp(GrayImage,filename)

         Bpp_new=PP.InterferLine(Bpp,filename)

         b=PP.CutImage(Bpp_new,filename)

批量处理图片

处理前的图片：

预处理后的图片：

（三）caffe模型配置

　　模型配置阶段，需要进行caffe所需数据格式准备、训练集和测试集准备、Lenet网络结构配置等三步

　　（1）训练集和测试集准备

　　　　预处理阶段将验证码切割成四个图片后，需要将每个图片进行标准化为32*32像素大小的图片，不然caffe模型无法训练。标准化完成以后就需要把每个字的图片分拆到训练集和测试集中去，这里代码就不贴了，根据个人喜好我设置一个字的训练集占80%，测试集占20%，然后把所有字用一个字典进行映射为数字编号，方便模型给出结果时我们能找到对应的汉字。

　　（2）caffe格式数据

　　　　为了生成caffe所需数据格式需要用到convert_imageset项目，在第一篇配置中已经编译好了这个项目，可以直接拿过来用，python调用代码如下：

    path=os.getcwd()#保存当前路径

    os.chdir("./caffe-master/caffe-master/Build/x64/Debug")#改变路径到caffe.exe文件夹

    os.system('SET GLOG_logtostderr=1')

    #生成训练集

    os.system('convert_imageset.exe --shuffle ./caffe-master/caffe-master/windows/CaptchaTest/dpsample/data/train  ./caffe-master/caffe-master/windows/CaptchaTest/dpsample/data/train.txt  ./caffe-master/caffe-master/windows/CaptchaTest/dpsample/data/trainldb 0')

    #生成测试集

    os.system('convert_imageset.exe --shuffle ./caffe-master/caffe-master/windows/CaptchaTest/dpsample/data/val  ./caffe-master/caffe-master/windows/CaptchaTest/dpsample/data/val.txt  ./caffe-master/caffe-master/windows/CaptchaTest/dpsample/data/testldb 0')

调用convert_imageset生成caffe数据格式

　　　　生成成功过后可以分别在训练集和测试集文件夹看到如下两个文件：data.mdb和lock.mdb，都是caffe标准mdb格式的数据

　　（3）Lenet网络模型

　　　　目前Lenet模型已经非常成熟，最常用的是Lenet-5(5层)，对于层数不需要太多的CNN网络用它完全足够了，当然现在更强大的模型还有：Alexnet、googlenet,VGG,resnet。resnet是今年刚出的，据benchmark的测试，对于人脸识别它可以完爆其他网络，层数更是可以多达200，有兴趣的可以看看：GitHub测评项目。对于Lenet有一个可视化的配置网站：http://ethereon.github.io/netscope/#/editor，这里配置的三层结构如下：

　　　　模型总共包含三个卷积层，两个池化层，模型中最重要的几个设置参数：num_output、kernel_size、stride需要分别配置，模型的好坏除了层数结构的设计外，就看这几个参数是否配置的合理，具体的配置这里不详细讲解，相关讲解文章非常的多，也有很多优秀的论文可以借鉴，模型的结构代码如下：

name: "LeNet"

layer {

  name: "mnist"

  type: "Data"

  top: "data"

  top: "label"

  include {

    phase: TRAIN

  }

  transform_param {

    scale: 0.00390625

  }

  data_param {

    source: "E:/work/meb/Deeplearning/caffe-master/caffe-master/windows/CaptchaTest/dpsample/data/trainldb"

    batch_size: 64

    backend: LMDB

  }

}

layer {

  name: "mnist"

  type: "Data"

  top: "data"

  top: "label"

  include {

    phase: TEST

  }

  transform_param {

    scale: 0.00390625

  }

  data_param {

    source: "E:/work/meb/Deeplearning/caffe-master/caffe-master/windows/CaptchaTest/dpsample/data/testldb"

    batch_size: 100

    backend: LMDB

  }

}

layer {

  name: "conv1"

  type: "Convolution"

  bottom: "data"

  top: "conv1"

  param {

    lr_mult: 1

  }

  param {

    lr_mult: 2

  }

  convolution_param {

    num_output: 64

    kernel_size: 7

    stride: 1

    weight_filler {

      type: "xavier"

    }

    bias_filler {

      type: "constant"

    }

  }

}

layer {

  name: "relu1"

  type: "ReLU"

  bottom: "conv1"

  top: "conv1"

}

layer {

  name: "pool1"

  type: "Pooling"

  bottom: "conv1"

  top: "pool1"

  pooling_param {

    pool: MAX

    kernel_size: 2

    stride: 2

  }

}

layer {

  name: "conv2"

  type: "Convolution"

  bottom: "pool1"

  top: "conv2"

  param {

    lr_mult: 1

  }

  param {

    lr_mult: 2

  }

  convolution_param {

    num_output: 256

    pad:1

    kernel_size: 6

    stride: 1

    weight_filler {

      type: "xavier"

    }

    bias_filler {

      type: "constant"

    }

  }

}

layer {

  name: "relu2"

  type: "ReLU"

  bottom: "conv2"

  top: "conv2"

}

layer {

  name: "conv3"

  type: "Convolution"

  bottom: "conv2"

  top: "conv3"

  param {

    lr_mult: 1

  }

  param {

    lr_mult: 2

  }

  convolution_param {

    num_output: 1024

    pad:1

    kernel_size: 5

    stride: 1

    weight_filler {

      type: "xavier"

    }

    bias_filler {

      type: "constant"

    }

  }

}

layer {

  name: "relu3"

  type: "ReLU"

  bottom: "conv3"

  top: "conv3"

}

layer {

  name: "pool2"

  type: "Pooling"

  bottom: "conv3"

  top: "pool2"

  pooling_param {

    pool: MAX

    kernel_size: 2

    stride: 2

  }

}

layer {

  name: "ip1"

  type: "InnerProduct"

  bottom: "pool2"

  top: "ip1"

  param {

    lr_mult: 1

  }

  param {

    lr_mult: 2

  }

  inner_product_param {

    num_output: 3666

    weight_filler {

      type: "xavier"

    }

    bias_filler {

      type: "constant"

    }

  }

}

layer {

  name: "relu4"

  type: "ReLU"

  bottom: "ip1"

  top: "ip1"

}

layer {

  name: "ip2"

  type: "InnerProduct"

  bottom: "ip1"

  top: "ip2"

  param {

    lr_mult: 1

  }

  param {

    lr_mult: 2

  }

  inner_product_param {

    num_output: 3666

    weight_filler {

      type: "xavier"

    }

    bias_filler {

      type: "constant"

    }

  }

}

layer {

  name: "accuracy"

  type: "Accuracy"

  bottom: "ip2"

  bottom: "label"

  top: "accuracy"

  include {

    phase: TEST

  }

}

layer {

  name: "loss"

  type: "SoftmaxWithLoss"

  bottom: "ip2"

  bottom: "label"

  top: "loss"

}

（四）训练模型

　　　到目前为止，准备工作都做完了，现在就可以利用python import caffe进行模型训练了，模型训练速度快慢主要看你GPU的配置如何，我开始用的GTX650，训练5000轮下来，就得消耗半天时间，实在无法忍受这个速度，就向公司申请买了一个GTX1080，那速度简直没法比，训练5000轮半个小时就能完成。调用模型的代码如下：

    cmd='caffe.exe train -solver=./caffe-master/caffe-master/windows/CaptchaTest/dpsample/solver/lenet_solver.prototxt'#训练语句

    os.system(cmd)

    os.chdir(path)

　　模型训练中主要的输出参数有：loss，accuracy，如果你看到loss一直在收敛，每500轮输出一次的准确率也在提高，那么说明你的模型设计没什么问题，不然就得重新设计。训练完成后就能得到如下模型：

（五）使用模型

　　模型训练完成后，我们就可以简单的用测试图片进行测试，测试代码如下:

    #调用模型

    deploy='.\dpsample\solver\lenet_deploy.prototxt'    #deploy文件

    caffe_model='.\dpsample\iterate_iter_5000.caffemodel'   #训练好的 caffemodel

    imgtest='./dpsample/data/val/685_363.png'    #随机找的一张待测图片

    net = caffe.Net(deploy, caffe_model, caffe.TEST)

    transformer = caffe.io.Transformer({'data': net.blobs['data'].data.shape})  #设定图片的shape格式(1,3,32,32)

    transformer.set_transpose('data', (2,0,1))    #改变维度的顺序，由原始图片(28,28,3)变为(3,28,28)

    #transformer.set_mean('data', np.load(mean_file).mean(1).mean(1))    #减去均值，前面训练模型时没有减均值，这儿就不用

    #transformer.set_raw_scale('data', 1)    # 缩放到【0，1】之间    已经在网络里设置scale，这里可以不用

    transformer.set_channel_swap('data', (2,1,0))   #交换通道，将图片由RGB变为BGR

    im=caffe.io.load_image(imgtest)                   #加载图片

    net.blobs['data'].data[...] = transformer.preprocess('data',im)       #执行上面设置的图片预处理操作，并将图片载入到blob中

    out = net.forward()

    prob= net.blobs['prob'].data[0].flatten() #取出最后一层（Softmax）属于某个类别的概率值，并打印

    print prob

    order=prob.argsort()[-1]

    print(order)

　　最后输出的order就是模型预测出最有可能文字的序号，再到文字和序号对应的字典中去查看就知道这里的识别对不对了！

#写在最后# 我是一个忠实的VS用户，所有代码都在VS编辑器实现的，它要能用python需要安装一个PTVS插件，在这里编辑python代码需要非常注意中文编码的处理，否则你会吃大苦头，不过相信我，其他编辑器能搞定的VS也一定没问题，只是你要有足够的耐心，遇到问题的时候多思考多搜搜问题的本质所在。

原创性声明：

本人在cnblogs上的ID为marso，博客地址为http://www.cnblogs.com/marso/，所有包含原创声明的博客均为本人原创作品。博客的内容除已注明的引用文献外均为本人独立研究成果。除特殊注明外均采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可。

作品及其衍生品不得未经许可而用于商业用途。个人使用无需许可，但必须在引用部分（代码，基本思想或实现方案等）标示出原作者信息，发布时需附带本声明。（对于GPLv3下发布的作品，引用本人作品不需要许可，也不需要标示出引用部分或附带声明。）

关于“原创”的说明：文章发布前我会进行初步的相关搜索，如未发现有别人发表过类似内容的作品我才会发表。但是因为可能有遗漏，所以不能保证我的博客内容一定为“首创”，但一定可以保证“原创”。

欢迎转载，并请注明以下内容：

转载自博客园marso的Blog, 博客地址为http://%博客URL%，采用 知识共享 署名-非商业性使用-相同方式共享 3.0 中国大陆 许可协议 进行许可。其中“%博客URL%”替换为被转载博客的实际URL。

卷积神经网络（CNN）学习算法之----基于LeNet网络的中文验证码识别的更多相关文章

基于LeNet网络的中文验证码识别
基于LeNet网络的中文验证码识别由于公司需要进行了中文验证码的图片识别开发,最近一段时间刚忙完上线,好不容易闲下来就继上篇<基于Windows10 x64+visual Studio2013 ...
卷积神经网络(CNN)学习笔记1：基础入门
卷积神经网络(CNN)学习笔记1:基础入门 Posted on 2016-03-01 | In Machine Learning | 9 Comments | 14935 Vie ...
卷积神经网络CNN学习笔记
CNN的基本结构包括两层: 特征提取层:每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征.一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来: 特征映射层:网络的每个计算层由多 ...
卷积神经网络 CNN 学习笔记
激活函数Relu 最近几年卷积神经网络中,激活函数往往不选择sigmoid或tanh函数,而是选择relu函数.Relu函数的定义 $$f(x)= max(0,x)$$ Relu函数图像如下图所示: ...
【深度学习系列】手写数字识别卷积神经--卷积神经网络CNN原理详解(一)
上篇文章我们给出了用paddlepaddle来做手写数字识别的示例,并对网络结构进行到了调整,提高了识别的精度.有的同学表示不是很理解原理,为什么传统的机器学习算法,简单的神经网络(如多层感知机)都可 ...
【深度学习系列】卷积神经网络CNN原理详解(一)——基本原理
上篇文章我们给出了用paddlepaddle来做手写数字识别的示例,并对网络结构进行到了调整,提高了识别的精度.有的同学表示不是很理解原理,为什么传统的机器学习算法,简单的神经网络(如多层感知机)都可 ...
深度学习方法（五）：卷积神经网络CNN经典模型整理Lenet，Alexnet，Googlenet，VGG，Deep Residual Learning
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术感兴趣的同学加入. 关于卷积神经网络CNN,网络和文献中 ...
【RS】Automatic recommendation technology for learning resources with convolutional neural network - 基于卷积神经网络的学习资源自动推荐技术
[论文标题]Automatic recommendation technology for learning resources with convolutional neural network ( ...
TensorFlow 2.0 深度学习实战 —— 浅谈卷积神经网络 CNN
前言上一章为大家介绍过深度学习的基础和多层感知机 MLP 的应用,本章开始将深入讲解卷积神经网络的实用场景.卷积神经网络 CNN(Convolutional Neural Networks,Conv ...

随机推荐

T-sql语句查询执行顺序
前言数据库的查询执行,毋庸置疑是程序员必备技能之一,然而数据库查询执行的过程绚烂多彩,却是很少被人了解,今天哥哥要带你装逼带你飞,深入一下这sql查询的来龙去脉,为查询的性能优化处理打个基础,或许面 ...
单例模式——创建型模式01
1. 名称单例模式(Singleton Pattern):确保某一个类只有一个实例,而且自行实例化并向整个系统提供这个实例,这个类称为单例类.单例模式是一种对象创建型模式. 2. 问题 ...
应用新安全组 - 每天5分钟玩转 OpenStack（116）
Neutron 默认的安全组规则会禁止掉所有从外面访问 instance 的流量. 本节我们会修改安全组的配置,允许 ping 和 ssh instance.有两种方法可以达到这个目的: 1. 修改 ...
从零开始编写自己的C#框架（19）——Web层后端权限模块
不知不觉本系统写了快三个月了,最近写页面的具体功能时感觉到有点吃力,很多地方如果张嘴来讲的话可以说得很细,很全面,可写成文字的话,就不太会写了,有些地方想讲得清晰的话,得用多几倍的文字+实例+变化中的 ...
从零开始编写自己的C#框架（13）——T4模板在逻辑层中的应用（二）
最近这段时间特忙,公事私事,忙得有时都没时间打开电脑了,这两周只能尽量更新,以后再将章节补回来. 直接进入主题,通过上一章节,大家明白了怎么使用模板类编写T4模板,本章进的是一些简单技巧的应用 1.首 ...
Ubuntu下配置Samba服务器
每次配置Samba 都需要上网去查资料,而且有一些不一定适合.所以自己就简单记录一下 1.Samba的安装 sudo apt-get insall samba // (sudo get temp ro ...
ITTC数据挖掘平台介绍(四) 框架改进和新功能
本数据挖掘框架在这几个月的时间内,有了进一步的功能增强一. 超大网络的画布显示虚拟化如前几节所述,框架采用了三级层次实现,分别是数据,抽象Node和绘图的DataPoint,结构如下: ...
springboot(八)：RabbitMQ详解
RabbitMQ 即一个消息队列,主要是用来实现应用程序的异步和解耦,同时也能起到消息缓冲,消息分发的作用. 消息中间件在互联网公司的使用中越来越多,刚才还看到新闻阿里将RocketMQ捐献给了apa ...
jvm系列(五):tomcat性能调优和性能监控（visualvm）
tomcat服务器优化 1.JDK内存优化根据服务器物理内容情况配置相关参数优化tomcat性能.当应用程序需要的内存超出堆的最大值时虚拟机就会提示内存溢出,并且导致应用服务崩溃.因此一般建议堆的最 ...
【分布式】Zookeeper应用场景
一.前言在上一篇博客已经介绍了Zookeeper开源客户端的简单实用,本篇讲解Zookeeper的应用场景. 二.典型应用场景 Zookeeper是一个高可用的分布式数据管理和协调框架,并且能够很好 ...

卷积神经网络（CNN）学习算法之----基于LeNet网络的中文验证码识别

卷积神经网络（CNN）学习算法之----基于LeNet网络的中文验证码识别的更多相关文章

随机推荐

热门专题