captcha_trainer 验证码识别-训练使用记录

在爬数据的时候,网站出现了验证码，那么我们就得去识别验证码了。目前有两种方案

接入打码平台(花钱,慢)
自己训练(费时，需要GPU环境，快)

那么我采用的是使用开源训练框架 https://github.com/kerlomz/captcha_trainer

训练集准备

图片示例:

请求网站验证码具体接口，训练集(2w张) 测试集(1k张)
从打码平台进行标注
提交验证码给网站检测打码平台正确性
保存验证码图片格式为 {结果}_{md5(文件)}.jpg
打包训练集测试集

在projects/项目名/model.yaml 文件中配置训练集位置

Trains:

DatasetPath:

  Training:

    # 训练集打包结果路径

    - ./projects/wacai-model-CNN5-GRU-H64-CTC-C1/dataset/Trains.0.tfrecords

  Validation:

    # 测试集打包结果路径

    - ./projects/wacai-model-CNN5-GRU-H64-CTC-C1/dataset/Validation.0.tfrecords

SourcePath:

  Training:

    # 训练集图片路径

    - D:/PyCode/XiaoXiangDemo/APPCheck/WaCaiCaptchaTraining/images

  Validation:

    # 测试集图片路径

    - D:/PyCode/XiaoXiangDemo/APPCheck/WaCaiCaptchaTraining/images2

最后在项目主目录下运行 python make_dataset.py 项目名方式打包

设置训练配置

根据项目作者的参数说明，配置了符合我自己项目的要求

# - requirement.txt  -  GPU: tensorflow-gpu, CPU: tensorflow

# - If you use the GPU version, you need to install some additional applications.

# MemoryUsage: 显存占用率，推荐0.6-0.8之间

System:

  MemoryUsage: {MemoryUsage}

  Version: 2

# CNNNetwork: [CNN5, ResNet50, DenseNet]

# RecurrentNetwork: [CuDNNBiLSTM, CuDNNLSTM, CuDNNGRU, BiLSTM, LSTM, GRU, BiGRU, NoRecurrent]

# - 推荐配置为 不定长问题：CNN5+GRU ，定长：CNN5/DenseNet/ResNet50

# UnitsNum: RNN层的单元数 [16, 64, 128, 256, 512]

# - 神经网络在隐层中使用大量神经元，就是做升维，将纠缠在一起的特征或概念分开。

# Optimizer: 优化器算法 [AdaBound, Adam, Momentum]

# OutputLayer: [LossFunction, Decoder]

# - LossFunction: 损失函数 [CTC, CrossEntropy]

# - Decoder: 解码器 [CTC, CrossEntropy]

NeuralNet:

  CNNNetwork: {CNNNetwork}

  RecurrentNetwork: {RecurrentNetwork}

  UnitsNum: {UnitsNum}

  Optimizer: {Optimizer}

  OutputLayer:

    LossFunction: {LossFunction}

    Decoder: {Decoder}

# ModelName: 模型名/项目名，同时也对应编译后的pb模型文件名

# ModelField: 模型处理的数据类型，目前只支持图像 [Image, Text]

# ModelScene: 模型处理的场景类型，目前只支持分类场景 [Classification]

# - 目前只支持 “图像分类” 这一种场景.

Model:

  ModelName: {ModelName}

  ModelField: {ModelField}

  ModelScene: {ModelScene}

# FieldParam 分为 Image, Text 两种，不同数据类型时可配置的参数不同，目前只提供 Image 一种。

# ModelField 为 Image 时:

# - Category: 提供默认的内置解决方案:

# -- [ALPHANUMERIC（含大小写英文数字）, ALPHANUMERIC_LOWER（小写英文数字）,

# -- ALPHANUMERIC_UPPER（大写英文数字）,NUMERIC（数字）, ALPHABET_LOWER（小写字母）,

# -- ALPHABET_UPPER（大写字母）, ALPHABET（大小写字母）,

# -- ALPHANUMERIC_CHS_3500_LOWER（小写字母数字混合中文常用3500）]

# - 或者可以自定义指定分类集如下（中文亦可）:

# -- ['Cat', 'Lion', 'Tiger', 'Fish', 'BigCat']

# - Resize: 重置尺寸，对应网络的输入： [ImageWidth, ImageHeight/-1, ImageChannel]

# - ImageChannel: 图像通道，3为原图，1为灰度 [1, 3]

# - 为了配合部署服务根据图片尺寸自动选择对应的模型，由此诞生以下参数（ImageWidth，ImageHeight）:

# -- ImageWidth: 图片宽度.

# -- ImageHeight: 图片高度.

# - MaxLabelNum: 该参数在使用CTC损失函数时将被忽略，仅用于使用交叉熵作为损失函数/标签数固定时使用

# ModelField 为 Text 时:

# - 该类型暂时不支持

FieldParam:

  Category: {Category}

  Resize: {Resize}

  ImageChannel: {ImageChannel}

  ImageWidth: {ImageWidth}

  ImageHeight: {ImageHeight}

  MaxLabelNum: {MaxLabelNum}

  OutputSplit: {OutputSplit}

# 该配置应用于数据源的标签获取.

# LabelFrom: 标签来源，目前只支持 从文件名提取 [FileName, XML, LMDB]

# ExtractRegex: 正则提取规则，对应于 从文件名提取 方案 FileName:

# - 默认匹配形如 apple_20181010121212.jpg 的文件.

# - 默认正则为 .*?(?=_.*\.)

# LabelSplit: 该规则仅用于 从文件名提取 方案:

# - 文件名中的分割符形如: cat&big cat&lion_20181010121212.png，那么分隔符为 &

# - The Default is null.

Label:

  LabelFrom: {LabelFrom}

  ExtractRegex: {ExtractRegex}

  LabelSplit: {LabelSplit}

# DatasetPath: [Training/Validation], 打包为TFRecords格式的训练集/验证集的本地绝对路径。

# SourcePath:  [Training/Validation], 未打包的训练集/验证集源文件夹的本地绝对路径。

# ValidationSetNum: 验证集数目，仅当未配置验证集源文件夹时用于系统随机抽样用作验证集使用。

# - 该选项用于懒人训练模式，当样本极度不均衡时建议手动设定合理的验证集。

# SavedSteps: 当 Session.run() 被执行一次为一步（1.x版本），保存训练过程的步数，默认为100。

# ValidationSteps: 用于计算准确率，验证模型的步数，默认为每500步验证一次。

# EndAcc: 结束训练的条件之准确率 [EndAcc*100]% 到达该条件时结束任务并编译模型。

# EndCost: 结束训练的条件之Cost值 EndCost 到达该条件时结束任务并编译模型。

# EndEpochs: 结束训练的条件之样本训练轮数 Epoch 到达该条件时结束任务并编译模型。

# BatchSize: 批次大小，每一步用于训练的样本数量，不宜过大或过小，建议64。

# ValidationBatchSize: 验证集批次大小，每个验证准确率步时，用于验证的样本数量。

# LearningRate: 学习率 [0.1, 0.01, 0.001, 0.0001] fine-tuning 时选用较小的学习率。

Trains:

  DatasetPath:

    Training: {DatasetTrainsPath}

    Validation: {DatasetValidationPath}

  SourcePath:

    Training: {SourceTrainPath}

    Validation: {SourceValidationPath}

  ValidationSetNum: {ValidationSetNum}

  SavedSteps: {SavedSteps}

  ValidationSteps: {ValidationSteps}

  EndAcc: {EndAcc}

  EndCost: {EndCost}

  EndEpochs: {EndEpochs}

  BatchSize: {BatchSize}

  ValidationBatchSize: {ValidationBatchSize}

  LearningRate: {LearningRate}

# 以下为数据增广的配置

# Binaryzation: 该参数为 list 类型，包含二值化的上界和下界，值为 int 类型，参数为 -1 表示未启用。

# MedianBlur: 该参数为 int 类型，参数为 -1 表示未启用。

# GaussianBlur: 该参数为 int 类型，参数为 -1 表示未启用。

# EqualizeHist: 该参数为 bool 类型。

# Laplace: 该参数为 bool 类型。

# WarpPerspective: 该参数为 bool 类型。

# Rotate: 该参数为大于 0 的 int 类型，参数为 -1 表示未启用。

# PepperNoise: 该参数为小于 1 的 float 类型，参数为 -1 表示未启用。

# Brightness: 该参数为 bool 类型。

# Saturation: 该参数为 bool 类型。

# Hue: 该参数为 bool 类型。

# Gamma: 该参数为 bool 类型。

# ChannelSwap: 该参数为 bool 类型。

# RandomBlank: 该参数为大于 0 的 int 类型，参数为 -1 表示未启用。

# RandomTransition: 该参数为大于 0 的 int 类型，参数为 -1 表示未启用。

DataAugmentation:

  Binaryzation: {DA_Binaryzation}

  MedianBlur: {DA_MedianBlur}

  GaussianBlur: {DA_GaussianBlur}

  EqualizeHist: {DA_EqualizeHist}

  Laplace: {DA_Laplace}

  WarpPerspective: {DA_WarpPerspective}

  Rotate: {DA_Rotate}

  PepperNoise: {DA_PepperNoise}

  Brightness: {DA_Brightness}

  Saturation: {DA_Saturation}

  Hue: {DA_Hue}

  Gamma: {DA_Gamma}

  ChannelSwap: {DA_ChannelSwap}

  RandomBlank: {DA_RandomBlank}

  RandomTransition: {DA_RandomTransition}

# 以下为预处理的配置

# Binaryzation: 该参数为 list 类型，包含二值化的上界和下界，值为 int 类型，参数为 -1 表示未启用。

# ReplaceTransparent: 使用白色替换透明背景

# HorizontalStitching: 水平拆分拼接，适用于上下分层

# ConcatFrames: 根据帧索引列表水平合并帧

# BlendFrames: 根据帧索引列表融合帧内容

Pretreatment:

  Binaryzation: {Pre_Binaryzation}

  ReplaceTransparent: {Pre_ReplaceTransparent}

  HorizontalStitching: {Pre_HorizontalStitching}

  ConcatFrames: {Pre_ConcatFrames}

  BlendFrames: {Pre_BlendFrames}

开始训练

执行 python trains.py 项目名 方式训练。然后就开始等待训练完成，生成 .pb文件

调用 pb 文件进行识别

采用作者提供的 muggle_ocr 项目来进行调用 pb 文件，进行验证码识别

import muggle_ocr

yaml_path = 'xx.pb'

sdk = muggle_ocr.SDK(model_type=muggle_ocr.ModelType.Captcha,conf_path=yaml_path)

url = 'http://www.xxx/image/11.jpg'

response = requests.get(url, verify=False)

text = self.sdk.predict(image_bytes=response.content)

结语

这样简单的操作就完成了验证码识别了，是不是太方便了。

captcha_trainer 验证码识别-训练使用记录的更多相关文章

CNN+BLSTM+CTC的验证码识别从训练到部署
项目地址:https://github.com/kerlomz/captcha_trainer 1. 前言本项目适用于Python3.6,GPU>=NVIDIA GTX1050Ti,原mast ...
【转】CNN+BLSTM+CTC的验证码识别从训练到部署
[转]CNN+BLSTM+CTC的验证码识别从训练到部署转载地址:https://www.jianshu.com/p/80ef04b16efc 项目地址:https://github.com/ker ...
python使用tesseract-ocr完成验证码识别（模型训练和使用部分）
一.Tesseract训练大体流程为:安装jTessBoxEditor -> 获取样本文件 -> Merge样本文件 –> 生成BOX文件 -> 定义字符配置文件 -> ...
利用jTessBoxEditor工具进行Tesseract3.02.02样本训练，提高验证码识别率
1.背景前文已经简要介绍tesseract ocr引擎的安装及基本使用,其中提到使用-l eng参数来限定语言库,可以提高识别准确率及识别效率. 本文将针对某个网站的验证码进行样本训练,形成自己的语 ...
tensorflow训练验证码识别模型
tensorflow训练验证码识别模型的样本可以使用captcha生成,captcha在linux中的安装也很简单: pip install captcha 生成验证码: # -*- coding: ...
字符型图片验证码识别完整过程及Python实现
字符型图片验证码识别完整过程及Python实现 1 摘要验证码是目前互联网上非常常见也是非常重要的一个事物,充当着很多系统的防火墙功能,但是随时OCR技术的发展,验证码暴露出来的安全问题也越 ...
基于LeNet网络的中文验证码识别
基于LeNet网络的中文验证码识别由于公司需要进行了中文验证码的图片识别开发,最近一段时间刚忙完上线,好不容易闲下来就继上篇<基于Windows10 x64+visual Studio2013 ...
使用tensorflow搭建自己的验证码识别系统
目录准备验证码数据保存为tfrecords文件验证码训练学习tensorflow有一段时间了,想做点东西来练一下手.为了更有意思点,下面将搭建一个简单的验证码识别系统. 准备验证码数据下面将 ...
Pyhthon爬虫其之验证码识别
背景现在的登录系统几乎都是带验证手段的,至于验证的手段也是五花八门,当然用的最多的还是验证码.不过纯粹验证码识已经是很落后的东西了,现在比较多见的是滑动验证,滑动拼图验证(这个还能往里面加广告).点 ...

随机推荐

css写法
id选择器 > 类选择器 > 标签选择器 @charset "utf-8"; charset=utf-8 表示当前文档的字符集是采用utf-8的字符,也就是我们常说 ...
.NetCore3.1获取文件并重新命名以及大批量更新及写入数据
using Microsoft.AspNetCore.Mvc; using MySql.Data.MySqlClient; using System; using System.Collections ...
MySQL锁(表锁,行锁,共享锁,排它锁,间隙锁)使用详解
锁,在现实生活中是为我们想要隐藏于外界所使用的一种工具.在计算机中,是协调多个进程或县城并发访问某一资源的一种机制.在数据库当中,除了传统的计算资源(CPU.RAM.I/O等等)的争用之外,数据也是一 ...
MySQL 实例空间使用率过高的原因和解决方法
用户在使用 MySQL 实例时,会遇到空间使用告警甚至超过实例限额被锁定的情况.在 RDS 控制台的实例基本信息中,即会出现如下信息: 本文将介绍造成空间使用率过高的常见原因及其相应的解决方法.对于M ...
Spring Boot 入门系列（二十四）多环境配置，3分钟搞定！
之前讲过Spring Boot 的系统配置和自定义配置,实现了按照实际项目的要求配置系统的相关熟悉.但是,在实际项目开发过程中,需要面对不同的环境,例如:开发环境,测试环境,生产环境.各个环境的数据库 ...
MySQL——字符集
-- 字符集:是一个系统支持的所有抽象字符的集合 MySQL数据库的字符集(包括两个部分): 1.字符集:character 2.校对规则:collation MySQL中常见的字符集: utf8 l ...
python打包发布自己的pip项目
原文链接:https://blog.csdn.net/Liangjun_Feng/article/details/80037315 一.注册pypi账号网址:https://pypi.org/ 直接 ...
shell脚本获取文件名、路径名、文件类型
1. 从字符串获取指定内容从字符串中提取特定的信息,常用于获取文件名.文件类型.所在路径等. 1.1 获取字符串信息用指定的方式(PATTERN)从字符串(PARAMETERS)中移除内容 &qu ...
TreeView和ListView数据库查询数据联动操作
好久不用了,重新整理下放这里以备需要使用,功能见图数据库表结构定义TreeView addObject中data存储的记录集 type PNode = ^TNode; TNode = record ...
Abp Vnext3 vue-admin-template(三获取用户信息)
因为获取用户比较简单,只需要把用户名及头像地址赋值即可(也许理解错误,如果发现请告知谢谢), 首先将src\api\usr.js中的url请求地址改为以下代码 export function getI ...

captcha_trainer 验证码识别-训练 使用记录

captcha_trainer 验证码识别-训练 使用记录

训练集准备

设置训练配置

开始训练

调用 pb 文件进行识别

结语

captcha_trainer 验证码识别-训练 使用记录的更多相关文章

随机推荐

热门专题

captcha_trainer 验证码识别-训练使用记录

captcha_trainer 验证码识别-训练使用记录

captcha_trainer 验证码识别-训练使用记录的更多相关文章