Tesseract 对验证码的识别原理和实现步骤

邹烈传 2024-10-27 05:14:11 原文

一. Steps：

学习图片库--->处理图片（初步处理）--->校正.学习图片

二. Tesseract:

1. 采集图片库（一般每个出现的字符出现20次左右识别效果比较好），根据图片特点进行初步处理（二值化/灰度化/滤波/降噪等处理），并保存为.tif格式（x.tif)；

2. 使用JTessBoxEditor ,将得到的.tif图片合并为一张图片（Tool—>MergeTiff）；

3. 下载安装tesseract-ocr-setup-3.01-1.exe；

4. 安装后，运行命令行到.tif格式（x.tif)文件夹中，输入tesseract.exe x.tif x batch.nochop makebox;(PS:保存为同名同文件夹下）

5. 使用JTessBoxEditor打开x.tif文件进行逐个校正；（PS:每次校正后都得保存）

6.校正后，命令行执行：

tesseract.exe x.tif x nobatch box.train;

unicharset_extractor.exe x.box;

7. 在目录下建立名为“font_properties”的文件，并输入内容：x 1 0 0 1 0；

8.命令行执行：

cntraining.exe x.tr;

mftraining.exe –F font_properties –U unicharset x.tr;

9. 将目录下生成的文件其中几个unicharset/inttemp/normproto/pffmtable文件加上训练名前缀“x.”;

10.命令行执行：

combine_tessdata x. 生成最终的校验学习数据x.traineddata文件；

生成最终的文件示例如下：

11.将x.traineddata拷贝到tesseract-ocr-setup-3.01-1.exe安装好的tesseract-ocr目录下的tessdata下，找一张

经过初步处理的图片，运行命令行执行：tesseract.exe xx.jpg out –l lm；在同级目录下就会生成一个out.txt文件，里面的内容就是识别后的字符串。

Tesseract 对验证码的识别原理和实现步骤的更多相关文章

Atitit ocr识别原理与概论 attilax总结
Atitit ocr识别原理与概论 attilax总结 1.1. Ocr的过程与流程1 1.2. OCR不同技术细分略有不同,但大概原理是一样的. 即主要技术过程是:二值化(又叫归一化)----- ...
e2e 自动化集成测试架构实例 WebStorm Node.js Mocha WebDriverIO Selenium Step by step （二）图片验证码的识别
上一篇文章讲了“e2e 自动化集成测试架构京东商品搜索实例 WebStorm Node.js Mocha WebDriverIO Selenium Step by step 一京东商品搜索 ...
Atitit 图像处理--图像分类模式识别肤色检测识别原理与attilax的实践总结
Atitit 图像处理--图像分类模式识别肤色检测识别原理与attilax的实践总结 1.1. 五中滤镜的分别效果..1 1.2. 基于肤色的图片分类1 1.3. 性能提升2 1.4. --co ...
tensorflow：验证码的识别（下）
上两篇详细的说明了验证码的识别,不过我们采用的是方法二,下面采用方法一.注意和方法二的区别. 验证码识别方法一: 把标签转为向量,向量长度为40.(4位数字验证码) 验证码的生成和tf.record的 ...
tensorflow：验证码的识别（上）
验证码的识别主要分成四个部分:验证码的生成.将生成的图片制作成tfrecord文件.训练识别模型.测试模型使用pyCharm作为编译器.本文先介绍前两个部分验证码的识别有两种方法: 验证码识别方 ...
Python爬虫学习笔记之微信宫格验证码的识别(存在问题)
本节我们将介绍新浪微博宫格验证码的识别.微博宫格验证码是一种新型交互式验证码,每个宫格之间会有一条指示连线,指示了应该的滑动轨迹.我们要按照滑动轨迹依次从起始宫格滑动到终止宫格,才可以完成验证,如 ...
HanLP-基于HMM-Viterbi的人名识别原理介绍
Hanlp自然语言处理包中的基于HMM-Viterbi处理人名识别的内容大概在年初的有分享过这类的文章,时间稍微久了一点,有点忘记了.看了 baiziyu 分享的这篇比我之前分享的要简单明了的多.下面 ...
爬虫(十二)：图形验证码的识别、滑动验证码的识别（B站滑动验证码）
1. 验证码识别随着爬虫的发展,越来越多的网站开始采用各种各样的措施来反爬虫,其中一个措施便是使用验证码.随着技术的发展,验证码也越来越花里胡哨的了.最开始就是几个数字随机组成的图像验证码,后来加入 ...
基于Tesseract组件的OCR识别
基于Tesseract组件的OCR识别背景以及介绍欲研究C#端如何进行图像的基本OCR识别,找到一款开源的OCR识别组件.该组件当前已经已经升级到了4.0版本.和传统的版本(3.x)比,4.0时代 ...

随机推荐

Javascript备忘
js输出对象类型: Object.prototype.toString.apply(s) 设置单行点击效果: obj.style.background = "#efefef";se ...
查看MySQL配置文件路径及相关配置
[root@DB ~]# /usr/local/mysql/bin/mysqld --verbose --help |grep -A 1 'Default options' Default optio ...
JUC回顾之-Semaphore底层实现和原理
1.控制并发线程数的Semaphore Semaphore(信号量)是用来控制同时访问特定资源的线程数量,它通过协调各个线程,保证合理的使用公共资源. 线程可以通过acquire()方法来获取信号量的 ...
使用VS自带的报表RDLC结合报表控件ReportViewer使用
1.新建一个报表,设置报表之后,使用强类型的DataSet xsd 配置数据源,对报表中的使用最常用的是文本框和表格控件 2.新增WebForm窗体,拖一个ReportViewer控件,在WebFo ...
php动态安装mongo扩展
首先下载mongo扩展包 http://pecl.php.net/package/mongo 开始安装把 wget http://pecl.php.net/get/mongo-1.5.8.tgz t ...
hdu 2184 01背包变形
转自:http://blog.csdn.net/liuqiyao_01/article/details/8753686 题意:这是又是一道01背包的变体,题目要求选出一些牛,使smartness和fu ...
HDU 4513 吉哥系列故事——完美队形II manacher
吉哥系列故事——完美队形II Problem Description 吉哥又想出了一个新的完美队形游戏! 假设有n个人按顺序站在他的面前,他们的身高分别是h[1], h[2] ... h[n],吉哥希 ...
【codevs2216】行星序列线段树区间两异同修改+区间求和*****
[codevs2216]行星序列 2014年2月22日3501 题目描述 Description “神州“载人飞船的发射成功让小可可非常激动,他立志长大后要成为一名宇航员假期一始,他就报名参加了“小小 ...
利用jQuery实现CheckBox全选/全不选/反选
转自:http://www.cnblogs.com/linjiqin/p/3148259.html jQuery有些版本中实现CheckBox全选/全不选/反选会有bug,经测试jquery-1.3. ...
WireShark抓包过程
wireshark是非常流行的网络封包分析软件,功能十分强大.可以截取各种网络封包,显示网络封包的详细信息.使用wireshark的人必须了解网络协议,否则就看不懂wireshark了. 为了安全考虑 ...